WO2022054576A1 - 音信号処理方法および音信号処理装置 - Google Patents

音信号処理方法および音信号処理装置 Download PDF

Info

Publication number
WO2022054576A1
WO2022054576A1 PCT/JP2021/031133 JP2021031133W WO2022054576A1 WO 2022054576 A1 WO2022054576 A1 WO 2022054576A1 JP 2021031133 W JP2021031133 W JP 2021031133W WO 2022054576 A1 WO2022054576 A1 WO 2022054576A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound signal
type
sound
signal processing
speaker
Prior art date
Application number
PCT/JP2021/031133
Other languages
English (en)
French (fr)
Inventor
啓 奥村
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to CN202180054332.6A priority Critical patent/CN116034591A/zh
Priority to EP21866536.2A priority patent/EP4213504A1/en
Publication of WO2022054576A1 publication Critical patent/WO2022054576A1/ja
Priority to US18/172,164 priority patent/US20230199423A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Definitions

  • the present invention relates to a sound signal processing method and a sound signal processing device for processing a sound signal.
  • Patent Document 1 describes an acoustic signal compensating device provided with a compensating speaker that outputs compensating sound in order to compensate for the sound reproduced from the speaker being masked by noise such as background noise in a venue such as public viewing. Is disclosed.
  • an object of the present invention is to provide a sound signal processing method and a sound signal processing device that can improve the sense of presence even with a small amount of equipment.
  • the sound signal processing method acquires a sound signal, determines the type of the sound signal, sets a plurality of virtual speakers, and when the determined type of the sound signal is the first type, the plurality of virtual speakers.
  • the first sound signal that has undergone localization processing to localize the sound image to any one of the virtual speakers is generated and the determined type of the sound signal is the second type, two or more of the plurality of virtual speakers are used.
  • the second sound signal that has been subjected to the distributed processing for distributing and localizing the sound image to the virtual speakers of the above is generated, and the first sound signal and the second sound signal are added to generate an addition signal, and the addition signal is generated by a plurality of. Output to a real speaker.
  • the user can improve the sense of presence with a small amount of equipment.
  • FIG. 1 is a block diagram showing the configuration of the sound signal processing system 1.
  • the sound signal processing system 1 includes a mixer 11, a plurality of information processing terminals 13, and a plurality of speakers 14A to 14G.
  • the mixer 11 and the plurality of information processing terminals 13 are installed in different places.
  • the mixer 11 and the plurality of information processing terminals 13 are connected via the Internet.
  • the mixer 11 is connected to a plurality of speakers 14A to 14G.
  • the mixer 11 and the plurality of speakers 14A to 14G are connected via a network cable or an audio cable.
  • the mixer 11 is an example of the sound signal processing device of the present invention.
  • the mixer 11 receives sound signals from a plurality of information processing terminals 13 via the Internet, performs panning processing and effect processing, and supplies the sound signals to the plurality of speakers 14A to 14G.
  • FIG. 2 is a schematic plan view showing an installation mode of a plurality of speakers 14A to 14G.
  • the plurality of speakers 14A to 14G are installed along the wall surface of the live house 70.
  • the live house 70 in this example has a rectangular shape in a plan view.
  • a stage 50 is arranged in front of the live house 70. At stage 50, the performer performs a performance such as singing or playing.
  • the speaker 14A is installed on the left side of the stage 50, and the speaker 14B is installed on the right side of the stage 50.
  • the speaker 14C is installed on the left side of the center of the front and rear of the live house 70, and the speaker 14D is installed on the right side of the center of the front and rear of the live house 70.
  • the speaker 14E is installed on the rear left side of the live house 70, the speaker 14F is installed in the center of the left and right behind the live house 70, and the speaker 14G is installed on the rear right side of the live house 70.
  • the listener L1 in front of the speaker 14F.
  • the listener L1 watches the performer's performance and cheers, applauds, or calls the performer.
  • the sound signal processing system 1 outputs sounds such as cheers, applause, or calls from other listeners into the live house 70 via the speakers 14A to 14G. Sounds such as cheers, applause, or calls from other listeners are input from the information processing terminal 13 to the mixer 11.
  • the information processing terminal 13 is a portable information processing device such as a personal computer (PC), a tablet computer, or a smartphone.
  • the user of the information processing terminal 13 is a listener who remotely watches a performance such as singing or playing a live house 70.
  • the information processing terminal 13 acquires sounds such as cheers, applause, or calls from each listener through a microphone (not shown). Alternatively, the information processing terminal 13 displays icon images such as "cheer”, “applause”, “call”, and “buzz” on a display (not shown), and accepts a selection operation for these icon images from the listener. May be good. When the information processing terminal 13 receives the selection operation for these icon images, the information processing terminal 13 may generate a sound signal corresponding to each icon image and acquire it as a sound such as a listener's cheering, applause, or calling.
  • the information processing terminal 13 transmits sounds such as cheering, applause, or calling of each listener to the mixer 11 via the Internet.
  • the mixer 11 receives sounds such as cheers, applause, or calls from each listener.
  • the mixer 11 performs panning processing and effect processing on the received sound, and distributes the sound signal to the plurality of speakers 14A to 14G.
  • the sound signal processing system 1 can deliver sounds such as cheers, applause, or calls from a large number of listeners to the live house 70.
  • FIG. 3 is a block diagram showing a hardware configuration of the mixer 11.
  • FIG. 4 is a block diagram showing a functional configuration of the mixer 11.
  • FIG. 5 is a flowchart showing the operation of the mixer 11.
  • the mixer 11 includes a display 101, a user I / F (interface) 102, an audio I / O (Input / Output) 103, a signal processing unit (DSP) 104, a network I / F 105, a CPU 106, a flash memory 107, and a RAM 108. I have. These configurations are connected via bus 171.
  • the CPU 106 is a control unit that controls the operation of the mixer 11.
  • the CPU 106 performs various operations by reading a predetermined program stored in the flash memory 107, which is a storage medium, into the RAM 108 and executing the program.
  • the program read by the CPU 106 does not need to be stored in the flash memory 107 in the own device.
  • the program may be stored in a storage medium of an external device such as a server.
  • the CPU 106 may read the program from the server into the RAM 108 and execute the program each time.
  • the signal processing unit 104 is composed of a DSP for performing various signal processing.
  • the signal processing unit 104 receives a sound signal related to a listener's cheering, applause, calling, etc. from the information processing terminal 13 via the network I / F 105.
  • the signal processing unit 104 performs panning processing and effect processing on the received sound signal.
  • the signal processing unit 104 outputs the sound signal after signal processing to the speaker 14A to the speaker 14G via the audio I / O 103.
  • the CPU 106 and the signal processing unit 104 functionally include an acquisition unit 301, a determination unit 302, a setting unit 303, a localization processing unit 304, a distributed processing unit 305, and an addition unit 306.
  • the acquisition unit 301 acquires sound signals related to the cheering, applause, calling, etc. of the listener from each of the plurality of information processing terminals 13 (S11). After that, the determination unit 302 determines the type of the sound signal (S12).
  • the type of sound signal includes the first type or the second type.
  • the first type includes cheering of each listener such as "Ganbare", calling for the performer's personal name, or exclamation words such as "Bravo". That is, the first type is a sound that can be recognized as an individual listener's voice without being buried in the audience.
  • the second type is a sound produced by many listeners at the same time, which cannot be recognized as the voice of an individual listener, and includes, for example, applause, chorus, cheers such as "wow", and noise.
  • the determination unit 302 determines that the sound signal is the first type.
  • the determination unit 302 determines that the sound signal that does not recognize the voice is the second type.
  • the determination unit 302 outputs the sound signal determined to be the first type to the localization processing unit 304, and outputs the sound signal determined to be the second type to the distributed processing unit 305.
  • the localization processing unit 304 and the distributed processing unit 305 set a plurality of virtual speakers (S13).
  • FIG. 6 is a schematic plan view of a live house 70 showing a virtual speaker.
  • the localization processing unit 304 and the distributed processing unit 305 set a plurality of virtual speakers 14N1 to virtual speakers 14N16.
  • the localization processing unit 304 and the distribution processing unit 305 have two-dimensional or three-dimensional Cartesian coordinates with a predetermined position of the live house (for example, the center of the stage 50) as the origin, and the speaker 14A to the speaker 14G and the virtual speaker 14N1 to the virtual speaker 14N16.
  • the speaker 14A to the speaker 14G are real speakers. Therefore, the coordinates of the speaker 14A to the speaker 14G are stored in advance in the flash memory 107 (or a server (not shown) or the like).
  • the localization processing unit 304 and the distributed processing unit 305 evenly arrange the virtual speakers 14N1 to the virtual speakers 14N16 in the entire live house 70. Further, in the example of FIG. 6, the localization processing unit 304 and the distributed processing unit 305 also set the virtual speaker 14N16 at a position outside the live house 70.
  • the virtual speaker setting process (S13) does not need to be performed after the sound signal type determination process (S12).
  • the virtual speaker setting process (S13) may be performed in advance before the sound signal acquisition process (S11) or the sound signal type determination process (S12).
  • the localization processing unit 304 performs localization processing to generate a first sound signal
  • the distributed processing unit 305 performs distributed processing to generate a second sound signal (S14).
  • the localization process is a process of localizing the sound image at any one of the virtual speaker 14N1 to the virtual speaker 14N16.
  • the position where the sound image is localized is not limited to the virtual speaker 14N1 to the virtual speaker 14N16.
  • the localization processing unit 304 outputs a sound signal to any one of the speakers 14A to 14G.
  • the localization position of the first type of sound signal may be set at random, but the mixer 11 may be provided with a position information receiving unit that receives position information from the listener.
  • the listener operates the information processing terminal 13 to specify the localization position of his / her voice.
  • the information processing terminal 13 displays an image imitating a plan view or a perspective view of a live house 70, and receives a localization position from a user.
  • the information processing terminal 13 transmits the position information (coordinates) corresponding to the received localization position to the mixer 11.
  • the localization processing unit 304 of the mixer 11 sets a virtual speaker at the coordinates corresponding to the position information received from the information processing terminal 13, and performs a process of localizing the sound image at the set virtual speaker position.
  • the localization processing unit 304 performs panning processing or effect processing in order to localize the sound image at the positions of the virtual speakers 14N1 to the virtual speakers 14N16.
  • the panning process is a process of supplying the same sound signal to a plurality of speakers among the speakers 14A to 14G and controlling the volume of the supplied sound signals to localize the sound image at the position of the virtual speaker. For example, if the same sound signal of the same volume is supplied to the speaker 14A and the speaker 14C, the sound image is localized as if a virtual speaker is installed at the center position on the straight line connecting the speaker 14A and the speaker 14C. That is, the panning process is a process of increasing the volume of the sound signal supplied to the speaker near the position of the virtual speaker and decreasing the volume of the sound signal supplied to the speaker far from the position of the virtual speaker. In FIG. 6, a plurality of virtual speakers 14N1 to 14N16 are set on the same plane. However, the localization processing unit 304 can also localize the sound image to a virtual speaker at an arbitrary position on the three-dimensional coordinates by supplying the same sound signal to a plurality of speakers installed at different heights.
  • the effect process includes, for example, a process of adding a delay. If a delay is added to the sound signals supplied to the actual speakers 14A to 14G, the listener perceives the sound image at a position farther than the actual speakers. Therefore, the localization processing unit 304 can localize the sound image to the virtual speaker set at a position farther than the actual speakers 14A to the speaker 14G by adding a delay to the sound signal.
  • the effect process may include a process of adding reverb.
  • the listener perceives the sound image at a position farther than the position of the actual speaker. Therefore, the localization processing unit 304 can localize the sound image to the virtual speaker set at a position farther than the actual speakers 14A to the speaker 14G by applying the reverb to the sound signal.
  • the effect process may include a process of imparting frequency characteristics by an equalizer.
  • the listener perceives the sound image not only by the difference in volume and time between the ears but also by the difference in frequency characteristics. Therefore, the localization processing unit 304 also imparts frequency characteristics according to the transmission characteristics from the position of the target virtual speaker to the target listening position (for example, the center of the stage 50), so that the sound image is displayed at the set position of the virtual speaker. Can be localized.
  • the distributed processing is a processing of distributing the sound image to a plurality of the virtual speakers 14N1 to the virtual speakers 14N16 to localize the sound image.
  • the distributed processing unit 305 also outputs a sound signal to any one of the speakers 14A to the speaker 14G when the position where the sound image is localized matches the positions of the actual speakers 14A to the speaker 14G.
  • the distributed processing unit 305 performs panning processing or effect processing in order to localize the sound image at a plurality of positions of the virtual speaker 14N1 to the virtual speaker 14N16.
  • the method of localizing each sound image to any position of the virtual speaker 14N1 to the virtual speaker 14N16 is the same as that of the localization processing unit 304.
  • the distributed processing unit 305 reproduces sounds such as applause, chorus, cheers, and noise by distributing the sound image to a plurality of virtual speakers and localizing the sound image.
  • the distributed processing unit 305 may further perform a process of perceiving a spatial spread such as reverb.
  • the distributed processing unit 305 adjusts the output timing of the sound signal output from the speaker 14A to the speaker 14G, and shifts the arrival timing of the sound output from the plurality of existing speakers to the listener. As a result, the distributed processing unit 305 can further disperse the sound and give a spatial spread.
  • the addition unit 306 adds the localization-processed first sound signal and the distributed-processed second sound signal as described above (S15).
  • the addition process is performed by an addition calculator for each speaker.
  • the addition unit 306 outputs the addition signal obtained by adding the first sound signal and the second sound signal to each of a plurality of existing speakers (S16).
  • FIG. 7 is a plan view schematically showing the output modes of the first sound signal and the second sound signal.
  • the voice such as "Bravo” is output from a specific virtual speaker.
  • audio such as "Bravo” is output from the virtual speaker 14N3 in the front center of the audience seat, the virtual speakers 14N9 on the left and right behind each seat, the virtual speaker 14N12, and the virtual speaker 14N16 behind the live house 70.
  • the speaker. Applause and cheers such as "Wow” are output from a plurality of virtual speakers.
  • the performers of the stage 50 can hear the voices, applause, cheers, etc. of the listeners from places other than the listener L1, and can perform live performances in an environment full of presence.
  • the listener L1 in the live house 70 can also hear the voices, applause, cheers, etc. of many listeners in the same space, and can watch the live performance in an environment full of realism.
  • the sound signal processing method of the present embodiment can emit listeners' voices, applause, cheers, etc. from a larger number of virtual speakers 14N1 to 14N16 than the actual speakers 14A to 14G. Therefore, the sound signal processing method of the present embodiment can output the voice, applause, cheers, etc. of the listener from various positions even with a small amount of equipment, and can improve the sense of presence. Further, in the sound signal processing method of the present embodiment, by setting the position of the virtual speaker to a position outside the space of the actual venue, the listener can imitate the environment of the venue even larger than the actual space. It can output voices, applause, cheers, etc.
  • the sound signal processing method of the present embodiment can also improve the presence of each listener in a remote location using the information processing terminal 13.
  • FIG 8, 9, and 10 are plan views schematically showing the viewing environment of each listener using the information processing terminal 13.
  • the speaker 14FL, the speaker 14FR, the speaker 14C, the speaker 14SL, and the speaker 14SR are installed along the wall surface of the living room 75.
  • the living room 75 in this example has a rectangular shape in a plan view.
  • a display 55 is arranged in front of the living room 75.
  • Listener L2 is in the center of the room. The listener L2 observes the performer's performance displayed on the display 55.
  • the speaker 14FL is installed on the left side of the display 55, the speaker 14C is installed in front of the display 55, and the speaker 14FR is installed on the right side of the display 55.
  • the speaker 14SL is installed on the rear left side of the living room 75, and the speaker 14SR is installed on the rear right side of the living room 75.
  • the information processing terminal 13 acquires video and sound related to the performance of the performer.
  • the mixer 11 acquires a sound such as a performance sound or a singing sound of a performer and transmits it to an information processing terminal 13.
  • the information processing terminal 13 performs signal processing such as panning processing and effect processing on the acquired sound, and outputs the sound signal after the signal processing to the speaker 14FL, the speaker 14FR, the speaker 14C, the speaker 14SL, and the speaker 14SL. Output to speaker 14SR.
  • the speaker 14FL, the speaker 14FR, the speaker 14C, the speaker 14SL, and the speaker 14SR output the sound related to the performance of the performer.
  • the information processing terminal 13 acquires a sound signal related to the cheering, applause, calling, etc. of another listener from the other information processing terminal 13. Similar to the mixer 11, the information processing terminal 13 determines the type of sound signal and performs localization processing or distributed processing.
  • the listener L2 can get a sense of reality as if he / she is in the center of the live house 70 and is watching the performance of the performer with a large number of spectators even in the living room 75.
  • the information processing terminal 13 may include a seat designation reception unit that receives seat position designation information from the listener. In this case, the information processing terminal 13 changes the contents of the panning process and the effect process based on the designated information of the seat position. For example, if the listener specifies a seat position immediately in front of the stage 50, the information processing terminal 13 sets the listener L2 to a position immediately in front of the stage 50 as shown in FIG. 10, and sets a plurality of virtual speakers. Set and perform localization processing and distributed processing of sound signals related to cheering, applause, or calling of other listeners. As a result, the listener L2 can get a sense of reality as if he / she is in front of the stage 50.
  • the provider of the sound signal processing system provides tickets such as the seat position in front of the stage, the seat position next to the stage, the seat position in the center of the live house, or the seat position behind.
  • the user of the information processing terminal 13 purchases a ticket for one of these seat positions.
  • the user can, for example, select an expensive and highly realistic seat position in front of the stage, or select a low-priced rear seat position.
  • the information processing terminal 13 changes the contents of the panning process and the effect process according to the seat position selected by the user. As a result, the user can get a sense of realism as if he / she is in the seat position he / she purchased and watches the performance.
  • the provider of the sound signal processing method can carry out a business equivalent to the state of providing an event in an actual space.
  • a plurality of users may specify the same seat position.
  • a plurality of users may each specify a seat position immediately in front of the stage 50.
  • the information processing terminal 13 of each user gives the feeling of being in the seat position immediately in front of the stage 50.
  • a plurality of listeners can watch the performer's performance with the same sense of presence in one seat. Therefore, the provider of the sound signal processing method can provide services that exceed the number of spectators that can be accommodated in the actual space.
  • the type of the sound signal is determined to be the first type, and the voice cannot be recognized by the voice recognition process. In this case, it was determined that the type of sound signal was the second type.
  • the sound signal may include a plurality of channels, and may include additional information (metadata) indicating whether the sound signal is the first type or the second type for each channel.
  • additional information such as "cheering", “clapping”, “calling”, and "buzzing" from the listener and generates a corresponding sound signal
  • the information processing terminal 13 generates the corresponding sound signal.
  • the sound signal of the channel corresponding to the above is generated, additional information is attached, and the sound signal is transmitted to the mixer 11.
  • the determination unit 302 of the mixer 11 determines the type of the sound signal for each channel based on the additional information.
  • the sound signal may include both the first type and the second type of sound sources.
  • the mixer 11 (or the information processing terminal 13) separates the sound signal of the first type and the sound signal of the second type into sound sources.
  • the localization processing unit 304 and the distributed processing unit 305 generate a first sound signal and a second sound signal from the separated sound signals. Any method of sound source separation may be used.
  • the first type is the utterance sound of a particular listener. Therefore, the determination unit 302 separates the first type of sound signal by using the noise reduction process of erasing the uttered sound as the target sound and the other sounds as the noise sound.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

音信号処理方法は、音信号を取得し、前記音信号の種別を判定し、複数の仮想スピーカを設定して、判定した前記音信号の種別が第1の種別の時に、前記複数の仮想スピーカのうちいずれか1つの仮想スピーカに音像定位をさせる定位処理を施した第1音信号を生成し、判定した前記音信号の種別が第2の種別の時に、前記複数の仮想スピーカのうち2以上の仮想スピーカに分散して音像定位させる分散処理を施した第2音信号を生成し、前記第1音信号と前記第2音信号を加算して加算信号を生成し、前記加算信号を複数の実在のスピーカに出力する。

Description

音信号処理方法および音信号処理装置
 この発明は、音信号を処理する音信号処理方法および音信号処理装置に関する。
 特許文献1には、パブリックビューイング等の会場において、スピーカから再生される音が暗騒音等の雑音によりマスクされるのを補償するため、補償音を出力する補償スピーカを備えた音響信号補償装置が開示されている。
特開2017-200025号公報
 会場にスピーカ等の機材を多数設置すれば、音質が向上し、臨場感が向上する。しかし、機材の数を増やすと配線の手間、電源の確保、および人手の確保等が必要になる。
 そこで、この発明は、少ない機材でも臨場感を向上させることができる音信号処理方法および音信号処理装置を提供することを目的とする。
 音信号処理方法は、音信号を取得し、前記音信号の種別を判定し、複数の仮想スピーカを設定して、判定した前記音信号の種別が第1の種別の時に、前記複数の仮想スピーカのうちいずれか1つの仮想スピーカに音像定位をさせる定位処理を施した第1音信号を生成し、判定した前記音信号の種別が第2の種別の時に、前記複数の仮想スピーカのうち2以上の仮想スピーカに分散して音像定位させる分散処理を施した第2音信号を生成し、前記第1音信号と前記第2音信号を加算して加算信号を生成し、前記加算信号を複数の実在のスピーカに出力する。
 利用者は、少ない機材でも臨場感を向上させることができる。
音信号処理システム1の構成を示すブロック図である。 複数のスピーカ14A~スピーカ14Gの設置態様を示す平面概略図である。 ミキサ11の構成を示すブロック図である。 ミキサ11の機能的構成を示すブロック図である。 ミキサ11の動作を示すフローチャートである。 仮想スピーカを示したライブハウス70の平面概略図である。 第1音信号および第2音信号の出力態様を模式化した平面図である。 情報処理端末13を使用する各リスナの視聴環境を模式的に示した平面図である。 情報処理端末13を使用する各リスナの視聴環境を模式的に示した平面図である。 情報処理端末13を使用する各リスナの視聴環境を模式的に示した平面図である。
 図1は、音信号処理システム1の構成を示すブロック図である。音信号処理システム1は、ミキサ11、複数の情報処理端末13、および複数のスピーカ14A~スピーカ14Gを備えている。
 ミキサ11および複数の情報処理端末13は、それぞれ別の場所に設置されている。ミキサ11および複数の情報処理端末13は、インターネットを介して接続されている。
 ミキサ11は、複数のスピーカ14A~スピーカ14Gに接続されている。ミキサ11および複数のスピーカ14A~スピーカ14Gは、ネットワークケーブルまたはオーディオケーブルを介して接続されている。
 ミキサ11は、本発明の音信号処理装置の一例である。ミキサ11は、インターネットを介して複数の情報処理端末13から音信号を受信し、パニング処理およびエフェクト処理を行ない、複数のスピーカ14A~スピーカ14Gに音信号を供給する。
 図2は、複数のスピーカ14A~スピーカ14Gの設置態様を示す平面概略図である。複数のスピーカ14A~スピーカ14Gは、ライブハウス70の壁面に沿って設置されている。この例のライブハウス70は、平面視して矩形状である。ライブハウス70の前方にはステージ50が配置されている。ステージ50では、演者が歌唱あるいは演奏等のパフォーマンスを行なう。
 スピーカ14Aは、ステージ50の左側に設置され、スピーカ14Bは、ステージ50の右側に設置されている。スピーカ14Cは、ライブハウス70の前後中央の左側、スピーカ14Dは、ライブハウス70の前後中央の右側に設置されている。スピーカ14Eはライブハウス70の後方左側に設置され、スピーカ14Fは、ライブハウス70の後方の左右中央に設置され、スピーカ14Gは、ライブハウス70の後方の右側に設置されている。
 スピーカ14Fの前には、リスナL1が居る。リスナL1は、演者のパフォーマンスを視聴し、演者に対して声援、拍手、または呼びかけ等を行なう。音信号処理システム1は、スピーカ14A~スピーカ14Gを介して他のリスナの声援、拍手、または呼びかけ等の音をライブハウス70内に出力する。他のリスナの声援、拍手、または呼びかけ等の音は、情報処理端末13からミキサ11に入力される。情報処理端末13は、パーソナルコンピュータ(PC)、タブレット型コンピュータ、またはスマートフォン等の携帯型の情報処理装置である。情報処理端末13のユーザは、ライブハウス70の歌唱あるいは演奏等のパフォーマンスを遠隔で視聴するリスナとなる。情報処理端末13は、不図示のマイクを介して、それぞれのリスナの声援、拍手、または呼びかけ等の音を取得する。あるいは、情報処理端末13は、表示器(不図示)に「声援」、「拍手」、「呼びかけ」、および「ざわめき」等のアイコン画像を表示し、リスナからこれらアイコン画像に対する選択操作を受け付けてもよい。情報処理端末13は、これらアイコン画像に対する選択操作を受け付けると、それぞれのアイコン画像に対応する音信号を生成し、リスナの声援、拍手、または呼びかけ等の音として取得してもよい。
 情報処理端末13は、インターネットを介してミキサ11にそれぞれのリスナの声援、拍手、または呼びかけ等の音を送信する。ミキサ11は、それぞれのリスナの声援、拍手、または呼びかけ等の音を受信する。ミキサ11は、受信した音にパニング処理およびエフェクト処理を行ない、複数のスピーカ14A~スピーカ14Gに音信号を分配する。これにより、音信号処理システム1は、ライブハウス70に多数のリスナの声援、拍手、または呼びかけ等の音を届けることができる。
 以下、ミキサ11の構成および動作について詳細に説明する。図3は、ミキサ11のハードウェア構成を示すブロック図である。図4は、ミキサ11の機能的構成を示すブロック図である。図5は、ミキサ11の動作を示すフローチャートである。
 ミキサ11は、表示器101、ユーザI/F(インタフェース)102、オーディオI/O(Input/Output)103、信号処理部(DSP)104、ネットワークI/F105、CPU106、フラッシュメモリ107、およびRAM108を備えている。これら構成は、バス171を介して接続されている。
 CPU106は、ミキサ11の動作を制御する制御部である。CPU106は、記憶媒体であるフラッシュメモリ107に記憶された所定のプログラムをRAM108に読み出して実行することにより各種の動作を行なう。
 なお、CPU106が読み出すプログラムは、自装置内のフラッシュメモリ107に記憶されている必要はない。例えば、プログラムは、サーバ等の外部装置の記憶媒体に記憶されていてもよい。この場合、CPU106は、該サーバから都度プログラムをRAM108に読み出して実行すればよい。
 信号処理部104は、各種信号処理を行なうためのDSPから構成される。信号処理部104は、ネットワークI/F105を介して情報処理端末13からリスナの声援、拍手、または呼びかけ等に係る音信号を受信する。
 信号処理部104は、受信した音信号に、パニング処理およびエフェクト処理を行なう。信号処理部104は、信号処理後の音信号を、オーディオI/O103を介して、スピーカ14A~スピーカ14Gに出力する。
 図4に示すように、CPU106および信号処理部104は、機能的に、取得部301、判定部302、設定部303、定位処理部304、分散処理部305、および加算部306を備えている。
 取得部301は、複数の情報処理端末13のそれぞれからリスナの声援、拍手、または呼びかけ等に係る音信号を取得する(S11)。その後、判定部302は、音信号の種別を判定する(S12)。
 音信号の種別は、第1の種別または第2の種別を含む。第1の種別は、リスナ各自の「がんばれー」等の声援、演者の個人名の呼びかけ、または「ブラボー」等の感嘆詞等を含む。すなわち、第1の種別は、聴衆に埋もれずに個別のリスナの声として認識できる音である。第2の種別は、個別のリスナの声として認識できない、多くのリスナが同時に発する音であり、例えば拍手、合唱、または「わー」等の歓声、ざわめき等を含む。
 判定部302は、例えば音声認識処理により、上記の様な「がんばれー」、「ブラボー」等の音声を認識した場合に、当該音信号を第1の種別であると判定する。判定部302は、音声を認識しない音信号を第2の種別と判定する。
 判定部302は、第1の種別と判定した音信号を定位処理部304に出力し、第2の種別と判定した音信号を分散処理部305に出力する。定位処理部304および分散処理部305は、複数の仮想スピーカを設定する(S13)。
 図6は、仮想スピーカを示したライブハウス70の平面概略図である。図6に示す様に、定位処理部304および分散処理部305は、複数の仮想スピーカ14N1~仮想スピーカ14N16を設定する。定位処理部304および分散処理部305は、ライブハウスの所定の位置(例えばステージ50の中央)を原点とした2次元または3次元直交座標で、スピーカ14A~スピーカ14G、仮想スピーカ14N1~仮想スピーカ14N16の位置を管理する。スピーカ14A~スピーカ14Gは、実在のスピーカである。そのため、スピーカ14A~スピーカ14Gの座標は、予めフラッシュメモリ107(または不図示のサーバ等)に記憶されている。定位処理部304および分散処理部305は、図6に示す様に、ライブハウス70の全体に仮想スピーカ14N1~仮想スピーカ14N16を万遍なく配置する。また、図6の例では、定位処理部304および分散処理部305は、ライブハウス70の外側の位置にも仮想スピーカ14N16を設定している。
 なお、仮想スピーカの設定処理(S13)は、音信号の種別の判定処理(S12)の後に行なう必要はない。仮想スピーカの設定処理(S13)は、音信号の取得処理(S11)または音信号の種別の判定処理(S12)の前に予め行なってもよい。
 その後、定位処理部304は、定位処理を行って第1音信号を生成し、分散処理部305は、分散処理を行って第2音信号を生成する(S14)。
 定位処理は、仮想スピーカ14N1~仮想スピーカ14N16のうちいずれか1つの位置に音像を定位させる処理である。ただし、音像を定位させる位置は、仮想スピーカ14N1~仮想スピーカ14N16に限らない。定位処理部304は、音像を定位させる位置がスピーカ14A~スピーカ14Gの位置に一致する場合、スピーカ14A~スピーカ14Gのいずれか1つに音信号を出力する。
 なお、第1の種別の音信号の定位位置は、ランダムに設定してもよいが、ミキサ11は、リスナから位置情報を受け付ける位置情報受付部を備えていてもよい。リスナは、情報処理端末13を操作して、自身の音声の定位位置を指定する。例えば、情報処理端末13は、ライブハウス70の平面図または斜視図等を模した画像を表示し、利用者から定位位置を受け付ける。情報処理端末13は、受け付けた定位位置に対応する位置情報(座標)をミキサ11に送信する。ミキサ11の定位処理部304は、情報処理端末13から受信した位置情報に対応する座標に仮想スピーカを設定し、設定した仮想スピーカの位置に音像を定位させる処理を行う。
 定位処理部304は、仮想スピーカ14N1~仮想スピーカ14N16の位置に音像を定位させるために、パニング処理またはエフェクト処理を行う。
 パニング処理は、スピーカ14A~スピーカ14Gのうち複数のスピーカに同じ音信号を供給し、かつ供給する音信号の音量を制御することで、仮想スピーカの位置に音像をファントム定位させる処理である。例えば、スピーカ14Aおよびスピーカ14Cに同じ音量の同じ音信号を供給すれば、スピーカ14Aおよびスピーカ14Cを結ぶ直線上の中央の位置に、仮想スピーカを設置した様に音像定位する。つまり、パニング処理は、仮想スピーカの位置に近いスピーカに供給する音信号の音量を大きくし、仮想スピーカの位置から遠いスピーカに供給する音信号の音量を小さくする処理である。なお、図6においては、同一平面上に複数の仮想スピーカ14N1~仮想スピーカ14N16を設定している。ただし、定位処理部304は、異なる高さに設置された複数のスピーカに対して同じ音信号を供給することで、3次元座標上の任意の位置の仮想スピーカに音像を定位させることもできる。
 また、エフェクト処理は、例えばディレイを付与する処理を含む。実在のスピーカ14A~スピーカ14Gに供給する音信号にディレイを付与すれば、聴者は、実在のスピーカよりも遠い位置に音像を知覚する。したがって、定位処理部304は、音信号にディレイを付与することで、実在のスピーカ14A~スピーカ14Gよりも遠い位置に設定した仮想スピーカに音像を定位させることができる。
 また、エフェクト処理は、リバーブを付与する処理を含んでいてもよい。音信号にリバーブを付与すれば、聴者は、実在のスピーカの位置よりも遠い位置に音像を知覚する。したがって、定位処理部304は、音信号にリバーブを付与することで、実在のスピーカ14A~スピーカ14Gよりも遠い位置に設定した仮想スピーカに音像を定位させることができる。
 また、エフェクト処理は、イコライザにより周波数特性を付与する処理を含んでいてもよい。聴者は、両耳の音量差および時間差だけでなく、周波数特性の差によっても音像を知覚する。したがって、定位処理部304は、目的の仮想スピーカの位置から目的の聴取位置(例えばステージ50の中央)に至る伝達特性に応じた周波数特性を付与することでも、設定した仮想スピーカの位置に音像を定位させることができる。
 一方、分散処理は、仮想スピーカ14N1~仮想スピーカ14N16のうち複数に分散して音像を定位させる処理である。分散処理部305も、音像を定位させる位置が実在のスピーカ14A~スピーカ14Gの位置に一致する場合、スピーカ14A~スピーカ14Gのいずれか1つに音信号を出力する。
 分散処理部305は、仮想スピーカ14N1~仮想スピーカ14N16の複数の位置に音像を定位させるために、パニング処理またはエフェクト処理を行う。個々の音像を仮想スピーカ14N1~仮想スピーカ14N16のいずれかの位置に定位させる方法は、定位処理部304と同じである。分散処理部305は、複数の仮想スピーカに分散して音像を定位させることで、拍手、合唱、歓声、またはざわめき等の音を再現する。
 なお、上述では、リバーブを付与することで、実在のスピーカ14A~スピーカ14Gよりも遠い位置に設定した仮想スピーカに音像を定位させる例を示した。ただし、リバーブは、聴者に音の空間的な拡がりを知覚させることができる。そのため、分散処理部305は、複数の仮想スピーカに音像を定位させる処理に加えて、さらにリバーブ等の空間的な拡がりを知覚させる処理を行ってもよい。
 また、分散処理部305は、スピーカ14A~スピーカ14Gに出力する音信号の出力タイミングを調整し、複数の実在のスピーカから出力される音の聴者への到達タイミングをずらすことが好ましい。これにより、分散処理部305は、さらに音を分散することができ、空間的な拡がりを与えることができる。
 加算部306は、以上の様にして定位処理された第1音信号および分散処理された第2音信号を加算する(S15)。加算処理は、スピーカ毎の加算演算器により行われる。加算部306は、第1音信号および第2音信号を加算した加算信号を、それぞれの複数の実在のスピーカに出力する(S16)。
 以上の様にして、第1音信号は、仮想スピーカ14N1~仮想スピーカ14N16のいずれか1つを音源として聴者に到達する。第2音信号は、複数の仮想スピーカ14N1~仮想スピーカ14N16から分散して聴者に到達する。図7は、第1音信号および第2音信号の出力態様を模式化した平面図である。図7に示す様に、「ブラボー」等の音声は、特定の仮想スピーカから出力される。図7の例では、客席前方中央の仮想スピーカ14N3、各席後方左右の仮想スピーカ14N9、仮想スピーカ14N12、およびライブハウス70よりも外側の後方の仮想スピーカ14N16から「ブラボー」等の音声が出力される。拍手および「わー」等の歓声は、複数の仮想スピーカから出力される。
 これにより、ステージ50の演者は、リスナL1以外の場所からもリスナの声や拍手、歓声等を聴くことができ、臨場感溢れた環境下でライブパフォーマンスを行うことができる。また、ライブハウス70に居るリスナL1も、同じ空間内で多数のリスナの声や拍手、歓声等を聴くことができ、臨場感溢れた環境下でライブパフォーマンスを視聴することができる。
 特に、本実施形態の音信号処理方法は、実在のスピーカ14A~スピーカ14Gよりも多数の仮想スピーカ14N1~仮想スピーカ14N16からリスナの声や拍手、歓声等を発することができる。したがって、本実施形態の音信号処理方法は、少ない機材でも様々な位置からリスナの声や拍手、歓声等を出力することができ、臨場感を向上させることができる。また、本実施形態の音信号処理方法は、仮想スピーカの位置を実在の会場の空間よりも外側の位置に設定することで、実在の空間よりもさらに大きな会場の環境を模して、リスナの声や拍手、歓声等を出力することができる。
 上記実施形態では、ライブハウス70における臨場感を向上させる例を示した。しかし、本実施形態の音信号処理方法は、情報処理端末13を使用する遠隔地の各リスナの臨場感を向上させることもできる。
 図8、図9および図10は、情報処理端末13を使用する各リスナの視聴環境を模式的に示した平面図である。この例では、スピーカ14FL、スピーカ14FR、スピーカ14C、スピーカ14SL、およびスピーカ14SRが居室75の壁面に沿って設置されている。この例の居室75は、平面視して矩形状である。居室75の前方には表示器55が配置されている。リスナL2は、居室の中央に居る。リスナL2は、表示器55に表示される演者のパフォーマンスを視る。
 スピーカ14FLは、表示器55の左側に設置され、スピーカ14Cは、表示器55の前に設置され、スピーカ14FRは、表示器55の右側に設置されている。スピーカ14SLは居室75の後方左側に設置され、スピーカ14SRは、居室75の後方の右側に設置されている。
 情報処理端末13は、演者のパフォーマンスに係る映像および音を取得する。例えば、図2の例では、ミキサ11は、演者の演奏音または歌唱音等の音を取得し、情報処理端末13に送信する。
 情報処理端末13は、ミキサ11と同様に、取得した音にパニング処理およびエフェクト処理等の信号処理を施して、信号処理後の音信号を、スピーカ14FL、スピーカ14FR、スピーカ14C、スピーカ14SL、およびスピーカ14SRに出力する。スピーカ14FL、スピーカ14FR、スピーカ14C、スピーカ14SL、およびスピーカ14SRは、演者のパフォーマンスに係る音を出力する。
 さらに、情報処理端末13は、他の情報処理端末13から他のリスナの声援、拍手、または呼びかけ等に係る音信号を取得する。情報処理端末13は、ミキサ11と同様に、音信号の種別を判定し、定位処理または分散処理を行う。
 これにより、図9に示す様に、リスナL2は、居室75においても、ライブハウス70の中央に居て多数の観客とともに演者のパフォーマンスを視聴しているような臨場感を得ることができる。
 情報処理端末13は、リスナから座席位置の指定情報を受け付ける座席指定受付部を備えていてもよい。この場合、情報処理端末13は、座席位置の指定情報に基づいてパニング処理およびエフェクト処理の内容を変更する。例えば、リスナがステージ50のすぐ前の座席位置を指定すれば、情報処理端末13は、図10に示す様に、リスナL2をステージ50のすぐ前の位置に設定して、複数の仮想スピーカを設定し、他のリスナの声援、拍手、または呼びかけ等に係る音信号の定位処理および分散処理を行う。これにより、リスナL2は、ステージ50のすぐ前に居るような臨場感を得ることができる。
 音信号処理システムの提供者は、ステージ前の座席位置、ステージ横の座席位置、ライブハウスの中央の座席位置、あるいは後方の座席位置、等のチケットを提供する。情報処理端末13のユーザは、これらの座席位置のうちいずれかの座席位置のチケットを購入する。ユーザは、例えば、高額で臨場感の高いステージ前の座席位置を選んだり、低額の後方座席位置を選んだりすることができる。情報処理端末13は、ユーザの選んだ座席位置に応じてパニング処理およびエフェクト処理の内容を変更する。これにより、ユーザは、自身の購入した座席位置に居てパフォーマンスを視聴するような臨場感を得ることができる。また、音信号処理方法の提供者は、実在の空間でイベントを提供している状態と同等のビジネスを行うことができる。
 さらに、本実施形態の音信号処理方法では、複数のユーザが同じ座席位置を指定しても良い。例えば、複数のユーザがそれぞれステージ50のすぐ前の座席位置を指定してもよい。この場合、それぞれのユーザの情報処理端末13は、ステージ50のすぐ前の座席位置に居るような臨場感を与える。これにより、1つの座席に対して、複数のリスナが同じ臨場感で演者のパフォーマンスを視聴することができる。したがって、音信号処理方法の提供者は、実在の空間の観客収容可能数を超えたサービスを提供することができる。
 本実施形態の説明は、すべての点で例示であって、制限的なものではない。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲には、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
 例えば、上記実施形態では、音信号に対して音声認識処理を行ない、音声認識処理で音声を認識した場合に音信号の種別が前記第1の種別と判定し、音声認識処理で音声を認識できない場合に音信号の種別が前記第2の種別と判定した。しかし、音信号は、複数のチャンネルを含み、チャンネル毎に第1の種別か第2の種別かを示す付加情報(メタデータ)を含んでいてもよい。例えば、情報処理端末13がリスナから「声援」、「拍手」、「呼びかけ」、「ざわめき」等の選択操作を受け付けて対応する音信号を生成する場合、情報処理端末13は、選択された音に対応するチャンネルの音信号を生成し、付加情報を添付して、ミキサ11に音信号を送信する。この場合、ミキサ11の判定部302は、チャンネル毎に、付加情報に基づいて音信号の種別を判定する。
 また、音信号は、第1の種別および第2の種別の両方の音源を含んでいてもよい。この場合、ミキサ11(または情報処理端末13)は、第1の種別の音信号および第2の種別の音信号を音源分離する。定位処理部304および分散処理部305は、分離したそれぞれの音信号から第1音信号および第2音信号を生成する。音源分離の手法は、どの様なものであってもよい。例えば、上述の様に、第1の種別は特定のリスナの発話音である。そのため、判定部302は、発話音を目的音として、他の音をノイズ音として消去するノイズリダクションの処理を用いて、第1の種別の音信号を分離する。
1…音信号処理システム
11…ミキサ
13…情報処理端末
14A~14G…スピーカ
14FL,14FR,14C,14SL,14SR…スピーカ
14N1~14N16…仮想スピーカ
50…ステージ
55…表示器
70…ライブハウス
75…居室
101…表示器
102…ユーザI/F
103…オーディオI/O
104…信号処理部
105…ネットワークI/F
106…CPU
107…フラッシュメモリ
108…RAM
171…バス
301…取得部
302…判定部
303…設定部
304…定位処理部
305…分散処理部
306…加算部

Claims (20)

  1.  音信号を取得し、
     前記音信号の種別を判定し、
     複数の仮想スピーカを設定して、
     判定した前記音信号の種別が第1の種別の時に、前記複数の仮想スピーカのうちいずれか1つの仮想スピーカに音像定位をさせる定位処理を施した第1音信号を生成し、
     判定した前記音信号の種別が第2の種別の時に、前記複数の仮想スピーカのうち2以上の仮想スピーカに分散して音像定位させる分散処理を施した第2音信号を生成し、
     前記第1音信号と前記第2音信号を加算して加算信号を生成し、
     前記加算信号を複数の実在のスピーカに出力する、
     音信号処理方法。
  2.  前記音信号は、複数のチャンネルを含み、
     チャンネル毎に前記種別を判定する、
     請求項1に記載の音信号処理方法。
  3.  前記音信号が前記第1の種別および前記第2の種別の両方の音源を含む場合、前記第1の種別の音信号および前記第2の種別の音信号に音源分離し、
     分離したそれぞれの音信号から前記第1音信号および前記第2音信号を生成する、
     請求項1に記載の音信号処理方法。
  4.  前記音信号に対して音声認識処理を行ない、
     前記音声認識処理で音声を認識した場合に前記音信号の種別が前記第1の種別と判定し、
     前記音声認識処理で音声を認識できない場合に前記音信号の種別が前記第2の種別と判定する、
     請求項1乃至請求項3のいずれか1項に記載の音信号処理方法。
  5.  前記定位処理は、定位させる位置がある実在のスピーカに一致する場合に、その実在のスピーカ単独に前記第1音信号を出力する処理を含む、
     請求項1乃至請求項4のいずれか1項に記載の音信号処理方法。
  6.  ユーザから位置情報を受け付けて、
     前記定位処理は、受け付けた前記位置情報の位置に前記第1音信号を定位させる、
     請求項1乃至請求項5のいずれか1項に記載の音信号処理方法。
  7.  前記定位処理は、パニング処理とエフェクト処理により前記仮想スピーカを実現する、
     請求項1乃至請求項6のいずれか1項に記載の音信号処理方法。
  8.  ユーザから座席位置の指定情報を受け付けて、
     前記座席位置の指定情報に基づいて前記パニング処理および前記エフェクト処理の内容を変更する、
     請求項7に記載の音信号処理方法。
  9.  前記エフェクト処理は、ディレイ、イコライザ、またはリバーブを含む、
     請求項7または請求項8に記載の音信号処理方法。
  10.  前記分散処理は前記第2音信号の出力タイミングの調整を含む、
     請求項1乃至請求項9のいずれか1項に記載の音信号処理方法。
  11.  音信号を取得する取得部と、
     前記音信号の種別を判定する判定部と、
     複数の仮想スピーカを設定する設定部と、
     判定した前記音信号の種別が第1の種別の時に、前記複数の仮想スピーカのうちいずれか1つの仮想スピーカに音像定位をさせる定位処理を施した第1音信号を生成し、
     判定した前記音信号の種別が第2の種別の時に、前記複数の仮想スピーカのうち2以上の仮想スピーカに分散して音像定位させる分散処理を施した第2音信号を生成し、
     前記第1音信号と前記第2音信号を加算して加算信号を生成し、
     前記加算信号を複数の実在のスピーカに出力する、信号処理部と、
     を備えた音信号処理装置。
  12.  前記音信号は、複数のチャンネルを含み、
     前記判定部は、チャンネル毎に前記種別を判定する、
     請求項11に記載の音信号処理装置。
  13.  前記音信号が前記第1の種別および前記第2の種別の両方の音源を含む場合、前記第1の種別の音信号および前記第2の種別の音信号に音源分離する音源分離部を備え、
     分離したそれぞれの音信号から前記第1音信号および前記第2音信号を生成する、
     請求項11に記載の音信号処理装置。
  14.  前記音信号に対して音声認識処理を行なう音声認識処理部を備え、
     前記判定部は、
     前記音声認識処理で音声を認識した場合に前記音信号の種別が前記第1の種別と判定し、
     前記音声認識処理で音声を認識できない場合に前記音信号の種別が前記第2の種別と判定する、
     請求項11乃至請求項13のいずれか1項に記載の音信号処理装置。
  15.  前記定位処理は、定位させる位置がある実在のスピーカに一致する場合に、その実在のスピーカ単独に前記第1音信号を出力する処理を含む、
     請求項11乃至請求項14のいずれか1項に記載の音信号処理装置。
  16.  ユーザから位置情報を受け付ける位置情報受付部を備え、
     前記定位処理は、受け付けた前記位置情報の位置に前記第1音信号を定位させる、
     請求項11乃至請求項15のいずれか1項に記載の音信号処理装置。
  17.  前記定位処理は、パニング処理とエフェクト処理により前記仮想スピーカを実現する、
     請求項11乃至請求項16のいずれか1項に記載の音信号処理装置。
  18.  ユーザから座席位置の指定情報を受け付ける座席指定受付部を備え、
     前記信号処理部は、前記座席位置の指定情報に基づいて前記パニング処理および前記エフェクト処理の内容を変更する、
     請求項17に記載の音信号処理装置。
  19.  前記エフェクト処理は、ディレイ、イコライザ、またはリバーブを含む、
     請求項17または請求項18に記載の音信号処理装置。
  20.  前記分散処理は前記第2音信号の出力タイミングの調整を含む、
     請求項11乃至請求項19のいずれか1項に記載の音信号処理装置。
PCT/JP2021/031133 2020-09-09 2021-08-25 音信号処理方法および音信号処理装置 WO2022054576A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202180054332.6A CN116034591A (zh) 2020-09-09 2021-08-25 声音信号处理方法以及声音信号处理装置
EP21866536.2A EP4213504A1 (en) 2020-09-09 2021-08-25 Sound signal processing method and sound signal processing device
US18/172,164 US20230199423A1 (en) 2020-09-09 2023-02-21 Audio signal processing method and audio signal processing apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-151211 2020-09-09
JP2020151211A JP2022045553A (ja) 2020-09-09 2020-09-09 音信号処理方法および音信号処理装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/172,164 Continuation US20230199423A1 (en) 2020-09-09 2023-02-21 Audio signal processing method and audio signal processing apparatus

Publications (1)

Publication Number Publication Date
WO2022054576A1 true WO2022054576A1 (ja) 2022-03-17

Family

ID=80632330

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/031133 WO2022054576A1 (ja) 2020-09-09 2021-08-25 音信号処理方法および音信号処理装置

Country Status (5)

Country Link
US (1) US20230199423A1 (ja)
EP (1) EP4213504A1 (ja)
JP (1) JP2022045553A (ja)
CN (1) CN116034591A (ja)
WO (1) WO2022054576A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014034555A1 (ja) * 2012-08-29 2014-03-06 シャープ株式会社 音声信号再生装置、方法、プログラム、及び記録媒体
JP2017184174A (ja) * 2016-03-31 2017-10-05 株式会社バンダイナムコエンターテインメント シミュレーションシステム及びプログラム
JP2017200025A (ja) 2016-04-27 2017-11-02 日本放送協会 音響信号補償装置及びそのプログラム
WO2017209196A1 (ja) * 2016-05-31 2017-12-07 シャープ株式会社 スピーカシステム、音声信号レンダリング装置およびプログラム
JP2018121225A (ja) * 2017-01-26 2018-08-02 日本電信電話株式会社 音響再生装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014034555A1 (ja) * 2012-08-29 2014-03-06 シャープ株式会社 音声信号再生装置、方法、プログラム、及び記録媒体
JP2017184174A (ja) * 2016-03-31 2017-10-05 株式会社バンダイナムコエンターテインメント シミュレーションシステム及びプログラム
JP2017200025A (ja) 2016-04-27 2017-11-02 日本放送協会 音響信号補償装置及びそのプログラム
WO2017209196A1 (ja) * 2016-05-31 2017-12-07 シャープ株式会社 スピーカシステム、音声信号レンダリング装置およびプログラム
JP2018121225A (ja) * 2017-01-26 2018-08-02 日本電信電話株式会社 音響再生装置

Also Published As

Publication number Publication date
EP4213504A1 (en) 2023-07-19
US20230199423A1 (en) 2023-06-22
JP2022045553A (ja) 2022-03-22
CN116034591A (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
JP7251592B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US20090094375A1 (en) Method And System For Presenting An Event Using An Electronic Device
CN110910860A (zh) 线上ktv实现方法、装置、电子设备及存储介质
Holman New factors in sound for cinema and television
JP7217725B2 (ja) 音声コンテンツ配信システム
WO2022054576A1 (ja) 音信号処理方法および音信号処理装置
JP2001186599A (ja) 音場創出装置
JP6951610B1 (ja) 音声処理システム、音声処理装置、音声処理方法、及び音声処理プログラム
WO2022113288A1 (ja) ライブデータ配信方法、ライブデータ配信システム、ライブデータ配信装置、ライブデータ再生装置、およびライブデータ再生方法
WO2022113289A1 (ja) ライブデータ配信方法、ライブデータ配信システム、ライブデータ配信装置、ライブデータ再生装置、およびライブデータ再生方法
WO2023042671A1 (ja) 音信号処理方法、端末、音信号処理システム、管理装置
JP2005086537A (ja) 高臨場音場再現情報送信装置、高臨場音場再現情報送信プログラム、高臨場音場再現情報送信方法および高臨場音場再現情報受信装置、高臨場音場再現情報受信プログラム、高臨場音場再現情報受信方法
CN220543284U (zh) 一种智能影音一体机
JP7403436B2 (ja) 異なる音場の複数の録音音響信号を合成する音響信号合成装置、プログラム及び方法
WO2024009677A1 (ja) 音処理方法、音処理装置、およびプログラム
Peters et al. Sound spatialization across disciplines using virtual microphone control (ViMiC)
WO2024080001A1 (ja) 音処理方法、音処理装置、および音処理プログラム
Kim et al. A study on the implementation of immersive sound using multiple speaker systems according to the location of sound sources in live performance
US20230262271A1 (en) System and method for remotely creating an audio/video mix and master of live audio and video
Nambiar Sound Spatialization For the Egyptian Oracle
JP2022128177A (ja) 音声生成装置、音声再生装置、音声再生方法、及び音声信号処理プログラム
JP2022134182A (ja) 映像出力方法、映像出力装置および映像出力システム
EP4183126A1 (en) System and method for the creation and management of virtually enabled studio
CN117409804A (zh) 音频信息的处理方法、介质、服务器、客户端及系统
JP2005122023A (ja) 高臨場感音響信号出力装置、高臨場感音響信号出力プログラムおよび高臨場感音響信号出力方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21866536

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021866536

Country of ref document: EP

Effective date: 20230411