WO2023042671A1 - 音信号処理方法、端末、音信号処理システム、管理装置 - Google Patents

音信号処理方法、端末、音信号処理システム、管理装置 Download PDF

Info

Publication number
WO2023042671A1
WO2023042671A1 PCT/JP2022/032928 JP2022032928W WO2023042671A1 WO 2023042671 A1 WO2023042671 A1 WO 2023042671A1 JP 2022032928 W JP2022032928 W JP 2022032928W WO 2023042671 A1 WO2023042671 A1 WO 2023042671A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound signal
localization
terminal
sound
terminals
Prior art date
Application number
PCT/JP2022/032928
Other languages
English (en)
French (fr)
Inventor
直 森川
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to JP2023548402A priority Critical patent/JPWO2023042671A1/ja
Publication of WO2023042671A1 publication Critical patent/WO2023042671A1/ja
Priority to US18/606,116 priority patent/US20240259751A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Definitions

  • An embodiment of the present invention relates to a sound signal processing system, a sound signal processing method in the sound signal processing system, a terminal that executes the sound signal processing method, and a management device.
  • Patent Literature 1 describes a configuration in which a management device (communication server) that manages an online conference controls sound image localization of each terminal.
  • one aspect of the present disclosure aims to provide a sound signal processing method capable of realizing appropriate sound image localization processing without depending on the distribution platform.
  • the sound signal processing method is used in a sound signal processing system composed of multiple terminals that output sound signals.
  • each of the plurality of terminals acquires localization control information for determining a sound image localization position of the terminal in the sound signal processing system, and performs localization processing on the sound signal of the terminal based on the acquired localization control information; A sound signal after being subjected to the localization processing is output.
  • An embodiment of the present invention can realize appropriate sound image localization processing without depending on the distribution platform.
  • FIG. 1 is a block diagram showing the configuration of a sound signal processing system 1;
  • FIG. 2 is a block diagram showing the configuration of terminal 11A;
  • FIG. It is a flowchart which shows operation
  • 4 is a flow chart showing the operation of the management device 12;
  • FIG. 4 is a diagram showing an example of localization control information;
  • 10 is a flowchart showing operations of the terminal 11A according to Modification 1.
  • FIG. 14 is a flowchart showing operations of the terminal 11A according to Modification 3.
  • FIG. 14 is a flowchart showing operations of the management device 12 according to Modification 3.
  • FIG. 2 is a block diagram showing the concept of a video signal transmitted by each device in the sound signal processing system 1;
  • FIG. FIG. 14 is a block diagram showing the concept of the localization position of sound of each terminal in the sound signal processing system 1A according to Modification 5;
  • FIG. 1 is a block diagram showing the configuration of the sound signal processing system 1. As shown in FIG.
  • the sound signal processing system 1 includes a plurality of terminals (terminal 11A, terminal 11B, and terminal 11C) and management device 12 .
  • Network 13 includes a LAN (Local Area Network) or the Internet.
  • the terminals 11A, 11B, and 11C are information processing devices such as personal computers.
  • FIG. 2 is a block diagram showing the configuration of the terminal 11A. Although FIG. 2 shows the configuration of terminal 11A as a representative, terminals 11B and 11C also have the same configuration and functions.
  • the terminal 11A has a display 201, a user I/F 202, a CPU 203, a RAM 204, a network I/F 205, a flash memory 206, a microphone 207, a speaker 208, and a camera 209.
  • the microphone 207, the speaker 208, and the camera 209 may be built in the terminal 11A, or may be connected as external devices.
  • the CPU 203 is a control unit that reads programs stored in the flash memory 206, which is a storage medium, to the RAM 204 and implements predetermined functions. It should be noted that the program read by the CPU 203 need not be stored in the flash memory 206 within its own device. For example, the program may be stored in a storage medium of an external device such as a server. In this case, the CPU 203 may read the program from the server to the RAM 204 and execute it each time.
  • the flash memory 206 stores application programs for online conferences.
  • the CPU 203 reads the online conference application program to the RAM 204 .
  • the CPU 203 outputs the sound signal acquired by the microphone 207 to the management device 12 via the network I/F 205 by the function of the application program.
  • the CPU 203 outputs two-channel (stereo channel) sound signals. Also, the CPU 203 outputs a video signal acquired by the camera 209 to the management device 12 via the network I/F 205 .
  • the management device 12 receives audio signals and video signals from the terminals 11A, 11B, and 11C.
  • Management device 12 mixes sound signals received from terminals 11A, 11B, and 11C.
  • Management device 12 also synthesizes the video signals received from terminal 11A, terminal 11B, and terminal 11C into one video signal.
  • Management device 12 distributes the mixed sound signal and the synthesized video signal to terminal 11A, terminal 11B, and terminal 11C.
  • Each CPU 203 of the terminal 11A, terminal 11B, and terminal 11C outputs the sound signal distributed from the management device 12 to the speaker 208.
  • the CPU 203 also outputs the video signal distributed from the management device 12 to the display device 201 .
  • the users of each terminal can have an online conference.
  • FIG. 3 is a flowchart showing the operation of terminal 11A when an online conference is started.
  • FIG. 4 is a flowchart showing the operation of the management device 12 when starting an online conference.
  • Terminals 11B and 11C perform the same operations as terminal 11A.
  • the terminal 11A transmits a Mac address to the management device 12 as an example of identification information unique to the terminal itself (S11).
  • the terminals 11B and 11C transmit Mac addresses to the management device 12 as an example of unique identification information of the terminals themselves.
  • the management device 12 receives Mac addresses from the terminals 11A, 11B, and 11C (S21). Then, the management device 12 generates localization control information (S22). Localization control information is information that determines the sound image localization position of each terminal in the sound signal processing system 1 .
  • FIG. 5 is a diagram showing an example of localization control information.
  • the localization control information associates terminal identification information with information indicating the localization position for each terminal.
  • the identification information of the terminal is the Mac address.
  • the identification information may also be a user name or e-mail address of each terminal, or a unique ID assigned by the management device 12 in an online conference.
  • the information indicating the localization position is information indicating panning parameters (volume balance between the L channel and the R channel).
  • the localization control information of the terminal 11A indicates volume balance of 80% for the L channel and 20% for the R channel. In this case, the sound signal of the terminal 11A is localized on the left side.
  • the localization control information of the terminal 11B indicates the volume balance of 50% for the L channel and 50% for the R channel. In this case, the sound signal of terminal 11B is localized in the center.
  • the localization control information of the terminal 11C indicates the volume balance of 20% for the L channel and 80% for the R channel. In this case, the sound signal of the terminal 11C is localized on the right side.
  • the management device 12 determines the localization position based on the order in which the Mac addresses are received. That is, the management device 12 determines the localization position based on the order of connection to the online conference.
  • the management device 12 arranges the localization position of each terminal from the left side to the right side in order from the terminal that participated in the online conference. For example, when three terminals participate in an online conference, the management device 12 positions the terminal that first participated in the online conference on the left side, then positions the terminal that participated in the online conference in the center, and finally positions the terminal that participated in the online conference in the center. Position the terminal that participated in the session to the right.
  • the terminal 11A first connects to the management device 12 and transmits the Mac address, then the terminal 11B connects to the management device 12 and transmits the Mac address, and finally the terminal 11C connects to the management device 12 and transmits the Mac address. is sending Therefore, the management device 12 orients the terminal 11A to the left, the terminal 11B to the center, and the terminal 11C to the right.
  • the management device 12 may position the terminal that first participated in the online conference on the right side, position the terminal that secondly participated in the online meeting in the center, and position the terminal that participated in the online meeting lastly on the left side. good.
  • the number of terminals participating in the online conference is not limited to this example.
  • the management device 12 may orient the terminal that first participated in the online conference to the right side and the terminal that participated in the online conference second to the left side. . In any case, the management device 12 orients the plurality of terminals participating in the online conference at different positions.
  • the localization control information may be generated based on the unique identification information of each terminal. For example, if the identification information is Mac addresses, the management device 12 may determine the localization positions in ascending order of Mac addresses. For example, in the case of FIG. 5, the management device 12 positions the terminal 11A with the smallest Mac address on the left, the terminal 11B with the smallest Mac address in the center, and the terminal 11C on the right.
  • the localization control information may be generated based on the attributes of the user of each terminal. For example, each terminal user has an account level in an online conference as an attribute. The localization control information is determined in ascending order of account level. For example, the management device 12 orients a user with a higher account level to the center, and orients a user with a lower account level to the left end or right end.
  • the management device 12 distributes the localization control information generated as described above to the terminals 11A, 11B, and 11C (S23).
  • the terminals 11A, 11B, and 11C each acquire localization control information (S12).
  • the terminals 11A, 11B, and 11C perform localization processing on the sound signals acquired by the microphones 207 (S13).
  • the terminal 11A pans the volume balance of the stereo channel sound signals acquired by the microphone 207 so that the L channel is 80% and the R channel is 20%.
  • the terminal 11B pans the volume balance of the stereo channel sound signals acquired by the microphone 207 so that the L channel is 50% and the R channel is 50%.
  • the terminal 11C performs panning processing so that the sound volume balance of the stereo channel sound signal acquired by the microphone 207 is 20% for the L channel and 80% for the R channel.
  • the terminals 11A, 11B, and 11C each output sound signals after performing localization processing (S14).
  • Management device 12 receives and mixes the sound signals from terminals 11A, 11B, and 11C (S24), and distributes the mixed sound signals to terminals 11A, 11B, and 11C (S25).
  • the sound signal processing system 1 of the present embodiment outputs sound signals after each terminal participating in the online conference has performed localization processing. Therefore, the management device 12, which is a distribution platform for online conferences, does not need to perform localization processing. Therefore, the sound signal processing system 1 of the present embodiment can realize appropriate sound image localization processing without depending on the distribution platform even if there is no localization control mechanism on the existing distribution platform side.
  • FIG. 6 is a flowchart showing the operation of the terminal 11A according to Modification 1. As shown in FIG. The same reference numerals are assigned to the operations common to those in FIG. 3, and the description thereof is omitted. Terminals 11B and 11C perform the same operations as terminal 11A.
  • the terminal 11A acquires a participant list from the management device 12 (S101).
  • the participant list includes the participation time of each terminal in the online conference, and identification information of each terminal (eg, Mac address, user name, email address, or a unique ID assigned by the management device 12 in the online conference).
  • the terminal 11A generates localization control information based on the acquired participant list (S102). All the terminals of the sound signal processing system 1 have the same rules for generating localization control information based on the participant list.
  • the generation rule associates the chronological order of participation in the online conference with the localization position on a one-to-one basis. For example, if three terminals are participating in an online meeting, the production rule is to place the terminal that first joined the online meeting on the left side, then place the terminal that joined the online meeting in the center, and finally place the Position the terminals that have joined the conference on the right side.
  • each terminal In the sound signal processing system 1 of Modification 1, each terminal generates and acquires localization control information, so there is no need for the management device 12 to generate localization control information.
  • the management device 12 has a list of participants, only needs to distribute two-channel (stereo channel) sound signals, and does not need to perform any localization-related processing. Therefore, the configuration and operation of the sound signal processing system 1 of the present embodiment can be realized by any platform that has a participant list and distributes two-channel (stereo channel) sound signals.
  • the information indicating the localization position was the information indicating the panning parameter (the volume balance between the L channel and the R channel).
  • the localization control information may be HRTF (Head Related Transfer Function), for example.
  • HRTF represents the transfer function from some virtual sound source location to the user's right and left ears.
  • the localization control information of the terminal 11A indicates HRTFs that are localized on the left side of the user.
  • the terminal 11A performs binaural processing in which HRTFs localized on the left side of the user are convoluted into the respective sound signals of the L and R channels.
  • the localization control information of the terminal 11B indicates HRTFs that are localized behind the user.
  • the terminal 11B performs binaural processing in which HRTFs localized behind the user are convoluted into the sound signals of the L and R channels.
  • the localization control information of the terminal 11C indicates HRTFs that are localized on the right side of the user. In this case, the terminal 11C performs binaural processing in which HRTFs localized on the right side of the user are convoluted into the respective sound signals of the L and R channels.
  • the panning parameter is left and right volume balance
  • the localization control information is one-dimensional (left and right position) information. Therefore, with the panning parameter, when the number of participants in the online conference increases, the localization positions of the voices of the users become closer, and it is difficult to localize the voices of the users at different positions.
  • the localization control information of HRTF is three-dimensional information. Therefore, the sound signal processing system 1 of Modification 2 can localize the voice of each user at a different position even when there are more participants in the online conference.
  • FIG. 7 is a flowchart showing the operation of the terminal 11A according to Modification 3. As shown in FIG. The same reference numerals are assigned to the operations common to those in FIG. 3, and the description thereof is omitted. Terminals 11B and 11C perform the same operations as terminal 11A.
  • FIG. 8 is a flowchart showing the operation of the management device 12 according to Modification 3. As shown in FIG. Operations common to those in FIG. 4 are denoted by common reference numerals, and descriptions thereof are omitted.
  • FIG. 9 is a block diagram showing the concept of video signals transmitted by each device in the sound signal processing system 1. As shown in FIG.
  • the terminals 11A, 11B, and 11C output video signals acquired by the cameras 209 to the management device 12. At this time, the terminals 11A, 11B, and 11C superimpose the identification information on the video signal (S201). For example, terminal 11A, terminal 11B, and terminal 11C encode some pixels of the video signal with identification information.
  • Each of the terminals 11A, 11B, and 11C encodes identification information using a plurality of pixels from the origin (0, 0), which is the uppermost pixel in the video signal obtained by the camera 209.
  • the RGB values of pixels are encoded with identification information.
  • the management device 12 When the management device 12 synthesizes the video signals received from the terminals 11A, 11B, and 11C as they are, as shown in FIG. are encoded pixels. However, only the top line of the video is encoded, and viewing of the video in the online conference is not hindered.
  • the sound signal processing system 1 of Modification 3 is an example in which each terminal can transmit identification information via a video signal. Therefore, the sound signal processing system 1 of Modification 3 can acquire the identification information of each terminal even if the online conference platform does not have means for receiving identification information such as a Mac address.
  • the identification information may be decoded by each terminal.
  • each terminal generates localization control information based on the decoded identification information.
  • all the terminals of the sound signal processing system 1 have the same rules for generating the localization control information based on the identification information.
  • the management device 12 does not need to decode the identification information. Therefore, the sound signal processing system 1 of Modification 3 does not require the management device 12 to manage the identification information such as the Mac address, and the two-channel (stereo Channel) can be realized if it is a distribution platform that distributes sound signals.
  • Each terminal in the sound signal processing system 1 of Modification 4 performs a process of adding an indirect sound to the sound signal.
  • Each terminal in the sound signal processing system 1 of Modification 4 adds indirect sound to the sound signal, thereby reproducing a sound field as if a conversation were taking place in a predetermined acoustic space such as a conference room or a hall. .
  • Indirect sound is given by, for example, convolving an impulse response measured in advance in a predetermined acoustic space, which is the target of reproducing the sound field, into the sound signal.
  • Indirect sound includes early reflections and late reverberations. Early reflected sound is reflected sound with a clear direction of arrival, and late reverberant sound is reflected sound with no fixed direction of arrival. Therefore, each terminal may perform binaural processing of convoluting the sound signal acquired by each terminal with an HRTF such that the sound image is localized at the position indicated by the position information of each sound source of the early reflected sound. Also, the early reflected sounds may be generated based on information indicating the position and level of each sound source of the early reflected sounds.
  • Each terminal applies delay processing to the sound signal acquired by each terminal according to the position of each sound source of the early reflected sound, and controls the level of the sound signal based on the level information of each sound source of the early reflected sound. do. As a result, each terminal can clearly reproduce the early reflected sound in a predetermined acoustic space.
  • each terminal may reproduce a sound field in a different acoustic space.
  • Each terminal user designates an acoustic space to be reproduced.
  • Each terminal acquires space information indicating the specified acoustic space from the management device 12 or the like.
  • Spatial information includes impulse response information.
  • Each terminal adds indirect sound to the sound signal using the impulse response of the specified spatial information.
  • the spatial information may be information indicating the size of a predetermined acoustic space such as a conference room or a hall, the reflectance of the wall surface, and the like.
  • Each terminal lengthens the rear reverberation as the size of the acoustic space increases.
  • each terminal increases the level of the early reflected sound as the reflectance of the wall surface increases.
  • FIG. 10 is a block diagram showing the concept of the sound localization position of each terminal in the sound signal processing system 1A according to Modification 5.
  • the users of the terminals 11A, 11B, and 11C perform a remote concert (remote session).
  • Each of the terminals 11A, 11B, and 11C acquires the sound signal of the musical instrument via a microphone or via a signal line such as an audio cable.
  • the terminals 11A, 11B, and 11C apply localization processing to the acquired sound signals based on the localization control information.
  • Terminal 11A, terminal 11B, and terminal 11C output sound signals that have undergone localization processing to first management device 12A.
  • the localization control information is the same as the various examples described above. However, the localization control information of modification 5 is preferably generated based on attributes.
  • the attribute in this example is the type of sound (instrument). For example, the localization position of singing sounds (vocals) is the front center, the localization position of string instruments such as guitars is the left side, the localization position of percussion instruments such as drums is the rear center, and the localization position of keyboard instruments such as electronic pianos is fixed to the right side.
  • the terminal 11A acquires vocal and guitar sound signals.
  • a vocal sound signal is obtained by a microphone
  • a guitar sound signal is obtained by a line (audio cable).
  • the terminal 11A performs binaural processing by convoluting an HRTF localized in the front center of the user into the vocal sound signal.
  • the terminal 11A performs binaural processing in which an HRTF localized to the left of the user is convolved with the sound signal of the guitar.
  • the terminal 11B acquires the sound signal of the electronic piano.
  • the sound signal of the electronic piano is obtained through a line (audio cable).
  • the terminal 11B performs binaural processing by convolving the sound signal of the electronic piano with an HRTF localized on the right side of the user.
  • the terminal 11C acquires the drum sound signal.
  • the drum sound signal is picked up by a microphone.
  • the terminal 11C performs binaural processing by convoluting the drum sound signal with an HRTF localized in the rear center of the user.
  • the localization processing is not limited to binaural processing, and may be panning processing.
  • the localization control information indicates left and right localization positions (left and right volume balance).
  • the terminals 11A, 11B, and 11C output the sound signals that have undergone localization processing as described above to the first management device 12A.
  • the first management device 12A has the same configuration and functions as the management device 12 described above.
  • the first management device 12A mixes sound signals received from the terminals 11A, 11B, and 11C. Also, the first management device 12A may receive video signals from the terminals 11A, 11B, and 11C and synthesize them into one video signal.
  • the first management device 12A distributes the mixed sound signal and the synthesized video signal to listeners.
  • the first management device 12A only needs to distribute two-channel (stereo channel) sound signals. Therefore, the configuration and operation of the sound signal processing system 1A of Modification 5 can be realized by any platform that distributes two-channel (stereo channel) sound signals.
  • the terminals 11A, 11B, and 11C output sound signals before localization processing to the second management device 12B.
  • the second management device 12B has the same configuration and functions as the management device 12 and the first management device 12A.
  • the second management device 12B receives and mixes sound signals that have not undergone localization processing at the terminals 11A, 11B, and 11C.
  • the second management device 12B distributes the mixed sound signal to the terminals 11A, 11B, and 11C.
  • the second management device 12B also only needs to distribute two-channel (stereo channel) sound signals.
  • listeners watching the remote session can hear the sounds of each instrument as if they were coming from different positions.
  • terminal 11C can listen to sounds that are easy to monitor.
  • Each terminal in Modification 6 performs the process of adding indirect sound to the sound signal in the same manner as in Modification 4.
  • FIG. However, each terminal generates a first sound signal with indirect sound and a second sound signal without indirect sound.
  • the first sound signal is, for example, a sound signal subjected to localization processing as described above.
  • the second sound signal is, for example, a sound signal that has not undergone localization processing as described above.
  • a listener who views a remote session can listen to a realistic sound of a concert hall or the like, and a user who conducts a remote session on each of the terminals 11A, 11B, and 11C can easily monitor sounds. can listen to
  • the indirect sound imitates the same acoustic space on all terminals.
  • the users of terminals 11A, 11B, and 11C at remote locations can perceive that they are performing live in the same acoustic space.
  • Terminal 11A, terminal 11B, and terminal 11C may further perform a process of adding ambience sound to each sound signal.
  • Ambience sounds include environmental sounds such as background noise, listeners cheering, applause, calling, cheering, chorus, or buzzing. As a result, listeners viewing the remote session can also listen to the sounds of the audience at the live venue, and can listen to sounds with a more realistic feel.
  • each terminal adds ambience sound to the first sound signal and does not add ambience sound to the second sound signal.
  • a listener who views a remote session can listen to realistic sounds, and a user who conducts remote sessions on the terminals 11A, 11B, and 11C can listen to sounds that are easy to monitor. can.
  • the terminals 11A, 11B, and 11C may give different ambience sounds.
  • the ambience sound is randomly generated, so the listener can hear the sound with a more realistic feeling.
  • ambience sounds such as cheers, cheers, and murmurs may be different for each performer conducting a remote session.
  • a terminal that outputs a vocal sound signal gives cheers, cheers, and noises that occur frequently and at a high level.
  • a terminal that outputs a drum sound signal gives cheers, cheers, and murmurs of low frequency and low level.
  • the frequency and level of cheering, cheering, and murmuring are high for the vocalist, who is the main player, and the frequency and level of cheering, cheering, and murmur are low for performances of other musical instruments (for example, drums). Therefore, a terminal that outputs a sound signal corresponding to the leading role of a live performance can reproduce a higher sense of realism by providing cheers, cheers, and noises with high frequency and high level.
  • each terminal outputs a sound signal to which the indirect sound of a large concert hall is added to the first management device 12A, and outputs a sound signal to which the indirect sound of a small live venue is added to the second management device 12B.
  • the first management device 12A distributes the sound signal with the indirect sound of a large concert hall
  • the second management device 12B distributes the sound signal with the indirect sound of a small live venue.
  • the listener may receive the sound signal delivered by the first management device 12A and listen to the remote session that reproduces the sound of a large concert hall, or may receive the sound signal delivered by the second management device 12B, You can also listen to a remote session that reproduces the sound of a small live house.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

音信号処理方法は、音信号を出力する複数の端末から構成される音信号処理システムで用いられる。前記複数の端末は、それぞれ、前記音信号処理システムにおける自端末の音像定位位置を決める定位制御情報を取得し、取得した前記定位制御情報に基づいて、自端末の音信号に定位処理を施し、前記定位処理を施した後の音信号を出力する。

Description

音信号処理方法、端末、音信号処理システム、管理装置
 この発明の一実施形態は、音信号処理システム、該音信号処理システムにおける音信号処理方法、該音信号処理方法を実行する端末、および管理装置に関する。
 従来、オンライン会議を管理するサーバ等の配信プラットフォームが音像定位を行う構成が知られている。例えば、特許文献1には、オンライン会議を管理する管理装置(コミュニケーション用サーバ)が各端末の音像定位を制御する構成が記載されている。
特開2013-17027号公報
 しかし、既存の配信プラットフォーム側で定位制御の仕組みが存在しない場合には、特許文献1の様な定位処理を実現することができない。
 以上の事情を考慮して、本開示のひとつの態様は、配信プラットフォームに依存せずに適切な音像定位処理を実現することができる音信号処理方法を提供することを目的とする。
 音信号処理方法は、音信号を出力する複数の端末から構成される音信号処理システムで用いられる。前記複数の端末は、それぞれ、前記音信号処理システムにおける自端末の音像定位位置を決める定位制御情報を取得し、取得した前記定位制御情報に基づいて、自端末の音信号に定位処理を施し、前記定位処理を施した後の音信号を出力する。
 この発明の一実施形態は、配信プラットフォームに依存せずに適切な音像定位処理を実現することができる。
音信号処理システム1の構成を示すブロック図である。 端末11Aの構成を示すブロック図である。 端末11Aの動作を示すフローチャートである。 管理装置12の動作を示すフローチャートである。 定位制御情報の一例を示す図である。 変形例1に係る端末11Aの動作を示すフローチャートである。 変形例3に係る端末11Aの動作を示すフローチャートである。 変形例3に係る管理装置12の動作を示すフローチャートである。 音信号処理システム1における各装置の送信する映像信号の概念を示すブロック図である。 変形例5に係る音信号処理システム1Aにおける各端末の音の定位位置の概念を示すブロック図である。
 図1は、音信号処理システム1の構成を示すブロック図である。音信号処理システム1は、複数の端末(端末11A、端末11B、および端末11C)と、管理装置12と、を備えている。
 端末11A、端末11B、端末11C、および管理装置12は、ネットワーク13を介して接続されている。ネットワーク13は、LAN(ローカルエリアネットワーク)またはインターネットを含む。
 端末11A、端末11B、および端末11Cは、パーソナルコンピュータ等の情報処理装置である。
 図2は、端末11Aの構成を示すブロック図である。図2では代表して端末11Aの構成を示すが、端末11Bおよび端末11Cも同じ構成および機能を有する。
 端末11Aは、表示器201、ユーザI/F202、CPU203、RAM204、ネットワークI/F205、フラッシュメモリ206、マイク207、スピーカ208、およびカメラ209を備えている。なお、マイク207、スピーカ208、およびカメラ209は、端末11Aに内蔵されていてもよいし、外部機器として接続される態様であってもよい。
 CPU203は、記憶媒体であるフラッシュメモリ206に記憶されているプログラムをRAM204に読み出して、所定の機能を実現する制御部である。なお、CPU203が読み出すプログラムは、自装置内のフラッシュメモリ206に記憶されている必要はない。例えば、プログラムは、サーバ等の外部装置の記憶媒体に記憶されていてもよい。この場合、CPU203は、該サーバから都度プログラムをRAM204に読み出して実行すればよい。
 フラッシュメモリ206は、オンライン会議用のアプリケーションプログラムを記憶している。CPU203は、オンライン会議用のアプリケーションプログラムをRAM204に読み出す。
 CPU203は、当該アプリケーションプログラムの機能により、マイク207で取得した音信号をネットワークI/F205を介して管理装置12に出力する。CPU203は、2チャンネル(ステレオチャンネル)の音信号を出力する。また、CPU203は、カメラ209で取得した映像信号をネットワークI/F205を介して管理装置12に出力する。
 管理装置12は、端末11A、端末11B、および端末11Cから音信号および映像信号を受信する。管理装置12は、端末11A、端末11B、および端末11Cから受信した音信号をミキシングする。また、管理装置12は、端末11A、端末11B、および端末11Cから受信した映像信号を1つの映像信号に合成する。管理装置12は、ミキシングした音信号および合成した映像信号を端末11A、端末11B、および端末11Cに配信する。
 端末11A、端末11B、および端末11Cの各CPU203は、管理装置12から配信された音信号をスピーカ208に出力する。また、CPU203は、管理装置12から配信された映像信号を表示器201に出力する。これにより、各端末の利用者は、オンライン会議を行うことができる。
 図3は、端末11Aのオンライン会議開始時の動作を示すフローチャートである。図4は、管理装置12のオンライン会議開始時の動作を示すフローチャートである。端末11Bおよび端末11Cは、端末11Aと同じ動作を行う。
 まず端末11Aは、自端末の固有の識別情報の一例として、Macアドレスを管理装置12に送信する(S11)。同様に、端末11Bおよび端末11Cは、自端末の固有の識別情報の一例として、Macアドレスを管理装置12に送信する。管理装置12は、端末11A、端末11B、および端末11CからそれぞれMacアドレスを受信する(S21)。そして、管理装置12は、定位制御情報を生成する(S22)。定位制御情報とは、音信号処理システム1における各端末の音像定位位置を決める情報である。
 図5は、定位制御情報の一例を示す図である。定位制御情報は、端末毎に、端末の識別情報と定位位置を示す情報と、を対応付けている。この例では、端末の識別情報はMacアドレスである。識別情報は、他にも、各端末のユーザ名やメールアドレス、あるいは、オンライン会議において管理装置12が割り当てる固有のID等であってもよい。
 また、この例では、定位位置を示す情報は、パニングのパラメータ(LチャンネルおよびRチャンネルの音量バランス)を示す情報である。例えば、端末11Aの定位制御情報は、Lチャンネル80%、Rチャンネル20%の音量バランスを示している。この場合、端末11Aの音信号は、左側に定位する。端末11Bの定位制御情報は、Lチャンネル50%、Rチャンネル50%の音量バランスを示している。この場合、端末11Bの音信号は、中央に定位する。端末11Cの定位制御情報は、Lチャンネル20%、Rチャンネル80%の音量バランスを示している。この場合、端末11Cの音信号は、右側に定位する。
 管理装置12は、一例として、Macアドレスを受信した順に基づいて定位位置を決定する。つまり、管理装置12は、オンライン会議に接続した順番に基づいて定位位置を決定する。
 この例では、管理装置12は、オンライン会議に参加した端末から順に各端末の定位位置を左側から右側へ配置する。例えば、管理装置12は、オンライン会議に3つの端末が参加した場合、最初にオンライン会議に参加した端末を左側に定位させ、次にオンライン会議に参加した端末を中央に定位させ、最後にオンライン会議に参加した端末を右側に定位させる。端末11Aが最初に管理装置12に接続してMacアドレスを送信し、次に端末11Bが管理装置12に接続してMacアドレスを送信し、最後に端末11Cが管理装置12に接続してMacアドレスを送信している。したがって、管理装置12は、端末11Aを左側に定位させ、端末11Bを中央に定位させ、端末11Cを右側に定位させる。
 無論、この様な定位制御情報の生成は一例に過ぎない。例えば、管理装置12は、最初にオンライン会議に参加した端末を右側に定位させ、次にオンライン会議に参加した端末を中央に定位させ、最後にオンライン会議に参加した端末を左側に定位させてもよい。また、オンライン会議に参加する端末の数もこの例に限らない。例えば、管理装置12は、オンライン会議に2つの端末が参加している場合、最初にオンライン会議に参加した端末を右側に定位させ、次にオンライン会議に参加した端末を左側に定位させてもよい。いずれにしても管理装置12は、オンライン会議に参加した複数の端末をそれぞれ異なる位置に定位させる。
 また、定位制御情報は、各端末の固有の識別情報に基づいて生成されてもよい。例えば識別情報がMacアドレスである場合、管理装置12は、Macアドレスの昇順で定位位置を決定してもよい。管理装置12は、例えば図5の場合、Macアドレスの最も数字の小さい端末11Aを左側に定位させ、次にMacアドレスの数字の小さい端末11Bを中央に定位させ、端末11Cを右側に定位させる。
 また、定位制御情報は、各端末の利用者の属性に基づいて生成されてもよい。例えば、各端末の利用者は、属性として、オンライン会議におけるアカウントレベルを有する。定位制御情報は、アカウントレベルの昇順で決定される。管理装置12は、例えばアカウントレベルの高い利用者ほど、中央に定位させ、アカウントレベルの低い利用者ほど、左端または右端に定位させる。
 管理装置12は、以上の様にして生成した定位制御情報を端末11A、端末11B、および端末11Cに配信する(S23)。端末11A、端末11B、および端末11Cは、それぞれ定位制御情報を取得する(S12)。そして、端末11A、端末11B、および端末11Cは、それぞれマイク207で取得した音信号に定位処理を施す(S13)。例えば、端末11Aは、マイク207で取得したステレオチャンネルの音信号の音量バランスを、Lチャンネルが80%、Rチャンネルが20%になる様に、パニング処理を施す。端末11Bは、マイク207で取得したステレオチャンネルの音信号の音量バランスを、Lチャンネルが50%、Rチャンネルが50%になる様に、パニング処理を施す。端末11Cは、マイク207で取得したステレオチャンネルの音信号の音量バランスを、Lチャンネルが20%、Rチャンネルが80%になる様に、パニング処理を施す。
 端末11A、端末11B、および端末11Cは、それぞれ定位処理を施した後の音信号を出力する(S14)。管理装置12は、端末11A、端末11B、および端末11Cから音信号を受信してミキシングし(S24)、ミキシング後の音信号を端末11A、端末11B、および端末11Cに配信する(S25)。
 この様に、本実施形態の音信号処理システム1は、オンライン会議に参加する各端末がそれぞれ定位処理を施した後の音信号を出力する。そのため、オンライン会議の配信プラットフォームである管理装置12は定位処理を行う必要がない。よって、本実施形態の音信号処理システム1は、既存の配信プラットフォーム側で定位制御の仕組みが存在しない場合でも、配信プラットフォームに依存せずに適切な音像定位処理を実現することができる。
 (変形例1) 
 上記実施形態では、管理装置12が定位制御情報を生成する例を示した。しかし、定位制御情報は、各端末で生成されてもよい。図6は、変形例1に係る端末11Aの動作を示すフローチャートである。図3と共通する動作は同一の符号を付し、説明を省略する。端末11Bおよび端末11Cは、端末11Aと同じ動作を行う。
 端末11Aは、管理装置12から参加者リストを取得する(S101)。参加者リストは、各端末のオンライン会議の参加時刻、および各端末の識別情報(例えばMacアドレス、ユーザ名、メールアドレス、あるいは、オンライン会議において管理装置12が割り当てる固有のID等)を含む。
 端末11Aは、取得した参加者リストに基づいて定位制御情報を生成する(S102)。参加者リストに基づく定位制御情報の生成ルールは、音信号処理システム1の全ての端末において同一である。例えば、生成ルールは、オンライン会議に参加した時刻順と、定位位置と、を一対一に対応させる。例えば、オンライン会議に3つの端末が参加している場合、生成ルールは、最初にオンライン会議に参加した端末を左側に定位させ、次にオンライン会議に参加した端末を中央に定位させ、最後にオンライン会議に参加した端末を右側に定位させる。
 変形例1の音信号処理システム1は、定位制御情報を各端末で生成し、取得するため、管理装置12で定位制御情報を生成する必要がない。管理装置12は、参加者リストを有し、2チャンネル(ステレオチャンネル)の音信号を配信するだけでよく、定位に関する処理を何ら行う必要がない。したがって、本実施形態の音信号処理システム1の構成および動作は、参加者リストを有し、2チャンネル(ステレオチャンネル)の音信号を配信するプラットフォームであれば実現することができる。
 (変形例2) 
 上記実施形態では、定位位置を示す情報は、パニングのパラメータ(LチャンネルおよびRチャンネルの音量バランス)を示す情報であった。しかし、定位制御情報は、例えばHRTF(Head Related Transfer Function)であってもよい。HRTFは、ある仮想の音源位置から利用者の右耳および左耳に至る伝達関数を表す。例えば、端末11Aの定位制御情報は、利用者の左側に定位する様なHRTFを示している。この場合、端末11Aは、LチャンネルおよびRチャンネルのそれぞれの音信号に、利用者の左側に定位する様なHRTFを畳み込むバイノーラル処理を行う。また、例えば、端末11Bの定位制御情報は、利用者の後方に定位する様なHRTFを示している。この場合、端末11Bは、LチャンネルおよびRチャンネルのそれぞれの音信号に、利用者の後方に定位する様なHRTFを畳み込むバイノーラル処理を行う。また、例えば、端末11Cの定位制御情報は、利用者の右側に定位する様なHRTFを示している。この場合、端末11Cは、LチャンネルおよびRチャンネルのそれぞれの音信号に、利用者の右側に定位する様なHRTFを畳み込むバイノーラル処理を行う。
 パニングのパラメータは、左右の音量バランスであり、定位制御情報は1次元(左右の位置)の情報である。そのため、パニングのパラメータでは、オンライン会議の参加者が多数になると、各利用者の音声の定位位置が近くなり、各利用者の音声を異なる位置に定位させることが難しい。しかし、HRTFの定位制御情報は3次元の情報である。そのため、変形例2の音信号処理システム1は、オンライン会議の参加者がより多数の場合でも、各利用者の音声を異なる位置に定位させることができる。
 (変形例3) 
 変形例3に係る音信号処理システム1は、映像信号に基づいて管理装置12または各端末が定位制御情報を生成する例である。図7は、変形例3に係る端末11Aの動作を示すフローチャートである。図3と共通する動作は同一の符号を付し、説明を省略する。端末11Bおよび端末11Cは、端末11Aと同じ動作を行う。図8は、変形例3に係る管理装置12の動作を示すフローチャートである。図4と共通する動作は共通の符号を付し、説明を省略する。図9は、音信号処理システム1における各装置の送信する映像信号の概念を示すブロック図である。
 端末11A、端末11B、および端末11Cは、カメラ209で取得した映像信号を管理装置12に出力する。このとき、端末11A、端末11B、および端末11Cは、識別情報を映像信号に重畳する(S201)。例えば、端末11A、端末11B、および端末11Cは、映像信号のうち一部のピクセルを識別情報で符号化する。
 端末11A、端末11B、および端末11Cは、それぞれカメラ209で取得した映像信号のうち、最も左上のピクセルである原点(0,0)から複数のピクセルを用いて、識別情報を符号化する。例えば、端末11A、端末11B、および端末11Cは、白(R,G,B=255,255,255)を1のビットデータ、黒(R,G,B=0,0,0)を0のビットデータとして、ピクセルのRGB値を識別情報で符号化する。映像信号のピクセル数が例えば1280×720である場合、端末11A、端末11B、および端末11Cは、映像信号のうちY=0の座標となる1ライン(0,0~1279,0)の1280ピクセルを用いて識別情報を符号化する。
 管理装置12は、端末11A、端末11B、および端末11Cから映像信号を受信し(S301)、上記識別情報を復号する(S302)。なお、管理装置12は、端末11A、端末11B、および端末11Cから受信した映像信号をそのまま合成してもよいし、Y=0の座標となる1ラインの1280ピクセルを削除してから合成してもよい。あるいは、管理装置12は、Y=0の座標となる1ラインの1280ピクセルを全て白(R,G,B=255,255,255)、または黒(R,G,B=0,0,0)に置き換えて合成してもよい。
 管理装置12が、端末11A、端末11B、および端末11Cから受信した映像信号をそのまま合成すると、図9に示す様に、オンライン会議中に表示される各参加者の映像は、最も上の1ラインだけ符号化されたピクセルとなる。しかし、当該映像は、最も上の1ラインだけ符号化されているだけであり、オンライン会議における映像の視聴を阻害することはない。
 変形例3の音信号処理システム1は、各端末が映像信号を介して識別情報を送信することができる例である。したがって、変形例3の音信号処理システム1は、オンライン会議のプラットフォームがMacアドレス等の識別情報を受信する手段が無くとも、各端末の識別情報を取得することができる。
 なお、識別情報は各端末で復号してもよい。この場合、各端末は、復号した識別情報に基づいて定位制御情報を生成する。この場合、識別情報に基づく定位制御情報の生成ルールは、音信号処理システム1の全ての端末において同一である。この場合、管理装置12は識別情報を復号する必要がない、そのため、変形例3の音信号処理システム1は、管理装置12がMacアドレス等の識別情報を管理する必要もなく、2チャンネル(ステレオチャンネル)の音信号を配信する配信プラットフォームであれば実現することができる。
 なお、各端末で識別情報を復号する場合、各端末は、映像信号のうち複数(例えば4×4)ピクセルのRGB値を1のビットデータ(R,G,B=255,255,255)、0またはビットデータ(R,G,B=0,0,0)に符号化することが好ましい。これにより、管理装置12が各端末の映像信号を例えば1/4の大きさに縮小して合成した場合でも、符号化されたピクセルが残る。そのため、各端末は、識別情報を適切に復号することができる。
 (変形例4) 
 変形例4の音信号処理システム1における各端末は、音信号に間接音を付与する処理を行う。変形例4の音信号処理システム1における各端末は、音信号に間接音を付与することで、会議室やホール等の所定の音響空間で会話している様な音場を再現することができる。
 間接音は、例えば音場を再現する対象となる所定の音響空間で予め測定したインパルス応答を音信号に畳み込むことで付与される。間接音は、初期反射音および後部残響音を含む。初期反射音は音の到来方向の明瞭な反射音であり、後部残響音は音の到来方向の定まらない反射音である。したがって、各端末は、各端末で取得した音信号に対して、初期反射音の各音源の位置情報が示す位置に音像が定位する様なHRTFを畳み込むバイノーラル処理を行ってもよい。また、初期反射音は、初期反射音の各音源の位置およびレベルを示す情報に基づいて生成してもよい。各端末は、各端末で取得した音信号に対して、初期反射音の各音源の位置に応じた遅延処理を行い、かつ初期反射音の各音源のレベル情報に基づいて音信号のレベルを制御する。これにより、各端末は、所定の音響空間における初期反射音を明瞭に再現することができる。
 また、各端末は、それぞれ異なる音響空間の音場を再現してもよい。各端末の利用者は、それぞれ再現する音響空間を指定する。各端末は、指定された音響空間を示す空間情報を管理装置12等から取得する。空間情報は、インパルス応答の情報を含む。各端末は、指定された空間情報のインパルス応答を用いて音信号に間接音を付与する。なお、空間情報は、会議室やホール等の所定の音響空間の大きさや壁面の反射率等を示す情報であってもよい。各端末は、音響空間の大きさが大きいほど後部残響音を長くする。また、各端末は、壁面の反射率が高いほど初期反射音のレベルを高くする。
 (変形例5) 
 図10は、変形例5に係る音信号処理システム1Aにおける各端末の音の定位位置の概念を示すブロック図である。変形例5の音信号処理システム1Aは、端末11A、端末11B、および端末11Cのユーザでリモート合奏(リモートセッション)を行う。端末11A、端末11B、および端末11Cは、それぞれマイクを介して、またはオーディオケーブル等の信号線を介して、楽器の音信号を取得する。端末11A、端末11B、および端末11Cは、それぞれ取得した音信号に定位制御情報に基づく定位処理を施す。端末11A、端末11B、および端末11Cは、定位処理を施した音信号を、第1管理装置12Aに出力する。
 定位制御情報は、上述の各種の例と同様である。ただし、変形例5の定位制御情報は、属性に基づいて生成することが好ましい。この例における属性は、音(楽器)の種類である。例えば、歌唱音(ボーカル)の定位位置は前方中央、ギター等のストリングス楽器の定位位置は左側、ドラム等の打楽器の定位位置は後方中央、電子ピアノ等の鍵盤楽器の定位位置は右側と決まっている。
 例えば、端末11Aは、ボーカルおよびギターの音信号を取得する。なお、ボーカルの音信号はマイクで取得され、ギターの音信号はライン(オーディオケーブル)で取得される。端末11Aは、ボーカルの音信号に、利用者の前方中央に定位する様なHRTFを畳み込むバイノーラル処理を行う。端末11Aは、ギターの音信号に、利用者の左側に定位する様なHRTFを畳み込むバイノーラル処理を行う。
 端末11Bは、電子ピアノの音信号を取得する。電子ピアノの音信号はライン(オーディオケーブル)で取得される。端末11Bは、電子ピアノの音信号に、利用者の右側に定位する様なHRTFを畳み込むバイノーラル処理を行う。
 端末11Cは、ドラムの音信号を取得する。ドラムの音信号はマイクで取得される。端末11Cは、ドラムの音信号に、利用者の後方中央に定位する様なHRTFを畳み込むバイノーラル処理を行う。
 無論、変形例5においても、定位処理はバイノーラル処理に限らず、パニング処理であってもよい。この場合、定位制御情報は、左右の定位位置(左右の音量バランス)を示す。
 端末11A、端末11B、および端末11Cは、以上の様にして定位処理を施した音信号を、第1管理装置12Aに出力する。第1管理装置12Aは、上記の管理装置12と同じ構成および機能を有する。第1管理装置12Aは、端末11A、端末11B、および端末11Cから受信した音信号をミキシングする。また、第1管理装置12Aは、端末11A、端末11B、および端末11Cから映像信号を受信して1つの映像信号に合成してもよい。第1管理装置12Aは、ミキシングした音信号および合成した映像信号をリスナに配信する。
 これにより、リモートセッションを視聴するリスナは、各楽器の音が異なる位置から到来するように知覚することができる。変形例5においても、第1管理装置12Aは、2チャンネル(ステレオチャンネル)の音信号を配信するだけでよい。したがって、変形例5の音信号処理システム1Aの構成および動作は、2チャンネル(ステレオチャンネル)の音信号を配信するプラットフォームであれば実現することができる。
 また、端末11A、端末11B、および端末11Cは、定位処理を施す前の音信号を、第2管理装置12Bに出力する。第2管理装置12Bは、管理装置12および第1管理装置12Aと同じ構成および機能を有する。第2管理装置12Bは、端末11A、端末11B、および端末11Cで定位処理が施されていない音信号を受信してミキシングする。第2管理装置12Bは、ミキシングした音信号を端末11A、端末11B、および端末11Cに配信する。
 これにより、端末11A、端末11B、および端末11Cでそれぞれリモートセッションを行う利用者は、定位処理が施されていない音を聴くことができ、各利用者の音をモニタリングし易くなる。第2管理装置12Bも、2チャンネル(ステレオチャンネル)の音信号を配信するだけでよい。これにより、2チャンネル(ステレオチャンネル)の音信号を配信するプラットフォームであれば、リモートセッションを視聴するリスナは、各楽器の音を異なる位置から到来するように聴くことができ、端末11A、端末11B、および端末11Cでそれぞれリモートセッションを行う利用者は、モニタリングし易い音を聴くことができる。
 (変形例6) 
 変形例6の各端末は、変形例4と同様に音信号に間接音を付与する処理を行う。ただし、各端末は、間接音を付与した第1音信号と、間接音を付与しない第2音信号と、を生成する。第1音信号は、例えば上記の様に定位処理を施した音信号である。第2音信号は、例えば上記の様に定位処理を施していない音信号である。
 これにより、リモートセッションを視聴するリスナは、コンサートホール等の臨場感のある音を聴取することができ、端末11A、端末11B、および端末11Cでそれぞれリモートセッションを行う利用者は、モニタリングし易い音を聴くことができる。
 なお、間接音は、全ての端末において同じ音響空間を模したものであることが好ましい。これにより、遠隔地にいる端末11A、端末11B、および端末11Cの利用者(リモートセッションの演者)が同じ音響空間でライブ演奏を行っているように知覚することができる。
 (変形例7) 
 端末11A、端末11B、および端末11Cは、それぞれの音信号に、アンビエンス音を付与する処理をさらに実行してもよい。アンビエンス音とは、暗騒音、リスナの声援、拍手、呼びかけ、歓声、合唱、またはざわめき等の環境音を含む。これにより、リモートセッションを視聴するリスナは、ライブ会場における観客等の音も聴くことができ、より臨場感のある音を聴くことができる。
 なお、各端末は、上記第1音信号にアンビエンス音を付与し、上記第2音信号にはアンビエンス音を付与しないことが好ましい。これにより、リモートセッションを視聴するリスナは、臨場感のある音を聴取することができ、端末11A、端末11B、および端末11Cでそれぞれリモートセッションを行う利用者は、モニタリングし易い音を聴くことができる。
 なお、実際のライブ会場では、アンビエンス音はランダムに発生する。そこで、端末11A、端末11B、および端末11Cは、それぞれ異なるアンビエンス音を付与してもよい。これにより、アンビエンス音がランダムに発生するため、リスナはより臨場感のある音を聴くことができる。
 また、例えば声援や歓声、ざわめき等のアンビエンス音は、リモートセッションを行う演者毎に異なっていてもよい。例えば、ボーカルの音信号を出力する端末は、発生頻度およびレベルの高い声援や歓声、ざわめきを付与する。ドラムの音信号を出力する端末は、発生頻度およびレベルの低い声援や歓声、ざわめきを付与する。一般に、ライブ演奏では主役であるボーカルに対する声援や歓声、ざわめきの頻度およびレベルが高く、他の楽器(例えばドラム)の演奏に対する声援や歓声、ざわめきの頻度およびレベルは低い。したがって、ライブ演奏の主役に相当する音信号を出力する端末は、発生頻度およびレベルの高い声援や歓声、ざわめきを付与することで、より高度な臨場感を再現することができる。
 本実施形態の説明は、すべての点で例示であって、制限的なものではない。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲には、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
 例えば、図10の例において、各端末は、大きいコンサートホールの間接音を付与した音信号を第1管理装置12Aに出力し、小さいライブ会場の間接音を付与した音信号を第2管理装置12Bに出力してもよい。この場合、第1管理装置12Aは、大きいコンサートホールの間接音を付与した音信号を配信し、第2管理装置12Bは、小さいライブ会場の間接音を付与した音信号を配信する。リスナは、第1管理装置12Aの配信する音信号を受信して、大きいコンサートホールの響きを再現したリモートセッションを聴いてもよいし、第2管理装置12Bの配信する音信号を受信して、小さいライブハウスの響きを再現したリモートセッションを聴いてもよい。
1,1A…音信号処理システム
11A,11B,11C…端末
12…管理装置
12A…第1管理装置
12B…第2管理装置
13…ネットワーク
201…表示器
203…CPU
204…RAM
205…ネットワークI/F
206…フラッシュメモリ
207…マイク
208…スピーカ
209…カメラ

Claims (23)

  1.  音信号を出力する複数の端末から構成される音信号処理システムで用いられる音信号処理方法であって、
     前記複数の端末は、それぞれ、
     前記音信号処理システムにおける自端末の音像定位位置を決める定位制御情報を取得し、
     取得した前記定位制御情報に基づいて、自端末の音信号に定位処理を施し、
     前記定位処理を施した後の音信号を出力する、
     音信号処理方法。
  2.  前記定位制御情報は、左右の定位位置を決める情報を含み、
     前記定位処理は、パニング処理を含む、
     請求項1に記載の音信号処理方法。
  3.  前記定位制御情報は、3次元の定位位置を決める情報を含み、
     前記定位処理は、バイノーラル処理を含む、
     請求項1または請求項2に記載の音信号処理方法。
  4.  前記定位制御情報は、各端末の固有の識別情報に基づいて生成される、
     請求項1乃至請求項3のいずれか1項に記載の音信号処理方法。
  5.  前記複数の端末は、映像信号を出力し、
     前記識別情報は、前記映像信号に含まれている、
     請求項4に記載の音信号処理方法。
  6.  前記定位制御情報は、各端末の利用者の属性に基づいて生成される、
     請求項1乃至請求項5のいずれか1項に記載の音信号処理方法。
  7.  音響空間を示す空間情報を取得し、
     前記端末の音信号に、前記空間情報で示される音響空間に対応する間接音を付与する処理をさらに実行する、
     請求項1乃至請求項6のいずれか1項に記載の音信号処理方法。
  8.  前記間接音を付与した第1音信号と、前記間接音を付与しない第2音信号と、を生成し、前記第1音信号と、前記第2音信号と、をそれぞれ出力する、
     請求項7に記載の音信号処理方法。
  9.  前記端末の音信号に、アンビエンス音を付与する処理をさらに実行する、
     請求項1乃至請求項8のいずれか1項に記載の音信号処理方法。
  10.  前記アンビエンス音は、前記複数の端末毎に異なる、
     請求項9に記載の音信号処理方法。
  11.  自端末を含む複数の端末で構成される音信号処理システムにおける、前記自端末の音像定位位置を決める定位制御情報を取得し、
     取得した前記定位制御情報に基づいて、自端末の音信号に定位処理を施し、
     前記定位処理を施した後の音信号を出力する、
     制御部を備えた端末。
  12.  前記定位制御情報は、左右の定位位置を決める情報を含み、
     前記定位処理は、パニング処理を含む、
     請求項11に記載の端末。
  13.  前記定位制御情報は、3次元の定位位置を決める情報を含み、
     前記定位処理は、バイノーラル処理を含む、
     請求項11または請求項12に記載の端末。
  14.  前記定位制御情報は、各端末の固有の識別情報に基づいて生成される、
     請求項11乃至請求項13のいずれか1項に記載の端末。
  15.  前記制御部は、映像信号を出力し、
     前記識別情報は、前記映像信号に含まれている、
     請求項14に記載の端末。
  16.  前記定位制御情報は、各端末の利用者の属性に基づいて生成される、
     請求項11乃至請求項15のいずれか1項に記載の端末。
  17.  前記制御部は、音響空間を示す空間情報を取得し、
     前記端末の音信号に、前記空間情報で示される音響空間に対応する間接音を付与する処理をさらに実行する、
     請求項11乃至請求項16のいずれか1項に記載の端末。
  18.  前記制御部は、前記間接音を付与した第1音信号と、前記間接音を付与しない第2音信号と、を生成し、前記第1音信号と、前記第2音信号と、をそれぞれ出力する、
     請求項17に記載の端末。
  19.  前記端末の音信号に、アンビエンス音を付与する処理をさらに実行する、
     請求項11乃至請求項18のいずれか1項に記載の端末。
  20.  前記アンビエンス音は、前記複数の端末毎に異なる、
     請求項19に記載の端末。
  21.  複数の端末と、管理装置と、で構成される音信号処理システムであって、
     前記管理装置は、
     前記複数の端末のそれぞれの音像定位位置を決める定位制御情報を生成し、
     前記複数の端末は、それぞれ、
     前記定位制御情報を取得し、
     取得した前記定位制御情報に基づいて、自端末の音信号に定位処理を施し、
     前記定位処理を施した後の音信号を出力し、
     前記管理装置は、前記複数の端末からそれぞれ出力された音信号をミキシングして前記複数の端末に配信する、
     音信号処理システム。
  22.  複数の端末で構成される音信号処理システムの管理装置であって、
     前記複数の端末のそれぞれの音像定位位置を決める定位制御情報を生成し、
     前記複数の端末のそれぞれに前記定位制御情報を配信し、
     前記複数の端末で、前記定位制御情報に基づいて定位処理が施された後の音信号を受信し、
     前記複数の端末からそれぞれ受信した音信号をミキシングして前記複数の端末に配信する、
     管理装置。
  23.  複数の端末と、第1管理装置と、第2管理装置と、で構成される音信号処理システムであって、
     前記複数の端末は、それぞれ、
     前記音信号処理システムの音像定位位置を決める定位制御情報を取得し、
     取得した前記定位制御情報に基づいて、自身の端末で取得した音信号に定位処理を施し、
     前記定位処理を施した後の第1音信号を前記第1管理装置に出力し、
     前記定位処理を施す前の第2音信号を前記第2管理装置に出力し、
     前記第1管理装置は、前記複数の端末からそれぞれ出力された第1音信号をミキシングし、
     前記第2管理装置は、前記複数の端末からそれぞれ出力された第2音信号をミキシングする、
     音信号処理システム。
PCT/JP2022/032928 2021-09-17 2022-09-01 音信号処理方法、端末、音信号処理システム、管理装置 WO2023042671A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023548402A JPWO2023042671A1 (ja) 2021-09-17 2022-09-01
US18/606,116 US20240259751A1 (en) 2021-09-17 2024-03-15 Audio Signal Processing Method, Apparatus, and Audio Signal Processing System

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-152271 2021-09-17
JP2021152271 2021-09-17

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/606,116 Continuation US20240259751A1 (en) 2021-09-17 2024-03-15 Audio Signal Processing Method, Apparatus, and Audio Signal Processing System

Publications (1)

Publication Number Publication Date
WO2023042671A1 true WO2023042671A1 (ja) 2023-03-23

Family

ID=85602181

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/032928 WO2023042671A1 (ja) 2021-09-17 2022-09-01 音信号処理方法、端末、音信号処理システム、管理装置

Country Status (3)

Country Link
US (1) US20240259751A1 (ja)
JP (1) JPWO2023042671A1 (ja)
WO (1) WO2023042671A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001036880A (ja) * 1999-07-16 2001-02-09 Matsushita Electric Ind Co Ltd 電子会議システム
JP2003102099A (ja) * 2001-07-19 2003-04-04 Matsushita Electric Ind Co Ltd 音像定位装置
JP2006237841A (ja) * 2005-02-23 2006-09-07 Oki Electric Ind Co Ltd 音声会議システム及び話者特定用処理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001036880A (ja) * 1999-07-16 2001-02-09 Matsushita Electric Ind Co Ltd 電子会議システム
JP2003102099A (ja) * 2001-07-19 2003-04-04 Matsushita Electric Ind Co Ltd 音像定位装置
JP2006237841A (ja) * 2005-02-23 2006-09-07 Oki Electric Ind Co Ltd 音声会議システム及び話者特定用処理装置

Also Published As

Publication number Publication date
US20240259751A1 (en) 2024-08-01
JPWO2023042671A1 (ja) 2023-03-23

Similar Documents

Publication Publication Date Title
US11991315B2 (en) Audio conferencing using a distributed array of smartphones
US9113034B2 (en) Method and apparatus for processing audio in video communication
JP2975687B2 (ja) 第1局・第2局間に音声信号とビデオ信号とを送信する方法、局、テレビ会議システム、第1局・第2局間に音声信号を伝送する方法
JPWO2018096954A1 (ja) 再生装置、再生方法、情報処理装置、情報処理方法、およびプログラム
WO2011153907A1 (zh) 一种播放远端与会人员音频的方法、装置及远程视频会议系统
JP2022083443A (ja) オーディオと関連してユーザカスタム型臨場感を実現するためのコンピュータシステムおよびその方法
Braasch et al. A loudspeaker-based projection technique for spatial music applications using virtual microphone control
Malham Toward reality equivalence in spatial sound diffusion
WO2023042671A1 (ja) 音信号処理方法、端末、音信号処理システム、管理装置
JP6220576B2 (ja) 複数人による通信デュエットに特徴を有する通信カラオケシステム
WO2022113289A1 (ja) ライブデータ配信方法、ライブデータ配信システム、ライブデータ配信装置、ライブデータ再生装置、およびライブデータ再生方法
WO2024100920A1 (ja) 情報処理装置、情報処理方法及び情報処理用プログラム
WO2022113288A1 (ja) ライブデータ配信方法、ライブデータ配信システム、ライブデータ配信装置、ライブデータ再生装置、およびライブデータ再生方法
US12052551B2 (en) Networked audio auralization and feedback cancellation system and method
WO2022054576A1 (ja) 音信号処理方法および音信号処理装置
WO2022208609A1 (ja) 配信システム、配信方法、及びプログラム
WO2024213865A1 (en) A system and method for immersive musical performance between at least two remote locations over a network
JP2004301997A (ja) 演奏データ通信システム、装置、方法及びプログラム
JP2022128177A (ja) 音声生成装置、音声再生装置、音声再生方法、及び音声信号処理プログラム
Rimell Immersive spatial audio for telepresence applications: system design and implementation
JP2022134182A (ja) 映像出力方法、映像出力装置および映像出力システム
CN117409804A (zh) 音频信息的处理方法、介质、服务器、客户端及系统
Braasch et al. An immersive audio environment with source positioning based on virtual microphone control
JP2004294519A (ja) 通信装置、通信方法及びプログラム
Blum Evaluating the applications of spatial audio in telephony

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22869818

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023548402

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22869818

Country of ref document: EP

Kind code of ref document: A1