WO2021140791A1 - 符号化装置、復号装置、符号化方法及び復号方法 - Google Patents

符号化装置、復号装置、符号化方法及び復号方法 Download PDF

Info

Publication number
WO2021140791A1
WO2021140791A1 PCT/JP2020/044887 JP2020044887W WO2021140791A1 WO 2021140791 A1 WO2021140791 A1 WO 2021140791A1 JP 2020044887 W JP2020044887 W JP 2020044887W WO 2021140791 A1 WO2021140791 A1 WO 2021140791A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
format
conversion
communication terminal
sound
Prior art date
Application number
PCT/JP2020/044887
Other languages
English (en)
French (fr)
Inventor
旭 原田
江原 宏幸
利昭 櫻井
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority to US17/791,708 priority Critical patent/US20230023321A1/en
Priority to JP2021569763A priority patent/JP7316384B2/ja
Publication of WO2021140791A1 publication Critical patent/WO2021140791A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Definitions

  • the present disclosure relates to a coding device, a decoding device, a coding method and a decoding method.
  • One of the techniques for coding the input from a microphone is, for example, Middle / Side (M / S) stereo coding (see, for example, Patent Document 1).
  • Non-limiting examples of the present disclosure contribute to the provision of a coding device, a decoding device, a coding method, and a decoding method capable of coding and decoding according to a signal format of a sound signal.
  • the coding device converts the signal format of the sound signal based on the information regarding the conversion capability of the signal format of the sound signal in the decoding device that decodes the coded data of the sound signal. It includes a control circuit for controlling and a coding circuit for encoding the sound signal according to the control of the conversion.
  • Block diagram showing a configuration example of the transmission system according to the first embodiment A sequence diagram showing an example of session negotiation according to the first embodiment.
  • Block diagram showing a configuration example of the conversion control unit according to the first embodiment The figure which shows the configuration example of the software and hardware of the communication terminal which concerns on Embodiment 1.
  • Block diagram showing a configuration example of the conversion control unit according to the first embodiment Block diagram showing a configuration example of a communication terminal according to the second embodiment
  • Block diagram showing a configuration example of a communication terminal according to the second embodiment The figure which shows the operation example of the codec and the conversion control part which concerns on Embodiment 2.
  • FIG. 1 The figure which shows the operation example of the codec and the conversion control part which concerns on Embodiment 2.
  • Block diagram showing a configuration example of the conversion control unit according to the third embodiment The figure which shows the setting example of the sound image localization which concerns on Embodiment 3.
  • Block diagram showing a configuration example of a communication terminal according to a fourth embodiment Block diagram showing a configuration example of a communication terminal according to a fourth embodiment
  • M / S stereo coding for example, a method of M / S stereo coding of an input signal (for example, an audio signal or an acoustic signal (also referred to as an audio-acoustic signal)) acquired by a stereo microphone has been proposed (for example, see Patent Document 1 and Patent Document 2).
  • M / S stereo coding for example, the compression performance of the signal can be improved.
  • the stereo microphone includes, for example, a Mid-Side (MS) microphone that acquires an M signal (sum signal) and an S signal (difference signal), and an L channel signal and an R that constitute a stereo signal such as an AB microphone or an XY microphone.
  • M the signal format of the stereo signal represented by the M signal and the S signal
  • L the signal format of the stereo signal represented by the L channel signal and the R channel signal
  • an M / S format signal is encoded in a communication terminal and the M signal and the S signal are reproduced in the L channel and the R channel of the headphones or the speaker in the opposite device (in other words, the receiver) which is the communication partner.
  • existing codecs for example, Enhanced Voice Services: EVS
  • EVS Enhanced Voice Services: EVS
  • FIG. 1 shows a configuration example of a voice-acoustic signal transmission system according to the present embodiment.
  • the transmission system shown in FIG. 1 includes, for example, at least a communication terminal 1 and a communication terminal 2.
  • the communication terminal 1 encodes an input signal such as an audio signal or an acoustic signal.
  • the coded data is transmitted or input to the communication terminal 2.
  • the coded data may be received by the communication terminal 2 via the communication network, or the coded data recorded on the recording medium may be input to the communication terminal 2.
  • the "communication network" may be read as a wired or wireless "transmission line”.
  • the communication terminal 1 has various audio-acoustic codecs (for example, ITU-T) defined in standards such as Moving Picture Experts Group (MPEG), 3rd Generation Partnership Project (3GPP), or International Telecommunication Union Telecommunication Standardization Sector (ITU-T).
  • the codec 122) shown in FIG. 1 may be provided.
  • the communication terminal 2 decodes the coded data received from the communication terminal 1 via, for example, a transmission line or a recording medium, and outputs an output signal (for example, an electric signal).
  • the communication terminal 2 may output, for example, an electric signal as a sound wave via a speaker or headphones.
  • the communication terminal 2 may include, for example, a reception processing unit 21 corresponding to the above-mentioned voice-acoustic codec.
  • the communication terminal 1 is a device on the transmitting side (for example, also referred to as a transmitter) that transmits the encoded data of the audio-acoustic signal
  • the communication terminal 2 is the encoded data of the audio-acoustic signal.
  • the device is a device on the receiving side (for example, also called a receiver) that receives the data. Therefore, FIG. 1 shows an example in which the communication terminal 1 is provided with a functional unit related to processing on the transmitting side, and the communication terminal 2 is provided with a functional unit related to processing on the receiving side.
  • the communication terminal 1 and the communication terminal 2 are not limited to the configuration example shown in FIG. 1, and may have functional units on both the transmitting side and the receiving side. In other words, the communication between the communication terminal 1 and the communication terminal 2 may be unidirectional or bidirectional.
  • the communication terminal 1 shown in FIG. 1 includes, for example, a microphone 11, a transmission processing unit 12 (corresponding to a coding device), and a display device 13.
  • the microphone 11 is, for example, an input device for sound such as voice or sound, and outputs the acquired (in other words, sound collection or recording) voice-acoustic signal to the transmission processing unit 12.
  • the microphone 11 is not limited to the case where it is provided in the communication terminal 1 as shown in FIG.
  • the communication terminal 1 is not provided with a microphone, and for example, an external microphone (not shown) may be connected (for example, a wired connection or a wireless connection).
  • the communication terminal 1 may switch between the internal microphone 11 and the external microphone, for example.
  • the microphone 11 may be, for example, a stereo microphone.
  • the stereo microphone may be configured by using, for example, an omnidirectional microphone, a unidirectional microphone, or a bidirectional microphone.
  • a microphone in which two omnidirectional microphones are combined in parallel is called an "A-B microphone”.
  • a microphone in which two microphones are combined with an opening angle so that the sound collecting portions of the unidirectional microphones overlap is called an "X-Y microphone”.
  • M-S microphone a microphone in which a unidirectional microphone and a bidirectional microphone are combined one by one.
  • a microphone with a distance of 17 cm between two unidirectional microphones and an angle of 110 degrees is called an "Office de Radiodiffusion Television Francalse (ORTF) microphone", and the distance between the two unidirectional microphones.
  • ORTF Office de Radiodiffusion Television Francalse
  • a microphone with an angle of 90 degrees is called a “Nederlandse Omroep Stichting (NOS) microphone”.
  • the audio-acoustic signal output from the M-S microphone is an "M / S format" signal.
  • the audio-acoustic signal output from the A-B microphone, the X-Y microphone, the ORTF microphone, and the NOS microphone is, for example, an "L / R format" signal.
  • the transmission processing unit 12 encodes the audio-acoustic signal input from the microphone 11, and transmits the encoded data to the communication terminal 2, for example.
  • the transmission processing unit 12 includes, for example, a codec negotiation unit 121 and a codec 122.
  • the codec negotiation unit 121 for example, negotiates (or negotiates) a session for communication with the communication terminal 2 which is the opposite unit of the communication terminal 1.
  • the codec negotiation unit 121 may, for example, negotiate a codec that can be used in communication. Further, the codec negotiation unit 121 negotiates, for example, the conversion ability (for example, output conversion ability or output conversion function) of the signal format (in other words, the format) for the stereo signal in the codec of the communication terminal 2. Good.
  • the codec negotiation unit 121 (for example, corresponding to the receiving circuit) may receive information regarding the output conversion capability of the communication terminal 2 in the session negotiation between the communication terminal 1 and the communication terminal 2.
  • the codec negotiation unit 121 outputs, for example, the result of negotiation (for example, information on the type of codec or the output conversion capability) to the codec 122.
  • the information regarding the output conversion capability can be converted into, for example, the signal format of the stereo signal from the M / S format to the L / R format in the communication terminal 2. It may be information indicating whether it is possible. It should be noted that whether it is “convertible” or “unconvertible” may mean whether the conversion is "supported” or “not supported”. In other words, the output conversion capability information indicates, for example, whether or not the communication terminal 2 has a function unit (conversion control unit 2122 described later) for converting an M / S format signal to an L / R format signal. But it may be. For example, the output conversion capability information may be notified from the communication terminal 2 to the communication terminal 1 in session negotiation.
  • the codec 122 encodes the audio-audio signal input from the microphone 11, for example, and outputs the encoded data.
  • the codec 122 includes, for example, a conversion control unit 1221 (for example, corresponding to a control circuit) and a coding unit 1222 (for example, corresponding to a coding circuit).
  • the conversion control unit 1221 controls the conversion of the signal format of the stereo signal input from the microphone 11 (in other words, the signal format to be coded by the coding unit 1222).
  • the conversion control unit 1221 is at least one of information on the type of codec or output conversion capability input from the codec negotiation unit 121 and information indicating the type of the microphone 11 (hereinafter, referred to as “mic type information”).
  • the signal format (for example, M / S format or L / R format) of the signal input to the coding unit 1222 may be determined based on the above.
  • the conversion control unit 1221 outputs, for example, the signal input from the microphone 11 or the converted signal to the coding unit 1222. Further, the conversion control unit 1221 may generate, for example, information indicating the determined signal format (hereinafter, referred to as “signal format information”) and output it to the coding unit 1222.
  • signal format information information indicating the determined signal format
  • the coding unit 1222 encodes the signal input from the conversion control unit 1221 (for example, stereo coding) and outputs the coded data. Further, the coding unit 1222 may encode and output the signal format information input from the conversion control unit 1221.
  • the display device 13 may display, for example, an image that accepts the operation of the user of the communication terminal 1. Further, the display device 13 may output, for example, information indicating the operation content of the user to another functional unit (for example, the transmission processing unit 12) of the communication terminal 1.
  • the display device 13 is, for example, a device such as a liquid crystal display.
  • the communication terminal 2 shown in FIG. 1 includes, for example, a reception processing unit 21 (for example, corresponding to a decoding device), a speaker 22, and a display device 23.
  • the reception processing unit 21 receives, for example, the coded data (also referred to as a transmission bit stream) transmitted from the communication terminal 1 and outputs the decoded audio-acoustic signal obtained by decoding the coded data to the speaker 22. ..
  • the reception processing unit 21 includes, for example, a codec negotiation unit 211 and a codec 212.
  • the codec negotiation unit 211 for example, negotiates a session for communication with the communication terminal 1 which is the opposite unit of the communication terminal 2.
  • the codec negotiation unit 211 may, for example, negotiate a codec that can be used in communication, or negotiate an output conversion capability of the codec of the communication terminal 2.
  • the result of negotiation in the codec negotiation unit 211 (for example, information on the type of codec or output conversion capability information) may be notified to, for example, the communication terminal 1.
  • the codec 212 decodes the encoded data, for example, and outputs the decoded data (for example, also referred to as a decoded audio-acoustic signal) to the speaker 22.
  • the codec 212 includes, for example, a decoding unit 2121 (for example, corresponding to a decoding circuit) and a conversion control unit 2122 (for example, corresponding to a control circuit).
  • the decoding unit 2121 decodes the encoded data encoded in the communication terminal 1, for example, and outputs the decoded data to the conversion control unit 2122. Further, the decoding unit 2121 decodes the signal format information transmitted from the communication terminal 1, for example, and outputs the signal format information to the conversion control unit 2122.
  • the conversion control unit 2122 controls the conversion of the signal format of the decoded data (for example, the decoded data of the stereo signal) input from the decoding unit 2121.
  • the conversion control unit 2122 may determine the signal format of the decoded data based on the signal format (for example, M / S format or L / R format) shown in the signal format information.
  • the speaker 22 is, for example, a sound output device, and converts the decoded data input from the codec 212 into sound (for example, voice or sound) and outputs it.
  • the speaker 22 is not limited to the case where it is provided in the communication terminal 2 as shown in FIG.
  • the communication terminal 2 is not provided with a speaker, and an external output device (not shown) such as a speaker or headphones may be connected (for example, a wired connection or a wireless connection).
  • the communication terminal 2 may switch between the internally provided speaker 22 and an external output device, for example.
  • the display device 23 may display, for example, an image that accepts the user's operation of the communication terminal 2. Further, the display device 23 may output, for example, information indicating the operation content of the user to another functional unit (for example, the reception processing unit 21) of the communication terminal 2.
  • the display device 23 is a display device such as a liquid crystal display.
  • FIG. 2 is a sequence diagram showing an operation example of negotiation between the communication terminal 1 and the communication terminal 2.
  • the communication terminal 1 and the communication terminal 2 make a communication call and respond to the call (S101).
  • the communication terminal 1 inquires, for example, the communication terminal 2 of available codecs (S102).
  • the communication terminal 2 responds to an inquiry about a codec that can be used (S103).
  • the response of the available codecs may include, for example, information about the types of codecs available in the communication terminal 2.
  • the communication terminal 1 determines (in other words, determines) the codec to be used in the communication between the communication terminal 1 and the communication terminal 2 based on the response of the available codec from the communication terminal 2 (S104).
  • the communication terminal 1 inquires, for example, the communication terminal 2 of the output conversion capability (S105).
  • the communication terminal 2 responds to an inquiry of output conversion capability (S106).
  • the response to the inquiry of the output conversion capability may include, for example, the output conversion capability information of the communication terminal 2.
  • the communication terminal 1 determines the signal format (or also referred to as an input format) of the signal to be coded by the coding unit 1222 based on the output conversion capability information from the communication terminal 2 (S107).
  • the communication terminal 1 and the communication terminal 2 allocate resources in the communication network between the communication terminal 1 and the communication terminal 2, for example (S108).
  • the communication terminal 2 makes a user call (S109), for example, when the user answers, a response OK message is transmitted to the communication terminal 1 (S110), and a call is started between the communication terminal 1 and the communication terminal 2. (S111).
  • the processing related to the output conversion capability may be performed within the processing related to the available codecs (for example, the processing of S102 and S103).
  • the communication terminal 2 may notify the communication terminal 1 of the output conversion capability information during the negotiation without inquiring from the communication terminal 1 (for example, the process of S105). ..
  • the communication terminal 1 inquires the communication terminal 2 about the output conversion capability has been described, but the present invention is not limited to this.
  • the communication terminal 2 may inquire the communication terminal 1 of the output conversion capability (corresponding to the processing of S105). ). In this case, the communication terminal 1 may respond to an inquiry of the output conversion capability from the communication terminal 2 (corresponding to the process of S106).
  • This process assumes, for example, communication of coded data from the communication terminal 2 to the communication terminal 1 (for example, bidirectional communication), and in order to decode and output the coded data in the communication terminal 1, the communication terminal 2 It is useful for the necessity of conversion of the signal format at the time of coding in.
  • FIG. 3 is a diagram showing a configuration example of software and hardware of the communication terminal 1.
  • the software of the communication terminal 1 may include, for example, a user interface application, a voice communication application, a communication driver software, a codec negotiation unit 121, a sound driver software, and a codec 122.
  • the hardware of the communication terminal 1 includes, for example, a radio frequency (RF) block, an Ethernet (registered trademark) block, an Analog-to-Digital (AD) converter, a microphone 11, a Digital-to-Analog (DA) converter, and the like. Speakers and headphones may be included. At least one of the hardware shown in FIG. 3 may be an external device that the communication terminal 1 does not have, or may be connected to the communication terminal 1.
  • RF radio frequency
  • AD Analog-to-Digital
  • DA Digital-to-Analog
  • the user interface application accepts the user's operation via the display device 13, for example, and outputs the input information corresponding to the user's operation to the voice communication application.
  • the voice communication application controls processing related to voice communication with respect to the codec 122 based on information input from, for example, a user interface application, a codec negotiation unit 121, or sound driver software.
  • Sound driver software controls, for example, hardware related to sound input / output (for example, microphone 11, AD converter, DA converter, headphones and speakers).
  • the communication driver software controls, for example, communication-related hardware (for example, RF block or Ethernet block).
  • Method 1-1 for example, M / S format or L / R format
  • Method 1-3 will be described. To do.
  • the method of inputting the microphone type information to the codec 122 is not limited to these methods, and other methods may be used.
  • the voice communication application acquires microphone type information from the sound driver software and outputs the acquired microphone type information to the codec 122.
  • the codec 122 acquires microphone type information from the sound driver software.
  • the user interface application outputs microphone type information indicating the microphone type selected by the user to the codec 122 via the voice communication application.
  • the display device 13 may display a microphone type selection screen such as an M-S microphone and an A-B microphone, and generate microphone type information corresponding to the microphone type selected by the user.
  • the updated microphone type information may be input to the codec 122 by any one of the methods 1-3.
  • the communication driver software acquires (in other words, receives) the output conversion capability information transmitted from the communication terminal 2 which is the opposite unit of the communication terminal 1, and receives the codec negotiation unit 121 and the voice. It is output to the codec 122 via the communication application.
  • the method of inputting the output conversion capability information to the codec 122 is not limited to this method, and other methods may be used.
  • FIG. 4 is a block diagram showing a configuration example of the conversion control unit 1221.
  • the conversion control unit 1221 shown in FIG. 4 includes, for example, a determination unit 1225 and a conversion unit 1226.
  • the determination unit 1225 determines whether or not to convert the signal format of the input signal (for example, audio-acoustic signal) based on, for example, the microphone type information and the output conversion capability.
  • the signal format of the input signal for example, audio-acoustic signal
  • the determination unit 1225 determines the signal of the input signal. Judge that the format (M / S format) is not converted. In this case, the determination unit 1225 outputs the M / S format signal to the coding unit 1222.
  • the determination unit 1225 inputs. It is determined that the signal format (M / S format) of the signal is converted to the L / R format. In this case, the determination unit 1225 outputs the M / S format input signal to the conversion unit 1226.
  • the determination unit 1225 does not convert the signal format (L / R format) of the input signal, regardless of the output conversion capability information, and the coding unit. Output to 1222.
  • the determination unit 1225 outputs signal format information indicating a determination result (for example, the determined signal format) of the signal format of the input signal to the coding unit 1222.
  • the signal format conversion determination method in the determination unit 1225 is not limited to the method based on the microphone type information, and other methods may be used.
  • the determination unit 1225 determines the microphone type based on the correlation between the two channels constituting the input signal (for example, a pair of an M signal and an S signal, or a pair of an L channel signal and an R channel signal). , It may be determined whether or not to convert the signal format.
  • the correlation between the two channels is based on at least one piece of information indicating the relationship between the two channels, for example, the gain difference between the two channels, the time difference, the phase difference, or the difference in the spectral structure when converted into the frequency domain. May be decided.
  • the determination unit 1225 signals based on the output conversion capability information. You may control the conversion of the format.
  • the conversion unit 1226 converts the M / S format input signal input from the determination unit 1225 into an L / R format input signal, and outputs the converted L / R format signal to the coding unit 1222. To do.
  • the conversion control unit 1221 converts the M / S format sound signal input to the transmission processing unit 12 into the L / R format when the output conversion capability information indicates that the conversion to the L / R format is not supported. Convert to.
  • the conversion control unit 1221 indicates that the output conversion capability information supports conversion to the L / R format
  • the conversion control unit 1221 performs the above conversion on the M / S format sound signal input to the transmission processing unit 12. Does not apply. Further, the conversion control unit 1221 does not apply the above conversion when an L / R format sound signal is input to the transmission processing unit 12.
  • the conversion unit 1226 may weight the M signal and the S signal when converting from the M / S format to the L / R format. By weighting the M signal and the S signal, the sense of spaciousness of the sound can be adjusted.
  • the conversion unit 1226 may convert the M signal (M) and the S signal (S) into the L channel signal (L) and the R channel signal (R), for example, according to the following equation (1).
  • the larger the value of ⁇ the smaller the value of ⁇
  • the S signal is emphasized and the sense of spaciousness of the sound increases.
  • Method 2-1 and method 2-2 and method 2-3 will be described as examples of how to set the weighting factors (for example, ⁇ and ⁇ ) at the time of conversion from the M / S format to the L / R format.
  • the method for setting the weighting coefficients is not limited to these methods, and other methods may be used.
  • the user interface application transfers the weighting factors ⁇ and ⁇ (or parameters associated with the weighting factors) selected (in other words, set) by the user to the codec 122 via the voice communication application. You may output it.
  • the display device 13 displays a selection screen (or input screen) for parameters related to sound spread (for example, 0% to 100%), and a weighting coefficient corresponding to the parameter selected by the user. (For example, “weight at the time of M / S ⁇ L / R conversion” shown in FIG. 3 or 4) may be generated. Further, the display device 13 may preset a plurality of candidate values of the weighting coefficients ⁇ and ⁇ such as 10%, 20%, ..., 100%, and allow the user to select any of the candidate values.
  • the voice communication application may set the weighting coefficients ⁇ and ⁇ and output the information indicating the set weighting coefficients ⁇ and ⁇ to the codec 122.
  • the codec 122 may set weighting coefficients ⁇ and ⁇ .
  • the communication terminal 1 may transmit the signal format information generated by the conversion control unit 1221 to the communication terminal 2 in addition to transmitting the M / S format or L / R format signal.
  • Method 3-1 to method 3-4 will be described as an example of the method of transmitting signal format information.
  • the method of transmitting signal format information is not limited to these methods, and other methods may be used.
  • the signal format information may also be encoded and transmitted by being included in the transmission bit stream.
  • the codec negotiation unit 121 may transmit signal format information to the communication terminal 2 when establishing session negotiation.
  • the signal format information is not included in the transmission bitstream encoded by the coding unit 1222, but is transmitted frame by frame in another signal (for example, a session control message or a header of a communication protocol). You can.
  • the signal format information is not included in the transmission bitstream encoded by the coding unit 1222, but is transmitted in another signal (for example, a session control message or a header of a communication protocol) for the first time. And, it may be transmitted at the timing when the microphone is switched.
  • another signal for example, a session control message or a header of a communication protocol
  • the codec 122 When the difference between the gain of one channel and the gain of the other channel is extremely large in the two-channel signal input to the conversion control unit 1221 or the conversion two-channel signal in the conversion control unit 1221 (for example, when the gain difference is equal to or larger than the threshold value), the codec 122 does not have to encode the channel having a large gain among the two channels based on the monaural codec and not the channel having a small gain. In other words, the coded data of the channel having the larger gain among the two channels may be transmitted to the communication terminal 2.
  • the difference between the gain of one channel and the gain of the other channel is extremely large (for example,).
  • the codec 122 does not have to encode the channel having a large gain among the two channels based on the monaural codec and the channel having a small gain. In other words, the coded data of the channel having the larger gain among the two channels may be transmitted to the communication terminal 2.
  • FIG. 5 is a diagram showing a configuration example of software and hardware of the communication terminal 2.
  • the software of the communication terminal 2 may include, for example, a user interface application, a voice communication application, a communication driver software, a codec negotiation unit 211, a sound driver software, and a codec 212.
  • the hardware of the communication terminal 2 may include, for example, an RF block, an Ethernet block, an AD converter, a microphone, a DA converter, a speaker 22, and headphones. At least one of the hardware shown in FIG. 5 may be an external device that the communication terminal 2 does not have, or may be connected to the communication terminal 2.
  • the user interface application accepts the user's operation via the display device 23, for example, and outputs the input information corresponding to the user's operation to the voice communication application.
  • the voice communication application controls processing related to voice communication with respect to the codec 212, for example, based on the information input from the user interface application or the codec negotiation unit 211.
  • the sound driver software controls, for example, hardware related to sound input / output (for example, a microphone, an AD converter, a DA converter, headphones, and a speaker 22).
  • hardware related to sound input / output for example, a microphone, an AD converter, a DA converter, headphones, and a speaker 22.
  • the communication driver software controls, for example, communication-related hardware (for example, RF block or Ethernet block).
  • the communication driver software may transmit output conversion capability information indicating the output conversion capability of the communication terminal 2 to the communication terminal 1 in the negotiation process by the codec negotiation unit 211.
  • FIG. 6 is a block diagram showing a configuration example of the conversion control unit 2122.
  • the conversion control unit 2122 shown in FIG. 6 includes, for example, a determination unit 2125 and a conversion unit 2126.
  • the determination unit 2125 determines whether or not to convert the signal format of the decoded data based on, for example, the signal format (for example, M / S format or L / R format) shown in the signal format information.
  • the signal format for example, M / S format or L / R format
  • the determination unit 2125 determines that the signal format (M / S format) of the decoded data is converted to the L / R format. In this case, the determination unit 2125 outputs the decoded data in the M / S format to the conversion unit 2126.
  • the determination unit 2125 determines that the signal format (L / R format) of the decoded data is not converted. In this case, the determination unit 2125 outputs the decoded data in the L / R format to, for example, the speaker 22.
  • the conversion unit 2126 converts the M / S format signal input from the determination unit 2125 into an L / R format signal, and outputs the converted L / R format signal to the speaker 22.
  • the conversion control unit 2122 inputs the coded data for the M / S format sound signal input to the reception processing unit 21 when the output conversion capability information indicates that the conversion to the L / R format is supported. Convert to L / R format.
  • the conversion unit 2126 may weight the M signal and the S signal when converting from the M / S format to the L / R format. By weighting the M signal and the S signal, the sense of spaciousness of the sound can be adjusted.
  • the conversion unit 2126 may convert the M signal (M) and the S signal (S) into the L channel signal (L) and the R channel signal (R), for example, according to the equation (1).
  • the parameters related to weighting in the communication terminal 2 may be set by the communication terminal 2 in the same manner as the communication terminal 1, and the communication terminal 1 notifies the communication terminal 2. May be done.
  • the communication terminal 2 that cannot convert from the M / S format to the L / R format does not include the conversion control unit 2122 shown in FIG.
  • Such a communication terminal 2 notifies the communication terminal 1 of output conversion capability information indicating that the signal format cannot be converted, for example, in negotiation with the communication terminal 1.
  • the communication terminal 1 since the communication terminal 1 transmits the coded data obtained by encoding the L / R format signal, the communication terminal 2 decodes the L / R format coded data. Outputs audio-acoustic signals.
  • the communication terminal 1 (for example, a coding device) is based on the output conversion capability information in the communication terminal 2 (for example, a decoding device) that decodes the coded data of the audio-audio signal. Therefore, the conversion of the signal format of the audio-acoustic signal is controlled, and the audio-acoustic signal is encoded according to the control of the conversion of the signal format. Further, the communication terminal 2 decodes the coded data encoded by the communication terminal 1 based on the information regarding the signal format conversion capability of the audio-acoustic signal in the communication terminal 2 and controls the signal format conversion.
  • the communication terminals 1 and 2 can be encoded or decoded according to the signal format of the audio-acoustic signal.
  • the communication terminal 1 encodes the M / S format signal acquired by the M-S microphone as it is with the codec. Even in this case, the communication terminal 2 can convert the M / S format signal into the L / R format signal in the reception processing unit 21 and output the stereo signal.
  • the communication terminal 1 displays the M / S format signal acquired by the MS microphone in the L / R format. It is converted into the signal of and encoded by the codec. By this conversion, the communication terminal 2 can output a stereo signal in the L / R format without converting the signal format in the reception processing unit 21.
  • the conversion control of the signal format in the communication terminal 1 for example, the M signal and the S signal are reproduced in the L channel and the R channel of the headphone or the speaker in the communication terminal 2, and the user. It is possible to suppress giving a feeling of strangeness to the earphones. In other words, it is possible to suppress that the M / S format signal acquired by the M-S microphone is output to the communication terminal 2 without being converted to the L / R format.
  • the communication terminal 1 can encode the input signal based on the signal format assumed in the existing codec such as EVS.
  • stereo coding can be appropriately performed according to the stereo microphone.
  • the M / S format signal acquired by the M-S microphone can be appropriately stereo-coded.
  • the configuration of the communication terminal 1 according to the present embodiment may be the same as that of the first embodiment, for example.
  • FIG. 7 is a block diagram showing an example of the configuration of the communication terminal 2a according to the present embodiment.
  • the reception processing unit 21a of the communication terminal 2a shown in FIG. 7 includes a conversion control unit 31 outside the codec 212a.
  • the codec 212a does not have a function of performing signal format conversion control.
  • the decoding unit 2121 of the decoding unit 2121 and the conversion control unit 31 may be included in the codec 212a.
  • the conversion control unit 31 may be included in at least one of the voice communication application and the sound driver software, for example.
  • the operation related to the conversion control of the conversion control unit 31 is, for example, the same as that of the conversion control unit 2122 of the first embodiment.
  • FIG. 8 is a block diagram showing another example of the configuration of the communication terminal 2b according to the present embodiment.
  • the reception processing unit 21b of the communication terminal 2b shown in FIG. 8 includes a conversion control unit 2122b inside the codec 212b and a conversion control unit 41 outside the codec 212b.
  • the conversion control unit 41 may be included in at least one of the voice communication application and the sound driver software, for example.
  • the operations related to the conversion control of the conversion control unit 2122b and the conversion control unit 41 are the same as those of the conversion control unit 2122 of the first embodiment, for example.
  • the communication terminal 2b may perform conversion control such as signal format determination and conversion by, for example, either the conversion control unit 2122b or the conversion control unit 41.
  • the communication terminal 2b may be based on an "internal conversion flag" indicating which of the conversion control unit 2122b and the conversion control unit 41 performs conversion control.
  • the value of the internal conversion flag is, for example, a value indicating that conversion control is performed inside the codec 212b (for example, value: internally valid), or a value indicating that conversion control is performed outside the codec 212 (for example, a value). : Internally invalid) is fine.
  • FIG. 9 is a diagram showing an operation example of the codec 212a and the conversion control unit 31 shown in FIG. 7.
  • the value of the internal conversion flag is set to "internal invalid".
  • the internal conversion flag is set to, for example, internally disabled and not set to internally enabled, so that the internal conversion flag does not have to be used.
  • the conversion control unit 31 determines whether or not to convert the signal format of the decoded data input from the codec 212a, for example, based on the signal format shown in the signal format information input from the codec 212a.
  • the conversion control unit 31 converts the signal format of the decoded data from the M / S format to the L / R format in the conversion unit 2126, and L / R. Output a format signal. Further, the conversion control unit 31 may weight the M signal and the S signal according to the equation (1), for example, at the time of signal format conversion. On the other hand, for example, when the signal format shown in the signal format information is the L / R format, the conversion control unit 31 outputs the L / R format signal without converting the signal format.
  • 10 and 11 are diagrams showing an operation example of the codec 212b and the conversion control unit 41 shown in FIG.
  • the conversion control unit 2122b is provided inside the codec 212b, and the conversion control unit 41 is provided outside the codec 212b.
  • the value of the internal conversion flag may be set to either "internally valid (FIG. 10)" or “internally invalid (FIG. 11)", for example.
  • Which of the conversion control unit 2122b and the conversion control unit 41 performs the conversion control may be arbitrarily set by, for example, the system design or the user selection.
  • the conversion control unit 2122b when the internal conversion flag indicates "internally valid", the conversion control unit 2122b is, for example, based on the signal format shown in the signal format information input from the decoding unit 2121. It is determined whether or not to convert the signal format of the decoded data input from 2121. Further, the conversion control unit 2122b converts the signal format of the decoded data when it is determined that the signal format is to be converted. Then, the conversion control unit 2122b outputs the signal format information and the L / R format signal to the conversion control unit 41.
  • the conversion control unit 41 outputs, for example, the L / R format signal input from the codec 212b (conversion control unit 2122b) as it is. In other words, the conversion control unit 41 does not convert the signal format.
  • the conversion control unit 2122b transfers the signal format information and the decoded data input from the decoding unit 2121 to the conversion control unit 41, for example. Output. In other words, the conversion control unit 2122b does not convert the signal format.
  • the conversion control unit 41 converts the signal format of the decoded data input from the codec 212b, for example, based on the signal format shown in the signal format information input from the codec 212b (conversion control unit 2122b). Judge whether or not. Further, when the conversion control unit 41 determines that the signal format is to be converted, the conversion control unit 41 converts the signal format of the decoded data. Then, the conversion control unit 41 outputs an L / R format signal.
  • method 4-1 and method 4-2 and method 4-3 will be described.
  • the method of setting the internal conversion flag is not limited to these methods, and other methods may be used.
  • the user interface application sets the internal conversion flag selected (or set) by the user via the voice communication application to the conversion control units 2122a and 2122b (for example, codecs 212a and 212b), and , Output to conversion control units 31 and 41 (for example, voice communication application or sound driver software).
  • the conversion control units 2122a and 2122b for example, codecs 212a and 212b
  • Output to conversion control units 31 and 41 for example, voice communication application or sound driver software
  • the voice communication application includes conversion control units 2122a, 2122b (in other words, inside the codecs 212a, 212b) and conversion control units 31, 41 (in other words, outside the codecs 212a, 212b). Which of the above determines whether to perform processing related to conversion control (for example, signal format determination and conversion).
  • the codecs 212a and 212b are the conversion control units 2122a and 2122b (in other words, inside the codecs 212a and 212b) and the conversion control units 31 and 41 (in other words, outside the codecs 212a and 212b). It is determined in which process the conversion control processing (for example, signal format determination and conversion) is performed.
  • both the decoding unit and the conversion control unit may be included in the codec, or the decoding unit among the decoding unit and the conversion control unit may be included in the codec.
  • the configuration of the communication terminal 1 according to the present embodiment is, for example, the same as that of the first embodiment. Further, in the configuration of the communication terminal 2 according to the present embodiment, for example, the configuration of the conversion control unit is different from that of the first embodiment or the second embodiment.
  • FIG. 12 is a block diagram showing a configuration example of the conversion control unit 2122c according to the present embodiment.
  • the conversion control unit 2122c shown in FIG. 12 has the same configuration as the conversion control unit 2122, 2122a, 2122b, 31 or 41 of the first or second embodiment, as well as the conversion unit 2127 and the L / R ratio setting unit 2128. To be equipped.
  • the conversion control unit 2122c may be included inside the codec 212 or may be included outside.
  • the conversion unit 2126 converts the MS format signal into the L / R format signal. .. Then, the conversion unit 2126 outputs the converted L / R format signal to the L / R ratio setting unit 2128.
  • the conversion unit 2127 converts the L / R format signal into the M / S format signal. Further, the conversion unit 2127 converts the M / S format signal into the L / R format signal. Then, the conversion unit 2127 outputs the converted L / R format signal to the L / R ratio setting unit 2128.
  • the ratio of the M signal may be set higher than that of the S signal.
  • the weighting coefficient ⁇ > ⁇ shown in the equation (1) may be set.
  • the L / R ratio setting unit 2128 sets (or adjusts) the L / R ratio in the L / R format signal input from the conversion unit 2126 or the conversion unit 2127, for example.
  • the L / R ratio setting unit 2128 may weight the L channel and the R channel.
  • the L / R ratio setting unit 2128 can identify information (for example, an identification ID) that identifies the communication terminal 1 that is the source of the L / R format signal, and the communication terminal 1 that is the source of the L / R format signal.
  • the L channel and the R channel may be weighted based on the number of (for example, the number of identification IDs) and at least one of the L / R ratios.
  • the communication terminal 2 can set, for example, the sound image localization (in other words, the position with respect to the communication terminal 2) of the communication terminal 1 of the transmission source arbitrarily or at equal intervals. Further, as described above, in the conversion unit 2126 and the conversion unit 2127, when the conversion to the L / R format is performed, the ratio of the M signal component to the S signal component is increased to narrow the sound spread. As a result, the communication terminal 2 can easily reproduce the sound as if the sound is sounding from the direction of the virtual position of each communication terminal 1 by setting the L / R ratio.
  • FIG. 13 is a diagram showing an example of sound image localization (in other words, a virtual position) of each communication terminal 1 (or user) in a multipoint conference system.
  • FIG. 13 shows an example in which the communication terminals 1-1, the communication terminals 1-2, and the communication terminals 1-3 corresponding to the three users each transmit the coded data of the audio-acoustic signal to the communication terminal 2. ..
  • the identification ID of the communication terminal 1-1 is set to 1
  • the identification ID of the communication terminal 1-2 is set to 2
  • the identification ID of the communication terminal 1-3 is set to 3.
  • the communication terminal 2 sets the L / R ratio of the L / R format signal corresponding to the decoded data associated with each identification ID, for example, based on the identification ID of each communication terminal 1 and the number of identification IDs. And adjust the sound localization.
  • the communication terminal 2 sets the sound image localization of the communication terminal 1-1 in the direction near 0 degrees (in other words, the left direction of the communication terminal 2), and sets the sound image localization of the communication terminal 1-2.
  • the direction is set near 90 degrees (in other words, the front direction of the communication terminal 2), and the sound image localization of the communication terminals 1-3 is set in the direction near 180 degrees (in other words, the right direction of the communication terminal 2).
  • the communication terminal 2 outputs the sound (for example, voice) from the communication terminal 1-1 as if it is sounding from a position near 0 degrees, and the communication terminal 1
  • the sound corresponding to -2 is output as if it is sounding from a position near 90 degrees
  • the sound corresponding to communication terminals 1-3 is output as if it is sounding from a position near 180 degrees.
  • the L / R ratio shown in FIG. 13 is an example and is not limited to these. Further, the range of sound image localization is not limited to the range of 0 to 180 degrees, and may be another range such as a range including different directions, a wider range, or a narrower range.
  • method 5-1 and method 5-2 and method 5-3 will be described.
  • the method of setting the L / R ratio is not limited to these methods, and other methods may be used.
  • the user interface application sets the L / R ratio selected (or set) by the user via the voice communication application in the L / R ratio setting unit 2128 (for example, codec 212, voice communication). It may be output to an application or sound driver software).
  • the voice communication application sets the number of identification IDs of the communication terminal 1 that communicates with the communication terminal 2 to the number of the communication terminals 1 to be arranged, and the set communication terminal 1 is set.
  • the L / R ratio for each communication terminal 1 may be calculated (or set) based on the number.
  • the codec 212 sets, for example, the number of identification IDs of the communication terminals 1 that communicate with the communication terminals 2 to the number of communication terminals 1 to be arranged, and is based on the set number of communication terminals 1. Then, the L / R ratio for each communication terminal 1 may be calculated (or set).
  • the communication terminal 2 when the number of identification IDs is 3, the communication terminal 2 has the three communication terminals 1 in the range of 0 to 180 degrees as shown in FIG.
  • the L / R ratio may be set so that they are evenly spaced.
  • the positions where the communication terminals 1 are virtually arranged are not limited to the positions where the communication terminals 1 are arranged at equal intervals within a certain range as shown in FIG.
  • the communication terminal 2 may set the arrangement of the communication terminal 1 at an arbitrary position in the range of 0 degrees to 180 degrees. Further, the communication terminal 2 may set the arrangement of the plurality of communication terminals 1 at overlapping positions.
  • the identification ID may be information that can identify the communication partner or speaker, such as an Internet Protocol (IP) address, a Medium Access Control (MAC) address, or a user ID.
  • IP Internet Protocol
  • MAC Medium Access Control
  • the identification ID may be associated with the decrypted data, for example.
  • the identification ID may be transmitted from the communication terminal 1 to the communication terminal 2, for example.
  • the method 6-1 and the method 6-2 will be described. The method of transmitting the identification ID is not limited to these methods, and other methods may be used.
  • the communication terminal 1 may encode the coded data in the coding unit 1222 including the identification ID, and transmit the transmission bit stream including the identification ID.
  • the communication terminal 1 encodes the coded data in the coding unit 1222, and when the communication driver software transmits the transmission bit stream to the communication terminal 2, the identification ID is set in the header of the communication protocol. It may be additionally transmitted.
  • the communication terminal 2 may acquire the number of identification IDs by counting the number of identification IDs of the communication terminal 1 to be communicated with, for example, at the time of session negotiation. Further, for example, when there is a user who establishes a communication session in the middle of communication (for example, a call), or when there is a user who ends the communication session in the middle of communication, the communication terminal 2 uses the communication driver software. Through this, the number of identification IDs may be updated (for example, increased or decreased).
  • the communication terminal 2 controls the conversion of the decoded data based on the signal format to be encoded in the communication terminal 1, and L / R in the L / R format signal. Adjust the ratio. By adjusting the L / R ratio, the communication terminal 2 can adjust the sound image localization of the communication terminal 1 to an appropriate position.
  • the communication terminal 2 when the signal format to be encoded in the communication terminal 1 is the M / S format, the communication terminal 2 performs weighting to emphasize the M signal when converting from the M / S format to the L / R format. .. Due to this weighting, the sound spread is narrowed in the L / R format signal before the L / R ratio is set, so that the adjustment accuracy of the sound image localization of the communication terminal 1 by setting the L / R ratio can be improved.
  • the ratio of the M signal component to the S signal is set higher (for example, in the conversion from the M / S format to the L / R format).
  • the case where the weighting coefficient ⁇ > ⁇ is set) has been described. However, the setting is not limited to this, and weighting may not be performed. Even in this case, the L / R ratio setting unit 2128 can set the sound image localization of each communication terminal by changing the ratio of the L channel signal and the R channel signal.
  • the communication terminal 2 which cannot convert from the M / S format to the L / R format sets the L / R ratio for the L / R format signal transmitted from the communication terminal 1. May be good.
  • the multipoint conference system has been described as an example, but the present invention is not limited to this, and for example, a multipoint recording system may be used.
  • a music studio recording system can be envisioned as an example of a multipoint recording system.
  • the communication terminal 2 (communication terminal on the receiving side) is, for example, for an audio-acoustic signal (for example, musical instrument sound or vocal sound) transmitted from each point (in other words, each communication terminal 1).
  • an audio-acoustic signal for example, musical instrument sound or vocal sound
  • a virtual studio environment can be reproduced by arbitrarily setting the sound image localization (position).
  • the communication terminal 2 arranges the communication terminals 1 at all the session-negotiated points based on the identification ID (for example, setting the sound image localization) has been described. Not limited to this.
  • the communication terminal 2 may arrange (for example, set sound image localization) the sound transmitted from the communication terminal 1 at a part of the communication terminals 1 at a plurality of session-negotiated points.
  • the representative points of the arrangement positions (for example, three locations on the left side, the right side, and the front of the communication terminal 2) are set to arrange the sound image positions, and a plurality of (for example, 10 points) are arranged.
  • the sound transmitted from the communication terminal 1 at the point where the sound is actually emitted may be output from the representative point.
  • the communication terminal 2 may change the point where the representative point is arranged, for example, when the point where the sound is emitted is changed. For example, when the user of the communication terminal 1 at the point A is talking (sounding) and the sound image position at the point A is located on the left side of the communication terminal 2, the user at the point A finishes talking. Then, when the user of the communication terminal 1 at the point B starts talking, the communication terminal 2 may replace the output from the sound image position arranged on the left side of the communication terminal 2 with the sound from the point A to the point B. Good.
  • the communication terminal 2 may provide a silent area between the sound image localization position of a certain identification ID and the sound image localization position of another adjacent identification ID. The setting of the silent area allows the user to more clearly distinguish adjacent sound images.
  • the transmission side communication terminal has a function related to signal format conversion control (for example, conversion control unit 1221) inside the codec.
  • signal format conversion control for example, conversion control unit 1221
  • the communication terminal on the transmitting side has a function related to signal format conversion control outside the codec.
  • the configuration of the communication terminal on the receiving side according to the present embodiment may be the same as the configuration of any one of the first to third embodiments, for example.
  • FIG. 14 is a block diagram showing an example of the configuration of the communication terminal 1a according to the present embodiment.
  • the transmission processing unit 12a of the communication terminal 1a shown in FIG. 14 includes a conversion control unit 51 outside the codec 122a.
  • the codec 122a does not have a function of performing signal format conversion control.
  • the coding unit 1222 of the conversion control unit 51 and the coding unit 1222 may be included in the codec 122a.
  • the conversion control unit 51 may be included in at least one of the voice communication application and the sound driver software, for example.
  • the operation of the conversion control unit 51 is, for example, the same as that of the conversion control unit 1221 of the first embodiment.
  • FIG. 15 is a block diagram showing another example of the configuration of the communication terminal 1b according to the present embodiment.
  • the transmission processing unit 12b of the communication terminal 1b shown in FIG. 15 includes a conversion control unit 1221b inside the codec 122b and a conversion control unit 61 outside the codec 122b.
  • the conversion control unit 61 may be included in at least one of the voice communication application and the sound driver software, for example.
  • the operations related to the conversion control of the conversion control unit 1221b and the conversion control unit 61 are the same as those of the conversion control unit 1221 of the first embodiment, for example.
  • the communication terminal 1b may perform conversion control such as signal format determination and conversion by, for example, either the conversion control unit 1221b or the conversion control unit 61.
  • the communication terminal 1b may be based on an "internal conversion flag" indicating which of the conversion control unit 1221b and the conversion control unit 61 performs conversion control.
  • the value of the internal conversion flag is, for example, a value indicating that conversion control is performed inside the codec 122b (for example, a value: internally valid) or a value indicating that conversion control is performed outside the codec 122b (for example, a value). : Internally invalid) is fine.
  • an existing codec for example, EVS
  • the communication terminal 2 does not have a conversion control function outside the codec 212
  • the existing codec for example, EVS
  • the value of the internal conversion flag is set to "internal invalid”
  • the conversion control unit 61 may convert the M / S format signal into the L / R format signal.
  • the receiving side communication terminal controls the weighting at the time of conversion from the M / S format to the L / R format based on the information regarding the type of the output device (or the output destination device). The method will be described.
  • FIG. 16 is a diagram showing a configuration example of software and hardware of the communication terminal 2d according to the present embodiment.
  • the configuration of the communication terminal 2d on the receiving side may be the same as, for example, the communication terminal 2 (FIG. 1), the communication terminal 2a (FIG. 7), or the communication terminal 2b (FIG. 8). Further, for example, the configuration of the communication terminal on the transmitting side may be the same as that of the communication terminal 1 (FIG. 1), the communication terminal 1a (FIG. 14), or the communication terminal 1b (FIG. 15).
  • the output device in the communication terminal 2d is either the speaker 22 or the headphones 24. At least one of the speaker 22 and the headphones 24 may be a device built in the communication terminal 2d or an external device connected to the communication terminal 2d.
  • the communication terminal 2d detects the switching of the output device, and based on the output device information indicating the output device (for example, either the speaker 22 or the headphones 24) after the switching, the M / Determine the weighting (eg, weighting ⁇ and ⁇ ) at the time of conversion from S format to L / R format.
  • the conversion of the signal format in the communication terminal 2d may be performed according to the equation (1) as in the first embodiment, for example.
  • the communication terminal 2d sets the weighting coefficients ⁇ and ⁇ when the headphone 24 is set in the output device to a1 and b1, and sets the weighting coefficients ⁇ and ⁇ when the speaker 22 is set in the output device to a2 and ⁇ .
  • the communication terminal 2d updates the weighting coefficients ⁇ and ⁇ from a1 and b1 to a2 and b2 when the output device is switched from the headphone 24 to the speaker 22.
  • the communication terminal 2d updates the weighting coefficient ⁇ from a2 and b2 to a1 and b1 when the output device is switched from the speaker 22 to the headphones 24.
  • the weighting coefficients ⁇ and ⁇ may be set to a1 ⁇ b1 and a2> b2.
  • the sound spread can be increased, and in the case of the speaker, the sound spread can be reduced.
  • the values of the weighting coefficients ⁇ and ⁇ may be arbitrarily set by, for example, system design or user selection (in other words, user needs).
  • Method 7-1, Method 7-2, and Method 7-3 will be described as examples of the method of inputting the output device information to the codec 212.
  • the input method of the output device information is not limited to these methods, and other methods may be used.
  • the voice communication application may acquire output device information (in other words, information regarding switching of output devices) from the sound driver software and output it to the codec 212.
  • output device information in other words, information regarding switching of output devices
  • the codec 212 may acquire output device information from the sound driver software.
  • the user interface application may output the output device information indicating the output device selected by the user to the codec 212 via the voice communication application.
  • the display device 23 for example, a liquid crystal display
  • the user interface application may set output device information indicating the output device selected by the user.
  • the communication terminal 2d can adjust the sense of sound spread in the L / R format signal according to the type of output device.
  • microphone type information Information indicating the type (or type) of the microphone (hereinafter, “microphone type information”) can be signaled (see, for example, Patent Document 3). Further, the type of microphone can be used at the time of session negotiation as a characteristic parameter of a communication terminal on the transmitting side (for example, also referred to as a transmitter or a transmitting terminal) or a communication terminal on the receiving side (for example, also referred to as a receiver or a receiving terminal). (See, for example, Patent Document 4).
  • the communication terminal 1 transmits microphone type information to the communication terminal 2 (in other words, transmits as signaling or feature parameters), and the communication terminal 2 has the same microphone type information and output conversion capability as the communication terminal 1. Based on this, the signal format of the coded data (or decoded data) may be determined.
  • the conversion formula for conversion from the M / S format to the L / R format is not limited to the formula (1).
  • one weighting factor (for example, ⁇ ) of the M signal (M) and the S signal (S) is set to a fixed value, and the other weighting factor (for example, ⁇ ) is set.
  • ⁇ and ⁇ ) may be variably set in each of the L channel signal (L) and the R channel signal (R).
  • ⁇ and ⁇ may be arbitrary values, and ⁇ is a constant.
  • the weighting coefficients of the M signal (M) and the S signal (S) may be variably set in each of the L channel signal (L) and the R channel signal (R).
  • the format is the same as in the above-described embodiment.
  • the conversion process may be performed.
  • the following signals may be examples of signal formats that are not suitable for output from the two speakers as they are.
  • one of the two channels is an M signal (for example, a monaural component consisting of a sum signal of two channels), and the other is an S signal (for example, a reverberation component consisting of a difference signal of two channels).
  • M signal for example, a monaural component consisting of a sum signal of two channels
  • S signal for example, a reverberation component consisting of a difference signal of two channels.
  • stereo in other words, L channel and R channel
  • monaural sound can be heard from the speaker corresponding to one channel, and the speaker corresponding to the other channel. Since it is perceived as a noisy sound of the reverberation component, it may be very jarring to the user.
  • signals in a format that is not suitable for output from two speakers as they are include signals in which one channel is perceived as noise when the user listens as stereo.
  • one of the two channels has many high frequency components and the other has many low frequency components, so that the energy difference in the frequency band is large between the two channels. There may be cases (eg, when the energy difference is greater than or equal to the threshold).
  • the speaker corresponding to one channel can hear the sound peculiar to the high range (for example, a keen sound), and the speaker corresponding to the other channel is peculiar to the low range. Because the sound of is perceived, there may be cases where it sounds very jarring to the user.
  • the signal in a format that is not suitable for output from the two speakers as it is includes a signal in which the unbalanced feeling of the frequency output when listening as stereo gives the user a sense of discomfort.
  • a band supported between two channels such that one channel has the characteristics of the SWB (SuperWideBand, 0 to 32 kHz) band and the other channel has the characteristics of the NB (NarrowBand, 0 to 8 kHz) band.
  • SWB SuperWideBand, 0 to 32 kHz
  • NB NarrowBand, 0 to 8 kHz
  • the bandwidth is not limited to SWB and NB, and may be other bandwidth such as FB (FullBand, 0 to 48 kHz) or WB (WideBand, 0 to 32 kHz). Further, the bandwidth such as SWB, NB, FB or WB is an example, and may be a band divided by an arbitrary bandwidth (for example, a bandwidth such as 0 to 4 kHz, 12 to 24 kHz, or 32 to 48 kHz).
  • supported bandwidth may be replaced with a bandwidth from a different viewpoint such as "emphasized bandwidth”.
  • Each functional block used in the description of the above embodiment is partially or wholly realized as an LSI which is an integrated circuit, and each process described in the above embodiment is partially or wholly. It may be controlled by one LSI or a combination of LSIs.
  • the LSI may be composed of individual chips, or may be composed of one chip so as to include a part or all of functional blocks.
  • the LSI may include data input and output.
  • LSIs may be referred to as ICs, system LSIs, super LSIs, and ultra LSIs depending on the degree of integration.
  • the method of making an integrated circuit is not limited to LSI, and may be realized by a dedicated circuit, a general-purpose processor, or a dedicated processor. Further, an FPGA (Field Programmable Gate Array) that can be programmed after the LSI is manufactured, or a reconfigurable processor that can reconfigure the connection and settings of the circuit cells inside the LSI may be used.
  • FPGA Field Programmable Gate Array
  • the present disclosure may be realized as digital processing or analog processing.
  • the communication device may include a wireless transceiver and a processing / control circuit.
  • the wireless transmitter / receiver may include a receiver and a transmitter, or those as functions.
  • the radio transmitter / receiver (transmitter, receiver) may include an RF (Radio Frequency) module and one or more antennas.
  • RF modules may include amplifiers, RF modulators / demodulators, or the like.
  • Non-limiting examples of communication devices include telephones (mobile phones, smartphones, etc.), tablets, personal computers (PCs) (laptops, desktops, notebooks, etc.), cameras (digital stills / video cameras, etc.).
  • Digital players digital audio / video players, etc.
  • wearable devices wearable cameras, smart watches, tracking devices, etc.
  • game consoles digital book readers
  • telehealth telemedicines remote health Care / medicine prescription
  • vehicles with communication functions or mobile transportation automobiles, airplanes, ships, etc.
  • combinations of the above-mentioned various devices can be mentioned.
  • Communication devices are not limited to those that are portable or mobile, but are not portable or fixed, any type of device, device, system, such as a smart home device (home appliances, lighting equipment, smart meters or Includes measuring instruments, control panels, etc.), vending machines, and any other "Things” that can exist on the IoT (Internet of Things) network.
  • a smart home device home appliances, lighting equipment, smart meters or Includes measuring instruments, control panels, etc.
  • vending machines and any other "Things” that can exist on the IoT (Internet of Things) network.
  • Communication includes data communication using a cellular system, wireless LAN (Local Area Network) system, communication satellite system, etc., as well as data communication using a combination of these.
  • the communication device also includes a device such as a controller or a sensor that is connected or connected to a communication device that executes the communication function described in the present disclosure.
  • a device such as a controller or a sensor that is connected or connected to a communication device that executes the communication function described in the present disclosure.
  • it includes controllers and sensors that generate control and data signals used by communication devices that perform the communication functions of the communication device.
  • Communication devices also include infrastructure equipment that communicates with or controls these non-limiting devices, such as base stations, access points, and any other device, device, or system. ..
  • the coding device converts the signal format of the sound signal based on the information regarding the conversion capability of the signal format of the sound signal in the decoding device that decodes the coded data of the sound signal. It includes a control circuit for controlling and a coding circuit for encoding the sound signal according to the control of the conversion.
  • the control circuit indicates that the information about the conversion capability does not support conversion to the first signal format, then the second signal format input to the encoding device.
  • the sound signal is converted into the first signal format.
  • the first signal format is a format represented by a left channel signal and a right channel signal constituting the sound signal
  • the second signal format is the same as the left channel signal. It is a format represented by a sum signal indicating the sum of the right channel signal and a difference signal indicating the difference between the left channel signal and the right channel signal.
  • control circuit does not apply the conversion when the sound signal of the first signal format is input to the coding device.
  • control circuit weights the sum signal and the difference signal in the conversion from the second signal format to the first signal format.
  • a receiving circuit for receiving information regarding the conversion capability is provided in session negotiation regarding communication between the coding device and the decoding device.
  • both the control circuit and the coding circuit are included in the codec, or the coding circuit of the control circuit and the coding circuit is included in the codec.
  • the decoding device is a decoding device that decodes the coded data of the sound signal, and is coded in the coding device based on the information regarding the conversion ability of the signal format of the sound signal in the decoding device. It includes a decoding circuit that decodes the encoded data, and a control circuit that controls the conversion of the signal format.
  • control circuit indicates that the information about the conversion capability supports conversion to the first signal format, said the second signal format input to the decoding device.
  • the coded data for the sound signal is converted into the first signal format.
  • the first signal format is a format represented by a left channel signal and a right channel signal constituting the sound signal
  • the second signal format is the same as the left channel signal. It is a format represented by a sum signal indicating the sum of the right channel signal and a difference signal indicating the difference between the left channel signal and the right channel signal.
  • control circuit weights the sum signal and the difference signal in the conversion from the second signal format to the first signal format.
  • control circuit controls the weighting based on information regarding the type of output destination device of the decoded data obtained in the decoding circuit.
  • control circuit adjusts the ratio of the left channel signal and the right channel signal constituting the decoded data obtained in the decoding circuit.
  • both the decoding circuit and the control circuit are included in the codec, or the decoding circuit of the decoding circuit and the control circuit is included in the codec.
  • the coding device determines the sound signal based on the information regarding the conversion ability of the signal format of the sound signal in the decoding device that decodes the coded data of the sound signal. It controls the conversion of the signal format and encodes the sound signal according to the control of the conversion.
  • the decoding device that decodes the coded data of the sound signal is encoded in the coding device based on the information regarding the conversion ability of the signal format of the sound signal in the decoding device.
  • the coded data is decoded to control the conversion of the signal format.
  • One embodiment of the present disclosure is useful for a voice-acoustic signal transmission system or the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Telephonic Communication Services (AREA)

Abstract

符号化装置は、音信号の符号化データを復号する復号装置における、音信号の信号形式の変換能力に関する情報に基づいて、音信号の信号形式の変換を制御する制御回路と、変換の制御に従って、音信号を符号化する符号化回路と、を具備する。

Description

符号化装置、復号装置、符号化方法及び復号方法
 本開示は、符号化装置、復号装置、符号化方法及び復号方法に関する。
 マイクロホン(以下、マイクと呼ぶ)からの入力を符号化する技術の一つに、例えば、Middle/Side(M/S)ステレオ符号化がある(例えば、特許文献1を参照)。
特表2014-516425号公報 特表2019-502966号公報 国際公開第2019/229300号 国際公開第2001/076172号
 しかしながら、マイクの種別(別言すると、音信号の信号形式)に応じた符号化及び復号の方法について十分に検討されていない。
 本開示の非限定的な実施例は、音信号の信号形式に応じた符号化及び復号が可能な符号化装置、復号装置、符号化方法及び復号方法の提供に資する。
 本開示の一実施例に係る符号化装置は、音信号の符号化データを復号する復号装置における、前記音信号の信号形式の変換能力に関する情報に基づいて、前記音信号の信号形式の変換を制御する制御回路と、前記変換の制御に従って、前記音信号を符号化する符号化回路と、を具備する。
 なお、これらの包括的または具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、または、記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
 本開示の一実施例によれば、音信号の信号形式に応じた符号化(又は復号)が可能である。
 本開示の一実施例における更なる利点および効果は、明細書および図面から明らかにされる。かかる利点および/または効果は、いくつかの実施形態並びに明細書および図面に記載された特徴によってそれぞれ提供されるが、1つまたはそれ以上の同一の特徴を得るために必ずしも全てが提供される必要はない。
実施の形態1に係る伝送システムの構成例を示すブロック図 実施の形態1に係るセッションネゴシエーションの一例を示すシーケンス図 実施の形態1に係る通信端末のソフトウェア及びハードウェアの構成例を示す図 実施の形態1に係る変換制御部の構成例を示すブロック図 実施の形態1に係る通信端末のソフトウェア及びハードウェアの構成例を示す図 実施の形態1に係る変換制御部の構成例を示すブロック図 実施の形態2に係る通信端末の構成例を示すブロック図 実施の形態2に係る通信端末の構成例を示すブロック図 実施の形態2に係るコーデック及び変換制御部の動作例を示す図 実施の形態2に係るコーデック及び変換制御部の動作例を示す図 実施の形態2に係るコーデック及び変換制御部の動作例を示す図 実施の形態3に係る変換制御部の構成例を示すブロック図 実施の形態3に係る音像定位の設定例を示す図 実施の形態4に係る通信端末の構成例を示すブロック図 実施の形態4に係る通信端末の構成例を示すブロック図 実施の形態5に係る通信端末のソフトウェア及びハードウェアの構成例を示す図
 以下、本開示の実施の形態について図面を参照して詳細に説明する。
 符号化方法の1つに、例えば、ステレオマイクによって取得された入力信号(例えば、音声信号又は音響信号(又は音声音響信号とも呼ぶ))をM/Sステレオ符号化する方法が提案されている(例えば、特許文献1及び特許文献2を参照)。M/Sステレオ符号化により、例えば、信号の圧縮性能を向上できる。
 ステレオマイクには、例えば、M信号(和信号)及びS信号(差信号)を取得するMid-Side(M-S)マイク、及び、A-Bマイク又はX-Yマイクといった、ステレオ信号を構成するLチャネル信号及びRチャネル信号を取得するマイクがある。以下では、例えば、M信号及びS信号によって表されるステレオ信号の信号形式を「M/S形式」と呼び、Lチャネル信号及びRチャネル信号によって表されるステレオ信号の信号形式を「L/R形式」と呼ぶ。
 ここで、例えば、M-Sマイクによって取得されたM/S形式の信号に対するステレオ符号化の方法について検討する。
 例えば、通信端末においてM/S形式の信号が符号化され、通信相手である対向機(換言すると、受信機)においてM信号及びS信号がヘッドホン又はスピーカのLチャネル及びRチャネルで再生されると、ユーザに違和感を与え得る。また、例えば、既存のコーデック(例えば、Enhanced Voice Services:EVS)は、L/R形式の信号のコーデックへの入力が想定されているため、M/S形式の信号の入力によってコーデックの符号化性能が低減する可能性がある。
 本開示の非限定的な一実施例では、マイクロホンの一例であるM-Sマイクによって取得されたM/S形式の信号を適切に符号化する方法について説明する。
 [伝送システムの概要]
 図1は、本実施の形態に係る音声音響信号の伝送システムの構成例を示す。
 図1に示す伝送システムは、例えば、少なくとも、通信端末1、及び、通信端末2を備える。
 通信端末1は、例えば、音声信号又は音響信号といった入力信号を符号化する。符号化データは通信端末2に送信あるいは入力される。例えば、符号化データは、通信網を介して通信端末2にて受信されてよく、また、記録媒体に記録された符号化データが通信端末2に入力されてもよい。「通信網」は、有線又は無線の「伝送路」に読み替えられてもよい。また、例えば、通信端末1は、Moving Picture Experts Group(MPEG)、3rd Generation Partnership Project(3GPP)又はInternational Telecommunication Union Telecommunication Standardization Sector(ITU-T)といった規格に規定されている種々の音声音響コーデック(例えば、図1に示すコーデック122)を備えてよい。
 通信端末2は、例えば、伝送路又は記録媒体を介して、通信端末1から受信した符号化データを復号して出力信号(例えば、電気信号)を出力する。通信端末2は、例えば、電気信号を、スピーカ又はヘッドホンを介して音波として出力してよい。また、通信端末2は、例えば、前述した音声音響コーデックに対応する受信処理部21を備えてもよい。
 なお、以下では、一例として、通信端末1が、音声音響信号の符号化データを送信する送信側の装置(例えば、送信機とも呼ぶ)であり、通信端末2が、音声音響信号の符号化データを受信する受信側の装置(例えば、受信機とも呼ぶ)である場合を想定する。そのため、図1では、通信端末1における送信側の処理に関する機能部を備え、通信端末2において受信側の処理に関する機能部を備える例を示す。なお、通信端末1及び通信端末2は、図1に示す構成例に限定されず、送信側及び受信側の双方の機能部を有してもよい。別言すると、通信端末1と通信端末2との間の通信は、一方向(unidirectional)でもよいし双方向(bidirectional)でもよい。
 [通信端末1の構成例]
 図1に示す通信端末1は、例えば、マイク11、送信処理部12(符号化装置に相当)、及び、表示デバイス13を備える。
 マイク11は、例えば、音声又は音響といった音(sound)の入力デバイスであり、取得(換言すると、収音又は録音)した音声音響信号を送信処理部12へ出力する。
 なお、マイク11は、図1に示すように、通信端末1に備えられる場合に限定されない。通信端末1は、マイクを備えず、例えば、外部のマイク(図示せず)が接続(例えば、有線接続又は無線接続)されてもよい。または、通信端末1は、例えば、内部に備えるマイク11と、外部のマイクとを切り替えてもよい。
 マイク11は、例えば、ステレオマイクでもよい。ステレオマイクは、例えば、全指向性マイク、単一指向性マイク、又は、双指向性マイクを用いて構成されてよい。例えば、全指向性マイクを平行に2本組み合わせたマイクを「A-Bマイク」と呼ぶ。また、例えば、単一指向性マイクの収音部が重なるように開き角度を持たせて2本組み合わせたマイクを「X-Yマイク」と呼ぶ。また、例えば、単一指向性マイクと双指向性マイクとを1本ずつ組み合わせたマイクを「M-Sマイク」と呼ぶ。また、例えば、2本の単一指向性マイクの距離を17cmとし、角度を110度にしたマイクを「Office de Radiodiffusion Television Francalse(ORTF)マイク」と呼び、2本の単一指向性マイクの距離を30cmとし、角度を90度にしたマイクを「Nederlandse Omroep Stichting(NOS)マイク」と呼ぶ。
 例えば、M-Sマイクから出力される音声音響信号は「M/S形式」の信号である。また、A-Bマイク、X-Yマイク、ORTFマイク及びNOSマイクから出力される音声音響信号は、例えば、「L/R形式」の信号である。
 送信処理部12は、例えば、マイク11から入力される音声音響信号を符号化し、符号化データを通信端末2へ送信する。送信処理部12は、例えば、コーデックネゴシエーション部121、及び、コーデック122を備える。
 コーデックネゴシエーション部121は、例えば、通信端末1の対向機である通信端末2との間の通信のためのセッションに関するネゴシエーション(又は、折衝)を行う。コーデックネゴシエーション部121は、例えば、通信において使用可能なコーデックに関するネゴシエーションを行ってよい。また、コーデックネゴシエーション部121は、例えば、通信端末2のコーデックにおけるステレオ信号に対する信号形式(換言すると、フォーマット)の変換能力(例えば、出力変換能力、又は、出力変換機能とも呼ぶ)に関するネゴシエーションを行ってよい。換言すると、コーデックネゴシエーション部121(例えば、受信回路に相当)は、通信端末1と通信端末2との間のセッションネゴシエーションにおいて、通信端末2の出力変換能力に関する情報を受信してよい。コーデックネゴシエーション部121は、例えば、ネゴシエーションの結果(例えば、コーデックの種類又は出力変換能力に関する情報)をコーデック122へ出力する。
 出力変換能力に関する情報(例えば、「出力変換能力情報」と呼ぶ)は、例えば、通信端末2において、ステレオ信号の信号形式をM/S形式からL/R形式へ変換可能であるか、変換不可能であるかを示す情報でもよい。なお、「変換可能」であるか「変換不可能」であるかは、変換が「サポートされる」か「サポートされない」かを意味してもよい。換言すると、出力変換能力情報は、例えば、通信端末2において、M/S形式の信号からL/R形式の信号へ変換する機能部(後述する変換制御部2122)を有するか否かを示す情報でもよい。例えば、出力変換能力情報は、セッションネゴシエーションにおいて通信端末2から通信端末1へ通知されてよい。
 コーデック122は、例えば、マイク11から入力される音声音響信号を符号化して、符号化データを出力する。コーデック122は、例えば、変換制御部1221(例えば、制御回路に相当)及び符号化部1222(例えば、符号化回路に相当)を含む。
 変換制御部1221は、マイク11から入力されるステレオ信号の信号形式(換言すると、符号化部1222における符号化対象の信号形式)の変換を制御する。例えば、変換制御部1221は、コーデックネゴシエーション部121から入力されるコーデックの種類又は出力変換能力に関する情報、及び、マイク11の種別を示す情報(以下、「マイク種別情報」と呼ぶ)の少なくとも一つに基づいて、符号化部1222に入力される信号の信号形式(例えば、M/S形式又はL/R形式)を決定してよい。
 変換制御部1221は、例えば、マイク11から入力される信号又は変換後の信号を符号化部1222へ出力する。また、変換制御部1221は、例えば、決定した信号形式を示す情報(以下、「信号形式情報」と呼ぶ)を生成し、符号化部1222へ出力してよい。
 符号化部1222は、変換制御部1221から入力される信号を符号化(例えば、ステレオ符号化)し、符号化データを出力する。また、符号化部1222は、変換制御部1221から入力される信号形式情報を符号化し、出力してよい。
 なお、コーデック122の動作例については後述する。
 表示デバイス13は、例えば、通信端末1のユーザの操作を受け付ける画像を表示してよい。また、表示デバイス13は、例えば、ユーザの操作内容を示す情報を、通信端末1の他の機能部(例えば、送信処理部12)へ出力してよい。表示デバイス13は、例えば、液晶ディスプレイといったデバイスである。
 [通信端末2の構成例]
 図1に示す通信端末2は、例えば、受信処理部21(例えば、復号装置に相当)、スピーカ22、及び、表示デバイス23を備える。
 受信処理部21は、例えば、通信端末1から送信された符号化データ(又は、送信ビットストリームとも呼ぶ)を受信し、符号化データを復号して得られる復号音声音響信号をスピーカ22へ出力する。受信処理部21は、例えば、コーデックネゴシエーション部211、及び、コーデック212を備える。
 コーデックネゴシエーション部211は、例えば、通信端末2の対向機である通信端末1との間の通信のためのセッションに関するネゴシエーションを行う。コーデックネゴシエーション部211は、例えば、通信において使用可能なコーデックに関するネゴシエーション、又は、通信端末2のコーデックにおける出力変換能力に関するネゴシエーションを行ってよい。コーデックネゴシエーション部211におけるネゴシエーションの結果(例えば、コーデックの種類に関する情報又は出力変換能力情報)は、例えば、通信端末1へ通知されてよい。
 コーデック212は、例えば、符号化データを復号して、復号データ(例えば、復号音声音響信号とも呼ぶ)をスピーカ22へ出力する。コーデック212は、例えば、復号部2121(例えば、復号回路に相当)及び変換制御部2122(例えば、制御回路に相当)を含む。
 復号部2121は、例えば、通信端末1において符号化された符号化データを復号して、復号データを変換制御部2122へ出力する。また、復号部2121は、例えば、通信端末1から送信される信号形式情報を復号し、変換制御部2122へ出力する。
 変換制御部2122は、復号部2121から入力される復号データ(例えば、ステレオ信号の復号データ)の信号形式の変換を制御する。例えば、変換制御部2122は、信号形式情報に示される信号形式(例えば、M/S形式又はL/R形式)に基づいて、復号データの信号形式を決定してよい。
 なお、コーデック212の動作例については後述する。
 スピーカ22は、例えば、音の出力デバイスであり、コーデック212から入力される復号データを音(例えば、音声又は音響)に変換して出力する。
 なお、スピーカ22は、図1に示すように、通信端末2に備えられる場合に限定されない。通信端末2は、スピーカを備えず、例えば、スピーカ又はヘッドホンといった外部の出力デバイス(図示せず)が接続(例えば、有線接続又は無線接続)されてもよい。または、通信端末2は、例えば、内部に備えるスピーカ22と、外部の出力デバイスとを切り替えてもよい。
 表示デバイス23は、例えば、通信端末2のユーザの操作を受け付ける画像を表示してよい。また、表示デバイス23は、例えば、ユーザの操作内容を示す情報を、通信端末2の他の機能部(例えば、受信処理部21)へ出力してよい。表示デバイス23は、例えば、液晶ディスプレイといった表示デバイスである。
 [ネゴシエーションの一例]
 次に、通信端末1(例えば、コーデックネゴシエーション部121)と通信端末2(例えば、コーデックネゴシエーション部211)との間のネゴシエーションの一例について説明する。
 図2は、通信端末1と通信端末2との間のネゴシエーションの動作例を示すシーケンス図である。
 図2において、通信端末1及び通信端末2は、通信の呼び出し、及び、呼び出しに対する応答を行う(S101)。
 通信端末1は、例えば、通信端末2に対して、使用可能なコーデックの問い合わせを行う(S102)。通信端末2は、使用可能なコーデックの問い合わせに対して応答する(S103)。使用可能なコーデックの応答には、例えば、通信端末2において使用可能なコーデックの種別に関する情報が含まれてよい。通信端末1は、通信端末2からの使用可能なコーデックの応答に基づいて、通信端末1と通信端末2との間の通信において使用するコーデックを確定(換言すると、決定)する(S104)。
 通信端末1は、例えば、通信端末2に対して、出力変換能力の問い合わせを行う(S105)。通信端末2は、出力変換能力の問い合わせに対して応答する(S106)。出力変換能力の問い合わせの応答には、例えば、通信端末2の出力変換能力情報が含まれてよい。通信端末1は、通信端末2からの出力変換能力情報に基づいて、符号化部1222の符号対象である信号の信号形式(又は、入力形式とも呼ぶ)を決定する(S107)。
 通信端末1及び通信端末2は、例えば、通信端末1と通信端末2との間の通信網におけるリソース割当を行う(S108)。
 通信端末2は、ユーザ呼び出しを行い(S109)、例えば、ユーザが応答すると、通信端末1へ応答OKメッセージを送信し(S110)、通信端末1と通信端末2との間で通話が開始される(S111)。
 なお、出力変換能力に関する処理(例えば、S105及びS106の処理)は、使用可能なコーデックに関する処理(例えば、S102及びS103の処理)内で行われてもよい。または、出力変換能力に関する処理において、通信端末1からの問い合わせ(例えば、S105の処理)を行わずに、ネゴシエーションの間に、通信端末2が通信端末1へ出力変換能力情報を通知してもよい。
 また、図2に示す出力変換能力に関する処理(S105及びS106の処理)では、通信端末1が通信端末2に対して出力変換能力の問い合わせを行う場合について説明したが、これに限定されない。通信端末2から通信端末1への符号化データの通信が想定される場合には、例えば、通信端末2が通信端末1に対して出力変換能力の問い合わせを行ってもよい(S105の処理に相当)。この場合、通信端末1は、通信端末2からの出力変換能力の問い合わせに対して応答してもよい(S106の処理に相当)。この処理は、例えば、通信端末2から通信端末1への符号化データの通信(例えば、双方向通信)を想定し、通信端末1において符号化データを復号して出力するために、通信端末2における符号化の際に信号形式の変換要否について有用となる。
 [通信端末1の動作例]
 次に、通信端末1(送信側)の動作例について説明する。
 図3は、通信端末1のソフトウェア及びハードウェアの構成例を示す図である。
 通信端末1のソフトウェアには、例えば、ユーザインターフェースアプリケーション、音声通信アプリケーション、通信ドライバソフト、コーデックネゴシエーション部121、サウンドドライバソフト、及び、コーデック122が含まれてよい。
 また、通信端末1のハードウェアには、例えば、radio frequency(RF)ブロック、Ethernet(登録商標)ブロック、Analog-to-Digital(AD)コンバータ、マイク11、Digital-to-Analog(DA)コンバータ、スピーカ、及び、ヘッドホンが含まれてよい。なお、図3に示すハードウェアの少なくとも一つは、通信端末1が備えない外部装置でもよく、通信端末1と接続されてもよい。
 ユーザインターフェースアプリケーションは、例えば、表示デバイス13を介して、ユーザの操作を受け付け、ユーザの操作に対応する入力情報を音声通信アプリケーションへ出力する。
 音声通信アプリケーションは、例えば、ユーザインターフェースアプリケーション、コーデックネゴシエーション部121、又は、サウンドドライバソフトから入力される情報に基づいて、コーデック122に対する音声通信に関する処理を制御する。
 サウンドドライバソフトは、例えば、音の入出力に関するハードウェア(例えば、マイク11、ADコンバータ、DAコンバータ、ヘッドホン及びスピーカ)を制御する。
 通信ドライバソフトは、例えば、通信に関するハードウェア(例えば、RFブロック又はEthernetブロック)を制御する。
 ここで、通信端末1においてマイク種別情報(例えば、M/S形式又はL/R形式)をコーデック122へ入力する方法の例として、方法1-1、方法1-2及び方法1-3について説明する。なお、マイク種別情報のコーデック122への入力方法は、これらの方法に限定されず、他の方法でもよい。
 方法1-1では、例えば、音声通信アプリケーションは、サウンドドライバソフトからマイク種別情報を取得し、取得したマイク種別情報をコーデック122へ出力する。
 方法1-2では、例えば、コーデック122は、サウンドドライバソフトからマイク種別情報を取得する。
 方法1-3では、例えば、ユーザインターフェースアプリケーションは、ユーザが選択したマイク種別を示すマイク種別情報を、音声通信アプリケーションを介してコーデック122へ出力する。方法1-3の場合、例えば、表示デバイス13は、M-Sマイク及びA-Bマイクといったマイク種別の選択画面を表示し、ユーザが選択したマイク種別に対応するマイク種別情報を生成してよい。
 また、例えば、通信途中に、通信端末1においてマイクの交換(又は、差し替え)が行われた場合、又は、ユーザがマイク種別情報を意図的に切り替えた場合、方法1-1、方法1-2又は方法1-3の何れかによって、更新後のマイク種別情報がコーデック122へ入力されてよい。
 次に、通信端末1において出力変換能力情報をコーデック122へ入力する方法の例について説明する。
 例えば、コーデックネゴシエーション部121によるネゴシエーションにおいて、通信ドライバソフトは、通信端末1の対向機である通信端末2から送信される出力変換能力情報を取得(換言すると、受信)し、コーデックネゴシエーション部121及び音声通信アプリケーションを介して、コーデック122へ出力する。なお、出力変換能力情報のコーデック122への入力方法は、この方法に限定されず、他の方法でもよい。
 [変換制御部1221の動作例]
 次に、通信端末1のコーデック122における変換制御部1221の動作例について説明する。
 図4は、変換制御部1221の構成例を示すブロック図である。図4に示す変換制御部1221は、例えば、判定部1225及び変換部1226を備える。
 判定部1225は、例えば、マイク種別情報、及び、出力変換能力に基づいて、入力信号(例えば、音声音響信号)の信号形式を変換するか否かを判定する。
 例えば、マイク種別情報が「M/S形式」を示し、かつ、出力変換能力情報が「M/S形式からL/R形式への変換可能」を示す場合、判定部1225は、入力信号の信号形式(M/S形式)を変換しないと判定する。この場合、判定部1225は、M/S形式の信号を符号化部1222へ出力する。
 また、例えば、マイク種別情報が「M/S形式」を示し、かつ、出力変換能力情報が「M/S形式からL/R形式への変換不可能」を示す場合、判定部1225は、入力信号の信号形式(M/S形式)をL/R形式へ変換すると判定する。この場合、判定部1225は、M/S形式の入力信号を変換部1226へ出力する。
 また、例えば、マイク種別情報が「L/R形式」を示す場合、判定部1225は、出力変換能力情報に依らず、入力信号の信号形式(L/R形式)を変換せずに符号化部1222へ出力する。
 判定部1225は、入力信号の信号形式の判定結果(例えば、決定した信号形式)を示す信号形式情報を符号化部1222へ出力する。
 なお、判定部1225における信号形式変換の判定方法は、マイク種別情報に基づく方法に限定されず、他の方法でもよい。例えば、判定部1225は、入力信号を構成する2チャネル(例えば、M信号とS信号のペア、又は、Lチャネル信号とRチャネル信号とのペア)の相関関係に基づいて、マイク種別を判別し、信号形式を変換するか否かを判定してもよい。2チャネルの相関関係は、例えば、2チャネル間のゲイン差、時間差、位相差、又は、周波数領域に変換した際のスペクトル構造の差といった2チャネル間の関係を示す情報の少なくとも1つに基づいて決定されてよい。
 また、例えば、通信端末1において使用されるマイク11がM-Sマイクの場合(換言すると、L/R形式に対応するマイクが使用されない場合)、判定部1225は、出力変換能力情報に基づいて、信号形式の変換を制御してもよい。
 変換部1226は、例えば、判定部1225から入力されるM/S形式の入力信号を、L/R形式の入力信号に変換し、変換後のL/R形式の信号を符号化部1222へ出力する。
 換言すると、変換制御部1221は、出力変換能力情報がL/R形式への変換をサポートしないことを示す場合に、送信処理部12に入力されたM/S形式の音信号をL/R形式に変換する。一方、変換制御部1221は、出力変換能力情報がL/R形式への変換をサポートすることを示す場合に、送信処理部12に入力されたM/S形式の音信号に対して上記変換を適用しない。また、変換制御部1221は、送信処理部12にL/R形式の音信号が入力された場合、上記変換を適用しない。
 また、変換部1226は、M/S形式からL/R形式への変換の際に、M信号とS信号とに対する重み付けを行ってもよい。M信号及びS信号に対する重み付けにより、音の広がり感を調整できる。
 変換部1226は、例えば、以下の式(1)に従って、M信号(M)及びS信号(S)を、Lチャネル信号(L)及びRチャネル信号(R)へ変換してよい。
 L = αM+βS
 R = αM-βS
           …(1)
 ここで、α及びβは0≦α≦1、0≦β≦1、かつ、α+β=1の重み係数を示す。例えば、音の広がりが最小(又は、0%と表す)の場合にはα=1かつβ=0に設定され、音の広がりが最大(又は、100%と表す)の場合にはα=0かつβ=1に設定されてよい。換言すると、αの値が大きいほど(βの値が小さいほど)、M信号が強調され、音の広がり感が低下する。また、αの値が小さいほど(βの値が大きいほど)、S信号が強調され、音の広がり感が増加する。
 M/S形式からL/R形式への変換時の重み係数(例えば、α及びβ)の設定方法の例として、方法2-1、方法2-2及び方法2-3について説明する。なお、重み係数(例えば、α及びβ)の設定方法は、これらの方法に限定されず、他の方法でもよい。
 方法2-1では、例えば、ユーザインターフェースアプリケーションは、ユーザが選択(換言すると、設定)した重み係数α及びβ(又は、重み係数に関連付けられたパラメータ)を、音声通信アプリケーションを介してコーデック122へ出力してよい。方法2-1の場合、例えば、表示デバイス13は、音の広がりに関するパラメータ(例えば、0%~100%)の選択画面(又は入力画面)を表示し、ユーザが選択したパラメータに対応する重み係数を示す情報(例えば、図3又は図4に示す「M/S→L/R変換時の重み」)を生成してよい。また、表示デバイス13は、例えば、10%、20%、…、100%といった重み係数α及びβの複数の候補値を予め設定し、候補値の何れかをユーザに選択させてもよい。
 方法2-2では、例えば、音声通信アプリケーションは、重み係数α及びβを設定し、設定した重み係数α及びβを示す情報をコーデック122へ出力してよい。
 方法2-3では、例えば、コーデック122は重み係数α及びβを設定してよい。
 以上、重み係数α及びβの設定方法の例について説明した。
 通信端末1は、M/S形式又はL/R形式の信号の送信に加え、変換制御部1221において生成された信号形式情報を、通信端末2へ送信してよい。
 信号形式情報の送信方法の例として、方法3-1~方法3-4について説明する。なお、信号形式情報の送信方法は、これらの方法に限定されず、他の方法でもよい。
 方法3-1では、例えば、符号化部1222において音声音響信号を符号化する際に、信号形式情報も符号化され、送信ビットストリームに含めて送信されてよい。
 方法3-2では、例えば、コーデックネゴシエーション部121は、セッションのネゴシエーションを確立する際に信号形式情報を通信端末2へ送信してよい。
 方法3-3では、例えば、信号形式情報は、符号化部1222において符号化される送信ビットストリームに含まれず、別の信号(例えば、セッション制御メッセージ又は通信プロトコルのヘッダ)においてフレーム毎に送信されてよい。
 方法3-4では、例えば、信号形式情報は、符号化部1222において符号化される送信ビットストリームに含まれず、別の信号(例えば、セッション制御メッセージ又は通信プロトコルのヘッダ)において、初回送信時、及び、マイクの切り替わったタイミングで送信されてよい。
 以上、信号形式情報の送信方法の例について説明した。
 なお、変換制御部1221へ入力される2チャネルの信号、又は、変換制御部1221における変換後の2チャネルの信号において、一方のチャネルのゲインと他方のチャネルのゲインとの差が極めて大きい場合(例えば、ゲイン差が閾値以上の場合)、コーデック122は、2チャネルのうち、ゲインの大きいチャネルをモノラルコーデックに基づいて符号化し、ゲインの小さいチャネルを符号化しなくてもよい。換言すると、2チャネルのうち、ゲインの大きいチャネルの符号化データが通信端末2へ送信されてよい。
 または、M/S形式からL/R形式への変換後の2チャネル(例えば、Lチャネル及びRチャネル)において、一方のチャネルのゲインと他方のチャネルのゲインとの差が極めて大きい場合(例えば、ゲイン差が閾値以上の場合)、コーデック122は、2チャネルのうち、ゲインの大きいチャネルをモノラルコーデックに基づいて符号化し、ゲインの小さいチャネルを符号化しなくてもよい。換言すると、2チャネルのうち、ゲインの大きいチャネルの符号化データが通信端末2へ送信されてよい。
 [通信端末2の動作例]
 次に、通信端末2(受信側)の動作例について説明する。
 図5は、通信端末2のソフトウェア及びハードウェアの構成例を示す図である。
 通信端末2のソフトウェアには、例えば、ユーザインターフェースアプリケーション、音声通信アプリケーション、通信ドライバソフト、コーデックネゴシエーション部211、サウンドドライバソフト、及び、コーデック212が含まれてよい。
 また、通信端末2のハードウェアには、例えば、RFブロック、Ethernetブロック、ADコンバータ、マイク、DAコンバータ、スピーカ22、及び、ヘッドホンが含まれてよい。なお、図5に示すハードウェアの少なくとも一つは、通信端末2が備えない外部装置でもよく、通信端末2と接続されてもよい。
 ユーザインターフェースアプリケーションは、例えば、表示デバイス23を介して、ユーザの操作を受け付け、ユーザの操作に対応する入力情報を音声通信アプリケーションへ出力する。
 音声通信アプリケーションは、例えば、ユーザインターフェースアプリケーション、又は、コーデックネゴシエーション部211から入力される情報に基づいて、コーデック212に対する音声通信に関する処理を制御する。
 サウンドドライバソフトは、例えば、音の入出力に関するハードウェア(例えば、マイク、ADコンバータ、DAコンバータ、ヘッドホン及びスピーカ22)を制御する。
 通信ドライバソフトは、例えば、通信に関するハードウェア(例えば、RFブロック又はEthernetブロック)を制御する。例えば、通信ドライバソフトは、コーデックネゴシエーション部211によるネゴシエーション処理において、通信端末2の出力変換能力を示す出力変換能力情報を通信端末1へ送信してよい。
 [変換制御部2122の動作例]
 次に、通信端末2のコーデック212における変換制御部2122の動作例について説明する。
 図6は、変換制御部2122の構成例を示すブロック図である。図6に示す変換制御部2122は、例えば、判定部2125及び変換部2126を備える。
 判定部2125は、例えば、信号形式情報に示される信号形式(例えば、M/S形式又はL/R形式)に基づいて、復号データの信号形式を変換するか否かを判定する。
 例えば、信号形式情報が「M/S形式」を示す場合、判定部2125は、復号データの信号形式(M/S形式)をL/R形式へ変換すると判定する。この場合、判定部2125は、M/S形式の復号データを変換部2126へ出力する。
 また、例えば、信号形式情報が「L/R形式」を示す場合、判定部2125は、復号データの信号形式(L/R形式)を変換しないと判定する。この場合、判定部2125は、L/R形式の復号データを例えばスピーカ22へ出力する。
 変換部2126は、例えば、判定部2125から入力されるM/S形式の信号を、L/R形式の信号に変換し、変換後のL/R形式の信号をスピーカ22へ出力する。
 換言すると、変換制御部2122は、出力変換能力情報がL/R形式への変換をサポートすることを示す場合に、受信処理部21に入力されたM/S形式の音信号に対する符号化データをL/R形式に変換する。
 また、変換部2126は、M/S形式からL/R形式への変換の際に、M信号とS信号とに対する重み付けを行ってもよい。M信号及びS信号に対する重み付けにより、音の広がり感を調整できる。変換部2126は、例えば、式(1)に従って、M信号(M)及びS信号(S)を、Lチャネル信号(L)及びRチャネル信号(R)へ変換してよい。
 なお、通信端末2における重み付けに関するパラメータ(例えば、式(1)のα及びβ)は、通信端末1と同様にして、通信端末2が設定してもよく、通信端末1から通信端末2へ通知されてもよい。
 以上、通信端末2の動作例について説明した。
 なお、例えば、M/S形式からL/R形式への変換が不可能な通信端末2は、図1に示す変換制御部2122を含まないことが想定される。このような通信端末2は、例えば、通信端末1とのネゴシエーションにおいて、信号形式の変換が不可を示す出力変換能力情報を通信端末1へ通知する。この場合、上述したように、通信端末1は、L/R形式の信号を符号化して得られる符号化データを送信するので、通信端末2は、L/R形式の符号化データを復号し、音声音響信号を出力する。
 以上のように、本実施の形態では、通信端末1(例えば、符号化装置)は、音声音響信号の符号化データを復号する通信端末2(例えば、復号装置)における、出力変換能力情報に基づいて、音声音響信号の信号形式の変換を制御し、信号形式の変換の制御に従って、音声音響信号を符号化する。また、通信端末2は、通信端末2における音声音響信号の信号形式の変換能力に関する情報に基づいて通信端末1において符号化された符号化データを復号し、信号形式の変換を制御する。
 本実施の形態によれば、通信端末1及び2は、音声音響信号の信号形式に応じた符号化又は復号が可能になる。
 例えば、M/S形式からL/R形式へ変換可能な通信端末2に対しては、通信端末1は、M-Sマイクによって取得されたM/S形式の信号をそのままコーデックで符号化する。この場合でも、通信端末2は、受信処理部21においてM/S形式の信号をL/R形式の信号へ変換して、ステレオ信号を出力できる。
 また、例えば、M/S形式からL/R形式への変換が不可能な通信端末2に対しては、通信端末1は、M-Sマイクによって取得されたM/S形式の信号をL/R形式の信号へ変換して、コーデックで符号化する。この変換により、通信端末2は、受信処理部21において信号形式の変換を行うことなく、L/R形式のステレオ信号を出力できる。
 このように、本実施の形態によれば、通信端末1における信号形式の変換制御により、通信端末2では、例えば、M信号及びS信号がヘッドホン又はスピーカのLチャネル及びRチャネルで再生され、ユーザに違和感を与えることを抑制できる。換言すると、M-Sマイクによって取得されたM/S形式の信号が通信端末2においてL/R形式へ変換されずに出力されることを抑制できる。
 また、例えば、EVSといったL/R形式の信号のコーデックへの入力が想定されている場合にも、通信端末1において信号形式を変換することにより、M/S形式の信号によるコーデックの符号化性能の低減を抑制できる。換言すると、通信端末1は、例えば、EVSといった既存のコーデックにおいて想定される信号形式に基づいて入力信号を符号化できる。
 以上より、本実施の形態によれば、ステレオマイクに応じてステレオ符号化を適切に行うことができる。例えば、本実施の形態では、M-Sマイクによって取得されたM/S形式の信号に対して適切にステレオ符号化できる。
 (実施の形態2)
 実施の形態1では、例えば、図1に示すように、受信側の通信端末において、コーデックの内部に信号形式の変換制御に関する機能(例えば、変換制御部2122)を有する場合について説明した。これに対して、本実施の形態では、受信側の通信端末において、コーデックの外部に信号形式の変換制御に関する機能を有する場合について説明する。
 なお、本実施の形態に係る通信端末1の構成は、例えば、実施の形態1と同様でよい。
 図7は、本実施の形態に係る通信端末2aの構成の一例を示すブロック図である。
 図7に示す通信端末2aの受信処理部21aは、コーデック212aの外部に変換制御部31を備える。コーデック212aは、信号形式の変換制御を行う機能を有さない。換言すると、通信端末2aにおいて、復号部2121及び変換制御部31のうち復号部2121がコーデック212aに含まれてよい。
 変換制御部31は、例えば、音声通信アプリケーション及びサウンドドライバソフトの少なくとも一方に含まれてよい。なお、変換制御部31の変換制御に関する動作は、例えば、実施の形態1の変換制御部2122と同様である。
 図8は、本実施の形態に係る通信端末2bの構成の他の例を示すブロック図である。
 図8に示す通信端末2bの受信処理部21bは、コーデック212bの内部に変換制御部2122bを備え、かつ、コーデック212bの外部に変換制御部41を備える。変換制御部41は、例えば、音声通信アプリケーション及びサウンドドライバソフトの少なくとも一方に含まれてよい。なお、変換制御部2122b及び変換制御部41の変換制御に関する動作は、例えば、実施の形態1の変換制御部2122と同様である。
 通信端末2bは、例えば、変換制御部2122b及び変換制御部41の何れか一方において、信号形式判定及び変換といった変換制御を行ってよい。例えば、通信端末2bは、変換制御部2122b及び変換制御部41の何れにおいて変換制御を行うかを示す「内部変換フラグ」に基づいてよい。内部変換フラグの値は、例えば、コーデック212bの内部において変換制御を行うことを示す値(例えば、値:内部有効)、又は、コーデック212の外部において変換制御を行うことを示す値(例えば、値:内部無効)でよい。
 図9は、図7に示すコーデック212a及び変換制御部31の動作例を示す図である。
 図9に示すように、変換制御部31は、コーデック212aの外部に設けられ、コーデック212aは変換制御に関する機能を有さないので、内部変換フラグの値は「内部無効」に設定される。なお、図9では、内部変換フラグは、例えば、内部無効に設定され、内部有効には設定されないので、内部変換フラグを用いなくてもよい。
 変換制御部31は、例えば、コーデック212aから入力される信号形式情報に示される信号形式に基づいて、コーデック212aから入力される復号データの信号形式を変換するか否かを判定する。
 例えば、信号形式情報に示される信号形式がM/S形式の場合、変換制御部31は、変換部2126において復号データの信号形式をM/S形式からL/R形式へ変換し、L/R形式の信号を出力する。また、変換制御部31は、例えば、信号形式変換の際に、式(1)に従って、M信号及びS信号に対して重み付けを行ってよい。一方、例えば、信号形式情報に示される信号形式がL/R形式の場合、変換制御部31は、信号形式を変換せずに、L/R形式の信号を出力する。
 図10及び図11は、図8に示すコーデック212b及び変換制御部41の動作例を示す図である。
 図10及び図11に示すように、変換制御部2122bは、コーデック212bの内部に設けられ、変換制御部41は、コーデック212bの外部に設けられる。内部変換フラグの値は、例えば、「内部有効(図10)」又は「内部無効(図11)」の何れかに設定されてよい。なお、変換制御部2122b及び変換制御部41の何れにおいて変換制御を行うか(換言すると、内部変換フラグの設定)については、例えば、システム設計又はユーザ選択によって任意に設定されてよい。
 例えば、図10に示すように、内部変換フラグが「内部有効」を示す場合、変換制御部2122bは、例えば、復号部2121から入力される信号形式情報に示される信号形式に基づいて、復号部2121から入力される復号データの信号形式を変換するか否かを判定する。また、変換制御部2122bは、信号形式を変換すると判定した場合には復号データの信号形式を変換する。そして、変換制御部2122bは、信号形式情報、及び、L/R形式の信号を変換制御部41へ出力する。
 図10において、変換制御部41は、例えば、コーデック212b(変換制御部2122b)から入力されるL/R形式の信号をそのまま出力する。換言すると、変換制御部41は、信号形式の変換を行わない。
 一方、例えば、図11に示すように、内部変換フラグが「内部無効」を示す場合、変換制御部2122bは、例えば、復号部2121から入力される信号形式情報及び復号データを変換制御部41へ出力する。換言すると、変換制御部2122bは、信号形式の変換を行わない。
 図11において、変換制御部41は、例えば、コーデック212b(変換制御部2122b)から入力される信号形式情報に示される信号形式に基づいて、コーデック212bから入力される復号データの信号形式を変換するか否かを判定する。また、変換制御部41は、信号形式を変換すると判定した場合には復号データの信号形式を変換する。そして、変換制御部41は、L/R形式の信号を出力する。
 次に、内部変換フラグの設定方法の例として、方法4-1、方法4-2及び方法4-3について説明する。なお、内部変換フラグの設定方法は、これらの方法に限定されず、他の方法でもよい。
 方法4-1では、例えば、ユーザインターフェースアプリケーションは、ユーザが選択(又は、設定)した内部変換フラグを、音声通信アプリケーションを介して、変換制御部2122a、2122b(例えば、コーデック212a、212b)、及び、変換制御部31、41(例えば、音声通信アプリケーション又はサウンドドライバソフト)へ出力する。
 方法4-2では、例えば、音声通信アプリケーションは、変換制御部2122a,2122b(換言すると、コーデック212a、212bの内部)、及び、変換制御部31、41(換言すると、コーデック212a、212bの外部)の何れにおいて変換制御に関する処理(例えば、信号形式判定及び変換)を行うかを決定する。
 方法4-3では、コーデック212a、212bは、変換制御部2122a,2122b(換言すると、コーデック212a、212bの内部)、及び、変換制御部31、41(換言すると、コーデック212a、212bの外部)の何れにおいて変換制御に関する処理(例えば、信号形式判定及び変換)を行うかを決定する。
 このように、受信側の通信端末において、復号部及び変換制御部の双方はコーデックに含まれてよく、又は、復号部及び変換制御部のうち復号部はコーデックに含まれてよい。この構成により、受信側の通信端末において、コーデックの内部及び外部の何れか一方において信号形式の変換制御を行う場合でも、実施の形態1と同様、ステレオマイクに応じてステレオ符号化を適切に行うことができる。
 (実施の形態3)
 本実施の形態に係る通信端末1の構成は、例えば、実施の形態1と同様である。また、本実施の形態に係る通信端末2の構成は、例えば、変換制御部の構成が実施の形態1又は実施の形態2と異なる。
 図12は、本実施の形態に係る変換制御部2122cの構成例を示すブロック図である。
 図12に示す変換制御部2122cは、実施の形態1又は実施の形態2の変換制御部2122、2122a、2122b、31又は41と同様の構成に加え、変換部2127及びL/R比設定部2128を備える。例えば、変換制御部2122cは、コーデック212の内部に含まれてもよく、外部に含まれてもよい。
 例えば、図12に示す変換制御部2122cにおいて、判定部2125が復号データの信号形式をM/S形式と判定した場合、変換部2126は、MS形式の信号をL/R形式の信号に変換する。そして、変換部2126は、変換後のL/R形式の信号をL/R比設定部2128へ出力する。
 一方、判定部2125が復号データの信号形式をL/R形式と判定した場合、変換部2127は、L/R形式の信号をM/S形式の信号に変換する。また、変換部2127は、M/S形式の信号をL/R形式の信号に変換する。そして、変換部2127は、変換後のL/R形式の信号をL/R比設定部2128へ出力する。
 なお、変換部2126及び変換部2127におけるM/S形式からL/R形式への変換の際、例えば、M信号の比率は、S信号に対してより高く設定されてよい。換言すると、例えば、式(1)に示す重み係数α>βに設定されてよい。この設定により、M信号が強調され、L/R形式の信号における音の広がりを狭めることができるので、後述するLチャネルとRチャネルとの比率(L/R比)の設定による音像定位(換言すると、音が鳴っている方向)を調整しやすくなる。
 L/R比設定部2128は、例えば、変換部2126又は変換部2127から入力されるL/R形式の信号におけるL/R比を設定(又は、調整)する。換言すると、L/R比設定部2128は、Lチャネル及びRチャネルに対して重み付けを行ってもよい。
 例えば、L/R比設定部2128は、L/R形式の信号の送信元である通信端末1を識別する情報(例えば、識別ID)、L/R形式の信号の送信元である通信端末1の個数(例えば、識別IDの個数)、及び、L/R比の少なくとも一つに基づいて、Lチャネル及びRチャネルに対して重み付けを行ってよい。
 L/R比の設定により、通信端末2は、例えば、送信元の通信端末1の音像定位(換言すると、通信端末2に対する位置)を任意又は等間隔に設定できる。また、上述したように、変換部2126及び変換部2127において、L/R形式への変換の際に、S信号成分に対してM信号成分の比率を増加し、音の広がりを狭めている。これにより、通信端末2は、L/R比の設定により、各通信端末1の仮想的な位置の方向から音が鳴っているように再生しやすくなる。
 一例として、本実施の形態に係る伝送システムが多地点会議システムに適用される場合について説明する。
 図13は、多地点会議システムにおける各通信端末1(又は、ユーザ)の音像定位(換言すると、仮想的な位置)の一例を示す図である。図13は、例えば、3人のユーザそれぞれに対応する通信端末1-1、通信端末1-2及び通信端末1-3が、通信端末2へ音声音響信号の符号化データを送信する例を示す。図13では、通信端末1-1の識別ID=1に設定され、通信端末1-2の識別ID=2に設定され、通信端末1-3の識別ID=3に設定される。
 通信端末2は、例えば、各通信端末1の識別ID、及び、識別IDの個数に基づいて、各識別IDに関連付けられた復号データに対応するL/R形式の信号のL/R比を設定し、音の定位感を調整する。
 例えば、図13では、通信端末2は、識別ID=1の通信端末1-1に対するL/R比をL:R=9:1に設定し、識別ID=1の通信端末1-2に対するL/R比をL:R=1:1に設定し、識別ID=3の通信端末1-3に対するL/R比をL:R=1:9に設定する。換言すると、図13において、通信端末2は、通信端末1-1の音像定位を0度付近の方向(換言すると、通信端末2の左方向)に設定し、通信端末1-2の音像定位を90度付近の方向(換言すると、通信端末2の正面方向)に設定し、通信端末1-3の音像定位を180度付近の方向(換言すると、通信端末2の右方向)に設定する。
 図13に示すL/R比の設定により、例えば、通信端末2は、通信端末1-1からの音(例えば、音声)が0度付近の位置から鳴っているように出力し、通信端末1-2に対応する音が90度付近の位置から鳴っているように出力し、通信端末1-3に対応する音が180度付近の位置から鳴っているように出力する。
 なお、図13に示すL/R比は一例であり、これらに限定されない。また、音像定位の範囲は、0度~180度の範囲に限定されず、例えば、異なる方向を含む範囲、より広い範囲、又は、より狭い範囲といった他の範囲でもよい。
 次に、L/R比の設定方法の例として、方法5-1、方法5-2及び方法5-3について説明する。なお、L/R比の設定方法は、これらの方法に限定されず、他の方法でもよい。
 方法5-1では、例えば、ユーザインターフェースアプリケーションは、ユーザが選択(又は、設定)したL/R比を、音声通信アプリケーションを介して、L/R比設定部2128(例えば、コーデック212、音声通信アプリケーション又はサウンドドライバソフト)へ出力してよい。
 方法5-2では、例えば、音声通信アプリケーションは、例えば、通信端末2と通信する通信端末1の識別IDの個数を、配置される通信端末1の個数に設定し、設定された通信端末1の個数に基づいて、各通信端末1に対するL/R比を算出(又は設定)してよい。
 方法5-3では、コーデック212は、例えば、通信端末2と通信する通信端末1の識別IDの個数を、配置される通信端末1の個数に設定し、設定された通信端末1の個数に基づいて、各通信端末1に対するL/R比を算出(又は設定)してよい。
 例えば、方法5-2及び方法5-3において、識別IDの個数が3個の場合、通信端末2は、図13に示すように、3個の通信端末1が0度~180度の範囲において等間隔に配置されるようにL/R比を設定してよい。なお、各通信端末1が仮想的に配置される位置は、図13に示すように或る範囲において等間隔に配置される位置に限定されない。例えば、通信端末2は、0度~180度の範囲の任意の位置に通信端末1の配置を設定してもよい。また、通信端末2は、複数の通信端末1の配置を、重複する位置に設定してもよい。
 以上、L/R比の設定方法について説明した。
 また、識別IDは、例えば、Internet Protocol(IP)アドレス、Medium Access Control(MAC)アドレス、又は、ユーザIDといった通信相手又は話者を特定可能な情報でよい。識別IDは、例えば、復号データに関連付けられてよい。また、識別IDは、例えば、通信端末1から通信端末2へ送信されてよい。識別IDの送信方法の例として、方法6-1及び方法6-2について説明する。なお、識別IDの送信方法は、これらの方法に限定されず、他の方法でもよい。
 方法6-1では、例えば、通信端末1は、符号化部1222において符号化データを符号化する際に識別IDも含めて符号化し、識別IDを含む送信ビットストリームを送信してよい。
 方法6-2では、例えば、通信端末1は、符号化部1222において符号化データを符号化し、通信ドライバソフトが送信ビットストリームを通信端末2へ送信する際に、通信プロトコルのヘッダに識別IDを付加して送信してよい。
 また、通信端末2は、例えば、セッションネゴシエーション時に、これから通信を行う通信端末1の識別IDの個数をカウントし、識別IDの個数を取得してよい。また、例えば、通信(例えば、通話)の途中に通信セッションを確立するユーザが存在する場合、又は、通信の途中に通信セッションを終了するユーザが存在する場合、通信端末2は、通信ドライバソフトを介して、識別IDの個数を更新(例えば、増加又は減少)してよい。
 以上のように、本実施の形態では、通信端末2は、通信端末1における符号化対象の信号形式に基づいて、復号データの変換制御を行い、かつ、L/R形式の信号におけるL/R比を調整する。L/R比の調整により、通信端末2は、通信端末1の音像定位を適切な位置に調整できる。
 また、例えば、通信端末1における符号化対象の信号形式がM/S形式の場合、通信端末2は、M/S形式からL/R形式への変換の際にM信号を強調する重み付けを行う。この重み付けにより、L/R比設定前のL/R形式の信号では、音の広がりが狭まるので、L/R比の設定による通信端末1の音像定位の調整精度を向上できる。
 なお、図12では、一例として、変換部2126及び変換部2127において、M/S形式からL/R形式への変換において、S信号に対して、M信号成分の比率をより高く設定(例えば、重み係数α>βに設定)する場合について説明した。しかし、この設定に限定されず、重み付けを行わなくてもよい。この場合でも、L/R比設定部2128によって、Lチャネル信号とRチャネル信号との比率を変えて、各通信端末の音像定位を設定できる。
 また、例えば、M/S形式からL/R形式への変換不可能である通信端末2は、通信端末1から送信されるL/R形式の信号に対して、L/R比を設定してもよい。
 なお、本実施の形態では、多地点会議システムを一例として説明したが、これに限定されず、例えば、多地点録音システムでもよい。多地点録音システムの一例として、音楽スタジオ録音システムが想定され得る。音楽スタジオ録音システムにおいて、通信端末2(受信側の通信端末)は、例えば、各地点(換言すると、各通信端末1)から送信される音声音響信号(例えば、楽器音又はボーカル音)に対して、本実施の形態と同様、音像定位(位置)を任意に設定することにより、仮想的なスタジオ環境を再現できる。
 また、本実施の形態では、一例として、通信端末2が、識別IDに基づいて、セッションネゴシエーションされた全ての地点の通信端末1を配置(例えば、音像定位を設定)する場合について説明したが、これに限定されない。例えば、通信端末2は、セッションネゴシエーションされた複数の地点の通信端末1のうち、一部の地点の通信端末1から送信された音を配置(例えば、音像定位を設定)してもよい。
 例えば、通信端末1に対応する地点の数が多いほど(例えば、10地点)、全ての地点の通信端末1が等間隔又は任意に配置されても、音像位置が近くなるため、10地点の音像位置をユーザが意図通りに正確に知覚できない可能性が高くなる。そこで、例えば、通信端末2は、配置位置の代表点(例えば、通信端末2の左側、右側、及び正面の3か所)を設定して音像位置を配置し、複数(例えば、10地点)の通信端末1のうち、実際に音を発している地点の通信端末1から送信される音を代表点から出力してもよい。
 また、この場合、通信端末2は、例えば、音を発する地点が変更されると、代表点が配置される地点も変更してもよい。例えば、A地点の通信端末1のユーザが話をしていて(音声を発していて)、A地点の音像位置が通信端末2の左側に配置されている際に、A地点のユーザが話し終えて、B地点の通信端末1のユーザが話をし始めた場合、通信端末2は、通信端末2の左側に配置された音像位置からの出力を、A地点からB地点の音に置き換えてもよい。
 また、本実施の形態では、一例として、識別ID毎に異なる位置に音像を定位させる場合について説明したが、これに限定されない。例えば、通信端末2は、或る識別IDの音像定位位置と隣接する別の識別IDの音像定位位置との間に、無音エリアを設けてもよい。無音エリアの設定により、ユーザは隣接する音像をより明確に区別できる。
 (実施の形態4)
 実施の形態1~実施の形態3それぞれでは、例えば、図1に示すように、送信側の通信端末において、コーデックの内部に信号形式の変換制御に関する機能(例えば、変換制御部1221)を有する場合について説明した。これに対して、本実施の形態では、送信側の通信端末において、コーデックの外部に信号形式の変換制御に関する機能を有する場合について説明する。
 なお、本実施の形態に係る受信側の通信端末の構成は、例えば、実施の形態1~3の何れかの構成と同様でよい。
 図14は、本実施の形態に係る通信端末1aの構成の一例を示すブロック図である。
 図14に示す通信端末1aの送信処理部12aは、コーデック122aの外部に変換制御部51を備える。コーデック122aは、信号形式の変換制御を行う機能を有さない。換言すると、通信端末1aにおいて、変換制御部51及び符号化部1222のうち、符号化部1222がコーデック122aに含まれてよい。
 変換制御部51は、例えば、音声通信アプリケーション及びサウンドドライバソフトの少なくとも一方に含まれてよい。なお、変換制御部51の動作は、例えば、実施の形態1の変換制御部1221と同様である。
 図15は、本実施の形態に係る通信端末1bの構成の他の例を示すブロック図である。
 図15に示す通信端末1bの送信処理部12bは、コーデック122bの内部に変換制御部1221bを備え、かつ、コーデック122bの外部に変換制御部61を備える。変換制御部61は、例えば、音声通信アプリケーション及びサウンドドライバソフトの少なくとも一方に含まれてよい。なお、変換制御部1221b及び変換制御部61の変換制御に関する動作は、例えば、実施の形態1の変換制御部1221と同様である。
 通信端末1bは、例えば、変換制御部1221b及び変換制御部61の何れか一方において、信号形式判定及び変換といった変換制御を行ってよい。例えば、通信端末1bは、変換制御部1221b及び変換制御部61の何れにおいて変換制御を行うかを示す「内部変換フラグ」に基づいてよい。内部変換フラグの値は、例えば、コーデック122bの内部において変換制御を行うことを示す値(例えば、値:内部有効)、又は、コーデック122bの外部において変換制御を行うことを示す値(例えば、値:内部無効)でよい。
 例えば、通信端末2において既存のコーデック(例えば、EVS)が設定され、かつ、通信端末2においてコーデック212の外部に変換制御機能を有さず、通信端末1において既存のコーデック(例えば、EVS)が設定される場合、内部変換フラグの値が「内部無効」に設定され、変換制御部61によって、M/S形式の信号がL/R形式の信号に変換されてよい。
 なお、変換制御部1221b及び変換制御部61の何れにおいて変換制御を行うか(換言すると、内部変換フラグの設定)については、例えば、システム設計又はユーザ選択によって任意に設定されてよい。
 以上より、本実施の形態によれば、送信側の通信端末において、コーデックの内部及び外部の何れか一方において信号形式の変換制御を行う場合でも、実施の形態1と同様、ステレオマイクに応じてステレオ符号化を適切に行うことができる。
 (実施の形態5)
 本実施の形態では、受信側の通信端末において、出力デバイス(又は、出力先デバイスと呼ぶ)の種別に関する情報に基づいて、M/S形式からL/R形式への変換時における重み付けを制御する方法について説明する。
 図16は、本実施の形態に係る通信端末2dのソフトウェア及びハードウェアの構成例を示す図である。
 なお、受信側の通信端末2dの構成は、例えば、通信端末2(図1)、通信端末2a(図7)又は通信端末2b(図8)と同様でよい。また、例えば、送信側の通信端末の構成は、例えば、通信端末1(図1)、通信端末1a(図14)又は通信端末1b(図15)と同様でよい。
 図16では、一例として、通信端末2dにおける出力デバイスは、スピーカ22及びヘッドホン24の何れかである。なお、スピーカ22及びヘッドホン24の少なくとも一方は、通信端末2dに内蔵される装置でもよく、通信端末2dに接続される外部装置でもよい。
 例えば、通信端末2d(例えば、サウンドドライバソフト)は、出力デバイスの切り替えを検出し、切替後の出力デバイス(例えば、スピーカ22及びヘッドホン24の何れか)を示す出力デバイス情報に基づいて、M/S形式からL/R形式への変換時における重み付け(例えば、重み付けα及びβ)を決定する。なお、通信端末2dにおける信号形式の変換は、例えば、実施の形態1と同様、式(1)に従って行われてよい。
 例えば、通信端末2dは、出力デバイスにヘッドホン24が設定された場合の重み係数α及びβをa1及びb1に設定し、出力デバイスにスピーカ22が設定された場合の重み係数α及びβをa2及びb2に設定する。例えば、通信端末2dは、出力デバイスがヘッドホン24からスピーカ22に切り替わる場合、重み係数α及びβをa1及びb1からa2及びb2に更新する。同様に、例えば、通信端末2dは、出力デバイスがスピーカ22からヘッドホン24に切り替わる場合、重み係数αをa2及びb2からa1及びb1に更新する。
 例えば、重み係数α及びβは、a1<b1、かつ、a2>b2に設定されてよい。この場合、ヘッドホン24の場合には音の広がりを強くし、スピーカの場合には音の広がりを小さくできる。なお、重み係数α及びβの値は、例えば、システム設計又はユーザ選択(換言すると、ユーザのニーズ)によって任意に設定されてよい。
 次に、出力デバイス情報のコーデック212への入力方法の例として、方法7-1、方法7-2及び方法7-3について説明する。なお、出力デバイス情報の入力方法は、これらの方法に限定されず、他の方法でもよい。
 方法7-1では、例えば、音声通信アプリケーションは、サウンドドライバソフトから出力デバイス情報(換言すると、出力デバイスの切り替えに関する情報)を取得し、コーデック212へ出力してよい。
 方法7-2では、例えば、コーデック212は、サウンドドライバソフトから出力デバイス情報を取得してよい。
 方法7-3では、例えば、ユーザインターフェースアプリケーションは、ユーザが選択した出力デバイスを示す出力デバイス情報を、音声通信アプリケーションを介して、コーデック212へ出力してよい。例えば、方法7-3では、通信端末2の表示デバイス23(例えば、液晶ディスプレイ)は、ヘッドホン24の使用、及び、スピーカ22の使用を選択可能な選択画面を表示してよい。ユーザインターフェースアプリケーションは、ユーザが選択した出力デバイスを示す出力デバイス情報を設定してよい。
 このように、本実施の形態では、通信端末2dは、出力デバイスの種別に応じて、L/R形式の信号における音の広がり感を調整できる。
 以上、本開示の実施の形態について説明した。
 [他の実施の形態]
 (1)マイクの種別(又はタイプ)を示す情報(以下、「マイク種別情報」)は、シグナリングされ得る(例えば,特許文献3を参照)。また、マイクの種別は、送信側の通信端末(例えば、送信機又は送信端末とも呼ぶ)又は受信側の通信端末(例えば、受信機又は受信端末とも呼ぶ)の特徴パラメータとしてセッションネゴシエーション時に使用され得る(例えば、特許文献4を参照)。
 例えば、上述した実施の形態では、通信端末1(送信側の通信端末)から通信端末2(受信側の通信端末)へ信号形式情報を送信する場合について説明したが、これに限定されない。例えば、通信端末1は、マイク種別情報を通信端末2へ送信(換言すると、シグナリング又は特徴パラメータとして送信)し、通信端末2は、通信端末1と同様にして、マイク種別情報及び出力変換能力に基づいて、符号化データ(又は復号データ)の信号形式を判定してもよい。
 (2)M/S形式からL/R形式への変換際の変換式は、式(1)に限定されない。例えば、式(2)及び式(3)に示すように、M信号(M)及びS信号(S)の一方の重み係数(例えば、δ)を固定値に設定し、他方の重み係数(例えば、β及びγ)をLチャネル信号(L)及びRチャネル信号(R)それぞれにおいて可変に設定してもよい。
 L=βM+δS
 R=γM-δS
       …(2)
 L=δM+βS
 R=δM-γS
       …(3)
 なお、式(2)及び式(3)において、β及びγは任意の値でよく、δは定数である。
 または、式(4)に示すように、Lチャネル信号(L)及びRチャネル信号(R)それぞれにおいて、M信号(M)及びS信号(S)の重み係数を可変に設定してもよい。
 L=βM+εS
 R=γM-ζS
       …(4)
 なお、式(4)において、β,γ,ε及びζは任意の値である。
 (3)上述した実施の形態では、M-Sマイクによって取得されたM/S形式の入力信号に対して信号形式(換言すると、フォーマット)を変換する場合について説明したが、信号形式の変換対象は、M/S形式の信号に限定されない。
 例えば、2チャネルの信号の各々を2つのスピーカ(ヘッドホンを含む)からそのまま(換言すると変換せずに)出力するには適さないフォーマットの信号に対して、上述した実施の形態と同様にフォーマットの変換処理が行われてよい。
 ここで、2つのスピーカからそのまま出力するには適さないフォーマットの信号例として、以下の信号があり得る。
 例えば、M-Sマイクのように、2チャネルの一方がM信号(例えば、2チャネルの和信号からなるモノラル成分)であり、他方がS信号(例えば、2チャネルの差信号からなる残響成分)である信号があり得る。このような信号を構成する2チャネルをステレオ(換言すると、Lチャネル及びRチャネル)としてユーザが同時に聴くと、一方のチャネルに対応するスピーカからはモノラルの音が聴こえ、他方のチャネルに対応するスピーカからは残響成分のノイジーな音として知覚されるので、ユーザにとって非常に耳障りに聴こえるケースがあり得る。
 このように、2つのスピーカからそのまま出力するには適さないフォーマットの信号には、ユーザがステレオとして聴くと一方のチャネルがノイズとして知覚されるような信号が含まれる。
 また、サポートする帯域が同じステレオマイクにおいて、2チャネルの一方が周波数の高域成分を多く有し、他方が周波数の低域成分を多く有するような、2チャネル間において周波数帯域のエネルギー差が大きい場合(例えば、エネルギー差が閾値以上の場合)があり得る。これらの2チャネルをステレオとしてユーザが同時に聴くと、一方のチャネルに対応するスピーカからは高域特有の音(例えば、キーンとした音)が聴こえ、他方のチャネルに対応するスピーカからは低域特有の音が知覚されるので、ユーザにとって非常に耳障りに聴こえるケースがあり得る。
 このように、2つのスピーカからそのまま出力するには適さないフォーマットの信号には、ステレオとして聴くと出力される周波数のアンバランス感がユーザに違和感を与えるような信号が含まれる。
 また、例えば、一方のチャネルがSWB(SuperWideBand,0~32kHz)帯域の特性を有し、他方のチャネルがNB(NarrowBand,0~8kHz)帯域の特性を有するような、2チャネル間においてサポートする帯域幅が異なるマイクを組み合わせたステレオマイクがあり得る。このようなステレオマイクによって取得される信号では、例えば、2チャネルの一方が周波数の高域成分を多く有し、他方が周波数の低域成分を多く有するケースと同様となる。
 なお、帯域幅については、SWB及びNBに限らず、例えば、FB(FullBand,0~48kHz)又はWB(WideBand,0~32kHz)といった他の帯域幅でもよい。また、SWB、NB、FB又はWBといった帯域幅については一例であり、任意の帯域幅で区切った帯域(例えば、0~4kHz、12~24kHz、又は、32~48kHzといった帯域幅)でもよい。
 また、上記の「サポートする帯域幅」とは、例えば、「強調する帯域幅」といった異なる観点の帯域幅に置き換えてもよい。
 以上、他の実施の形態について説明した。
 以上、図面を参照しながら各種の実施形態について説明したが、本開示はかかる例に限定されないことは言うまでもない。また、上述した各実施の形態における各構成要素を任意に組み合わせてもよい。
 また、上述した実施の形態における「・・・部」という表記は、「・・・回路(circuitry)」、「・・・デバイス」、「・・・ユニット」、又は、「・・・モジュール」といった他の表記に置換されてもよい。
 本開示はソフトウェア、ハードウェア、又は、ハードウェアと連携したソフトウェアで実現することが可能である。上記実施の形態の説明に用いた各機能ブロックは、部分的に又は全体的に、集積回路であるLSIとして実現され、上記実施の形態で説明した各プロセスは、部分的に又は全体的に、一つのLSI又はLSIの組み合わせによって制御されてもよい。LSIは個々のチップから構成されてもよいし、機能ブロックの一部または全てを含むように一つのチップから構成されてもよい。LSIはデータの入力と出力を備えてもよい。LSIは、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
 集積回路化の手法はLSIに限るものではなく、専用回路、汎用プロセッサ又は専用プロセッサで実現してもよい。また、LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。本開示は、デジタル処理又はアナログ処理として実現されてもよい。
 さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
 本開示は、通信機能を持つあらゆる種類の装置、デバイス、システム(通信装置と総称)において実施可能である。通信装置は無線送受信機(トランシーバー)と処理/制御回路を含んでもよい。無線送受信機は受信部と送信部、またはそれらを機能として、含んでもよい。無線送受信機(送信部、受信部)は、RF(Radio Frequency)モジュールと1または複数のアンテナを含んでもよい。RFモジュールは、増幅器、RF変調器/復調器、またはそれらに類するものを含んでもよい。通信装置の、非限定的な例としては、電話機(携帯電話、スマートフォン等)、タブレット、パーソナル・コンピューター(PC)(ラップトップ、デスクトップ、ノートブック等)、カメラ(デジタル・スチル/ビデオ・カメラ等)、デジタル・プレーヤー(デジタル・オーディオ/ビデオ・プレーヤー等)、着用可能なデバイス(ウェアラブル・カメラ、スマートウオッチ、トラッキングデバイス等)、ゲーム・コンソール、デジタル・ブック・リーダー、テレヘルス・テレメディシン(遠隔ヘルスケア・メディシン処方)デバイス、通信機能付きの乗り物又は移動輸送機関(自動車、飛行機、船等)、及び上述の各種装置の組み合わせがあげられる。
 通信装置は、持ち運び可能又は移動可能なものに限定されず、持ち運びできない又は固定されている、あらゆる種類の装置、デバイス、システム、例えば、スマート・ホーム・デバイス(家電機器、照明機器、スマートメーター又は計測機器、コントロール・パネル等)、自動販売機、その他IoT(Internet of Things)ネットワーク上に存在し得るあらゆる「モノ(Things)」をも含む。
 通信には、セルラーシステム、無線LAN(Local Area Network)システム、通信衛星システム等によるデータ通信に加え、これらの組み合わせによるデータ通信も含まれる。
 また、通信装置には、本開示に記載される通信機能を実行する通信デバイスに接続又は連結される、コントローラやセンサー等のデバイスも含まれる。例えば、通信装置の通信機能を実行する通信デバイスが使用する制御信号やデータ信号を生成するような、コントローラやセンサーが含まれる。
 また、通信装置には、上記の非限定的な各種装置と通信を行う、あるいはこれら各種装置を制御する、インフラストラクチャ設備、例えば、基地局、アクセスポイント、その他あらゆる装置、デバイス、システムが含まれる。
 本開示の一実施例に係る符号化装置は、音信号の符号化データを復号する復号装置における、前記音信号の信号形式の変換能力に関する情報に基づいて、前記音信号の信号形式の変換を制御する制御回路と、前記変換の制御に従って、前記音信号を符号化する符号化回路と、を具備する。
 本開示の一実施例において、前記制御回路は、前記変換能力に関する情報が第1の信号形式への変換をサポートしないことを示す場合に、前記符号化装置に入力された第2の信号形式の前記音信号を前記第1の信号形式に変換する。
 本開示の一実施例において、前記第1の信号形式は、前記音信号を構成する左チャネル信号及び右チャネル信号によって表される形式であり、前記第2の信号形式は、前記左チャネル信号と前記右チャネル信号との和を示す和信号、及び、前記左チャネル信号と前記右チャネル信号との差を示す差信号によって表される形式である。
 本開示の一実施例において、前記制御回路は、前記符号化装置に前記第1の信号形式の前記音信号が入力された場合、前記変換を適用しない。
 本開示の一実施例において、前記制御回路は、前記第2の信号形式から前記第1の信号形式への変換において、前記和信号と前記差信号とに対する重み付けを行う。
 本開示の一実施例において、前記符号化装置と前記復号装置との通信に関するセッションネゴシエーションにおいて、前記変換能力に関する情報を受信する受信回路を備えた。
 本開示の一実施例において、前記制御回路及び前記符号化回路の双方がコーデックに含まれる、又は、前記制御回路及び前記符号化回路のうち前記符号化回路がコーデックに含まれる。
 本開示の一実施例に係る復号装置は、音信号の符号化データを復号する復号装置であって、前記復号装置における前記音信号の信号形式の変換能力に関する情報に基づいて符号化装置において符号化された前記符号化データを復号する復号回路と、前記信号形式の変換を制御する制御回路と、を具備する。
 本開示の一実施例において、前記制御回路は、前記変換能力に関する情報が第1の信号形式への変換をサポートすることを示す場合に、前記復号装置に入力された第2の信号形式の前記音信号に対する前記符号化データを前記第1の信号形式に変換する。
 本開示の一実施例において、前記第1の信号形式は、前記音信号を構成する左チャネル信号及び右チャネル信号によって表される形式であり、前記第2の信号形式は、前記左チャネル信号と前記右チャネル信号との和を示す和信号、及び、前記左チャネル信号と前記右チャネル信号との差を示す差信号によって表される形式である。
 本開示の一実施例において、前記制御回路は、前記第2の信号形式から前記第1の信号形式への変換において、前記和信号と前記差信号とに対する重み付けを行う。
 本開示の一実施例において、前記制御回路は、前記復号回路において得られた復号データの出力先デバイスの種別に関する情報に基づいて、前記重み付けを制御する。
 本開示の一実施例において、前記制御回路は、前記復号回路において得られた復号データを構成する左チャネル信号と右チャネル信号との比率を調整する。
 本開示の一実施例において、前記復号回路及び前記制御回路の双方がコーデックに含まれる、又は、前記復号回路及び前記制御回路のうち前記復号回路がコーデックに含まれる。
 本開示の一実施例に係る符号化方法において、符号化装置は、音信号の符号化データを復号する復号装置における、前記音信号の信号形式の変換能力に関する情報に基づいて、前記音信号の信号形式の変換を制御し、前記変換の制御に従って、前記音信号を符号化する。
 本開示の一実施例に係る復号方法において、音信号の符号化データを復号する復号装置は、前記復号装置における前記音信号の信号形式の変換能力に関する情報に基づいて符号化装置において符号化された前記符号化データを復号し、前記信号形式の変換を制御する。
 2020年1月9日出願の特願2020-001961の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
 本開示の一実施例は、音声音響信号の伝送システム等に有用である。
 1,1a,1b,2,2a,2b 通信端末
 11 マイク
 12,12a,12b 送信処理部
 13,23 表示デバイス
 21,21a,21b 受信処理部
 22 スピーカ
 121,211 コーデックネゴシエーション部
 122,122a,122b,212,212a,212b コーデック
 1221,1221b,2122,2122b,31,41,51,61 変換制御部
 1222 符号化部
 1225,2125 判定部
 1226,2126,2127 変換部
 2121 復号部
 2128 L/R比設定部

Claims (16)

  1.  音信号の符号化データを復号する復号装置における、前記音信号の信号形式の変換能力に関する情報に基づいて、前記音信号の信号形式の変換を制御する制御回路と、
     前記変換の制御に従って、前記音信号を符号化する符号化回路と、
     を具備する符号化装置。
  2.  前記制御回路は、前記変換能力に関する情報が第1の信号形式への変換をサポートしないことを示す場合に、前記符号化装置に入力された第2の信号形式の前記音信号を前記第1の信号形式に変換する、
     請求項1に記載の符号化装置。
  3.  前記第1の信号形式は、前記音信号を構成する左チャネル信号及び右チャネル信号によって表される形式であり、
     前記第2の信号形式は、前記左チャネル信号と前記右チャネル信号との和を示す和信号、及び、前記左チャネル信号と前記右チャネル信号との差を示す差信号によって表される形式である、
     請求項2に記載の符号化装置。
  4.  前記制御回路は、前記符号化装置に前記第1の信号形式の前記音信号が入力された場合、前記変換を適用しない、
     請求項2に記載の符号化装置。
  5.  前記制御回路は、前記第2の信号形式から前記第1の信号形式への変換において、前記和信号と前記差信号とに対する重み付けを行う、
     請求項3に記載の符号化装置。
  6.  前記符号化装置と前記復号装置との通信に関するセッションネゴシエーションにおいて、前記変換能力に関する情報を受信する受信回路を備えた、
     請求項1に記載の符号化装置。
  7.  前記制御回路及び前記符号化回路の双方がコーデックに含まれる、又は、前記制御回路及び前記符号化回路のうち前記符号化回路がコーデックに含まれる、
     請求項1に記載の符号化装置。
  8.  音信号の符号化データを復号する復号装置であって、
     前記復号装置における前記音信号の信号形式の変換能力に関する情報に基づいて符号化装置において符号化された前記符号化データを復号する復号回路と、
     前記信号形式の変換を制御する制御回路と、
     を具備する復号装置。
  9.  前記制御回路は、前記変換能力に関する情報が第1の信号形式への変換をサポートすることを示す場合に、前記復号装置に入力された第2の信号形式の前記音信号に対する前記符号化データを前記第1の信号形式に変換する、
     請求項8に記載の復号装置。
  10.  前記第1の信号形式は、前記音信号を構成する左チャネル信号及び右チャネル信号によって表される形式であり、
     前記第2の信号形式は、前記左チャネル信号と前記右チャネル信号との和を示す和信号、及び、前記左チャネル信号と前記右チャネル信号との差を示す差信号によって表される形式である、
     請求項9に記載の復号装置。
  11.  前記制御回路は、前記第2の信号形式から前記第1の信号形式への変換において、前記和信号と前記差信号とに対する重み付けを行う、
     請求項10に記載の復号装置。
  12.  前記制御回路は、前記復号回路において得られた復号データの出力先デバイスの種別に関する情報に基づいて、前記重み付けを制御する、
     請求項11に記載の復号装置。
  13.  前記制御回路は、前記復号回路において得られた復号データを構成する左チャネル信号と右チャネル信号との比率を調整する、
     請求項11に記載の復号装置。
  14.  前記復号回路及び前記制御回路の双方がコーデックに含まれる、又は、前記復号回路及び前記制御回路のうち前記復号回路がコーデックに含まれる、
     請求項8に記載の復号装置。
  15.  符号化装置は、
     音信号の符号化データを復号する復号装置における、前記音信号の信号形式の変換能力に関する情報に基づいて、前記音信号の信号形式の変換を制御し、
     前記変換の制御に従って、前記音信号を符号化する、
     符号化方法。
  16.  音信号の符号化データを復号する復号装置は、
     前記復号装置における前記音信号の信号形式の変換能力に関する情報に基づいて符号化装置において符号化された前記符号化データを復号し、
     前記信号形式の変換を制御する、
     復号方法。
PCT/JP2020/044887 2020-01-09 2020-12-02 符号化装置、復号装置、符号化方法及び復号方法 WO2021140791A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/791,708 US20230023321A1 (en) 2020-01-09 2020-12-02 Encoding device, decoding device, encoding method, and decoding method
JP2021569763A JP7316384B2 (ja) 2020-01-09 2020-12-02 符号化装置、復号装置、符号化方法及び復号方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-001961 2020-01-09
JP2020001961 2020-01-09

Publications (1)

Publication Number Publication Date
WO2021140791A1 true WO2021140791A1 (ja) 2021-07-15

Family

ID=76787883

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/044887 WO2021140791A1 (ja) 2020-01-09 2020-12-02 符号化装置、復号装置、符号化方法及び復号方法

Country Status (3)

Country Link
US (1) US20230023321A1 (ja)
JP (1) JP7316384B2 (ja)
WO (1) WO2021140791A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012249045A (ja) * 2011-05-27 2012-12-13 Sony Corp 再生装置、再生方法、およびプログラム
JP2018022159A (ja) * 2010-04-09 2018-02-08 ドルビー・インターナショナル・アーベー デコーダシステム、復号方法及びコンピュータプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3579403B2 (ja) * 2001-09-06 2004-10-20 株式会社セル・コーポレーション 映像伝送ユニット及び映像伝送システム
US9137035B2 (en) * 2002-05-09 2015-09-15 Netstreams Llc Legacy converter and controller for an audio video distribution system
KR100474434B1 (ko) * 2002-07-19 2005-03-10 삼성전자주식회사 디지털 영상시스템 및 그 제어방법
US7970049B2 (en) * 2005-01-05 2011-06-28 Creative Technology Ltd Method and apparatus for encoding video in conjunction with a host processor
US8514929B2 (en) * 2005-01-05 2013-08-20 Creative Technology Ltd Combined audio/video/USB device
TWI557724B (zh) * 2013-09-27 2016-11-11 杜比實驗室特許公司 用於將 n 聲道音頻節目編碼之方法、用於恢復 n 聲道音頻節目的 m 個聲道之方法、被配置成將 n 聲道音頻節目編碼之音頻編碼器及被配置成執行 n 聲道音頻節目的恢復之解碼器

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018022159A (ja) * 2010-04-09 2018-02-08 ドルビー・インターナショナル・アーベー デコーダシステム、復号方法及びコンピュータプログラム
JP2012249045A (ja) * 2011-05-27 2012-12-13 Sony Corp 再生装置、再生方法、およびプログラム

Also Published As

Publication number Publication date
JP7316384B2 (ja) 2023-07-27
JPWO2021140791A1 (ja) 2021-07-15
US20230023321A1 (en) 2023-01-26

Similar Documents

Publication Publication Date Title
JP5325988B2 (ja) 補聴器システムにおいてバイノーラル・ステレオにレンダリングする方法および補聴器システム
CN101490743B (zh) 对立体声音频信号的动态解码
CN101356573B (zh) 对双耳音频信号的解码的控制
US7489792B2 (en) Generation of a sound signal
US20050281423A1 (en) In-ear monitoring system and method
US20090298431A1 (en) Low latency, high quality link for audio transmission
US20140086414A1 (en) Efficient audio coding having reduced bit rate for ambient signals and decoding using same
CN105531764A (zh) 用于在电话系统和移动电话装置中补偿听力损失的方法
TWI819344B (zh) 音訊訊號渲染方法、裝置、設備及電腦可讀存儲介質
WO2010125228A1 (en) Encoding of multiview audio signals
GB2580899A (en) Audio representation and associated rendering
CN102067210B (zh) 用于对音频信号进行编码和解码的设备和方法
EA013670B1 (ru) Способ и устройство для приема, передачи и воспроизведения звуковых событий для приложений связи
WO2021140791A1 (ja) 符号化装置、復号装置、符号化方法及び復号方法
GB2578715A (en) Controlling audio focus for spatial audio processing
JP2005039461A (ja) 音声通信システム、方法及びプログラム並びに音声再生装置
KR100662204B1 (ko) 무선 헤드셋의 제어장치 및 방법
US11729570B2 (en) Spatial audio monauralization via data exchange
US20230188924A1 (en) Spatial Audio Object Positional Distribution within Spatial Audio Communication Systems
US20220103948A1 (en) Method and system for performing audio ducking for headsets
CN117917901A (zh) 生成参数化空间音频表示

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20912814

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021569763

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20912814

Country of ref document: EP

Kind code of ref document: A1