WO2010125802A1 - デジタル音声通信制御装置及び方法 - Google Patents

デジタル音声通信制御装置及び方法 Download PDF

Info

Publication number
WO2010125802A1
WO2010125802A1 PCT/JP2010/003002 JP2010003002W WO2010125802A1 WO 2010125802 A1 WO2010125802 A1 WO 2010125802A1 JP 2010003002 W JP2010003002 W JP 2010003002W WO 2010125802 A1 WO2010125802 A1 WO 2010125802A1
Authority
WO
WIPO (PCT)
Prior art keywords
digital
unit
voice
audio
digital audio
Prior art date
Application number
PCT/JP2010/003002
Other languages
English (en)
French (fr)
Inventor
田中朗宏
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to US13/266,323 priority Critical patent/US8775170B2/en
Priority to JP2011511310A priority patent/JPWO2010125802A1/ja
Publication of WO2010125802A1 publication Critical patent/WO2010125802A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1822Conducting the conference, e.g. admission, detection, selection or grouping of participants, correlating users to one or more conference sessions, prioritising transmission

Definitions

  • the present invention mainly relates to a digital voice communication control apparatus and method for broadcasting a speaker's voice to a place distant from the person (in this specification, “announce” is also used as a synonym).
  • the same receiver on the same digital communication network for calls between a plurality of speakers. For example, there is a case where one person makes an announcement to a target area and at the same time two persons make a call using a receiver connected to the same digital communication network. At this time, it is realized by digitally packetizing each human voice on the transmitting side and multiplexing and transmitting on the digital communication network, acquiring only the necessary packets on the receiving side, and decoding and reproducing the acquired packets Is done.
  • Patent Document 1 a method is disclosed in which own speech is multiplexed with other speech and then fed back to a speaker.
  • Patent Document 2 discloses a method of selecting only a speaker's voice required by a listener and outputting it to the listener in a multi-speaker conference.
  • Patent Document 1 if the voice required by the listener increases, a higher CPU (Central Processing Unit) or DSP (Digital Signal Processing) processing capability is required, and humans feel uncomfortable. There was a problem that it was not possible to completely avoid the delay that was memorized.
  • CPU Central Processing Unit
  • DSP Digital Signal Processing
  • the digital voice communication control device of the present invention includes a first voice input unit that inputs a voice from a specific speaker as a first voice signal, and a voice of one or more speakers other than the specific speaker as a second voice.
  • a second audio input unit that receives the signal, a first mixing unit that generates the one or more third audio signals by mixing the first audio signal and the second audio signal, and the first audio signal
  • a second mixing unit that generates one fourth audio signal by mixing one audio signal of the second audio signals, and outputs one or more third audio signals to the outside. It comprises a first audio output unit and a second audio output unit that outputs the fourth audio signal to the outside.
  • the mixing process of the feedback voice for the specific speaker is performed using the second mixing unit without being affected by other voices.
  • the process can be executed with a small delay within a certain range, and it is possible to prevent the speaker who has heard the feedback voice from feeling uncomfortable.
  • the digital voice communication control method of the present invention includes a voice input step for receiving an analog voice signal from a specific speaker, an A / D conversion step for converting the analog voice signal into a first digital voice stream, and a non-specific speaker.
  • the digital voice packet extracted in the packet receiving step is separated into digital voice packets for each speaker, and a digital voice packet separation step for constructing a second digital voice stream for each speaker; a first digital voice stream;
  • FIG. 1 is a schematic diagram of the configuration of the in-flight announcement / call system.
  • FIG. 2 is a block diagram showing the configuration of the digital voice communication control apparatus according to the first embodiment of the present invention.
  • FIG. 3 is a schematic diagram showing an example of the configuration of the in-flight announcement / call system.
  • FIG. 4A is a block diagram showing an example of input data to the digital voice communication control apparatus.
  • FIG. 4B is a block diagram showing an example of input data to the digital voice communication control apparatus.
  • FIG. 5A is a block diagram showing an example of a digital audio stream after input data is separated.
  • FIG. 5B is a block diagram showing an example of a digital audio stream after input data is separated.
  • FIG. 5A is a block diagram showing an example of a digital audio stream after input data is separated.
  • FIG. 5C is a block diagram showing an example of a digital audio stream after the input data is separated.
  • FIG. 6 is a block diagram showing an example of a digital audio stream after the input audio is converted by A / D conversion.
  • FIG. 7A is a block diagram showing an example of a digital audio stream that is input to the first mixing unit.
  • FIG. 7B is a configuration diagram illustrating an example of a digital audio stream that is input to the first mixing unit.
  • FIG. 7C is a block diagram showing an example of a digital audio stream that is input to the first mixing unit.
  • FIG. 7D is a configuration diagram illustrating an example of a digital audio stream that is input to the first mixing unit.
  • FIG. 8 is a flowchart showing an output digital audio stream generation process.
  • FIG. 8 is a flowchart showing an output digital audio stream generation process.
  • FIG. 9A is a block diagram showing an example of the state of the input buffer.
  • FIG. 9B is a block diagram showing an example of the state of the input buffer.
  • FIG. 9C is a block diagram showing an example of the state of the input buffer.
  • FIG. 9D is a configuration diagram illustrating an example of the state of the input buffer.
  • FIG. 10A is a block diagram showing an example of the state of the output buffer.
  • FIG. 10B is a configuration diagram illustrating an example of the state of the output buffer.
  • FIG. 10C is a configuration diagram illustrating an example of the state of the output buffer.
  • FIG. 11 is a flowchart showing a process for determining a digital audio stream to be output.
  • FIG. 12A is a block diagram showing an example of an output digital audio stream that is generated.
  • FIG. 12A is a block diagram showing an example of an output digital audio stream that is generated.
  • FIG. 12B is a configuration diagram illustrating an example of an output digital audio stream that is generated.
  • FIG. 12C is a block diagram showing an example of an output digital audio stream that is generated.
  • FIG. 13 is a block diagram showing the configuration of the digital voice communication control apparatus according to the second embodiment of the present invention.
  • the second sound mixing unit is used to perform feedback sound mixing processing so that a speaker who hears his / her own feedback voice does not feel uncomfortable due to the delay.
  • FIG. 1 is a schematic diagram of a configuration of an in-flight announcement / call system in an aircraft.
  • the in-flight announcement / call system 100 includes a voice control server 101, a flight deck headphone 102, a flight deck handset 104, a plurality of cabin handsets 103, and a plurality of cabin speakers 105.
  • the voice control server 101 is a device that controls voice flowing through the in-flight announcement / call system 100, and receives digital voice packets from the flight deck handset 104 and the cabin handset 103, and analog voice transmitted from the flight deck headphone 102. Receive and convert to digital voice packets. In addition, the voice control server 101 performs digital voice processing such as mixing, mute, and voice level adjustment on the received and converted digital voice packets. In addition, the digital audio packet generated by performing the digital audio processing is transmitted to the flight deck handset 104, the cabin handset 103, and the cabin speaker 105, or the generated digital audio packet is converted into analog audio to convert the flight deck headphone 102. Or transmit to.
  • the flight deck headphones 102 are headphones and a microphone that are integrated with each other, and in the flight deck (cockpit), pilots are used for announcements in the cabin (cabin) and calls with crew. You can hear not only phone calls but also voices that have been fed back from the pilot's announcements.
  • the flight deck headphones 102 are not connected to the voice control server 101 via a digital communication network, but are connected via two analog lines. Each analog line is used for announcements and calls.
  • a plurality of flight deck headphones 102 are installed for copilots (pilots) and pilot observers, but there is only one communication line with the voice control server 101 for announcements and calls. Therefore, when a plurality of people make announcements and calls at the same time, the result of mixing the voices of the plurality of people is transmitted to the voice control server 101 via the analog line.
  • the cabin handset 103 is a handset (communication device) installed at various locations in the cabin. A function of converting voice input by a crew member into a digital voice packet and transmitting it to the voice control server 101, or a function of receiving a digital voice packet from the voice control server 101, converting the received digital voice packet into analog voice, and outputting the analog voice packet. Etc. The cabin crew uses the cabin handset 103 to make announcements and calls.
  • the flight deck handset 104 is a handset installed on the flight deck, and the function is the same as the cabin handset 103. In normal times, since the pilot uses the flight deck headphones 102 for announcements and calls, the flight deck handset 104 is positioned as a spare when a failure occurs in the flight deck headphones 102.
  • the cabin speaker 105 is a speaker installed in the cabin, and has a function of receiving a digital voice packet from the voice control server 101, converting the received digital voice packet into an analog voice, and outputting it.
  • analog voice is transmitted to the voice control server 101 using the flight deck headphones 102.
  • the voice control server 101 converts the received analog voice into a digital voice packet, performs necessary processing such as mixing and voice level adjustment, and transmits the packet to the cabin speaker 105 to be broadcast.
  • the digital voice packet transmitted from the voice control server 101 is converted again into analog voice by the cabin speaker 105 and broadcasted in the cabin.
  • a digital voice packet is transmitted to the voice control server 101 using the cabin handset 103.
  • the voice control server 101 performs necessary processing such as mixing and voice level adjustment on the received digital voice packet, and then transmits it to the cabin speaker 105 to be broadcast.
  • the digital voice packet transmitted from the voice control server 101 is converted again into analog voice by the cabin speaker 105 and broadcasted in the cabin.
  • the speaker since the speaker has only the function of expanding the voice, a device for converting the digital voice packet into the analog voice is required in the front stage of the cabin speaker 105.
  • the cabin speaker 105 is described as performing a process of converting a digital voice packet into an analog voice.
  • FIG. 2 is a block diagram showing the configuration of the voice control server 101 which is the voice communication control apparatus according to the first embodiment of the present invention.
  • the voice control server 101 includes a voice input unit 201, an A / D conversion unit 202, a digital voice packet reception unit 203, a digital voice packet separation unit 204, a first mixing unit 205, a second mixing unit 206, and a D / A conversion unit 207. , A voice feedback unit 208, and a digital voice packet transmission unit 209.
  • the voice input unit 201 is a means for receiving an analog voice input from the flight deck headphone 102, and is assumed to receive the voice spoken by the pilot on the flight deck headphone 102 as an analog voice.
  • the A / D converter 202 is means for converting the analog voice received by the voice input unit 201 into a digital voice packet.
  • the pilot voice received by the A / D converter 202 is converted into a digital voice packet.
  • the converted digital voice packet is a packet sequence (hereinafter referred to as “first digital voice stream”) in which digital voice packets composed of only one voice (in this example, pilot voice) are arranged in time series.
  • the first mixing unit 205 and the second mixing unit 206 are handed over.
  • the digital voice packet receiving unit 203 is a means for receiving digital voice packets from the cabin handset 103 and the flight deck handset 104.
  • the digital voice packet receiving unit 203 receives data other than digital voice packets such as data packets in order to receive data from the digital communication network.
  • packets other than the digital voice packet are discarded or delivered to another function, and delivered to the digital voice packet separating unit 204 in a state where only the digital voice packets of a plurality of speakers are multiplexed.
  • the digital voice packet separating unit 204 separates the digital voice packet received from the digital voice packet receiving unit 203 and generates a plurality of second digital voice streams each consisting of one voice.
  • the first mixing unit 205 receives the first and second digital audio streams, extracts necessary digital audio streams from the input digital audio streams, and mixes them. Processing necessary for mixing, for example, audio level and gain adjustment, is performed by the first mixing unit 205. By performing the mixing process in the first mixing unit 205, one third digital audio stream on which the audio of the extracted digital audio streams is superimposed is generated. Note that the first mixing unit 205 enables a plurality of types of patterns of digital audio streams to be extracted.
  • digital audio streams A and a and b are extracted only.
  • a process of generating two types of digital audio streams of stream B is possible.
  • the digital audio stream A is one digital audio stream in which a, b, and c are superimposed
  • the digital audio stream B is one digital audio stream in which a and b are superimposed.
  • the content of the digital audio stream A is represented as a + b + c
  • the content of the digital audio stream B is represented as a + b to indicate that one digital audio stream is configured by superimposing a plurality of audio. , “+” Is used for description.
  • the second mixing unit 206 receives two digital audio streams (one of the first digital audio stream and the third digital audio stream), mixes them, and outputs a fourth digital audio stream. .
  • the processing necessary for mixing for example, since the sound becomes too loud as a result of mixing, only the minimum necessary processing such as adjusting the volume is executed. For this reason, the second mixing unit 206 can be a buffer having a smaller size than the first mixing unit 205.
  • the voice control server 101 has two second mixing units 206 for announcements and calls. However, although two are described here in order to logically perform two types of mixing, one second mixing unit 206 may handle 2 ⁇ 2 digital audio streams.
  • the D / A conversion unit 207 receives the fourth digital audio stream from the second mixing unit 206, converts the received digital audio stream into analog audio, and then delivers it to the audio feedback unit 208.
  • the audio feedback unit 208 transmits the analog audio received from the D / A conversion unit 207 to the flight deck headphones 102.
  • FIG. 3 is a schematic diagram showing an example of the configuration of the in-flight announcement / call system 100.
  • a call is made between cabin handset 103-1, cabin handset 103-2, and flight deck headphones 102 and announcement is made from cabin handset 103-3 to cabin speaker 105-1 is shown. .
  • FIG. 4A shows a configuration diagram of an example of input data (packet) from the digital communication network to the voice control server 101.
  • each packet is input from the left first in time, that is, voice packet 401, voice packet 402, data packet 403,.
  • the packet shown here is not a packet for transmission such as TCP (Transmission Control Protocol) or UDP (User Datagram Protocol), but a set of data having a certain meaning or a set of digital audio data for a certain period. It shall represent.
  • TCP Transmission Control Protocol
  • UDP User Datagram Protocol
  • the input data is first received by the digital voice packet receiver 203 and divided into digital voice packets and other data.
  • the data packet 403, the data packet 406, and the data packet 412 are filtered as packets other than the digital voice packet by the digital voice packet receiving unit 203.
  • FIG. 4B is a configuration diagram showing a digital voice packet extracted as a result of the filtering process of the digital voice packet receiving unit 203.
  • packets assigned the same number represent the same packet.
  • the data packet 403, data packet 406, and data packet 412 included in FIG. 4A are not included in FIG. 4B. It can be seen that this is a result of the filtering process of the digital voice packet receiving unit 203.
  • FIG. 4B shows detailed information of each digital voice packet.
  • Each digital voice packet corresponds to a packet input from cabin handset 103-1 or cabin handset 103-2 or cabin handset 103-3
  • C1-XX is input from cabin handset 103-1
  • C2-XX is cabin Input from the handset 103-2 and C3-XX represent input from the cabin handset 103-3, respectively.
  • XX is an arbitrary number.
  • the digital voice packet shown in FIG. 4B is separated into a digital voice stream by the digital voice packet separator 204.
  • 5A to 5C are configuration diagrams illustrating an example of the digital audio stream after the digital audio packet illustrated in FIG. 4B is separated by the digital audio packet separation unit 204.
  • the originally multiplexed digital voice packet is a digital voice stream 501 that is voice input from the cabin handset 103-1, a digital voice stream 502 that is voice input from the cabin handset 103-2, and voice from the cabin handset 103-3. It is separated into an input digital audio stream 503.
  • the pilot sound input from the flight deck headphone 102 to the sound input unit 201 is converted into a digital sound stream by the A / D conversion unit 202.
  • An example of the configuration of the digital audio stream converted by the A / D conversion unit 202 is shown in FIG.
  • a digital audio stream 601 obtained by digitally converting the voice of the pilot is composed of a digital audio packet 601, a digital audio packet 602, a digital audio packet 603,.
  • the time series is shown in order from the left.
  • the digital audio stream 501 to digital audio stream 503 separated by the digital audio packet separation unit 204 and the digital audio stream 601 digitally converted by the A / D conversion unit 202 are input to the first mixing unit 205.
  • the digital audio stream 601 is also input to the second mixing unit 206.
  • FIGS. 7A to 7D are configuration diagrams showing a plurality of digital audio streams to be input to the first mixing unit 205.
  • FIG. 7A to 7D do not have a direct correspondence between the packets in FIGS. 5A to 5C and FIG. 6, but the digital audio streams 701 to 703 and 710 are respectively connected to the cabin handset 103-1 to the cabin handset 103-3. Showing the input from the flight deck headphones 102 is similar.
  • XX is an arbitrary number
  • C1-XX is input from cabin handset 103-1
  • C2-XX is input from cabin handset 103-2
  • C3-XX is input from cabin handset 103-3
  • F-XX Represents the input from the flight deck headphones 102, respectively.
  • one packet of each digital audio stream of the digital audio streams 501 to 503 and the digital audio stream 601 represents audio information for 4 milliseconds
  • the input timing of each digital audio stream has the same value of XX. Things are input at the same time.
  • the C1-1 packet of the digital audio stream 701 and the C2-1 packet of the digital audio stream 702 represent 4 ms of voice spoken at the same timing
  • C1-2 is 4 ms after the delay of C1-1. It represents 4 milliseconds of speech spoken at the timing of
  • FIG. 8 is a flowchart showing a process when the first mixing unit 205 generates an output digital audio stream.
  • the first mixing unit 205 stores, in a buffer, packets for the processing necessary from each received digital audio stream.
  • packets for the processing necessary from each received digital audio stream.
  • processing requires 5 packets, that is, 20 milliseconds.
  • each digital audio stream buffer stores packets YY-1 through YY-5, as shown in FIGS. 9A to 9D.
  • YY represents C1, C2, C3 or F.
  • the process of step 802 in FIG. 8 is performed, but the process of step 802 loops by the number of digital audio streams to be generated.
  • the digital audio stream to be generated is a digital audio stream for call and announcement to be output to the second mixing unit 206, and a call for output to the digital audio packet transmission unit 209 and The digital audio stream for announcements is the target.
  • the digital audio stream for announcement is output to the second mixing unit 206 and output to the digital audio packet transmission unit 209, both of which are targeted for the digital audio stream 703, so that one output buffer is shared. Is possible.
  • announcements are made only from the cabin handset 103-3, but announcements may be made simultaneously for a plurality of areas from a plurality of cabin handsets 103.
  • announcements may be made simultaneously for a plurality of areas from a plurality of cabin handsets 103.
  • cabin handset 103-1 and cabin handset 103-2 make a two-way call
  • cabin handset 103-3, cabin handset 103-4, cabin handset 103-5, and flight deck headphone 102 make a four-way call. This is the case.
  • the number of buffers required by the first mixing unit 205 increases.
  • the digital audio stream that is output to the audio feedback unit 208, that is, finally output to the flight deck, can be stored in two buffers for call and announcement at the maximum.
  • the loop 851 is executed three times. First, the loop 851 corresponding to the digital audio stream for announcement will be described.
  • the announcement digital audio stream is common to both the digital audio packet transmission unit 209 and the second mixing unit 206.
  • step 802 the output buffer of the digital audio stream for announcement is cleared, and the process proceeds to loop 852.
  • only one announcement is executed from the cabin handset 103-3. Therefore, “yes” in step 803 is only in the case of the digital audio stream 703 that is an input from the cabin handset 103-3. Accordingly, C3-1 to C3-5 packets are stored in the output buffer of the announcement digital audio stream.
  • step 802 the call (cabin) output buffer is cleared.
  • step 803 is “yes” in the digital audio stream 701, This is for the digital audio stream 702 and the digital audio stream 710.
  • the call (cabin) output buffers have C1-1 to C1-5, C2-1 to C2-5, and F-1 to F in FIGS. 9A to 9D.
  • a packet obtained by mixing -5 digital voice packets is stored.
  • AGC Automatic Gain Control
  • audio level adjustment and the like may be executed.
  • the present invention is effective regardless of the contents of the mixing process executed in step 804 and the other audio processes executed in mixing. Even if the voice is time-compressed, processing can be performed by defining a digital voice packet in an appropriate unit, for example, a unit that can completely reproduce the voice of a specific period if all the data of the unit is prepared. Is possible.
  • step 802 the call (flight deck) output buffer is cleared.
  • step 803 is when the input digital audio stream is the digital audio stream 701 and the digital audio stream 702. Therefore, the process of step 804 is executed for the two digital audio streams.
  • the output buffer is in the state shown in FIGS. 10A to 10C.
  • C1-1 + C2-1 + F-1 represents that the digital voices of the digital voice packets of C1-1, C2-1, and F-1 are mixed and three voices are superimposed.
  • the digital voice packet separation unit 204 delivers the digital voice packet generated in this way to the second mixing unit 206 or the digital voice packet transmission unit 209.
  • next packet group of the input digital audio stream that is, C1-6 to C1-10, C2-6 to C2-10, C3-6 to C3-10, F-6 to F-10 in FIGS. 7A to 7D.
  • the same processing is repeated for.
  • FIG. 11 is a flowchart for determining a digital audio stream to be generated.
  • a digital audio stream (generation target stream (FA)) for flight deck that is, output to the second mixing unit 206 is set as a generation target.
  • FA generation target stream
  • step 1102 a digital audio stream input from the cabin handset 103 (which may be the flight deck headphone 102 or the flight deck handset 104) executing each announcement is set as a generation target stream (i), and further, the generation target stream The input from the cabin handset 103 (flight deck headphones 102, flight deck handset 104) is added to (FA) (step 1103).
  • the generation target stream is “generation target stream (1) consisting of streams from cabin handset 103-1”.
  • Three generation target streams are determined.
  • a generation target stream for a call is determined.
  • a digital audio stream (generation target stream (FC)) for output to the flight deck, that is, to be output to the second mixing unit 206 is set as a generation target. At this time, it is assumed that no sound is included in the generation target stream (FC).
  • the processing of loop 1152 is performed for all calls that are in progress.
  • calls are ordered and the jth call is called a call (j).
  • the generation target stream (j) is determined as a stream including all digital audio streams input from the cabin handset 103 (may be the flight deck handset 104) participating in each call.
  • step 1106 it is determined whether the target call (j) includes the flight deck headphones 102. If the target call (j) includes the flight deck headphones 102, the process proceeds to step 1107. If not included, the process returns to the beginning of the loop process.
  • step 1107 all the digital audio streams input from the cabin handset 103 (may be the flight deck handset 104) participating in the target call (j) are added to the generation target stream (FC). Thereafter, in step 1108, the input from the flight deck headphone 102 is added to the generation target stream (j).
  • the number of calls in progress + 1 generation target stream is determined.
  • the generation target stream is “cabin Generation target stream (1) consisting of a stream from the handset 103-1 and a stream from the cabin handset 103-2 and a generation target stream (2) consisting of a stream from the cabin handset 103-3 and the flight deck headphones 102 ”And“ Generation target stream (FC) composed of streams from cabin handset 103-3 ”are determined.
  • step 1109 if there is a generation target stream consisting of exactly the same input source, a process of combining the streams into one is performed.
  • the announcement buffer shown in FIGS. 10A to 10C corresponds to this. Note that this processing does not necessarily affect the present invention, and thus is not necessarily performed.
  • the first mixing unit 205 sequentially generates two streams to be output to the flight deck among the generated digital audio streams [the stream from the cabin handset 103-1 and the stream from the cabin handset 103-2.
  • Stream (1) is delivered to the second mixing unit 206, and the remaining digital audio stream is delivered to the digital audio packet transmitting unit 209.
  • the digital audio packet transmitting unit 209 Upon receiving the digital audio stream from the first mixing unit 205, the digital audio packet transmitting unit 209 converts the announcement digital audio stream to the cabin speaker 105 belonging to the broadcast target area, and the call digital audio stream to the call. Each is transmitted to the participating cabin handset 103.
  • the second mixing unit 206 that has received the digital audio streams from the first mixing unit 205 and the A / D conversion unit 202 respectively mix the announcement output streams and the call streams. Details of the mixing process of the second mixing unit 206 will be described below.
  • the second mixing unit 206 receives the call digital audio stream (call digital audio stream 1200) received from the first mixing unit 205 and the call digital audio received from the A / D conversion unit 202. It is a figure showing the audio stream (digital audio stream for calls 1210) and the digital audio stream (output digital audio stream 1220) that the second mixing unit 206 generates by mixing the two streams.
  • the x-coordinate is described at the same position for packets input at the same timing in the call digital audio stream 1200 and the call digital audio stream 1210.
  • C1-XX, C2-XX, and F-XX indicate that the timings input to the voice control server 101 are the same.
  • XX represents an arbitrary number.
  • the timing at which the call digital audio stream 1200 is input to the second mixing unit 206 is Compared with the timing when the digital audio stream for call 1210 is input to the second mixing unit 206, it is delayed by 8 packets. That is, the timing at which C1-1 + C2-1 is input to the second mixing unit 206 and the timing at which F-9 is input are simultaneous.
  • the second mixing unit 206 When these two digital voice packets are input, the second mixing unit 206 simply performs a minimum process of mixing them into one digital voice packet. As shown in the output digital audio stream 1220 in FIGS. 12A to 12C, the second mixing unit 206 and the digital audio packet input from the A / D conversion unit 202 are input with a delay of 32 milliseconds from the first mixing unit 205. The digital voice packet superimposed with the digital voice packet is generated.
  • the D / A conversion unit 207 converts the input digital voice packet into analog voice, and the flight is performed through the voice feedback unit 208. Send analog audio to the deck.
  • the second mixing unit 206 performs the processing for the announcement digital audio stream in the same manner as the processing for the call digital audio stream.
  • the second mixing unit 206 may execute audio signal processing as long as the delay is not a problem.
  • the first mixing unit 205 performs signal processing in advance on the premise that specific signal processing is executed in the second mixing unit 206 so that processing of the second mixing unit 206 does not become a burden.
  • the audio level of the digital audio stream input from the A / D conversion unit 202 is set to 1 / n, and only the addition operation is performed with the digital audio stream input from the first mixing unit 205. And so that proper mixing is completed.
  • FIG. 13 is a block diagram showing the digital voice communication control apparatus according to the second embodiment of the present invention, and shows the configuration of the voice control server 1300 when the second mixing unit 306 performs analog mixing.
  • the difference from the first embodiment is that the second mixing unit 306 mixes an analog audio signal instead of a digital audio stream.
  • the analog audio signal received by the audio input unit 201 is transmitted to the A / D conversion unit 202 and the second mixing unit 306, respectively.
  • the digital audio stream transmitted from the first mixing unit 205 is converted into an analog audio signal by the D / A conversion unit 207 and transmitted to the second mixing unit 306.
  • the second mixing unit 306 mixes the analog audio signal from the audio input unit 201 and the analog audio signal from the D / A conversion unit 207 and transmits the analog audio to the flight deck through the audio feedback unit 208.
  • the second mixing unit 306 receives 2 ⁇ 2 analog voices and mixes them as analog voices. At this time, AGC or audio level adjustment may be performed. In this case, the analog audio mixing processing may be performed by CODEC (CODEr / DEcoder) or dedicated hardware. In this case, the second mixing unit 306 may have a system configuration provided in the flight deck headphone 102.
  • the digital voice packet transmission unit 209 recognizes the cabin handset 103 and the cabin speaker 105 to be output and transmits an appropriate digital voice stream to them.
  • the packet transmission unit 209 may transmit all digital audio streams to all cabin handsets 103 and cabin speakers 105 without selecting an output target.
  • the cabin handset 103 or the cabin speaker 105 that has received the digital audio stream recognizes which call it belongs to and which announcement is being broadcast, and selects and plays the necessary digital audio stream. It shall have the function to do.
  • step 1103 in FIG. 11 is performed on the generation target stream (FA) only when the target announcement (i) is emergency broadcast. What is necessary is just to replace with the process which adds the input from CH (i).
  • FA generation target stream
  • it may be used as a criterion for the processing in step 1103 using a database or the like, and depending on which cabin handset 103 the broadcasting source is based on, not only the type of announcement Whether or not to feed back to the deck headphones 102 may be determined.
  • the announcement / call system in the aircraft has been described.
  • the present invention is not limited to the system in the aircraft, but can be used in a general announcement / call system.
  • the digital voice communication control apparatus and method according to the present invention provides an announcement in a place where a speaker is not discomforted in a system that requires simultaneous announcement of a plurality of areas and a call between a plurality of handsets. And can communicate with a plurality of other parties, and is particularly useful as an announcement / call system in an aircraft.

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Interconnected Communication Systems, Intercoms, And Interphones (AREA)

Abstract

音声入力部から入力される特定話者からの音声と、デジタル音声パケット受信部から入力される特定話者以外の1つ以上の話者の音声をミキシングする第一ミキシング部と、第一ミキシング部でミキシングした音声と、特定話者の音声をミキシングする第二ミキシング部を具備し、第二ミキシング部でミキシングした音声を特定話者にフィードバックする。

Description

デジタル音声通信制御装置及び方法
 本発明は、主に話者の声を本人と離れた場所に放送(本明細書において、「アナウンス」も同義語として用いる)するための、デジタル音声通信制御装置及び方法に関する。
 近年、通信ネットワーク技術の発達に伴い、従来アナログ信号を用いて実現していた音声によるアナウンス等を、話者の声をデジタル信号化し、それをパケット化したデジタル音声パケットを、デジタル通信ネットワーク上で送信することによっても実現できるようになった。
 そして、音声のデジタル化により、複雑な配線を必要とすることなく、複数に分けたアナウンスエリアのうちの一部に自由にアナウンスを行ったり、複数人の話者が同時に同じ又は異なるエリアに向けてアナウンスを行ったりすることが可能となった。
 更に、同一のデジタル通信ネットワーク上を同一の受話器を用いて、複数の話者間での通話にも用いることが可能となった。例えば、1人の人間が対象エリアに向けてアナウンスを行うと同時に、2人の人間が同じデジタル通信ネットワークに接続された受話器を用いて、通話をする場合などである。この時には、送信側でそれぞれの人間の声をデジタルパケット化してデジタル通信ネットワーク上を多重化して送信し、受信側では必要なパケットのみを取得して、取得したパケットをデコード及び再生することで実現される。
 一般に、話者と離れている等の理由で放送されている声が聞こえない場所へアナウンスを行う場合、又は、複数話者間での会話で自身の声が遅れて返ってくる、若しくは全く聞こえない場合、などには話者がアナウンスや会話を行う際に違和感を覚える場合がある。また、アナウンスを行う場合に、実際に音声が対象エリアに出力されているかどうかを確認する術がないため、話者として不安を抱く可能性も否定できない。
 これに対して、複数のアナログ回線を用いて、アナウンスや通話をそれぞれの回線を用いて実現する場合には、話者の声を受信した受話器又は放送装置が、そのまま話者の受話器へ受信したアナログ音声をフィードバックし、話者の受話器からフィードバックされた音声を出力することで、話者の違和感を減じ、かつ、確かに音声が受信側へ到達していることを確認させることができた。
 しかし、複数音源からなるデジタル音声パケットを、複数の用途に用いる場合には、途中でデジタル音声処理を実施することが必要となる。このデジタル音声処理には、一定期間のデジタル音声パケットをバッファリングし、他のデジタル音声パケットとの間でミキシング処理やミキシング後の音量調整処理などを行うことが不可避であり、そのためにどうしても処理遅延が発生してしまう。この遅延が原因で、フィードバックされた自身の音声を聞いた話者が違和感を禁じ得ない場合があった。
 特許文献1によれば、自身の音声を他の音声と多重化後に、話者にフィードバックする方法が開示されている。
 特許文献2によれば、複数話者の会議において、聞き手が必要とする話者の声だけを選択して聞き手に出力する方法が開示されている。
 しかしながら、上記特許文献1及び特許文献2のいずれも、聞き手が必要とする音声が多くなると、より高いCPU(Central Processing Unit)やDSP(Digital Signal Processor)の処理能力を必要とし、人間が違和感を覚えるほどの遅延が生じてしまうことを完全に回避することができない、という課題があった。
特開平7-202888号公報 特開2006-203548号公報
 本発明のデジタル音声通信制御装置は、特定話者からの音声を第1の音声信号として入力する第一音声入力部と、特定話者以外の1つ以上の話者の音声を第2の音声信号として受信する第二音声入力部と、第1の音声信号と第2の音声信号をミキシングして、1つ以上の第3の音声信号を生成する第一ミキシング部と、第1の音声信号と、第2の音声信号のうちの1つの音声信号とをミキシングして、1つの第4の音声信号を生成する第二ミキシング部と、1つ以上の第3の音声信号を外部に出力する第一音声出力部と、第4の音声信号を外部に出力する第二音声出力部、から構成される。
 このような構成により、如何にミキシング処理が複雑な条件を要したとしても、特定話者に対するフィードバック音声のミキシング処理を、第二ミキシング部を用いて行うことで他の音声に影響を受けることなく、一定内の少ない遅延で処理を実行でき、フィードバックされた自身の音声を聞いた話者に違和感を感じさせないようにすることが可能となる。
 本発明のデジタル音声通信制御方法は、特定話者からのアナログ音声信号を受信する音声入力ステップと、アナログ音声信号を第1のデジタル音声ストリームに変換するA/D変換ステップと、特定話者以外の1人以上の話者のデジタル音声ストリームを構成するデジタル音声パケットとデータパケットが多重化されたデジタルデータを受信し、デジタルデータからデジタル音声パケットのみを抽出するデジタル音声パケット受信ステップと、デジタル音声パケット受信ステップで抽出したデジタル音声パケットを、話者ごとのデジタル音声パケットに分離し、話者ごとの第2のデジタル音声ストリームを構築するデジタル音声パケット分離ステップと、第1のデジタル音声ストリームと第2のデジタル音声ストリームとをミキシングし、第3のデジタル音声ストリームを1つ以上生成する、第一ミキシングステップと、第1のデジタル音声ストリームと第3のデジタル音声ストリームのうちの1つのデジタル音声ストリームとをミキシングし、第4の出力デジタル音声ストリームを生成する、第二ミキシングステップと、第一ミキシングステップで生成した、1つ以上の第3のデジタル音声ストリームを多重化し、装置外部へ出力するデジタル音声パケット送信ステップと、第二ミキシングステップで生成した、第4のデジタル音声ストリームをアナログ音声信号に変換するD/A変換ステップと、D/A変換ステップで変換したアナログ音声信号を、装置外部に出力する音声フィードバックステップと、から構成される。
図1は機内アナウンス・通話システムの構成の概略図である。 図2は本発明の実施の形態1のデジタル音声通信制御装置の構成を示すブロック図である。 図3は機内アナウンス・通話システムの構成の一例を示す概略図である。 図4Aはデジタル音声通信制御装置への入力データの一例を示す構成図である。 図4Bはデジタル音声通信制御装置への入力データの一例を示す構成図である。 図5Aは入力データが分離された後のデジタル音声ストリームの一例を示す構成図である。 図5Bは入力データが分離された後のデジタル音声ストリームの一例を示す構成図である。 図5Cは入力データが分離された後のデジタル音声ストリームの一例を示す構成図である。 図6は入力音声がA/D変換により変換された後のデジタル音声ストリームの一例を示す構成図である。 図7Aは第一ミキシング部への入力となる、デジタル音声ストリームの一例を示す構成図である。 図7Bは第一ミキシング部への入力となる、デジタル音声ストリームの一例を示す構成図である。 図7Cは第一ミキシング部への入力となる、デジタル音声ストリームの一例を示す構成図である。 図7Dは第一ミキシング部への入力となる、デジタル音声ストリームの一例を示す構成図である。 図8は出力デジタル音声ストリームの生成処理を表すフローチャートである。 図9Aは入力用バッファの状態の一例を示す構成図である。 図9Bは入力用バッファの状態の一例を示す構成図である。 図9Cは入力用バッファの状態の一例を示す構成図である。 図9Dは入力用バッファの状態の一例を示す構成図である。 図10Aは出力バッファの状態の一例を示す構成図である。 図10Bは出力バッファの状態の一例を示す構成図である。 図10Cは出力バッファの状態の一例を示す構成図である。 図11は出力対象となるデジタル音声ストリームの決定処理を表すフローチャートである。 図12Aは生成される出力デジタル音声ストリームの一例を示す構成図である。 図12Bは生成される出力デジタル音声ストリームの一例を示す構成図である。 図12Cは生成される出力デジタル音声ストリームの一例を示す構成図である。 図13は本発明の実施の形態2のデジタル音声通信制御装置の構成を示すブロック図である。
 本発明では、フィードバックされた自身の音声を聞いた話者に遅延による違和感を感じさせないように、フィードバック音声のミキシング処理を、第二ミキシング部を用いて行った。
 (実施の形態1)
 本実施の形態では、航空機における機内放送及び乗務員の機内通話を実現するシステムを例に、図面を参照しながら述べる。
 図1は、航空機における機内アナウンス・通話システムの構成の概略図である。機内アナウンス・通話システム100は、大きく音声制御サーバ101、フライトデッキヘッドフォン102、フライトデッキハンドセット104、複数のキャビンハンドセット103、複数のキャビンスピーカ105から構成される。
 音声制御サーバ101は、機内アナウンス・通話システム100全体を流れる音声を制御する装置で、フライトデッキハンドセット104やキャビンハンドセット103からデジタル音声パケットの受信機能、並びにフライトデッキヘッドフォン102から伝送されるアナログ音声の受信及びデジタル音声パケットへの変換機能を持つ。加えて、音声制御サーバ101は、受信及び変換したデジタル音声パケットに対して、ミキシング、ミュート、音声レベルの調整、等のデジタル音声処理を行う。また、デジタル音声処理を施して生成されたデジタル音声パケットを、フライトデッキハンドセット104、キャビンハンドセット103、キャビンスピーカ105へ送信したり、生成されたデジタル音声パケットをアナログ音声に変換してフライトデッキヘッドフォン102に伝送したりする。
 フライトデッキヘッドフォン102は、ヘッドフォンとマイクが一体になっており、フライトデッキ(コックピット)においてパイロットがキャビン(客室)内へのアナウンスや乗務員などとの通話に用いるための機器である。通話だけでなく、パイロット自身のアナウンスした音声がフィードバックされた音声も聞くことができる。フライトデッキヘッドフォン102は、他の機器と異なり、音声制御サーバ101とデジタル通信ネットワークを介して接続されるのではなく、2本のアナログ回線を介して接続される。このアナログ回線は、それぞれ1本ずつアナウンス用、通話用に使用される。通常は、コパイロット(副操縦士)やパイロットオブザーバ用にフライトデッキヘッドフォン102が複数搭載されているが、音声制御サーバ101との通信回線は、アナウンス用、通話用に1本ずつしか存在しない。そのため、複数の人間が同時にアナウンスや通話を実施した場合には、これら複数人の声がミキシングされた結果がアナログ回線を介して音声制御サーバ101へ伝送される。
 キャビンハンドセット103は、キャビンの様々な場所に設置されるハンドセット(通話装置)である。乗務員が入力した音声をデジタル音声パケットに変換し、音声制御サーバ101に送信する機能や、音声制御サーバ101からデジタル音声パケットを受信し、受信したデジタル音声パケットをアナログ音声に変換し、出力する機能等を持つ。キャビンの乗務員はキャビンハンドセット103を用いて、アナウンスや通話を実行する。
 フライトデッキハンドセット104は、フライトデッキに設置されるハンドセットであり、機能はキャビンハンドセット103と変わらない。通常時は、パイロットがアナウンスや通話に用いるのは、フライトデッキヘッドフォン102であるため、フライトデッキハンドセット104は、フライトデッキヘッドフォン102に障害が発生した場合の予備としての位置づけが強い。
 キャビンスピーカ105は、キャビンに設置されるスピーカであり、音声制御サーバ101からデジタル音声パケットを受信し、受信したデジタル音声パケットをアナログ音声に変換し、出力する機能等を持つ。
 以上のように構成された機内アナウンス・通話システム100において、パイロットがアナウンスをする場合には、まず、フライトデッキヘッドフォン102を用いて音声制御サーバ101にアナログ音声を送信する。音声制御サーバ101では、受信したアナログ音声をデジタル音声パケットに変換し、ミキシングや音声レベル調整などの必要な処理をした後、放送対象のキャビンスピーカ105へ送信する。音声制御サーバ101から送信されたデジタル音声パケットは、キャビンスピーカ105によって再びアナログ音声に変換され、機内に放送される。
 一方、キャビンの乗務員がアナウンスをする場合には、まず、キャビンハンドセット103を用いて音声制御サーバ101にデジタル音声パケットを送信する。音声制御サーバ101では、受信したデジタル音声パケットをミキシングや音声レベル調整などの必要な処理をした後、放送対象のキャビンスピーカ105へ送信する。音声制御サーバ101から送信されたデジタル音声パケットは、キャビンスピーカ105によって再びアナログ音声に変換され、機内に放送される。
 なお、一般にはスピーカは音声を拡張する機能のみしか持たないため、デジタル音声パケットをアナログ音声に変換する機器がキャビンスピーカ105の前段において必要となる。しかし、本発明の本質とは関連しないため、本明細書においては、キャビンスピーカ105がデジタル音声パケットをアナログ音声に変換する処理も行うものとして記載するものとする。
 図2は、本発明の実施の形態1の音声通信制御装置である音声制御サーバ101の構成を示すブロック図である。音声制御サーバ101は、音声入力部201、A/D変換部202、デジタル音声パケット受信部203、デジタル音声パケット分離部204、第一ミキシング部205、第二ミキシング部206、D/A変換部207、音声フィードバック部208、デジタル音声パケット送信部209から構成される。
 音声入力部201は、フライトデッキヘッドフォン102からのアナログ音声入力を受信する手段であり、フライトデッキヘッドフォン102でパイロットが話す音声を、アナログ音声として受信することが想定される。
 A/D変換部202は、音声入力部201で受信したアナログ音声をデジタル音声パケットに変換する手段である。A/D変換部202により、受信されたパイロットの音声はデジタル音声パケット化される。変換されたデジタル音声パケットは、一つの音声(この例の場合パイロットの声)のみからなるデジタル音声パケットが時系列に並んだパケット列(以下、「第1のデジタル音声ストリーム」と呼ぶ)であり、第一ミキシング部205及び第二ミキシング部206へ引き渡される。
 デジタル音声パケット受信部203は、キャビンハンドセット103及びフライトデッキハンドセット104からデジタル音声パケットを受信する手段である。デジタル音声パケット受信部203は、デジタル通信ネットワークからのデータを受信するため、データパケット等のデジタル音声パケット以外のパケットも受信する。デジタル音声パケット受信部203では、デジタル音声パケット以外のパケットを破棄又は他の機能へ引き渡し、複数の話者のデジタル音声パケットのみが多重された状態で、デジタル音声パケット分離部204に引き渡す。
 デジタル音声パケット分離部204は、デジタル音声パケット受信部203から受け取ったデジタル音声パケットを分離し、それぞれがひとつの音声からなる複数の第2のデジタル音声ストリームを生成する。
 第一ミキシング部205は、第1と第2の複数のデジタル音声ストリームを入力とし、入力された複数のデジタル音声ストリームから、必要なデジタル音声ストリームを抽出し、それらをミキシングする。ミキシングに際して必要な処理、例えば音声レベルやゲイン調整などは、第一ミキシング部205で行う。第一ミキシング部205でミキシング処理を実施することで、抽出された複数のデジタル音声ストリームの音声が重畳された1つの第3のデジタル音声ストリームが生成される。なお、第一ミキシング部205は、抽出するデジタル音声ストリームのパターンを複数種類とることを可能とすることとする。
 例えば、a、b、cの3種類のデジタル音声ストリームが入力された場合に、a、b、cのいずれをも抽出対象としたデジタル音声ストリームAとa、bのみを抽出対象とするデジタル音声ストリームBの2種類のデジタル音声ストリームを生成する、という処理が可能である。この場合、デジタル音声ストリームAはaとbとcが重畳された1つのデジタル音声ストリームとなり、デジタル音声ストリームBはaとbが重畳された1つのデジタル音声ストリームとなる。以下、本明細書において、1つのデジタル音声ストリームが複数の音声が重畳されて構成されていることを表すのに、デジタル音声ストリームAの内容をa+b+c、デジタル音声ストリームBの内容をa+bのように、“+”を用いて表記するものとする。
 第二ミキシング部206は、2つのデジタル音声ストリーム(第1のデジタル音声ストリームと第3のデジタル音声ストリームのうち一つ)を入力とし、それらをミキシングして、第4のジタル音声ストリームを出力する。ミキシングに際して必要な処理は、例えばミキシングした結果音声が大きくなりすぎるため、音量を調整する等の、最低限必要な処理のみ実行する。このため、第二ミキシング部206は、第一ミキシング部205に比較して小さなサイズのバッファとすることができる。音声制御サーバ101は、アナウンス用、通話用に第二ミキシング部206を2つ持つ。ただし、論理的に2種類のミキシングを行うためここでは2つ記載しているが、1つの第二ミキシング部206が2×2本のデジタル音声ストリームを扱えるとしても良い。
 D/A変換部207は、第二ミキシング部206から第4のデジタル音声ストリームを受信し、受信したデジタル音声ストリームをアナログ音声に変換した上で音声フィードバック部208に引き渡す。
 音声フィードバック部208は、D/A変換部207から受信したアナログ音声を、フライトデッキヘッドフォン102に伝送する。
 以下、図を用いて、音声制御サーバ101の動作を中心に、機内アナウンス・通話システム100におけるアナウンス、通話を行う際のデジタル音声通信制御方法について説明する。
 図3は機内アナウンス・通話システム100の構成の一例を示す概略図である。本実施の形態においては、キャビンハンドセット103-1とキャビンハンドセット103-2とフライトデッキヘッドフォン102との間で通話を、キャビンハンドセット103-3からキャビンスピーカ105-1へアナウンスを行う場合の例を示す。
 図4Aに、音声制御サーバ101へのデジタル通信ネットワークからの入力データ(パケット)の一例の構成図を表す。なお、図4Aにおいて、各パケットは時間的に左から先に入力される、すなわち音声パケット401、音声パケット402、データパケット403、・・・、音声パケット414の順で入力されるものとする。ただし、ここで示すパケットは、TCP(Transmission Control Protocol)やUDP(User Datagram Protocol)等の転送のためのパケットそのものではなく、一定の意味を持つデータのまとまりや一定期間のデジタル音声データのまとまりを表すものとする。一定のまとまりを持つデータを通信するための通信路を提供するプロトコルは、TCPやUDP、ATM(Asynchronous Transfer Mode)等様々なものが存在するが、本発明は通信プロトコルに依存せず、どのようにしてデジタル音声パケットの通信を行うかについては、特定の方法に限らない。
 上記入力データは、まずデジタル音声パケット受信部203で受信され、デジタル音声パケットとそれ以外のデータとに分けられる。図4Aにおいては、データパケット403、データパケット406、データパケット412が、デジタル音声パケット受信部203でデジタル音声パケット以外のパケットとしてフィルタリングされる。
 図4Bは、デジタル音声パケット受信部203のフィルタリング処理の結果として抽出されたデジタル音声パケットを表す構成図である。図4Aと図4Bにおいて同一の番号が振られているパケットは、同一のパケットを表すものとする。図4Aでは含まれていたデータパケット403、データパケット406、データパケット412は、図4Bには含まれていない。これは、デジタル音声パケット受信部203のフィルタリング処理の結果であることが分かる。
 図4Bにおいては、各デジタル音声パケットの詳細情報を示している。各デジタル音声パケットは、キャビンハンドセット103-1又はキャビンハンドセット103-2又はキャビンハンドセット103-3から入力されるパケットに対応し、C1-XXがキャビンハンドセット103-1からの入力、C2-XXがキャビンハンドセット103-2からの入力、C3-XXがキャビンハンドセット103-3からの入力を、それぞれ表す。ここでは、XXは任意の数字とする。
 図4Bに示すデジタル音声パケットは、デジタル音声パケット分離部204によって、デジタル音声ストリームに分離される。図5A~5Cは、図4Bに示すデジタル音声パケットがデジタル音声パケット分離部204によって分離された後のデジタル音声ストリームの一例を示す構成図である。元々多重されていたデジタル音声パケットが、キャビンハンドセット103-1からの音声入力であるデジタル音声ストリーム501、キャビンハンドセット103-2からの音声入力であるデジタル音声ストリーム502、キャビンハンドセット103-3からの音声入力であるデジタル音声ストリーム503に分離される。
 一方、フライトデッキヘッドフォン102から音声入力部201へ入力された、パイロットの音声は、A/D変換部202によって、デジタル音声ストリームに変換される。A/D変換部202によって変換されたデジタル音声ストリームの構成の一例を図6に示す。パイロットの音声をデジタル変換したデジタル音声ストリーム601は、デジタル音声パケット601、デジタル音声パケット602、デジタル音声パケット603、・・・、からなる。また、デジタル音声ストリーム501等と同様、時系列に左から順に示しているものとする。
 デジタル音声パケット分離部204によって分離された、デジタル音声ストリーム501~デジタル音声ストリーム503と、A/D変換部202によってデジタル変換されたデジタル音声ストリーム601は、第一ミキシング部205に入力される。同時に、デジタル音声ストリーム601は、第二ミキシング部206にも入力される。
 図7A~7Dは、第一ミキシング部205への入力となる、複数のデジタル音声ストリームを表す構成図である。図7A~7Dは、図5A~5C及び図6とパケット間での直接の対応はないものとするが、デジタル音声ストリーム701~703、710がそれぞれ、キャビンハンドセット103-1~キャビンハンドセット103-3、フライトデッキヘッドフォン102からの入力を示すことは同様である。
 XXは任意の数字とし、C1-XXがキャビンハンドセット103-1からの入力、C2-XXがキャビンハンドセット103-2からの入力、C3-XXがキャビンハンドセット103-3からの入力を、F-XXがフライトデッキヘッドフォン102からの入力をそれぞれ表す。ここでは、デジタル音声ストリーム501~503、及びデジタル音声ストリーム601の各デジタル音声ストリームの1パケットは4ミリ秒間の音声情報を表すものとし、各デジタル音声ストリームの入力タイミングは、それぞれXXの値が同じものは同時に入力されたものとする。例えば、デジタル音声ストリーム701のC1-1とデジタル音声ストリーム702のC2-1のパケットは同じタイミングで話された4ミリ秒間の音声を表し、C1-2はC1-1から遅れること4ミリ秒後のタイミングで話された4ミリ秒間の音声を表す。
 図8は、第一ミキシング部205における出力デジタル音声ストリームを生成する際の処理を表すフローチャートである。第一ミキシング部205では、まずステップ801において、受信した各デジタル音声ストリームから処理に必要な分のパケットを、それぞれバッファに格納する。本実施の形態では、例として、処理には5パケット分、すなわち20ミリ秒分のパケットが必要であるとする。
 図9A~9Dに、C1-1のパケットの直前のパケットが入力された時から、C1-5のパケットが入力された時の20ミリ秒間を処理の単位とした場合の、C1-5のパケットが入力された後に、ステップ801がループ850について実行された時の、バッファ状態を表す。各デジタル音声ストリーム用のバッファには、図9A~9Dに示すように、それぞれYY-1からYY-5までのパケットが格納されている。ここで、YYは、C1、C2、C3又はFを表すものとする。
 次に、図8におけるステップ802の処理を行うが、ステップ802の処理は生成するデジタル音声ストリーム数分だけループする。本実施の形態においては、生成するデジタル音声ストリームは、第二ミキシング部206へ出力するための通話用及びアナウンス用のデジタル音声ストリーム、並びに、デジタル音声パケット送信部209へ出力するための通話用及びアナウンス用のデジタル音声ストリームが対象となる。アナウンス用のデジタル音声ストリームは、第二ミキシング部206へ出力するもの、デジタル音声パケット送信部209へ出力するもの、両者いずれもデジタル音声ストリーム703が対象となるため、1つの出力バッファを共用することが可能である。
 なお、本実施の形態においては、キャビンハンドセット103-3からのみしかアナウンスが発生していないが、複数のキャビンハンドセット103から同時に、複数のエリアに対するアナウンスが実施される場合もある。加えて、複数の通話が同時に発生する場合も考えられる。例えば、キャビンハンドセット103-1とキャビンハンドセット103-2が2者間通話をして、キャビンハンドセット103-3とキャビンハンドセット103-4とキャビンハンドセット103-5とフライトデッキヘッドフォン102が4者間通話をする、というような場合である。
 上述の例のように、複数のアナウンスや通話が同時に実施される場合には、第一ミキシング部205で必要とするバッファ数も多くなる。ただし、音声フィードバック部208への出力、すなわち最終的にフライトデッキへの出力となるデジタル音声ストリームは、最大でも通話用とアナウンス用の2つのバッファに収まる。
 本実施の形態においては、生成するデジタル音声ストリームが3つであるため、ループ851は3回実行することとなる。まず、アナウンス用のデジタル音声ストリームに対応するループ851について説明する。アナウンス用のデジタル音声ストリームは、デジタル音声パケット送信部209と第二ミキシング部206の両者に共通となる。
 ステップ802において、アナウンス用のデジタル音声ストリームの出力バッファをクリアし、ループ852へ進む。本実施の形態においては、アナウンスはキャビンハンドセット103-3から1つだけ実行されている。従って、ステップ803においてyesとなるのはキャビンハンドセット103-3からの入力であるデジタル音声ストリーム703の場合のみである。従って、アナウンス用のデジタル音声ストリームの出力バッファには、C3-1~C3-5のパケットが格納される。
 次に、デジタル音声パケット送信部209へ出力する通話用のデジタル音声ストリームについての、ループ851の処理を述べる。まず、ステップ802において、通話(キャビン)用出力バッファをクリアする。
 次に、ループ852のループ処理を行う。本実施の形態においては、キャビンハンドセット103-1、キャビンハンドセット103-2、及びフライトデッキヘッドフォン102との間で通話が実施されているため、ステップ803でyesとなるのは、デジタル音声ストリーム701、デジタル音声ストリーム702、デジタル音声ストリーム710に対してである。これらのデジタル音声ストリームに対して、ステップ804を実行すると通話(キャビン)用出力バッファには、図9A~9DにおけるC1-1~C1-5、C2-1~C2-5、F-1~F-5のデジタル音声パケットが、それぞれミキシングされたパケットが格納される。
 ステップ804におけるミキシング処理の内容としては、様々なアルゴリズムの利用が考えられる。また、ミキシングに際して、AGC(Automatic Gain Control)や音声レベル調整などを実行することも考えられる。本発明は、ステップ804で実行するミキシング処理、更にはミキシングに際して実行するその他の音声処理の内容によらず有効である。たとえ、音声が時間圧縮されていたとしても、適切な単位、例えば該単位のデータが全て揃えば、特定期間の音声を完全に再現できるような単位、にデジタル音声パケットを定義することで、処理が可能となる。
 デジタル音声パケット送信部209へ出力する通話用のデジタル音声ストリームについての、ループ851の処理終了後、第二ミキシング部206へ出力する通話用のデジタル音声ストリームについての、ループ851の処理を実行する。まず、ステップ802において、通話(フライトデッキ)用出力バッファをクリアする。
 後述のように、第二ミキシング部206へ出力する通話用のデジタル音声ストリームには、A/D変換部202から入力されたデジタル音声ストリームは出力しない。このためステップ803でyesとなるのは、入力デジタル音声ストリームがデジタル音声ストリーム701及びデジタル音声ストリーム702の場合である。従って、2つのデジタル音声ストリームに対してステップ804の処理を実行することになる。
 以上の、デジタル音声ストリーム生成処理を実行した結果、出力バッファは図10A~10Cに示す状態となる。ここで、C1-1+C2-1+F-1は、C1-1とC2-1とF-1のデジタル音声パケットのデジタル音声をミキシングし、3つの音声が重畳されていることを表す。デジタル音声パケット分離部204は、こうして生成されたデジタル音声パケットを、第二ミキシング部206又はデジタル音声パケット送信部209へ引き渡す。
 以降、入力デジタル音声ストリームの次のパケット群、すなわち図7A~7DにおけるC1-6~C1-10、C2-6~C2-10、C3-6~C3-10、F-6~F-10、に対して同様の処理を繰り返す。
 以下に、図8のフローチャートにおけるループ851で繰り返す、生成対象となるデジタル音声ストリームの決定の仕方を詳しく述べる。
 図11は、生成対象となるデジタル音声ストリームを決定するフローチャートである。まずステップ1101において、フライトデッキ用、すなわち第二ミキシング部206へ出力するための、デジタル音声ストリーム(生成対象ストリーム(FA))を生成対象とする。この時点では、生成対象ストリーム(FA)にはどの音声も含まないものとする。
 次に、実施中の全アナウンスに対して、ループ1151の処理を実施する。ここでは、説明の便宜のために、アナウンスに順番を付け、i番目のアナウンスをアナウンス(i)と呼ぶこととする。まずステップ1102において、各アナウンスを実行しているキャビンハンドセット103(フライトデッキヘッドフォン102、フライトデッキハンドセット104でも良い)から入力されるデジタル音声ストリームを、生成対象ストリーム(i)とし、更に、生成対象ストリーム(FA)に、キャビンハンドセット103(フライトデッキヘッドフォン102、フライトデッキハンドセット104)からの入力を追加する(ステップ1103)。
 ループ1151のループ処理を完了することで、実施中のアナウンス数+1本の生成対象ストリームが決定される。例えば、アナウンス1とアナウンス2がキャビンハンドセット103-1とキャビンハンドセット103-2から実施されている場合、生成対象ストリームは、「キャビンハンドセット103-1からのストリームから成る、生成対象ストリーム(1)」と「キャビンハンドセット103-2からのストリームから成る、生成対象ストリーム(2)」と「キャビンハンドセット103-1からのストリーム及びキャビンハンドセット103-2からのストリームから成る、生成対象ストリーム(FA)」の3本の生成対象ストリームが決定される。
 ステップ1104以降では、通話用の生成対象ストリームを決定する。まず、ステップ1104でフライトデッキ用、すなわち第二ミキシング部206へ出力するための、デジタル音声ストリーム(生成対象ストリーム(FC))を生成対象とする。この時点では、生成対象ストリーム(FC)にはどの音声も含まないものとする。
 次に、実施中の全通話に対して、ループ1152の処理を実施する。ここでは、説明の便宜のために、通話に順番を付け、j番目の通話を通話(j)と呼ぶこととする。まずステップ1105において、各通話に参加しているキャビンハンドセット103(フライトデッキハンドセット104でも良い)から入力されるデジタル音声ストリーム全てを含むストリームとして、生成対象ストリーム(j)を決定する。
 次に、ステップ1106において、対象とする通話(j)が、フライトデッキヘッドフォン102を含んでいるかどうかを判定する。対象とする通話(j)が、フライトデッキヘッドフォン102を含んでいる場合にはステップ1107へ進み、含まない場合にはループ処理の先頭に戻る。
 ステップ1107においては、対象とする通話(j)に参加しているキャビンハンドセット103(フライトデッキハンドセット104でも良い)から入力されるデジタル音声ストリーム全てを、生成対象ストリーム(FC)に追加する。その後、ステップ1108で、生成対象ストリーム(j)にフライトデッキヘッドフォン102からの入力を追加する。
 ループ1152のループ処理を完了することで、実施中の通話数+1本の生成対象ストリームが決定される。例えば、通話1がキャビンハンドセット103-1とキャビンハンドセット103-2の間で、通話2がキャビンハンドセット103-3とフライトデッキヘッドフォン102との間で実施されている場合、生成対象ストリームは、「キャビンハンドセット103-1からのストリーム及びキャビンハンドセット103-2からのストリームから成る、生成対象ストリーム(1)」と「キャビンハンドセット103-3及びフライトデッキヘッドフォン102からのストリームから成る、生成対象ストリーム(2)」と「キャビンハンドセット103-3からのストリームから成る、生成対象ストリーム(FC)」の3本の生成対象ストリームが決定される。
 最後に、ステップ1109において、全く同じ入力源からなる生成対象ストリームがあればそれを1つにまとめる処理を行う。例えば、図10A~10Cで示したアナウンス用バッファがそれに該当する。なお、この処理は、本発明に影響を与えないため、必ずしも実施する必要はない。
 第一ミキシング部205は、順次、生成したデジタル音声ストリームのうち、フライトデッキに出力するための2つのストリーム「キャビンハンドセット103-1からのストリーム及びキャビンハンドセット103-2からのストリームから成る、生成対象ストリーム(1)」を第二ミキシング部206に引き渡し、残りのデジタル音声ストリームをデジタル音声パケット送信部209に引き渡す。
 第一ミキシング部205から、デジタル音声ストリームを受信した、デジタル音声パケット送信部209は、アナウンス用のデジタル音声ストリームを、放送対象エリアに属するキャビンスピーカ105へ、通話用のデジタル音声ストリームを、通話に参加しているキャビンハンドセット103へ、それぞれ送信する。
 一方、第一ミキシング部205とA/D変換部202から、それぞれデジタル音声ストリームを受信した第二ミキシング部206は、アナウンス用の出力ストリーム同士、通話用のストリーム同士を、それぞれミキシングする。以下に、第二ミキシング部206のミキシング処理の詳細について説明する。
 図12A~12Cは、第二ミキシング部206が、第一ミキシング部205から受信した通話用のデジタル音声ストリーム(通話用デジタル音声ストリーム1200)と、A/D変換部202から受信した通話用のデジタル音声ストリーム(通話用デジタル音声ストリーム1210)と、第二ミキシング部206が2つのストリームをミキシングして生成するデジタル音声ストリーム(出力デジタル音声ストリーム1220)を表す図である。
 図12A~12Cでは、通話用デジタル音声ストリーム1200と通話用デジタル音声ストリーム1210について、同じタイミングで入力されるパケットについては、x座標を同じ位置に記載している。また、C1-XXとC2-XXとF-XXは、音声制御サーバ101に入力されたタイミングが同じであることを表している。ただし、ここでXXは任意の数字を表すものとする。
 第一ミキシング部205での処理として、バッファに20ミリ秒分のデジタル音声パケットを格納し、それから12ミリ秒間かかるとすると、通話用デジタル音声ストリーム1200が第二ミキシング部206に入力されるタイミングは、通話用デジタル音声ストリーム1210が第二ミキシング部206に入力されるタイミングと比べて、8パケット分遅れる。すなわち、第二ミキシング部206にC1-1+C2-1が入力されるタイミングと、F-9が入力されるタイミングが同時になる。
 第二ミキシング部206は、これら2つのデジタル音声パケットが入力されると、単純にこれらを、1つのデジタル音声パケットにミキシングする最小限の処理のみを行う。第二ミキシング部206は、図12A~12Cの出力デジタル音声ストリーム1220に示すように、A/D変換部202から入力されたデジタル音声パケットと、第一ミキシング部205から32ミリ秒遅れて入力されたデジタル音声パケット、とを重畳したデジタル音声パケットを生成する。
 第二ミキシング部206が、生成したデジタル音声パケットを、D/A変換部207に出力すると、D/A変換部207は入力されたデジタル音声パケットをアナログ音声に変換し、音声フィードバック部208を通じてフライトデッキに、アナログ音声を送信する。
 また、第二ミキシング部206では、アナウンス用のデジタル音声ストリームに対する処理も、通話用のデジタル音声ストリームに対する処理と全く同様に行う。
 一連の処理により、それほど大きな演算能力を持たないCPU/DSPでも、フライトデッキヘッドフォン102からの音声を、大きな遅延なく、必要となるキャビンハンドセット103からの音声と重畳した音声を、フライトデッキヘッドフォン102へフィードバックすることが可能となる。
 つまり、本実施の形態では、全ての音声をミキシングしてフィードバックするよりも、フライトデッキヘッドフォンからの音声を32ミリ秒早くフィードバックすることができる。
 これにより、パイロットが、フライトデッキヘッドフォン102からの音声が確実に音声制御サーバ101に到達していることの確認と、自身の声が大きな遅延なくフィードバックされることによる違和感の軽減が可能となる。
 なお、第二ミキシング部206でも、遅延が問題にならない程度であれば、音声信号処理を実行しても良い。この際の、第二ミキシング部206の処理が負担にならないよう、第二ミキシング部206で特定の信号処理が実行される前提で、第一ミキシング部205が予め信号処理をすることも考えられる。例えば、第二ミキシング部206では、A/D変換部202から入力されたデジタル音声ストリームの音声レベルを1/nにして、第一ミキシング部205から入力されたデジタル音声ストリームと加算演算を行うだけで、適切なミキシングが完了するように調整する、等である。
 (実施の形態2)
 図13は、本発明の実施の形態2のデジタル音声通信制御装置を示すブロック図で、第二ミキシング部306がアナログミキシングを行う場合の、音声制御サーバ1300の構成を表す。
 実施の形態1と異なるところは、第二ミキシング部306が、デジタル音声ストリームではなく、アナログ音声信号をミキシングさせるようにした点である。
 このため、音声入力部201で受信したアナログ音声信号を、A/D変換部202と、第二ミキシング部306にそれぞれ送信する。また、第一ミキシング部205から送信されるデジタル音声ストリームを、D/A変換部207でアナログ音声信号に変換し、第二ミキシング部306に送信する。第二ミキシング部306では、音声入力部201からのアナログ音声信号と、D/A変換部207からのアナログ音声信号とをミキシングし、音声フィードバック部208を通じてフライトデッキに、アナログ音声を送信する。
 この場合、第二ミキシング部306が、2×2本のアナログ音声を受信して、それらをアナログ音声としてミキシングする。この際に、AGCや音声レベル調整などを行っても良い。なお、この場合のアナログ音声ミキシング処理は、CODEC(COder/DECoder)や専用のハードウェアなどで行うことも考えられる。また、この場合の第二ミキシング部306が、フライトデッキヘッドフォン102に備わるシステム構成とすることも考えられる。
 上記実施の形態においては、デジタル音声パケット送信部209が、出力対象となるキャビンハンドセット103やキャビンスピーカ105を認識して、それらに対して適切なデジタル音声ストリームを送信することとしているが、デジタル音声パケット送信部209は出力対象を選択せずに、全てのキャビンハンドセット103、キャビンスピーカ105に全デジタル音声ストリームを送信しても良い。この場合、デジタル音声ストリームを受信したキャビンハンドセット103やキャビンスピーカ105が、自身がどの通話に属しているか、どのアナウンスを放送しているか、を認識して、必要なデジタル音声ストリームを選択して再生する機能を持つものとする。
 上記実施の形態においては、アナウンス中の音声は、全てフライトデッキヘッドフォン102へフィードバックするとしているが、特定の種類のアナウンスのみをフライトデッキヘッドフォン102へフィードバックするとしても良い。例えば、アナウンスに緊急放送とバックグラウンドミュージックの2種類があるとした場合、図11におけるステップ1103の処理を、対象としているアナウンス(i)が緊急放送である場合のみ、生成対象ストリーム(FA)にCH(i)からの入力を追加する処理に代えれば良い。もちろん、アナウンスの種類が複数ある場合に、データベースなどを使ってステップ1103の処理の判断基準としても良いし、アナウンスの種類だけでなく、放送元がどのキャビンハンドセット103であるかに応じて、フライトデッキヘッドフォン102へフィードバックするかしないかを決定しても良い。
 上記実施の形態においては、航空機内のアナウンス・通話システムについて説明をしたが、もちろん本発明は、航空機内のシステムに限られるものではなく、一般のアナウンス・通話システムで用いることも可能である。
 本発明にかかるデジタル音声通信制御装置及び方法は、複数のエリアに対するアナウンス及び複数ハンドセット間の通話を、同時に複数回線実施することが要求されるシステムにおいて、話者が違和感なく離れた場所にアナウンスをしたり、複数の相手と通話をしたりすることができるようになり、特に、航空機内のアナウンス・通話システムとして有用である。
 100  機内アナウンス・通話システム
 101  音声制御サーバ
 102  フライトデッキヘッドフォン
 103  キャビンハンドセット
 104  フライトデッキハンドセット
 105  キャビンスピーカ
 201  音声入力部
 202  A/D変換部
 203  デジタル音声パケット受信部
 204  デジタル音声パケット分離部
 205  第一ミキシング部
 206  第二ミキシング部
 207  D/A変換部
 208  音声フィードバック部
 209  デジタル音声パケット送信部

Claims (19)

  1. 特定話者からの音声を入力し、第1の音声信号として出力する第一音声入力部と、
    前記特定話者以外の1人以上の話者の音声を受信し、第2の音声信号として出力する第二音声入力部と、
    前記第1の音声信号と前記第2の音声信号をミキシングして、1つ以上の第3の音声信号を生成し、出力する第一ミキシング部と、
    前記第3の音声信号のうちの1つ以上の音声信号を受信し、外部に出力する第一音声出力部と、
    前記第3の音声信号のうちの1つの音声信号と、前記第1の音声信号とをミキシングして、第4の音声信号を生成し、出力する第二ミキシング部と、
    前記第4の音声信号を外部に出力する第二音声出力部と、
    からなることを特徴とするデジタル音声通信制御装置。
  2. 前記第一音声入力部は、
    アナログ音声入力信号を受信する音声入力部と、前記アナログ音声入力信号を第1のデジタル音声ストリームに変換するA/D変換部とからなり、前記第1のデジタル音声ストリームを、前記第一ミキシング部及び前記第二ミキシング部にそれぞれ送信し、
    前記第二音声入力部は、
    1人以上の話者のデジタル音声ストリームを構成するデジタル音声パケットとデータパケットが多重化されたデジタルデータを受信し、前記デジタルデータから前記デジタル音声パケットのみを抽出し、出力するデジタル音声パケット受信部と、
    前記デジタル音声パケット受信部からデジタル音声パケットを受信し、話者ごとのデジタル音声パケットに分離し、話者ごとの第2のデジタル音声ストリームを構築するデジタル音声パケット分離部とからなり、
    前記デジタル音声パケット分離部が構築した第2のデジタル音声ストリームを、前記第一ミキシング部に送信し、
    前記第一ミキシング部は、
    前記第一音声入力部から受信した前記第1のデジタル音声ストリームと、前記第二音声入力部から受信した前記第2のデジタル音声ストリームとをミキシングして、1つ以上の第3のデジタル音声ストリームを出力し、
    前記第一音声出力部は、
    前記第一ミキシング部から1つ以上の第3のデジタル音声ストリームを受信し、前記第3のデジタル音声ストリームを多重化したデジタルデータを生成し、前記デジタルデータを出力するデジタル音声パケット送信部からなり、
    前記第二ミキシング部は、
    前記第3のデジタル音声ストリームのうちの1つのデジタル音声ストリームを受信し、前記第1のデジタル音声ストリームとミキシングして、第4のデジタル音声ストリームを出力し、
    前記第二音声出力部は、
    前記第二ミキシング部から第4のデジタル音声ストリームを受信し、前記第4のデジタル音声ストリームをアナログ音声出力信号に変換するD/A変換部と、前記アナログ音声出力信号を出力する音声フィードバック部とからなり、前記音声フィードバック部は、前記アナログ音声出力信号を出力する、
    ことを特徴とする請求項1記載のデジタル音声通信制御装置。
  3. 前記第一ミキシング部は、
    前記第1のデジタル音声ストリームと、前記第2のデジタル音声ストリームのうち特定条件を満たす1つ以上のデジタル音声ストリームとをミキシングした前記第3のデジタル音声ストリームを1つ以上生成し、前記第3のデジタル音声ストリームのうちの1つのデジタル音声ストリームを、前記第二ミキシング部へ出力し、他の前記第3のデジタル音声ストリームを前記デジタル音声パケット送信部へ出力し、
    前記第二ミキシング部は、
    前記第1のデジタル音声ストリームと、前記第一ミキシング部から受信した1つのデジタル音声ストリームとをミキシングした、前記第4のデジタル音声ストリームを生成し、前記音声フィードバック部へ出力する、
    ことを特徴とする請求項2記載のデジタル音声通信制御装置。
  4. 前記第一ミキシング部が生成し、前記第二ミキシング部へ出力する前記第3のデジタル音声ストリームは、前記第1のデジタル音声ストリームを含まない、
    ことを特徴とする請求項2記載のデジタル音声通信制御装置。
  5. 前記第一ミキシング部は、複数のデジタル音声ストリームのミキシングを行う際に、音声レベルやゲイン調整を行い、
    前記第二ミキシング部は、前記第一ミキシング部に比較して小さなサイズのバッファを利用して、2つのデジタル音声ストリームのミキシングに必要な処理のみを行う、
    ことを特徴とする請求項2記載のデジタル音声通信制御装置。
  6. 前記音声入力部と、前記A/D変換部と、前記D/A変換部と、前記音声フィードバック部は、
    複数のアナログ音声信号又は複数の前記第4のデジタル音声ストリームに対して、それぞれ独立して処理を行い、
    前記第二ミキシング部は、
    それぞれが2つのデジタル音声ストリームからなる複数の複数の前記第1および前記第3のデジタル音声ストリームに対して、それぞれ独立して処理を行う、
    ことを特徴とする請求項2記載のデジタル音声通信制御装置。
  7. 前記A/D変換部と、前記D/A変換部と、前記音声フィードバック部が扱うアナログ音声信号又はデジタル音声ストリームはそれぞれ2つであって、
    前記第二ミキシング部が扱うミキシング対象デジタル音声ストリームの組は2つであって、
    そのうちの1つのデジタル音声ストリームは、アナウンス用に用い、残りの1つのデジタル音声ストリームは通話用に用いる、
    ことを特徴とする請求項6記載のデジタル音声通信制御装置。
  8. 前記第一音声入力部は、
    アナログ音声入力信号を受信する音声入力部と、前記アナログ音声入力信号を第1のデジタル音声ストリームに変換するA/D変換部とからなり、前記第1のデジタル音声ストリームを前記第一ミキシング部に、前記アナログ音声入力信号を前記第二ミキシング部にそれぞれ送信し、
    前記第二音声入力部は、
    1人以上の話者のデジタル音声ストリームを構成するデジタル音声パケットとデータパケットが多重化されたデジタルデータを受信し、前記デジタルデータから前記デジタル音声パケットのみを抽出し、出力するデジタル音声パケット受信部と、
    前記デジタル音声パケット受信部からデジタル音声パケットを受信し、話者ごとのデジタル音声パケットに分離し、話者ごとの第2のデジタル音声ストリームを構築するデジタル音声パケット分離部とからなり、
    前記デジタル音声パケット分離部が構築した第2のデジタル音声ストリームを、前記第一ミキシング部に送信し、
    前記第一ミキシング部は、
    前記第一音声入力部から受信した前記第1のデジタル音声ストリームと、前記第二音声入力部から受信した前記第2のデジタル音声ストリームとをミキシングして、1つ以上の第3のデジタル音声ストリームを出力し、
    前記第一音声出力部は、
    前記第一ミキシング部から1つ以上の第3のデジタル音声ストリームを受信し、前記第3のデジタル音声ストリームを多重化したデジタルデータを生成し、前記デジタルデータを出力するデジタル音声パケット送信部からなり、
    前記第二ミキシング部は、
    前記第3のデジタル音声ストリームのうちの1つのデジタル音声ストリームがD/A変換部により変換されたアナログ音声変換信号を受信し、前記アナログ音声入力信号とミキシングして、アナログ音声出力信号を出力し、
    前記第二音声出力部は、
    音声フィードバック部を有し、前記音声フィードバック部は、前記アナログ音声出力信号を出力する、
    ことを特徴とする請求項1記載のデジタル音声通信制御装置。
  9. 前記第一ミキシング部は、
    前記第1のデジタル音声ストリームと、前記第2のデジタル音声ストリームのうち特定条件を満たす1つ以上のデジタル音声ストリームとをミキシングした前記第3のデジタル音声ストリームを1つ以上生成し、前記第3のデジタル音声ストリームのうちの1つのデジタル音声ストリームを、前記D/A変換部によりD/A変換してアナログ音声変換信号として前記第二ミキシング部へ出力し、他の前記第3のデジタル音声ストリームを前記デジタル音声パケット送信部へ出力し、
    前記第二ミキシング部は、
    前記アナログ音声入力信号と、前記D/A変換部から受信したアナログ音声変換信号とをミキシングした、前記アナログ音声出力信号を生成し、前記音声フィードバック部へ出力する、
    ことを特徴とする請求項8記載のデジタル音声通信制御装置。
  10. 前記第一ミキシング部が生成し、前記D/A変換部へ出力する前記第3のデジタル音声ストリームは、前記第1のデジタル音声ストリームを含まない、
    ことを特徴とする請求項8記載のデジタル音声通信制御装置。
  11. 前記第一ミキシング部は、複数のデジタル音声ストリームのミキシングを行う際に、音声レベルやゲイン調整を行い、
    前記第二ミキシング部は、前記第一ミキシング部に比較して小さなサイズのバッファを利用して、2つのデジタル音声ストリームのミキシングに必要な処理のみを行う、
    ことを特徴とする請求項8記載のデジタル音声通信制御装置。
  12. 前記音声入力部と、前記A/D変換部と、前記D/A変換部と、前記音声フィードバック部は、
    複数のアナログ音声入力信号又は複数の前記アナログ音声出力信号に対して、それぞれ独立して処理を行い、
    前記第二ミキシング部は、
    それぞれが2つのアナログ音声信号からなる複数の前記アナログ音声出力信号および前記アナログ音声変換信号に対して、それぞれ独立して処理を行う、
    ことを特徴とする請求項8記載のデジタル音声通信制御装置。
  13. 前記A/D変換部と、前記D/A変換部と、前記音声フィードバック部が扱うアナログ音声入力信号又はアナログ音声変換信号又はアナログ音声出力信号はそれぞれ2つであって、
    そのうちの1つの前記アナログ音声入力信号又は前記アナログ音声変換信号又は前記アナログ音声出力信号は、アナウンス用に用い、残りの1つのデジタル音声ストリームは通話用に用いる、
    ことを特徴とする請求項12記載のデジタル音声通信制御装置。
  14. 前記第一ミキシング部が生成するデジタル音声ストリームを決定する際の特定条件は、発生中のそれぞれのエリアに対するアナウンスで用いるデジタル音声ストリーム、及び発生中の通話に参加している全人員のデジタル音声ストリーム、及び発生中の全エリアのアナウンスに用いるデジタル音声ストリーム、及び特定話者が参加中の通話に参加している全人員から特定話者を除いた人員のデジタル音声ストリーム、を対象とする、
    ことを特徴とする請求項3又は請求項9記載のデジタル音声通信制御装置。
  15. 前記第一ミキシング部が生成するデジタル音声ストリームを決定する際の特定条件は、発生中のそれぞれのエリアに対するアナウンスで用いるデジタル音声ストリーム、及び発生中の通話に参加している全人員のデジタル音声ストリーム、及び発生中の全エリアのアナウンスのうち、事前に特定話者に転送すると定義されたアナウンスに用いるデジタル音声ストリーム、及び特定話者が参加中の通話に参加している全人員から特定話者を除いた人員のデジタル音声ストリーム、を対象とする、
    ことを特徴とする請求項3又は請求項9記載のデジタル音声通信制御装置。
  16. 航空機や電車等の乗り物に装備し、アナウンス機能、通話機能を提供する、
    ことを特徴とする請求項7又は請求項13記載のデジタル音声通信制御装置。
  17. 音声入力部及び音声フィードバック部は、フライトデッキ席又は運転士席の特定話者との音声入出力に使用する、
    ことを特徴とする請求項16記載のデジタル音声通信制御装置。
  18. 特定話者からのアナログ音声信号を受信する音声入力ステップと、
    前記アナログ音声信号を第1のデジタル音声ストリームに変換するA/D変換ステップと、
    前記特定話者以外の1人以上の話者のデジタル音声ストリームを構成するデジタル音声パケットとデータパケットが多重化されたデジタルデータを受信し、前記デジタルデータから前記デジタル音声パケットのみを抽出するデジタル音声パケット受信ステップと、
    前記デジタル音声パケット受信ステップで抽出したデジタル音声パケットを、話者ごとのデジタル音声パケットに分離し、話者ごとの第2のデジタル音声ストリームを構築するデジタル音声パケット分離ステップと、
    前記第1のデジタル音声ストリームと前記第2のデジタル音声ストリームとをミキシングし、第3のデジタル音声ストリームを1つ以上生成する、第一ミキシングステップと、
    前記第1のデジタル音声ストリームと前記第3のデジタル音声ストリームのうちの1つのデジタル音声ストリームとをミキシングし、第4の出力デジタル音声ストリームを生成する、第二ミキシングステップと、
    前記第一ミキシングステップで生成した、1つ以上の前記第3のデジタル音声ストリームを多重化し、装置外部へ出力するデジタル音声パケット送信ステップと、
    前記第二ミキシングステップで生成した、前記第4のデジタル音声ストリームをアナログ音声信号に変換するD/A変換ステップと、
    前記D/A変換ステップで変換した前記アナログ音声信号を、装置外部に出力する音声フィードバックステップと、
    からなることを特徴とするデジタル音声通信制御方法。
  19. 前記音声入力ステップと、前記A/D変換ステップと、前記D/A変換ステップと、前記音声フィードバックステップは、
    複数のアナログ音声信号又は複数の前記第4のデジタル音声ストリームに対して、それぞれ独立して処理を行い、
    前記第二ミキシングステップは、
    それぞれが2つのデジタル音声ストリームからなる複数の前記第1および前記第3のデジタル音声ストリームに対して、それぞれ独立して処理を行い、
    前記複数のアナログ音声信号又は複数の前記第4のデジタル音声ストリーム又は複数の前記第1および前記第3のデジタル音声ストリームのうち、少なくとも1つはアナウンス用に用い、少なくとも1つは通話用に用いる、
    ことを特徴とする請求項18記載のデジタル音声通信制御方法。
PCT/JP2010/003002 2009-04-30 2010-04-27 デジタル音声通信制御装置及び方法 WO2010125802A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/266,323 US8775170B2 (en) 2009-04-30 2010-04-27 Digital voice communication control device and method
JP2011511310A JPWO2010125802A1 (ja) 2009-04-30 2010-04-27 デジタル音声通信制御装置及び方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009-110529 2009-04-30
JP2009110529 2009-04-30

Publications (1)

Publication Number Publication Date
WO2010125802A1 true WO2010125802A1 (ja) 2010-11-04

Family

ID=43031960

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/003002 WO2010125802A1 (ja) 2009-04-30 2010-04-27 デジタル音声通信制御装置及び方法

Country Status (3)

Country Link
US (1) US8775170B2 (ja)
JP (1) JPWO2010125802A1 (ja)
WO (1) WO2010125802A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103036689A (zh) * 2011-10-10 2013-04-10 徐州超伟电子设备制造有限公司 一种rds数据信号差转技术
JP2020053836A (ja) * 2018-09-27 2020-04-02 アイコム株式会社 中継装置
JP2020053834A (ja) * 2018-09-27 2020-04-02 アイコム株式会社 中継装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012151725A (ja) * 2011-01-20 2012-08-09 Funai Electric Co Ltd シンク機器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001203815A (ja) * 2000-01-18 2001-07-27 Matsushita Electric Ind Co Ltd ディジタル構内交換装置
US7006617B1 (en) * 1997-01-07 2006-02-28 Nortel Networks Limited Method of improving conferencing in telephony
JP2006203548A (ja) * 2005-01-20 2006-08-03 Yamaha Corp 複数話者の音声信号を処理する音声信号処理装置およびプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07202888A (ja) 1993-10-23 1995-08-04 Internatl Business Mach Corp <Ibm> 音声通信装置
US6404873B1 (en) * 1998-12-01 2002-06-11 Siemens Information And Communication Networks, Inc. Subconference calling in a telephony-over-LAN environment
US6813360B2 (en) * 2002-01-22 2004-11-02 Avaya, Inc. Audio conferencing with three-dimensional audio encoding
US20060062366A1 (en) * 2004-09-22 2006-03-23 Siemens Information And Communication Networks, Inc. Overlapped voice conversation system and method
US20080260132A1 (en) * 2007-04-20 2008-10-23 Browan Communications, Inc. Low bandwidth but high capacity telephone conference system
EP2250641B1 (en) * 2008-03-04 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for mixing a plurality of input data streams
US8185387B1 (en) * 2011-11-14 2012-05-22 Google Inc. Automatic gain control

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7006617B1 (en) * 1997-01-07 2006-02-28 Nortel Networks Limited Method of improving conferencing in telephony
JP2001203815A (ja) * 2000-01-18 2001-07-27 Matsushita Electric Ind Co Ltd ディジタル構内交換装置
JP2006203548A (ja) * 2005-01-20 2006-08-03 Yamaha Corp 複数話者の音声信号を処理する音声信号処理装置およびプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103036689A (zh) * 2011-10-10 2013-04-10 徐州超伟电子设备制造有限公司 一种rds数据信号差转技术
CN103036689B (zh) * 2011-10-10 2016-12-28 徐州超伟电子股份有限公司 一种rds数据信号差转装置
JP2020053836A (ja) * 2018-09-27 2020-04-02 アイコム株式会社 中継装置
JP2020053834A (ja) * 2018-09-27 2020-04-02 アイコム株式会社 中継装置
JP7096490B2 (ja) 2018-09-27 2022-07-06 アイコム株式会社 中継装置
JP7152658B2 (ja) 2018-09-27 2022-10-13 アイコム株式会社 中継装置

Also Published As

Publication number Publication date
JPWO2010125802A1 (ja) 2012-10-25
US8775170B2 (en) 2014-07-08
US20120046941A1 (en) 2012-02-23

Similar Documents

Publication Publication Date Title
US7245710B1 (en) Teleconferencing system
US20150120305A1 (en) Speech communication system for combined voice recognition, hands-free telephony and in-car communication
EP1869793B1 (en) A communication apparatus
WO2008113269A1 (fr) Procédé et dispositif pour réaliser une conversation privée dans une session multipoint
EP2939384B1 (en) Audio stream arrangement
WO2010125802A1 (ja) デジタル音声通信制御装置及び方法
CN216886473U (zh) 一种车载音频系统
EP1646215A1 (en) Stereo mobile terminal and method for calling using the stereo mobile terminal
US20230367817A1 (en) Real-time voice processing
JP2013031160A (ja) Avコンテンツ視聴システム
US5233663A (en) Simultaneous interpretation system
CN101658050A (zh) 用于通信应用的记录、传输和再现声事件的方法和装置
EP3745695B1 (en) Electronic collaboration and communication method and system to facilitate communication with hearing or speech impaired participants
JP4804014B2 (ja) 音声会議装置
WO2009060798A1 (ja) 音声通信装置
CN110891216A (zh) 一种耳机装置
US10136229B2 (en) Binaural segregation of wireless accessories
CN110856068B (zh) 一种耳机装置的通话方法
JPH04185156A (ja) 同時通訳用通信装置
US7796764B2 (en) Method and device for reproducing a binaural output signal generated from a monaural input signal
CN213426466U (zh) 一种基于车载以太网的智能隔离声区装置
JP2006237841A (ja) 音声会議システム及び話者特定用処理装置
US11425258B2 (en) Audio conferencing in a room
CN113079267B (zh) 房间内的音频会议
JP2007318273A (ja) 音声会議装置および音声会議システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10769502

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2011511310

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 13266323

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10769502

Country of ref document: EP

Kind code of ref document: A1