WO2016043182A1 - 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム - Google Patents

音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム Download PDF

Info

Publication number
WO2016043182A1
WO2016043182A1 PCT/JP2015/076121 JP2015076121W WO2016043182A1 WO 2016043182 A1 WO2016043182 A1 WO 2016043182A1 JP 2015076121 W JP2015076121 W JP 2015076121W WO 2016043182 A1 WO2016043182 A1 WO 2016043182A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
detection
termination
input signal
detection device
Prior art date
Application number
PCT/JP2015/076121
Other languages
English (en)
French (fr)
Inventor
翔子 宮森
舘森 三慶
上野 晃嗣
Original Assignee
株式会社東芝
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社東芝 filed Critical 株式会社東芝
Publication of WO2016043182A1 publication Critical patent/WO2016043182A1/ja
Priority to US15/391,143 priority Critical patent/US10210886B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Definitions

  • Embodiments of the present invention relate to a speech segment detection system, a speech start detection device, a speech termination detection device, a speech segment detection method, a speech start detection method, a speech termination detection method, and a program.
  • a system that performs a predetermined process in a server device on speech input to a client terminal such as a server / client type speech recognition system
  • the client terminal executes processing for detecting a voice section that is a part of voice spoken by a person from an input signal, and the detected voice section Only the signal is transmitted to the server device.
  • the client terminal since the client terminal has limited resources as compared with the server device, detection of the voice section at the client terminal often cannot obtain sufficient accuracy, and there is a concern that voice transmission may be lost. For this reason, it is desired to construct a new mechanism that can suppress voice transmission leakage while reducing the amount of communication.
  • the problem to be solved by the present invention is a voice section detection system, a voice start end detection apparatus, a voice end detection apparatus, a voice end detection method, a voice start end detection method, a voice, and the like, capable of suppressing the transmission omission of voice while reducing the traffic.
  • An end detection method and program are provided.
  • the voice section detection system of the embodiment includes a voice start end detection device and a voice end detection device that are communicably connected.
  • the voice start end detection device includes a first detection unit, a first transmission unit, and a first reception unit
  • the voice end detection device includes a second reception unit, a second detection unit, and a second transmission.
  • the first detection unit detects a start end of a speech section from an input signal input in time series. When the first transmission end is detected, the first transmission unit transmits the input signal after the first transmission end to the voice termination detection device.
  • the first receiving unit receives a termination detection signal indicating that the termination of the voice section has been detected from the voice termination detection device.
  • the second receiving unit receives the input signal after the start end from the sound start end detection device.
  • the second detection unit detects the end of the voice interval from the received input signal.
  • the second transmission unit transmits the termination detection signal to the voice start edge detection device when the termination is detected.
  • the first transmitter stops transmitting the input signal when
  • the speech section detection system includes a signal including audio input in time series from an input device such as a microphone (hereinafter referred to as input) in cooperation with an audio start end detection device and an audio end detection device that are communicably connected.
  • a voice section is detected from the signal).
  • the voice start end detection device performs processing for detecting the start end of the voice section (hereinafter referred to as the voice start end) from the input signal.
  • the voice start end When the voice start end is detected, the subsequent input signal is transmitted to the voice end detection device.
  • the voice end detection device detects the end of the voice section (hereinafter referred to as voice end) with respect to the input signal received from the voice start end detection device, that is, the input signal after the voice start end detected by the voice start end detection device.
  • voice end detection signal is transmitted to the voice start end detecting device.
  • the speech start detection device stops transmission of the input signal to the speech termination detection device.
  • the voice section detection system of the embodiment can be realized as a server-client type system in which the voice start edge detection device is a client terminal and the voice end detection device is a server device, for example.
  • the client terminal is configured as, for example, a personal computer in which an external microphone is connected to an external connection terminal, a mobile phone with a built-in microphone, a smartphone, a tablet terminal, or a terminal for a video conference (video conference) system.
  • a device having a function of connecting to a communication network such as a video conference terminal can be used.
  • These devices used as client terminals have resources for realizing a normal computer system such as a processor and a memory.
  • the device by executing a predetermined program on the computer system, the device functions as a voice start edge detection device.
  • the server device is a server computer built on a communication network, and includes resources for realizing a normal computer system such as a processor and a memory.
  • the server device executes a predetermined program on the computer system, thereby A function as a terminal detection device is realized.
  • the server device that implements the function of the voice termination detection device may be a virtual machine that operates on the cloud system.
  • the voice from the input signal at the client terminal is reduced in order to reduce the amount of communication from the client terminal to the server device.
  • a start end and a voice end point are detected (that is, a voice section is detected), and a signal of the detected voice section is transmitted to the server device. Therefore, the signal of the voice section transmitted from the client terminal to the server device is determined by the processing in the client device.
  • the client terminal since the client terminal has limited resources as compared with the server device, detection of a voice section in the client terminal often cannot obtain sufficient accuracy. For this reason, the voice portion of the input signal may be erroneously determined not to be a voice section, and there is a concern that voice transmission leakage may occur.
  • a speech section is detected by the cooperation of the speech start end detection device and the speech end detection device, and at least a signal including this speech section is detected from the speech start end detection device. Sent to the device.
  • the voice end point detection device with sufficient resources compared to the voice start point detection device performs the voice end point detection with high accuracy and feeds back the result to the voice start point detection device.
  • the range of signals transmitted to the device is determined. Therefore, according to the speech section detection system of the embodiment, it is possible to effectively suppress the voice transmission omission while reducing the communication amount from the speech start end detection device to the speech end detection device.
  • the signal of the voice section detected by the voice section detection system of the embodiment can be used for various purposes. For example, when the speech segment detection system of the embodiment is applied to a server / client type speech recognition system, speech recognition processing is executed by the server device on the signal of the detected speech segment, and the text data of the recognition result Is sent to the client terminal. Further, when the voice segment detection system of the embodiment is applied to a server / client type voice storage system, the signal of the detected voice segment is stored in the server device as recording data. Moreover, the signal of the voice section detected by the voice section detection system can be transmitted to another application server for use.
  • the voice section detection system of the embodiment When the voice section detection system of the embodiment is realized as a server / client type system, a large number of voice start end detection devices can be connected to the voice end detection device.
  • the voice end detection device performs processing in parallel for each connected voice start end detection device.
  • the voice end detection device can perform device authentication and management of the voice start end detection device using unique identification information given in advance to the voice start end detection device.
  • FIG. 1 is a block diagram illustrating a configuration example of a speech segment detection system according to the first embodiment.
  • the speech segment detection system of this embodiment includes a speech start detection device 10 and a speech termination detection device 20 that are communicably connected via a communication network NT.
  • the voice start edge detection device 10 includes an input control unit 11, a first detection unit 13, a first transmission unit 14, and a first reception unit 15.
  • the input control unit 11 is in a state of detection of the current voice section, that is, a state in which neither a voice start end nor a voice end is detected, or a voice start end is detected but a voice end is not detected. And controls the flow of input signals input in time series from an input device such as a microphone according to the state.
  • the input signal is not limited to a signal input from an input device such as a microphone.
  • the input signal may be a signal obtained by reading recorded data in a program.
  • the input control unit 11 passes the input signal to the first detection unit 13 when the detection state of the current voice section is a state in which neither the voice start end nor the voice end is detected. Further, the input control unit 11 passes the input signal to the first transmission unit 14 when the current voice section detection state is a state where the voice start end is detected but the voice end is not detected. The input control unit 11 stops supplying the input signal to the first transmission unit 14 when recognizing that the voice end is detected by a later-described end detection signal. Then, when the detection of a new voice section is started, such as when detection of a subsequent voice section is requested, the input signal is again passed to the first detection unit 13 assuming that the voice start end has not been detected.
  • the first detection unit 13 executes a process of detecting the voice start end from the input signal passed from the input control unit 11.
  • a method with a relatively low processing load may be adopted among various methods known as a method for detecting a speech section.
  • a method of detecting the voice start end by comparing the power of the input signal with a threshold can be used.
  • the information transmitted to the input control unit 11 when the first detection unit 13 detects the voice start end preferably includes information indicating the position (start end position) of the detected voice start end on the time axis. . Thereby, it is possible to make the input control unit 11 recognize the starting end position.
  • the 1st transmission part 14 transmits the input signal passed from the input control part 11 to the audio
  • the input control unit 11 passes an input signal after the detected voice start end to the first transmission unit 14. Accordingly, the first transmission unit 14 transmits the input signal after the voice start end detected by the first detection unit 13 to the voice end detection device 20.
  • the first receiver 15 receives a termination detection signal transmitted from the voice termination detector 20 via the communication network NT.
  • the termination detection signal is transmitted when the speech termination is detected by the speech termination detection device 20.
  • the first reception unit 15 receives this and passes it to the input control unit 11.
  • the input control unit 11 recognizes that the voice end has been detected based on the end detection signal.
  • the input control unit 11 recognizes that the voice termination has been detected, the supply of the input signal from the input control unit 11 to the first transmission unit 14 is stopped. Accordingly, when the first receiving unit 15 receives the termination detection signal transmitted from the voice termination detection device 20, the first transmission unit 14 stops transmitting the input signal to the voice termination detection device 20.
  • the voice termination detection device 20 includes a second reception unit 21, a second detection unit 22, and a second transmission unit 23.
  • the second receiver 21 receives an input signal transmitted from the voice start edge detection device 10 via the communication network NT.
  • the input signal transmitted from the voice start end detection device 10 is the input signal after the voice start end detected by the first detection unit 13 among the input signals input to the voice start end detection device 10 in time series. It is.
  • the second receiving unit 21 receives an input signal after the voice start end from the voice start end detection device 10. The input signal received by the second receiver 21 is passed to the second detector 22.
  • the second detection unit 22 executes processing for detecting a voice termination from the input signal received by the second reception unit 21.
  • the processing executed by the second detection unit 22 has a larger processing load than the method used by the first detection unit 13 of the voice start edge detection device 10 among various methods known as the voice section detection method.
  • a method with high detection accuracy may be adopted. For example, after filtering the input signal to remove noise, the signal power is compared with the threshold value to detect the voice termination, and the feature value calculated from the frequency characteristics of the voice, acoustic model, etc.
  • a method of detecting the end of speech using can be used.
  • the voice end detection device 20 is assumed to be realized by a server device having sufficient resources and high processing capability, high-precision detection by such a method with a high processing load is appropriately (substantially) Without incurring significant delay).
  • the second detection unit 22 detects the voice termination, the information is transmitted to the second transmission unit 23.
  • the second transmitter 23 When the second detector 22 detects the voice end, the second transmitter 23 generates a terminal detection signal indicating that the voice end has been detected, and the second transmitter 23 transmits the terminal detection signal via the communication network NT. It transmits to the starting edge detection apparatus 10. At this time, it is desirable that the second transmission unit 23 generates a termination detection signal including time information for specifying a position (termination position) on the time axis of the voice termination detected by the second detection unit 22. For example, the second transmission unit 23 acquires a relative time indicating the time of the end position with reference to the voice start end that is the head of the input signal received by the second reception unit 21 from the second detection unit 22, and the relative time Is generated as a time information.
  • the second transmitter 23 acquires the time stamp corresponding to the end position from the second detector 22, and An end detection signal in which a time stamp is embedded as time information may be generated.
  • a termination detection signal including such time information By transmitting a termination detection signal including such time information to the voice start edge detection device 10, it is possible to notify the voice start edge detection device 10 of the termination position.
  • the voice start edge detection device 10 First, input of an input signal to the voice start edge detection device 10 is started. At this time, since the voice start end is not detected, the input signal is passed to the first detection unit 13 and processing for detecting the voice start end is performed. When the first detection unit 13 detects the voice start end, an input signal after the voice start end is transmitted from the first transmission unit 14 to the voice end detection device 20.
  • the voice termination detection device 20 when the second receiving unit 21 receives an input signal after the voice starting point, the input signal is passed to the second detection unit 22 to perform processing for detecting the voice termination. Then, when the voice end is detected by the second detection unit 22, the end detection signal is transmitted from the second transmission unit 23 to the voice start end detection device 10. When the first receiving unit 15 of the voice start end detection device 10 receives this end detection signal, the transmission of the input signal from the first transmission unit 14 to the voice end detection device 20 is stopped.
  • FIG. 2 is a flowchart illustrating an example of a processing procedure in the voice start edge detection device 10. A series of processes shown in the flowchart of FIG. 2 is started when an input signal is input to the voice start edge detection device 10.
  • the input control unit 11 determines whether or not the voice start edge is in an undetected state (step S101), and if the voice start edge has been detected. (Step S101: No), the input signal is passed to the first transmitter 14. In this case, the process proceeds to step S104. On the other hand, if the voice start end is not detected (step S101: Yes), the input control unit 11 passes the input signal to the first detection unit 13. In this case, the 1st detection part 13 performs the process which detects an audio
  • the input control unit 11 determines whether or not the voice start end is detected by the first detection unit 13 (step S103).
  • step S103: No the input control unit 11 continues to supply the input signal to the first detection unit 13.
  • step S103: Yes the input control unit 11 continues to supply the input signal to the first detection unit 13.
  • step S103: Yes the input control unit 11 passes an input signal after the detected voice start end to the first transmission unit 14. In this case, the process proceeds to step S104.
  • step S104 the first transmission unit 14 transmits the input signal passed from the input control unit 11 to the voice termination detection device 20 via the communication network NT.
  • the input signal after the voice start end detected by the first detection unit 13 is transmitted to the voice end detection device 20.
  • the input control unit 11 determines whether or not the first receiving unit 15 has received a termination detection signal transmitted from the voice termination detection device 20 (step S105).
  • the input control unit 11 continues to supply the input signal to the first transmission unit 14.
  • the transmission process of the input signal by the 1st transmission part 14 of step S104 is continued.
  • the first reception unit 15 receives the termination detection signal (step S105: Yes)
  • the supply of the input signal from the input control unit 11 to the first transmission unit 14 is stopped, so that the first transmission unit 14 Transmission of the input signal to the voice end detection device 20 is stopped, and a series of processing ends.
  • FIG. 3 is a flowchart illustrating an example of a processing procedure in the voice termination detection apparatus 20.
  • the series of processes shown in the flowchart of FIG. 3 is repeatedly executed every time an input signal is transmitted from the voice start end detection device 10 to the voice end detection device 20.
  • the second reception unit 21 receives the input signal (step S201) and passes it to the second detection unit 22.
  • the 2nd detection part 22 performs the process which detects an audio
  • terminus is not detected by the 2nd detection part 22 (step S203: No)
  • a process will be complete
  • the second transmission unit 23 when the voice end is detected by the second detection unit 22 (step S203: Yes), the second transmission unit 23 generates a termination detection signal and transmits it to the voice start end detection device 10 (step S204).
  • the input speech after the speech start end detected by the speech start end detection device 10 is transmitted to the speech end detection device 20.
  • the voice end detection device 20 detects the voice end from this input signal, transmission of the input signal from the voice start end detection device 10 to the voice end detection device 20 is stopped. Therefore, according to this voice section detection system, it is possible to effectively suppress voice transmission leakage while reducing the amount of communication from the voice start end detection device 10 to the voice end detection device 20.
  • the voice start end detection device also detects the voice end, and when the voice end is detected, the transmission of the input signal to the voice end detection device is interrupted.
  • the voice termination detection device performs processing for detecting the voice termination on the input signal received from the voice start edge detection device as in the first embodiment, but when the voice termination is not detected from the received input signal, Requests the voice start end detection device to resume transmission of the input signal. Then, in response to a request from the voice end detection device, the voice start end detection device transmits an input signal after the point of interruption to the voice end detection device. Thereby, the communication amount from the voice start end detection device to the voice end detection device can be further reduced as compared with the first embodiment.
  • FIG. 4 is a block diagram illustrating a configuration example of the speech segment detection system according to the second embodiment.
  • the voice segment detection system of the present embodiment includes a voice start end detection device 30 and a voice end detection device 40 that are communicably connected via a communication network NT.
  • the voice start end detection device 30 includes an input control unit 31, an input buffer 32, a first detection unit 33, a first transmission unit 34, and a first reception unit 35.
  • the input buffer 32 is a buffer in which input signals input in time series from an input device such as a microphone are sequentially stored.
  • the input control unit 31 controls the flow of input signals input in time series from an input device such as a microphone, according to the detection state of the current voice section, similarly to the input control unit 11 of the first embodiment. However, the input control unit 31 according to the present embodiment continues to pass the input signal to the first detection unit 33 even after the first detection unit 33 detects the voice start end. After that, when the voice termination is detected by the first detection unit 33, the supply of the input signal to the first transmission unit 34 is stopped, and the transmission of the input signal from the first transmission unit 34 to the voice termination detection device 40 is interrupted.
  • the input control unit 31 of the present embodiment extracts an input signal after the point of time when transmission is interrupted from the input buffer 32, and the first transmission unit 34. And the transmission of the input signal from the first transmitter 34 to the voice termination detector 40 is resumed.
  • the first detection unit 33 includes a start end detection unit 33a and an end detection unit 33b. Similarly to the first detection unit 13 of the first embodiment, the start end detection unit 33a executes a process of detecting the voice start end from the input signal passed from the input control unit 31. The end detection unit 33b executes processing for detecting a voice end from the input signal passed from the input control unit 31. As a process performed by the start end detection unit 33a and the end detection unit 33b, a detection method similar to that of the first detection unit 13 of the first embodiment can be used.
  • the start end detection unit 33a detects the voice start end
  • information indicating the start end position is transmitted to the input control unit 31.
  • the termination detection unit 33b detects the voice termination, information indicating the termination position is transmitted to the input control unit 31.
  • the first transmission unit 34 includes an input signal transmission unit 34a and a message transmission unit 34b. Similarly to the first transmission unit 14 of the first embodiment, the input signal transmission unit 34a transmits the input signal passed from the input control unit 31 to the voice termination detection device 40 via the communication network NT.
  • the message transmission unit 34b interrupts transmission of the input signal when the supply of the input signal from the input control unit 31 is stopped due to the end of the voice detected by the end detection unit 33b of the first detection unit 33. A transmission interruption message indicating this is generated, and this transmission interruption message is transmitted to the voice termination detection device 40 via the communication network NT.
  • the first receiver 35 has a detection signal receiver 35a and a request receiver 35b.
  • the detection signal receiving unit 35a receives the termination detection signal transmitted from the voice termination detection device 40 via the communication network NT, similarly to the first reception unit 15 of the first embodiment.
  • the request receiver 35b receives a transmission resumption request transmitted from the voice termination detection device 40 via the communication network NT. As will be described later, the transmission restart request is transmitted when the voice termination is not detected from the input signal received by the voice termination detection device 40.
  • the request reception unit 35 b receives this and passes it to the input control unit 31.
  • the input control unit 31 Upon receiving this transmission resumption request, the input control unit 31 resumes the supply of the input signal to the first transmission unit 34 that has been stopped, takes out the input signal after the point at which the transmission is interrupted, and takes out the input signal from the input buffer 32. 1 is sent to the transmitter 34. Thereby, the transmission of the input signal from the input signal transmitting unit 34a of the first transmitting unit 34 to the voice termination detecting device 40 is resumed.
  • the voice termination detection device 40 includes a second reception unit 41, a second detection unit 42, and a second transmission unit 43, as shown in FIG.
  • the second receiver 41 includes an input signal receiver 41a and a message receiver 41b.
  • the input signal receiving unit 41a receives an input signal transmitted from the voice start edge detection device 30 via the communication network NT, similarly to the second receiving unit 21 of the first embodiment.
  • the input signal received by the input signal receiving unit 41 a is passed to the second detection unit 42.
  • the message receiver 41b receives a transmission interruption message transmitted from the voice start edge detection device 30 via the communication network NT.
  • the transmission interruption message received by the message receiving unit 41 b is passed to the second detection unit 42.
  • 2nd detection part 42 performs the process which detects an audio
  • the detection method similar to the 2nd detection part 22 of 1st Embodiment can be used.
  • the second detection unit 42 detects the end of the voice, the information is transmitted to the second transmission unit 43.
  • the voice termination is not detected from the input signal received by the input signal receiving unit 41 a and the message receiving unit 41 b receives the transmission interruption message
  • the second detecting unit 42 sends a signal to the second transmitting unit 43. Request the transmission resume request.
  • the second transmission unit 43 includes a detection signal transmission unit 43a and a request transmission unit 43b.
  • the detection signal transmission unit 43a generates a termination detection signal indicating that the voice termination has been detected when the second termination unit 42 detects the voice termination.
  • the termination detection signal is transmitted to the voice start edge detection device 30 via the communication network NT.
  • the request transmission unit 43b In response to a request from the second detection unit 42, the request transmission unit 43b generates a transmission resumption request for requesting the audio start end detection device 30 to resume transmission of the input signal, and sends the transmission resumption request to the communication network NT. To the voice start end detection device 30.
  • the input signal When input of an input signal to the voice start edge detection device 30 is started, the input signal is sequentially stored in the input buffer 32. At this time, since the voice start end is not detected, the input signal is passed to the first detection unit 33, and the voice start end detection process is performed by the start end detection unit 33a.
  • the voice start end is detected by the start end detection unit 33a, an input signal after the voice start end is transmitted from the input signal transmission unit 34a to the voice end detection device 40. Further, even after the voice start end is detected by the start end detection unit 33a, the input signal is passed to the first detection unit 33, and the voice end detection processing is performed by the end detection unit 33b.
  • the voice end detection device 40 when the input signal receiving unit 41a receives an input signal after the voice start end, the input signal is transferred to the second detection unit 42 and processing for detecting the voice end is performed. Then, when the voice end is detected by the second detection unit 42, the end detection signal is transmitted from the detection signal transmission unit 43 a to the voice start end detection device 30. In this case, in the voice start edge detection device 30, the termination signal is received by the detection signal reception unit 35a, and the transmission of the input signal from the input signal transmission unit 34a to the voice termination detection device 40 is stopped.
  • the transmission resume request is a request.
  • the data is transmitted from the transmission unit 43b to the voice start edge detection device 30.
  • the request receiving unit 35b receives the transmission resumption request, the input signal after the transmission is interrupted is read from the input buffer 32, and the voice end detection is performed from the input signal transmission unit 34a. Transmission of the input signal to the device 40 is resumed. Then, the voice end detection process by the second detection unit 42 of the voice end detection device 40 is resumed, and thereafter, the above operation is repeated until the voice end is detected.
  • FIG. 5 is a flowchart illustrating an example of a processing procedure in the voice start edge detection device 30. A series of processes shown in the flowchart of FIG. 5 is started when an input signal is input to the voice start edge detection device 30.
  • the input control unit 31 sequentially stores the input signal in the input buffer 32 (step S301). At this time, the input control unit 31 determines whether or not transmission of the input signal to the voice termination detection device 40 is suspended (step S302), and if transmission of the input signal is suspended (step S302). : Yes), the process proceeds to step S310. On the other hand, if the transmission of the input signal is not interrupted (step S302: No), the input control unit 31 determines whether or not the voice start end is in an undetected state (step S303), and the voice start end has been detected. If present (step S303: No), the input signal is passed to the first transmitter 34, and the input signal is passed to the first detector 33 to instruct end detection. In this case, the process proceeds to step S306.
  • step S303: Yes the input control unit 31 passes the input signal to the first detection unit 33 to instruct start end detection.
  • the start end detection unit 33a of the first detection unit 33 performs processing for detecting the sound start end with respect to the input signal passed from the input control unit 31 (step S304).
  • the input control unit 31 determines whether or not the voice start end has been detected by the start end detection unit 33a (step S305).
  • step S305 when the voice start end is not detected (step S305: No), the process returns to step S301 and the subsequent processing is repeated.
  • step S305: Yes when the voice start end is detected by the start end detection unit 33a (step S305: Yes), the input control unit 31 passes the input signal after the detected voice start end to the first transmission unit 34. In this case, the process proceeds to step S306.
  • the input signal transmission unit 34a of the first transmission unit 34 receives the input signal passed from the input control unit 31 (a signal input from an input device such as a microphone or a signal extracted from the input buffer 32). It transmits to the audio
  • the input control unit 31 determines whether or not the end of speech is detected by the end detection unit 33b (step S308).
  • the process proceeds to step S312.
  • the end of speech is detected by the end detection unit 33b (step S308: Yes)
  • the supply of the input signal from the input control unit 31 to the first transmission unit 34 is stopped, so that the input signal transmission unit 34a Transmission of the input signal to the voice end detection device 40 is interrupted.
  • the message transmission unit 34b generates a transmission interruption message and transmits it to the voice termination detection device 40 (step S309).
  • the input control unit 31 determines whether or not the request receiving unit 35b of the first receiving unit 35 has received a transmission resumption request transmitted from the voice termination detection device 40 (step S310), and receives the transmission resumption request. If so (step S310: Yes), the input signal after the point at which the transmission is interrupted is taken out from the input buffer 32 and passed to the first transmission unit 34 (step S311). In this case, the process returns to step S306, and the input signal after the time when the transmission is interrupted is transmitted from the input signal transmitting unit 34a to the voice termination detecting device 40. On the other hand, if the transmission resumption request has not been received (step S310: No), the process proceeds to step S312.
  • step S312 the input control unit 31 determines whether or not the detection signal reception unit 35a of the first reception unit 35 has received the termination detection signal transmitted from the voice termination detection device 40 (step S312). Here, if the detection signal receiving unit 35a has not received the termination detection signal (No at Step S312), the process returns to Step S301 and the subsequent processing is repeated. On the other hand, when the detection signal reception unit 35a receives the termination detection signal (step S312: Yes), the supply of the input signal from the input control unit 31 to the first transmission unit 34 is stopped, so that the input signal transmission unit 34a The transmission of the input signal to the voice end detection device 40 is stopped, and a series of processing ends.
  • FIG. 6 is a flowchart illustrating an example of a processing procedure in the voice termination detection device 40.
  • the series of processing shown in the flowchart of FIG. 6 is repeatedly executed every time an input signal is transmitted from the voice start end detection device 30 to the voice end detection device 40.
  • the input signal reception unit 41a receives the input signal (step S401) and passes it to the second detection unit.
  • the 2nd detection part 42 performs the process which detects an audio
  • the detection signal transmission unit 43a generates a termination detection signal and transmits it to the voice start end detection device 30 (step S404). The process ends.
  • step S403: No it is determined whether or not the message reception unit 41b has received a transmission interruption message transmitted from the voice start edge detection device 30. (Step S405). If the message receiving unit 41b has not received the transmission interruption message (step S405: No), the processing is ended as it is. On the other hand, if the message reception unit 41b has received the transmission interruption message (step S405: Yes), the request transmission unit 43b generates a transmission resumption request and transmits it to the voice start edge detection device 30 (step S406). finish.
  • the input speech after the speech start point detected by the speech start end detection device 30 is the speech end point, as in the first embodiment.
  • the process is transmitted to the detection device 40, and the voice end detection device 40 detects the voice end.
  • the voice end point is detected by the voice start point detection device 30
  • transmission of the input signal to the voice end point detection device 40 is interrupted.
  • the voice termination is not detected by the voice termination detection device 40
  • transmission of the input signal from the voice start detection device 30 to the voice termination detection device 40 is resumed, and the voice termination detection device 40 detects the voice termination.
  • the transmission of the input signal from the voice start end detection device 30 to the voice end detection device 40 is stopped. Therefore, according to the voice section detection system of the present embodiment, the transmission amount of voice from the voice start end detection device 30 to the voice end detection device 40 is further reduced as compared with the first embodiment, and voice transmission leakage is effectively suppressed. be able to.
  • the voice start end detection devices 10 and 30 and the voice end detection devices 20 and 40 constituting the voice section detection system of the above-described embodiment use, for example, a general-purpose computer system as basic hardware, and a predetermined program on this computer system. By executing (software), the operation of each unit described above can be realized.
  • the program includes, for example, a magnetic disk (flexible disk, hard disk, etc.), an optical disk (CD-ROM, CD-R, CD-RW, DVD-ROM, DVD ⁇ R, DVD ⁇ RW, Blu-ray ( (Registered trademark) Disc, etc.), a semiconductor memory, or a similar recording medium.
  • the recording medium for recording the program may be in any form as long as the computer system can read the recording medium.
  • the program may be configured to be installed in advance in the computer system, or the program distributed via a network may be configured to be installed in the computer system as appropriate.
  • the program executed by the computer system has a module configuration including the functional components of the voice start edge detection devices 10 and 30 and the voice end detection devices 20 and 40 described above. By reading and executing, the functional components of the voice start edge detection devices 10 and 30 and the voice end detection devices 20 and 40 described above are loaded onto the memory and generated on the memory.
  • the functional components of the voice start edge detection devices 10 and 30 and the voice end detection devices 20 and 40 described above are not only realized by a program (software), but also a part or all of them are applied to an ASIC (Application Specific). It can also be realized by dedicated hardware such as Integrated Circuit (FPGA) or Field-Programmable Gate Array (FPGA).
  • FPGA Integrated Circuit
  • FPGA Field-Programmable Gate Array

Abstract

 音声始端検出装置(10)は、時系列に入力される入力信号から音声区間の始端を検出する第1検出部(13)と、始端が検出されると該始端以降の入力信号を音声終端検出装置(20)に送信する第1送信部(14)と、音声区間の終端が検出されたことを示す終端検出信号を音声終端検出装置(20)から受信する第1受信部(15)とを備える。音声終端検出装置(20)は、始端以降の入力信号を音声始端検出装置(10)から受信する第2受信部(21)と、受信した入力信号から音声区間の終端を検出する第2検出部(22)と、終端が検出されると終端検出信号を音声始端検出装置(10)に送信する第2送信部(23)とを備える。音声始端検出装置(10)の第1送信部(14)は、第1受信部(15)が終端検出信号を受信すると、音声終端検出装置(20)への入力信号の送信を停止する。

Description

音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム
 本発明の実施形態は、音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラムに関する。
 例えばサーバ・クライアント型の音声認識システムなど、クライアント端末に入力された音声に対してサーバ装置で所定の処理を実行するシステムが知られている。この種のシステムでは、クライアント端末からサーバ装置への通信量削減のために、クライアント端末において入力信号から人が発話した音声の部分である音声区間を検出する処理を実行し、検出した音声区間の信号のみをサーバ装置に送信することも行われる。しかし、クライアント端末はサーバ装置と比べてリソースが限られるため、クライアント端末における音声区間の検出は十分な精度が得られない場合が多く、音声の送信漏れが生じる懸念がある。このため、通信量の削減を図りながら音声の送信漏れを抑制できる新たな仕組みの構築が望まれる。
特許第4197271号公報 特許第4425055号公報
 本発明が解決しようとする課題は、通信量の削減を図りながら音声の送信漏れを抑制できる音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラムを提供することである。
 実施形態の音声区間検出システムは、通信可能に接続された音声始端検出装置と音声終端検出装置とを含む。前記音声始端検出装置は、第1検出部と、第1送信部と、第1受信部と、を備え、前記音声終端検出装置は、第2受信部と、第2検出部と、第2送信部と、を備える。第1検出部は、時系列に入力される入力信号から音声区間の始端を検出する。第1送信部は、前記始端が検出されると、該始端以降の前記入力信号を前記音声終端検出装置に送信する。第1受信部は、音声区間の終端が検出されたことを示す終端検出信号を前記音声終端検出装置から受信する。第2受信部は、前記始端以降の前記入力信号を前記音声始端検出装置から受信する。第2検出部は、受信した前記入力信号から音声区間の終端を検出する。第2送信部は、前記終端が検出されると、前記終端検出信号を前記音声始端検出装置に送信する。前記第1送信部は、前記第1受信部が前記終端検出信号を受信すると、前記入力信号の送信を停止する。
第1実施形態の音声区間検出システムの構成例を示すブロック図。 音声始端検出装置における処理手順の一例を示すフローチャート。 音声終端検出装置における処理手順の一例を示すフローチャート。 第2実施形態の音声区間検出システムの構成例を示すブロック図。 音声始端検出装置における処理手順の一例を示すフローチャート。 音声終端検出装置における処理手順の一例を示すフローチャート。
 実施形態の音声区間検出システムは、通信可能に接続された音声始端検出装置と音声終端検出装置との協働により、マイクなどの入力デバイスから時系列に入力される音声を含む信号(以下、入力信号という。)から音声区間を検出する。音声始端検出装置は、入力信号から音声区間の始端(以下、音声始端という。)を検出する処理を行い、音声始端が検出されると、それ以降の入力信号を音声終端検出装置に送信する。音声終端検出装置は、音声始端検出装置から受信した入力信号、つまり音声始端検出装置によって検出された音声始端以降の入力信号に対して、音声区間の終端(以下、音声終端という。)を検出する処理を行い、音声終端が検出されると、終端検出信号を音声始端検出装置に送信する。音声始端検出装置は、音声終端検出装置から終端検出信号を受信すると、音声終端検出装置に対する入力信号の送信を停止する。
 実施形態の音声区間検出システムは、例えば、音声始端検出装置をクライアント端末とし、音声終端検出装置をサーバ装置としたサーバ・クライアント型のシステムとして実現することができる。この場合、クライアント端末としては、例えば、外部接続端子に外付けのマイクを接続したパーソナルコンピュータや、マイクを内蔵する携帯電話機、スマートフォン、タブレット端末、テレビ会議(ビデオ会議)システム用の端末として構成されたテレビ会議端末など、通信ネットワークに接続する機能を持った装置を利用することができる。クライアント端末として利用するこれらの装置は、プロセッサやメモリなどの通常のコンピュータシステムを実現するリソースを備え、一例として、コンピュータシステム上で所定のプログラムを実行することにより、音声始端検出装置としての機能を実現する。一方、サーバ装置は、通信ネットワーク上に構築されたサーバコンピュータであり、プロセッサやメモリなどの通常のコンピュータシステムを実現するリソースを備え、例えば、コンピュータシステム上で所定のプログラムを実行することにより、音声終端検出装置としての機能を実現する。音声終端検出装置の機能を実現するサーバ装置は、クラウドシステム上で動作する仮想マシンであってもよい。
 クライアント端末に入力された音声に対してサーバ装置で所定の処理を実行する従来のサーバ・クライアント型のシステムでは、クライアント端末からサーバ装置への通信量削減のために、クライアント端末において入力信号から音声始端と音声終端とを検出(つまり、音声区間を検出)し、検出した音声区間の信号をサーバ装置に送信していた。したがって、クライアント端末からサーバ装置に送信される音声区間の信号は、クライアント装置での処理によって決定されていた。しかし、クライアント端末はサーバ装置と比べてリソースが限られるため、クライアント端末における音声区間の検出は十分な精度が得られない場合が多い。このため、入力信号の音声の部分を誤って音声区間でないと判定してしまう場合があり、音声の送信漏れが生じる懸念がある。
 これに対して実施形態の音声区間検出システムでは、音声始端検出装置と音声終端検出装置との協働により音声区間が検出され、少なくともこの音声区間を含む信号が、音声始端検出装置から音声終端検出装置に送信される。つまり、音声始端検出装置と比べて十分なリソースを持つ音声終端検出装置において音声終端の検出を高精度に行い、その結果を音声始端検出装置にフィードバックすることで、音声始端検出装置から音声終端検出装置に送信される信号の範囲が決定される。したがって、実施形態の音声区間検出システムによれば、音声始端検出装置から音声終端検出装置への通信量の削減を図りながら音声の送信漏れを有効に抑制することができる。
 実施形態の音声区間検出システムによって検出される音声区間の信号は、様々な用途で利用することができる。例えば、サーバ・クライアント型の音声認識システムに対して実施形態の音声区間検出システムを適用した場合、検出された音声区間の信号に対してサーバ装置により音声認識処理が実行され、認識結果のテキストデータがクライアント端末に送信される。また、サーバ・クライアント型の音声蓄積システムに対して実施形態の音声区間検出システムを適用した場合、検出された音声区間の信号が録音データとしてサーバ装置に蓄積される。また、音声区間検出システムによって検出された音声区間の信号を他のアプリケーションサーバに送信して利用することもできる。
 なお、実施形態の音声区間検出システムをサーバ・クライアント型のシステムとして実現した場合、音声終端検出装置に対して多数の音声始端検出装置を接続することができる。この場合、音声終端検出装置は、接続された音声始端検出装置ごとに並列で処理を実行する。音声終端検出装置は、例えば、音声始端検出装置に対して事前に付与された固有の識別情報を用いて音声始端検出装置の機器認証や管理などを行うことができる。
 以下、実施形態の音声区間検出システムの具体例について、図面を参照しながら詳細に説明する。
[第1実施形態]
 図1は、第1実施形態の音声区間検出システムの構成例を示すブロック図である。本実施形態の音声区間検出システムは、図1に示すように、通信ネットワークNTを介して通信可能に接続された音声始端検出装置10と音声終端検出装置20とを備える。
 音声始端検出装置10は、図1に示すように、入力制御部11と、第1検出部13と、第1送信部14と、第1受信部15とを備える。
 入力制御部11は、現在の音声区間の検出状態、すなわち、音声始端も音声終端も検出されていない状態であるか、音声始端が検出されているが音声終端が検出されていない状態であるかを保持し、その状態に応じて、マイクなどの入力デバイスから時系列に入力される入力信号の流れを制御する。なお、入力信号はマイクなどの入力デバイスから入力された信号に限らず、例えば、録音データをプログラム中で読み込んだ信号などであってもよい。
 入力制御部11は、現在の音声区間の検出状態が、音声始端も音声終端も検出されていない状態であれば、入力信号を第1検出部13に渡す。また、入力制御部11は、現在の音声区間の検出状態が、音声始端が検出されているが音声終端が検出されていない状態であれば、入力信号を第1送信部14に渡す。なお、入力制御部11は、後述の終端検出信号によって音声終端が検出されたことを認識すると、第1送信部14への入力信号の供給を停止する。そして、その後の音声区間の検出が要求された場合など、新たに音声区間の検出を開始する場合は、音声始端が検出されていないものとして、入力信号を再び第1検出部13に渡す。
 第1検出部13は、入力制御部11から渡された入力信号から音声始端を検出する処理を実行する。第1検出部13が実行する処理としては、音声区間の検出方法として知られている様々な方法のうち、処理負荷が比較的低い方法を採用すればよい。例えば、入力信号のパワーを閾値と比較することで音声始端を検出する方法などを用いることができる。第1検出部13が音声始端を検出した場合、音声始端を検出したことを示す情報が入力制御部11に伝えられる。入力制御部11は、この情報に基づいて音声始端が検出されたことを認識し、入力信号の供給先を第1検出部13から第1送信部14へと切り替える。なお、第1検出部13が音声始端を検出した場合に入力制御部11に伝える情報には、検出した音声始端の時間軸上における位置(始端位置)を示す情報が含まれていることが望ましい。これにより、入力制御部11に始端位置を認識させることができる。
 第1送信部14は、入力制御部11から渡された入力信号を、通信ネットワークNTを介して音声終端検出装置20に送信する。入力制御部11は、第1検出部13によって音声始端が検出されると、検出された音声始端以降の入力信号を第1送信部14に渡す。したがって、第1送信部14は、第1検出部13によって検出された音声始端以降の入力信号を、音声終端検出装置20に送信する。
 第1受信部15は、音声終端検出装置20から通信ネットワークNTを介して送信される終端検出信号を受信する。終端検出信号は、後述するように、音声終端検出装置20において音声終端が検出された場合に送信される。第1受信部15は、音声終端検出装置20から終端検出信号が送信されるとこれを受信して、入力制御部11に渡す。入力制御部11は、この終端検出信号に基づいて音声終端が検出されたことを認識する。
 音声終端が検出されたことを入力制御部11が認識すると、入力制御部11から第1送信部14への入力信号の供給が停止される。したがって、第1受信部15が音声終端検出装置20から送信された終端検出信号を受信すると、第1送信部14は、音声終端検出装置20に対する入力信号の送信を停止する。
 音声終端検出装置20は、図1に示すように、第2受信部21と、第2検出部22と、第2送信部23とを備える。
 第2受信部21は、音声始端検出装置10から通信ネットワークNTを介して送信される入力信号を受信する。音声始端検出装置10から送信される入力信号は、上述したように、音声始端検出装置10に時系列で入力される入力信号のうち、第1検出部13によって検出された音声始端以降の入力信号である。第2受信部21は、この音声始端以降の入力信号を音声始端検出装置10から受信する。第2受信部21が受信した入力信号は、第2検出部22に渡される。
 第2検出部22は、第2受信部21が受信した入力信号から音声終端を検出する処理を実行する。第2検出部22が実行する処理としては、音声区間の検出方法として知られている様々な方法のうち、音声始端検出装置10の第1検出部13が用いる方法と比べて、処理負荷が大きいが検出精度が高い方法を採用すればよい。例えば、入力信号に対してノイズ除去のためのフィルタリング処理などを行った上で信号パワーを閾値と比較して音声終端を検出する方法や、音声の周波数特性や音響モデルなどから計算される特徴量を用いて音声終端を検出する方法などを用いることができる。音声終端検出装置20は、上述したように、十分なリソースを持ち処理能力が高いサーバ装置で実現することを想定するため、このような処理負荷の高い方法による高精度な検出を適切に(大幅な遅延を招くことなく)実行できる。第2検出部22が音声終端を検出した場合、その情報が第2送信部23に伝えられる。
 第2送信部23は、第2検出部22により音声終端が検出されると、音声終端が検出されたことを示す終端検出信号を生成して、この終端検出信号を通信ネットワークNTを介して音声始端検出装置10に送信する。この際、第2送信部23は、第2検出部22によって検出された音声終端の時間軸上の位置(終端位置)を特定するための時間情報を含む終端検出信号を生成することが望ましい。例えば、第2送信部23は、第2受信部21が受信した入力信号の先頭である音声始端を基準とした終端位置の時刻を表す相対時刻を第2検出部22から取得し、この相対時刻を時間情報として埋め込んだ終端検出信号を生成する。また、第2受信部21が受信した入力信号に時刻を表すタイムスタンプが付されている場合、第2送信部23は、終端位置に対応するタイムスタンプを第2検出部22から取得し、このタイムスタンプを時間情報として埋め込んだ終端検出信号を生成してもよい。このような時間情報を含む終端検出信号を音声始端検出装置10に送信することにより、終端位置を音声始端検出装置10に知らせることができる。
 次に、以上のように構成される本実施形態の音声区間検出システムの動作概要を説明する。
 まず、音声始端検出装置10に対する入力信号の入力が開始される。このとき、音声始端は検出されていないため、入力信号が第1検出部13に渡されて音声始端を検出する処理が行われる。そして、第1検出部13により音声始端が検出されると、音声始端以降の入力信号が、第1送信部14から音声終端検出装置20に送信される。
 音声終端検出装置20では、音声始端以降の入力信号を第2受信部21が受信すると、この入力信号が第2検出部22に渡されて音声終端を検出する処理が行われる。そして、第2検出部22により音声終端が検出されると、終端検出信号が、第2送信部23から音声始端検出装置10に送信される。この終端検出信号を音声始端検出装置10の第1受信部15が受信すると、第1送信部14から音声終端検出装置20への入力信号の送信が停止される。
 次に、図2を参照しながら、音声始端検出装置10における処理手順を説明する。図2は、音声始端検出装置10における処理手順の一例を示すフローチャートである。この図2のフローチャートで示す一連の処理は、音声始端検出装置10に入力信号が入力されると開始される。
 音声始端検出装置10に入力信号が入力されると、まず、入力制御部11が、音声始端が未検出の状態であるか否かを判定し(ステップS101)、音声始端が検出済みであれば(ステップS101:No)、入力信号を第1送信部14に渡す。この場合、ステップS104に処理が移行する。一方、音声始端が未検出の状態であれば(ステップS101:Yes)、入力制御部11は、入力信号を第1検出部13に渡す。この場合、第1検出部13が、入力制御部11から渡された入力信号に対して、音声始端を検出する処理を実行する(ステップS102)。
 その後、入力制御部11は、第1検出部13により音声始端が検出されたか否かを判定する(ステップS103)。ここで、音声始端が検出されない場合(ステップS103:No)、入力制御部11は、入力信号を第1検出部13に供給し続ける。これにより、ステップS102の第1検出部13による音声始端の検出処理が継続される。一方、第1検出部13により音声始端が検出されると(ステップS103:Yes)、入力制御部11は、検出された音声始端以降の入力信号を第1送信部14に渡す。この場合、ステップS104に処理が移行する。
 ステップS104では、第1送信部14が、入力制御部11から渡された入力信号を、通信ネットワークNTを介して音声終端検出装置20に送信する。以上の手順により、第1検出部13によって検出された音声始端以降の入力信号が、音声終端検出装置20に送信されることになる。
 その後、入力制御部11は、第1受信部15が音声終端検出装置20から送信される終端検出信号を受信したか否かを判定する(ステップS105)。ここで、終端検出信号を受信していなければ(ステップS105:No)、入力制御部11は、入力信号を第1送信部14に供給し続ける。これにより、ステップS104の第1送信部14による入力信号の送信処理が継続される。一方、第1受信部15が終端検出信号を受信すると(ステップS105:Yes)、入力制御部11から第1送信部14への入力信号の供給が停止されることで、第1送信部14から音声終端検出装置20への入力信号の送信が停止し、一連の処理が終了する。
 次に、図3を参照しながら、音声終端検出装置20における処理手順を説明する。図3は、音声終端検出装置20における処理手順の一例を示すフローチャートである。この図3のフローチャートで示す一連の処理は、音声始端検出装置10から音声終端検出装置20に対して入力信号が送信されるたびに繰り返し実行される。
 音声始端検出装置10から入力信号が送信されると、まず、第2受信部21が入力信号を受信して(ステップS201)、第2検出部22に渡す。そして、第2検出部22が、第2受信部21から渡された入力信号に対して、音声終端を検出する処理を実行する(ステップS202)。ここで、第2検出部22によって音声終端が検出されなければ(ステップS203:No)、そのまま処理を終了する。一方、第2検出部22によって音声終端が検出されると(ステップS203:Yes)、第2送信部23が、終端検出信号を生成して音声始端検出装置10に送信し(ステップS204)、処理を終了する。
 以上、具体的な例を挙げながら説明したように、本実施形態の音声区間検出システムでは、音声始端検出装置10により検出された音声始端以降の入力音声が音声終端検出装置20に送信される。そして、この入力信号から音声終端検出装置20によって音声終端が検出されると、音声始端検出装置10から音声終端検出装置20への入力信号の送信が停止される。したがって、この音声区間検出システムによれば、音声始端検出装置10から音声終端検出装置20への通信量の削減を図りながら、音声の送信漏れを有効に抑制することができる。
[第2実施形態]
 次に、第2実施形態の音声区間検出システムについて説明する。本実施形態の音声区間検出システムでは、音声始端検出装置が音声終端の検出も行って、音声終端を検出すると音声終端検出装置に対する入力信号の送信を中断する。一方、音声終端検出装置は、第1実施形態と同様に音声始端検出装置から受信した入力信号に対して音声終端を検出する処理を行うが、受信した入力信号から音声終端が検出されない場合は、音声始端検出装置に対して入力信号の送信再開を要求する。そして、音声始端検出装置は、音声終端検出装置からの要求に応じて、中断した時点以降の入力信号を音声終端検出装置に送信する。これにより、音声始端検出装置から音声終端検出装置への通信量を、第1実施形態よりもさらに削減することができる。
 図4は、第2実施形態の音声区間検出システムの構成例を示すブロック図である。本実施形態の音声区間検出システムは、図4に示すように、通信ネットワークNTを介して通信可能に接続された音声始端検出装置30と、音声終端検出装置40とを備える。
 音声始端検出装置30は、図4に示すように、入力制御部31と、入力バッファ32と、第1検出部33と、第1送信部34と、第1受信部35とを備える。入力バッファ32は、マイクなどの入力デバイスから時系列に入力される入力信号が順次格納されるバッファである。
 入力制御部31は、第1実施形態の入力制御部11と同様に、現在の音声区間の検出状態に応じて、マイクなどの入力デバイスから時系列に入力される入力信号の流れを制御する。ただし、本実施形態の入力制御部31は、第1検出部33によって音声始端が検出された後も継続して第1検出部33に入力信号を渡す。その後、第1検出部33によって音声終端が検出されると、第1送信部34への入力信号の供給を停止し、第1送信部34から音声終端検出装置40への入力信号の送信を中断させる。また、本実施形態の入力制御部31は、第1受信部35によって後述の送信再開リクエストが受信されると、送信を中断した時点以降の入力信号を入力バッファ32から取り出して第1送信部34に渡し、第1送信部34から音声終端検出装置40への入力信号の送信を再開させる。
 第1検出部33は、始端検出部33aと終端検出部33bとを有する。始端検出部33aは、第1実施形態の第1検出部13と同様に、入力制御部31から渡された入力信号から音声始端を検出する処理を実行する。終端検出部33bは、入力制御部31から渡された入力信号から音声終端を検出する処理を実行する。これら始端検出部33aおよび終端検出部33bが実行する処理としては、第1実施形態の第1検出部13と同様の検出方法を用いることができる。始端検出部33aが音声始端を検出した場合は、始端位置を示す情報が入力制御部31に伝えられる。終端検出部33bが音声終端を検出した場合は、終端位置を示す情報が入力制御部31に伝えられる。
 第1送信部34は、入力信号送信部34aとメッセージ送信部34bとを有する。入力信号送信部34aは、第1実施形態の第1送信部14と同様に、入力制御部31から渡された入力信号を、通信ネットワークNTを介して音声終端検出装置40に送信する。メッセージ送信部34bは、第1検出部33の終端検出部33bにより音声終端が検出されたことにより、入力制御部31からの入力信号の供給が停止された場合に、入力信号の送信を中断することを示す送信中断メッセージを生成し、この送信中断メッセージを、通信ネットワークNTを介して音声終端検出装置40に送信する。
 第1受信部35は、検出信号受信部35aとリクエスト受信部35bとを有する。検出信号受信部35aは、第1実施形態の第1受信部15と同様に、音声終端検出装置40から通信ネットワークNTを介して送信される終端検出信号を受信する。リクエスト受信部35bは、音声終端検出装置40から通信ネットワークNTを介して送信される送信再開リクエストを受信する。送信再開リクエストは、後述するように、音声終端検出装置40において受信した入力信号から音声終端が検出されない場合に送信される。リクエスト受信部35bは、音声終端検出装置40から送信再開リクエストが送信されるとこれを受信して、入力制御部31に渡す。入力制御部31は、この送信再開リクエストを受け取ると、停止していた第1送信部34への入力信号の供給を再開し、送信を中断した時点以降の入力信号を入力バッファ32から取り出して第1送信部34に渡す。これにより、第1送信部34の入力信号送信部34aから音声終端検出装置40への入力信号の送信が再開される。
 音声終端検出装置40は、図4に示すように、第2受信部41と、第2検出部42と、第2送信部43とを備える。
 第2受信部41は、入力信号受信部41aとメッセージ受信部41bとを有する。入力信号受信部41aは、第1実施形態の第2受信部21と同様に、音声始端検出装置30から通信ネットワークNTを介して送信される入力信号を受信する。入力信号受信部41aが受信した入力信号は、第2検出部42に渡される。メッセージ受信部41bは、音声始端検出装置30から通信ネットワークNTを介して送信される送信中断メッセージを受信する。メッセージ受信部41bが受信した送信中断メッセージは、第2検出部42に渡される。
 第2検出部42は、第1実施形態の第2検出部22と同様に、入力信号受信部41aが受信した入力信号から音声終端を検出する処理を実行する。第2検出部42が実行する処理としては、第1実施形態の第2検出部22と同様の検出方法を用いることができる。第2検出部42が音声終端を検出した場合、その情報が第2送信部43に伝えられる。また、入力信号受信部41aが受信した入力信号から音声終端が検出されず、かつ、メッセージ受信部41bが送信中断メッセージを受信している場合、第2検出部42は、第2送信部43に対して送信再開リクエストの送信を依頼する。
 第2送信部43は、検出信号送信部43aとリクエスト送信部43bとを有する。検出信号送信部43aは、第1実施形態の第2送信部23と同様に、第2検出部42により音声終端が検出されると、音声終端が検出されたことを示す終端検出信号を生成して、この終端検出信号を通信ネットワークNTを介して音声始端検出装置30に送信する。リクエスト送信部43bは、第2検出部42からの依頼に応じて、音声始端検出装置30に対して入力信号の送信再開を要求する送信再開リクエストを生成し、この送信再開リクエストを通信ネットワークNTを介して音声始端検出装置30に送信する。
 次に、以上のように構成される本実施形態の音声区間検出システムの動作概要を説明する。
 音声始端検出装置30に対する入力信号の入力が開始されると、この入力信号が入力バッファ32に順次格納される。このとき、音声始端は検出されていないため、入力信号が第1検出部33に渡されて始端検出部33aによる音声始端の検出処理が行われる。そして、始端検出部33aにより音声始端が検出されると、音声始端以降の入力信号が、入力信号送信部34aから音声終端検出装置40に送信される。また、始端検出部33aにより音声始端が検出された後も、入力信号は第1検出部33に渡されて終端検出部33bによる音声終端の検出処理が行われる。そして、検出信号受信部35aにより終端検出信号が受信される前に終端検出部33bにより音声終端が検出されると、入力信号送信部34aから音声終端検出装置40への入力信号の送信が中断される。この際、メッセージ送信部34bから音声終端検出装置40に対して、送信中断メッセージが送信される。
 音声終端検出装置40では、音声始端以降の入力信号を入力信号受信部41aが受信すると、この入力信号が第2検出部42に渡されて音声終端を検出する処理が行われる。そして、第2検出部42により音声終端が検出されると、終端検出信号が、検出信号送信部43aから音声始端検出装置30に送信される。この場合、音声始端検出装置30では、検出信号受信部35aによって終端検出信号が受信され、入力信号送信部34aから音声終端検出装置40への入力信号の送信が停止される。
 また、音声終端検出装置40では、音声始端検出装置30から受信した入力信号から音声終端が検出されず、かつ、メッセージ受信部41bが送信中断メッセージを受信している場合、送信再開リクエストが、リクエスト送信部43bから音声始端検出装置30に送信される。この場合、音声始端検出装置30では、リクエスト受信部35bによって送信再開リクエストが受信され、送信を中断した時点以降の入力信号が入力バッファ32から読み出されて、入力信号送信部34aから音声終端検出装置40への入力信号の送信が再開される。そして、音声終端検出装置40の第2検出部42による音声終端の検出処理が再開され、以降、音声終端が検出されるまで上記の動作が繰り返される。
 次に、図5を参照しながら、音声始端検出装置30における処理手順を説明する。図5は、音声始端検出装置30における処理手順の一例を示すフローチャートである。この図5のフローチャートで示す一連の処理は、音声始端検出装置30に入力信号が入力されると開始される。
 音声始端検出装置30に入力信号が入力されると、まず、入力制御部31が、入力信号を入力バッファ32に順次格納する(ステップS301)。このとき、入力制御部31は、音声終端検出装置40に対する入力信号の送信を中断している状態であるか否かを判定し(ステップS302)、入力信号の送信中断中であれば(ステップS302:Yes)、ステップS310に処理を移行する。一方、入力信号の送信中断中でなければ(ステップS302:No)、入力制御部31は、音声始端が未検出の状態であるか否かを判定し(ステップS303)、音声始端が検出済みであれば(ステップS303:No)、入力信号を第1送信部34に渡すとともに、入力信号を第1検出部33に渡して終端検出を指示する。この場合、ステップS306に処理が移行する。
 一方、音声始端が未検出の状態であれば(ステップS303:Yes)、入力制御部31は、入力信号を第1検出部33に渡して始端検出を指示する。この指示を受けて、第1検出部33の始端検出部33aが、入力制御部31から渡された入力信号に対して、音声始端を検出する処理を実行する(ステップS304)。
 その後、入力制御部31は、始端検出部33aにより音声始端が検出されたか否かを判定する(ステップS305)。ここで、音声始端が検出されない場合は(ステップS305:No)、ステップS301に戻って以降の処理が繰り返される。一方、始端検出部33aにより音声始端が検出されると(ステップS305:Yes)、入力制御部31は、検出された音声始端以降の入力信号を第1送信部34に渡す。この場合、ステップS306に処理が移行する。
 ステップS306では、第1送信部34の入力信号送信部34aが、入力制御部31から渡された入力信号(マイクなどの入力デバイスから入力された信号または入力バッファ32から取り出された信号)を、通信ネットワークNTを介して音声終端検出装置40に送信する。以上の手順により、始端検出部33aによって検出された音声始端以降の入力信号が、音声終端検出装置40に送信されることになる。また、本実施形態では、音声始端以降の入力信号の送信と並行して、第1検出部33の終端検出部33bが、入力制御部31からの指示を受けて、入力制御部31から渡された入力信号に対して、音声終端を検出する処理を実行する(ステップS307)。
 その後、入力制御部31は、終端検出部33bにより音声終端が検出されたか否かを判定する(ステップS308)。ここで、音声終端が検出されない場合は(ステップS308:No)、ステップS312に処理を移行する。一方、終端検出部33bにより音声終端が検出されると(ステップS308:Yes)、入力制御部31から第1送信部34への入力信号の供給が停止されることで、入力信号送信部34aは音声終端検出装置40への入力信号の送信を中断する。そして、メッセージ送信部34bが、送信中断メッセージを生成して音声終端検出装置40に送信する(ステップS309)。
 その後、入力制御部31は、第1受信部35のリクエスト受信部35bが音声終端検出装置40から送信される送信再開リクエストを受信したか否かを判定し(ステップS310)、送信再開リクエストを受信した場合は(ステップS310:Yes)、送信を中断した時点以降の入力信号を入力バッファ32から取り出して、第1送信部34に渡す(ステップS311)。この場合、ステップS306に処理が戻って、送信を中断した時点以降の入力信号が、入力信号送信部34aから音声終端検出装置40に送信される。一方、送信再開リクエストを受信していなければ(ステップS310:No)、ステップS312に処理を移行する。
 ステップS312では、入力制御部31は、第1受信部35の検出信号受信部35aが音声終端検出装置40から送信される終端検出信号を受信したか否かを判定する(ステップS312)。ここで、検出信号受信部35aが終端検出信号を受信していなければ(ステップS312:No)、ステップS301に戻って以降の処理が繰り返される。一方、検出信号受信部35aが終端検出信号を受信すると(ステップS312:Yes)、入力制御部31から第1送信部34への入力信号の供給が停止されることで、入力信号送信部34aから音声終端検出装置40への入力信号の送信が停止し、一連の処理が終了する。
 次に、図6を参照しながら、音声終端検出装置40における処理手順を説明する。図6は、音声終端検出装置40における処理手順の一例を示すフローチャートである。この図6のフローチャートで示す一連の処理は、音声始端検出装置30から音声終端検出装置40に対して入力信号が送信されるたびに繰り返し実行される。
 音声始端検出装置30から入力信号が送信されると、まず、入力信号受信部41aが入力信号を受信して(ステップS401)、第2検出部42に渡す。そして、第2検出部42が、入力信号受信部41aから渡された入力信号に対して、音声終端を検出する処理を実行する(ステップS402)。ここで、第2検出部42によって音声終端が検出されると(ステップS403:Yes)、検出信号送信部43aが、終端検出信号を生成して音声始端検出装置30に送信し(ステップS404)、処理を終了する。
 一方、ステップS401で受信した入力信号から音声終端が検出されない場合は(ステップS403:No)、メッセージ受信部41bが音声始端検出装置30から送信される送信中断メッセージを受信したか否かが判定される(ステップS405)。そして、メッセージ受信部41bが送信中断メッセージを受信していなければ(ステップS405:No)、そのまま処理を終了する。一方、メッセージ受信部41bが送信中断メッセージを受信していれば(ステップS405:Yes)、リクエスト送信部43bが送信再開リクエストを生成して音声始端検出装置30に送信し(ステップS406)、処理を終了する。
 以上、具体的な例を挙げながら説明したように、本実施形態の音声区間検出システムでは、第1実施形態と同様に、音声始端検出装置30により検出された音声始端以降の入力音声が音声終端検出装置40に送信され、音声終端検出装置40によって音声終端を検出する処理が行われる。この際、本実施形態では、音声始端検出装置30において音声終端が検出されると、音声終端検出装置40に対する入力信号の送信が中断される。そして、音声終端検出装置40によって音声終端が検出されない場合に、音声始端検出装置30から音声終端検出装置40への入力信号の送信が再開され、音声終端検出装置40によって音声終端が検出されると、音声始端検出装置30から音声終端検出装置40への入力信号の送信が停止される。したがって、本実施形態の音声区間検出システムによれば、音声始端検出装置30から音声終端検出装置40への通信量を第1実施形態よりもさらに削減しながら、音声の送信漏れを有効に抑制することができる。
[補足説明]
 上述した実施形態の音声区間検出システムを構成する音声始端検出装置10,30および音声終端検出装置20,40は、例えば、汎用のコンピュータシステムを基本ハードウェアとして用い、このコンピュータシステム上で所定のプログラム(ソフトウェア)を実行することによって、上述した各部の動作を実現することができる。このとき、上記のプログラムは、例えば、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD-ROM、CD-R、CD-RW、DVD-ROM、DVD±R、DVD±RW、Blu-ray(登録商標)Discなど)、半導体メモリ、またはこれに類する記録媒体に記録されて提供される。なお、プログラムを記録する記録媒体は、コンピュータシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。また、上記プログラムを、コンピュータシステムに予めインストールするように構成してもよいし、ネットワークを介して配布される上記のプログラムをコンピュータシステムに適宜インストールするように構成してもよい。
 上記のコンピュータシステムで実行されるプログラムは、上述した音声始端検出装置10,30や音声終端検出装置20,40の各機能的な構成要素を含むモジュール構成となっており、プロセッサがこのプログラムを適宜読み出して実行することにより、上述した音声始端検出装置10,30や音声終端検出装置20,40の各機能的な構成要素がメモリ上にロードされ、メモリ上に生成されるようになっている。
 なお、上述した音声始端検出装置10,30や音声終端検出装置20,40の各機能的な構成要素は、プログラム(ソフトウェア)により実現するだけでなく、その一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field-Programmable Gate Array)などの専用のハードウェアにより実現することもできる。
 以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims (12)

  1.  通信可能に接続された音声始端検出装置と音声終端検出装置とを含む音声区間検出システムであって、
     前記音声始端検出装置は、
     時系列に入力される入力信号から音声区間の始端を検出する第1検出部と、
     前記始端が検出されると、該始端以降の前記入力信号を前記音声終端検出装置に送信する第1送信部と、
     音声区間の終端が検出されたことを示す終端検出信号を前記音声終端検出装置から受信する第1受信部と、を備え、
     前記音声終端検出装置は、
     前記始端以降の前記入力信号を前記音声始端検出装置から受信する第2受信部と、
     受信した前記入力信号から音声区間の終端を検出する第2検出部と、
     前記終端が検出されると、前記終端検出信号を前記音声始端検出装置に送信する第2送信部と、を備え、
     前記第1送信部は、前記第1受信部が前記終端検出信号を受信すると、前記入力信号の送信を停止する、音声区間検出システム。
  2.  前記第1検出部は、前記入力信号からさらに音声区間の終端を検出し、
     前記第1送信部は、前記第1検出部によって前記終端が検出されると、前記入力信号の送信を中断するとともに、前記入力信号の送信を中断することを示す送信中断メッセージを前記音声終端検出装置に送信し、
     前記第1受信部は、前記入力信号の送信再開を要求する送信再開リクエストが前記音声終端検出装置から送信されると、該送信再開リクエストを受信し、
     前記第2受信部は、前記送信中断メッセージが前記音声始端検出装置から送信されると、該送信中断メッセージを受信し、
     前記第2送信部は、前記第2検出部により前記終端が検出されず、かつ、前記第2受信部により前記送信中断メッセージが受信されると、前記送信再開リクエストを前記音声始端検出装置に送信し、
     前記第1送信部は、前記第1受信部が前記送信再開リクエストを受信すると、送信を中断した時点以降の前記入力信号を前記音声終端検出装置に送信する、請求項1に記載の音声区間検出システム。
  3.  前記音声始端検出装置は、
     前記入力信号を順次格納する入力バッファをさらに備え、
     前記第1送信部は、前記第1受信部が前記送信再開リクエストを受信すると、送信を中断した時点以降の前記入力信号であって、前記入力バッファから取り出された前記入力信号を前記音声終端検出装置に送信する、請求項2に記載の音声区間検出システム。
  4.  前記第2送信部は、前記第2検出部により検出された前記終端の時間軸上の位置を特定するための時間情報を含む前記終端検出信号を前記音声始端検出装置に送信する、請求項1に記載の音声区間検出システム。
  5.  前記第2検出部が前記終端を検出する処理負荷は、前記第1検出部が前記始端を検出する処理負荷よりも大きい、請求項1に記載の音声区間検出システム。
  6.  時系列に入力される入力信号から音声区間の始端を検出する検出部と、
     前記始端が検出されると、該始端以降の前記入力信号を外部装置に送信する送信部と、
     音声区間の終端が検出されたことを示す終端検出信号を前記外部装置から受信する受信部と、を備え、
     前記送信部は、前記受信部が前記終端検出信号を受信すると、前記入力信号の送信を停止する、音声始端検出装置。
  7.  外部装置に時系列で入力される入力信号のうち、前記外部装置によって検出された音声区間の始端以降の前記入力信号を前記外部装置から受信する受信部と、
     受信した前記入力信号から音声区間の終端を検出する検出部と、
     前記終端が検出されると、音声区間の終端が検出されたことを示す終端検出信号を前記外部装置に送信する送信部と、を備える音声終端検出装置。
  8.  通信可能に接続された音声始端検出装置と音声終端検出装置とを含む音声区間検出システムにより実行される音声区間検出方法であって、
     前記音声始端検出装置が、時系列に入力される入力信号から音声区間の始端を検出するステップと、
     前記音声始端検出装置が、前記始端を検出すると、該始端以降の前記入力信号を前記音声終端検出装置に送信するステップと、
     前記音声終端検出装置が、前記始端以降の前記入力信号を前記音声始端検出装置から受信するステップと、
     前記音声終端検出装置が、受信した前記入力信号から音声区間の終端を検出するステップと、
     前記音声終端検出装置が、前記終端を検出すると、音声区間の終端が検出されたことを示す終端検出信号を前記音声始端検出装置に送信するステップと、
     前記音声始端検出装置が、前記終端検出信号を前記音声終端検出装置から受信するステップと、
     前記音声始端検出装置が、前記終端検出信号を受信すると、前記入力信号の送信を停止するステップと、を含む音声区間検出方法。
  9.  音声始端検出装置により実行される音声始端検出方法であって、
     時系列に入力される入力信号から音声区間の始端を検出するステップと、
     前記始端を検出すると、該始端以降の前記入力信号を外部装置に送信するステップと、
     音声区間の終端が検出されたことを示す終端検出信号を前記外部装置から受信するステップと、
     前記終端検出信号を受信すると、前記入力信号の送信を停止するステップと、を含む音声始端検出方法。
  10.  音声終端検出装置により実行される音声終端検出方法であって、
     外部装置に時系列で入力される入力信号のうち、前記外部装置によって検出された音声区間の始端以降の前記入力信号を前記外部装置から受信するステップと、
     受信した前記入力信号から音声区間の終端を検出するステップと、
     前記終端を検出すると、音声区間の終端が検出されたことを示す終端検出信号を前記外部装置に送信するステップと、を含む音声終端検出方法。
  11.  コンピュータに、
     時系列に入力される入力信号から音声区間の始端を検出する機能と、
     前記始端を検出すると、該始端以降の前記入力信号を外部装置に送信する機能と、
     音声区間の終端が検出されたことを示す終端検出信号を前記外部装置から受信する機能と、
     前記終端検出信号を受信すると、前記入力信号の送信を停止する機能と、を実現させるためのプログラム。
  12.  コンピュータに、
     外部装置に時系列で入力される入力信号のうち、前記外部装置によって検出された音声区間の始端以降の前記入力信号を前記外部装置から受信する機能と、
     受信した前記入力信号から音声区間の終端を検出する機能と、
     前記終端を検出すると、音声区間の終端が検出されたことを示す終端検出信号を前記外部装置に送信する機能と、を実現させるためのプログラム。
PCT/JP2015/076121 2014-09-17 2015-09-15 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム WO2016043182A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US15/391,143 US10210886B2 (en) 2014-09-17 2016-12-27 Voice segment detection system, voice starting end detection apparatus, and voice terminal end detection apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014188890A JP6275606B2 (ja) 2014-09-17 2014-09-17 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム
JP2014-188890 2014-09-17

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/391,143 Continuation US10210886B2 (en) 2014-09-17 2016-12-27 Voice segment detection system, voice starting end detection apparatus, and voice terminal end detection apparatus

Publications (1)

Publication Number Publication Date
WO2016043182A1 true WO2016043182A1 (ja) 2016-03-24

Family

ID=55533219

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/076121 WO2016043182A1 (ja) 2014-09-17 2015-09-15 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム

Country Status (3)

Country Link
US (1) US10210886B2 (ja)
JP (1) JP6275606B2 (ja)
WO (1) WO2016043182A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108766418B (zh) 2018-05-24 2020-01-14 百度在线网络技术(北京)有限公司 语音端点识别方法、装置及设备
CN112530408A (zh) * 2020-11-20 2021-03-19 北京有竹居网络技术有限公司 用于识别语音的方法、装置、电子设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001343983A (ja) * 2000-05-30 2001-12-14 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置
JP2003195880A (ja) * 2001-12-28 2003-07-09 Nec Corp サーバ・クライアント型音声認識装置
JP2005331616A (ja) * 2004-05-18 2005-12-02 Nippon Telegr & Teleph Corp <Ntt> クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
JP3885523B2 (ja) 2001-06-20 2007-02-21 日本電気株式会社 サーバ・クライアント型音声認識装置及び方法
US6999921B2 (en) * 2001-12-13 2006-02-14 Motorola, Inc. Audio overhang reduction by silent frame deletion in wireless calls
JP4197271B2 (ja) 2003-06-17 2008-12-17 シャープ株式会社 通信端末、通信端末の制御方法、音声認識処理装置、音声認識処理装置の制御方法、通信端末制御プログラム、通信端末制御プログラムを記録した記録媒体、音声認識処理装置制御プログラム、および、音声認識処理装置制御プログラムを記録した記録媒体
US20070168591A1 (en) * 2005-12-08 2007-07-19 Inter-Tel, Inc. System and method for validating codec software
EP2561508A1 (en) * 2010-04-22 2013-02-27 Qualcomm Incorporated Voice activity detection
US9183843B2 (en) * 2011-01-07 2015-11-10 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
US9444816B2 (en) * 2011-03-30 2016-09-13 Qualcomm Incorporated Continuous voice authentication for a mobile device
US9818407B1 (en) * 2013-02-07 2017-11-14 Amazon Technologies, Inc. Distributed endpointing for speech recognition
JP6105321B2 (ja) * 2013-02-21 2017-03-29 富士通テン株式会社 通信装置、通信システム、通信方法、及び、プログラム
JP2015011170A (ja) * 2013-06-28 2015-01-19 株式会社ATR−Trek ローカルな音声認識を行なう音声認識クライアント装置
KR101834546B1 (ko) * 2013-08-28 2018-04-13 한국전자통신연구원 핸즈프리 자동 통역 서비스를 위한 단말 장치 및 핸즈프리 장치와, 핸즈프리 자동 통역 서비스 방법
US9311932B2 (en) * 2014-01-23 2016-04-12 International Business Machines Corporation Adaptive pause detection in speech recognition
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001343983A (ja) * 2000-05-30 2001-12-14 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置
JP2003195880A (ja) * 2001-12-28 2003-07-09 Nec Corp サーバ・クライアント型音声認識装置
JP2005331616A (ja) * 2004-05-18 2005-12-02 Nippon Telegr & Teleph Corp <Ntt> クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体

Also Published As

Publication number Publication date
JP2016061890A (ja) 2016-04-25
US10210886B2 (en) 2019-02-19
US20170110146A1 (en) 2017-04-20
JP6275606B2 (ja) 2018-02-07

Similar Documents

Publication Publication Date Title
US20170330566A1 (en) Distributed Volume Control for Speech Recognition
JP7354210B2 (ja) 複数のデバイス上でのホットワード検出
US11023755B2 (en) Detection of liveness
US10586534B1 (en) Voice-controlled device control using acoustic echo cancellation statistics
US9900685B2 (en) Creating an audio envelope based on angular information
US20190114496A1 (en) Detection of liveness
US20170332168A1 (en) Processing Speech from Distributed Microphones
US9824685B2 (en) Handsfree device with continuous keyword recognition
US11908456B2 (en) Azimuth estimation method, device, and storage medium
JP7353497B2 (ja) 能動的に対話の開始を提起するためのサーバ側処理方法及びサーバ、並びに能動的に対話の開始が提起できる音声インタラクションシステム
JP6531776B2 (ja) 音声対話システムおよび音声対話方法
JP5753212B2 (ja) 音声認識システム、サーバ、および音声処理装置
US20190147890A1 (en) Audio peripheral device
US10536191B1 (en) Maintaining consistent audio setting(s) between wireless headphones
US20170033753A1 (en) Volume Control Methods and Devices, and Multimedia Playback Control Methods and Devices
US20190362709A1 (en) Offline Voice Enrollment
CN110164443B (zh) 用于电子设备的语音处理方法、装置以及电子设备
JP6275606B2 (ja) 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム
US9106717B2 (en) Speaking participant identification
JP6817386B2 (ja) 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末
US20120027225A1 (en) Bell sound outputting apparatus and method thereof
WO2020087336A1 (zh) 一种移动平台的控制方法及控制设备
KR20200050152A (ko) 다중 기기를 음성 인식 시스템 및 그 제어 방법
US11735187B2 (en) Hybrid routing for hands-free voice assistant, and related systems and methods
US20170099555A1 (en) Enabling Voice Interaction Using Secondary Microphone

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15842797

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15842797

Country of ref document: EP

Kind code of ref document: A1