WO2021014612A1 - 発話区間検出装置、発話区間検出方法、プログラム - Google Patents

発話区間検出装置、発話区間検出方法、プログラム Download PDF

Info

Publication number
WO2021014612A1
WO2021014612A1 PCT/JP2019/029035 JP2019029035W WO2021014612A1 WO 2021014612 A1 WO2021014612 A1 WO 2021014612A1 JP 2019029035 W JP2019029035 W JP 2019029035W WO 2021014612 A1 WO2021014612 A1 WO 2021014612A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
section
utterance
threshold value
speech
Prior art date
Application number
PCT/JP2019/029035
Other languages
English (en)
French (fr)
Inventor
亮 増村
隆伸 大庭
清彰 松井
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2019/029035 priority Critical patent/WO2021014612A1/ja
Priority to US17/628,045 priority patent/US20220270637A1/en
Priority to JP2021534484A priority patent/JP7409381B2/ja
Publication of WO2021014612A1 publication Critical patent/WO2021014612A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Definitions

  • the present invention relates to an utterance section detection device for an acoustic signal, a utterance section detection method, and a program.
  • Speech interval detection plays an important role in voice applications such as voice recognition, speaker recognition, language identification, and voice dialogue.
  • voice dialogue it is possible to realize a natural interaction between the user and the system by performing voice recognition for each utterance section and responding for each utterance section according to the voice recognition result.
  • An important point to consider when realizing utterance section detection is to robustly cut out the correct utterance section from the input acoustic signal. That is, it is important to detect the utterance section so that the original utterance is not interrupted or the extra non-speech section is excessively included.
  • Conventional utterance section detection is realized by a technique called voice non-voice determination and post-processing using a threshold value for the duration of the non-voice section.
  • Voice non-voice determination is a technique for accurately determining the voice section and non-voice section of an acoustic signal.
  • voice non-voice determination generally, a structure is adopted in which a binary value of whether it is voice or non-voice is determined for each short frame (for example, 20 msec) of an acoustic signal.
  • the simplest method is a method of performing voice non-voice determination by calculating voice power for each short-time frame and determining whether the voice power is larger or smaller than a threshold value manually determined in advance.
  • a threshold value manually determined in advance.
  • Non-Patent Document 1 a method based on machine learning is disclosed in Non-Patent Document 1 and the like.
  • the post-processing process processing is performed on a label series of voice or non-voice, which is output information after performing voice non-voice determination.
  • the threshold ⁇ of the duration of the non-speech section given manually in advance
  • the non-speech section with a time length less than the threshold ⁇ is regarded as the “non-speech section within the utterance section”, and the time equal to or greater than the threshold ⁇ .
  • the long non-speech section as the "non-speech section outside the speech section”
  • the "voice section” and the "non-speech section within the speech section” are regarded as the speech section.
  • the utterance section detection using this method is disclosed in, for example, Non-Patent Document 1.
  • a fixed threshold value is set for the duration of the non-voice section as post-processing after the voice non-voice determination, and it is not considered whether or not the voice section immediately before the non-voice section is the utterance end. Therefore, it may not be possible to detect the utterance section well, especially when dealing with various speech phenomena such as spoken words. For example, if the end of a certain voice section is a stagnation such as "er”, it is highly possible that this end is not the end of the utterance, and the non-speech section following this is the "non-speech section within the utterance section". Conceivable.
  • the threshold value ⁇ is set to a long time such as 2.0 seconds, it is possible to prevent the utterance section from being interrupted in the middle of the utterance to some extent, but the extra non-voice section is excessive in the utterance section. May be included in.
  • the threshold value ⁇ is set to a short time such as 0.2 seconds, it is possible to prevent an extra non-speech section from being excessively included in the utterance section, but the utterance is made in the middle of the utterance.
  • the section may be interrupted.
  • an object of the present invention is to provide an utterance section detection device capable of detecting an utterance section with high accuracy based on whether or not the end of the voice section is the utterance end.
  • the voice non-speech determination device of the present invention includes a voice non-speech determination unit, an utterance end determination unit, a non-voice section duration threshold determination unit, and an utterance section detection unit.
  • the voice / non-voice determination unit performs voice / non-voice determination, which is a determination as to whether a frame having an acoustic signal is voice or non-voice.
  • the utterance end determination unit performs utterance end determination, which is a determination as to whether or not the end is the utterance end, for each voice section in which the result of the voice non-voice determination is a voice.
  • the non-speech section duration threshold value determination unit determines the threshold value for the duration of the non-speech section based on the result of the utterance end determination.
  • the utterance section detection unit detects the utterance section by comparing the duration of the non-speech section following the voice section with the corresponding threshold value.
  • the utterance section can be detected with high accuracy based on whether or not the end of the voice section is the utterance end.
  • FIG. 1 The block diagram which shows the structure of the utterance section detection apparatus of Example 1.
  • FIG. 1 The flowchart which shows the operation of the utterance section detection apparatus of Example 1.
  • the conceptual diagram which shows the operation example of the voice section extraction part of the speech section detection device of Example 1.
  • FIG. The figure which shows the functional structure example of a computer.
  • the utterance section detection device 11 of the present embodiment includes a voice non-speech determination unit 111, a voice section extraction unit 112, an utterance end determination unit 113, a non-voice section duration threshold value determination unit 114, and the like.
  • the utterance section detection unit 115 is included.
  • the voice non-voice determination unit 111 performs voice non-voice determination, which is a determination of whether a frame having an acoustic signal is voice or non-voice (S111).
  • the voice section extraction unit 112 extracts a voice section which is a section in which the result of the voice non-voice determination is voice (S112).
  • the utterance end determination unit 113 makes an utterance end determination for each voice section, which is a determination of whether or not the end is the utterance end (S113).
  • the non-voice section duration threshold value determination unit 114 determines the threshold value for the duration of the non-voice section based on the result of the utterance end determination (S114).
  • the utterance section detection unit 115 detects the utterance section by comparing the duration of the non-speech section following the voice section with the corresponding threshold value (S115). At this time, the non-voice section duration threshold value determination unit 114 sets the corresponding threshold value to a smaller value as the probability that the end of the voice section is the utterance end increases, and the probability that the end of the voice section is the utterance end can be reduced. The larger the corresponding threshold value is.
  • the utterance section detection unit 115 detects the corresponding non-speech section as a non-speech section outside the utterance section when the duration of the non-speech section following the voice section is equal to or longer than the corresponding threshold value, and the non-speech section following the voice section. When the duration of is less than the corresponding threshold value, the corresponding non-speech section is detected as the non-speech section in the utterance section.
  • step S113 if the end of the voice section is a stagnation such as "er”, it is determined based on the utterance end determination in step S113 that the probability that the end of the voice section is the utterance end is low, and in step S114, Give a longer threshold (eg 2.0 seconds) for the duration of the non-voice section.
  • a longer threshold eg 2.0 seconds
  • the end of the immediately preceding voice section is a final particle expression such as "desu” or "masu”
  • a shorter threshold value for example, 0.2 seconds
  • ⁇ Voice non-voice determination unit 111> Input: Series of acoustic features for each short frame (x 1 , ..., x T ) Output: Audio non-audio label series (s 1 , ..., s T )
  • the input of the voice non-voice determination unit 111 is an acoustic signal represented by a series of acoustic features for each short-time frame.
  • Various information can be used as the acoustic feature amount, and for example, information such as the mel frequency cepstrum coefficient and the fundamental frequency can be used. Since these are known, they are omitted here.
  • the input acoustic signal is represented by (x 1 , ..., x T ), and x t represents the acoustic feature of the t-th frame.
  • the output is a non-speech label sequence (s 1 , ..., s T ), and (s 1 , ..., s T ) corresponds to (x 1 , ..., x T ).
  • s t represents the state of the t-th frame and has a label of "voice" or "non-voice".
  • T is the number of frames included in the acoustic signal.
  • the conversion method from the series of acoustic features for each short-time frame to the voice non-voice label series may be any method as long as it satisfies the above conditions.
  • the audio non-audio determination is realized by modeling the generation probability of the audio non-audio label of each frame.
  • the generation probability of the non-voice label of the t-th frame can be defined by the following equation.
  • P (s t ) VoiceActivityDetection (x 1 , ..., x t ; ⁇ 1 )
  • VoiceActivityDetection () is a function for performing voice non-voice determination, and any network structure can be applied as long as the generation probability of the voice non-voice label can be obtained as an output. For example, by combining a recurrent neural network, a convolutional neural network, or the like with a softmax layer, it is possible to construct a network for obtaining the state generation probability.
  • ⁇ 1 is a parameter obtained by learning using the learning data given in advance, and depends on the definition of the function of VoiceActivityDetection (). When performing such modeling, the non-speech determination is based on the following equation.
  • s ⁇ 1 , ..., s ⁇ T are the voice-non-voice states of the prediction result.
  • Reference Non-Patent Document 3 a method using the Gaussian mixture distribution disclosed in Reference Non-Patent Document 3 can also be used.
  • Reference Non-Patent Document 1 X.-L. Zhang and J. Wu, “Deep belief networks based voice activity detection,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 21, no. 4, pp. 697 -710, 2013.
  • Reference Non-Patent Document 2 N. Ryant, M. Liberman, and J. Yuan, “Speech activity detection on youtube using deep neural networks,” In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp. 728 -731, 2013.
  • Reference Non-Patent Document 3 J. Sohn, NS Kim, and W. Sung, “A statistical model-based voice activity detection,” IEEE Signal Processing Letters, vol. 6, no. 1, pp.1-3, 1999 .
  • ⁇ Voice section extraction unit 112> Input: Acoustic feature sequence for each short frame (x 1 , ..., x T ), audio non-audio label sequence (s 1 , ..., s T )
  • the voice section extraction unit 112 is based on the information of the voice non-voice label series (s 1 , ..., s T ), and the series of acoustic features (x 1 , ..., x) for each short-time frame. From T ), a series (x n , ..., x m ) of acoustic features in a certain section determined to be voice is extracted (S112). It should be noted that 1 ⁇ n and m ⁇ T. Here, how many sections of voice can be extracted depends on the voice non-voice label series, and if all the label series are determined to be "non-voice", for example, no voice section is extracted. As shown in FIG.
  • the voice section extraction unit 112 corresponds to a section in which the voice labels in the voice non-voice label series (s 1 , s 2 , ..., s T-1 , s T ) are continuous. The section is cut out from the series of acoustic features. In the example of FIG. 3, since (s 3 , ..., s T-2 ) are audio labels and the others are non-audio labels, the audio section extraction unit 112 has (x 3 , ..., ... , X T-2 ) is extracted as a voice section.
  • ⁇ Utterance end determination unit 113> Input: A series of acoustic features in a section determined to be voice (x n , ..., x m ) (1 ⁇ n and m ⁇ T) Output: Probability that the end of the target voice section is the end of the utterance p n, m
  • the utterance end determination unit 113 takes a series of acoustic features (x n , ..., x m ) of a section determined to be voice as input, and the probability that the end of the voice section is the utterance end p n, m. Is output (S113).
  • Step S113 may be any process as long as it outputs the probability p n, m that the end of the target voice section is the end of the utterance based on (x n , ..., x m ). ..
  • step S113 may be realized by a method using a neural network described in Reference Non-Patent Document 4.
  • the probability that the end of the voice section is the end of the utterance can be defined by the following equation.
  • p n, m EndOfUtterance (x n , ..., x m ; ⁇ 2 )
  • EndOfUtterance () is a function for outputting the probability that the end of the input acoustic feature series is the end of the utterance, and can be configured by, for example, combining a recurrent neural network and a sigmoid function.
  • ⁇ 2 is a parameter obtained by learning using the training data given in advance, and depends on the definition of the function of EndOfUtterance ().
  • acoustic features (x n , ..., x m ) of a certain section determined to be voice was used as information, but it was obtained in the past of the target voice section. If it is information, any information can be added and used. For example, information on a voice section past the target voice section (series of acoustic features and output information for determining the end of utterance at that time) may be used.
  • the non-voice section duration threshold value determination unit 114 determines the threshold value ⁇ n, m of the non-voice section duration immediately after the target voice section based on the probability p n, m that the target voice section is the end of the utterance.
  • K and k are hyperparameters determined in advance by hand, and K ⁇ k ⁇ 0.0.
  • p n and m 0.9
  • ⁇ n and m 0.1
  • the threshold value of the non-voice section duration immediately after the target voice section should be set short. Can be done.
  • p n, m 0.1
  • ⁇ n, m 0.9
  • the threshold value of the non-voice section duration immediately after the target voice section can be set longer.
  • the threshold value determination method in step S114 may be any method as long as it is a method of automatically determining the target voice section using the probability of the end of the utterance.
  • a rule-based threshold determination algorithm may be executed.
  • ⁇ Utterance section detection unit 115 Input: Voice non-voice label series (s 1 , ..., s T ), threshold of non-voice section duration immediately after each voice section ⁇ n, m (pair of n, m includes 0 or more) Output: Speech section label series (u 1 , ..., u T )
  • the utterance section detection unit 115 uses the voice non-speech label sequence (s 1 , ..., s T ) and the threshold value ⁇ n, m of the non-speech section duration immediately after each voice section, and the utterance section label sequence (u). 1 , ..., u T ) is output (S115).
  • (u 1 , ..., u T ) represents a label series representing the utterance section corresponding to (s 1 , ..., s T )
  • u t is the acoustic signal of the t-th frame "speech section". It is a binary label indicating "inside” or "outside the utterance section". This process can be realized as post-processing for (s 1 , ..., s T ).
  • the threshold value of ⁇ n, m when the threshold value of ⁇ n, m is given, it means that the non-voice section of one or more frames continues before the voice non-voice label s m + 1 of the m + 1th frame.
  • the utterance section detection unit 115 compares the duration of the non-speech section with the threshold ⁇ n, m , and if the duration of the non-speech section is less than the threshold, determines that section as a “non-speech section within the utterance section”. To do. On the other hand, if the duration of the non-speech section is equal to or longer than the threshold value, the utterance section detection unit 115 determines the section as "a non-speech section outside the utterance section" (S115).
  • the utterance section detection unit 115 determines the utterance section label series (u 1 , ..., u T ) by performing this process for each threshold value of the non-speech section duration immediately after each voice section. That is, the utterance section detection unit 115 gives a label of "inside the utterance section” to the frames of the "non-voice section in the utterance section” and the “voice section", and the frame of the "non-voice section outside the utterance section”. And give the label "outside the utterance section".
  • the utterance section detection device 11 of the first embodiment can be robustly cut out from the input acoustic signal. According to the utterance section detection device 11 of the first embodiment, even when various voice phenomena such as spoken words are included in the acoustic signal, the utterance section is interrupted in the middle of the utterance, or the utterance section is extra. The utterance section can be detected without excessive inclusion of the non-voice section.
  • the device of the present invention is, for example, as a single hardware entity, an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, and a communication device (for example, a communication cable) capable of communicating outside the hardware entity.
  • Communication unit to which can be connected CPU (Central Processing Unit, cache memory, registers, etc.), RAM and ROM as memory, external storage device as hard hardware, and input, output, and communication units of these , CPU, RAM, ROM, has a connecting bus so that data can be exchanged between external storage devices.
  • a device (drive) or the like capable of reading and writing a recording medium such as a CD-ROM may be provided in the hardware entity.
  • a general-purpose computer or the like is a physical entity equipped with such hardware resources.
  • the external storage device of the hardware entity stores the program required to realize the above-mentioned functions and the data required for processing this program (not limited to the external storage device, for example, reading a program). It may be stored in a ROM, which is a dedicated storage device). Further, the data obtained by the processing of these programs is appropriately stored in a RAM, an external storage device, or the like.
  • each program stored in the external storage device (or ROM, etc.) and the data necessary for processing each program are read into the memory as needed, and are appropriately interpreted, executed, and processed by the CPU. ..
  • the CPU realizes a predetermined function (each configuration requirement represented by the above, ... Department, ... means, etc.).
  • the present invention is not limited to the above-described embodiment, and can be appropriately modified without departing from the spirit of the present invention. Further, the processes described in the above-described embodiment are not only executed in chronological order according to the order described, but may also be executed in parallel or individually depending on the processing capacity of the device that executes the processes or if necessary. ..
  • the processing function in the hardware entity (device of the present invention) described in the above embodiment is realized by a computer
  • the processing content of the function that the hardware entity should have is described by a program. Then, by executing this program on the computer, the processing function in the hardware entity is realized on the computer.
  • the various processes described above can be performed by causing the recording unit 10020 of the computer shown in FIG. 4 to read a program for executing each step of the above method and operating the control unit 10010, the input unit 10030, the output unit 10040, and the like. ..
  • the program that describes this processing content can be recorded on a computer-readable recording medium.
  • the computer-readable recording medium may be, for example, a magnetic recording device, an optical disk, a photomagnetic recording medium, a semiconductor memory, or the like.
  • a hard disk device, a flexible disk, a magnetic tape, or the like as a magnetic recording device is used as an optical disk
  • a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), or a CD-ROM (Compact Disc Read Only) is used as an optical disk.
  • Memory CD-R (Recordable) / RW (ReWritable), etc.
  • MO Magnetto-Optical disc
  • EEPROM Electrical Erasable and Programmable-Read Only Memory
  • semiconductor memory can be used.
  • this program is carried out, for example, by selling, transferring, renting, etc., a portable recording medium such as a DVD or CD-ROM on which the program is recorded.
  • the program may be stored in the storage device of the server computer, and the program may be distributed by transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. Then, at the time of executing the process, the computer reads the program stored in its own recording medium and executes the process according to the read program. Further, as another execution form of this program, a computer may read the program directly from a portable recording medium and execute processing according to the program, and further, the program is transferred from the server computer to this computer. It is also possible to execute the process according to the received program one by one each time.
  • ASP Application Service Provider
  • the program in this embodiment includes information used for processing by a computer and equivalent to the program (data that is not a direct command to the computer but has a property of defining the processing of the computer, etc.).
  • the hardware entity is configured by executing a predetermined program on the computer, but at least a part of these processing contents may be realized in terms of hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

音声区間の終端が発話終端であるか否かに基づいて高精度に発話区間を検出することができる発話区間検出装置を提供する。音響信号のあるフレームが音声であるか非音声であるかの判定である音声非音声判定を行う音声非音声判定部と、音声非音声判定の結果が音声となる区間である音声区間ごとに、その終端が発話終端か否かの判定である発話終端判定を行う発話終端判定部と、発話終端判定の結果に基づいて非音声区間の継続時間に関する閾値を決定する非音声区間継続時間閾値決定部と、音声区間に続く非音声区間の継続時間と対応する閾値とを比較して、発話区間を検出する発話区間検出部を含む。

Description

発話区間検出装置、発話区間検出方法、プログラム
 本発明は、音響信号の発話区間検出に関し、発話区間検出装置、発話区間検出方法、プログラムに関する。
 音声認識や話者認識、言語識別、音声対話等の音声アプリケーションにおいて、発話区間検出は重要な役割を担っている。例えば音声対話では、ユーザの音声に対し、発話区間ごとに音声認識を行い、音声認識結果に応じて発話区間ごとに応答を行うことで、ユーザとシステムの自然なインタラクションを実現することができる。発話区間検出を実現するにあたって考慮しなければいけない重要な点は、入力された音響信号から、正しい発話区間を頑健に切り出すことである。すなわち、本来の発話が途切れてしまったり、余分な非音声区間が過剰に含まれたりしないように、発話区間を検出することが重要となる。
 従来の発話区間検出は、音声非音声判定という技術と、非音声区間の継続時間に対する閾値を用いたポストプロセシングにより実現されている。
 音声非音声判定は、音響信号の音声区間と非音声区間を正確に判定するための技術である。音声非音声判定では一般的に、音響信号の短時間フレーム(例えば20msec)ごとに、音声であるか非音声であるかの2値を判定する構造がとられている。最も簡易な方法は、短時間フレームごとに音声パワーを計算して、音声パワーがあらかじめ人手で決定した閾値よりも大きいか小さいかを判断することにより、音声非音声判定を行う方法である。さらに発展的な方法としては、機械学習に基づく音声非音声判定が多く検討されている。機械学習に基づく音声非音声判定の場合、短時間フレームごとにメル周波数ケプストラム係数や基本周波数音響特徴量を抽出し、その情報から音声か非音声かのラベルを出力する識別器を用いて音声非音声判定を行う。例えば機械学習に基づく方法は非特許文献1などに開示されている。
 続いて、非音声区間の継続時間に対する閾値を用いたポストプロセシングについて説明する。ポストプロセシング処理では、音声非音声判定を実施した後の出力情報である音声か非音声かのラベル系列に対して処理を行う。ポストプロセシングとして、あらかじめ人手で与えた非音声区間の継続時間の閾値σを用いて、閾値σ未満の時間長の非音声区間を「発話区間内の非音声区間」とみなし、閾値σ以上の時間長の非音声区間を「発話区間外の非音声区間」とみなすことで、「音声区間」および「発話区間内の非音声区間」を発話区間とみなす。この方法を用いた発話区間検出は、例えば非特許文献1などに開示されている。
S. Tong, H. Gu, and K. Yu, "A comparative study of robustness of deep learning approarches for VAD," In Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 5695-5699, 2016.
 従来技術では、音声非音声判定後のポストプロセシングとして、非音声区間の継続時間に固定の閾値を設けており、非音声区間直前の音声区間が発話終端であるか否かを考慮していない。そのため、特に話し言葉のような多様な音声現象を扱う際に発話区間をうまく検出することができない場合がある。例えば、ある音声区間の終端が「えーとー」等の言い淀みであれば、この終端は発話終端でない可能性が高く、これに続く非音声区間は「発話区間内の非音声区間」であると考えられる。一方、ある音声区間の終端が「です」や「ます」等の終助詞表現であれば、この終端は発話終端である可能性が高く、これに続く非音声区間は「発話区間外の非音声区間」であると考えられる。従来技術では、非音声区間直前の音声区間の終端が発話終端であるか否かを考慮せず、非音声区間の継続時間に固定の閾値を用いているため、期待された動作を実現できない場合があった。例えば、閾値σを2.0秒などと長めの時間に設定しておくと、発話の途中で発話区間が途切れてしまうことを一定程度防ぐことができるが、余分な非音声区間が発話区間内に過剰に含まれてしまう場合がある。一方、閾値σを0.2秒などと短めの時間に設定しておくと、余分な非音声区間が発話区間内に過剰に含まれてしまうことを一定程度防ぐことができるが、発話の途中で発話区間が途切れてしまう場合がある。
 そこで本発明では、音声区間の終端が発話終端であるか否かに基づいて高精度に発話区間を検出することができる発話区間検出装置を提供することを目的とする。
 本発明の音声非音声判定装置は、音声非音声判定部と、発話終端判定部と、非音声区間継続時間閾値決定部と、発話区間検出部を含む。
 音声非音声判定部は、音響信号のあるフレームが音声であるか非音声であるかの判定である音声非音声判定を行う。発話終端判定部は、音声非音声判定の結果が音声となる区間である音声区間ごとに、その終端が発話終端か否かの判定である発話終端判定を行う。非音声区間継続時間閾値決定部は、発話終端判定の結果に基づいて非音声区間の継続時間に関する閾値を決定する。発話区間検出部は、音声区間に続く非音声区間の継続時間と対応する閾値とを比較して、発話区間を検出する。
 本発明の音声非音声判定装置によれば、音声区間の終端が発話終端であるか否かに基づいて高精度に発話区間を検出することができる。
実施例1の発話区間検出装置の構成を示すブロック図。 実施例1の発話区間検出装置の動作を示すフローチャート。 実施例1の発話区間検出装置の音声区間抽出部の動作例を示す概念図。 コンピュータの機能構成例を示す図。
 以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
<発話区間検出装置11の構成、動作>
 以下、図1を参照して実施例1の発話区間検出装置の構成を説明する。同図に示すように本実施例の発話区間検出装置11は、音声非音声判定部111と、音声区間抽出部112と、発話終端判定部113と、非音声区間継続時間閾値決定部114と、発話区間検出部115を含む。
 以下、図2を参照して各構成要件の動作を説明する。
 音声非音声判定部111は、音響信号のあるフレームが音声であるか非音声であるかの判定である音声非音声判定を行う(S111)。音声区間抽出部112は、音声非音声判定の結果が音声となる区間である音声区間を抽出する(S112)。発話終端判定部113は、音声区間ごとに、その終端が発話終端か否かの判定である発話終端判定を行う(S113)。非音声区間継続時間閾値決定部114は、発話終端判定の結果に基づいて非音声区間の継続時間に関する閾値を決定する(S114)。発話区間検出部115は、音声区間に続く非音声区間の継続時間と対応する閾値とを比較して、発話区間を検出する(S115)。このとき、非音声区間継続時間閾値決定部114は、音声区間の終端が発話終端である確率が高くなればなるほど対応する閾値を小さな値とし、音声区間の終端が発話終端である確率が低くなればなるほど対応する閾値を大きな値とする。発話区間検出部115は、音声区間に続く非音声区間の継続時間が対応する閾値以上である場合に対応する非音声区間を発話区間外の非音声区間として検出し、音声区間に続く非音声区間の継続時間が対応する閾値未満である場合に対応する非音声区間を発話区間内の非音声区間として検出する。
 すなわち、音声区間の終端が「えーとー」等の言い淀みであれば、ステップS113の発話終端判定に基づき、音声区間の終端が発話終端である確率が低いとの判定を行い、ステップS114において、非音声区間の継続時間に対して長めの閾値(例えば2.0秒)を与える。一方、直前の音声区間の終端部が「です」や「ます」等の終助詞表現であれば、ステップS113の発話終端判定に基づき該当の音声区間の終端が発話終端である可能性が高いとの判定を行い、ステップS114において、非音声区間の継続時間に対して短めの閾値(例えば0.2秒)を与える。
 以下、各構成要件の動作をさらに詳細に説明する。
<音声非音声判定部111>
入力:短時間フレームごとの音響特徴量の系列(x1,...,xT)
出力:音声非音声ラベル系列(s1,...,sT)
 音声非音声判定部111の入力は、短時間フレームごとの音響特徴量の系列で表される音響信号である。この音響特徴量としては、様々な情報が利用できるが、例えばメル周波数ケプストラム係数や基本周波数といった情報を用いることができる。これらは公知であるためここでは省略する。ここでは、入力の音響信号を(x1,...,xT)と表し、xtはt番目のフレームの音響特徴量を表す。出力は音声非音声ラベル系列(s1,...,sT)であり、(s1,...,sT)は(x1,...,xT)に対応しており、stはt番目のフレームの状態を表し、「音声」か「非音声」のラベルを持つ。ここで、Tは音響信号に含まれるフレーム数である。
 短時間フレームごとの音響特徴量の系列から音声非音声ラベル系列への変換方法は、上述の条件を満たす方法であればどんな方法でも良い。例えば参考非特許文献1や参考非特許文献2に開示されたDeep Neural Networkを用いた判定では、各フレームの音声非音声ラベルの生成確率をモデル化することで音声非音声判定を実現する。t番目のフレームの音声非音声ラベルの生成確率は次式で定義できる。
P(st)=VoiceActivityDetection(x1,...,xt1)
 ここで、VoiceActivityDetection()は音声非音声判定を行うための関数であり、出力として音声非音声ラベルの生成確率を求めることができるものであれば、任意のネットワーク構造が適用できる。たとえば、リカレントニューラルネットワークや畳み込みニューラルネットワークなどと、ソフトマックス層を組み合わせることにより状態の生成確率を求めるネットワークを構成できる。θ1はあらかじめ与えられた学習データを用いて学習により求められるパラメータであり、VoiceActivityDetection()の関数の定義に依存したものとなる。このようなモデル化を行う場合、音声非音声判定は次式に基づく。
Figure JPOXMLDOC01-appb-M000001
ここで、s^1,...,s^Tは予測結果の音声非音声状態である。
 なお、上記以外の方法として、例えば参考非特許文献3に開示されたガウス混合分布を用いた方法なども用いることができる。
(参考非特許文献1:X.-L. Zhang and J. Wu, “Deep belief networks based voice activity detection,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 21, no. 4, pp. 697-710, 2013.)
(参考非特許文献2:N. Ryant, M. Liberman, and J. Yuan, “Speech activity detection on youtube using deep neural networks,” In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp. 728-731, 2013.)
(参考非特許文献3:J. Sohn, N. S. Kim, and W. Sung, “A statistical model-based voice activity detection,” IEEE Signal Processing Letters, vol. 6, no. 1, pp.1-3, 1999.)
<音声区間抽出部112>
入力:短時間フレームごとの音響特徴量の系列(x1,...,xT)、音声非音声ラベル系列(s1,...,sT)
出力:音声と判定されたある区間の音響特徴量の系列(xn,...,xm)(1≦n, m≦T, n<m)
 音声区間抽出部112は、音声非音声ラベル系列(s1,...,sT)の情報をもとにして、短時間フレームごとの音響特徴量の系列(x1,...,xT)から、音声と判定されたある区間の音響特徴量の系列(xn,...,xm)を抽出する(S112)。なお、1≦nかつ、m≦Tである。ここで何区間分の音声区間を抽出できるのかは、音声非音声ラベル系列に依存しており、ラベル系列が例えば全部「非音声」と判定されれば、音声区間は一つも抽出されない。図3に示すように、音声区間抽出部112は、音声非音声ラベル系列(s1,s2,...,sT-1,sT)中の音声ラベルが連続している区間に対応した区間を音響特徴量の系列から切り出す。図3の例では、(s3,...,sT-2)までが音声ラベルであって、その他が非音声ラベルであるため、音声区間抽出部112は、(x3,...,xT-2)を音声区間として抽出する。
<発話終端判定部113>
入力:音声と判定されたある区間の音響特徴量の系列(xn,...,xm)(1≦n and m≦T)
出力:対象の音声区間の終端が発話終端である確率pn,m
 発話終端判定部113は、音声と判定されたある区間の音響特徴量の系列(xn,...,xm)を入力として、その音声区間の終端が発話終端である確率pn,mを出力する(S113)。ステップS113は、(xn,...,xm)に基づいて、対象の音声区間の終端が発話終端である確率pn,mを出力する処理であれば、どんな処理であってもよい。例えばステップS113は、参考非特許文献4に記載のニューラルネットワークを用いた方法で実現してもよい。この場合、音声区間の終端が発話終端である確率は次式で定義できる。
pn,m=EndOfUtterance(xn,...,xm2)
 ここで、EndOfUtterance()は入力された音響特徴量系列の終端が発話終端である確率を出力するための関数であり、たとえば、リカレントニューラルネットワークとシグモイド関数を組み合わせることにより構成できる。θ2はあらかじめ与えられた学習データを用いて学習により求められるパラメータであり、EndOfUtterance()の関数の定義に依存する。
 なお、本実施例では、音声と判定されたある区間の音響特徴量の系列(xn,...,xm)のみを情報として用いたが、対象の音声区間よりも過去に得られた情報であれば、任意の情報を追加して用いることもできる。例えば、対象の音声区間よりも過去の音声区間の情報(音響特徴量の系列や、その際の発話終端判定の出力情報)を用いてもよい。
(参考非特許文献4:Ryo Masumura, Taichi Asami, Hirokazu Masataki, Ryo Ishii, Ryuichiro Higashinaka, "Online End-of-Turn Detection from Speech based on Stacked Time-Asynchronous Sequential Networks", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp.1661-1665, 2017.)
<非音声区間継続時間閾値決定部114>
入力:対象の音声区間が発話終端である確率pn,m
出力:対象の音声区間直後の非音声区間継続時間の閾値σn,m
 非音声区間継続時間閾値決定部114は、対象の音声区間が発話終端である確率pn,mに基づいて、対象の音声区間直後の非音声区間継続時間の閾値σn,mを決定する。入力される確率pn,mは、値が大きいほど対象の音声区間の終端が発話終端である可能性が高いことを意味し、値が小さいほど対象の音声区間の終端が発話終端ではないことを意味している。この性質を活かして、例えば次式のように非音声区間継続時間の閾値を決定する。
σn,m=K-kpn,m
 ここで、Kおよびkは人手によりあらかじめ決定したハイパーパラメータであり、K≧k≧0.0である。例えば、K=1.0、k=1.0とした場合、pn,mが0.9であれば、σn,mは0.1となり、対象の音声区間直後の非音声区間継続時間の閾値を短めに設定することができる。一方、pn,mが0.1であれば、σn,mは0.9となり、対象の音声区間直後の非音声区間継続時間の閾値を長めに設定することができる。
 なお、ステップS114の閾値決定方法は、対象の音声区間が発話終端である確率を用いて自動決定する方法であればどんな方法でも良い。例えばpn,mの値に応じて固定した値を設定することもできる。例えばpn,m≧0.5であればσn,m=0.3、pn,m<0.5であればσn,m=1.0というルールをあらかじめ設定し、非音声区間継続時間閾値決定部114はこのルールに基づく閾値決定アルゴリズムを実行してもよい。
<発話区間検出部115>
入力:音声非音声ラベル系列(s1,...,sT)、各音声区間直後の非音声区間継続時間の閾値σn,m(n,mのペアは0以上含まれる)
出力:発話区間ラベル系列(u1,...,uT)
 発話区間検出部115は、音声非音声ラベル系列(s1,...,sT)と各音声区間直後の非音声区間継続時間の閾値σn,mを用いて、発話区間ラベル系列(u1,...,uT)を出力する(S115)。(u1,...,uT)は(s1,...,sT)に対応した発話区間を表現するラベル系列を表し、utはt番目のフレームの音響信号が「発話区間内」か「発話区間外」を表す2値ラベルである。この処理は、(s1,...,sT)に対するポストプロセシングとして実現できる。
 ここで、σn,mという閾値が与えられた場合は、m+1番目のフレームの音声非音声ラベルsm+1より先に1フレーム以上の非音声区間が続くことを意味している。発話区間検出部115は、非音声区間の継続時間と閾値σn,mを比較して、非音声区間の継続時間が閾値未満であればその区間を「発話区間内の非音声区間」と判定する。一方発話区間検出部115は、非音声区間の継続時間が閾値以上であれば、その区間を「発話区間外の非音声区間」と判定する(S115)。発話区間検出部115は、この処理を、各音声区間直後の非音声区間継続時間の閾値ごとに実施することにより、発話区間ラベル系列(u1,...,uT)を決定する。すなわち発話区間検出部115は、「発話区間内の非音声区間」および「音声区間」のフレームに対して「発話区間内」のラベルを与え、「発話区間外の非音声区間」のフレームに対して「発話区間外」のラベルを与える。
 なお、上述の実施例では、一定の(Tフレーム分の)音響信号をまとめて処理しているが、時系列順に新たなフレームの情報が得られるたびにこの処理を実施してもよい。例えば、sT+1が得られたタイミングに、「sT+1=音声」であれば、uT+1は自動的に「発話区間内」のラベルを与えることができる。「sT+1=非音声」であれば、直前の音声区間直後で算出した非音声区間継続時間の閾値が存在すれば、直前の音声区間からの経過時間を求めて、それに応じて発話区間か否かを決定できる。
<効果>
 実施例1の発話区間検出装置11によれば、入力された音響信号から、発話区間を頑健に切り出すことができる。実施例1の発話区間検出装置11によれば、話し言葉のように多様な音声現象が音響信号に含まれる場合であっても、発話の途中で発話区間が途切れてしまったり、発話区間に余分な非音声区間が過剰に含まれることが発生したりすることなく、発話区間を検出することができる。
<補記>
 本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
 ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
 ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
 本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
 既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
 上述の各種の処理は、図4に示すコンピュータの記録部10020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部10010、入力部10030、出力部10040などに動作させることで実施できる。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electrically Erasable and Programmable-Read Only Memory)等を用いることができる。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (5)

  1.  音響信号のあるフレームが音声であるか非音声であるかの判定である音声非音声判定を行う音声非音声判定部と、
     前記音声非音声判定の結果が音声となる区間である音声区間ごとに、その終端が発話終端か否かの判定である発話終端判定を行う発話終端判定部と、
     前記発話終端判定の結果に基づいて非音声区間の継続時間に関する閾値を決定する非音声区間継続時間閾値決定部と、
     前記音声区間に続く非音声区間の継続時間と対応する前記閾値とを比較して、発話区間を検出する発話区間検出部を含む
     発話区間検出装置。
  2.  請求項1に記載の音声非音声判定装置であって、
     前記非音声区間継続時間閾値決定部は、
     前記音声区間の終端が発話終端である確率が高くなればなるほど対応する前記閾値を小さな値とし、前記音声区間の終端が発話終端である確率が低くなればなるほど対応する前記閾値を大きな値とし、
     前記発話区間検出部は、
     前記音声区間に続く非音声区間の継続時間が対応する前記閾値以上である場合に対応する非音声区間を発話区間外の非音声区間として検出する
     発話区間検出装置。
  3.  音響信号のあるフレームが音声であるか非音声であるかの判定である音声非音声判定を行う音声非音声判定ステップと、
     前記音声非音声判定の結果が音声となる区間である音声区間ごとに、その終端が発話終端か否かの判定である発話終端判定を行う発話終端判定ステップと、
     前記発話終端判定の結果に基づいて非音声区間の継続時間に関する閾値を決定する非音声区間継続時間閾値決定ステップと、
     前記音声区間に続く非音声区間の継続時間と対応する前記閾値とを比較して、発話区間を検出する発話区間検出ステップを含む
     発話区間検出方法。
  4.  請求項3に記載の音声非音声判定方法であって、
     前記非音声区間継続時間閾値決定ステップは、
     前記音声区間の終端が発話終端である確率が高くなればなるほど対応する前記閾値を小さな値とし、前記音声区間の終端が発話終端である確率が低くなればなるほど対応する前記閾値を大きな値とし、
     前記発話区間検出ステップは、
     前記音声区間に続く非音声区間の継続時間が対応する前記閾値以上である場合に対応する非音声区間を発話区間外の非音声区間として検出する
     発話区間検出方法。
  5.  コンピュータを請求項1または2に記載の発話区間検出装置として機能させるプログラム。
PCT/JP2019/029035 2019-07-24 2019-07-24 発話区間検出装置、発話区間検出方法、プログラム WO2021014612A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2019/029035 WO2021014612A1 (ja) 2019-07-24 2019-07-24 発話区間検出装置、発話区間検出方法、プログラム
US17/628,045 US20220270637A1 (en) 2019-07-24 2019-07-24 Utterance section detection device, utterance section detection method, and program
JP2021534484A JP7409381B2 (ja) 2019-07-24 2019-07-24 発話区間検出装置、発話区間検出方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/029035 WO2021014612A1 (ja) 2019-07-24 2019-07-24 発話区間検出装置、発話区間検出方法、プログラム

Publications (1)

Publication Number Publication Date
WO2021014612A1 true WO2021014612A1 (ja) 2021-01-28

Family

ID=74193592

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/029035 WO2021014612A1 (ja) 2019-07-24 2019-07-24 発話区間検出装置、発話区間検出方法、プログラム

Country Status (3)

Country Link
US (1) US20220270637A1 (ja)
JP (1) JP7409381B2 (ja)
WO (1) WO2021014612A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7071579B1 (ja) * 2021-10-27 2022-05-19 アルインコ株式会社 デジタル無線送信装置及びデジタル無線通信システム
WO2023181107A1 (ja) * 2022-03-22 2023-09-28 日本電気株式会社 音声検出装置、音声検出方法及び記録媒体

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102516391B1 (ko) * 2022-09-02 2023-04-03 주식회사 액션파워 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01219893A (ja) * 1988-02-29 1989-09-01 Nippon Telegr & Teleph Corp <Ntt> 適応形発声終了検出方法
JP2005017932A (ja) * 2003-06-27 2005-01-20 Nissan Motor Co Ltd 音声認識装置および音声認識用プログラム
JP2017078848A (ja) * 2015-10-19 2017-04-27 グーグル インコーポレイテッド スピーチエンドポインティング
JP2019040148A (ja) * 2017-08-29 2019-03-14 日本電信電話株式会社 音声区間検出装置、その方法、及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4906379B2 (ja) * 2006-03-22 2012-03-28 富士通株式会社 音声認識装置、音声認識方法、及びコンピュータプログラム
US9437186B1 (en) * 2013-06-19 2016-09-06 Amazon Technologies, Inc. Enhanced endpoint detection for speech recognition

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01219893A (ja) * 1988-02-29 1989-09-01 Nippon Telegr & Teleph Corp <Ntt> 適応形発声終了検出方法
JP2005017932A (ja) * 2003-06-27 2005-01-20 Nissan Motor Co Ltd 音声認識装置および音声認識用プログラム
JP2017078848A (ja) * 2015-10-19 2017-04-27 グーグル インコーポレイテッド スピーチエンドポインティング
JP2019040148A (ja) * 2017-08-29 2019-03-14 日本電信電話株式会社 音声区間検出装置、その方法、及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7071579B1 (ja) * 2021-10-27 2022-05-19 アルインコ株式会社 デジタル無線送信装置及びデジタル無線通信システム
WO2023181107A1 (ja) * 2022-03-22 2023-09-28 日本電気株式会社 音声検出装置、音声検出方法及び記録媒体

Also Published As

Publication number Publication date
JPWO2021014612A1 (ja) 2021-01-28
US20220270637A1 (en) 2022-08-25
JP7409381B2 (ja) 2024-01-09

Similar Documents

Publication Publication Date Title
US11551708B2 (en) Label generation device, model learning device, emotion recognition apparatus, methods therefor, program, and recording medium
US9368116B2 (en) Speaker separation in diarization
JP2019211749A (ja) 音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラム
WO2021014612A1 (ja) 発話区間検出装置、発話区間検出方法、プログラム
EP1465154B1 (en) Method of speech recognition using variational inference with switching state space models
JP7268711B2 (ja) 信号処理システム、信号処理装置、信号処理方法、およびプログラム
JP6622681B2 (ja) 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム
JP2005208648A (ja) スイッチング状態空間モデルによるマルチモーダル的変分推論を使用して音声を認識する方法
JP6553015B2 (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
JP6495792B2 (ja) 音声認識装置、音声認識方法、プログラム
Kim et al. Sequential labeling for tracking dynamic dialog states
Zou et al. Improved voice activity detection based on support vector machine with high separable speech feature vectors
JP2017097188A (ja) 話者らしさ評価装置、話者識別装置、話者照合装置、話者らしさ評価方法、プログラム
Padi et al. Towards relevance and sequence modeling in language recognition
WO2021257316A1 (en) Systems and methods for phoneme and viseme recognition
US11037583B2 (en) Detection of music segment in audio signal
WO2019107170A1 (ja) 緊急度推定装置、緊急度推定方法、プログラム
US11798578B2 (en) Paralinguistic information estimation apparatus, paralinguistic information estimation method, and program
JP6612277B2 (ja) ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体
WO2020162238A1 (ja) 音声認識装置、音声認識方法、プログラム
JP7279800B2 (ja) 学習装置、推定装置、それらの方法、およびプログラム
US20220122584A1 (en) Paralinguistic information estimation model learning apparatus, paralinguistic information estimation apparatus, and program
JP2014092750A (ja) 音響モデル生成装置とその方法とプログラム
JP5982265B2 (ja) 音声認識装置、音声認識方法、およびプログラム
Odriozola et al. An on-line VAD based on Multi-Normalisation Scoring (MNS) of observation likelihoods

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19938651

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021534484

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19938651

Country of ref document: EP

Kind code of ref document: A1