WO2023276159A1 - 信号処理装置、信号処理方法及び信号処理プログラム - Google Patents

信号処理装置、信号処理方法及び信号処理プログラム Download PDF

Info

Publication number
WO2023276159A1
WO2023276159A1 PCT/JP2021/025207 JP2021025207W WO2023276159A1 WO 2023276159 A1 WO2023276159 A1 WO 2023276159A1 JP 2021025207 W JP2021025207 W JP 2021025207W WO 2023276159 A1 WO2023276159 A1 WO 2023276159A1
Authority
WO
WIPO (PCT)
Prior art keywords
utterance
speech
recognition results
speech recognition
time
Prior art date
Application number
PCT/JP2021/025207
Other languages
English (en)
French (fr)
Inventor
宏 佐藤
達也 加古
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2023531334A priority Critical patent/JPWO2023276159A1/ja
Priority to PCT/JP2021/025207 priority patent/WO2023276159A1/ja
Publication of WO2023276159A1 publication Critical patent/WO2023276159A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Definitions

  • the present invention relates to a signal processing device, a signal processing method, and a signal processing program.
  • one application of speech recognition is the application of speech recognition of user utterances in interactions such as discussions and meetings.
  • each user collects their own voice with their own device and recognizes it as voice.
  • each user picks up sound using a microphone of the computer that the user is using or a microphone that is connected to the computer.
  • each user's voice is collected by an individual device, generally recognized by a server, and provided to users as minutes or real-time subtitles.
  • voice interval detection technology (VAD: Voice Activity Detection) exists and is widely used as a technology for detecting intervals in which voice exists.
  • VAD Voice Activity Detection
  • the speech interval detection technique is a technique for identifying speech or non-speech, it is not possible to reject the speech of other speakers that should not be recognized as described above.
  • Non-Patent Document 1 in addition to the acoustic feature amount, by using the feature amount related to the relevance of the signal between the microphones, such as the energy ratio between each microphone, the speaker corresponding to the microphone It is realized to reject voices other than voice.
  • the technology described in Non-Patent Document 2 implements rejection of voices other than the speaker corresponding to the microphone based on the correlation between the microphones.
  • Non-Patent Document 3 the signal of each microphone is treated independently without assuming synchronization between microphones, and only the voice of the person wearing the microphone is extracted from the input signal using a deep neural network. A method of extraction has been proposed. However, other literature points out that the method of independently processing each microphone without using the signals of other microphones has poor performance when only the wearer's voice is detected. In addition, the technology described in Non-Patent Document 3 limits the devices to be worn, and is not suitable for dealing with general microphones that differ from user to user.
  • Non-Patent Document 4 proposes an algorithm that reduces overlap between speakers in speech recognition results that occurs as a result of speaker diarization.
  • the algorithm described in Non-Patent Document 4 compares the speech recognition results for each pair of utterances that overlap at the time from the start to the end of the utterance, and when the word matching rate of the speech recognition results exceeds the threshold Second, it determines that both are speech recognition results corresponding to the same utterance, and rejects the shorter speech recognition result.
  • the algorithm described in Non-Patent Document 4 performs deduplication of results in speaker diarization.
  • Non-Patent Document 4 the degree of similarity s(w i , w j ) of speech recognition results is expressed by Equation (1).
  • W i is the word string of utterance i
  • W j is the word string of utterance j
  • is the length of the word string.
  • d( ⁇ ) represents the Levenshtein distance.
  • Non-Patent Document 4 has the limitation that speech recognition errors and erroneous conversions tend to occur because the wraparound speech is recognized in fragments. For this reason, when words containing kana and kanji are compared, the degree of similarity is often not calculated correctly. Specific examples include “misread” and “wait and see”.
  • the present invention has been made in view of the above. It is an object of the present invention to provide a signal processing device, a signal processing method, and a signal processing program capable of rejecting recognition results.
  • a signal processing apparatus provides the start time and end time of each utterance together with the speech recognition result of the utterance period of each utterance input to a plurality of microphones. and information on the appearance time of each word in the speech recognition results, and combine the speech recognition results of two utterances from the speech recognition results of the utterance sections of the utterances input to multiple microphones.
  • a first detection unit for detecting whether or not there is an overlap in time between utterance segments for each pair of voice recognition results of utterances; a calculation unit that calculates the degree of similarity of the speech recognition result for each kana or phoneme unit, and compares the degree of similarity with a predetermined threshold value for each pair that overlaps the time of the utterance section, and the degree of similarity exceeds the threshold value. and a rejecting unit that rejects, as loop-around speech, an utterance with a short speech recognition result length for the pairs exceeding the number of pairs.
  • each speaker has a microphone, and when recognizing the voice picked up by the microphone, it is possible to reject the voice recognition result caused by the speech of other speakers.
  • FIG. 1 is a diagram schematically showing an example of the configuration of a signal processing device according to an embodiment.
  • FIG. 2 is a diagram schematically showing an example of a configuration of a loopback speech rejecting unit shown in FIG. 1;
  • FIG. 3 is a flow chart showing a processing procedure of signal processing according to the embodiment.
  • FIG. 4 is a flow chart showing the procedure of the loopback speech rejection process shown in FIG.
  • FIG. 5 is a diagram showing performance evaluation results when the signal processing device according to the embodiment is applied.
  • FIG. 6 is a diagram illustrating an example of a computer that implements a signal processing device by executing a program.
  • the speech recognition results of two utterances are combined to form a pair, and among the speech recognition result pairs of the utterances, each pair having an overlap in the time of the utterance section , the following three processes are performed.
  • similarity calculation processing is performed not on a word-by-word basis, but on a kana or phoneme-by-phoneme basis of speech recognition results for pairs having overlapping utterance periods, thereby eliminating errors based on erroneous conversion of speech recognition results. , a robust comparison was achieved.
  • FIG. 1 is a diagram schematically showing an example of the configuration of a signal processing device according to an embodiment.
  • the signal processing device 100 for example, a computer including a ROM (Read Only Memory), a RAM (Random Access Memory), a CPU (Central Processing Unit), or the like reads a predetermined program, and the CPU executes a predetermined program. It is realized by executing the program of The signal processing device 100 also has a communication interface for transmitting and receiving various information to and from another device connected via a wired connection or a network or the like.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • CPU Central Processing Unit
  • the signal processing device 100 has a microphone for each of the speakers 1 to N, and recognizes the voice (microphone signal) picked up by each microphone. Note that the signal processing device 100 is premised on time synchronization in units of several 100 ms. Signal processing apparatus 100 includes speech period detection units 101-1 to 101-N (second detection unit), speech recognition units 102-1 to 102-N, and loopback speech rejection unit 103. FIG.
  • the speech segment detection units 101-1 to 101-N use speech segment detection technology to detect and extract speech segments in which speech is present from each continuous input microphone signal.
  • Speech period detection units 101-1 to 101-N output the speech period of each utterance to corresponding speech recognition units 102-1 to 102-N, respectively.
  • Speech segment detection units 101-1 to 101-N can apply existing speech segment detection techniques.
  • Speech period detection units 101-1 to 101-N perform speech period detection processing on the microphone signals of microphones 1, 2, . . .
  • the speech recognition units 102-1 to 102-N perform speech recognition on the speech period of each utterance input from each of the speech period detection units 101-1 to 101-N.
  • An existing speech recognition technology can be applied to the speech recognition units 102-1 to 102-N.
  • Speech recognition units 102 - 1 to 102 -N output speech recognition results to loopback speech rejection unit 103 .
  • the output speech recognition result is the text of the speech recognition result and the time information corresponding to the text of the speech recognition result and indicating at what time each word in the text was uttered. That is, the output of the speech recognition units 102-1 to 102-N is the text of the speech recognition result of each utterance section of the utterance input to the microphone of each speaker 1 to N, and the start time and end time of each utterance. Time information and appearance time of each word in the text of the speech recognition result.
  • the wraparound utterance rejection unit 103 receives the text of the speech recognition result of each utterance section of the utterance input to each microphone 1 to N, the time information of the start time and end time of each utterance, and the word of each word in the speech recognition result. Based on the information about the time of appearance, it detects utterances in which the voices of other speakers seem to have entered, and rejects them.
  • the loopback utterance rejection unit 103 obtains a voice recognition result for each speaker's utterance by rejecting a loopback utterance from the voice recognition results corresponding to each microphone.
  • the wraparound utterance rejection unit 103 determines whether or not there is an overlap in time between utterance segments for each pair of voice recognition results of utterances obtained by combining the voice recognition results of two utterances from the voice recognition results of the utterance segments of each story. To detect. Then, the wraparound utterance rejection unit 103 calculates the similarity of the speech recognition result for each pair of speech recognition results of utterances that overlap in time in the utterance section, not for each word but for each kana or phoneme. By doing so, utterances that are considered to be wraparound are rejected. Then, the loopback speech rejecting unit 103 outputs speech recognition results corresponding to the speeches uttered by the speakers 1 to N.
  • FIG. 2 is a diagram schematically showing an example of the configuration of loopback speech rejection section 103 shown in FIG.
  • the loopback utterance rejection section 103 has a same-timing utterance detection section 1031 (first detection section), an utterance similarity calculation section 1032 (calculation section), and a rejection section 1033 .
  • the same-timing utterance detection unit 1031 obtains the speech recognition result of each utterance section of the utterance input to each of the microphones 1 to N from the speech recognition units 102-1 to 102-N, and information accompanying the speech recognition result. is entered.
  • Information associated with the speech recognition result is time information of the start time and end time of each utterance, and information about the appearance time of each word in the speech recognition result.
  • the same-timing utterance detection unit 1031 combines the voice recognition results of two utterances from the voice recognition results of each utterance section of the input utterance to form one pair.
  • the same-timing utterance detection unit 1031 creates a plurality of pairs of speech recognition results of these two utterances.
  • the same-timing utterance detection unit detects whether or not there is an overlap in the time of the utterance section for a pair of speech recognition results of two utterances. This is because, in a combination of speech recognition results of utterances with overlapping utterance times, there is a possibility that one of the results is a speech recognition result using wraparound speech.
  • the same-timing utterance detection unit 1031 detects that the start time and the end time of each utterance overlap among the time information of the pair of speech recognition results of each of the two input utterances. Detects that there is an overlap in the time of speech segments in a pair of recognition results.
  • the utterance similarity calculation unit 1032 calculates the following first to third The similarity of the speech recognition results is calculated using the feature-applied method. It should be noted that the first to third features can all be applied, or each can be applied independently.
  • the utterance similarity calculation unit 1032 compares the kana or phoneme sequences of the speech recognition results of the utterances to be compared, thereby calculating the similarity of the speech recognition results in kana or phoneme units.
  • the utterance similarity calculation unit 1032 can realize similarity calculation that is robust against errors based on erroneous conversion of the speech recognition result by comparing the speech recognition results not in units of words but in units of kana or phonemes.
  • the utterance similarity calculation unit 1032 calculates the similarity using the overlap rate of the utterance section for each utterance, and adjusts the similarity so that even when only a small part of the utterance overlaps, the similarity is calculated. To avoid calculating a high degree of similarity even if there is.
  • the utterance similarity calculation unit 1032 uses information on the time at which each word or kana occurs, which is obtained from the speech recognition result. A more robust comparison is achieved by comparing only the similarity and calculating the similarity. Conventionally, even when only a part of the utterance segments of utterances to be compared overlap, the entire speech recognition results are compared, and the similarity may become unduly high. On the other hand, the utterance similarity calculation unit 1032 calculates the similarity with higher accuracy by comparing only the portions of the speech recognition results that can be determined to have been uttered at the same time.
  • the utterance similarity calculation unit 1032 calculates the similarity s(c i , c j ) of the speech recognition result using Equation (2), for example. Equation (2) applies all of the first to third features.
  • c i and c j are the kana or phoneme strings of the portion uttered at the time when both utterances overlap among the speech recognition results of utterance i and utterance j.
  • overlap(t i , t j ) indicates the overlap rate of the utterance sections of the utterance i and the utterance j.
  • the overlap rate of the utterance segment can be obtained, for example, by dividing the length of overlap between utterance i and utterance j by the length of the shorter one of utterance i and utterance j.
  • d( ⁇ ) is the distance between speech recognition results, and for example, the Levenshtein distance can be used.
  • indicates the length of the character string.
  • Equation (3) in Equation (2) is a calculation equation that indicates how many characters in the short speech recognition result of the duplicated utterances match the longer speech recognition result.
  • overlap(t i , t j ) weights the portion shown in Equation (3) by the temporal overlap rate between the utterance segments.
  • the rejecting unit 1033 compares the degree of similarity calculated for each pair with a predetermined threshold value for each pair whose utterance segments overlap in time, thereby determining whether or not the wraparound utterance is included. , to reject the wraparound utterance. For pairs whose similarity calculated by the utterance similarity calculation unit 1032 exceeds the threshold, the rejection unit 1033 determines that an utterance with a short speech recognition result length is a wraparound utterance, and the length of the speech recognition result is rejects short utterances.
  • FIG. 3 is a flow chart showing a processing procedure of signal processing according to the embodiment.
  • the speech period detection units 101-1 to 101-N Upon receiving the input of the microphone signals picked up by the microphones of the speakers 1 to N, the speech period detection units 101-1 to 101-N use the speech period detection technology to detect each continuous microphone signal that is input. , an utterance segment detection process for extracting a segment in which utterance is present is performed (step S1).
  • the speech recognition units 102-1 to 102-N perform speech recognition processing on the speech period speech input from the speech period detection units 101-1 to 101-N (step S2).
  • the wraparound speech rejection unit 103 extracts the text of the speech recognition result of each speech section of the speech input to each of the microphones 1 to N, the time information of the start time and end time of each speech, and each of the speech recognition results. Based on the information about the appearance time of the word, an utterance that seems to include another speaker's voice is detected.
  • FIG. 4 is a flow chart showing the procedure of the loopback speech rejection process shown in FIG.
  • same-timing speech detection section 1031 obtains speech recognition results of speech sections of speech input to microphones 1 to N from speech recognition sections 102-1 to 102-N, respectively, and voice
  • the speech recognition result of each utterance section of the input utterance is divided into two pairs of speech recognition results of each utterance.
  • the same-timing utterance detection unit 1031 performs a same-timing utterance detection process for detecting whether or not there is overlap in the time of the utterance section for each pair of speech recognition results of two utterances (step S11).
  • the utterance similarity calculation unit 1032 calculates the voices of the utterances to be compared for each pair whose utterance duration overlaps among the pairs of speech recognition results of the utterances.
  • An utterance similarity calculation process for calculating the similarity of the speech recognition results is performed by comparing the kana or phoneme strings of the recognition results (step S12).
  • the rejecting unit 1033 compares the degree of similarity calculated for each pair with a predetermined threshold value for each pair whose utterance segments overlap in time, thereby determining whether or not the wraparound utterance is included. Then, rejection processing for rejecting the loopback utterance is performed (step S13).
  • FIG. 5 is a diagram showing performance evaluation results when the signal processing apparatus 100 according to the embodiment is applied.
  • FIG. 5 shows the results of evaluating the speech recognition character error rate (CER).
  • FIG. 5 shows the evaluation results when speech is processed using VAD alone and when speech is processed using the technique described in Non-Patent Document 4.
  • FIG. 5 shows the evaluation results when speech is processed using VAD alone and when speech is processed using the technique described in Non-Patent Document 4.
  • (1) in FIG. 5 shows the evaluation result when the degree of similarity is calculated for each kana unit of the speech recognition result for a pair of speech recognition results of two utterances, and the wraparound utterance is rejected (first feature). show.
  • (2) in FIG. combination of features In addition to (2) in FIG. 5, (3) in FIG. 5 compares the degree of similarity between speech recognition results only for portions that are determined to have been uttered at the same time among the speech recognition results, and rejects looping utterances. Evaluation results for cases (combinations of the first to third features) are shown.
  • the signal processing device 100 is different from the case of processing voice by VAD alone and the case of using the technology described in Non-Patent Document 4 in both cases of headset recording and stand microphone recording. It shows high speech recognition performance. That is, signal processing apparatus 100 can appropriately reject the loopback speech. Then, in signal processing apparatus 100, by applying the first to third features, it is possible to further improve the rejection accuracy of the loopback speech.
  • the signal processing apparatus 100 generates a pair of speech recognition results of two utterances, which are obtained by combining the speech recognition results of two utterances from the speech recognition results of the utterance sections of the utterances respectively input to a plurality of microphones. For each, it is detected whether or not there is an overlap in the time of the utterance period. Then, the signal processing apparatus 100 calculates the similarity of the speech recognition results in units of kana or phoneme for each pair of speech recognition results of utterances in which the time of the utterance period overlaps.
  • the signal processing apparatus 100 compares the degree of similarity with a predetermined threshold value for each pair whose utterance periods overlap in time, and for the pair of speech recognition results of utterances whose degree of similarity exceeds the threshold value, An utterance whose speech recognition result has a short length is rejected as a wraparound utterance.
  • the signal processing device 100 performs accurate similarity calculation processing not on a word-by-word basis but on a kana or phoneme-by-phoneme basis of speech recognition results for each pair of overlapping utterance periods.
  • the signal processing apparatus 100 can implement robust comparison against errors based on erroneous conversion of speech recognition results, and reject the loopback utterance with high accuracy.
  • the technique described in Non-Patent Document 4 is an algorithm that compares and rejects utterances whose utterance intervals overlap even slightly. For this reason, the technique described in Non-Patent Document 4 is also limited in that there are occasional occasions when the data are erroneously rejected even though they are only partially duplicated. For example, when one speaker says "It's tough, isn't it?" and another speaker says "It's tough," with the utterance interval slightly overlapping, the technique described in Non-Patent Document 4 , are erroneously rejected because the speech recognition results of both are highly similar.
  • signal processing device 100 a similarity calculation process is performed in consideration of the overlapping rate of the utterance period for each utterance for each pair in which the utterance period overlaps.
  • signal processing apparatus 100 does not calculate a high degree of similarity even when only a small portion of the speech overlaps, and can reduce erroneous rejection of looping speech.
  • Non-Patent Document 4 considers only the degree of matching between words and does not consider the timing of their appearance. When computed, it has the constraint of being erroneously rejected. For example, when comparing two speech recognition results, "Did you see the movie?" For some reason it was rejected.
  • the signal processing apparatus 100 calculates the degree of similarity by comparing only the portions of the speech recognition results that are determined to have been uttered at the same time for each pair of speech segments that overlap in time. By implementing this, we realized a reduction in false rejection of wraparound speech.
  • each speaker has a microphone, and when voice recognition is performed on the voice picked up by the microphone, the voice generated by the other speaker's voice Recognition results can be appropriately rejected, and speech recognition performance can be improved.
  • Each component of the signal processing device 100 is functionally conceptual, and does not necessarily need to be physically configured as illustrated. That is, the specific form of distribution and integration of the functions of the signal processing device 100 is not limited to the illustrated one, and all or part of it can be functionally or physically distributed in arbitrary units according to various loads and usage conditions. can be distributed or integrated.
  • each process performed in the signal processing device 100 may be realized by a CPU, a GPU (Graphics Processing Unit), and a program that is analyzed and executed by the CPU and GPU. Further, each process performed in the signal processing device 100 may be realized as hardware by wired logic.
  • FIG. 6 is a diagram showing an example of a computer that implements the signal processing device 100 by executing a program.
  • the computer 1000 has a memory 1010 and a CPU 1020, for example.
  • Computer 1000 also has hard disk drive interface 1030 , disk drive interface 1040 , serial port interface 1050 , video adapter 1060 and network interface 1070 . These units are connected by a bus 1080 .
  • the memory 1010 includes a ROM 1011 and a RAM 1012.
  • the ROM 1011 stores a boot program such as BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • Hard disk drive interface 1030 is connected to hard disk drive 1090 .
  • a disk drive interface 1040 is connected to the disk drive 1100 .
  • a removable storage medium such as a magnetic disk or optical disk is inserted into the disk drive 1100 .
  • Serial port interface 1050 is connected to mouse 1110 and keyboard 1120, for example.
  • Video adapter 1060 is connected to display 1130, for example.
  • the hard disk drive 1090 stores an OS (Operating System) 1091, application programs 1092, program modules 1093, and program data 1094, for example. That is, a program that defines each process of the signal processing device 100 is implemented as a program module 1093 in which code executable by the computer 1000 is described. Program modules 1093 are stored, for example, on hard disk drive 1090 .
  • the hard disk drive 1090 stores a program module 1093 for executing processing similar to the functional configuration of the signal processing device 100 .
  • the hard disk drive 1090 may be replaced by an SSD (Solid State Drive).
  • the setting data used in the processing of the above-described embodiment is stored as program data 1094 in the memory 1010 or the hard disk drive 1090, for example. Then, the CPU 1020 reads out the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as necessary and executes them.
  • the program modules 1093 and program data 1094 are not limited to being stored in the hard disk drive 1090, but may be stored in a removable storage medium, for example, and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program modules 1093 and program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). Program modules 1093 and program data 1094 may then be read by CPU 1020 through network interface 1070 from other computers.
  • LAN Local Area Network
  • WAN Wide Area Network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

信号処理装置は、複数のマイクにそれぞれ入力された発話の発話区間の音声認識結果とともに、各発話の開始時刻と終了時刻との時間情報、及び、音声認識結果における各単語の出現時刻に関する情報の入力を受け付け、複数のマイクにそれぞれ入力された発話の発話区間の音声認識結果から、2つの発話の音声認識結果を組み合わせた発話の音声認識結果のペアごとに、発話区間の時間に重複があるか否かを検出する同タイミング発話検出部(1031)と、発話の音声認識結果のペアのうち、発話区間の時間に重複があるペアごとに、音声認識結果の類似度を、カナ或いは音素単位で計算する発話類似度計算部(1032)と、発話区間の時間に重複があるペアごとに、類似度と所定の閾値とを比較し、類似度が閾値を上回ったペアに対しては、音声認識結果の長さが短い発話を回り込み発話として棄却する棄却部(1033)と、を有する。

Description

信号処理装置、信号処理方法及び信号処理プログラム
 本発明は、信号処理装置、信号処理方法及び信号処理プログラムに関する。
 近年、音声認識性能の向上を背景に、音声認識の適応領域は広がっている。例えば、ある音声認識のアプリケーションとして、議論や会議などの対話におけるユーザー発話の音声認識のアプリケーションが挙げられる。
 例えば、会議においてユーザーの発話を認識する方法として、ユーザーそれぞれが保持するデバイスで自分の声を収音し、それを音声認識するという方法が存在する。この場合、例えば、各ユーザーがそれぞれの使用しているコンピュータのマイクロフォンや、コンピュータに接続されたマイクロフォンを用いて音声を収音する。
 こうした会議等の音声認識アプリケーションにおいて、各ユーザーの音声は個別のデバイスによって収音され、一般的にサーバーにおいて音声認識され、議事録やリアルタイムの字幕としてユーザーに提供される。
 この場合、各話者がそれぞれ自身の声を収録するためのマイクロフォンを利用する状況において、ある話者の保持するマイクロフォンには、その話者の音声のみが収音されるのが理想的である。
 しかしながら、一般に複数人が同一の空間で会議を行う場合、ある話者の音声が、別の話者のマイクロフォンに回り込んで収音される現象が頻繁に生じる。こうした現象が生じた場合、以下のような問題が生じる。
 まず、ある話者の音声が複数のマイクロフォンにおいて音声認識されることで、同じ内容に対して複数の音声認識テキストが出力されてしまう。例えば4人が対面する会議で、4人のマイクにある話者の音声が収音され音声認識された場合、同じような音声認識結果が4回表示される現象が起こる。これによって音声認識結果の可読性が低下し、ユーザービリティを損なう。
 続いて、ある話者の音声が別の話者のマイクロフォンにおいて音声認識されることで、テキストに誤った発話者のラベルついてしまう。これにより音声認識結果に付与された発話者のラベルの信頼性が低下する。
 従来、音声が存在する区間を検出する技術として音声区間検出技術(VAD:Voice Activity Detection)が存在し広く利用されている。しかしながら、音声区間検出技術は、音声或いは非音声を識別する技術であるため、上記のような認識すべきでない他の話者の音声を棄却することはできない。
 このため、音声認識において、複数人が対面し、各話者に対して1つのマイクロフォンが存在する条件に対して、別話者の回り込みに対処する技術は、これまで多く検討されている。
 例えば、非特許文献1記載の技術では、音響的な特徴量に加えて、各マイクロフォン間のエネルギーの比率など、マイクロフォン間の信号の関連性に関する特徴量を用いることで、マイクに対応する話者以外の音声を棄却することを実現している。また、非特許文献2に記載の技術では、マイク間の相関をもとにマイクに対応する話者以外の音声を棄却することを実現している。
 しかしながら、これらの既存手法は、全てのマイクが同じオーディオインターフェースに接続された状況をはじめとする、各マイクの信号が同期されている状態を前提としており、各話者が別々のデバイスで収音する条件には不適である。
 これに対し、非特許文献3記載では、マイク間の同期を前提とせずに、各マイクの信号を独立に扱い、ディープニューラルネットワークを用いて入力された信号から、マイクの装着者の音声のみを抽出する方法が提案されている。しかしながら、他の文献において、他のマイクの信号を用いずに各マイクを独立に処理する方法においては、装着者の音声のみを検出する場合、性能が悪くなることが指摘されている。また、非特許文献3記載の技術は、装着するデバイスを限定しており、ユーザーごとに異なる、一般のマイクロフォンに対応する場合には不適である。
 非特許文献4では、話者ダイアライゼーションを行った結果において生じる、音声認識結果の話者間の重複を縮退させるアルゴリズムが提案されている。非特許文献4記載のアルゴリズムは、発話の開始から終了までの時刻に重複のある発話のペアに、それぞれにおいて音声認識結果同士を比較し、音声認識結果の単語の一致率が閾値を超えた場合に、両者は同じ発話に対応づく音声認識結果だと判定し、短い方の音声認識結果を棄却する。これによって、非特許文献4記載のアルゴリズムは、話者ダイアライゼーションにおける結果の重複削除を行う。
John Dines, Jithendra Vepa, Thomas Hain, "THE SEGMENTATION OF MULTI-CHANNEL MEETING RECORDINGS FOR AUTOMATIC SPEECH RECOGNITION", IDIAP, 2006. K. Laskowski,  Q. Jin, and T. Schultz, "Crosscorrelation-based Multispeaker Speech Activity Detection". In Eighth International Conference on Spoken Language Processing, (2004). Amrutha Nadarajan, Somandepalli Krishna, and S. Narayanan Shrikanth, "SPEAKER AGNOSTIC FOREGROUND SPEECH DETECTION FROM AUDIO RECORDINGS IN WORKPLACE SETTINGS FROM WEARABLE RECORDERS", ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019. Shota Horiguchi, Yusuke Fujita, and Kenji Nagamatsu, "Utterance-Wise Meeting Transcription System Using Asynchronous Distributed Microphones", arXiv preprint arXiv:2007.15868 (2020).
 非特許文献4では、音声認識結果の類似度s(w,w)を、式(1)で表現する。
Figure JPOXMLDOC01-appb-M000001
 式(1)において、Wは、発話iの単語列であり、Wは、発話jの単語列である。|・|は、単語列の長さである。d(・)は、Levenshtein距離を表す。
 しかしながら、非特許文献4記載の技術には、回り込んだ音声は断片的に認識されることから、音声認識を誤り、誤変換される傾向があるという制約がある。このため、カナ漢字交じりの単語同士を比較すると、類似度の算出が正しく行われないことが多い。具体的な例としては、たとえば「見誤った」と「や待った」などが挙げられる。
 本発明は、上記に鑑みてなされたものであって、各話者にマイクがあり、マイクで収音した音声の音声認識を行う場合に、他話者の音声が回り込んだことによって生じる音声認識結果を棄却することができる信号処理装置、信号処理方法及び信号処理プログラムを提供することを目的とする。
 上述した課題を解決し、目的を達成するために、本発明に係る信号処理装置は、複数のマイクにそれぞれ入力された発話の発話区間の音声認識結果とともに、各発話の開始時刻と終了時刻との時間情報、及び、音声認識結果における各単語の出現時刻に関する情報の入力を受け付け、複数のマイクにそれぞれ入力された発話の発話区間の音声認識結果から、2つの発話の音声認識結果を組み合わせた発話の音声認識結果のペアごとに、発話区間の時間に重複があるか否かを検出する第1の検出部と、発話の音声認識結果のペアのうち、発話区間の時間に重複があるペアごとに、音声認識結果の類似度を、カナ或いは音素単位で計算する計算部と、発話区間の時間に重複があるペアごとに、類似度と所定の閾値とを比較し、類似度が閾値を上回ったペアに対しては、音声認識結果の長さが短い発話を回り込み発話として棄却する棄却部と、を有することを特徴とする。
 本発明によれば、各話者にマイクがあり、マイクで収音した音声の音声認識を行う場合に、他話者の音声が回り込んだことによって生じる音声認識結果を棄却することができる。
図1は、実施の形態に係る信号処理装置の構成の一例を模式的に示す図である。 図2は、図1に示す回り込み発話棄却部の構成の一例を模式的に示す図である。 図3は、実施の形態に係る信号処理の処理手順を示すフローチャートである。 図4は、図3に示す回り込み発話棄却処理の処理手順を示すフローチャートである。 図5は、実施の形態に係る信号処理装置を適用した場合の性能評価結果を示す図である。 図6は、プログラムが実行されることにより、信号処理装置が実現されるコンピュータの一例を示す図である。
 以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[実施の形態]
 本実施の形態では、以下の3つの処理によって、各話者にマイクがあり、マイクで収音した音声の音声認識を行う場合に、他話者の音声が回り込んだことによって生じる音声認識結果(回り込み発話)を精度よく棄却することを実現した。
 実施の形態では、複数のマイクで収音した音声認識結果のうち、2つの発話の音声認識結果を組み合わせてペアとし、発話の音声認識結果のペアのうち発話区間の時間に重複があるペアごとに、以下の3つの処理を行う。
 実施の形態では、発話区間の時間に重複があるペアに、単語単位ではなく、音声認識結果のカナあるいは音素単位での類似度計算処理を実施することによって、音声認識結果の誤変換に基づく誤りに、頑健な比較を実現した。
 また、実施の形態では、発話区間の時間に重複があるペアごとに、発話ごとの発話区間の重複率を考慮した類似度の算出処理を実施することで、回り込み発話の誤棄却の低減を実現した。
 また、通常音声認識では、音声認識結果において各単語がどのタイミングで生じたかを算出することが可能である。実施の形態では、これを用いて、発話区間の時間に重複があるペアごとに、発話における出現タイミングが同じ部分の音声認識結果のみを比較して類似度を計算する処理を実施することで、誤棄却を低減した。
[信号処理装置]
 次に、実施の形態に係る信号処理装置について説明する。図1は、実施の形態に係る信号処理装置の構成の一例を模式的に示す図である。
 実施の形態に係る信号処理装置100は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。また、信号処理装置100は、有線接続、或いは、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースを有する。
 信号処理装置100は、各話者1~Nにそれぞれマイクがあり、各マイクで収音した音声(マイク信号)の音声認識を行う。なお、信号処理装置100では、数100ms単位の時間同期を前提とする。信号処理装置100は、発話区間検出部101-1~101-N(第2の検出部)、音声認識部102-1~102-N及び回り込み発話棄却部103を有する。
 発話区間検出部101-1~101-Nは、発話区間検出技術を用いて、入力される各連続的なマイク信号から、発話が存在する発話区間を検出して、切り出す。発話区間検出部101-1~101-Nは、各発話の発話区間の音声を、それぞれ対応する音声認識部102-1~102-Nに出力する。発話区間検出部101-1~101-Nは、既存の発話区間検出技術を適用可能である。発話区間検出部101-1~101-Nにおいて、発話区間検出の処理は、各マイク1,2,・・・,Nのマイク信号に対して行われる。たとえばマイクiのマイク信号に対する発話区間検出部101-i(1≦i≦N)の出力は、マイクiに検出された各発話j=1,2,・・・,Mの音声信号、及び、その発話の開始時刻と終了時刻との時間情報である。
 音声認識部102-1~102-Nは、各発話区間検出部101-1~101-Nからそれぞれ入力された各発話の発話区間の音声に対して音声認識を行う。音声認識部102-1~102-Nには、既存の音声認識技術を適用可能である。音声認識部102-1~102-Nは、回り込み発話棄却部103に、音声認識結果を出力する。出力される音声認識結果は、音声認識結果のテキスト、及び、音声認識結果のテキストに対応させた、テキストにおける各単語がどの時刻に発せられたのかを示す時間情報である。すなわち、音声認識部102-1~102-Nの出力は、各話者1~Nのマイクに入力された発話の各発話区間の音声認識結果のテキスト、各発話の開始時刻と終了時刻との時間情報、及び、音声認識結果のテキストにおける各単語の出現時刻である。
 回り込み発話棄却部103は、各マイク1~Nに入力された発話の各発話区間の音声認識結果のテキスト、各発話の開始時刻と終了時刻との時間情報、及び、音声認識結果における各単語の出現時刻に関する情報を基に、他の話者の音声が回り込んだとみられる発話を検出し、それを棄却する。回り込み発話棄却部103は、各マイクに対応する音声認識結果から、回り込みとみられる発話を棄却することで、話者ごとの発話に対する音声認識結果を得る。
 回り込み発話棄却部103は、各話の発話区間の音声認識結果から、2つの発話の音声認識結果を組み合わせた発話の音声認識結果のペアごとに、発話区間の時間に重複があるか否かを検出する。そして、回り込み発話棄却部103は、発話の音声認識結果のペアのうち、発話区間の時間に重複があるペアごとに、音声認識結果の類似度を、単語単位ではなく、カナ或いは音素単位で計算することで、回り込みとみられる発話を棄却する。そして、回り込み発話棄却部103は、話者1~Nが発した音声に対応する音声認識結果を出力する。
[回り込み発話棄却部]
 次に、回り込み発話棄却部103について説明する。図2は、図1に示す回り込み発話棄却部103の構成の一例を模式的に示す図である。図2に示すように、回り込み発話棄却部103は、同タイミング発話検出部1031(第1の検出部)、発話類似度計算部1032(計算部)、及び、棄却部1033を有する。
 同タイミング発話検出部1031は、音声認識部102-1~102-Nから、それぞれ、各マイク1~Nに入力された発話の各発話区間の音声認識結果と、音声認識結果に付随する情報とが入力される。音声認識結果に付随する情報は、各発話の開始時刻と終了時刻との時間情報、及び、音声認識結果における各単語の出現時刻に関する情報である。
 同タイミング発話検出部1031は、入力された発話の各発話区間の音声認識結果から、2つの発話の音声認識結果を組み合わせて、1つのペアとする。同タイミング発話検出部1031は、この2つの発話の音声認識結果のペアを複数作成する。
 そして、同タイミング発話検出部は、2つの発話の音声認識結果のペアについて、発話区間の時間に重複があるか否かを検出する。発話時刻に重複がある発話の音声認識結果の組み合わせは、一方が回り込み音声による音声認識結果である可能性があるためである。同タイミング発話検出部1031は、入力された各2つの発話の音声認識結果のペアの時間情報のうち、各発話の開始時間と終了時間とが重複している場合に、この2つの発話の音声認識結果のペアに発話区間の時間に重複があることを検出する。
 発話類似度計算部1032は、同タイミング発話検出部1031の検出結果を基に、発話の音声認識結果のペアのうち、発話区間の時間に重複があるペアごとに、以下の第1~第3の特徴を適用した方法を用いて、音声認識結果の類似度を計算する。なお、第1~第3の特徴は、全てを適用することも可能であるし、それぞれ単独で適用することも可能である。
 第1の特徴として、発話類似度計算部1032は、比較対象の発話同士の音声認識結果のカナあるいは音素列同士を比較することで、音声認識結果の類似度をカナ或いは音素単位で計算する。発話類似度計算部1032は、単語単位ではなく、音声認識結果のカナあるいは音素単位での比較によって、音声認識結果の誤変換に基づく誤りに頑健な類似度算出を実現できる。
 第2の特徴として、発話類似度計算部1032は、発話ごとの発話区間の重複率を用いて類似度を計算し、類似度を調整することで、発話のごく一部のみが重複した場合であっても高い類似度が算出されることを回避する。
 第3の特徴として、発話類似度計算部1032は、音声認識結果から得られる、各単語あるいはカナの生じた時間情報を用いることで、音声認識結果のうち同時刻に発せられたと判定される部分のみを比較して類似度を計算することで、より頑健な比較を実現する。従来は、比較対象の発話同士の発話区間の一部しか重複していなかった場合でも、音声認識結果の全体同士を比較していたため、類似度が不当に高くなる場合があった。これに対し、発話類似度計算部1032は、音声認識結果のうち同時刻に発せられたと判定できる部分のみを比較することで、より高精度に類似度を算出する。
 発話類似度計算部1032は、音声認識結果の類似度s(c,c)を、例えば式(2)を用いて計算する。式(2)は、第1~第3の特徴全てを適用したものである。
Figure JPOXMLDOC01-appb-M000002
 式(2)において、c,cは、発話i、発話jの音声認識結果のうち、両発話が重複している時刻において発せられた部分のカナあるいは音素列である。また、overlap(t,t)は、発話iと発話jとの発話区間の重複率を示す。発話区間の重複率は、例えば、発話iと発話jとの発話が重複している長さを、発話iと発話jとのうち短いものの発話の長さで割ったものとすることができる。d(・)は、音声認識結果同士の距離であり、例えば、Levenshtein距離などを利用できる。|・|は、文字列の長さを示す。
 式(2)のうち、式(3)に示す部分は、重複した発話のうち、短い方の音声認識結果のうち何文字が長い方の音声認識結果と一致したかを示す計算式である。overlap(t,t)は、式(3)に示す部分を、発話区間同士の時間的な重複率で重みづけるものである。式(2)では、このoverlap(t,t)を適用することによって、実際に重複した割合に応じた類似度を適切に求めることができる。
Figure JPOXMLDOC01-appb-M000003
 棄却部1033は、発話区間の時間に重複があるペアごとに、各ペアに対して計算された類似度と所定の閾値とを比較することによって、回り込み発話が含まれているか否かを判定し、回り込み発話を棄却する。棄却部1033は、発話類似度計算部1032によって計算された類似度が閾値を上回ったペアに対しては、音声認識結果の長さが短い発話を回り込み発話と判定し、音声認識結果の長さが短い発話を棄却する。
[信号処理の処理手順]
 次に、信号処理装置100が実行する信号処理について説明する。図3は、実施の形態に係る信号処理の処理手順を示すフローチャートである。
 話者1~Nの各マイクで収音したマイク信号の入力を受け付けると、発話区間検出部101-1~101-Nは、発話区間検出技術を用いて、入力される各連続的なマイク信号から、発話が存在する区間を切り出す発話区間検出処理を行う(ステップS1)。音声認識部102-1~102-Nは、各発話区間検出部101-1~101-Nからそれぞれ入力された各発話区間の音声に対して音声認識処理を行う(ステップS2)。
 そして、回り込み発話棄却部103は、各マイク1~Nに入力された発話の各発話区間の音声認識結果のテキスト、各発話の開始時刻と終了時刻との時間情報、及び、音声認識結果における各単語の出現時刻に関する情報を基に、他の話者の音声が回り込んだとみられる発話を検出し、それを棄却する回り込み発話棄却処理を行う(ステップS3)。
[回り込み発話棄却処理の処理手順]
 次に、図3に示す回り込み発話棄却処理(ステップS3)の処理手順について説明する。図4は、図3に示す回り込み発話棄却処理の処理手順を示すフローチャートである。
 回り込み発話棄却部103では、同タイミング発話検出部1031が、音声認識部102-1~102-Nから、それぞれ、各マイク1~Nに入力された発話の各発話区間の音声認識結果と、音声認識結果に付随する情報とが入力されると、入力された発話の各発話区間の音声認識結果を、それぞれ2つの発話の音声認識結果のペアに分ける。同タイミング発話検出部1031は、各2つの発話の音声認識結果のペアについて、発話区間の時間に重複があるか否かを検出する同タイミング発話検出処理を行う(ステップS11)。
 発話類似度計算部1032は、同タイミング発話検出部1031による検出結果を基に、発話の音声認識結果のペアのうち、発話区間の時間に重複があるペアごとに、比較対象の発話同士の音声認識結果のカナあるいは音素列同士を比較することで、音声認識結果の類似度を計算する発話類似度計算処理を行う(ステップS12)。
 棄却部1033は、発話区間の時間に重複があるペアごとに、各ペアに対して計算された類似度と、所定の閾値とを比較することによって、回り込み発話が含まれているか否かを判定し、回り込み発話を棄却する棄却処理を行う(ステップS13)。
[評価結果]
 図5は、実施の形態に係る信号処理装置100を適用した場合の性能評価結果を示す図である。図5では、音声認識文字誤り率(CER:Character Error Rate)を評価した結果を示す。図5では、VAD単独で音声を処理した場合及び非特許文献4に記載の技術を用いて音声を用いて処理した場合の評価結果を示す。
 図5の(1)は、2つの発話の音声認識結果のペアについて、音声認識結果のカナ単位で類似度を計算して回り込み発話の棄却を行った場合(第1の特徴)の評価結果を示す。図5の(2)は、図5の(1)に加え、発話ごとの発話区間の重複率を考慮して類似度を計算し、回り込み発話の棄却を行った場合(第1及び第2の特徴の組み合わせ)の評価結果を示す。図5の(3)は、図5の(2)に加え、音声認識結果のうち同時刻に発せられたと判定される部分のみの音声認識結果同士の類似度を比較して回り込み発話を棄却した場合(第1~第3の特徴の組み合わせ)の評価結果を示す。
 図5に示すように、信号処理装置100は、ヘッドセット録音及びスタンドマイク録音のいずれの場合においても、VAD単独で音声を処理した場合及び非特許文献4記載の技術を用いた場合と比して、高い音声認識性能を示す。すなわち、信号処理装置100は、回り込み発話を適切に棄却することができる。そして、信号処理装置100では、第1~第3の特徴を適用することによって、回り込み発話の棄却精度をさらに高めることが可能である。
[実施の形態の効果]
 このように、実施の形態に係る信号処理装置100は、複数のマイクにそれぞれ入力された発話の発話区間の音声認識結果から、2つの発話の音声認識結果を組み合わせた発話の音声認識結果のペアごとに、発話区間の時間に重複があるか否かを検出する。そして、信号処理装置100は、発話の音声認識結果のペアのうち、発話区間の時間に重複があるペアごとに、音声認識結果の類似度を、カナ或いは音素単位で計算する。そして、信号処理装置100は、発話区間の時間に重複があるペアごとに、類似度と所定の閾値とを比較し、類似度が閾値を上回った発話の音声認識結果のペアに対しては、音声認識結果の長さが短い発話を回り込み発話として棄却する。
 このように、信号処理装置100では、発話区間の時間に重複があるペアごとに、単語単位ではなく音声認識結果のカナあるいは音素単位での正確な類似度計算処理を実施する。これによって、信号処理装置100は、音声認識結果の誤変換に基づく誤りに頑健な比較を実現し、回り込み発話を高精度で棄却することができる。
 ここで、非特許文献4記載の技術は、発話区間がわずかでも重複している発話同士は、比較し棄却するアルゴリズムである。このため、非特許文献4記載の技術では、さらに、一部しか重複していないにも関わらず誤って棄却される場合が散見されるという制約がある。例えば、ある話者が「大変だよね」と発言したのに対して、わずかに発話区間を重複させて別の話者が「大変だよ」と発言した場合、非特許文献4記載の技術では、両者の音声認識結果の類似度が高いことから誤って棄却されてしまう。
 これに対し、信号処理装置100では、発話区間の時間に重複があるペアごとに、発話ごとの発話区間の重複率を考慮した類似度の算出処理を実施する。これによって、信号処理装置100は、発話のごく一部のみが重複した場合であっても高い類似度が算出されることがなく、回り込み発話の誤棄却の低減を実現することができる。
 そして、非特許文献4に記載の技術では、単語の一致度のみを考慮し、出現タイミングを考慮していないことから、同じ発話中で全く異なるタイミングで発せられた語彙に対し、高い類似度が計算されると、誤って棄却されるという制約がある。例えば、「映画見た?」、「そうあの映画ね」という2つの音声認識結果を比較する際に、実際には異なるタイミングで発せられた「映画」同士であっても、同じ音声認識結果であることから、棄却される場合があった。
 これに対し、信号処理装置100は、発話区間の時間に重複があるペアごとに、音声認識結果のうち同時刻に発せられたと判定される部分のみを比較して前記類似度を計算する処理を実施することで、回り込み発話の誤棄却の低減を実現した。
 したがって、実施の形態に係る信号処理装置100によれば、各話者にマイクがあり、マイクで収音した音声の音声認識を行う場合に、他話者の音声が回り込んだことによって生じる音声認識結果を適切に棄却することができ、音声認識の性能を高めることができる。
[実施の形態のシステム構成について]
 信号処理装置100の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、信号処理装置100の機能の分散及び統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。
 また、信号処理装置100においておこなわれる各処理は、全部または任意の一部が、CPU、GPU(Graphics Processing Unit)、及び、CPU、GPUにより解析実行されるプログラムにて実現されてもよい。また、信号処理装置100においておこなわれる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。
 また、実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。
[プログラム]
 図6は、プログラムが実行されることにより、信号処理装置100が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
 ハードディスクドライブ1090は、例えば、OS(Operating System)1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、信号処理装置100の各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、信号処理装置100における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
 また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例及び運用技術等は全て本発明の範疇に含まれる。
 100 信号処理装置
 101-1~101-N 発話区間検出部
 102-1~102-N 音声認識部
 103 回り込み発話棄却部
 1031 同タイミング発話検出部
 1032 発話類似度計算部
 1033 棄却部

Claims (7)

  1.  複数のマイクにそれぞれ入力された発話の発話区間の音声認識結果とともに、各発話の開始時刻と終了時刻との時間情報、及び、前記音声認識結果における各単語の出現時刻に関する情報の入力を受け付け、前記複数のマイクにそれぞれ入力された発話の発話区間の音声認識結果から、2つの発話の音声認識結果を組み合わせた発話の音声認識結果のペアごとに、発話区間の時間に重複があるか否かを検出する第1の検出部と、
     前記発話の音声認識結果のペアのうち、発話区間の時間に重複があるペアごとに、音声認識結果の類似度を、カナ或いは音素単位で計算する計算部と、
     前記発話区間の時間に重複があるペアごとに、前記類似度と所定の閾値とを比較し、前記類似度が閾値を上回ったペアに対しては、前記音声認識結果の長さが短い発話を回り込み発話として棄却する棄却部と、
     を有することを特徴とする信号処理装置。
  2.  前記計算部は、発話ごとの発話区間の重複率を用いて前記類似度を計算することを特徴とする請求項1に記載の信号処理装置。
  3.  前記計算部は、音声認識結果のうち同時刻に発せられたと判定される部分のみを比較して前記類似度を計算することを特徴とする請求項1または2に記載の信号処理装置。
  4.  前記複数のマイクにそれぞれ入力された各発話の発話区間の音声に対して音声認識を行う音声認識部をさらに有する請求項1~3のいずれか一つに記載の信号処理装置。
  5.  前記複数のマイクにそれぞれ入力された発話の音声から、発話が存在する発話区間をそれぞれ検出し、各発話の発話区間の音声を前記音声認識部に出力する第2の検出部をさらに有することを特徴とする請求項4に記載の信号処理装置。
  6.  信号処理装置が実行する信号処理方法であって、
     複数のマイクにそれぞれ入力された発話の発話区間の音声認識結果とともに、各発話の開始時刻と終了時刻との時間情報、及び、前記音声認識結果における各単語の出現時刻に関する情報の入力を受け付け、前記複数のマイクにそれぞれ入力された発話の発話区間の音声認識結果から、2つの発話の音声認識結果を組み合わせた発話の音声認識結果のペアごとに、発話区間の時間に重複があるか否かを検出する工程と、
     前記発話の音声認識結果のペアのうち、発話区間の時間に重複があるペアごとに、音声認識結果の類似度を、カナ或いは音素単位で計算する工程と、
     前記発話区間の時間に重複があるペアごとに、前記類似度と所定の閾値とを比較し、前記類似度が閾値を上回ったペアに対しては、前記音声認識結果の長さが短い発話を回り込み発話として棄却する工程と、
     を含んだことを特徴とする信号処理方法。
  7.  複数のマイクにそれぞれ入力された発話の発話区間の音声認識結果とともに、各発話の開始時刻と終了時刻との時間情報、及び、前記音声認識結果における各単語の出現時刻に関する情報の入力を受け付け、前記複数のマイクにそれぞれ入力された発話の発話区間の音声認識結果から、2つの発話の音声認識結果を組み合わせた発話の音声認識結果のペアごとに、発話区間の時間に重複があるか否かを検出するステップと、
     前記発話の音声認識結果のペアのうち、発話区間の時間に重複があるペアごとに、音声認識結果の類似度を、カナ或いは音素単位で計算するステップと、
     前記発話区間の時間に重複があるペアごとに、前記類似度と所定の閾値とを比較し、前記類似度が閾値を上回ったペアに対しては、前記音声認識結果の長さが短い発話を回り込み発話として棄却するステップと、
     をコンピュータに実行させるための信号処理プログラム。
PCT/JP2021/025207 2021-07-02 2021-07-02 信号処理装置、信号処理方法及び信号処理プログラム WO2023276159A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023531334A JPWO2023276159A1 (ja) 2021-07-02 2021-07-02
PCT/JP2021/025207 WO2023276159A1 (ja) 2021-07-02 2021-07-02 信号処理装置、信号処理方法及び信号処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/025207 WO2023276159A1 (ja) 2021-07-02 2021-07-02 信号処理装置、信号処理方法及び信号処理プログラム

Publications (1)

Publication Number Publication Date
WO2023276159A1 true WO2023276159A1 (ja) 2023-01-05

Family

ID=84691089

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/025207 WO2023276159A1 (ja) 2021-07-02 2021-07-02 信号処理装置、信号処理方法及び信号処理プログラム

Country Status (2)

Country Link
JP (1) JPWO2023276159A1 (ja)
WO (1) WO2023276159A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010092914A1 (ja) * 2009-02-13 2010-08-19 日本電気株式会社 多チャンネル音響信号処理方法、そのシステム及びプログラム
WO2010092913A1 (ja) * 2009-02-13 2010-08-19 日本電気株式会社 多チャンネル音響信号処理方法、そのシステム及びプログラム
WO2021125037A1 (ja) * 2019-12-17 2021-06-24 ソニーグループ株式会社 信号処理装置、信号処理方法、プログラムおよび信号処理システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010092914A1 (ja) * 2009-02-13 2010-08-19 日本電気株式会社 多チャンネル音響信号処理方法、そのシステム及びプログラム
WO2010092913A1 (ja) * 2009-02-13 2010-08-19 日本電気株式会社 多チャンネル音響信号処理方法、そのシステム及びプログラム
WO2021125037A1 (ja) * 2019-12-17 2021-06-24 ソニーグループ株式会社 信号処理装置、信号処理方法、プログラムおよび信号処理システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHOTA HORIGUCHI; YUSUKE FUJITA; KENJI NAGAMATSU: "Utterance-Wise Meeting Transcription System Using Asynchronous Distributed Microphones", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 31 July 2020 (2020-07-31), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081730026 *

Also Published As

Publication number Publication date
JPWO2023276159A1 (ja) 2023-01-05

Similar Documents

Publication Publication Date Title
JP6171617B2 (ja) 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム
US6618702B1 (en) Method of and device for phone-based speaker recognition
US20080294433A1 (en) Automatic Text-Speech Mapping Tool
WO2017162053A1 (zh) 一种身份认证的方法和装置
Wyatt et al. Conversation detection and speaker segmentation in privacy-sensitive situated speech data.
US20140337024A1 (en) Method and system for speech command detection, and information processing system
US9251808B2 (en) Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof
KR20170007107A (ko) 음성인식 시스템 및 방법
KR20240053639A (ko) 제한된 스펙트럼 클러스터링을 사용한 화자-턴 기반 온라인 화자 구분
CN113744742B (zh) 对话场景下的角色识别方法、装置和系统
Arjun et al. Automatic correction of stutter in disfluent speech
EP3493201B1 (en) Information processing device, information processing method, and computer program
Këpuska Wake-up-word speech recognition
Adi et al. Automatic Measurement of Voice Onset Time and Prevoicing Using Recurrent Neural Networks.
WO2023276159A1 (ja) 信号処理装置、信号処理方法及び信号処理プログラム
Arsikere et al. Computationally-efficient endpointing features for natural spoken interaction with personal-assistant systems
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
Zelenák et al. Speaker overlap detection with prosodic features for speaker diarisation
JP7511374B2 (ja) 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム
KR101229108B1 (ko) 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법
KR20090061566A (ko) 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법
US20240321273A1 (en) Signal processing device, signal processing method, and signal processing program
Singh et al. Voice based login authentication for Linux
JP7377736B2 (ja) オンライン話者逐次区別方法、オンライン話者逐次区別装置及びオンライン話者逐次区別システム
Jamil et al. Influences of age in emotion recognition of spontaneous speech: A case of an under-resourced language

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21948463

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023531334

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 18575327

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21948463

Country of ref document: EP

Kind code of ref document: A1