WO2021181451A1 - 音声認識装置、制御方法、及びプログラム - Google Patents

音声認識装置、制御方法、及びプログラム Download PDF

Info

Publication number
WO2021181451A1
WO2021181451A1 PCT/JP2020/009979 JP2020009979W WO2021181451A1 WO 2021181451 A1 WO2021181451 A1 WO 2021181451A1 JP 2020009979 W JP2020009979 W JP 2020009979W WO 2021181451 A1 WO2021181451 A1 WO 2021181451A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
texts
audio signal
time
voice
Prior art date
Application number
PCT/JP2020/009979
Other languages
English (en)
French (fr)
Inventor
秀治 古明地
山本 仁
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2020/009979 priority Critical patent/WO2021181451A1/ja
Priority to US17/908,292 priority patent/US20230109867A1/en
Priority to JP2022506994A priority patent/JP7501610B2/ja
Publication of WO2021181451A1 publication Critical patent/WO2021181451A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Definitions

  • the present invention relates to voice recognition.
  • Patent Document 1 discloses a technique for generating a word network from a voice signal by voice recognition.
  • the voice signal is divided into a plurality of sections, and voice recognition is performed on the voice signal in each section.
  • some of the adjacent sections overlap each other on the time axis. Then, as the word network corresponding to the overlapping portion of the adjacent sections, words detected from both sections and having a large time overlap ratio in both sections are adopted.
  • FIG. 1 is a diagram conceptually exemplifying the operation of the voice recognition device 2000 according to the first embodiment.
  • the operation of the voice recognition device 2000 described with reference to FIG. 1 is an example for facilitating the understanding of the voice recognition device 2000, and does not limit the operation of the voice recognition device 2000. Details and variations of the operation of the voice recognition device 2000 will be described later.
  • the voice recognition device 2000 acquires the source data 10.
  • the source data 10 is voice data in which a person's utterance is recorded, and is, for example, recorded data of a conversation or a speech.
  • the audio data is, for example, vector data representing a waveform of an audio signal.
  • the audio signal represented by the source data 10 is also referred to as a source audio signal.
  • the text 32 adjacent to each other in the text string 30 also has an overlapping portion.
  • the voice recognition device 2000 obtains the text "especially today” by removing the partial text "heiki” from the end of the text 32-1. Further, the voice recognition device 2000 obtains the text "text is good” by removing the partial text "shoha” from the beginning of the text 32-2. Then, the voice recognition device 2000 generates a concatenated text 40 of "especially today is good (especially today is good weather)" by connecting "especially today” and "tenki is good”.
  • Example of action effect When extracting multiple audio signals from the audio signal (source audio signal) to be voice-recognized and converting them into text, the conversion accuracy is higher at the beginning and end of the extracted audio signals than at the other parts. It tends to be low. Therefore, in the voice recognition device 2000, when the voice frame sequence 20 is generated from the source voice signal, the voice signal is extracted so that some of the adjacent voice frames overlap each other on the time axis. Then, when the concatenated text 40 representing the content of the utterance is generated by concatenating the texts 32 obtained from each voice frame, the concatenation of the texts 32 adjacent to each other is one at the end of the text 32 located in front of the text 32.
  • the part is excluded, and the text 32 located later is performed after excluding a part at the beginning of the text 32.
  • the conversion accuracy that is, the accuracy of voice recognition
  • the corresponding text is not used. Therefore, highly accurate voice recognition can be realized.
  • the voice recognition by the voice recognition device 2000 does not cause a problem such as "an error occurs in the recognition result because the correct word is detected only from one of the overlapping sections", so that the accuracy of the voice recognition is improved.
  • FIG. 2 is a block diagram illustrating the functional configuration of the voice recognition device 2000.
  • the voice recognition device 2000 has a conversion unit 2020 and a connection unit 2040.
  • the conversion unit 2020 converts the source data 10 into the audio frame string 20. Further, the conversion unit 2020 converts the voice frame string 20 into the text string 30 by converting each voice frame included in the voice frame string 20 into the text 32.
  • the connecting unit 2040 generates the connected text 40 by connecting the texts 32 that are continuous to each other in the text string 30.
  • the connecting portion 2040 excludes a part of the end from the text 32 located in front, and one of the beginnings from the text 32 located behind. Concatenate after excluding the part.
  • the computer 1000 has a bus 1020, a processor 1040, a memory 1060, a storage device 1080, an input / output interface 1100, and a network interface 1120.
  • the bus 1020 is a data transmission path for the processor 1040, the memory 1060, the storage device 1080, the input / output interface 1100, and the network interface 1120 to transmit and receive data to and from each other.
  • the method of connecting the processors 1040 and the like to each other is not limited to the bus connection.
  • the processor 1040 is various processors such as a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), and an FPGA (Field-Programmable Gate Array).
  • the memory 1060 is a main storage device realized by using RAM (Random Access Memory) or the like.
  • the storage device 1080 is an auxiliary storage device realized by using a hard disk, an SSD (Solid State Drive), a memory card, a ROM (Read Only Memory), or the like.
  • the input / output interface 1100 is an interface for connecting the computer 1000 and the input / output device.
  • an input device such as a keyboard and an output device such as a display device are connected to the input / output interface 1100.
  • the network interface 1120 is an interface for connecting the computer 1000 to the communication network.
  • This communication network is, for example, LAN (Local Area Network) or WAN (Wide Area Network).
  • the storage device 1080 stores a program (a program that realizes the above-mentioned application) that realizes each functional component of the voice recognition device 2000.
  • the processor 1040 reads this program into the memory 1060 and executes it to realize each functional component of the voice recognition device 2000.
  • the voice recognition device 2000 may be realized by one computer 1000 or may be realized by a plurality of computers 1000. In the latter case, for example, the speech recognition device 2000 is realized as a distributed system having one or more computers 1000 that realize the conversion unit 2020 and one or more computers 1000 that realize the connection unit 2040.
  • FIG. 4 is a flowchart illustrating the flow of processing executed by the voice recognition device 2000 of the first embodiment.
  • the conversion unit 2020 acquires the source data 10 (S102).
  • the conversion unit 2020 converts the source data 10 into the audio frame string 20 (S104).
  • the conversion unit 2020 converts the voice frame string 20 into the text string 30 (S106).
  • the connecting unit 2040 concatenates the text strings 30 to generate the concatenated text 40 (S108).
  • the conversion unit 2020 acquires the source data 10 (S102).
  • the method by which the conversion unit 2020 acquires the source data 10 is arbitrary.
  • the conversion unit 2020 acquires the source data 10 by receiving the source data 10 transmitted from the user terminal operated by the user.
  • the conversion unit 2020 may acquire the source data 10 stored in the storage device accessible from the conversion unit 2020.
  • the voice recognition device 2000 receives the designation (designation of the file name, etc.) of the source data 10 to be acquired from the user terminal.
  • the conversion unit 2020 may acquire one or more data stored in the storage device as source data 10. That is, in this case, batch processing is performed on the plurality of source data 10 stored in advance in the storage device.
  • the conversion unit 2020 converts the source data 10 into the audio frame string 20 (S104).
  • a part of the audio signals corresponding to the audio frames adjacent to each other in the audio frame sequence 20 overlap on the time axis.
  • the conversion unit 2020 extracts the audio signals included in the time window in order while moving the time window from the beginning of the source audio signal within a certain time width.
  • the length of the time window is referred to as a window width
  • the length of moving the time window with one movement is referred to as a slide width.
  • the conversion unit 2020 When handling an audio signal as an audio frame, the conversion unit 2020 uses each extracted audio signal as an audio frame to generate an audio frame sequence 20. On the other hand, when the audio feature amount is treated as an audio frame, the conversion unit 2020 converts each extracted audio signal into an audio feature amount, and uses each of the obtained audio feature amounts as an audio frame to generate an audio frame sequence 20. .. It should be noted that the audio frame corresponding to the audio signal located earlier on the time axis is located earlier in the audio frame sequence 20.
  • the slide width is set smaller than the window width. By doing so, at least two audio signals adjacent to each other among the audio signals extracted from the source audio signal will overlap each other on the time axis.
  • the overlapping audio signals are not limited to two, and the slide width and the window width may be determined so that three or more audio signals overlap.
  • FIG. 5 is a diagram illustrating a case where three audio signals overlap.
  • the slide width and window width may or may not be fixed.
  • the slide width and the window width are determined according to various conditions. For example, information in which a condition and a pair of "slide width and window width" corresponding to the condition are associated with each other is stored in a storage device in advance. Hereinafter, this information is referred to as setting information.
  • the conversion unit 2020 acquires the information indicating the condition, and generates the audio frame sequence 20 by using the slide width and the window width associated with the condition indicated by the information.
  • the setting information may indicate only one of the slide width and the window width.
  • the conversion unit 2020 uses the value shown in the setting information for the slide width and the value set by default for the window width. .. The same applies when only the window width is indicated in the setting information.
  • the conversion unit 2020 acquires the speaker identification information input by the user.
  • the conversion unit 2020 may acquire the identification information of the identified speaker by using the source data 10.
  • the voice recognition device 2000 converts a part of the voice signal represented by the source data 10 into a voice feature amount, and identifies the speaker identification information by using the voice feature amount.
  • the information in which the speaker identification information and the voice feature amount are associated with each other is stored in the storage device in advance. It should be noted that an existing technique can be used as a technique for identifying a speaker by using a voice feature amount.
  • the speaking speed index value is calculated using the already extracted audio signal (for example, the audio signal extracted immediately before (located one before on the time axis)) instead of the audio signal to be extracted. May be done.
  • the conversion unit 2020 generates a voice frame from the voice signal each time the voice signal is extracted, and converts the voice frame into the text string 30.
  • the conversion unit 2020 calculates the speaking speed index value using the length of the audio signal, the length of the generated text string 30, and the like. Then, the conversion unit 2020 determines the length of the audio signal to be extracted next by using the calculated speech speed index value. According to this method, since the speaking speed index value is calculated using the text string 30 that is inevitably generated in the operation of the voice recognition device 2000, the processing can be performed efficiently.
  • the conversion unit 2020 may collectively treat the voice sections before and after the silent section as one voice section. That is, the section from the beginning of the voice section before the silence section to the end of the voice section after the silence section is combined into one voice section. (In other words, such a short silent section should not be treated as a silent section).
  • the conversion unit 2020 converts the voice frame string 20 into the text string 30 (S104).
  • Existing technology can be used as the technology for converting voice frames into text.
  • the conversion unit 2020 has a conversion model learned to convert a voice frame into a text string 30.
  • the conversion unit 2020 sequentially inputs each voice frame included in the voice frame sequence 20 into the conversion model.
  • the text string 30 corresponding to the voice frame string 20 is obtained from the conversion model.
  • existing technology can be used for the technology for generating a model for converting a voice frame into text.
  • the connecting unit 2040 concatenates the texts 32 included in the text string 30 to generate the concatenated text 40 (S106).
  • each audio signal extracted from the source data 10 partially overlaps with other adjacent audio signals on the time axis. Therefore, when connecting the texts 32 adjacent to each other, the connecting unit 2040 excludes a part of the end from the text 32 located in front of the text 32, and a part of the beginning of the text 32 located in the back. By excluding, the connected texts 32 do not overlap on the time axis.
  • the connecting unit 2040 performs the following processing.
  • the voice recognition device 2000 may not output the concatenated text 40 as it is, but may output the concatenated text 40 after further performing various processing on the concatenated text 40.
  • the concatenated text 40 is a character string of hiragana or katakana
  • the voice recognition device 2000 may perform kana-kanji conversion processing on the concatenated text 40.
  • the concatenated text 40 is converted into a text including Chinese characters.
  • the existing technology can be used as a technology for converting a character string of hiragana or katakana into a text including kanji.
  • the conversion model for converting the voice frame into text can be switched according to the usage scene. For example, at meetings of people in the computer field, many technical terms in the computer field appear, while in meetings of people in the medical field, many technical terms in the medical field appear. Therefore, for example, a trained model is prepared for each field. In addition, for example, it is preferable to prepare a model for each language such as Japanese or English.
  • a plurality of voice recognition devices 2000 may be prepared, and different models may be set for each voice recognition device 2000.
  • the voice recognition device 2000 corresponding to the usage scene is used. For example, prepare a front-end machine that accepts requests from users so that the machine provides the selection screen described above. When the user selects a usage scene on the selection screen, the voice frame is converted to text by using the voice recognition device 2000 corresponding to the selected usage scene.
  • the character of the preceding text is used as the character of the concatenated text corresponding to the time of detection. If the first difference is smaller than the second difference, the character of the subsequent text is used as the character of the concatenated text corresponding to the time of detection.
  • the voice recognition device described in. 4. The length of the audio signal corresponding to each of the texts or the length of time that the audio signals corresponding to the adjacent texts overlap each other is determined based on the speaker of the source audio signal or a group of speakers. 3 The voice recognition device according to any one of 3. 5. The length of the audio signal corresponding to each of the texts or the length of time that the audio signals corresponding to the adjacent texts overlap each other is determined based on the language of the source audio signal.
  • the voice recognition device according to any one of 3. 6.
  • the length of the audio signal corresponding to each of the texts or the length of time that the audio signals corresponding to the adjacent texts overlap each other is determined based on the type of utterance represented by the source audio signal.
  • the voice recognition device according to any one of 3. 7.
  • the length of the audio signal corresponding to each of the texts is determined based on an index value representing the estimated speed of utterance included in the audio signal.
  • the voice recognition device according to any one of 3. 8.
  • a control method performed by a computer A conversion step that converts the source audio signal containing the utterance into a text string, It has a concatenation step of generating concatenated text representing the content of the utterance by concatenating adjacent texts in the text string.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

音声認識装置(2000)は、発話が含まれる音声信号を表すソースデータ(10)を取得する。音声認識装置(2000)は、ソースデータ(10)をテキスト列(30)に変換する。音声認識装置(2000)は、テキスト列(30)に含まれるテキスト(32)を連結することで、発話の内容を表す連結テキスト(40)を生成する。ここで、テキスト列(30)において互いに隣接するテキスト(32)は、対応する音声信号の一部が、時間軸上で互いに重複する。音声認識装置(2000)は、互いに隣接するテキスト(32)を連結する際、先行するテキスト(32)の末尾と後続のテキスト(32)の先頭を排除する。

Description

音声認識装置、制御方法、及びプログラム
 本発明は音声認識に関する。
 音声認識技術が開発されている。音声認識により、例えば、人の発話が含まれる音声信号が、その発話の内容を表すテキストに変換される。
 特許文献1は、音声認識により、音声信号から単語ネットワークを生成する技術を開示している。ここで、特許文献1では、音声信号が複数の区間に分割され、各区間の音声信号に対して音声認識が行われる。また、隣接する区間は、時間軸上でその一部が互いに重複する。そして、隣接する区間の重複部分に対応する単語ネットワークには、双方の区間から検出された単語であって、かつ、両区間における時間重複の割合が大きいものが採用される。
特開2013-101204号公報
 特許文献1において、隣接する区間の重複部分に対応する単語ネットワークに含める単語は、双方の区間から検出された単語から選ばれる。しかしながら、認識結果として正しい単語が双方の区間から検出されるとは限らず、片方の区間からしか検出されない場合もありうる。このように重複する区間の片方からしか正しい単語が検出されない場合、特許文献1の方法では、認識結果に誤りが生じてしまう。
 本発明は上記の課題に鑑みてなされたものであり、その目的の一つは、音声認識の精度を向上させる技術を提供することである。
 本発明の音声認識装置は、発話が含まれるソース音声信号をテキスト列に変換する変換部と、テキスト列において隣接するテキスト同士を連結することにより、発話の内容を表す連結テキストを生成する連結部と、を有する。
 テキスト列において互いに隣接するテキストに対応する音声信号同士は、時間軸上でその一部が互いに重複している。
 連結部は、テキスト列において互いに隣接する先行テキストと後続テキストとを連結する際、先行テキストからはその末尾を含む一部を除外し、後続テキストからはその先頭を含む一部を除外する。
 本発明の制御方法は、コンピュータによって実行される。当該制御方法は、発話が含まれるソース音声信号をテキスト列に変換する変換ステップと、テキスト列において隣接するテキスト同士を連結することにより、発話の内容を表す連結テキストを生成する連結ステップと、を有する。
 テキスト列において互いに隣接するテキストに対応する音声信号同士は、時間軸上でその一部が互いに重複している。
 連結ステップにおいて、テキスト列において互いに隣接する先行テキストと後続テキストとを連結する際、先行テキストからはその末尾を含む一部を除外し、後続テキストからはその先頭を含む一部を除外する。
 本発明のプログラムは、本発明の制御方法をコンピュータに実行させる。
 本発明によれば、音声認識の精度を向上させる技術が提供される。
実施形態1に係る音声認識装置2000の動作を概念的に例示する図である。 音声認識装置2000の機能構成を例示するブロック図である。 音声認識装置2000を実現するための計算機1000を例示する図である。 実施形態1の音声認識装置2000によって実行される処理の流れを例示するフローチャートである。 3つの音声信号が重複するケースを例示する図である。
 以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。また、特に説明する場合を除き、各ブロック図において、各ブロックは、ハードウエア単位の構成ではなく、機能単位の構成を表している。以下の説明において、特に説明しない限り、各種所定の値(閾値など)は、その値を利用する機能構成部からアクセス可能な記憶装置に予め記憶させておく。
[実施形態1]
<概要>
 図1は、実施形態1に係る音声認識装置2000の動作を概念的に例示する図である。ここで、図1を用いて説明する音声認識装置2000の動作は、音声認識装置2000の理解を容易にするための例示であり、音声認識装置2000の動作を限定するものではない。音声認識装置2000の動作の詳細やバリエーションについては後述する。
 音声認識装置2000は、発話を表す音声を、その発話の内容を表すテキストに変換するために利用される。そのために、音声認識装置2000は以下のように動作する。
 音声認識装置2000は、ソースデータ10を取得する。ソースデータ10は、人の発話が記録された音声データであり、例えば会話やスピーチの録音データなどである。音声データは、例えば、音声信号の波形を表すベクトルデータなどである。以下、ソースデータ10によって表される音声信号を、ソース音声信号とも呼ぶ。
 音声認識装置2000は、ソースデータ10から音声フレーム列20を生成する。音声フレーム列20は、ソースデータ10から得られる複数の音声フレームの時系列データである。音声フレームは、例えば、ソース音声信号のうち、一部の時間区間の音声信号を表す音声データや、その音声データから得られる音声特徴量である。ここで、音声フレーム列20において互いに隣接する音声フレームは、それらに対応する音声信号の一部が、時間軸上で互いに重複する。
 音声認識装置2000は、音声フレーム列20に含まれる各音声フレームをテキスト32に変換することで、音声フレーム列20をテキスト32の列(テキスト列30)に変換する。そして音声認識装置2000は、テキスト列30において互いに隣接するテキスト32を連結することで、ソースデータ10によって表される発話の内容を表すテキスト(連結テキスト40)を生成する。
 ここで、前述した通り、音声フレーム列20において互いに隣接する音声フレームは、それらによって表される音声信号の一部が、時間軸上で互い重複している。そのため、テキスト列30において互いに隣接するテキスト32にも、重複部分が存在する。言い換えれば、或るテキスト32に対応する音声信号と、その次に位置するテキスト32に対応する音声信号とについて、重複する時間区間が存在する。そのため、互いに隣接するテキスト32同士を連結する際には、このような重複を排除する必要がある。
 ここで、音声信号からテキストへの変換を行う際、音声信号の先頭と末尾については、その変換精度が低くなりやすい。そこで音声認識装置2000は、互いに連接するテキスト32を連結する際、前に位置するテキスト32については、その末尾の一部を除外し、かつ、後に位置するテキスト32については、その先頭の一部を除外した上で、連結を行う。例えば図1では、テキスト32-1とテキスト32-2を連結する際、テキスト32-1の末尾とテキスト32-2の先頭が排除されている。同様に、テキスト32-2とテキスト32-3を連結する際、テキスト32-2の末尾とテキスト32-3の末尾が排除されている。
 例えば、「特に今日は天気が良い」という発話の内容を表すソースデータ10を音声認識装置2000に入力したとする。そして、ソースデータ10から音声フレーム-1と音声フレーム-2が生成され、これらがそれぞれ、「とくにきょうはへいき」というテキスト32-1と、「しょうはてんきがいい」というテキスト32-2に変換されたとする。
 この場合、例えば音声認識装置2000は、テキスト32-1の末尾から「へいき」という部分テキストを除くことで、「とくにきょうは」というテキストを得る。また、音声認識装置2000は、テキスト32-2の先頭から「しょうは」という部分テキストを除くことで、「てんきがいい」というテキストを得る。そして音声認識装置2000は、「とくにきょうは」と「てんきがいい」を連結することで、「とくにきょうはてんきがいい(特に今日は天気がいい)」という連結テキスト40を生成する。
<作用効果の一例>
 音声認識対象の音声信号(ソース音声信号)から複数の音声信号を抽出してテキストへ変換する際、抽出した音声信号の先頭や末尾の部分では、それ以外の部分と比較して変換の精度が低くなりやすい。そこで音声認識装置2000では、ソース音声信号から音声フレーム列20を生成する際、隣接する音声フレーム同士の一部が時間軸上で互いに重複するように、音声信号が抽出される。そして、各音声フレームから得られたテキスト32を連結することで発話の内容を表す連結テキスト40を生成する際、互いに隣接するテキスト32の連結が、前に位置するテキスト32についてはその末尾の一部を除外し、かつ、後に位置するテキスト32についてはその先頭の一部を除外した上で行われる。このようにすることで、音声認識の結果として得られる、発話の内容を表すテキスト(連結テキスト40)では、変換の精度(すなわち、音声認識の精度)が低くなりやすい音声信号の先頭や末尾に対応するテキストが利用されない。よって、精度の高い音声認識を実現することができる。
 ここで、前述した特許文献1にも、異なる区間の認識結果を連結させる方法が記載されている。具体的には、特許文献1では、隣接する区間の重複部分について、双方の区間から検出された単語の中から時間軸上で重複している割合が所定程度以上である単語を選択することで、単語ネットワークが形成される。
 しかしながら、正しい単語が、重複する区間の双方から検出されるとは限らず、片方の区間からしか検出されない場合もありうる。このように正しい単語が重複する区間の片方からしか検出されなかった場合、正しい単語が単語ネットワークに含まれないこととなり、認識結果に誤りが生じてしまう。
 この点、音声認識装置2000による音声認識では、「正しい単語が重複する区間の片方からしか検出されないために認識結果に誤りが生じる」といった問題は生じないため、音声認識の精度が向上する。
 以下、音声認識装置2000についてより詳細に説明する。
<機能構成の例>
 図2は、音声認識装置2000の機能構成を例示するブロック図である。音声認識装置2000は、変換部2020及び連結部2040を有する。変換部2020は、ソースデータ10を音声フレーム列20に変換する。さらに、変換部2020は、音声フレーム列20に含まれる各音声フレームをテキスト32に変換することで、音声フレーム列20をテキスト列30に変換する。連結部2040は、テキスト列30において互いに連続するテキスト32同士を連結することで、連結テキスト40を生成する。ここで、連結部2040は、互いに隣接するテキスト32同士を連結する際、前に位置するテキスト32からはその末尾の一部を除外し、かつ、後ろに位置するテキスト32からはその先頭の一部を除外した上で連結を行う。
<ハードウエア構成の例>
 音声認識装置2000の各機能構成部は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、音声認識装置2000の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。
 図3は、音声認識装置2000を実現するための計算機1000を例示する図である。計算機1000は、任意の計算機である。例えば計算機1000は、PC(Personal Computer)やサーバマシンなどといった、据え置き型の計算機である。その他にも例えば、計算機1000は、スマートフォンやタブレット端末などといった可搬型の計算機である。
 計算機1000は、音声認識装置2000を実現するために設計された専用の計算機であってもよいし、汎用の計算機であってもよい。後者の場合、例えば、計算機1000に対して所定のアプリケーションをインストールすることにより、計算機1000で、音声認識装置2000の各機能が実現される。上記アプリケーションは、音声認識装置2000の機能構成部を実現するためのプログラムで構成される。
 計算機1000は、バス1020、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120を有する。バス1020は、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ1040などを互いに接続する方法は、バス接続に限定されない。
 プロセッサ1040は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(Field-Programmable Gate Array)などの種々のプロセッサである。メモリ1060は、RAM(Random Access Memory)などを用いて実現される主記憶装置である。ストレージデバイス1080は、ハードディスク、SSD(Solid State Drive)、メモリカード、又は ROM(Read Only Memory)などを用いて実現される補助記憶装置である。
 入出力インタフェース1100は、計算機1000と入出力デバイスとを接続するためのインタフェースである。例えば入出力インタフェース1100には、キーボードなどの入力装置や、ディスプレイ装置などの出力装置が接続される。
 ネットワークインタフェース1120は、計算機1000を通信網に接続するためのインタフェースである。この通信網は、例えば LAN(Local Area Network)や WAN(Wide Area Network)である。
 ストレージデバイス1080は、音声認識装置2000の各機能構成部を実現するプログラム(前述したアプリケーションを実現するプログラム)を記憶している。プロセッサ1040は、このプログラムをメモリ1060に読み出して実行することで、音声認識装置2000の各機能構成部を実現する。
 ここで、音声認識装置2000は、1つの計算機1000で実現されてもよいし、複数の計算機1000で実現されてもよい。後者の場合、例えば音声認識装置2000は、変換部2020を実現する1つ以上の計算機1000と、連結部2040を実現する1つ以上の計算機1000とを有する分散システムとして実現される。
<処理の流れ>
 図4は、実施形態1の音声認識装置2000によって実行される処理の流れを例示するフローチャートである。変換部2020はソースデータ10を取得する(S102)。変換部2020はソースデータ10を音声フレーム列20に変換する(S104)。変換部2020は、音声フレーム列20をテキスト列30に変換する(S106)。連結部2040はテキスト列30を連結して連結テキスト40を生成する(S108)。
<ソースデータ10の取得:S102>
 変換部2020はソースデータ10を取得する(S102)。変換部2020がソースデータ10を取得する方法は任意である。例えば変換部2020は、ユーザが操作するユーザ端末から送信されるソースデータ10を受信することで、ソースデータ10を取得する。その他にも例えば、変換部2020は、変換部2020からアクセス可能な記憶装置に格納されているソースデータ10を取得してもよい。この場合、例えば音声認識装置2000は、ユーザ端末から、取得すべきソースデータ10の指定(ファイル名などの指定)を受け付ける。その他にも例えば、変換部2020は、上記記憶装置に格納されている1つ以上のデータをそれぞれソースデータ10として取得してもよい。すなわちこの場合、記憶装置に予め格納しておいた複数のソースデータ10についてバッチ処理が行われる。
<音声フレーム列20への変換:S104>
 変換部2020はソースデータ10を音声フレーム列20に変換する(S104)。ここで、音声フレーム列20において互いに隣接する音声フレームに対応する音声信号は、時間軸上でその一部が重複する。例えば変換部2020は、ソース音声信号の先頭から一定の時間幅でタイムウインドウを移動させながら、タイムウインドウに含まれる音声信号を順に抽出していく。以下、タイムウインドウの長さをウインドウ幅と呼び、一度の移動でタイムウインドウを移動させる長さをスライド幅と呼ぶ。
 音声フレームとして音声信号を扱う場合、変換部2020は、抽出された各音声信号を音声フレームとして、音声フレーム列20を生成する。一方、音声フレームとして音声特徴量を扱う場合、変換部2020は、抽出された各音声信号を音声特徴量に変換し、得られた各音声特徴量を音声フレームとして、音声フレーム列20を生成する。なお、時間軸上でより前に位置する音声信号に対応する音声フレームほど、音声フレーム列20でもより前に位置することになる。
 ここで、スライド幅はウインドウ幅よりも小さく設定される。こうすることで、ソース音声信号から抽出される音声信号のうち、少なくとも、互いに隣接する2つの音声信号は時間軸上で互いに重複することになる。なお、重複する音声信号は2つに限定されず、3つ以上の音声信号が重複するようにスライド幅やウインドウ幅が定められてもよい。図5は、3つの音声信号が重複するケースを例示する図である。
 スライド幅やウインドウ幅は、固定で設定されていてもよいし、固定でなくてもよい。例えば後者の場合、種々の条件に応じて、スライド幅やウインドウ幅が定められる。例えば、条件と、その条件に対応する「スライド幅、ウインドウ幅」のペアとが対応づけられた情報を、予め記憶装置に格納しておく。以下、この情報を設定情報と呼ぶ。変換部2020は、条件を示す情報を取得し、その情報が示す条件に対応付けられているスライド幅やウインドウ幅を利用して、音声フレーム列20の生成を行う。
 なお、設定情報は、スライド幅とウインドウ幅のいずれか一方のみを示してもよい。例えば、設定情報にスライド幅のみが示されている場合、変換部2020は、スライド幅については設定情報に示されている値を利用し、ウインドウ幅についてはデフォルトで設定されている値を利用する。設定情報にウインドウ幅のみが示されている場合についても同様である。
 設定情報が示す条件には、様々なものを採用できる。例えば条件として、話者の識別情報を利用する。この場合、設定情報は、話者の識別情報に対し、スライド幅やウインドウ幅を対応付けている。変換部2020は、ソースデータ10によって表される発話の話者の識別情報を特定し、その識別情報を示す設定情報を取得する。
 変換部2020が話者の識別情報を取得する方法は様々である。例えば変換部2020は、ユーザによって入力された話者の識別情報を取得する。その他にも例えば、変換部2020は、ソースデータ10を利用して特定された話者の識別情報を取得してもよい。具体的には、音声認識装置2000は、ソースデータ10によって表される音声信号の一部を音声特徴量に変換し、その音声特徴量を利用して話者の識別情報を特定する。この場合、話者の識別情報と音声特徴量とを対応付けた情報を予め記憶装置に格納しておく。なお、音声特徴量を利用して話者を特定する技術には、既存の技術を利用することができる。
 なお、話者の識別情報の代わりに、話者のグループの識別情報を利用してもよい。例えば変換部2020は、ユーザによって入力された話者のグループの識別情報を取得する。
 条件としては、その他にも例えば、発話の言語を利用することができる。この場合、設定情報は、言語の識別情報に対し、スライド幅やウインドウ幅を対応付けている。変換部2020は、ソースデータ10によって表されている発話の言語の識別情報を特定し、その識別情報を示す設定情報を取得する。例えばソースデータ10が、英語の会話が録音された音声データである場合、英語という言語を示す設定情報が利用される。
 変換部2020が言語の識別情報を取得する方法は様々である。例えば変換部2020は、ユーザによって入力された言語の識別情報を取得する。その他にも例えば、変換部2020は、ソースデータ10を利用して、言語の識別情報を特定してもよい。具体的には、音声認識装置2000は、ソースデータ10によって表される音声信号の一部を音声特徴量に変換し、その音声特徴量を利用して言語の識別情報を特定する。なお、音声特徴量を利用して言語を特定する技術には、既存の技術を利用することができる。
 条件としては、その他にも例えば、タスク(発話の種類)を利用することができる。この場合、設定情報は、タスクの識別情報に対し、スライド幅やウインドウ幅を対応付けている。変換部2020は、ソースデータ10に対応するタスクの識別情報を特定し、その識別情報を示す設定情報を取得する。タスクとしては、例えば、会議やプレゼンテーションなどといったものを採用することができる。
 変換部2020が、ソースデータ10に対応するタスクの識別情報を取得する方法は様々である。例えば変換部2020は、ユーザによって入力されたタスクの識別情報を取得する。
 なお、音声特徴量から話者や言語などを特定する処理は、音声認識装置2000以外の他の装置によって行われてもよい。この場合、音声認識装置2000は、当該他の装置から、話者や言語の識別情報を取得する。
 前述した各種の条件に対応付けるスライド幅やウインドウ幅を決定する方法(設定情報を生成する方法)は任意である。例えば、音声認識装置2000の運用を開始する前に、テストデータを利用して設定情報を生成する。具体的には、特定の条件に当てはまるソースデータ10を音声認識装置2000へ与える操作を、スライド幅やウインドウ幅を様々に変えながら行う。そして、連結テキスト40が正しく得られたスライド幅やウインドウ幅と、上記特定の条件とを対応付けた設定情報を生成し、記憶装置に格納する。
 1つのソースデータ10から抽出される各音声信号の長さ(ウインドウ幅)は、一定でなくてもよい。例えば変換部2020は、ソースデータ10から音声信号を1つずつ順に抽出する際、これから抽出しようとしている音声信号によって表されている発話の推定速度(以下、推定話速)に応じて、その音声信号の長さを決定する。具体的には、抽出された各音声信号に含まれる音素の数を同程度にするために、推定話速が大きいほど音声信号の長さを長くすることが好適である。
 例えば変換部2020は、これから抽出しようとしている音声信号の開始時点から所定長の音声信号を解析することで、推定話速を表す指標値(以下、話速指標値)を算出する。さらに変換部2020は、算出した話速指標値に応じた長さの音声信号を抽出し、その音声信号から音声フレームを生成する。なお、話速指標値としては、単位時間当たりに含まれる単語数やモーラ数などを利用できる。
 話速指標値と音声信号との対応関係は、予め定めておく。例えば、話速指標値が入力されたことに応じて音声信号の長さを出力する関数を予め定義しておく。この関数には、任意の単調非減少関数を利用できる。単調非減少関数を利用することで、話速が大きいほど音声信号の長さが長くなる。この場合、変換部2020は、算出した話速指標値を上記関数に入力することで、音声信号の長さを算出する。なお、関数の代わりに学習済みモデルを利用してもよい。
 その他にも例えば、話速指標値について複数の数値範囲を定め、各数値範囲と音声信号の長さとを対応付けた情報を予め用意しておいてもよい。この場合、変換部2020は、算出した話速指標値が含まれる数値範囲に対応付けられている音声信号の長さを取得する。
 話速指標値は、これから抽出しようとしている音声信号ではなく、既に抽出された音声信号(例えば、直前に抽出された(時間軸上で1つ手前に位置する)音声信号)を利用して算出されてもよい。この場合、例えば変換部2020は、音声信号が抽出される度に、その音声信号から音声フレームを生成し、その音声フレームをテキスト列30に変換する。変換部2020は、音声信号の長さと、生成されたテキスト列30の長さなどを用いて、話速指標値を算出する。そして変換部2020は、算出した話速指標値を利用して、次に抽出する音声信号の長さを決定する。この方法によれば、音声認識装置2000の動作上必然的に生成されるテキスト列30を利用して話速指標値が算出されるため、効率的に処理を行うことができる。
<<音声区間検出の利用について>>
 変換部2020は、ソースデータ10を音声フレーム列20に変換する前に、音声区間検出を行って、ソース音声信号を1つ以上の音声区間に分割してもよい。言い換えれば、ソース音声信号から無音区間を排除してもよい。例えば1つの音声区間は、1つの文章を表す発話に相当する。そのため、ソース音声信号を音声区間に分割することで、ソース音声信号から、それぞれが1つの文章を表すと推測される複数の音声区間が得られる。
 この場合、変換部2020は、音声区間毎に音声フレーム列20を生成する。そのため、テキスト列30や連結テキスト40についても、音声区間ごとに生成されることになる。よって、例えば、ソースデータ10から、それぞれが1つの文章を表す複数の連結テキスト40が得られることになる。
 ただし、音声区間検出では、1つの文章が複数の音声区間に区切られてしまうことがある。例えば、促音を無音区間として誤認識してしまうケースなどである。
 そこで例えば、変換部2020は、所定値以下の長さの無音区間が検出された場合、当該無音区間の前後の音声区間をまとめて、1つの音声区間として扱ってもよい。すなわち、当該無音区間の前の音声区間の先頭から、当該無音区間の後の音声区間の終端までの区間が、1つの音声区間にまとめられる。(言い換えれば、このように短い無音区間については、無音区間として扱わないようにする)。
 変換部2020は、このように2つの音声区間を1つの音声区間にまとめた後に、その1つの音声区間について音声フレーム列20を生成してもよいし、まとめる前の2つの音声区間から個々に音声フレーム列20を生成してもよい。後者の場合、変換部2020は、個々に生成された2つの音声フレーム列20を1つに連結する。この際、例えば変換部2020は、上記無音区間を含む部分についても音声フレームを生成し、1)先行する音声区間について生成した音声フレーム列20、2)無音区間を含む部分について生成した音声フレーム、3)後続の音声区間について生成した音声フレーム列20という順で連結することで、1つの音声フレーム列20を生成することが好適である。このようにすることで、無音区間の前後についても精度の高い音声認識が可能となる。
<テキスト列30への変換:S104>
 変換部2020は音声フレーム列20をテキスト列30に変換する(S104)。音声フレームをテキストに変換する技術には、既存の技術を利用することができる。例えば変換部2020は、音声フレームをテキスト列30に変換するように学習された変換モデルを有する。変換部2020は、音声フレーム列20に含まれる各音声フレームを順に変換モデルに入力していく。その結果、変換モデルから、音声フレーム列20に対応するテキスト列30が得られる。なお、音声フレームをテキストに変換するモデルを生成する技術には既存の技術を利用することができる。
<連結テキスト40の生成:S106>
 連結部2040は、テキスト列30に含まれるテキスト32を連結して、連結テキスト40を生成する(S106)。前述したように、ソースデータ10から抽出される各音声信号は、時間軸上で隣接する他の音声信号と一部が重複している。そこで、連結部2040は、互いに隣接するテキスト32同士を連結する際、前に位置するテキスト32からはその末尾の一部を除外し、かつ、後ろに位置するテキスト32からはその先頭の一部を除外することで、連結するテキスト32同士が時間軸上で重複しないようにする。以下、互いに連結される2つのテキスト32のうち、前に位置するテキスト32を先行テキストと呼び、後ろに位置するテキスト32を後続テキストと呼ぶ。また、重複している部分のテキストを、重複テキストと呼ぶ。
 このような連結を行うためには、先行テキストと後続テキストのそれぞれについて、除外すべき部分を特定する必要がある。そのために、例えば連結部2040は、以下の処理を行う。
 まず連結部2040は、先行テキストと後続テキストについて、時間軸上で互いに重複する範囲を特定する。例えば、変換部2020が各テキスト32を生成する際、テキスト32に含まれる文字ごとに、その文字に対応する音声信号の時間軸上の位置(例えば、ソース音声信号の開始位置を0とする相対時点)を記録しておく。連結部2040は、このように記録された情報を利用して、先行テキストと後続テキストの重複範囲を特定できる。
 例えば、先行テキストに対応する音声信号の開始時点と終了時点がそれぞれ t1 と t2 であり、後続テキストに対応する音声信号の開始時点と終了時点がそれぞれ t3 と t4 であるとする。この場合、先行テキストに対応する音声信号と後続テキストに対応する音声信号は、時点 t3 から 時点 t2 までの時間区間で互いに重複している。そのため、先行テキストのうち、時点 t3 から時点 t2 までの音声信号に対応する部分が、後続テキストと重複しているテキストである。後続テキストについても同様である。
 例えば連結部2040は、先行テキストと後続テキストとが重複する時間区間(以下、重複区間)について、その中点(以下、重複中心時点)を算出する。前述した例では、(t2-t3)/2 が重複中心時点となる。そして連結部2040は、先行テキストから重複中心時点以降の部分を除外し、後続テキストから重複中心時点以前の部分を除外する。こうすることで、先行テキストと後続テキストの重複が排除される。
 その他にも例えば、連結部2040は、第1重複テキストと第2重複テキストを比較して、互いに一致しない部分を1つ以上検出する。そして、連結部2040は、検出された不一致部分が、重複区間の開始時点と終了時点のどちらに近いかを判定する。不一致部分が開始時点により近い場合、連結部2040は、第2重複テキストにおいて、不一致部分に対応する文字を削除する(空白を表すテキストに置き換える)。一方、不一致部分が終了時点により近い場合、連結部2040は、第1重複テキストにおいて、不一致部分に対応する文字を削除する(空白を表すテキストに置き換える)。このようにすることで、開始時点から近い部分については後続テキストの内容が優先され、終了時点から近い部分については先行テキストの内容が優先される。
 言い換えれば、連結部2040は、互いに隣接するテキスト32を連結する際、重複区間において先行テキストと後続テキストの内容が一致していなければ、いずれか一方の内容を採用する。その際、連結部2040は、不一致部分が重複区間の終了時点よりも開始時点に近ければ、後続テキストの内容を採用し、不一致部分が重複区間の開始時点よりも終了時点に近ければ、先行テキストの内容を採用する。
<連結テキスト40の利用方法>
 連結テキスト40の利用方法は任意である。例えば音声認識装置2000は、生成された連結テキスト40を出力する。連結テキスト40の出力先は任意である。例えば音声認識装置2000は、連結テキスト40を記憶装置に格納したり、連結テキスト40をディスプレイ装置に表示させたり、連結テキスト40を他の任意の装置(例えば、ソースデータ10の送信元)へ送信したりする。連結テキスト40はソースデータ10によって表される発話の内容を表すテキストであるため、このようにして出力された連結テキスト40を閲覧することにより、音声認識装置2000のユーザは、ソースデータ10によって表される発話の内容を視覚的に把握することができるようになる。
 音声認識装置2000は、連結テキスト40をそのまま出力するのではなく、連結テキスト40に対して種々の処理をさらに施してから、連結テキスト40を出力してもよい。例えば連結テキスト40がひらがなやカタカナの文字列である場合、音声認識装置2000は、連結テキスト40に対して、かな漢字変換処理を施してもよい。これにより、連結テキスト40が、漢字を含むテキストに変換される。なお、ひらがなやカタカナの文字列を、漢字を含むテキストに変換する技術には、既存の技術を利用することができる。
<利用シーンに応じたモデルの選択>
 音声フレームをテキストに変換する変換モデルは、利用シーンに応じて切り替えられることが好適である。例えば、コンピュータ分野の人たちの会議ではコンピュータ分野の専門用語が多く現れる一方、医学分野の人たちの会議では医学分野の専門用語が多く現れる。そこで例えば、分野ごとに学習済みモデルを用意しておく。その他にも例えば、日本語や英語などといった言語ごとにモデルを用意しておくことが好適である。
 利用シーン(分野や言語)ごとにモデルのセットを選択する方法には、様々な方法を採用できる。例えば、1つの音声認識装置2000において、利用シーンに応じてモデルを切り替えられるようにしておく。この場合、音声認識装置2000からアクセス可能な記憶装置に、利用シーンの識別情報と学習済みモデルとを対応付けて、予め格納しておく。音声認識装置2000は、ユーザに対し、利用シーンを選択する画面を提供する。音声認識装置2000は、ユーザによって選択された利用シーンに対応する学習済みモデルを記憶装置から読み出す。変換部2020や連結部2040は、読み出したモデルを利用する。これにより、ユーザによって選択された利用シーンに適した学習済みモデルを利用して、音声フレームからテキストへの変換が行われる。
その他にも例えば、音声認識装置2000を複数用意し、各音声認識装置2000にそれぞれ異なるモデルを設定しておいてもよい。この場合、利用シーンに対応した音声認識装置2000が利用されるようにする。例えば、ユーザからリクエストを受け付けるフロントエンドのマシンを用意し、そのマシンが前述した選択画面を提供するようにする。ユーザが選択画面で利用シーンを選択すると、選択された利用シーンに対応する音声認識装置2000を利用して、音声フレームからテキストへの変換が行われる。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
1. 発話が含まれるソース音声信号をテキスト列に変換する変換部と、
 前記テキスト列において隣接するテキスト同士を連結することにより、前記発話の内容を表す連結テキストを生成する連結部と、を有し、
 前記テキスト列において互いに隣接するテキストに対応する音声信号同士は、時間軸上でその一部が互いに重複しており、
 前記連結部は、前記テキスト列において互いに隣接する先行テキストと後続テキストとを連結する際、先行テキストからはその末尾を含む一部を除外し、後続テキストからはその先頭を含む一部を除外する、音声認識装置。
2. 前記連結部は、
  先行テキストと後続テキストとが重複する時間区間の中点を特定し、
  前記連結テキストにおいて、前記中点以前の時間範囲には前記先行テキストの文字を利用し、前記中点以降の時間範囲には前記後続テキストの文字を利用する、1.に記載の音声認識装置。
3. 前記連結部は、
  先行テキストと後続テキストとが重複する時間区間について、前記先行テキストの文字と前記後続テキストの文字とが一致しない時点を検出し、
  前記検出した時点と前記先行テキストに対応する音声信号の終了時点との差分である第1差分が、前記検出した時点と前記後続テキストに対応する音声信号の開始時点との差分である第2差分よりも大きければ、前記検出した時点に対応する前記連結テキストの文字として前記先行テキストの文字を利用し、
 前記第1差分が前記第2差分よりも小さければ、前記検出した時点に対応する前記連結テキストの文字として前記後続テキストの文字を利用する、1.に記載の音声認識装置。
4. 各前記テキストに対応する音声信号の長さ、又は隣接するテキストに対応する音声信号同士が重複する時間の長さは、前記ソース音声信号の話者又は話者のグループに基づいて定まる、1.から3いずれか一つに記載の音声認識装置。
5. 各前記テキストに対応する音声信号の長さ、又は隣接するテキストに対応する音声信号同士が重複する時間の長さは、前記ソース音声信号の言語に基づいて定まる、1.から3いずれか一つに記載の音声認識装置。
6. 各前記テキストに対応する音声信号の長さ、又は隣接するテキストに対応する音声信号同士が重複する時間の長さは、前記ソース音声信号によって表される発話の種類に基づいて定まる、1.から3いずれか一つに記載の音声認識装置。
7. 各前記テキストに対応する音声信号の長さは、その音声信号に含まれる発話の推定速度を表す指標値に基づいて定まる、1.から3いずれか一つに記載の音声認識装置。
8. コンピュータによって実行される制御方法であって、
 発話が含まれるソース音声信号をテキスト列に変換する変換ステップと、
 前記テキスト列において隣接するテキスト同士を連結することにより、前記発話の内容を表す連結テキストを生成する連結ステップと、を有し、
 前記テキスト列において互いに隣接するテキストに対応する音声信号同士は、時間軸上でその一部が互いに重複しており、
 前記連結ステップにおいて、前記テキスト列において互いに隣接する先行テキストと後続テキストとを連結する際、先行テキストからはその末尾を含む一部を除外し、後続テキストからはその先頭を含む一部を除外する、制御方法。
9. 前記連結ステップにおいて、
  先行テキストと後続テキストとが重複する時間区間の中点を特定し、
  前記連結テキストにおいて、前記中点以前の時間範囲には前記先行テキストの文字を利用し、前記中点以降の時間範囲には前記後続テキストの文字を利用する、8.に記載の制御方法。
10. 前記連結ステップにおいて、
  先行テキストと後続テキストとが重複する時間区間について、前記先行テキストの文字と前記後続テキストの文字とが一致しない時点を検出し、
  前記検出した時点と前記先行テキストに対応する音声信号の終了時点との差分である第1差分が、前記検出した時点と前記後続テキストに対応する音声信号の開始時点との差分である第2差分よりも大きければ、前記検出した時点に対応する前記連結テキストの文字として前記先行テキストの文字を利用し、
 前記第1差分が前記第2差分よりも小さければ、前記検出した時点に対応する前記連結テキストの文字として前記後続テキストの文字を利用する、8.に記載の制御方法。
11. 各前記テキストに対応する音声信号の長さ、又は隣接するテキストに対応する音声信号同士が重複する時間の長さは、前記ソース音声信号の話者又は話者のグループに基づいて定まる、8.から10いずれか一つに記載の音声認識装置。
12. 各前記テキストに対応する音声信号の長さ、又は隣接するテキストに対応する音声信号同士が重複する時間の長さは、前記ソース音声信号の言語に基づいて定まる、8.から10いずれか一つに記載の音声認識装置。
13. 各前記テキストに対応する音声信号の長さ、又は隣接するテキストに対応する音声信号同士が重複する時間の長さは、前記ソース音声信号によって表される発話の種類に基づいて定まる、8.から10いずれか一つに記載の音声認識装置。
14. 各前記テキストに対応する音声信号の長さは、その音声信号に含まれる発話の推定速度を表す指標値に基づいて定まる、8.から10いずれか一つに記載の音声認識装置。
15. 8.から14いずれか一つに記載の制御方法をコンピュータに実行させるプログラム。
10 ソースデータ
20 音声フレーム列
30 テキスト列
32 テキスト
40 連結テキスト
1000 計算機
1020 バス
1040 プロセッサ
1060 メモリ
1080 ストレージデバイス
1100 入出力インタフェース
1120 ネットワークインタフェース
2000 音声認識装置
2020 変換部
2040 連結部

Claims (15)

  1.  発話が含まれるソース音声信号をテキスト列に変換する変換部と、
     前記テキスト列において隣接するテキスト同士を連結することにより、前記発話の内容を表す連結テキストを生成する連結部と、を有し、
     前記テキスト列において互いに隣接するテキストに対応する音声信号同士は、時間軸上でその一部が互いに重複しており、
     前記連結部は、前記テキスト列において互いに隣接する先行テキストと後続テキストとを連結する際、先行テキストからはその末尾を含む一部を除外し、後続テキストからはその先頭を含む一部を除外する、音声認識装置。
  2.  前記連結部は、
      先行テキストと後続テキストとが重複する時間区間の中点を特定し、
      前記連結テキストにおいて、前記中点以前の時間範囲には前記先行テキストの文字を利用し、前記中点以降の時間範囲には前記後続テキストの文字を利用する、請求項1に記載の音声認識装置。
  3.  前記連結部は、
      先行テキストと後続テキストとが重複する時間区間について、前記先行テキストの文字と前記後続テキストの文字とが一致しない時点を検出し、
      前記検出した時点と前記先行テキストに対応する音声信号の終了時点との差分である第1差分が、前記検出した時点と前記後続テキストに対応する音声信号の開始時点との差分である第2差分よりも大きければ、前記検出した時点に対応する前記連結テキストの文字として前記先行テキストの文字を利用し、
     前記第1差分が前記第2差分よりも小さければ、前記検出した時点に対応する前記連結テキストの文字として前記後続テキストの文字を利用する、請求項1に記載の音声認識装置。
  4.  各前記テキストに対応する音声信号の長さ、又は隣接するテキストに対応する音声信号同士が重複する時間の長さは、前記ソース音声信号の話者又は話者のグループに基づいて定まる、請求項1から3いずれか一項に記載の音声認識装置。
  5.  各前記テキストに対応する音声信号の長さ、又は隣接するテキストに対応する音声信号同士が重複する時間の長さは、前記ソース音声信号の言語に基づいて定まる、請求項1から3いずれか一項に記載の音声認識装置。
  6.  各前記テキストに対応する音声信号の長さ、又は隣接するテキストに対応する音声信号同士が重複する時間の長さは、前記ソース音声信号によって表される発話の種類に基づいて定まる、請求項1から3いずれか一項に記載の音声認識装置。
  7.  各前記テキストに対応する音声信号の長さは、その音声信号に含まれる発話の推定速度を表す指標値に基づいて定まる、請求項1から3いずれか一項に記載の音声認識装置。
  8.  コンピュータによって実行される制御方法であって、
     発話が含まれるソース音声信号をテキスト列に変換する変換ステップと、
     前記テキスト列において隣接するテキスト同士を連結することにより、前記発話の内容を表す連結テキストを生成する連結ステップと、を有し、
     前記テキスト列において互いに隣接するテキストに対応する音声信号同士は、時間軸上でその一部が互いに重複しており、
     前記連結ステップにおいて、前記テキスト列において互いに隣接する先行テキストと後続テキストとを連結する際、先行テキストからはその末尾を含む一部を除外し、後続テキストからはその先頭を含む一部を除外する、制御方法。
  9.  前記連結ステップにおいて、
      先行テキストと後続テキストとが重複する時間区間の中点を特定し、
      前記連結テキストにおいて、前記中点以前の時間範囲には前記先行テキストの文字を利用し、前記中点以降の時間範囲には前記後続テキストの文字を利用する、請求項8に記載の制御方法。
  10.  前記連結ステップにおいて、
      先行テキストと後続テキストとが重複する時間区間について、前記先行テキストの文字と前記後続テキストの文字とが一致しない時点を検出し、
      前記検出した時点と前記先行テキストに対応する音声信号の終了時点との差分である第1差分が、前記検出した時点と前記後続テキストに対応する音声信号の開始時点との差分である第2差分よりも大きければ、前記検出した時点に対応する前記連結テキストの文字として前記先行テキストの文字を利用し、
     前記第1差分が前記第2差分よりも小さければ、前記検出した時点に対応する前記連結テキストの文字として前記後続テキストの文字を利用する、請求項8に記載の制御方法。
  11.  各前記テキストに対応する音声信号の長さ、又は隣接するテキストに対応する音声信号同士が重複する時間の長さは、前記ソース音声信号の話者又は話者のグループに基づいて定まる、請求項8から10いずれか一項に記載の制御方法。
  12.  各前記テキストに対応する音声信号の長さ、又は隣接するテキストに対応する音声信号同士が重複する時間の長さは、前記ソース音声信号の言語に基づいて定まる、請求項8から10いずれか一項に記載の制御方法。
  13.  各前記テキストに対応する音声信号の長さ、又は隣接するテキストに対応する音声信号同士が重複する時間の長さは、前記ソース音声信号によって表される発話の種類に基づいて定まる、請求項8から10いずれか一項に記載の制御方法。
  14.  各前記テキストに対応する音声信号の長さは、その音声信号に含まれる発話の推定速度を表す指標値に基づいて定まる、請求項8から10いずれか一項に記載の制御方法。
  15.  請求項8から14いずれか一項に記載の制御方法をコンピュータに実行させるプログラム。
PCT/JP2020/009979 2020-03-09 2020-03-09 音声認識装置、制御方法、及びプログラム WO2021181451A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2020/009979 WO2021181451A1 (ja) 2020-03-09 2020-03-09 音声認識装置、制御方法、及びプログラム
US17/908,292 US20230109867A1 (en) 2020-03-09 2020-03-09 Speech recognition apparatus, control method, and non-transitory storage medium
JP2022506994A JP7501610B2 (ja) 2020-03-09 2020-03-09 音声認識装置、制御方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/009979 WO2021181451A1 (ja) 2020-03-09 2020-03-09 音声認識装置、制御方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2021181451A1 true WO2021181451A1 (ja) 2021-09-16

Family

ID=77671254

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/009979 WO2021181451A1 (ja) 2020-03-09 2020-03-09 音声認識装置、制御方法、及びプログラム

Country Status (3)

Country Link
US (1) US20230109867A1 (ja)
JP (1) JP7501610B2 (ja)
WO (1) WO2021181451A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008116744A (ja) * 2006-11-06 2008-05-22 Nippon Telegr & Teleph Corp <Ntt> 連続音声認識方法、連続音声認識装置、プログラム
JP2012181307A (ja) * 2011-03-01 2012-09-20 Nec Software Hokkaido Ltd 音声処理装置、音声処理方法及び音声処理プログラム
JP2014178959A (ja) * 2013-03-15 2014-09-25 Nec Solution Innovators Ltd 要約筆記支援システム、要約筆記支援装置、要約筆記支援方法、及びプログラム
JP2017015847A (ja) * 2015-06-30 2017-01-19 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
JP6511189B1 (ja) * 2018-10-31 2019-05-15 株式会社ジェイ・エックス・ウィンド 情報処理システムおよび文字起こし方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101697651B1 (ko) * 2012-12-13 2017-01-18 한국전자통신연구원 음성 신호의 검출 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008116744A (ja) * 2006-11-06 2008-05-22 Nippon Telegr & Teleph Corp <Ntt> 連続音声認識方法、連続音声認識装置、プログラム
JP2012181307A (ja) * 2011-03-01 2012-09-20 Nec Software Hokkaido Ltd 音声処理装置、音声処理方法及び音声処理プログラム
JP2014178959A (ja) * 2013-03-15 2014-09-25 Nec Solution Innovators Ltd 要約筆記支援システム、要約筆記支援装置、要約筆記支援方法、及びプログラム
JP2017015847A (ja) * 2015-06-30 2017-01-19 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
JP6511189B1 (ja) * 2018-10-31 2019-05-15 株式会社ジェイ・エックス・ウィンド 情報処理システムおよび文字起こし方法

Also Published As

Publication number Publication date
JP7501610B2 (ja) 2024-06-18
JPWO2021181451A1 (ja) 2021-09-16
US20230109867A1 (en) 2023-04-13

Similar Documents

Publication Publication Date Title
JP3162994B2 (ja) 音声のワードを認識する方法及び音声のワードを識別するシステム
KR102413692B1 (ko) 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
US20080294433A1 (en) Automatic Text-Speech Mapping Tool
JP2008216756A (ja) 語句として新たに認識するべき文字列等を取得する技術
EP3509062B1 (en) Audio recognition device, audio recognition method, and program
CN113327574A (zh) 一种语音合成方法、装置、计算机设备和存储介质
CN112927677B (zh) 语音合成方法和装置
WO2021181451A1 (ja) 音声認識装置、制御方法、及びプログラム
US6772116B2 (en) Method of decoding telegraphic speech
JP7409475B2 (ja) 発話終端検出装置、制御方法、及びプログラム
JPH1115497A (ja) 氏名読み音声合成装置
JP3958908B2 (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
CN112542159B (zh) 一种数据处理方法以及设备
CN112151073B (zh) 一种语音处理方法、系统、设备及介质
CN110895938A (zh) 语音校正系统及语音校正方法
JP7367839B2 (ja) 音声認識装置、制御方法、及びプログラム
CN112951204B (zh) 语音合成方法和装置
CN113763921B (zh) 用于纠正文本的方法和装置
KR100212448B1 (ko) 무제한 음성 명령어 인식기의 인식 성능 및 처리 속도 개선 방법
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
CN109817205B (zh) 基于语义解析的文本确认方法、装置及终端设备
JP2000010579A (ja) 音声合成装置及びコンピュータ可読記録媒体
EP3509060A1 (en) Information processing device, information processing method, and program
JP2002366175A (ja) 音声コミュニケーション支援装置およびその方法
CN116343796A (zh) 音频转写方法、装置及电子设备、存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20923778

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022506994

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20923778

Country of ref document: EP

Kind code of ref document: A1