WO2007055233A1

WO2007055233A1 - 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム

Info

Publication number: WO2007055233A1
Application number: PCT/JP2006/322255
Authority: WO
Inventors: Makoto Terao
Original assignee: Nec Corporation
Priority date: 2005-11-08
Filing date: 2006-11-08
Publication date: 2007-05-18
Also published as: US8155958B2; JP2007133033A; US20090048832A1

Abstract

【課題】　認識結果テキストに対して編集を加えた結果得られる編集結果テキスト、または新規に作成した書き起こしテキスト情報である編集結果テキストと音声データとを対応づけることができる音声テキスト化システム等を提供すること。【解決手段】　音声テキスト化システム１は、テキスト編集手段２２により得られた編集結果テキストと音声認識手段１１により生成された時刻情報付きの音声認識結果情報とを照合することにより、編集結果テキストと音声データとを対応づけるマッチング手段２７を備えている。

Description

音声テキストイ匕システム、音声テキストイ匕方法および音声テキストイ匕用プログラム

技術分野

[0001] 本発明は、音声テキストイ匕システム、音声テキストイ匕方法および音声テキストイ匕用プログラムに関し、特に、音声認識を利用することで効率の良い音声のテキストイ匕を行う音声テキストイ匕システム、音声テキストイ匕方法および音声テキストイ匕用プログラムに関する。

背景技術

[0002] 会議や講演などの議事録を作成するためには、音声データをテキストィヒする作業が必要となる（以下では、このような音声のテキストイ匕を「書き起こし」と呼ぶ)。しかし、音声の書き起こし作業には非常に多くの人的コストがかかるため、作業効率の改善が求められている。一方で、近年の音声認識技術の進歩により、自由発話を対象とした音声認識の精度が向上しつつある。このような状況下で、音声認識技術を利用した書き起こし作業の支援が検討されるようになってきた。

[0003] 音声認識を利用した従来の音声テキストイ匕システムの一例が、特許文献 1に記載されている。この特許文献 1に記載された音声テキストイ匕システムは、書き起こし対象となる音声データを音声認識することで音声を自動的にテキスト化した上で、認識結果テキスト中の誤り箇所を人手によって編集して書き起こしを完成させる音声テキストイ匕システムである。図 10に示すように、この従来の音声テキストイ匕システム 200は、音声記憶手段 212と、音声認識手段 211と、認識結果記憶手段 213と、編集手段 222と、編集位置記憶手段 225と、編集結果記憶手段 226と、音声再生手段 221と、音声再生時刻記憶手段 224と、同期手段 223とから構成されて、る。

[0004] このような構成を有する従来の音声テキストイ匕システム 200は次のように動作する。

音声記憶手段 212には、書き起こし対象となる音声データが記憶されている。音声認識手段 211は、音声記憶手段 212から音声データを読み込んで音声認識し、認識結果テキスト情報に変換して認識結果記憶手段 213に出力する。このとき、認識結果テキスト情報の各ワード (単語）に対して音声データの部分を対応させるリンク情報を同時に出力する。リンク情報とは、例えば、各ワードに対応する音声データの再生時間に基づいた時刻情報などである。この認識結果テキスト情報とリンク情報は、認識結果記憶手段 213に記憶される。このようにすることで、認識結果テキスト情報と音声データとを対応づけることができる。

[0005] 編集手段 222は、認識結果記憶手段 213に記憶された認識結果テキスト情報を読み込み、書き起こし作業者の編集指示に従って認識結果テキスト中の誤り箇所を編集し、編集されたテキストを編集結果記憶手段 226に出力する。編集手段 222は一般的なテキストエディタと同様に、テキスト上に編集カーソルを置き、編集カーソル位置のテキストに対して編集が行われる。この編集カーソルの位置は、編集位置記憶手段 225に記憶されている。

[0006] 一方、音声再生手段 221は、書き起こし作業者の音声再生指示に従って音声記憶手段 212に記憶されている音声データを再生する。このとき、再生している音声の時刻は、音声再生時刻記憶手段 224に記憶されている。書き起こし作業者は、再生している音声を聞き取りながら認識結果テキスト中の誤り箇所の編集作業を進めていく

[0007] 同期手段 223は、作業者の同期指示に従って編集位置記憶手段 225に記憶されている編集カーソルの位置と、音声再生時刻記憶手段 224に記憶されている音声再生時刻とを同期させる。これは、認識結果記憶手段 213に記憶されている、認識結果テキスト情報と音声データとを対応づけるリンク情報を参照することで可能となる。すなわち、音声再生時刻を編集カーソルの位置に同期させる場合は、編集カーソルが置かれている認識結果単語に対応する時刻に音声再生時刻を合わせれば良い。このように音声再生時刻を編集カーソルの位置に同期させることにより、書き起こし作業者は、編集作業中に編集カーソルの位置に対応する音声を素早く聞いて確認することがでさる。

[0008] また、これとは逆に、編集カーソルの位置を音声再生時刻に同期させる場合は、再生している音声データの部分に対応する認識結果テキスト上に編集カーソルを移動させることもできる。このように編集カーソルの位置を音声再生時刻に同期させることにより、書き起こし作業者は誤認識されている音声を聞いたらすぐに、その誤認識箇所に該当するテキスト上の位置に編集カーソルを置くことができる。

[0009] 以上述べたように、この従来の音声テキストイ匕システムでは、認識結果テキストと音声データとの対応づけを利用することで、認識結果テキストの上に置かれた編集カーソルの位置と音声再生時刻とを相互に同期させることができるため、書き起こし作業の効率が改善される。

[0010] 特許文献 1 :特表 2004— 530205号公報

発明の開示

発明が解決しょうとする課題

[0011] この従来の音声テキスト化システムの問題点は、認識結果テキストに対して編集を加えた場合や、認識結果テキストを使わずに新規にテキストを編集した場合に、編集後のテキストと音声データとを対応づけられない、ということである。その理由は、編集後のテキストの編集箇所に対しては詳細な時刻情報が付与されて、な、ためである

[0012] 以下で、認識結果テキストに対して編集を加えた場合について、具体例を用いて説明する。

[0013] 「次回の会議は二十六日の午前八時力開催致します」という発話の音声データが「次回」「の」「会議」「は」「二重」「路」「に」「地」「の」「全」「八」「字」「から」「開催」「致し」「ます」と認識された場合について説明する。

[0014] 認識結果テキスト情報は鍵括弧で括られたように単語単位で出力されており、各単語「次回」「の」「会議」などのそれぞれに対して対応する音声データの時刻情報がリンク情報として付与されている。したがって、この時点では、編集カーソルがどの単語上にあっても編集カーソルの位置に音声再生時刻を同期させることができるし、また、逆に、音声再生時刻がどこであっても再生している音声箇所に対応する単語上に編集カーソルを同期させることができる。

[0015] しかし、書き起こし作業者の編集作業によって「二重」「路」「に」「地」「の」「全」「八」「字」という誤認識部分を「二十六日の午前八時」と書き換えて編集した場合には問題が生じる。 [0016] 編集箇所の「二十六日の午前八時」に対しては編集によって時刻情報が失われており、その結果、編集結果テキストと音声データとの対応づけが得られなくなつている。例えば、編集後のテキスト中の「午前」の時刻情報が得られないため、「午前」に対応する音声データがどこであるかが分力ない。従って、編集カーソルが「午前」の上に置かれているときに音声再生時刻を同期させることはできないし、また、逆に、「午前」の音声を再生しているときに編集カーソルをテキスト上の「午前」に同期させることもできない。このように、編集結果テキストと音声データとを対応づけられないと、編集途中で書き起こし作業者が編集箇所を再度確認したいと思ったときに、編集カーソルと音声再生時刻との同期機能を利用することができず、作業の効率が低下してしまう

[0017] また、ある作業者が編集した書き起こしテキストを別の作業者がクロスチェックすることは一般的に広く行われているが、そのような場合でも、同様の問題が生じる。

[0018] そこで、本発明は、音声の書き起こし作業において、認識結果テキスト情報に対して編集を加えた場合や、認識結果テキストを使わずに新規にテキストを編集した場合でも、編集結果テキスト情報と音声データとを対応づけることができる音声テキストイ匕システム等を提供することをその目的とする。課題を解決するための手段

[0019] 本発明の音声テキストイ匕システムは、音声データを音声認識して当該音声データの時刻情報が付加された認識結果情報を出力する音声認識手段と、音声データを書き起こしたテキスト情報である編集結果テキストを作成するテキスト編集手段と、編集結果テキストと認識結果情報とを照合することで、編集結果テキストと音声データとを対応付けるマッチング手段とを備えたことを特徴とする。

[0020] 上記音声テキストイ匕システムによれば、マッチング手段が編集結果テキストと認識結果情報とを照合し、編集結果テキストに認識結果情報の時刻情報を対応させて、編集結果テキストと音声データとを対応付ける。よって、編集結果テキスト上の位置と音声データの再生箇所との対応関係を示す情報を得ることができる。

[0021] そのため、音声の書き起こし作業において、時刻情報が付加されていない編集結果テキストを音声データと対応づけることができる。 [0022] 上記の音声テキストイ匕システムにおいて、上述した認識結果情報が表記文字で構成されており、マッチング手段は、編集結果テキストと認識結果情報とを表記文字の整合によって照合してもよい。このようにすれば、編集結果テキストは通常、表記文字によって書き起こされることから、編集結果テキストと認識結果情報とを容易に照合することがでさる。

[0023] 上記の音声テキストイ匕システムにおいて、上述した認識結果情報がサブワードで構成されており、編集結果テキストをサブワード列に変換するサブワード変換手段を備え、マッチング手段は、編集結果テキストと認識結果情報とをサブワードの整合によつて照合してもよい。このようにすると、音声認識処理においては表記文字における認識精度が低い場合でもサブワード単位での認識精度は比較的高いため、編集結果テキストと認識結果情報とを表記文字の整合により照合した場合に比べより高い精度で照合することができる。よって、高い精度で編集結果テキストと音声データとを対応付けることができる。ここで、サブワードは、音素や音節等の基本的な音響単位のことである。

[0024] 上記の音声テキストイ匕システムにおいて、上述したサブワード変換手段は、読み情報付きの辞書を用いた形態素解析によって編集結果テキストをサブワード列に変換してもよい。このようにすれば、変換対象の編集結果テキストが、例えば日本語のようにテキストを単語単位で分かち書きしな、言語の場合でも、形態素辞書が備えてヽる読み情報を利用してサブワード列に変換することができる。

[0025] 上記の音声テキストイ匕システムにおいて、上述したテキスト編集手段は、入力された力な漢字変換前の力な文字列を記憶し、サブワード変換手段は、力な漢字変換前のカゝな文字列を参照して編集結果テキストをサブワード列に変換してもよヽ。このようにすれば、力な文字列から編集結果テキストの読み情報を得ることができるから、形態素辞書を用いることなく編集結果テキストをサブワード列に変換することができる。

[0026] 上記の音声テキスト化システムにおいて、音声データを再生する音声再生手段と、上述したマッチング手段で得られる編集結果テキストと音声データとの対応付けを参照して、テキスト編集手段の編集カーソル位置と音声再生手段の音声再生時刻とを同期させる同期手段とを備えてもよい。このようにすると、音声データの再生箇所と編集カーソル位置とをリンクさせることができ、作業者は音声の書き起こしを効率よく行うことができる。

[0027] 上記の音声テキストイ匕システムにおいて、上述した同期手段は、編集カーソル位置を音声再生時刻に同期させてもよい。このようにすれば、音声データの再生箇所に対応するテキスト上の位置に編集カーソルを移動させることができ、作業者は音声を聞き取りながら編集結果テキストを確認し誤認識箇所を迅速に書き換えることができる。

[0028] 上記の音声テキストィヒシステムにおいて、上述した同期手段は、音声再生時刻を編集カーソル位置に同期させてもよい。このよう〖こすると、編集カーソル位置のテキストに対応する部分の音声データを再生することができ、作業者は編集カーソルの位置に対応する音声をすぐに聞くことができる。

[0029] 本発明の音声テキストイ匕方法は、音声データを音声認識し当該音声データの時刻情報が付加された認識結果情報を出力する音声認識工程と、音声データを書き起こしたテキスト情報である編集結果テキストを作成するテキスト編集工程と、編集結果テキストと認識結果情報とを照合し編集結果テキストと音声データとを対応付けるマッチング工程とを有したことを特徴とする。

[0030] 上記音声テキストィヒ方法によれば、マッチング工程で編集結果テキストと認識結果情報とが照合され、編集結果テキストと認識結果情報の時刻情報とが対応付けられて、編集結果テキストと音声データとが対応付けられる。よって、音声の書き起こし作業において、認識結果情報に対して編集を加えたテキスト情報，または新規の書き起こしテキスト情報のような時刻情報を持たない情報である編集結果テキストでも音声データと対応づけることができ、編集結果テキスト上の位置と音声データの再生箇所との対応関係を示す情報を得ることができる。

[0031] 上記の音声テキストイ匕方法にぉ、て、上述した認識結果情報が表記文字で構成されており、上述したマッチング工程では、編集結果テキストと認識結果情報とを表記文字の整合によって照合してもよい。このようにすれば、編集結果テキストは通常、表記文字によって書き起こされることから、編集結果テキストと認識結果情報とを容易に対応づけることができる。 [0032] 上記の音声テキストイ匕方法にぉ、て、上述した認識結果情報がサブワードで構成されており、編集結果テキストをサブワード列に変換するサブワード変換工程をマツチング工程の前に有し、マッチング工程では、編集結果テキストと認識結果情報とをサブワードの整合によって照合してもよい。このようにすれば、一般に音声認識では、表記文字における認識精度よりも音素などサブワード単位での認識精度は比較的高いため、編集結果テキストと認識結果情報とを表記文字の整合性により照合した場合に比べ、より高い精度で音声データと編集結果テキストとを対応づけることができる。

[0033] 上記の音声テキストィヒ方法において、上述したサブワード変換工程では、読み情報付きの辞書を用いた形態素解析によって編集結果テキストをサブワード列に変換してもよい。このようにすれば、変換対象の編集結果テキストが、例えば日本語のようにテキストを単語単位で分かち書きしな、言語の場合でも、形態素辞書が備えて、る読み情報を利用してサブワード列に変換することができる。

[0034] 上記の音声テキストイ匕方法において、上述したテキスト編集工程では、入力された力な漢字変換前の力な文字列を記憶し、サブワード変換工程では、かな漢字変換前のかな文字列を参照して編集結果テキストをサブワード列に変換してもよ、。このようにすれば、力な文字列力編集結果テキストの読み情報を得ることができるから、形態素辞書を用いることなく編集結果テキストを音素列に変換することができる。

[0035] 上記の音声テキストイ匕方法にぉ、て、上述したテキスト編集工程は、音声データを再生する音声再生工程と、マッチング工程で得られる編集結果テキストと音声データとの対応付けを参照し編集カーソル位置と音声再生工程における音声再生時刻とを同期させる同期工程とを有してもよい。このようにすると、音声データの再生箇所と編集カーソル位置とをリンクさせることができ、作業者は書き起こしを効率よく行うことができる。

[0036] 上記の音声テキストィヒ方法において、上述した同期工程では、編集カーソル位置を音声再生時刻に同期させてもよい。このようにすると、音声データの再生箇所に対応するテキスト上の位置に編集カーソルを移動させることができ、作業者は音声を聞き取りながら編集結果テキストを確認し誤認識箇所を迅速に書き換えることができる。

[0037] 上記の音声テキストィヒシステムにおいて、上述した同期工程では、音声再生時刻を編集カーソル位置に同期させてもよい。このよう〖こすると、編集カーソル位置のテキストに対応する部分の音声データを再生することができ、作業者は編集カーソルの位置に対応する音声をすぐに聞くことができる。

[0038] 本発明の音声テキストイ匕用プログラムは、音声データを音声認識し当該音声データの時刻情報が付加された認識結果情報を出力する音声認識処理と、音声データを書き起こしたテキスト情報である編集結果テキストを作成するテキスト編集処理と、編集結果テキストと認識結果情報とを照合し編集結果テキストと音声データとを対応付けるマッチング処理とをコンピュータに実行させることを特徴とする。

[0039] 上記の音声テキストイ匕用プログラムにおいて、上述した認識結果情報が表記文字で構成されており、マッチング処理は、編集結果テキストと認識結果情報とを表記文字の整合によって照合するような内容であってもよい。

[0040] 上記の音声テキストィヒ用プログラムにおいて、上述した認識結果情報がサブワードで構成されており、編集結果テキストをサブワード列に変換するサブワード変換処理をコンピュータに実行させると共に、マッチング処理は、編集結果テキストと認識結果情報とをサブワードの整合によって照合するような内容であってもよい。

[0041] 上記の音声テキストイ匕用プログラムにおいて、上述したサブワード変換処理は、読み情報付きの辞書を用いた形態素解析によって編集結果テキストをサブワード列に変換するような内容であってもよい。

[0042] 上記の音声テキストイ匕用プログラムにおいて、上述したテキスト編集処理で、入力された力な漢字変換前の力な文字列を記憶し、サブワード変換工程は、力な漢字変換前のかな文字列を参照して編集結果テキストをサブワード列に変換するような内容であってもよい。

[0043] 上記の音声テキスト化用プログラムにおいて、上述した音声データを再生する音声再生処理と、マッチング処理で得られる編集結果テキストと音声データとの対応付けを参照しテキスト編集処理における編集カーソル位置と音声再生処理における音声再生時刻とを同期させる同期処理とをコンピュータに実行させてもよい。

[0044] 上記の音声テキストイ匕用プログラムにおいて、上述した同期処理は、編集カーソル位置を音声再生時刻に同期させるような内容であってもよい。また、上記の音声テキストィ匕用プログラムにおいて、上述した同期処理は、音声再生時刻を編集カーソル位置に同期させるような内容であってもよい。

[0045] このような音声テキストイ匕用プログラムによれば、マッチング処理により編集結果テキストと音声データを対応付けて、編集結果テキスト上の位置と音声データの再生箇所との対応付けを示す情報を得ることができる。そのため、上述した音声テキストィ匕システムと同様に、音声の書き起こし作業において、認識結果情報に対して編集をカロえたテキスト情報，または新規の書き起こしテキスト情報のような時刻情報を持たなヽテキスト情報である編集結果テキストを音声データと対応づけることができる。

発明の効果

[0046] 本発明によれば、音声テキストイ匕システムにお、て、時刻情報が付与されてヽなヽ編集結果テキストを、時刻情報が含まれている認識結果情報と照合することにより、編集結果テキスト上でも時刻情報を得ることができる。そのため、音声の書き起こし作、て、認識結果テキストに対して編集を加えた結果得られる編集結果テキスト ,または認識結果テキストを使わずに新規に書き起こしたテキスト情報である編集結果テキストと音声データとを対応づけることができる。

発明を実施するための最良の形態

[0047] 本発明の第 1の実施形態である音声テキストイ匕システム 1の構成と動作にっ、て、図面を参照して詳細に説明する。

[0048] 図 1は、音声テキストイ匕システム 1の機能ブロック図である。図 1を参照すると、音声テキストイ匕システム 1は、音声認識装置 10と、編集装置 20とを備えている。

[0049] 音声認識装置 10は、音声認識手段 11と、音声記憶手段 12と、認識結果記憶手段

13とを備えている。編集装置 20は、テキスト編集手段 22と、編集位置記憶手段 25と

、編集結果記憶手段 26と、音声再生手段 21と、音声再生時刻記憶手段 24と、マツチング手段 27と、同期手段 23とを備えている。

[0050] 音声記憶手段 12は、テキスト化の対象となる音声データを記憶する。この音声データは、例えば、アナログの音声信号を所定のサンプリング周波数でサンプリングし、各サンプリング値を量子化することでデジタルィ匕したデータである。

[0051] 音声認識手段 11は、音声記憶手段 12から音声データを読み込んで音声認識し、その発話内容をテキスト化する。そして、当該音声データの再生時間に基づいた時刻情報が付加された認識結果テキストを、認識結果情報として認識結果記憶手段 13 に出力する。この時刻情報とは、音声データ中の基準点（たとえばデータの先頭)からの経過時間や経過フレーム数などで示す情報である。

[0052] テキスト編集手段 22は、テキスト情報を編集するためのテキストエディタで、認識結果記憶手段 13から認識結果テキストを読み込み、書き起こし作業者の編集指示に従つて認識結果テキストを編集する。この編集により音声認識の誤り箇所が修正されて、音声データを書き起こしたテキスト情報が最終的に作成される。編集結果記憶手段 26はテキスト編集手段 22で編集されたテキスト情報を編集結果テキストとして記憶する。編集位置記憶手段 25は、テキストエディタ上の編集カーソルの位置を記憶している。

[0053] 音声再生手段 21は、書き起こし作業者の音声再生指示に従って、音声記憶手段 1 2に記憶されている音声データを再生する。音声再生時刻記憶手段 24は、音声再生手段 21が再生する音声箇所の時刻を常に記憶する。

[0054] マッチング手段 27は、編集結果記憶手段 26に記憶されている編集結果テキストと認識結果記憶手段 13に記憶されている時刻情報付きの認識結果情報とを照合することで、編集結果テキストと音声データとを対応づける。これによつて、編集結果テキスト上で時刻情報が失われていた編集箇所に対しても時刻情報を対応づけることができる。本第 1実施形態では、編集結果テキストと認識結果情報との照合は表記文字を単位として行われる。

[0055] 同期手段 23は、作業者の同期指示に従って、マッチング手段 27による編集結果テキストと音声データとの対応づけ結果を参照することで、編集位置記憶手段 25に記憶されて!、るカーソル位置と音声再生時刻記憶手段 24に記憶されて、る音声再生時刻とを同期させる。

[0056] 上記の、音声記憶手段 12、認識結果記憶手段 13、音声再生時刻記憶手段 24、編集位置記憶手段 25、編集結果記憶手段 26は、それぞれ、例えば磁気ディスク装置や半導体メモリ等の記憶装置で構成されて、る。

[0057] 次に、図 1および図 2のフローチャートを参照して音声テキスト化システム 1全体の動作について詳細に説明する。

[0058] 音声認識手段 11は、音声記憶手段 12に記憶されている音声データを読み込んで音声認識し、音声データと対応づけるための時刻情報が付加された認識結果テキストを、認識結果情報として認識結果記憶手段 13に出力する（図 2の S101)。

[0059] 例えば、音声認識結果テキストの表記文字が「次回の会議は二重路に地の全八字から開催致します」であれば、「次回」は音声データ中の時刻 0. 1〜0. 4秒に対応し、「の」は音声データ中の時刻 0. 4〜0. 5秒に対応している、というような時刻情報を音声認識結果テキストに付随して出力する（図 3の認識結果と音声データとの対応づけを参照)。

[0060] 音声認識手段 11における音声認識処理は、例えば、特徴量として MFCC (Mel-sc ale Frequency Cepstral Coefficients)を用い、音響モデルとして隠れマルコフモデル、言語モデルとして単語 N-gramモデルを使った一般的な大語彙連続音声認識技術によって実現する。

[0061] テキスト編集手段 22は、書き起こし作業者が音声をテキストイ匕するためのテキストェデイタであり、ディスプレイ画面などに表示される編集カーソル位置のテキストに対して編集が行われる。すなわち、編集カーソル位置のテキストが、作業者によるキーボード入力等によって書き換えられて編集される（図 2の S102)。このとき、編集カーソル位置に相当する文字を反転表示したり、文字の横や下に下線を表示したりすることにより、書き起こし作業者が編集カーソル位置を確認できるようにする。また、テキスト上の編集カーソル位置は編集位置記憶手段 25に記憶されて、る。テキスト編集手段 22によって編集されたテキスト情報は、編集結果記憶手段 26に記憶される。

[0062] なお、本実施例では、テキスト編集手段 22は、編集開始前に、認識結果記憶手段 13に記憶されている認識結果のテキスト情報を読み込み、認識結果中の誤り箇所を編集して!/、くと仮定して、るが、認識結果を読み込まずに何もテキストが存在しなヽ状態力新規に書き起こしを行うことも可能である。

[0063] 音声再生手段 21は、書き起こし作業者のキーボード等力もの入力による音声再生指示に従って、音声記憶手段 12に記憶されている書き起こし対象の音声データを再生し、スピーカ等の出力装置力も音声を出力する。スピーカ等の出力装置から音声を出力することによって、書き起こし作業者は、音声を聞きとつて書き起こしを行うことができる。このとき、再生している音声の時刻は、音声再生時刻記憶手段 24に記憶されている。音声再生時刻記憶手段 24に記憶されている音声再生時刻が後述する同期手段 23によって書き換えられた場合、音声再生手段 21は、新しく書き換えられた時刻の音声を再生する。

[0064] 同期手段 23は、書き起こし作業者の同期指示があるかどうかを判定し（図 2の S10 3)、同期指示があれば、編集位置記憶手段 25に記憶されている編集カーソル位置と音声再生時刻記憶手段 24に記憶されている音声再生時刻とを同期させる同期処理を実行する。この同期処理には、音声再生時刻を編集カーソル位置に同期させる場合と、編集カーソル位置を音声再生時刻に同期させる場合の 2通りの同期がある。すなわち、前者の同期処理は、カーソル位置のテキストに対応する音声データの再生を可能とし、後者の同期処理は、音声が再生されている場所に対応するテキスト上の位置に編集カーソルを移動することを可能とする。

[0065] 同期手段 23が同期指示を受けた（図 2の S103の判定力イエスの）ときには、まず、マッチング手段 27が、編集結果記憶手段 26に記憶されている編集結果テキストと認識結果記憶手段 13に記憶されている認識結果情報とを照合することで（図 2の S104 )、編集結果テキストと音声データとの対応づけを行う（図 2の S 105)。

[0066] 具体例を用いてマッチング手段 27による編集結果テキストと音声データとの対応づけの動作を詳細に説明する。

[0067] 「次回の会議は二十六日の午前八時力開催致します」という発話の音声データが、音声認識手段 11により「次回の会議は二重路に地の全八字から開催致します」と音声認識され、その後、書き起こし作業者が、「二重路に地の全八字」という誤認識箇所を「二十六日の午前八時」と編集した場合を例に説明する。

[0068] 図 3は、上記の例におけるマッチング手段 27の動作を示す図である。

[0069] マッチング手段 27は、表記文字で表された編集結果テキスト「次回の会議は二十六日の午前八時力開催致します」と、認識結果情報の表記文字「次回の会議は二重路に地の全八字から開催致します」とを図 3で示すように照合する（図 2の S104)。この照合は、公知の技術であるダイナミックプログラミング（DP : Dvnamic Programmin g)によるマッチングを表記文字単位で実行することによって得ることができる。すなわち、編集結果テキストの表記文字「二十六日の午前八時」と認識結果情報の表記文字「二重路に地の全八字」の両方に存在する「二」「の」「八」などの表記文字によって両者の対応がとられる。

[0070] このように、編集結果テキストと認識結果情報の表記文字との対応づけが得られると、認識結果情報の表記文字には時刻情報が付随しているため、編集結果テキストと音声データとの対応づけをとることができる（図 2の S105)。たとえば、図 3の編集結果テキスト上の位置 P1が認識結果情報の位置 P2に対応していることが分かると、 P2 は音声データの時刻 t3に対応しているから、編集結果テキスト上の位置 P1を音声データ上の時刻 t3に対応付けることができる。

[0071] 同期手段 23は、マッチング手段 27による編集結果テキストと音声データとの対応づけを参照することで、音声再生時刻記憶手段 24に記憶されて、る音声再生時刻を、編集位置記憶手段 25に記憶されている編集カーソル位置に同期させたり、或いは逆に、編集位置記憶手段 25に記憶されてヽる編集カーソル位置を音声再生時刻記憶手段 24に記憶されている音声再生時刻に同期させたりする（図 2のステップ S1 06)。

[0072] すなわち、図 3において、編集カーソル位置が P1であるときに音声再生時刻を t3に変更したり、音声再生時刻が t3であるときに編集カーソル位置を P1に変更したりする

[0073] 以上で説明したような、テキストの編集（図 2の S 102)と、編集結果テキストと音声データとの対応づけ（図 2の S104及び S105)と、編集カーソル位置と音声再生時刻との同期処理（図 2の S 106)とをテキストの編集が終了するまで繰り返し実行する（図 2 の S107)。テキストの編集を繰り返し、書き起こしが完成すると処理全体が終了する。

[0074] なお、以上の説明では、マッチング手段 27による編集結果テキストと音声データとの対応づけ処理（図 2の S104及び S105)は、作業者の同期指示があった場合に行つてヽるが、この対応づけをテキスト情報が編集されたタイミングで随時実行しても良すなわち、図 2の S102と S103との間で S104、 S 105を実行してお!ヽても良!/、。この場合、同期指示があった場合には即座に同期手段 23による音声再生時刻と編集カーソル位置との同期処理（図 2の S 106)が実行される。

[0075] 次に、本実施の形態の効果について説明する。

[0076] 音声テキストイ匕システム 1では、マッチング手段 27が、時刻情報の付与されていな V、編集結果テキストと時刻情報が付与されて、る認識結果情報とを対応づけることにより、認識結果テキストに対して編集を加えた結果得られる編集結果テキスト、もしくは認識結果テキストを使わずに新規に書き起こしテキスト情報である認識結果テキストと音声データとを対応づけることができる。これによつて、作業者は、編集作業が行われた力どうかに関わらず常に、編集カーソル位置と音声再生時刻との同期機能を利用することが可能となり、書き起こし作業の効率が大幅に向上する。

[0077] 次に、本発明の第 2の実施形態である音声テキストイ匕システム 2の構成と動作について、図面を参照して詳細に説明する。

[0078] 図 4は、音声テキストイ匕システム 2の機能ブロック図である。図 4の音声テキストィ匕システム 2は、マッチング手段 30が編集結果テキストと認識結果情報とを照合する際に、第 1実施形態のマッチング手段 27のように表記文字の整合ではなぐサブワードの整合によって照合する点、および図 4の音声認識手段 11aが、認識結果情報として表記文字に加えてサブワード列を時刻情報付きで出力し、認識結果記憶手段 13が表記文字に加えて時刻情報付きのサブワード列を認識結果情報として記憶する点において図 1に示す第 1実施形態の音声テキストイ匕システム 1と異なる。

[0079] 図 5に示すように、本第 2実施形態におけるマッチング手段 30は、サブワード変換手段 31と、サブワードマッチング手段 32とを備えている。本第 2実施形態は、マッチング手段 30が、編集結果テキストと認識結果情報とをサブワードの整合により対応づけるところに特徴がある。ここで、サブワードとは、音素や音節等の基本的な音響単位のことである。

[0080] 本第 2実施形態では、サブワードとして音素を採用しているが、音節等の他の基本的な音響単位を用いても同じである。次に、具体例によって、マッチング手段 30の動作について詳細に説明する。

[0081] 「次回の会議は二重路に地の全八字から開催致します」という音声認識結果に対して、「次回の会議は二十六日の午前八時力開催致します」と編集する場合を例に説明する。音声認識手段 11aは、認識結果情報として表記文字に加えて、 rj i k a i n okaigiwaniju:ronichinozenhachijikarakaisaiitasnim a s u」という音素列も出力する。このとき、音素列には対応する音声データの時刻情報を付加する。認識結果記憶手段 13は、認識結果情報として表記文字に加えて時刻情報付きの音素列を記憶する。

[0082] 音声認識手段 11aは、音素や音節を単位として音声認識処理を行うため、認識結果を音素列として出力することは可能である。

[0083] サブワード変換手段 31は、表記文字で構成された編集結果テキストをサブワード列に変換する。本第 2実施形態ではサブワードとして音素を採用しているため、編集結果テキストを音素列に変換する。すなわち、「次回の会議は二十六日の午前八時力ら開催致します」というテキスト' |·青報を「j ikainokaigiwaniju:rokunic hinogozenhachijiKarakais aiitashimasuJとヽっ音歹(1に変換する。

[0084] サブワードマッチング手段 32は、サブワード変換手段 31によって変換された編集結果テキストの音素列と、認識結果記憶手段 13に記憶された認識結果情報の音素列とを照合する。この様子を示したのが図 6であり、音素を照合して対応づけることによって、表記文字で対応づけるよりも認識誤りに頑健で正確な対応づけが可能となる。なぜならば、一般に音声認識において、表記文字では誤認識をしている場合でも、音素などのサブワードでは正解して、ることが多!、、 t 、う特徴があるためである。

[0085] 例えば、図 6の例では、表記文字レベルでは「十」を「重」に、「時」を「字」に誤認識しており、これらは表記文字の整合ではマッチしないが、音素で整合することで両者が正しくマッチすることが分かる。なお、音素列同士の対応づけは、公知の技術である DPマッチングなどの手法を用いれば良、。

[0086] 次に、サブワード変換手段 31で、編集結果テキストをサブワード列に変換する方法について説明する。

[0087] 書き起こし対象の言語が英語のように単語単位で分かち書きされて、る言語であれば、発音記号が付与されている単語辞書を参照することで、編集結果テキストをサブワード列に変換することが可能である。しかし、書き起こし対象の言語が日本語のように単語単位で分かち書きされて!/、な!、言語の場合は、編集結果テキストを直接サブワード列に変換することができな、。

[0088] 以下では、書き起こし対象が日本語である場合に、編集結果テキストをサブワード列に変換する方法について説明する。

[0089] 図 7は、日本語の編集結果テキストをサブワード列に変換するサブワード変換手段 31の一例を示すブロック図である。図 7に示すサブワード変換手段 31は、形態素解析手段 33と、読み情報付き形態素解析辞書記憶手段 34とを備えて、る。

[0090] 形態素解析手段 33は、編集結果記憶手段 26から入力された編集結果テキスト「次回の会議は二十六日の午前八時から開催致します」に対して、公知の技術である形態素解析を実行する。このとき、形態素解析手段 33は、読み情報付き形態素解析辞書記憶手段 34を参照して形態素解析を行うため、入力された編集結果テキストの読み情報、すなわち「じかいのかいぎわ〖こじゅ一ろくにちのごぜんはちじ力かいさいいたします」を得ることができる。読み情報力音素や音節などのサブワードに変換することは容易である。以上の方法により、編集結果テキストをサブワード列に変換することができる。

[0091] また、サブワード変換手段 31にお、て、編集結果テキストをサブワード列に変換する別の方法として、テキスト編集手段 22に対する書き起こし作業者のキーボード入力を記憶しておく方法をとることもできる。

[0092] すなわち、キーボードによる一般的な日本語入力においては、かな文字、すなわち読み情報を入力して漢字変換を施すため、キーボード入力を記憶しておくことで、編集結果テキストの読み情報を得ることができる。例えば、「二十六日」と打ち込むために、キーボードを「n i j y u u r o k u n i c h i (にじゅうろくにち）」と打ち込んでから漠字変換を施したとき、キーボード入力から得られたこの読み情報を編集結果記憶手段 26に記憶しておく。サブワード変換手段 31は、キーボード入力から得られた読み情報を参照することで、編集結果テキストをサブワード列に変換することができる。

[0093] なお、本第 2実施形態では、サブワード変換手段 31はマッチング手段 30に備えられていたが、サブワード変換手段 31は、テキスト編集手段 22に備えられていても良い。この場合、テキスト情報が編集されたタイミングで編集結果テキストのサブワード列への変換がなされ、変換されたサブワード列も編集結果記憶手段 26に記憶される。したがって、マッチング手段 30は、編集結果テキストと認識結果情報とをサブワードの整合により照合することが可能となる。

[0094] 次に、本第 2の実施形態の効果について説明する。音声テキストイ匕システム 2では、マッチング手段 30が、編集結果テキストと認識結果情報とを、表記文字よりも認識精度が高い音素などのサブワードの整合によって照合するため、書き起こし対象となる音声データの音声認識精度が低い場合でも、編集結果テキストと音声データとを高 V、精度で対応づけることができる。

[0095] 次に、本発明の第 3の実施形態である音声テキストイ匕システムの構成と動作について、図面を参照して詳細に説明する。

[0096] 本第 3実施形態における音声テキストイ匕システムは、書き起こし対象とする音声データの言語が日本語ではなく英語である点が、第 2実施形態と異なる。本第 3実施形態における音声テキストイ匕システムの構成は図 4と同様である。

[0097] 図 6は、第 3実施形態におけるマッチング手段の動作の具体例を示す図である。

[0098] 図 6は、 "し an you recommend a hotel which is not too expensive？とヽっ音； ^ァ ~~ タの^ 結果ァゃスト; 0 、 'し an you wait for men don' t tell we give not too expensiv e？"であった場合に、これを正しく編集したときの様子を示している。音声認識手段 1 laは、認識結果情報として表記文字に加えて、 "k ae n y uw w ey t f ax m eh n d ow uw n 1 1 eh 1 w iy g ih v n aa 1 1 uw iy k s p eh n s iy v とヽぅ音素歹 Uも出力す。このとき、音素列には対応する音声データの時刻情報を付加する。認識結果記憶手段 13は、認識結果情報として表記文字に加えて時刻情報付きの音素列を記憶する。

[0099] 第 2実施形態と同様、音声認識手段 11aは、音素や音節を単位として音声認識処理を行うため、認識結果を音素列として出力することは可能である。

[0100] サブワード変換手段 31は、表記文字で構成された編集結果テキストをサブワード列に変換する。本第 3実施形態では、サブワードとして音素を例に説明しているため、編集結果テキストを音素列に変換する。すなわち、 "Can you recommend a hotel w hich is not too expensive？，，とヽぅ編集結果ァ³ rスト k ae n y uw r eh k ax m eh n d ax hn ow uw t eh 1 w ih ch ih z n aa 1 1 uw iy k s p en n s iy vとヽっ音素歹 Uに換する。

[0101] 英語の表記文字列は単語ごとに分かち書きされているため、発音記号が付与された単語辞書を参照することで簡単に編集結果テキストを音素列に変換することができる。

[0102] サブワードマッチング手段 32は、サブワード変換手段 31によって変換された編集結果テキストの音素列と、認識結果記憶手段 13に記憶された認識結果情報の音素列とを照合する。これによつて図 6に示すように、編集結果テキストと音声データとを誤認識に頑健に対応づけることが可能となる。なぜならば、 "recommend"を" wait for men don't"と誤認識していても、音素レベルでは" r eh k ax m eh n d"が" w ey t f ax m eh n d…"となっており、一部の音素は正解しているためである。

[0103] このようにサブワードマッチング手段 32によって編集結果テキストと認識結果情報との対応付けが得られると、認識結果情報には時刻情報が付随しているため、編集結果テキストと音声データとの対応付けをとることができる。

[0104] 次に、本第 3の実施形態の効果について説明する。第 3の実施形態における音声テキストイ匕システムは、音声データの言語が英語であっても、編集結果テキストと音声データとの対応付けをとることができる。これによつて、作業者は、書き起こし対象とする音声データが英語であっても、編集カーソル位置と音声再生時刻との同期機能を常に利用することが可能となり、書き起こし作業効率が向上する。

[0105] 次に、本発明の第 4の実施形態であるコンピュータ 3の構成と動作について、図面を参照して詳細に説明する。

[0106] 図 9は、第 1の実施形態および第 2の実施形態および第 3の実施形態をプログラムにより構成した場合に、そのプログラムにより制御されるコンピュータ 3の構成図である。図 9を参照すると、コンピュータ 3は、 MPU (Micro Processing Unit)等を含んで構成されるデータ処理装置 50と、磁気ディスクや半導体メモリ等で構成される記憶装置 40と、液晶ディスプレイやスピーカ等の出力装置およびキーボードやマウス等の入力装置を備えた入出力装置 60と、音声テキストイ匕用プログラム 70とを備えている。

[0107] 記憶装置 40は、音声記憶手段 41、認識結果記憶手段 42、編集位置記憶手段 43 、音声再生時刻記憶手段 44、編集結果記憶手段 45などとして使用される。 [0108] 音声テキストイ匕用プログラム 70は、データ処理装置 50に読み込まれ、データ処理装置 50の動作を制御することにより、データ処理装置 50上に前述した各実施の形態における機能手段を実現する。すなわち、データ処理装置 50は、音声テキストイ匕用プログラム 70の制御により、音声認識手段 11および l la、音声再生手段 21、テキスト編集手段 22、同期手段 23、マッチング手段 27および 30、と同一の処理を実行する。

産業上の利用可能性

[0109] 本発明によれば、会議や講演の議事録を作成するための音声のテキスト化作業、或いは、映画やテレビ番組の字幕作成などの業務において、作業者の負担を軽減して作業の効率を改善する、といった用途に適用できる。

図面の簡単な説明

[0110] [図 1]本発明の第 1の実施形態である音声テキストイ匕システムの構成を示すブロック図である。

[図 2]図 1の音声テキストイ匕システムの動作を示す流れ図である。

[図 3]図 1のマッチング手段の動作の具体例を示す図である。

[図 4]本発明の第 2及び第 3の実施形態である音声テキストイ匕システムの構成を示すブロック図である。

[図 5]図 4のマッチング手段の構成を示すブロック図である。

[図 6]図 4のマッチング手段の動作の具体例を示す図である。

[図 7]図 5のサブワード変換手段の構成例を示すブロック図である。

[図 8]本発明の第 3の実施形態である音声テキストイ匕システムにおけるマッチング手段の動作の具体例を示す図である。

[図 9]本発明の第 4の実施形態であるコンピュータの構成を示すブロック図である。

[図 10]従来の音声テキストイ匕システムの構成を示すブロック図である。

符号の説明

[0111] 1, 2 音声テキスト化システム

3 コンピュータ

10 音声認識装置 , 11a 音声認識手段

音声記憶手段

認識結果記憶手段

編集装置

音声 S生手段

テキスト編集手段

同期手段

音声再生時刻記憶手段

編集位置記憶手段

編集結果記憶手段

, 30 マッチング手段

サブワード変換手段

サブワードマッチング手段

形態素解析手段

読み情報付き形態素解析辞書記憶手段記憶装置

音声記憶手段

認識結果記憶手段

編集位置記憶手段

音声 S生時刻記憶手段

編集結果記憶手段

データ処理装置

入出力装置

音声テキストィヒ用プログラム

音声テキストイ匕システム

音声認識装置

1 音声認識手段

2 音声記憶手段 213 認識結果記憶手段

220 編集装置

221 音声再生手段

222 編集手段

223 同期手段

224 音声再生時刻記憶手段

225 編集位置記憶手段

226 編集結果記憶手段

Claims

請求の範囲

[1] 音声データを音声認識して当該音声データの時刻情報が付加された認識結果情報を出力する音声認識手段と、

前記音声データを書き起こしたテキスト情報である編集結果テキストを作成するテキスト編集手段と、

前記編集結果テキストと前記認識結果情報とを照合することで、前記編集結果テキストと前記音声データとを対応付けるマッチング手段とを備えたことを特徴とする音声テキスト化システム。

[2] 前記請求項 1に記載の音声テキストイ匕システムにお、て、

前記認識結果情報が表記文字で構成されており、

前記マッチング手段は、前記編集結果テキストと前記認識結果情報とを表記文字の整合によって照合することを特徴とする音声テキストイ匕システム。

[3] 前記請求項 1に記載の音声テキストイ匕システムにお、て、

前記認識結果情報がサブワードで構成されており、

前記編集結果テキストをサブワード列に変換するサブワード変換手段を備え、前記マッチング手段は、前記編集結果テキストと前記認識結果情報とをサブワードの整合によって照合することを特徴とする音声テキストイ匕システム。

[4] 前記請求項 3に記載の音声テキストイ匕システムにお、て、

前記サブワード変換手段は、読み情報付きの辞書を用いた形態素解析によって前記編集結果テキストをサブワード列に変換することを特徴とする音声テキストイ匕システム。

[5] 前記請求項 3に記載の音声テキストイ匕システムにおいて、

前記テキスト編集手段は、入力されたかな漢字変換前のかな文字列を記憶し、前記サブワード変換手段は、前記かな漢字変換前のかな文字列を参照して前記編集結果テキストをサブワード列に変換することを特徴とする音声テキストイ匕システム。

[6] 前記請求項 1乃至 5のいずれか一項に記載の音声テキストイ匕システムにおいて、前記音声データを再生する音声再生手段と、

前記マッチング手段で得られる前記編集結果テキストと前記音声データとの対応付けを参照して、前記テキスト編集手段の編集カーソル位置と前記音声再生手段の音声再生時刻とを同期させる同期手段とを備えたことを特徴とする音声テキストイ匕システム。

[7] 前記請求項 6記載の音声テキストイ匕システムにお、て、

前記同期手段は、前記編集カーソル位置を前記音声再生時刻に同期させることを特徴とする音声テキストイ匕システム。

[8] 前記請求項 6記載の音声テキストイ匕システムにお、て、

前記同期手段は、前記音声再生時刻を前記編集カーソル位置に同期させることを特徴とする音声テキストイ匕システム。

[9] 音声データを音声認識し当該音声データの時刻情報が付加された認識結果情報を出力する音声認識工程と、

前記音声データを書き起こしたテキスト情報である編集結果テキストを作成するテキスト編集工程と、

前記編集結果テキストと前記認識結果情報とを照合し前記編集結果テキストと前記音声データとを対応付けるマッチング工程とを有したことを特徴とする音声テキストイ匕方法。

[10] 前記請求項 9に記載の音声テキストィヒ方法において、

前記認識結果情報が表記文字で構成されており、

前記マッチング工程では、前記編集結果テキストと前記認識結果情報とを前記表記文字の整合によって照合することを特徴とする音声テキストイ匕方法。

[11] 前記請求項 9に記載の音声テキストィヒ方法において、

前記認識結果情報がサブワードで構成されており、

前記編集結果テキストをサブワード列に変換するサブワード変換工程を前記マッチング工程の前に有し、

前記マッチング工程では、前記編集結果テキストと前記認識結果情報とを前記サブワードの整合によって照合することを特徴とする音声テキストイ匕方法。

[12] 前記請求項 11に記載の音声テキストイ匕方法にぉ、て、

前記サブワード変換工程では、読み情報付きの辞書を用いた形態素解析によって前記編集結果テキストをサブワード列に変換することを特徴とする音声テキストイ匕方法。

[13] 前記請求項 11に記載の音声テキストイ匕方法にぉ、て、

前記テキスト編集工程では、入力された力な漢字変換前のかな文字列を記憶し、前記サブワード変換工程では、前記力な漢字変換前の力な文字列を参照して前記編集結果テキストをサブワード列に変換することを特徴とする音声テキストイ匕方法。

[14] 前記請求項 9乃至 13のいずれか一項に記載の音声テキストイ匕方法において、前記音声データを再生する音声再生工程と、前記マッチング工程で得られる前記編集結果テキストと前記音声データとの対応付けを参照し前記テキスト編集工程における編集カーソル位置と前記音声再生工程における音声再生時刻とを同期させる同期工程とを有したことを特徴とする音声テキストイ匕方法。

[15] 前記請求項 14記載の音声テキスト化方法にぉ、て、

前記同期工程では、前記編集カーソル位置を前記音声再生時刻に同期させることを特徴とする音声テキストイ匕方法。

[16] 前記請求項 14記載の音声テキスト化方法にぉ、て、

前記同期工程では、前記音声再生時刻を前記編集カーソル位置に同期させることを特徴とする音声テキストイ匕方法。

[17] 音声データを音声認識し当該音声データの時刻情報が付加された認識結果情報を出力する音声認識処理と、前記音声データを書き起こしたテキスト情報である編集結果テキストを作成するテキスト編集処理と、前記編集結果テキストと前記認識結果情報とを照合し前記編集結果テキストと前記音声データとを対応付けるマッチング処理とをコンピュータに実行させることを特徴とする音声テキストイ匕用プログラム。

[18] 前記請求項 17に記載の音声テキストイ匕用プログラムにおいて、

前記認識結果情報が表記文字で構成されており、

前記マッチング処理は、前記編集結果テキストと前記認識結果情報とを前記表記文字の整合によって照合するような内容であることを特徴とする音声テキストイ匕用プログラム。

[19] 前記請求項 17に記載の音声テキストイ匕用プログラムにおいて、前記認識結果情報がサブワードで構成されており、

前記編集結果テキストをサブワード列に変換するサブワード変換処理を前記コンビユータに実行させると共に、

前記マッチング処理は、前記編集結果テキストと前記認識結果情報とを前記サブヮードの整合によって照合するような内容であることを特徴とする音声テキストイ匕用プログラム。

[20] 前記請求項 19に記載の音声テキストイ匕用プログラムにおいて、

前記サブワード変換処理は、読み情報付きの辞書を用いた形態素解析によって前記編集結果テキストをサブワード列に変換するような内容であることを特徴とする音声テキストイ匕用プログラム。

[21] 前記請求項 19に記載の音声テキストイ匕用プログラムにおいて、

前記テキスト編集処理で入力された力な漢字変換前の力な文字列を記憶し、前記サブワード変換処理は、前記かな漢字変換前のかな文字列を参照して前記編集結果テキストをサブワード列に変換するような内容であることを特徴とする音声テキストィ匕用プログラム。

[22] 前記請求項 17乃至 21のいずれか一項に記載の音声テキストイ匕用プログラムにおいて、

前記音声データを再生する音声再生処理と、

前記マッチング処理で得られる前記編集結果テキストと前記音声データとの対応付けを参照し前記テキスト編集処理における編集カーソル位置と前記音声再生処理における音声再生時刻とを同期させる同期処理とを前記コンピュータに実行させることを特徴とする音声テキストイ匕用プログラム。

[23] 前記請求項 22記載の音声テキストイ匕用プログラムにおいて、

前記同期処理は、前記編集カーソル位置を前記音声再生時刻に同期させるような内容であることを特徴とする音声テキストイ匕用プログラム。

[24] 前記請求項 22記載の音声テキストイ匕用プログラムにおいて、

前記同期処理は、前記音声再生時刻を前記編集カーソル位置に同期させるような内容であることを特徴とする音声テキストイ匕用プログラム。