WO1994024667A1

WO1994024667A1 - Apparatus for recording and reproducing voice

Info

Publication number: WO1994024667A1
Application number: PCT/JP1994/000661
Authority: WO
Inventors: Hiromu Ishibashi
Original assignee: Kabushiki Kaisya Advance
Priority date: 1993-04-21
Filing date: 1994-04-21
Publication date: 1994-10-27
Also published as: JPH06308992A; KR950702323A

Description

明細書音声記録再生装置産業上の利用分野

本発明は、音声記録再生装置に関するものであり、更に詳しくは学習教育機器或いは音声式電子ブック等の音声再生装置に関するものである。

背景技術

CD - RO 等のディジタル高容量記憶媒体を用いて、音声再生用の装置があるが、その再生時間は、せいぜい 70分程度である。この程度の再生時間は、音楽を録音するには充分であるが、文庫本、学習書等の書籍を朗読した朗読音声全部を録音するには不足している。特に聴者に理解と認識を与える為の学習器等の様な繰り返し且つ、明確な音声を例えば低速のように速度を変えてしかも長時間再生出力する場合、上述のディジタル記憶媒体の使用は、学習内容を調整乃至省略しない限り困難なことであり、その他の記憶媒体であっては、なおさらに困難である。

又、特に記録時の朗読スピードを意図的に調整せざるを得ないことが多かつた。

本発明の目的は、上記従来技術の問題点を解消し、所定の記録媒体には、充分な音声データを格納させると共に、再生時には自然の朗読に近い音声出力が長時間にわたって得られる音声記録再生装置を提供するものである。発明の開示

上記目的を達成するため、本発明に係る音声記録再生装置は、基本的には、以下に示す様な技術構成を有するものである。

即ち、音声信号に含まれる無音声部分を所定の無音声部分表示デ一夕信号に変換して記憶した音声信号記憶手段、記憶された音声信号を所望の発話速度で再生する音声再生手段とから構成されている音声再生装置であり、より具体的には、入力される音声信号に含まれる無音声部分を所定の無音声部分表示データ信号に変換する無音声部分表示変換手段、当該無音声部分表示変換手段により変換された該無音声部分表示データ信号を含む入力音声信号を記憶する記憶手段とから構成されている音声記録再生装置であり、更に具体的には、入力される音声信号に含まれる無音声部分を所定の無音声部分表示データ信号に変換する無音声部分表示変換手段、当該無音声部分表示変換手段により変換された該無音声部分表示データ信号を含む入力音声信号を記憶する記憶手段、及び当該記憶手段に記憶された入力音声信号を所望の発話速度で再生する音声再生手段とから構成されている音声記録再生装置である。

つまり本発明においては本発明者が鋭意研究の結果、実質的に無音声部を削除した様式でディジタル音声データを記憶媒体に記憶させ、再生時、この無音声時間を付加することにより、記憶媒体には、充分な音声データが格納でき、しかも再生時この無音声時間が付加されていることから、自然の朗読に近い音声出力が長時間得られる学習教育器或は音声式電子ブック等に使用可能な音声記録再生装置を実現した。図面の簡単な説明

図 1 は本発明の記録手段の実施例を示す図である。図 2は本発明の再生手段の実施例を示す図である。

図 3 ( A) 、図 3 (B) 、図 4 ( A) 、図 4 (B) は本発明の実施例を説明するための図である。

図 5 ( A) 、図 5 (B) は本発明における無音声部の長さを識別する方法の例を示す図である。

図 6は本発明の他の実施例を示す図である。

図 7は図 6で示した無音声処理部を具体的に示すフローチャートである。

図 8 (A) 、図 8 (B) は、無音声部を実質的に削除した場合の信号例の他の例を示す図である。

図 9は、本発明に於ける別の具体例に於ける構成を示すプロックダイアグラムである。

図 1 0は、本発明に於ける無音声部の判別を実施する為のフローチヤ一トである。

図 1 1から図 1 2は、図 9に示す本発明に於ける別の具体例に於ける無音声部削除方法を実行する為の操作手順を示すフローチャートである。

図 1 3 ( A) 〜図 1 3 ( C ) は、本発明に於いて、ブラス · マイナス成分モードを判別する例を説明する図である。

図 1 4は、本発明に係る図 9の具体例に於ける組替え手段の操作手順を説明するフローチヤ一トである。

図 1 5は、本発明に於いて使用される音声入力信号の一例を示す波形図である。発明を実施するための最適な態様

以下に本発明に係る音声記録再生装置の具体例を図面を参照しながら詳細に説明する。即ち、第 1 図は、本発明に係る音声記録再生装置に於ける入力音声信号の記録手段 100 の一具体例に於ける構成の概略を示すプロックダイアグラムであり、図中、入力される音声信号に含まれる無音声部分を所定の無音声部分表示データ信号に変換する無音声部分表示変換手段 5、当該無音声部分表示変換手段 5 により変換された該無音声部分表示データ信号を含む入力音声信号を記憶する記憶手段 11とから構成されている記録手段 100 が示されている。

更に、上記具体例に付いて詳細に説明すると、

図 1 においては、（11) は、記録媒体であり、主に光ディスク、光磁気ディスク、磁気ディスク等のディジタル記憶媒体よりなる。

(111)は、書き込み手段であり、書き込み用へッド、へッド駆動用ドライバ等から構成される。（ 1 ) は、アナログ音声入力手段であり、マイクロフォン、フィルタ、増幅器等から構成される。

( 2 ) は、 AZD変換手段であり、アナログ音声信号をデジタル音声信号に変換する。更に AZD変換手段（ 2 ) は、 ADPCM 等のデジタル信号圧縮手段を組み込む場合もある。（ 3 ) は、無音声検出手段であり、無音声部を自動的、あるいは目視的によって検出する部分である。（ 4 ) は、変換部であり、無音声検出手段（ 3 ) 及び AZD変換手段（ 2 ) の出力信号を入力し、無音声検出手段（ 3 ) からの入力信号に基づいてデジタル音声信号の無音声部にたいし、削除あるいは、他の符号に変換処理を行う手段である。無音声検出手段（ 3 ) 並びに変換部（ 4 ) は本発明における無音声部分表示変換手段 5を構成するものである。尚該変換部 4 は CPU， DSPなどを用いてアルゴリズム的処理を施すものであってもよい。この場合、両手段（ 3 )(4 ) の区別は、無くなるものである。図 1 は、アナログ音声を最初にデジタル音声に変換した後、無音声部の実質的削除を行う構成を示したが、これに限られるものではなく、例えばデジ夕ル変換行程中、あるいはアナ口グ音声時に無音声部の実質的削除がおこなわれるものであってもよい。

ところで本発明において取り扱う入力音声信号における無音声部とは、例えば音節間、文節間等々の音声的に無音乃至無音に近い部分を示すものである。本発明において無音声部分の表示変換手段 5 は無音声部の実質的削除を行うものであって、例えば無音声部の全部又は 1部の削除するとかあるいは、無音声部を他の符号に変換すること等々を示すものである。

係る音声部分を他の符号に変換する方法の例としては、例えば、当該無音声部分を削除する信号に変換するとか、当該無音声部分の時間に関する情報を示す信号に変換するとか、或いは当該無音声部分が配置されている当該入力音声信号内に於ける存在位置を表す情報を示す信号に変換する等が可能である。

次に、本発明に係る音声記録再生装置に於いて使用される音声再生手段 200 の一具体例の構成の概略を図 2 に示す。

即ち、図 2 に於いては、図 1 に示された音声記録手段 100 により所定の記録媒体 11に記憶された音声データである入力音声信号を所望の発話速度で再生する音声再生手段 17が設けられているものである ο

更に、本発明に係る音声記録再生装置に使用される音声再生手段

200 の具体的な構成を説明する。

即ち図 2 は、音声再生手段 200 の一例であり、以下再生部と称する。（1 1 ) は、記録媒体であり、図 1で示したものである。

( 112)は読み取り手段であり、読み取り用ピックアップ、記録手段（11 ) を回転させる手段、読み取り用ピックアップを摺動させる手段等から構成される。

( 12) は、検出手段であり、読み取り手段（112)が出力するディジタル音声から、実質的に削除された無音声部を検出し、検出した無音声部を復元又は、新たに形成又は、これらと同等の意味を持つ信号に変換し、出力するものである。

( 13) は調整手段であり、読み取り手段（112)から出力されたデイジタル音声信号と、検出手段（12) が出力した無音声信号とを組み合わせた後、この組み合わせ信号を出力する。検出手段（12) 、調整手段（13) は本発明における音声再生手段 17を構成するものである、又、調整手段 13は 1 つの CPU, DSPワンチップマイコン等によつてアルゴリズム的に処理される場合がある。この場合、両手段

( 12) (13) を区別する必要はなく、すくなくとも削除された無音声部を任意の無音声時間、又は原無音声時間を有する無音声ディジタル信号に変換し、ディジタル音声と組み合わせて出力するプログラムルーチン等のアルゴリズムを有すればよいものである。

( 14) は D Z A変換手段であり、調整手段（13) から出力されるディジタル音声をアナログ音声に変換するものである。この時、図 1 でしめす A Z D変換手段（ 2 ) が圧縮手段を有している場合、 D Z A変換手段（14) は、復元手段を有するものである。又、 D Z A 変換手段（14) は前記した音声再生手段 17の 1 つを構成してもよく又、検出手段（12) 、調整手段（13) を兼ねる場合もある。

( 15) は、増幅手段であり、アナログ音声を電気的に増幅する手段である。

尚、増幅手段（15) には更に周波数フィルタ特性が付加されたものであってもよい。

(16) は、発生手段であり、スピーカ、イヤホーンの何れか、あるいは全部等よりなる。尚、記録部及び再生部は両部一体型または別体型何れの場合でも良い。

次に図 1及び図 2 にもとづいて本発明に係る音声記録再生装置の記録手段 100 と再生手段 200 の動作の一例を説明する。

図 1で示す記録部 100 において、アナログ音声入力部（ 1 ) に入力されたアナログ音声は、ろ波、増幅されたのち、 AZD変換手段 ( 2 ) において、図 3 ( A) に示すようにデジタル音声信号に変換される。デジタル音声信号は、無音声検出手段（ 3 ) 並びに変換手段（ 4 ) に入力される。無音声検出手段（ 3 ) で、図 3 ( A) で示す無音声部（31) が検出され、変換手段（ 4 ) で図 3 (B) でしめす（32) のように無音声部 31は、実質的に削除されその代りに、無音声部 31が実質的に削除された位置を示すデジタル音声信号 32 (図 3 (B))に変換され、書き込み手段（111)を介して記録媒体（11) に書き込まれる。

尚、ディジタル音声信号列は、非常にこまかいことから、省略して描いた。又、ディジタル音声列の 1つは、 1音節、 1文節、 1段落あるいは、無音声部から、次の無音声部迄等が示される。

次に記録媒体（11) に記録されたディジタル音声信号を再生する再生手段 200 を示す図 2に於て、記録手段（11) を読み取り手段

(112)にセットし、記録手段（11) から、実質的に無音声部が削除されたディジタル音声信号が読み取られ、無音声部分表示変換手段 17を構成する検出手段（12) 、並びに調整手段（13) に出力される。検出手段（12) は、図 3 (B) に示す削除された無音声部 32のような無音声部分表示データ信号を検出し、その信号に含まれる情報から所定の時間幅又は原時間幅を有する無音声ディジタル信号に変換し、調整手段（13) に出力する。調整手段（13) は、記録手段（11) から入力された実質的に無音声部が削除されたディジタル音声信号の削除部に検出手段（12) から入力された無音声ディジタル信号を組み合わせて、この組み合わせディジタル音声信号（図 3 (A))を DZA変換手段（14) に出力する。 D/A変換手段（14) は、入力された組み合わせディジタル音声信号をアナログ音声信号に変換出力する。増幅手段（15) は、このアナログ音声信号を増幅、場合によってろ波し、発声手段（16) に出力する。発声手段（16) は、スピー力、イヤホンを媒体として音声を出力する。この時、無音声デイジタル信号量の数値的加算、減算等の調整により、発話速度は自在に調整され、低速発話も容易に実施できる。この調整は、聴者が調整できるように調整用のツマミを装置上に装着される場合もある。又、実質的に無音声部が削除され適宜の変換表示データ信号を含むディジタル音声は、図 4 ( A )，（B ) で示す様に記録媒体に記録される場合もある。図 1 の記録部において、無音声検出手段（ 3 ) 、変換手段（ 4 ) は、図 4 ( A ) で示す原ディジタル音声信号の無音声部（41) を図 4 ( B ) で示す様に、他の符号（42) で置換する。図 4 ( B ) で示すディジタル音声信号は、書き込み手段（111 )を介して記録手段（11) に書き込まれる。図 4 ( B ) で示す他の符号 ( 42) とは、単なる目印の他、無音声時間幅の情報、無音声部の性質を示す情報を具備した数ビッ卜の符号等を示すものである。

図 2の再生部 200 に於て、記録手段（11 ) は図 4 ( B ) で示すディジタル音声信号を記録している。読み取り手段（112)は、この記録手段（11 ) に記録された実質的に無音声部が削除されたディジタル音声信号を読み出し、検出手段（12) 、調整手段（13) に出力する。

検出手段（12) は、入力されたディジタル音声信号の削除された無音声部に代替付加されている符号を検出した後、その符号を解読し、解読内容に従った信号を調整手段（13) に出力する。図 4 ( B ) で示す他の符号（42) の内容は上述の様にその部分の原無音声部の時間幅等である。調整手段（13) は、検出手段（12) から入力された信号と、読み取り手段（112)から入力された無音声部が削除されたディジタル音声信号より、無音声部を付加乃至再現したディジタル音声信号（図 4 (A))を DZA変換手段（14) に出力する。 DZ A変換手段（14) 以降の動作は、前述と同一なので説明は省略する次に本発明におけるアナ口グ音声入力信号から無音声部を検出しその無音声部を実質的に削除するとともにその長さを時間的関数を表わす符号におきかえる他のアルゴリズムの一例について説明する尚本発明に使用される音声入力信号の例を図 15に示しておくが、これに限定されるものではない。

図 1で示す記録部に於て、無音声部に対し、図 5 ( A) のウィンドウ（WD) を予じめ設定しておく。 Lth は、無音声と判断する為の閾値であり、（ + )(—) 方向に設定されている。図 5 ( A) で示す A〜Dの符号は予じめ決定されており、又 A〜Dの符号間の時間幅の初期値も予じめ設定されている。尚、時間幅は初期値だけであつて可変可能である。現時点 tsに於いて時刻 ts+ 1 から taまでの間で ( 1 ) 式を満たす最小の tnを見つける。

I V(tn) 一 V(ts) I > Lth ( 1 ) tnが見つからなければ符号 Aをとり、再びこの符号 Aを現時点 ts として次のウィンドウ（WD 1 ) を設定し図 5 (A) で示すウィンドゥ上で次の tnを見つける動作をする。

例えばその他の場合、 tb< tn≤ taの時は符号 Bを取り、その後、符号の付与を中止する。以下同じく ts + 2 く tn< tbのときは符号 C を取り、 tn^ ts+ 2のときは符号 Dをとり、その後、それぞれ符号の付与を中止する。

次に

I V(ti) ― V(ts) I ≤ Lth

となった時、無音声の削除処理が再開される。この時、再開を示す符号が付与される。符号 Aが繰り返し、又は多数の頻度で選択される場合、 A~D符号間の時間幅の全体乃至一部は長くなる。

V(ti) は、現時点 tsから、所定の時間前乃至時間後の時間 ti時の電圧値である。本実施例で使用される符号は、 A〜Dの 4個であるから、 2 ビット程度で表現されるので記録手段上での無音声部はわずかの符号列で置き換わるものである。尚、符号の数は、少ない方が好ましいが、特に限定されるものではない。上述した行程に於て決定された符号 A〜Dが書き込み手段（111)を介して記録媒体（11) に記録される。

ここで、本発明に於ける入力音声信号の無音声部分の時間幅を検出して、識別符号を付与する方法の別の具体例を図 5 (B ) を参照しながら説明する。

即ち、図 5 (B) に示す様に、本具体例に於いては、先ず第 1 のウィンドウ（ WD 1 ) を設定し、当該ウィンドウ内に 4種の時間のフアクターを異ならせたチヱックポィント A〜Dを設定するものであり、当該ウィンドウ WD 1 の初期時刻を tsとすると、チヱックポイント Dは、 ts+ 1 の時刻に相当する位置に配置されるものであり、その初期時刻と該チェックポイント Dとの時間間隔を 1 Z 4 · Δ t とする。

同様にチヱックポイント Cは、 ts+ 2の時刻に相当する位置に配置されるものであり、該チェックポイント Dと該チェックポイン卜 Cとの時間間隔を 1 Z 4 · Δ t とする。

又、チヱックポイント Bは、 ts+ 3の時刻に相当する位置に配置されるものであり、該チェックポイント Cと該チェックポイント B との時間間隔を Δ t とする。

更に、チヱックポイント Aは、 ts+ 4の時刻に相当する位置に配置されるものであり、該チェックポイント Bと該チェックポイント Aとの時間間隔を Δ t とする。

係るウインドウ WD 1 を設定したのち、外部入力から音声信号 Nが入力され、その入力音声電圧 V(n)と前記した予め定められたしきい値 Lth とが比較される。

本具体例に於いては、音声入力信号の電圧 V(n)が、時刻 tsで、前記しきい値 Lth より低くなり、前記した式（ 1 ) の関係を満たす事になる。

その時点で、上記したゥィンドウ WD 1 が設定され、当該ゥィンドゥ WD 1 で設定された検査時間の間、継続して、所定のサンプリング時間間隔で、該入力音声電圧 V(n)と前記したしきい値 Lth とが比較される。

図 5 ( B ) の具体例では、当該ウィンドウ WD 1 で予め定められた経過時間 ts+ 4の時間内では、当該音声入力信号 Nは、前記した式 ( 1 ) の関係を満足しており、従って、この間は、無音声部が継続されているものと判断され、その時の無音声部分に対しては、識別符号として Aの符号が付与される。

更に、本具体例に於いては、時刻 ts+ 4の時間が経過した時点で、無音声部分が継続されていると判断された場合には、その時点で、次のゥインドウ WD2が設定される。

つまり、チェックポイント Aに於ける ts+ 4の時刻に於いて、再びウィンドウの初期時刻、つまり tsが開始される事になる。

又、本具体例に於いては、ウィンドウ WD 1 に於いて、無音声部分が継続されているので、次のウインドウ WD 2 に於いても無音声部分が、長く続くとの予想から、第 2のウィンドウ WD 2の設定時間を、第 1 のウィンドウ WD 1 の設定時間よりも長くするものである。

つまり、当該ウィンドウ WD2 の初期時刻を tsとすると、チヱックボイント Dは、 ts+ 1 の時刻に相当する位置に配置されるものであり、その初期時刻と該チェックポイント Dとの時間間隔を 1 Z 4 · Δ t とする。

同様にチェックポイント Cは、 t s + 2の時刻に相当する位置に配置されるものであり、該チェックポイント Dと該チェックポイント Cとの時間間隔を 1ノ 4 · △ t とする。

又、チェックポイント Bは、 t s + 3の時刻に相当する位置に配置されるものであり、該チェックポイント Cと該チェックポイント B との時間間隔を 2 Δ t + 3 とする。

更に、チヱックポイント Aは、 t s + 4の時刻に相当する位置に配置されるものであり、該チェックポイント Bと該チユックポイント Aとの時間間隔を 2 Δ t + 3 とする。

そして、本具体例に於いては、入力音声信号の電圧 V (n)が、第 2 のウインドウ WD 2 に於けるチヱックポイント Aの直前で、前記したしきい値 L t h を越え、無音声部分が終了した事が判る。

その為、当該ウィンドウ WD 2 に於ける入力音声信号の無音声部に対しては、識別符号として Bの符号が付与される。

従って、本具体例に於ける当該音声入力信号の無音声部分に対しては、 A · Bと言う符号列が与えられ、係る識別符号を再生時に読出して、当該識別符号 A · Bに相当する時間だけ、再生される所定の音声入力信号の所定の位置に無音声部を揷入しながら再生操作を実行するものである。

この様にして、ディジタル音声が記録された記録手段が図 2で示す再生手段 200 で再生される際の動作を説明する。

記録手段（1 1 ) で記録されたディジタル音声が読み取り手段

( 1 12)で読み取られ、検出手段（12) 並びに調整手段（13 ) に入力される。検出手段（12) は、図 5 ( A ) で示した符号 A〜D乃至無音声開始を示す信号並びに符号を検出し、図 5 ( A ) で示したウインドウに当てはめ、その符号に応じた時間幅を有する無音声部で復元し、調整手段（13) に出力する。調整手段（13) は、ディジタル音声の符号 A〜Dの部分に検出手段（12) から出力された無音声部を挿入していく。又、検出手段（12) は、符号 Aが繰り返し出現する場合、図 5 ( A ) で示す符号 A〜Dの時間幅の一部乃至全部も長くなり、復元される無音声部の時間幅も繰り返し回数に比例する様に自動的に長くなつていく。

以上の様に、記録時、無音声部が少ない符号で自動的に置き換え可能であることから、非常に至便、且つ合理性に富み、再生時、少ない符号であつても正確な無音声時間を復元でき、しかも復元処理時間が短いので、再生音声出力に支障がない等の効果がある。

尚、上述した A〜Dの符号の付与並びに符号に基づく処理内容等々はあくまで一例であり、限られるものではない。

上述した実施例を使用して構成させる装置の大きさは、携帯型ができる程度が好ましく、学習書であれば、反復する音声を出力する機能や、しおり的な機能を付加する場合もある。又、装置の大きさは、記録媒体の大きさにも左右されることから、記録媒体は、小さくてしかも高容量であるもの、例えば CD— ROM 、ミニ光磁気デイスク、 3. 5インチフロッピィディスク、デジタルオーディオテープ等が適当である。

尚、ディジタル音声は、合成音声、自然音声を A / D変換、圧縮処理した音声等、特に限定する必要はなく、既存の方式によって変換された音声を示すものである。

次に上記した入力音声信号に無音声部が含まれているかどうかを判断する方法をソフトウエアを用いて実現する場合の例を図 10に示すフローチヤ一トを用いて操作手順に従って説明する。尚装置の構成としては図 1 に示すものが基本的には用いられる。先ずステップ ( 2 a ) でディジタル化した音声データを所定量分入力する。この時、所定量とは、 1024個単位等の数であり、一時的に格納する為の記録素子に依存する。又、これは不用な場合もある。

ステップ（ 2 b ) で予め無音声を示す符号等として使用する為に設定した制御コードと音声データとを区別する為、 64データを 1 ブロックとした音声データから、制御コ一ドと同一乃至類似するデ一タを変更させる。この変更は、例えばこのデータに + 1 (インクリメント）することによって行われる。

尚、この + 1 (インクリメント）によって音声データの内容は、変更されるが実際、再生出力音声にはなんら影響が無いのである。次にステップ（ 2 c ) に於いて無音の開始終了を決定するための計算を行う。計算例としては音声データを所定のブロック単位（例えば 1 ブロックを 64デ一タとする。）で'区切り、そのブロックでの音声振幅分布等のデータを得る。ステップ（ 2 d ) に於いて、ステツプ（ 2 c ) で得られたデータの振幅分布が所定の範囲（例えば（800 h≤ X≤ 80Fh) )にどれだけあるかが検出され、もし 1 ブロック中のデータが該無音範囲に 90 %以上あれば、仮の無音声開始とされ

(ye s)となり、それ以外の時は、（no) となる。ステップ（ 2 d ) で（yes)の時、次にステップ（ 2 e ) で無音開始フラグがオンされているかどうか調べられ、フラグがオフしていればここで無音開始が確実に決定され、（no) となり、仮の無音声開始点に対し無音声フラグがオンするステップ（ 2 f ) 。ステップ（ 2 e ) で既に無音開始フラグがオンしている時は、無音区間中てあり、（ye s)となる _c ステップ（ 2 g ) は、次の所定数データブロックを読み込む部分であり、ステップ（ 2 h ) にてそのデータブロックが終了かどうか判定され、終了の時は、（yes)、終了でない時は、無音範囲計算ステップ（ 2 c ) に戻る。もし終了の場合は、（ye s)となるステップ ( 2 i ) にて全データが終了したか判定し、もし終了していない場合は、（no) となり、ステップ（ 2 a ) にて再び 1024個のデータを読み取り、一時的に記録させ、ステップ（ 2 a ) 以降の処理を続け o

ステップ（ 2 d ) に於いて、もし無音範囲でない場合（no) となり、これが無音終了なのかどうかステップ（ 2 j ) にて判定される, 判定の基準は、例えば所定数のデータ中 50%以上が無音範囲でない場合である。ステップ（ 2 j ) にて（yes)無音終了であれば、ステップ（ 2 k ) へ進み、（no) であれば無音部分でないとしてステツプ（ 2 g ) へ進み、次の所定数のデータブロックを読み込む。ステップ（ 2 k ) で、無音開始フラグがォンしているか判定され、もしオフしているのならば（no) としてステップ（ 2 g ) へ進む。もし無音開始フラグがォンしていたならば、（yes)としてステップ

( 2 1 ) にて無音区間のバイト数が計算される。この時、仮の無音開始点と仮の無音終了点との間が所定時間以上ある場合、真の無音開始点と真の無音終了点が設定される。又、場合に応じて設定された無音声の持続時間が所定の時間より短い時これを無音区間と判断せず無効とする処理が施される。この処理は、朗読が連続してはいるが音と音との間が無音の状態であつて、無音削除の対象となつてしまい削除した結果として再生時違和感が発生するのを防ぐためのものとして適当である。ステップ（ 2 m) にて無音検出による制御コ一ドと無音区間を示すバイト数コ一ドが決定され、音声データの中に格納される。ステップ（ 2 n ) にて、無音開始フラグがオフし、一連の無音検出処理が終わり、ステップ（ 2 g ) へ移行し、次のデータプロックが読み出される。

次に本発明に係る音声記録再生装置の他の具体例を図 6〜図 8を参照しながら以下に説明する。処で本発明における無音声部とは、上述したように例えば音節間、文節間等々の音声的に無音乃至無音に近い部分を示すものである。又、無音声部の実質的な符号化とは、例えば図 3 ( A ) において 31 で示す無音声部の全部又は 1部を図 3 ( B ) において 32で示す様な状態、又は図 4 ( A ) において 41で示す無音声部を図 4 ( B ) で示す他の符号（42) に変換すること、あるいは、図 8 ( A ) で示す様に音声部（01， 02，〜0ιτ·· ) に対し無音声部（Μ1，Μ2，〜Μι！…）の全部又はその一部を図 8 ( Β ) の様に特定の領域に集めることも含むものである。

即ち図 6 は本発明に係る音声記録再生装置の他の具体例の構成を示すブロックダイアグラムであって、（11 ) は記憶媒体即ち記憶手段であり、 MD， MO等の光磁気、ディスク、 CD， MD等の光ディスク、磁気ディスク、 I C記憶媒体等であって、特に小型で高容量なものが好ましい。

(22) は駆動素子であって、記憶媒体 11を駆動させる為、及びピックアップを動かす為のスピンドルモータ、スレツドモータ等の電動機等である。又、記憶媒体の種類によって無い場合もある。

(23) は、 RF増幅器であって、例えば、読み取った信号を増幅、整形する為のものである。（24) は、調整手段であり、 DSP 等で構成され、誤り訂正処理、 PLL 等、更に汎用 CD再生装置を利用した場合は、 EFM 復調手段等を具備する。

( 25) は、駆動手段であって、駆動素子（22) の回転数、読み取り位置決め等の制御をする為の手段である。

( 26) は、無音声変換手段であり、マイコン、 AS I C等で構成され、符号化された無音声部をその符号並びに外部入力に応じて再生する為の手段である。（27) は、入力制御手段であり、マイコン等で構成され、更に外部入力（71 ) の入力信号並びに無音声変換手段（26 ) の出力信号に基づいた制御信号を調整手段（24) 並びに無音声変換手段（26) に出力する。

即ち、本具体例においては、 RF増幅器（23) 、調整手段（24) 及び無音声変換手段（26) とによって無音声部分表示変換手段 20が構成される。

尚（28) は、 D Z A変換手段であり、音声ディジタル信号をアナログ信号に変換し出力する。尚、 ADPCM, ATC等の圧縮処理がデータに施されている場合は、これに対応した復元処理を更に含むものとする。

(29) は、増幅手段であり、アナログ音声を増幅し出力する。

(30) は音声出力手段であり、スピーカ、イヤホーン等で構成される。

次に動作を説明する。

記憶媒体（11 ) 上から駆動素子（22) を介して得られたディジタル音声並びに符号化無音声データとの混在信号例えば図 3 ( B ) の信号（32) 、又は図 4 ( B ) における信号（34) は、 RF増幅手段

(23) で、増幅整形され、調整手段（24) に入力される。調整手段

(24) は、入力されたデータに対し、誤り訂正、 EFM 復調処理を施した出力を行い、更に駆動回路（25) に対し、例えば記憶媒体の回転速度の調整、ピックァップの移動の調整等々を行う為の信号を出力する。無音声変換手段（26) は、調整手段（24) からの出力に対し、符号化無音声 'データを検出し、無音声を示す音声データに変換し、出力する。無音声変換手段（26) は、入力制御手段（27) からの信号により、無音声の音声データ範囲を容易に変化させる。入力制御手段（27) は、入力（71 ) からのキー入力、ッマミ入力等によつてその入力に応じた信号を調整手段（24) に入力させ、例えば、キー入力がポーズ、頭だし、リピート等の操作に基づく信号を調整手段（24) に入力させて駆動回路（25) を調整させたりする。又、入力制御手段（27) は、無音声変換手段（26) に対し、発話速度を遅く又は速く調整するため無音声部の範囲を示す信号範囲を加算乃至削除する為の信号を出力する。無音声変換手段（26) が出力した音声データは、 D Z A変換手段（28) にてアナログ音声に変換された後、増幅回路（29) で増幅され、音声出力手段（30) で再生出力される。又、記憶媒体（1 1 ) の読み取りが、一般の CDプレーヤの様に 44. KKHZ ) 分解能 16ビット程度の仕様とした場合、これに対し無音声復元処理時、 D Z A変換等が例えば、 8 KH z 分解能 4 ビット、あるいは 12ビット程度と比較的処理スピードの遅く、しかも発話速度を遅く調整した場合、無音声変換手段（26) は読み取りを一時的にでも停止、遅延調整すべく、入力制御手段（27 ) へ制御信号を出力する場合もある。この時、入力制御手段（27) は、調整手段（24 ) へ、回転速度一定のまま読み取りの停止、回転速度の低下、停止等の動作を行わせるものとする。

次に無音声変換手段（26) のより具体的な動作例について図 7を参照して説明する。まずスタート後ステップ 21で調整手段（24 ) から、ディジタル音声データを所定量だけ取り込み、一時的にメモリに格納する。尚、このメモリは逐次無音声処理を行う場合等は不用となる。所定量だけ取り込んだ後、場合に応じて記憶媒体（1 1 ) からの読み取りを停止乃至抑制する信号を入力制御手段（27) に出力する。入力制御手段（27) は、この入力された信号を調整手段（24 ) へ出力し、駆動素子（22) 等々の駆動を制御する。

ステップ 21で所定量だけ音声データを取り込んだ後ステップ 2 a において入力制御手段 27からパラメータ入力を確認しステップ 2 a においてパラメ一夕入力が有つたかどうかが判断され YES の時はステツプ 2 bにおいて、その入力に応じたパラメータ数をセットする。 7 又ステップ 22に於いて無声出力中であるか確認する。ここでは、無音声出力中を示すフラグの状態を確認している。無声出力中のフラグが立っていれば（y e s )ステップ 26にすすみ無声出力処理が行われ、クリアされていれば、 NOであれば次のステップ 23に移行する。ステップ 23では、音声データを探し、途中制御コードが有ればパラメ一タをセッ卜する。次にステップ 24において音声データの処理が終了したかどうかという判定をし、終了した場合（y e s)、更にデータを読み込む為、等の動作へ移行して END となる。終了しない場合（n o ) の時は、ステップ 25に移行し、無音声制御コ一ドであるかないかを判定する。無音声制御コードでない場合は、該データが音声を示すものであるとしてステツプ 27へ移行し、無音声制御コードである場合は無声出力処理ステツプ 26へ移行する。ステップ 26における無声出力処理では、無声出力中フラグを立てると共に 0 レベルの音声を示すデータ（例えば 808 h ) を出力する。更に無音声区間を示すパラメータに対し、（ステップ 2 b ) のセッ卜されたパラメータを加算乃至減算し、この値を毎回一 1 (デクリメント）する。加算乃至減算されたパラメータが一 1 され、値が 0 になったとき、無音声出力中を示すフラグはクリアされ、無音声出力は終了する。尚上記両パラメ一夕の加算乃至減算後、ステップ 2 bでセットされた入力パラメータはクリアされる。無音声出力処理ステップ 26が終了した後、ステップ 32において時間待ちをして、次のデータの処理を行う。

尚、本実施例での時間待ちは、復号時のサンプル周波数を 8 (KH z ) と設定している為ステップ 32での時間待ちは、だいたい 1 25マイク口 s e c となる。

一方ステップ 25に於いて無音声制御コードでない（n o ) の場合、すなわち、音声データである場合、ステップ 27に於いてそのデータが偶数番目であるかを判定する。ここでデータが偶数番目であるとき（yes) 4 ビッ卜のビットシフトを行い、バイト単位のデータ処理が行える様奇数番目にシフ卜させる。次にステップ 29に於いて 4 ビッ卜の音声データを 12ビッ卜に伸張する。伸張アルゴリズムとしては、例えば次の通りとする。初回データ（Y ) は 0 レベル（808 h ) で計算し、 2回目以降は下記計算で得られたデータを前回データとして用いる、 4 ビット音声データ（X ) を基準値から引き、掛け率 ( m ) をかける 12ビット前回データ（Y ) を加算し 12ビット音声デ一タ ¾ "求る。

12ビット音声データ = ( ( X—基準値） * m ) + Y

ただし、無音声後は前回データを 0 レベルとする。

尚、 12ビッ卜に伸張している理由は、音声のデジタル化を 12ビッ卜で行った為であって、上述のアルゴリズムと共に特に限定するものではない。又掛け率（m ) は復元時に正確さを増す為に記録時にデータ上に付加したものであり、特に必要というものでもない。次にステツプ 30にて音声データが奇数番目の時を検出し、奇数番目の時だけ音声データが終了するかどうかチェックが行われる。これは例えば音声データ全体に対応するフラグを一 1 (デクリメント）していき、 0 になった時ステツプ 24で終了させる為の動作をさせるものである。尚、発話スピードを制御する為に設定されるパラメータ乃至パラメータに対する動作は、上述に限るものではなく、割り込み等その他の手法によって実施されるものである。更にパラメータの発生に於いても、予めその値を記憶設定しておき外部より入力があった時そのパラメータが読みだされ、そのパラメータに従って発話スピードが設定されるようにしたもの、或は、外部入力時に、その外部入力を読み取ってその入力に基づいて発話スピードを制御する様にしたもの等その構成、動作は適宜選択されるものである。又その処理様式は、ソフトウエアによるものに限らずハ一ドウエアによるものであっても良い。上述した実施例を使用して構成させる装置の大きさは、携帯型ができる程度が好ましく、学習書であれば、音声をリピート出力する機能や、しおり的な機能を付加する場合もある。又、装置の大きさは、記録媒体の大きさにも左右されることから、記録媒体は、小さくてしかも高容量であるもの、例えば CD— ROM 、ミニ光磁気ディスク、 3. 5インチフロッピィディスク、デジタルオーディオテープ等が適当であるが限定されるものでは無い。尚、ディジタル音声は、自然音声を A / D変換、圧縮処理した音声等、特に限定する必要はなく、その他既存の方式によって変換された音声を示すものである。

次に本発明における記録手段の他の具体例の構成を図 9を参照しながら説明する（91 ) は音声入力手段であり、アナログ音声電信号を生成するマイクロフォン、フィルタ回路、増幅回路等で構成され o

(92) は、 A Z D変換手段であって、サンプリング回路、 A Z D コンバータ回路等で構成され、更に ADPCM 等の各種 PCM， PWM, ATC 等の圧縮機能を含む回路を必要に応じて備えるものである。

(93) は、無音声検出手段であって、ディジタル音声データより予め設定した無音を示すコード、持続時間等を示すパラメ一タコード等とまぎらわしい値を示すデータを変更、削除、移動等して処理した後、無音声部を検出し、この部分を無音声を示すコード、時間幅等を示すパラメータコードに対応させ、音声データ中に割り込ませるように付加する。

(94) は、無音声削除手段であり、無音声制御コードに続く無音区間バイト数分の音声ディジタルデータ上から削除する為の手段である。

(95) は、成分制御コード変換手段であり、アナログ音声をデジタル音声に変換させる際、及び復元する際、 12ビッ卜の変換手段を使用し、記録媒体には、 4 ビットデータを記録する仕様を採っているので、該成分制御コ一ドは、 12ビットから 4 ビット又は、その逆の変換処理を行う際その変換パラメータとして使用するものであるまたディジタル音声信号の変化率の大きい部分や特徴となる部分を成分制御コードに変換する為の手段でもある。成分制御コード変換手段（95) は、音声信号の変化率の大きい部分や特徴となる部分は通常ディジタル情報を大きくしないと充分な復元ができないことから、この部分のデータを、量、数を示すデータ、つまり成分制御コ ― ドに置き換えることによってディジタル情報量を少なく抑えると共に、記録媒体に記録する音声データが 4 ビット程度と小さいビット数に抑える場合、再生時、現波形に近いアナログ音声信号を得るためのものである。

( 96) は、組み替え手段であり、所定区間で無音制御コード等の制御コードと音声データを混在化している場合、無音制御コ一ド部分を無音を示す音声データに置き換え、次の区間の先頭にその制御コードを格納するものである。所定区間での音声データと制御コードの混在の状態とは、例えば、 CPU 等の処理手段が 8 ビッ卜の処理能力があり、処理しやすいように音声データ列を 8 ビッ卜で区切る様な場合であって、この 8 ビット中に音声データと制御データが在る状態等である。

この様な状態に於いて、下位 4 ビッ卜のコードを次の所定区間の先頭に置き、代わりに無音声を示す音声データを代入する処理を施し、コードと音声データとを区別するものとする。更に組み替え手段では、ディジタル音声を 4 ビット符号化する手段も併せ有する。

( 97) は記録信号調整手段であって、記録媒体に書き込む為に必要な形態の信号を入力信号に対し変更処理させる為の手段である。この場合、 EFM 変調など、従来利用されている手段も含まれるものとする。

(97p ) は書き込み用ピックアップであり、記録媒体（98) の種類に応じて適宜選択される。無音声検出手段（93) へ記録信号調整手段（96) は、 1乃至複数の DSP 、マイコンによって構成されるがその選択は装置の大小、処理能力の大きさ等々によって適宜選択さ

¾しる c

次に図 9 における無音声削除手段（94) における操作手順を図 11 及び図 12に示すフローチヤ一トを参照しながら説明する即ち図 11において無音声検出手段（93) にて無音声符号等が音声データと一緒になった混成データ列は、無音声削除処理手段（94) に入力され、無音声を示す音声データが削除される。

ステップ（ 3 a ) に於いて無音声検出手段（93) から直接またはバッファ等を介して間接的に該混成データが読み込まれる。

ステップ（ 3 b ) にて、最初のデータが無音検出制御コードであるか判定される。無音検出制御コードであれば（yes)、次のステツプ（ 3 d ) へ進む。もしそうでなければ、（no) となり強制的に無音検出制御コードと無音区間バイト数 0をバッファメモリに格納し、ステップ（ 3 d ) へ進む。ステップ（ 3 d ) では、全データが処理を終了したかどうか判定し、しない場合（no) 、改めて混成デ一タ列を読み込む。

次にステップ（3 f ) にて、無音検出制御コードであるかないかを判定し、そうである（yes)時、ステップ（3 h) にて無音検出制御コードと無音区間を示すバイト数のみ格納し、そのままスキップする。更にステップ（ 3 i ) にて無音検出制御コードに対応した無音区間バイト数分のデータのポインタを進め、無音区間バイト数分データを削減する。ステップ（ 3 f ) にて、無音検出制御コードでない（no) 場合、読み込まれたデータがこの部分は音声データであると決定し、データをバッファに格納する。以上の繰り返しを行うことによって、全データを音声データと無音検出制御コ一ドと無音区間バイト数コードだけのデータ列に整理する。逐次乃至一定量削除処理を行った後、無音声削除手段（94) の出力は、成分制御コード変換手段（95) に入力される。

次に図 12においてステップ（ 4 a ) に於いて無音声削除手段（94) が出力したデータを読み込む。尚この実施例での説明では、読み込むデータの単位は 256個とし、 1個単位で処理されることとした。

ステップ（ 4 b ) に於いて、処理データが無音検出制御コ一ドであるか、ないかを判定し、制御コードであるとき（yes)、無音検出制御コードと無音区間バイト数のみをバッファに格納し、そのままデータをスキップさせステップ（ 4 d )' に移行する。無音検出制御コードでない場合ステップ（ 4 d ) に移行する。ステップ（ 4 d ) に於いて、前データと現データとの差を求めて、その差分データから同一モードでの差データの最大値を求める。ステップ（ 4 d ) に於て、モードの変更があるかどうか判定し、モード変更があった場合（yes)、ステップ（ 4 e ) へ移行する。同一モードの場合（no) は、ステップ（ 4 a ) へ移行し、次のデータの処理を行う。ステツプ（ 4 e ) に於て、モード変更が、プラス · マイナス成分モードへの変更であるか判定を行う。プラス · マイナス成分モードとは、図 13 ( A) 〜（ C) で示される様に、データの変化が少なく、プラスとマイナス成分が有り、隣在ったデータの差が規定値以下のデータである。

ステップ（ 4 e ) でプラス ' マイナス成分モードに該当する時は (yes)方向へ行き、該当しない場合は（no) へ行く。（yes)の場合は、プラス · マイナス成分モードに対応するプラス · マイナス制御コード並びに掛け率コードを音声符号データ上に格納する。掛け率コ一ドとは、音声データの変化量に於けるビット表現では不充分な部分を補うものであり、掛け率によって音声データ変化量を表現するものである。掛け率コードの基準は、任意であって音声データのディジタルビット表現、サンプル周波数によって適宜選択される。尚、サンプル周波数 8 KHz 、記録媒体に記録される音声並びに制御コ一ドディジタルデータが 4 ビッ卜の場合の掛け率は例えば、次の様に設定される。プラス ' マイナスの方向性は、 7 を基準値とし 0〜 6 までがマイナス成分、 8〜14(Eh)までがブラス成分を現す。この時の最大変化量は 7である。最大差（B) (図 13 (A))最大変化量で 1変化の掛け率を求める。

ステップ（ 4 e ) で（no) の時、ステップ（ 4 g) へ移行し、プラス成分モード上での差分データの一致、不一致を判定し、一致する際、プラス成分モードと対応するプラス制御コード並びに掛け率を音声データ上に格納する。この時の掛け率は例えば次の様に設定される。 0を基準値とし 1 〜14(Eh)で現されることから最大変化量は 14に設定される。

次に掛け率（最大差最大変化量）の演算を行い 1 変化あたりの掛け率を求める。ステップ（ 4 h) にて、音声データに於いて、プラス成分モードで検知された部分にプラス制御コードと掛け率を格納する。

ステップ（ 4 g) にて、（no) の場合、ステップ（ 4 i ) でマイナス制御コード、掛け率を音声データ上の該当する個所へ格納する _c マイナス成分の掛け率は、方向性を示すデータは必要とせず、 14を基準値としてり〜 13(Dh)で表す。最大変化量は 14で（最大差最大変化量）で 1変化あたりの掛け率を求める。

以上の様に音声データと成分掛け率制御コ一ド無音声制御が混在化したデータは、組み替え手段（96) に入力される。組み替え手段 (96) は、この混在化データに対し、音声データを 12ビットを 4 ビッ卜へ符号化、並びに音声データと制御コードの組み替えを行う。又、第 9図における組み替え手段（96) の操作手段についてフロ一チャート（図 14) を参照しながら説明する。

ステップ（ 6 a ) に於いて、データを読み込み、そのデータの所定数ずつ区切って処理する。ステップ（ 6 b ) に於いて、制御コードであるかないかを判断し、制御コードでない（no) の時、音つまり音声データである時、 4 ビッ卜の符号化をステップ（ 6 c ) にて行う。この時、成分と掛け率情報をもとに 4 ビットの符号化を行う場合もある。 12ビットカ、ら 4 ビッ卜への 1変換方法例について説明 "5 る。

初回（n — ： I ) では、 0 レベル（808h ) で計算をし、 2回目以降は、下記計算で得られたデータを前回データとして用いる。

データの差を掛け率（m) で割り、この差に必要な変化値を得る _c 方向付けを行う為成分別の基準値を加算し 4 ビッ卜の音声データを得る。

4 ビット音声データ = (((n ) 一 ( n - 1 ))/m) +基準値成分と掛け率は、前段で示した制御コード変換手段（95) で決定されたものであって、成分制御コード、掛け率は書き換えが発生する迄、書き換え前の符号が有効とされる。

ステップ（ 6 c ) で 4 ビット化された音声データが偶数番目か奇数番目かを判定し、偶数番目の場合（yes：)、上位 4 ビッ卜レジスタに符号化データを退避させる。奇数番目の場合（no) 、下記 4 ビットレジスタに符号化データを退避させる。上位と下位それぞれが収まつた所でステップ（ 6 g ) で上位 4 ビット、下位 4 ビット合計 1 バイトの符号化データをバッファメモリに格納する。ステップ ( 6 b ) でデータが制御コードである時、この時点でステップ ( 6 h ) にて音声データが奇数データ終了かどうか判定する。奇数データ終了の時（yes：)、制御コード部に無音声を示す音声を格納し、あわせて次の上位 4 ビッ卜に制御コードを格納する。ステップ ( 6 j ) にて制御コ一ド（Fh) に付随する成分制御コード（種類、掛け率等）を追加格納する。ステップ（ 6 h ) にて音声データが偶数で終了する場合は（no) 、上述したステップ（ 6 j ) の処理を行うものである。以上の様に音声データと制御コードが整理されたデ —タは、記録信号調整手段（97) 、書き込み用ピックアップ（97 P ) を介して仮のあるいは主体となる記録媒体（18) に書き込まれる。以上詳述の如く本発明は、一般に提供されている記録媒体であつても書籍の朗読音声を充分な時間再生でき、しかも再生時、発話速度を可変自在とし、且つ通常の朗読と変わらない音声を出力させることができる等の効果を有する。

つまり本発明は、鋭意研究の結果、実質的に無音声部を符号化した様式でディジタル音声データを記憶媒体に記憶させ、再生時、この無音声時間を付加することにより、記憶媒体には、充分な音声デ

—夕が格納でき、しかも再生時この符号には、元の無音声部分の情報が含まれていることから自然の朗読に近い状態の音声出力が長時間得られ、しかも所望時間幅を有する無音声データを任意に付加できることから、学習書、解説書等のようにゆっくり聞きたい時や、早く聞きたい時等、朗読スピードが可変可能な音声再生装置を実現した。

Claims

請求の範囲

1 . 音声信号に含まれる無音声部分を所定の無音声部分表示デー夕信号に変換して記憶した音声信号記憶手段、記憶された音声信号を所望の発話速度で再生する音声再生手段とから構成されている事を特徴とする音声再生装置。

2 . 入力される音声信号に含まれる無音声部分を所定の無音声部分表示データ信号に変換する無音声部分表示変換手段、当該無音声部分表示変換手段により変換された該無音声部分表示データ信号を含む入力音声信号を記憶する記憶手段とから構成されている事を特徴とする音声記録再生装置。

3 . 入力される音声信号に含まれる無音声部分を所定の無音声部分表示データ信号に変換する無音声部分表示変換手段、当該無音声部分表示変換手段により変換された該無音声部分表示データ信号を含む入力音声信号を記憶する記憶手段、及び当該記憶手段に記憶された入力音声信号を所望の発話速度で再生する音声再生手段とから構成されている事を特徵とする音声記録再生装置。

4 . 該音声再生手段による音声再生に際して、当該発話速度を調整する為の調整手段が更に設けられている事を特徵とする請求の範囲第 1項乃至第 3項の何れかに記載の音声記録再生装置。

5 . 当該無音声部分表示変換手段に於ける該無音声部分表示デ— タ信号は、当該無音声部分を削除する信号である事を特徴とする請求の範囲第 1項乃至 4項のいずれかに記載の音声記録再生装置。

6 . 当該無音声部分表示変換手段に於ける該無音声部分表示デ— タ信号は、当該無音声部分の時間に関する情報を示す信号である事を特徴とする請求の範囲第 1項乃至 4項のいずれかに記載の音声記録再生装置。

7 . 当該無音声部分表示変換手段に於ける該無音声部分表示データ信号は、当該無音声部分が配置されている当該入力音声信号内の位置を表す情報を示す信号である事を特徴とする請求の範囲第 1 項乃至 4項のいずれかに記載の音声記録再生装置。

8 . 当該無音声部分表示変換手段により出力された、複数の該無音声部分表示データ信号は、該記憶手段に於ける所定の位置に集中して記憶させるものである事を特徴とする請求の範囲第 1 項乃至 7 項のいずれかに記載の音声記録再生装置。

9 . 当該音声再生手段は、該入力音声信号を再生するに際し、当該記憶手段に記憶された当該無音声部分表示データ信号を、当該無音声部分表示データ信号に付与されている所定の情報に従って、当該入力音声信号群列の所定の位置に挿入しながら再生する事を特徴とする請求の範囲第 1 項乃至 8項のいずれかに記載の音声記録再生装置。