JPS62113264A

JPS62113264A - 音声文書作成装置

Info

Publication number: JPS62113264A
Application number: JP60253206A
Authority: JP
Inventors: Yoichi Takebayashi; 洋一竹林; Hiroyuki Tsuboi; 宏之坪井; Hiroshi Kanazawa; 金沢　博史
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1985-11-12
Filing date: 1985-11-12
Publication date: 1987-05-25
Anticipated expiration: 2013-03-09
Also published as: JP2723214B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は音声入力による文書作成を効率良く行うことの
できる音声文書作成装置に関する。

（発明の技術的背鯛とその問題点）筆記することにより行われる。

一方、多忙な文書作成者にあっては、速記者を利用して
口述筆記によって文書作成したり、作成文１情報をテー
プレコーダ等に音声入力し、これを秘書により画面化さ
せる等して文書作成が行われる。

これに対して最近では、日本語ワードプロセッサの普及
に伴い、例えばキーボード操作による文書情報の一括入
力方式で、簡易に文書作成が行われるようになってきて
いる。

ところが文書情゛報の最も自然な入力手段は音声入力で
あり、キーボード等の煩わしい操作が全く不要である。

そこで、音声入力による文書作成装置、つまり音声ワー
ドプロセッサの開発が種々試みられている。

さて、この種の音声ワードプロセッサは、情報処理技術
および半導体製造技術の発展を背景として、その実用化
の研究が進められているものである。

ところが音声認識技術は、例えば工場の製品管理工程で
特定話者認識技術として、また電話サービス等における
限られた認識対象に対する不特定話者認識技術として実
用化されているに過ぎない。

つまり音声認識は、入力音声の種々の変動要因を考慮し
て認識処理する必要がある。この為、その認識性能の向
上を図るべく、認識処理方式に対する種々の工夫が試み
られ、その認識性能が徐々に高められつつある。

しかし人間にとっても会話において誤認識が生じるよう
に、音声認識装置において１００％完全な認識率を達成
することは到底困難である。これ故、音声入力によって
文書作成した場合、筆記による文書作成時にも増して、
作成文書情報の厳密なチェックが必要となる。

〔発明の目的〕

本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、音声入力により効果的に文書作
成し、且つその作成文書の編集チェックを簡易に、且つ
効率良く行うことのできる音声文書作成装置を提供する
ことにある。

〔発明の概要〕

本発明は、単語、分節、旬または文等からなる所定の古
語単位で発声入力された音声を分析し、その分析結果を
音声辞書と照合して、音禁または音素等からなる所定の
音声処理単位に対する認識候補を求め、この認識候補の
系列を言語辞書と照合して前記所定の言語単位の入力音
声に対する認識結果を求め、この認識結果を文書ファイ
ルに記憶して文書を作成する音声文書作成装置において
、上記認識結果を得た前記所定の言語単位の入力音声デ
ータを該認識結果に対応して音声ファイルに記憶し、こ
の音声ファイルに記憶された入力音声データを、例えば
前記言語単位で選択的に再生して作成文書情報のチェッ
ク処理に利用するようにしたものである。

また前記文書ファイルに記憶された認識結果を規則合成
処理して音声出力するようにし、この認識結果の規則合
成による再生出力と前記入力音声データの再生出力との
対比によって上記チェック処理の容易化を図るようにし
たものである。

〔発明の効果〕

かくして本発明によれば、認識結果に応じて、その認識
結果を得た入力音声を再生し、これを七二りして上記認
識結果をチェックすることができるので、音声入力によ
り作成された文書情報のチェック処理、およびその修正
処理等を簡易に、且つ効率良く行うことが可能となる。

しかも入力音声が、その認識結果に対応して記憶され、
適宜これを再生することができるので、音声入力による
文書作成を一括して行うことができ、その文書作成効率
の向上を図ることが可能となる等の実用上多大なる効果
が奏せられる。

〔発明の実施例〕

以下、図面を参照して発明の一実施例装置につき説明す
る。

図は実施例装置の概略構成図であり、１はマイクロフォ
ンや増幅器等からなる音声入力部である。

この音声入力部１から入力される音声情報は、音声検出
部２にて音声区間検出される。制皿部３はこの音声区間
検出情報に従って以下に説明する音声認識処理の実行等
を制御する。

音声入力ａｉｌｉから認識対象とする音声が入力される
と、例えば複数チャンネルのバンドパスフィルタ群から
なる音声分析部４は、その入力音声のスペクトル成分を
検出する等して該入力音声の特徴パラメータを求めてい
る。音声認識部５は、上記特徴パラメータの時系列から
その特徴ベクトルを検出し、その特徴ベクトルと音声辞
書６とを照合して各１Ｍ３１対像カテゴリに対する類似
度を計算する等して、該入力音声を認識処理している。

言語処理部８は、このようにして求められる入力音声の
認識結果の系列を、言語辞Ｉ８を参照して言ｔＢ的に検
定し、例えば複数の認識候補の組合せから言語的に成立
する認識結果系列を、前記入力音声によって示される作
成文書情報として得ている。

このようにしてａＳＳ理された１ｍ結果が、ファイル管
理部９の管理の下で文１７Ｆイル１０に順に格納される
。

一方、入力音声に対する認識結果が文書ファイル１０に
格納されるとき、その認識結果を得た前記入力音声、或
いはこの入力音声を分析処理してなる音声データが上記
ａ識結果に対応して音声ファイル１１に格納される。こ
の音声ファイル１１は、例えば入力音声データをディジ
タル化して記憶し、その記憶音声データを選択的に読出
して再生出力するものである。

しかして、文書作成に供する音声を一括入力し、その入
力音声に対する認識処理が終了すると、オペレータとの
対話形インターフェース部を形成する表示部１２にて前
記文書ファイル１０に格納された認識結果（作成された
文書情報）を表示し、そのチェックが行われる。

ここで、その表示された認識結果に対して、その認識結
果を得た入力音声を参照したい場合には、音声出力指示
部１３から入力音声の参照を行うべき認識結果の特定と
、その入力音声の参照指示が与えられる。この指示情報
は、前記制御部３に与えられると共に、前記音声ファイ
ル１１に与えられる。

この結果、前記ファイル管理部９のυ１１ＩＮの下で、
前記音声ファイル１１から上記指定された認識結果に対
応する入力音声データが音声出力部１４に読出され、該
入力音声が再生出力される。この再生出力された音声に
よって、オペレータは認識結果の合否を判定して適宜そ
の修正を行うことになる。

この認識結果の修正は、例えば正しい認識カテゴリをキ
ーボード入力する等して行われ、この人力データによっ
て前記文書ファイル１１に格納された該当認識結果が修
正されることになる。

尚、音声出力部１４から出力された音声に従って、前記
文書ファイル１０に格納された文１情報（認識結果）編
集処理が必要な場合には、その編集情報が編集情報入力
部１５から入力される。この入力された編集情報に従っ
て前記ファイル管理部９の制御の下で、前記文書ファイ
ル１０に格納された文書情報のＩａ集が行われる。この
場合、文書ファイル１０に格納された認識結果の編集作
業に伴って、音声ファイル１１に格納された音声データ
も、その認識結果に対応して編集処理される。

ところで本装置にあっては、必要に応じて前記文書ファ
イル１０に格納された認識結果を規則合成部１６に読出
し、該認識結果を規則合成処理してその音声データが求
められるようになっている。そしてその規則合成された
音声データを音声出力部１７を介して音声出力し得るも
のとなっている。

この機能は、認識処理した結果を音声によってチェック
する場合に用いられるもので、例えば文書ファイル１０
に格納された認識結果の系列が言語処理単位で順に規則
合成されて出力されるようになっている。この場合、制
御部３は、規則合成して音声出力した認識結果に対して
その認識結果を得た入力音声の参照が指示されると、上
記認識結果の規則合成による音声出力を打切る。そして
その打切られた音声の言より処理単位の数中位前の入力
音声データからの再生を開始する。

つまり、ファイル管理部９の制御の下で文書ファイル１
０からの認識結果を所定の言語単位毎に読出し、これを
規則合成して音声出力している時点で入力音声の参照が
指示されると、上記文古ファイル１０からの認識結果の
読出しに代えて、前記音声ファイル１１からの入力音声
データの読出しを開始する。この音声ファイル１１から
の音声データの読出しは、上記認識結果の読出しの中止
が指示された言語処理単位の数単位前の言語処理単位か
ら行われる。

この結果、オペレータは、認識結果の音声出力を得た後
、その認識結果を得た入力音声を繰返し得ることが可能
となり、これによってその照合が行われる。

このように本装画によれば、入力音声を１！！識処理し
、その認識結果を順次文書ファイル１０に格納する際に
、同時にその認識結果を得た入力音声データをｇ声ファ
イル１１に格納し、これらを所定の言語処理単位で相互
に対応させて管理しているので、認識結果をチェック時
に、その認識結果を得た入力音声を容易に参照すること
が可能となる。

しかも所定の言語処理単位で、任意に入力音声を参照す
ることが可能となる。

故に、文書作成に供する音声データを一括入力し、その
認識処理を行わせた後、入力音声を適宜参照して認識結
果のチェックを簡易に、且つ効果的に行うこが可能とな
る。従って、音声の発声入力者が自ら認りＩ結果のチェ
ックを行うことが可能なことはもとより、秘１等の第３
者によって作成文書のチェックを行うことが可能となる
等、実用上多大なる効果が奏せられる。

尚、前記音声ファイル１１に分析処理された入力音声デ
ータを格納する場合には、その分析音声データに従って
入力音声を再合成する処理が必要となることは云うまで
もない。また入力音声の認識処理方式や、入力音声デー
タの記憶形態等は、装置の仕様に応じて定めれば良いも
のである。要するに本発明は、その要旨を逸脱しない範
囲で種々変形して実施することができる。

【図面の簡単な説明】

図は本発明の一実施例装置の概略構成図である。１・・・音声入力部、２・・・音声検出部、３・・・制
御部、４・・・音声分析部、５・・・音声１１部、６・
・・音声辞書、７・・・言語処理部、８・・・言語辞１
．９・・・ファイル管理部、１０・・・文書ファイル、
１１・・・音声ファイル、１２・・・表示部、１３・・
・音声出力指示部、１４・・・音声出力部、１５・・・
編集情報入力部、１Ｇ・・・規則合成部、１１・・・音
声出力部。

Claims

【特許請求の範囲】

（１）所定の言語単位で発声入力された音声を分析する
手段と、この音声の分析結果を音声辞書と照合して所定
の音声処理単位に対する認識候補を求める手段と、この
認識候補の系列を言語辞書と照合して前記所定の言語単
位の入力音声に対する認識結果を求める手段と、この認
識結果を記憶する文書ファイルと、上記認識結果を得た
前記所定の言語単位の入力音声データを該認識結果に対
応して記憶する音声ファイルと、この音声ファイルに記
憶された入力音声データを再生して文書作成処理に利用
する手段とを具備したことを特徴とする音声文書作成装
置。
（２）音声入力される所定の言語単位は、単語、分節、
句または文等からなるものであり、音声辞書との照合に
供される音声処理単位は、音声または音素等からなるも
のである特許請求の範囲第１項記載の音声文書作成装置
。
（３）音声ファイルに記憶された入力音声データは、選
択的に再生されるものである特許請求の範囲第１項記載
の音声文書作成装置。
（４）文書ファイルに記憶された認識結果は、規則合成
処理が施されて音声出力されるものである特許請求の範
囲第１項記載の音声文書作成装置。
（５）認識結果の規則合成による音声出力は、音声ファ
イルからの入力音声データの再生と選択的に行われるも
のである特許請求の範囲第４項記載の音声文書作成装置
。
（６）入力音声データの再生、および認識結果の規則合
成による再生は、入力された音声の所定の言語単位で行
われるものである特許請求の範囲第１項または第４項記
載の音声文書作成装置。