WO2006126649A1

WO2006126649A1 - 音声編集装置、音声編集方法、および、音声編集プログラム

Info

Publication number: WO2006126649A1
Application number: PCT/JP2006/310490
Authority: WO
Inventors: Toshiyuki Teranishi; Kouji Hatano
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2005-05-27
Filing date: 2006-05-25
Publication date: 2006-11-30
Also published as: JPWO2006126649A1; EP1884923A1; CN101185115A; US20090106027A1; EP1884923A4; CN101185115B; US8438027B2; JP5094120B2

Abstract

本発明の目的の一つは、音声認識装置に登録される標準パターンを容易に豊富化し、これによって、音声認識可能な語彙を効率的に拡張できるようにすることである。新規の標準パターンをゼロからつくるのではなく、既存の標準パターンの一部を改変して、効率的に新規の標準パターンを作成する。流用元の既存の標準パターンのどの部分を変更するかを、変更箇所特定部１４内のパターンマッチング部１６によるマッチング処理により特定する。そして、標準パターン作成部１８にて、流用元標準パターンの変更箇所の音声データを、切り取り、削除し、他の音声データに置換し、あるいは他の音声データと結合させて、新しい標準パターンを作成し、標準パターンデータベース更新部２０が、新しい標準パターンを標準パターンデータベース２４に追加する。

Description

明細書

音声編集装置、音声編集方法、および、音声編集プログラム

技術分野

[0001] 本発明は、音声編集装置、音声編集方法、および、音声編集プログラムに関する。

背景技術

[0002] 記録した音声の音声データを編集する場合、従来は、編集者が再生された音声を聞きながら編集点を特定し、切り出しを行って、る。

[0003] また、特許文献 5に開示される従来技術では、音声カード (音声をカードに記録し、そのカードの表面に写真等を貼付したもの）を作成する際に、高度な音声編集プログラムを利用してコンピュータの画面上の編集用ウィンドウに、記録した音声を表示し、編集者が、マウス等のツールを用いて音声の部分的な削除、切り出し、結合等を行つている。

[0004] また、音声認識装置では、音声認識辞書としての音声標準パターン (以下、単に標準パターンという）を用いて音声認識を行うが、音声認識可能な語彙を増やすためには、標準パターンを増やす必要がある。この際、既存の標準パターンの一部を削除したり、切り出したりすることによって標準パターンを作成することがあり、これも、音声データの編集の一形態である。

[0005] 以下、音声データの編集について、音声認識装置における音声認識辞書としての標準パターンの編集を例にとって説明する。

[0006] 音声認識装置は、認識対象の音声を所定の時間間隔 (フレーム)で区切り、各フレームの音声波形の特徴を表す多次元の特徴パラメータ (ケプストラム）を抽出し、この特徴パラメータの時系列パターンを、音声認識装置に蓄積されている標準パターン（音声認識の基本単位となる語彙の特徴パラメータの時系列パターン)と比較し、両者の類似度を判定し、最も類似度の高ヽ語彙を認識結果として出力する。

[0007] ケプストラム（cepstrum：特徴パラメータ）は、音声信号を 20msec〜40msec程度の時間窓で区切り、その時間窓に対応する音声信号に対して、フーリエ変換 (FFT) による音響分析を行い、その絶対値 (振幅スペクトル)の対数を求め、その対数の周波数スペクトルに対して、逆フーリエ変換 (IDFT)を行うこと〖こよって得られる。

[0008] すなわち、 FFTによって得られる音声の周波数スペクトルは、その音声の大まかな形状の情報 (音韻性を示す包絡情報)と、細か!、振動成分の情報 (声の高さを示す微細構造情報)を含んでいるが、音声認識では、音声の音韻性を抽出すること (つまり、その声が何という音であるかを推定すること）が重要であり、後者の微細構造情報は、あまり役立たない。そこで、対数処理後の周波数スペクトルについて、再度フーリェ変換処理 (IDFT)を行、、包絡情報と微細構造情報とを分離する。

[0009] すなわち、 IDFTによって、ケフレンシ一軸 (横軸）の左側に包絡情報が集中し、一方、ケフレンシ一軸の右側に微細構造情報が集中し、これにより、包絡情報と微細構造情報を効率的に分離することができる。これがケプストラムである。なお、音響分析として、 FFTの他に、 LPC (線形予測符号化）が用いられることがある。

[0010] また、人間の聴覚特性に合わせてケフレンシ一軸を対数的に変換することをメルイ匕と呼び、メル化されたケプストラムは、メルケプストラムと呼ばれる。

[0011] 本明細書では、「ケプストラム」は、「メルケプストラム」を含む広い概念の用語として使用する。また、本明細書では、「ケプストラム」を、主として「特徴パラメータ」と表示する。また、「ケプストラム」や「特徴パラメータ」を、「音声データ (上位概念の用語)」と記載する場合もある。なお、上位概念の用語としての「音声データ」には、上記の音声の特徴パラメータ (ケプストラム）の他、「音声をテキストイ匕したもの」、「音声データ（波形データそのもの）が含まれるものとする。

[0012] 音声認識装置には、認識辞書としての多数の標準パターン (すなわち、認識単位となる語彙の一つ一つにつ、てのケプストラム：その語彙の音声の特徴を示す特徴パラメータ)が用意されている。認識可能な語彙を増やすためには、標準パターンを豊富ィ匕しなければならない。

[0013] 従来、音声認識に用いられる標準パターンを新規に作成する方法としては、単語のテキストを入力することによって、その単語の標準パターンを自動的に作成する方法 (特許文献 1)が提案されてヽる。

[0014] また、標準パターンの代わりに音素片辞書を使用する提案もなされている (特許文献 2)。この特許文献 2には、不特定話者用の認識単語辞書を作成するために、少数の話者が発音した単語の特徴パラメータを、多数の話者の音声に基づいて作成された汎用性のある標準パターンと比較して類似度を求めて音素片辞書を作成し、この音素片辞書を用いて音声認識を行う技術が開示されている。

[0015] また、近年、音声認識装置を携帯端末 (携帯電話端末等）に搭載し、音声認識を利用して携帯端末の動作を制御できるようにする技術が提案されている（例えば、特許文献 3参照)。

[0016] また、音声認識装置とテキスト変換装置を携帯端末 (携帯電話端末、 PDA等）に搭載し、入力音声をテキストデータに自動変換できるようにする技術も提案されている（特許文献 4)。

[0017] 省スペースや低コストが厳しく求められる携帯端末には、簡単な認識辞書 (標準パターン)を備えた比較的安価な音声認識装置を搭載するのが現実的である。この場合、携帯端末のユーザが、自己の現実の利用状況に合わせて、適応的に認識辞書（標準パターン)を更新する（すなわち、認識辞書のカスタマイズを行う）こと〖こなる。

[0018] 携帯端末に搭載される認識辞書 (標準パターン)のカスタマイズに際し、その手続や機器操作が面倒であると、携帯端末のユーザの利便性が損なわれることになる。したがって、携帯端末のユーザに過度の負担を力 4ナることなぐ快適に認識辞書 (標準ノターン)を拡張していくことを可能とする技術が求められる。また、例えば、携帯端末上で、長い音声データの一部を編集する必要性が生じた場合等には、長い音声を最初力も入力するのはきわめて効率が悪いため、このような場合に、音声データを簡単に編集する技術が求められる。

特許文献 1：特開平 11— 190997号公報

特許文献 2 :特開平 5— 188988号公報

特許文献 3 :特開 2004— 153306号公報

特許文献 4:特開 2003— 188948号公報

特許文献 5 :特開 2000— 276184号公報

発明の開示

発明が解決しょうとする課題

[0019] 特許文献 1に記載される標準パターン (音声データ)作成方法では、標準パターンとして登録される全ての語彙を、テキスト入力（文字入力）する必要がある。一般に、テキスト入力は面倒である。特に、携帯端末の入力キーは小さぐテキスト入力には不向きである。

[0020] また、特許文献 2に記載される標準パターン (音声データ)作成方法は、追加した、認識語句を正確に全て発声する必要があるため、特に長い語句を追加する場合に、手間がかかり、間違えてしまう可能性がある。

[0021] また、特許文献 5に記載される音声編集方法では、音声データの編集の際に、高度な専用の音声編集プログラムを使用するが、このような高度かつ専用の音声編集プログラムを携帯端末に搭載するのはコスト面からみても困難である。また、専用の音声編集プログラムによる音声データの編集には、マウス等を用いた複雑な機器操作が必要であり、この点でも携帯端末への適用が困難である。また、専用の音声編集プログラムによって音声データを編集すると、編集時間が長くなりがちである。

[0022] 本発明は、このような考察に基づいてなされたものであり、音声データの編集を簡易かつ安価に行えるようにし、例えば、携帯端末上でも音声データの編集を手軽に行えるようにすることを目的とする。そして、本発明の具体的な目的の一つは、音声認識装置に登録される標準パターンを容易に豊富化し、これによつて、音声認識可能な語彙を効率的に拡張できる音声認識装置、標準パターン作成方法、および、標準パターン作成プログラムを提供することである。

課題を解決するための手段

[0023] 本発明の音声編集装置は、既存の音声データを流用して、別の音声データを作成する機能をもつ音声編集装置であって、前記既存の音声データのうちの流用元の音声データと、前記流用元の音声データにおける変更箇所を特定するための変更箇所特定用音声データと、のマッチング処理を実施し、前記流用元の音声データの少なくとも一部を変更箇所として特定する変更箇所特定部と、前記変更箇所特定部によって特定された前記変更箇所の音声データを利用して、別の音声データを作成する音声データ作成部と、を有する。

[0024] また、本発明の音声編集装置では、前記音声データ作成部は、前記変更箇所特定部によって特定された、前記流用元の音声データのうちの前記変更箇所の音声データを他の音声データに置き換えた音声データを、前記別の音声データとして作成する。

[0025] また、本発明の音声編集装置では、前記音声データ作成部は、前記変更箇所特定部によって特定された、前記変更箇所の音声データに他の音声データを結合した音声データを、前記別の音声データとして作成する。

[0026] 新規の音声データをゼロ力つくるのではなぐ既存の音声データを編集して作るようにし、その音声データの編集の際に、パターンマッチング処理を用いて変更箇所を自動的に特定すること (すなわち、音声認識装置がもつ音声認識機能を、音声データの編集にも活用すること）によって、音声データの編集作業が簡単化される。すなわち、既存の音声に対して部分音声を入力することによって、容易に音声の切り出しゃ結合等が可能となる。例えば、「私は、 2005年 4月 1日に A社に入社しました」と V、う既存の音声データが携帯端末内に保存されて!、るとする。この既存の音声データを編集する際に、携帯端末の表示部に「切り出す箇所を発音して下さい」という表示をなし、これに応答して、ユーザが「2005年 4月 1日に」と発声し、その音声が、携帯端末に入力される。すると、既存の音声データと新たに入力された音声とのパターンマッチングが行われて、一致する箇所が切り取られる。その結果として、「私は、 A 社に入社しました」と言う音声を取得することができる。また、本発明は、既存の音声データを複数の文章に分割するために使用することもできる。例えば「10時力会議です。場所は第一会議室です」と言う既存の音声データが携帯端末に保存されており、携帯端末の表示部上に「分割したい音声箇所を発音してください」と表示し、ユーザが、「場所は」と音声し、この音声は、新規の音声入力として携帯端末に取り込まれ、既存の音声データとパターンマッチングによる比較がなされる。この結果、既存の音声データの「場所は」の前で文章が分割され、その結果として、「10時力も会議です。場所は第一会議室です」という音声データは、「10時力も会議です」と「場所は第一会議室です」という 2つの音声データに分割される。このように、本発明によれば、携帯端末などを利用して、音声データを簡単に編集することが可能となる。この結果、多様な音声データを容易に、効率的に、かつ安価に作成することが可能となる。

[0027] また、本発明の音声編集装置では、前記別の音声データを作成する際に使用される前記他の音声データは、少なくとも、前記音声編集装置に外部から入力される音声についての音声データ、既存の音声データ力切り取った音声データ、または、既存の音声データ自体の音声データ、を含む。

[0028] これにより、音声データの編集のために多様な音声データを利用できるため、新し V、音声データの作成が効率ィ匕される。

[0029] また、本発明の音声認識装置は、本発明の音声編集装置を利用した、既存の標準ノターンを流用して別の標準パターンを作成する機能をもつ音声認識装置であって、前記既存の標準パターンのうちの流用元の標準パターンと、前記流用元の標準パターンにおける変更箇所を特定するための変更箇所特定用音声データと、のマッチング処理を実施し、前記流用元の標準パターンの少なくとも一部を変更箇所として特定する変更箇所特定部と、前記変更箇所特定部によって特定された前記変更箇所の音声データを利用して、別の標準パターンを作成する音声データ作成部と、を有する。

[0030] 新規の標準パターンをゼロ力つくるのではなぐ既存の標準パターンを活用して作るようにし、また、パターンマッチング処理を用いて変更箇所を自動特定すること（音声認識装置がもつ音声認識機能を、標準パターンの作成にも活用すること）によつて、現実の生活に役立つ有用な標準パターンを、非常に効率的に作成することができる。ここで、携帯端末に音声認識装置を搭載し、音声認識による携帯端末の動作の制御を実施する場合を想定すると、定型的な音声パターンをもつ語彙群が必要となる可能性が高い。例えば、公共の場所において流れる音声アナウンスを音声認識して、携帯電話の電源を自動的にオフさせる場合を考える。公共の場所としては、「映画館内」、「病院内」、「駅構内」、「建物内」等があるから、まず、「館内では携帯の電源をオフにして下さ、」 t 、う映画館の館内アナウンスを音声認識できるようにし（つまり「館内では携帯の電源をオフにして下さ!/、」 t 、う語彙にっ、ての標準パターンを携帯端末の音声認識辞書に登録しておく）、次に、その標準パターンを流用して、「館内では」という箇所を、「病院内では」、「駅構内では」、「建物内では」という音声データに置換すれば、電源の自動オフ制御に用いる標準パターンを、効率的に豊富化することができる。また、流用元の標準パターンの、「館内では」という箇所を変更する場合、音声認識用のマッチング処理を用いれば、変更箇所は、簡単な手続で自動的に指定することができる。例えば、携帯端末のユーザがマイクから「館内では」という音声を入力し、流用元の標準パターン（「館内では携帯の電源をオフにして下さ

V、」 t 、う語彙の標準パターン）とのマッチングを行、、例えば、マッチした部分（つまり、「館内では」という部分)を変更箇所とすることにより、流用元の標準パターンのどこを変更するのかを容易に指定することができる。そして、更新用の音声データ（「病院内では」、「駅構内では」、「建物内では」）を、更新用音声データ（「館内では」）と置換する処理を行うことで、電源の自動オフ制御に用いる、多数の新たな標準パターンを効率的に作成することができる。

[0031] また、本発明の音声認識装置は、前記音声データ作成部により作成した別の標準ノターンを、前記流用元の標準パターンと置き換える、または、前記流用元の標準パターンとは異なる標準パターンとして追加する、ことによって、標準パターンデータべースを更新する標準パターンデータベース更新部を、有する。

[0032] 新規に作成された標準パターンは、流用元の標準パターンと置換されるか (この場合、流用元の標準パターンは消滅）、あるいは、流用元の標準パターンとは別の標準ノターンとして音声認識辞書 (標準パターンデータベース）に追加される (この場合、流用元の標準パターンと新規の標準パターンは併存する)。これによつて、標準バターンデータベースが更新される。

[0033] また、本発明の音声認識装置は、前記変更箇所特定部は、前記流用元の標準パターンを抽出するための音声データと、複数の既存の標準パターンの音声データと、のマッチング処理を実施し、マッチする部分を含む既存の標準パターンを、前記流用元の標準パターンとして抽出する。

[0034] すなわち、流用元の標準パターンを使用する際にも、マッチング処理を利用するものである。音声認識装置が本来的にもつ音声認識機能を、流用元の標準パターンの選択にも利用することによって、目当ての流用元の標準パターンを、迅速に抽出して特定することができるよう〖こなる。

[0035] また、本発明の電気機器は、本発明の音声編集装置または音声認識装置を搭載する。 [0036] 本発明の音声編集装置や音声認識装置では、既存の標準パターンを現実のニーズに合わせて適宜、改変 (編集)することによって新、音声データ (標準パターンを含む)を効率的に増やすことが可能であり、音声データや音声認識辞書の語彙を柔軟かつ迅速に拡大することができる。したがって、電子機器のユーザは、自己の生活パターンに合わせて、音声データ (標準パターンを含む）を効果的にカスタマイズすることができ、これにより電気機器の多機能化が進展する。

[0037] また、本発明の携帯端末は、本発明の音声編集装置または音声認識装置を搭載する。

[0038] 本発明の音声編集装置や音声認識装置は、既存の機能や音声データを最大限に活用するため、無駄が少なぐ小型化や低価格化に適しており、携帯電話端末にも搭載することができる。また、使用する音声データのカスタマイズも容易であることから、携帯端末のユーザは、一日の生活の種々の場面で、音声編集機能 (標準パターンの編集機能を含む)を自由に、手軽に利用することができる。したがって、携帯端末の多機能や高機能化が進展し、携帯端末の利用価値が向上する。

[0039] また、本発明の音声編集方法は、既存の音声データを流用して、別の音声データを作成する音声編集方法であって、流用元の音声データと、前記流用元の音声データにおける変更箇所を特定するための変更箇所特定用音声データと、のマッチング処理を実施し、前記流用元の音声データの少なくとも一部を変更箇所として特定する第 1のステップと、特定された前記変更箇所の音声データを利用して、別の音声データを作成する第 2のステップと、を含む。

[0040] また、本発明の音声認識方法は、既存の標準パターンを流用して別の標準パターンを作成する音声認識方法であって、流用元の標準パターンと、前記流用元の標準パターンにおける変更箇所を特定するための変更箇所特定用音声データと、のマツチング処理を実施し、前記流用元の標準パターンの少なくとも一部を変更箇所として特定する第 1のステップと、特定された前記変更箇所の音声データを利用して、別の標準パターンを作成する第 2のステップと、を含む。

[0041] これによつて、無理なぐ最小限の労力で、現実に役立つ新規な音声データ (標準ノターン)を、効果的に増やすことが可能となる。 [0042] また、本発明の音声編集プログラムは、コンピュータに、本発明の音声編集方法の各ステップを実行させるためのプログラムである。

[0043] また、本発明の音声認識プログラムは、コンピュータに、本発明の音声認識方法の各ステップを実行させるためのプログラムである。

[0044] これにより、多様な電気機器において、音声データ (標準パターンを含む)の編集を容易かつ安価に行うことができる。

発明の効果

[0045] 本発明の音声編集装置では、新規の音声データ (音声認識用辞書としての標準パターンを含む）をゼロからつくるのではなぐ既存の音声データを編集して作るようにし、その音声データの編集の際に、パターンマッチング処理を用いて変更箇所を自動的に特定すること、すなわち、音声認識装置がもつ音声認識機能を、音声データの編集にも活用することによって、音声データの編集作業が簡単化される。

[0046] すなわち、既存の音声に対して部分音声を入力することによって、容易に音声の切り出しや結合等が可能となり、音声データの編集を簡単に行えるようになる。

[0047] したがって、本発明によれば、携帯端末などを利用して、音声データを簡単に編集することが可能となり、この結果、多様な音声データを容易に、効率的に、かつ安価に作成することが可能となる。例えば、携帯端末に保存されている長い音声データの一部のみを変更する場合にも、その変更箇所のみを特定し、他の音声データに置換するなどして、簡単に編集、加工を行うことができる。

[0048] 具体的には、本発明の音声編集装置、音声編集方法および音声編集プログラムを、音声認識装置、標準パターン作成方法および標準パターン作成プログラムとして活用することによって、既存の標準パターンを活用して多様な標準パターンを効率的に作成することができる。また、パターンマッチング処理を用いて変更箇所を自動特定すること、すなわち、音声認識装置がもつ音声認識機能を、標準パターンの作成にも活用することによって、現実の生活に役立つ有用な標準パターンを、非常に効率的に作成することが可能となる。したがって、音声認識可能な語彙を、柔軟かつ迅速に拡大することが可能となる。

[0049] また、音声認識によって携帯端末の動作の制御を行う場合や、入力音声信号をテキストデータに変換して電子メールを効率的に作成するような場合には、内容の一部だけが異なる、一群の音声の音声認識が重要となると考えられる。したがって、既存の標準パターンの一部を改変して新規な標準パターンを豊富化していくという、本発明の音声認識装置で採用する手法は極めて有効である。

[0050] また、流用元の既存の標準パターンにおける変更箇所も、パターンマッチング処理を利用して簡単に指定することができる。すなわち、本発明では、音声認識装置がもつマッチング処理機能を標準パターンの作成にも利用するため、ハードウェアの追加等も最小限に抑えられる。よって、実現が容易であり、コスト面でも有利となる。

[0051] また、流用元の既存の標準パターンデータベースを更新するための更新用音声データとしては、ユーザが入力する音声の音声や、既存の標準パターンから切り取って得られる音声データや、あるいは、既存の標準パターン自体の音声データを利用することができる。多様な音声データを利用できるため、新しい標準パターンの作成処理が効率化される。

[0052] 本発明の音声編集装置 (音声認識装置を含む）は、音声データのカスタマイズが容易であり、小型化や低コストという特徴をもっため、電子機器への搭載に適する。したがって、電気機器の多機能化の進展に寄与する。

[0053] また、本発明の音声編集方法 (標準パターン作成方法を含む）によれば、無理なく

、最小限の労力で、現実に役立つ新規な音声データ (標準パターン)を、効果的に増やすことが可能となる。

[0054] また、本発明の音声編集プログラムによれば、多様な電気機器において、音声デ → (標準パターンを含む)の編集を容易かつ安価に行うことが可能となる。

図面の簡単な説明

[0055] [図 1]本発明の音声認識装置 (音声編集装置を音声認識の用途に利用したもの)の概要を説明するためのブロック図

[図 2]図 1の本発明の音声認識装置における、既存の標準パターンを流用して標準パターンを新規に作成し、標準パターンデータベースの内容を更新する処理の主要な手順を説明するためのフロー図

[図 3]本発明の音声認識装置を内蔵する携帯電話端末のユーザが、新規に標準バターンを作成する場合の主要な手順を説明するための図

[図 4] (a)〜 (d)は、図 3に示される手順に従って標準パターンが作成される場合の、具体的な信号処理の内容を示す図

[図 5]本発明の音声認識装置の具体的な構成の一例を示すブロック図

[図 6]図 5の音声認識装置の各部の動作手順ならびにデータ (信号)の授受の手順を示すシーケンス図

[図 7]メール受信時の表示設定を変更しますという標準パターンを音声認識により選択し、その選択された標準パターンからメール受信時のという部分を削除して新たな標準パターンを作成する場合の手順を示す図

[図 8] (a)〜 (d)は、図 7に示される手順に従って標準パターンが作成される場合の、具体的な信号処理の内容を示す図

[図 9]本発明の音声認識装置の具体的な構成の他の例（図 7,図 8に記載の制御を行う例）を示すブロック図

[図 10]図 9の音声認識装置の各部の動作手順ならびにデータ (信号)の授受の手順を示すシーケンス図

[図 11]本発明の音声認識装置を搭載する携帯電話端末の外観構成を示す斜視図 [図 12]図 11の携帯電話端末の内部構成を示すブロック図

符号の説明

10 音響分析部

12 特徴パラメータ抽出部

14 変更箇所特定部

16 変更箇所を特定するためのマッチング処理を行うパターンマッチング部

18 標準パターン作成部

20 標準パターンデータベース更新部

22 本来の音声認識のためのパターンマッチング処理を行うパターンマッチング部 24 標準パターンデータベース (音声認識辞書ファイル）

26 制御部

28 表示インタフェース 30 表示部

32 流用元標準パターン抽出部

34 流用元標準パターンを抽出するためのマッチング処理を行うパターンマツチング部

550 携帯電話端末

700 無線部

701 音声コーデック

702 デジタル信号処理部

703 変

704 スピーカ

705 マイク

706 制御部

707 音声記録部

708 音響分析部

709 特徴パラメータ抽出部

710 変更箇所特定部

711 本来の音声認識のための、および、流用元標準パターンを特定するためのマッチング処理を行うパターンマッチング部

712 標準パターン作成部

713 標準パターンデータベース更新部

714 標準パターンデータベース (音声認識辞書ファイル）

715 メディアインタフェース咅

717 テキスト変換部

1000 携帯電話端末

1002 上部筐体

1004 下部筐体

1006 表示部

1008 操作キー 1010 揷入口

1012 記録メディア

AN アンテナ

発明を実施するための最良の形態

[0057] 次に、本発明の実施形態について、図面を参照して説明する。

[0058] 本発明は、広義の音声編集装置や音声編集方法に関するものであり、純粋な音声の編集、加工はもちろんのこと、他の種々の用途に利用することができる。

[0059] 例えば、本発明の音声編集装置を、音声認識の用途に使用する（すなわち、音声認識装置として利用する)こと〖こよって、音声認識辞書としての標準パターンを効率的に拡大することが可能となる。

[0060] 以下の説明では、まず、第 1の実施形態〜第 4の実施形態にて、本発明の音声編集装置を、音声認識装置における標準パターンの豊富化のために利用する場合の例について説明し、そして、第 5の実施形態において、本発明の音声編集装置を、音声認識の用途を離れて、純粋な音声編集、加工の用途に使用した場合について説明することにする。

[0061] (第 1の実施形態）

図 1は、本発明の音声認識装置 (本発明の音声編集装置を音声認識の用途に利用したもの）の概要を説明するためのブロック図である。

[0062] 図示されるように、本発明の音声認識装置は、音響分析部 10と、特徴パラメータ抽出部 12と、変更箇所特定部 14 (変更箇所の特定のために使用されるパターンマッチング部 16をもつ）と、標準パターン作成部 18と、標準パターンデータベース更新部 2

0と、パターンマッチング処理を実行するパターンマッチング部（音声認識装置の本来の音声認識を行う音声認識部) 22と、標準パターンデータベース (音声認識辞書ファイル） 24と、を有する。ここで、標準パターンデータベース 24に保存されているデータの形式は、「特徴パラメータ (ケプストラム）」の他、「音声をテキストイ匕したもの（文字列としての辞書データ）」、「音声データ (波形データ自体)の、ずれであってもよ、力以下の説明では、標準パターンデータベース 24には、標準パターンとして、「特徴パラメータ（ケプストラム）」が保存されているものとして説明を行う。 [0063] なお、図 1では、変更箇所特定部 14内のパターンマッチング部 16と、音声認識装置の本来の音声認識を実施するパターンマッチング部（音声認識部） 22と、を別々に記載している力これに限定されるものではなぐ共通のパターンマッチング部を状況に応じて使い分ける構成であってもよい。この点は、以下の実施形態でも同様である

[0064] 図 1の音響分析部 10は、入力音声信号を、 20msec〜40msec程度の時間窓で区切り、その時間窓に対応する音声信号についてフーリエ変換 (FFT)を行う。

[0065] また、特徴パラメータ抽出部 12は、音響分析結果の絶対値 (すなわち周波数スぺクトルの振幅）の対数を求め、その対数の周波数スペクトルに対して、逆フーリエ変換 (I DFT)を行い、さらにメルィ匕を行ってメルケプストラム (特徴パラメータ）を得る。なお、特徴パラメータは、変更箇所特定部 14および標準パターン作成部 18に送られる。

[0066] また、変更箇所特定部 14は、標準パターンデータベース 24から、流用元となる既存の標準パターンの特徴パラメータを取り出す。そして、パターンマッチング部 16を用いて、変更箇所特定用音声データ（例えば、ユーザがマイクを用いて入力する）の特徴パラメータと、流用元の既存の標準パターンの特徴パラメータとのマッチングを行い、マッチした箇所またはマッチしな力つた箇所を変更箇所として特定する。そして、変更箇所の位置を示す変更箇所位置信号が、標準パターン作成部 18に送られる

[0067] 標準パターン作成部 18は、流用元の標準パターンについて、切り取り、削除、置換、結合といった編集処理を行い、新規の標準パターンを作成する。すなわち、流用元の標準パターンの変更箇所の音声データを切り取った後に残る音声データ（つまり、切り取った後の残余部分の音声の特徴パラメータ =変更箇所の音声を削除して得られる音声の特徴パラメータ）、切り取った音声データ（つまり、切り出した音声の特徴パラメータ）、変更箇所の音声データを他の音声データ (例えば、ユーザがマイクを用いて入力する置換用音声データ）に置き換えて得られる音声データ (つまり、置換後の語彙の音声の特徴パラメータ）、および、切り取った音声データの冒頭または末尾に他の音声データを結合することによって得られる音声データ（つまり、結合処理後の語彙の音声の特徴パラメータ）、の少なくとも一つを、新しい標準パターンとする。 [0068] 標準パターンデータベース更新部 20は、標準パターンデータベース (音声認識辞書ファイル） 24を更新する。更新の内容としては、「置換」と「追加」の二種類がある。すなわち、「置換」による更新の場合は、新たに作成された標準パターンを、流用元の既存の標準パターンに置き換える。また、「追加」の場合は、新たに作成された標準パターンを、標準パターンデータベース 24に追加する。この場合、流用元の既存の標準パターンと新規の標準パターンは併存する。

[0069] 図 2は、図 1の本発明の音声認識装置における、既存の標準パターンを流用して標準パターンを新規に作成し、標準パターンデータベースの内容を更新する処理の主要な手順を説明するためのフロー図である。図 2中では、説明の便宜上、音声データ (音声の特徴パラメータ）の時系列パターンを、アルファベットで表現している。

[0070] まず、流用元の既存の標準パターンの変更箇所の特定処理を実行する (ステップ S 100)。

[0071] すなわち、変更箇所特定部 14内のパターンマッチング部 16にて、変更箇所特定用音声データ（「_cd」とする）と、流用元の標準パターン（「abcdef」とする）とのパターンマッチング処理を実施する (ステップ S101)。そして、マッチングした部分（「cd」）を変更箇所とする (ステップ S 102)。あるいは、マッチングしな力つた部分 (abef)を変更箇所とする (ステップ S 103)。

[0072] 次に、標準パターン作成部 18にて、標準パターンの新規作成処理を実施する (ステツプ S 200)。

[0073] すなわち、ステップ S100 (S102、 S103)にて特定された変更箇所から、音声データを切り取る（ステップ S201, 202)。

[0074] 切り取った音声データ「abef」「cd」自体を、新しい標準パターンとすることができる（S301, S302)。「abef」は、ステップ SlOlにてマッチした部分の以外の部分を切り出したものであり、これは、流用元の標準パターン力マッチした部分の音声データを削除して得られる音声データに等しい。

[0075] 次に、置換処理や結合処理を行う（ステップ S201、 S204)。ステップ S201では、ステツプ 102で特定された変更箇所の音声データ「cd」を、更新用音声データ「QRS」によって置換する。また、ステップ S204では、ステップ S201にて切り取った音声データ（「cd」）の冒頭あるいは末尾に、更新用音声データ「QRS」を結合させる。ここで、更新用音声データ「QRS」は、マイク力も入力される入力音声の音声データ、あるいは、 S201, S202で切り取った音声データ、あるいは、既存の標準パターンの音声データそのもの、のいずれかである。

[0076] すなわち、ステップ S203では、「ab〇〇ef」の〇〇の部分を、「QRS」で置換し、「a bQRSefJとする（流用元の標準パターンの「cd」を「QRS」で置換した形態となる）。

[0077] また、ステップ S204では、「cd」の冒頭あるいは末尾に「QRS」を結合して、「QRSc djあるいは「cdQRS」とする。

[0078] 新たに作成された、「cd (切り取ったデータ）」、「abef (マッチした部分の音声データを削除して得られるデータ」、「abQRSef (置換により得られるデータ）」、「QRScd」あるいは「cdQRS (結合により得られるデータ）」の、ずれかを、新、標準パターンとすることができる。

[0079] 次に、標準パターンデータベース更新部 20が、標準パターンデータベース 24の更新処理を実施する (ステップ S300)。更新の内容としては、「置換処理 (ステップ S30

1)」と「追加処理 (ステップ S302)」の二種類がある。

[0080] すなわち、「置換」による更新の場合 (ステップ S301)では、新たに作成された標準ノターンを、流用元の既存の標準パターンに置き換える。「追加」の場合 (ステップ S3

02)では、新たに作成された標準パターンを、標準パターンデータベース 24に追カロする。この場合、流用元の既存の標準パターンと新規の標準パターンは併存する。

[0081] このように、本発明では、新規の標準パターンをゼロからつくるのではなぐ既存の標準パターンを活用して作るようにし、また、パターンマッチング処理を用いて変更箇所を自動特定すること (音声認識装置がもつ音声認識機能を、標準パターンの作成にも活用すること）によって、有用な標準パターンを、非常に効率的に作成することが可能となる。したがって、音声認識可能な語彙を、柔軟かつ迅速に拡大することができる。

[0082] (第 2の実施形態）

本実施形態では、電車内のアナウンスを音声認識するために、標準パターンを豊富化する場合を例にとり、音声認識装置の構成と動作、標準パターンの作成手順について、より具体的に説明する。

[0083] 例えば、電車通勤をしているサラリーマンは、仕事に疲れて居眠りをしてしまい、降車駅 (例えば、渋谷駅とする)で降車できないことがある。この場合、そのサラリーマンの携帯電話端末に音声認識装置を搭載し、「まもなく渋谷です」ヽぅ車内アナウンスを音声認識し、この音声認識を契機としてバイブレータを起動し、振動によって居眠りをしているサラリーマンを目覚めさせることができれば、降り忘れを防止することができ、便利である。ただし、そのサラリーマンが、「横浜」においても頻繁に下車する場合には、「まもなく横浜です」というアナウンスを音声認識してバイブレータを起動することも必要となる。

[0084] この場合、「まもなく渋谷です」という標準パターンが音声認識装置に登録されているのであれば、この標準パターンを流用し、「渋谷」を「横浜」に置換することができれば、必要な標準パターンを、効率的に作成することができる。

[0085] 図 3は、本発明の音声認識装置を内蔵する携帯電話端末のユーザが、新規に標準ノターンを作成する場合の主要な手順を説明するための図である。

[0086] 図示されるように、最初に、「まもなく渋谷です」と、う車内アナウンスを、携帯電話端末 550のマイク 2を用いて録音し、その車内アナウンスの音声について、音響分析を経て特徴パラメータを抽出し、標準パターンとして携帯電話端末 550内に登録しておく（ステップ Sl)。

[0087] 次に、携帯電話端末 550の表示部 (液晶ディスプレイ等） 30に、「変更したい部分を発声してくださ、」 t 、う案内メッセージが表示される (ステップ S 2)。

[0088] 次に、ユーザ (P)が、「渋谷」と発音する。この「渋谷」という音声は、携帯電話端末 5 50のマイク 2を介して携帯電話端末 550内に取り込まれ、音響分析を経て特徴パラメータが抽出される。そして、流用元の標準パターン、すなわち「まもなく渋谷です」という語彙の特徴パラメータと、変更箇所を特定するための音声データ「渋谷」の特徴パラメータのマッチング処理がなされ、ここでは、マッチングした箇所が変更箇所として特定される (ステップ S4)。

[0089] 次に、携帯電話端末 550の表示部 30に、「置き換える文字を発声してくださ!/、」 t 、う案内メッセージが表示される (ステップ S5)。 [0090] ユーザ (P)は、「横浜」と発音し、この「横浜」と!、う音声は、携帯電話端末 550のマイク 2を介して携帯電話端末 550内に取り込まれ、音響分析を経て特徴パラメータが抽出される。

[0091] ここで、誤った標準パターンの作成を防ぐため、新規作成する標準パターン（「まもなく横浜です」）を、携帯電話端末 550の表示部 30上に表示し、ユーザ Pに、これでよいかを問い合わせる。ユーザ (P)は、画面の確認後、「はい (yes)」を選択する (ステツプ S7)。

[0092] すると、「まもなく横浜です」と!、う語彙の特徴パラメータ力なる標準パターンが自動的に作成され、標準パターンデータベース 24が更新される (ステップ S8)。すなわち、ステップ S4で特定された変更箇所の音声データ（「渋谷」の特徴パラメータ)を、「横浜」の特徴パラメータと置換し、これによつて、「まもなく横浜です」という語彙の特徴パラメータ力もなる標準パターンが作成され、その新規作成された標準パターンが

、標準パターンデータベース（図 1の参照符号 24)に追加されることになる。

[0093] 図 4 (a)〜（d)は、図 3に示される手順に従って標準パターンが作成される場合の、具体的な信号処理の内容を示す図である。

[0094] 図 4 (a)では、流用元の標準パターンの音声データ「ツギヮシブャデス」と、変更箇所特定用音声データ「シプヤ」とのパターンマッチング処理が実施される。

[0095] 図 4 (b)では、流用元の標準パターンのうちの「シブャ」の部分が変更箇所であることが特定されており（2つの太い矢印で変更箇所が特定されている）、また、「シプヤ」力「ョコハマ」に置換されることが示されている。

[0096] 図 4 (c)では、「ツギハョコハマデス」と、う更新音声 (すなわち、新規作成された標準パターン)が、音声記憶部（図 1の参照符号 24)に蓄積されている既存の標準バターン群 (「ツギノエキヮョコノヽマデス」、「モウスグョコノヽマデス」、「マモナクョコノヽマデス」）に追加される。

[0097] 図 4 (d)は、更新後の標準パターン群を示して!/、る。

[0098] 図 5は、本発明の音声認識装置の具体的な構成の一例を示すブロック図である。

図 5において、図 1と共通する部分には、共通の符号を付してある。

[0099] 図 5では、図 1の構成に、マイク (MIC) 2と、録音音声蓄積部 4と、音声認識装置の動作を統括的に制御する制御部 26と、表示インタフェース 28と、表示部 30と、が追カロされている。音声認識装置の基本的な動作は、図 1を用いて先に説明したとおりである。

[0100] 図 6は、図 5の音声認識装置の各部の動作手順ならびにデータ (信号)の授受の手順を示すシーケンス図である。

[0101] まず、制御部 26は、表示部 30上に流用元音声の選択画面を表示させ、ユーザに、流用元となる音声データを選択させる (ステップ S400)。この場合は、図 3で説明したように、「まもなく渋谷です」という車内アナウンスの音声が予め録音され、録音音声蓄積部 4に蓄積されているため、これを選択する。

[0102] 次に、音響分析部 10が、音声分析を行い (ステップ S401)、特徴パラメータ抽出部 12が、特徴パラメータを抽出する (ステップ S402)。抽出された特徴パラメータは、変更箇所特定部 14および標準パターン作成部 18に送られる (ステップ S403, S404)

[0103] また、制御部 26は、表示部 30上に、変更箇所を特定するための音声の入力を促す案内メッセージを表示する (ステップ S405)。続いて、音響分析 (ステップ S406)、特徴パラメータ抽出 (ステップ S407)を経て、特徴パラメータが抽出され、特徴パラメータは、変更箇所特定部 14および標準パターン作成部 18に送られ (ステップ S408 , S409)、変更箇所が特定される (S410)。変更箇所の位置を示す変更箇所位置信号は、標準パターン作成部 18に送られる（S411)。

[0104] 次に、ユーザが、変更箇所に置換するための更新用音声（「横浜」）を入力する（S4 12)。すると、音響分析 (S413)、特徴パラメータ抽出（S414)、特徴パラメータの標準パターン作成部 18への送信（S415)を経て、新しい標準パターンが作成される（S 416)。

[0105] 新しく作成された標準パターンは、標準パターンデータベース更新部 20に送られ（ステップ S417)、また、表示部 30にも送られ (S418)、ユーザによる更新確認を経て (ステップ S419)、標準パターンデータベース 24が更新される（ステップ S420)。

[0106] (第 3の実施形態）

本実施形態では、本発明の音声認識装置が搭載された携帯電話端末における設定 (例えば、電子メール受信時の設定)を、ユーザの音声によって制御する場合を想定し、この制御に必要な標準パターンを新規作成する場合の手順について説明する

[0107] 携帯電話端末のユーザは、電子メールの着信時において表示部に表示される画面や、着信時に出力される着信音を自身の好みに合わせて、適宜、変更することができ、また、受信メールを蓄積するフォルダも自由に選択することができる。

[0108] 通常は、メール着信時の画面や着信音の変更などは、入力キーの操作によって行われるが、携帯電話端末の操作キーは小さいために、操作がかなりむずかしい。ここで、キー操作に代えて、音声入力によってメール着信時の画面や着信音の変更などを行えるようになれば、携帯電話端末の利便性が向上する。

[0109] また、「表示設定」という用語は、広い意味を持っており、電子メール時の表示設定の他に、電話の待ち受け画面の表示設定や、ゲームのダウンロード時の表示設定等が含まれる。携帯電話端末の設定を変更する場合には、まず、「表示設定を変更する」という上位概念のメニュー項目を変更し、次に、「メール受信時の表示設定を変更する」 t 、う具体的なメニュー項目を選択するのが普通である。

[0110] ここで、上位概念のメニュー項目である「表示設定の変更」を、音声により選択する場合には、「表示設定を変更します」というユーザの音声を認識する必要があるため、「表示設定を変更します」と、う語彙の音声の標準パターンを予め登録しておく必要がある。

[0111] ここで、仮に、携帯電話端末内には、「メール受信時の表示設定を変更します」という標準パターンが登録されて、るとすると、「メール受信時の」 t 、う部分の音声データを削除すれば、「表示設定を変更します」という標準パターンを簡単に作成することができる。

[0112] 図 7は、メール受信時の表示設定を変更しますという標準パターンを音声認識により選択し、その選択された標準パターンからメール受信時のという部分を削除して新たな標準パターンを作成する場合の手順を示す図である。

[0113] 図 7に示すように、携帯電話端末 550の表示部 30に、「変更したい認識語彙を発声してください」という案内メッセージが表示される (ステップ Sl)。 [0114] ユーザ）は、流用元の標準パターンを検索するためのキーワードである「メール受信」を発声する (ステップ S2)。

[0115] すると、音声認識がなされ、「メール受信」とマッチングする部分をもつ標準パターンがすべて抽出される。すなわち、標準パターンとして登録されている語彙の中から、キーワード「メール受信」を含む語彙（「1.メール受信時の表示設定を変更します」、「 2.メール受信時の音設定を変更します」、「3.メール受信時の振分け設定をします」 )が、流用元の標準パターンの候補として抽出され、表示部 30に表示される (ステツプ S4)。

[0116] このように、流用元の標準パターンを選択する場合にも、音声認識装置が本来的に有している音声認識機能を活用することにより、流用元の標準パターンを効率的に見つけ出すことができる。

[0117] 次に、ユーザ）は、「1.メール受信時の表示設定を変更します」を選択する (ステップ S5)。

[0118] 次に、携帯電話端末 550の表示部 30には、「変更したい部分を発声してください」 t 、う案内メッセージが表示される (ステップ S6)。

[0119] ユーザ (P)は、「メール受信時の」と発音する。この音声は、携帯電話端末 550内に取り込まれ、音響分析、特徴パラメータの抽出がなされ、ステップ S5で選択された標準パターン「メール受信時の表示設定を変更します」の特徴パラメータとのマッチングがなされ、この結果として、変更箇所が、「メール受信時の」という箇所であることが特定される (ステップ S8)。

[0120] 次に、携帯電話端末 550の表示部 30上には、標準パターンをどのように変更するの力を問い合わせる案内メッセージが表示される。すなわち、「1.対象部分削除」と、「2.対象部分変更」、う 2つの選択肢が表示される (ステップ S9)。

[0121] ここでは、ユーザ）は、「1.対象部分削除」を選択する。すると、表示部 30には、「削除」を本当に行ってょ、かを問ヽ合わせる確認画面が表示され、ユーザ (P)が「は、 (yes)」を選択すると、「表示設定を変更します」と、う所望の語彙にっ、ての標準パターンが新規に作成される (ステップ S 11)。

[0122] 流用元の標準パターンから「メール受信時の」という音声データが削除されて新たな標準パターンが作成されたものである力この処理は、流用元の標準パターンである「メール受信時の表示設定を変更します」と、う音声データから、変更箇所の音声データ（「メール受信時の」）という音声データを切り取り、切り取った後の残余の部分

(「表示設定を変更します」 )を新たな標準パターンとするのと等価である。

[0123] 図 8 (a)〜（d)は、図 7に示される手順に従って標準パターンが作成される場合の、具体的な信号処理の内容を示す図である。

[0124] 図 8 (a)では、流用元の標準パターンの音声データ「メールジュシンジノヒヨウジセッティヲヘンンコゥシマス」が既に特定されており、この標準パターンと、変更箇所特定用音声データ「メールジュシンジノ」とのパターンマッチング処理が実施される。

[0125] 図 8 (b)では、流用元の標準パターンのうちの「メールジュシンジノ」の部分が変更箇所であることが特定される（2つの太、矢印で変更箇所が特定されてヽる)。

[0126] 図 8 (c)では、流用元の標準パターンの「メールジュシンジノヒヨウジセッティヲヘンンコゥシマス」から、「メールジュシンジノ」が削除され、「ヒヨウジセッティヲヘンンコゥシマス」 t 、う新規の標準パターンが作成されて、る。

[0127] この新たに作成された標準パターン力標準パターンデータベース（図 1の参照符号 24)に登録されている標準パターン群（すなわち、「メールジュシンジノヒヨウジセッティヲヘンコゥシマス」、「メールジュシンジノオトセッティヲヘンコゥシマス」、「メールジュシンジノフリヮケセッティヲヘンコゥシマス」）に新規に追加される。

[0128] 図 8 (d)は、更新後の標準パターン群を示して!/、る。

[0129] 図 9は、本発明の音声認識装置の具体的な構成の他の例（図 7,図 8に記載の制御を行う例）を示すブロック図である。図 9において、図 1,図 5と共通する部分には、同じ参照符号を付してある。

[0130] 図 9では、図 5の構成から、録音音声蓄積部 4を削除すると共に、流用元標準バターン抽出部 32 (パターンマッチング部 34を含み、入力されたキーワードと合致するパターンをもつ既存の標準パターンのすべてを、流用元標準パターンの候補として抽出する機能をもつ）を追加した構成となってヽる。

[0131] なお、流用元標準パターン抽出部 32のパターンマッチング部 34は、標準パターン作成部 20から渡される既存の標準パターンの特徴パラメータと、特徴パラメータ抽出部 12から送られてくるキーワード「メール受信」の特徴パラメータと、を比較してマッチング度を判定し、入力されたキーワードと合致するパターンをもつ既存の標準パターンのすべてを、流用元標準パターンの候補として抽出する。

[0132] また、図 9の音声認識装置の基本的な動作は、図 1、図 5を用いて先に説明したとおりである。

[0133] 図 10は、図 9の音声認識装置の各部の動作手順ならびにデータ (信号)の授受の手順を示すシーケンス図である。

[0134] まず、制御部 26は、表示部 30上に流用元音声を選択ためのキーワード音声の入力を促す案内画面を表示し、ユーザは、キーワード（「メール受信」）を音声入力する（ステップ S600)。

[0135] 続いて、音響分析 (ステップ S601)、特徴パラメータ抽出 (ステップ S602)が行われ、入力されたキーワード（「メール受信」）の音声の特徴パラメータと、既存の標準バターン群の各々の特徴パラメータとを比較してマッチング処理が実施され (ステップ S6 03)、マッチングする部分をもつ標準パターンがすべて抽出される。

[0136] そして、抽出された標準パターンの情報が表示部 30に送られ (ステップ S604)、表示部 30上に抽出された標準パターンの内容がすべて表示され、ユーザは、流用元となる標準パターン（「メール受信時の表示設定を変更します」 )を選択する (ステップ S 605)。これにより、流用元の標準パターンが特定される。

[0137] 続いて、標準パターンデータベース 24に記憶されている、流用元の標準パターンの特徴パラメータが、変更箇所特定部 14および標準パターン作成部 18に送られる ( ステップ S606, S607)。

[0138] 次に、ユーザが、変更箇所を特定するための音声 (すなわち「メール受信時の」）を入力する（ステップ S 608)。

[0139] 続いて、音響分析がなされ (ステップ S609)、また、特徴パラメータ抽出がなされ (ステツプ S610)、抽出された特徴パラメータが、変更箇所特定部 14および標準パターン作成咅 18に送られる（ステップ S 611 , S612)。

[0140] 変更箇所特定部 14では、パターンマッチングによって変更箇所を特定する (ステツプ S613)。また、変更箇所位置を示す信号は、標準パターン作成部 18に送られる（ステップ S614)。

[0141] 次に、ユーザが、削除を行うことを選択する (ステップ S615)。これに伴い、流用元の標準パターン「受信時の画面設定を変更します」から、「受信時の」が削除されて、新し、標準パターン（「画面設定を変更します」）が作成される (ステップ S616)。

[0142] そして、新規に作成された標準パターンの情報が表示部 30に送られ、ユーザに、その新しく作成された標準パターンを、標準パターンデータベース 24に追加してもよいかを確認する（S618)。

[0143] ユーザによって、新規作成された標準パターンの追加が承認されると、標準パターンデータベース更新部 20は、新しく作成された標準パターンを標準パターンデータベース 24に追加する。これによつて、標準パターンデータベース (音声認識辞書ファィル）が更新される (ステップ S620)。

[0144] (第 4の実施形態）

本実施形態では、本発明の音声認識装置を搭載する携帯電話端末の構成と動作について説明する。

[0145] 図 11は、本発明の音声認識装置を搭載する携帯電話端末の外観構成を示す斜視図である。

[0146] 図示されるように、携帯電話端末 1000は、アンテナ (AN)と、上部筐体 1002と、下部筐体 1004と、表示部 1006と、操作キー 1008と、標準パターンを記憶している記録媒体 (記録メディア） 1012を挿入するための揷入口 1010と、スピーカ 704と、マイク 705と、を有して！/、る。

[0147] 図 12は、図 11の携帯電話端末の内部構成を示すブロック図である。

[0148] 図示されるように、この携帯電話端末 1000は、アンテナ ANと、無線部 700と、音声コーデック 701と、デジタル信号処理部 702と、 AZD変換器および DZA変換器 70 3と、スピーカ 704と、マイク 705と、制御部 706と、音声記録部 707と、音響分析部 7 08と、特徴パラメータ抽出部 709と、変更箇所特定部 710 (パターンマッチング部 71 1を含む）と、標準パターン作成部 712と、標準パターンデータベース更新部 713と、標準パターンデータベース 714と、スタンダードな標準パターンを記録している記録メディア 1012とのデータインタフェースとして機能するメディアインタフェース部 715と、パターンマッチング部 (音声認識装置の本来の音声認識を行い、また、必要に応じて、流用元の標準パターンの候補を抽出するためにも使用される） 716と、音声 Zテキスト変換部 717と、を備える。

[0149] このような構成をもつ携帯電話端末では、ユーザの音声による携帯電話端末の動作の制御や設定の変更が可能である。

[0150] また、音声 Zテキスト変換部 717によって、入力された音声を自動的にテキストに変換することもでき、これによつて、電子メールの作成の手間が軽減される。

[0151] 先に説明したように、携帯電話端末の動作を音声にて制御する場合には、一つの定型的な音声パターンのうち、一部を別の音声に置換した多数の音声の認識が重要となる。

[0152] 例えば、公共の場所において流れる音声アナウンスを音声認識して、携帯電話の電源を自動的にオフさせる場合を考えると、公共の場所としては、「映画館内」、「病院内」、「駅構内」、「建物内」等があるから、まず、「館内では携帯の電源をオフにして下さ、」 t 、う映画館の館内アナウンスを音声認識できるようにし (つまり「館内では携帯の電源をオフにして下さ、」、う語彙にっ、ての標準パターンを携帯端末の音声認識辞書に登録しておく）、次に、その標準パターンを流用して、「館内では」という箇所を、「病院内では」、「駅構内では」、「建物内では」という音声データに置換すれば、電源の自動オフ制御に用いる標準パターンを、効率的に豊富化することができる。

[0153] また、音声 Zテキスト変換を利用して、音声入力によって電子メールの文面を作成する場合も、同様に、一つの定型的な音声パターンのうち、一部を別の音声に置換した多数の音声の認識が重要となると考えられる。

[0154] 携帯電話端末の電子メールは、友人等の親しい仲間との連絡がほとんどであり、特に、待ち合わせの調整等に頻繁に用いられる。

[0155] 例えば、「月曜日の 18時に渋谷のハチ公前で会いましょう」という標準パターンを用意しておき、「月曜日」という部分を、他の曜日に置換したり、「18時」という部分を他の時刻に変更したり、あるいは、「渋谷のハチ公前」という部分を他の場所に変更することにより、現実に頻繁に使用する電子メールの文面に対応する、音声認識用の標準パターンを効率的に作成することができる。 [0156] このように、既存の標準パターンの一部を改変して新規な標準パターンを豊富化していくという、本発明の音声認識装置で採用する手法は、携帯端末に搭載される音声認識装置の認識辞書の拡張手法として、極めて有効である。

[0157] (第 5の実施形態）

前掲の実施形態では、音声認識装置 (本発明の音声編集装置を音声認識の用途に使用したもの）を例にとって説明したが、本発明の音声編集装置はいろいろな用途に利用でき、例えば、純粋に音声の加工や編集にも活用できる。

[0158] すなわち、例えば、携帯端末のユーザが、携帯端末内に、自己の音声 (かなり長い音声）を記録しているとする（その音声データは、例えば、添付メールに埋め込んで友人に送付するために用意されているものである）。ここで、何らかの理由により、その記録されて、る長、音声データの一部だけをカ卩ェする必要性が生じた場合に、もう一度、最初から長!、音声の入力を繰り返すのは効率が悪、。

[0159] この場合に、パターンマッチングを利用して変更箇所を特定し、その変更部分の音声データを他の音声データに変更できれば、非常に効率的に新規な音声データを作成することができる。

[0160] つまり、新規の音声データをゼロからつくるのではなぐ既存の音声データを編集して作るようにし、その音声データの編集の際に、パターンマッチング処理を用いて変更箇所を自動的に特定すること (すなわち、音声認識装置がもつ音声認識機能を、音声データの編集にも活用すること）によって、音声データの編集作業が簡単化される。すなわち、既存の音声に対して部分音声を入力することによって、容易に音声の切り出しや結合等が可能となる。

[0161] 例えば、「私は、 2005年 4月 1日に A社に入社しました」という既存の音声データが携帯端末内に保存されているとする。この既存の音声データを編集する際に、携帯端末の表示部に「切り出す箇所を発音して下さ、」、う表示をなし、これに応答して、ユーザが「2005年 4月 1日に」と発声し、その音声が、携帯端末に入力される。

[0162] すると、既存の音声データと新たに入力された音声とのパターンマッチングが行われて、一致する箇所が切り取られる。その結果として、「私は、 A社に入社しました」と言う音声を取得することができる。 [0163] また、本発明は、既存の音声データを複数の文章に分割するために使用することもできる。

[0164] 例えば「10時力会議です。場所は第一会議室です」と言う既存の音声データが携帯端末に保存されており、携帯端末の表示部上に「分割したい音声箇所を発音してください」と表示し、ユーザが、「場所は」と音声し、この音声は、新規の音声入力として携帯端末に取り込まれ、既存の音声データとパターンマッチングによる比較がなされる。

[0165] この結果、既存の音声データの「場所は」の前で文章が分割され、その結果として、「10時力も会議です。場所は第一会議室です」という音声データは、「10時から会議です」と「場所は第一会議室です」という 2つの音声データに分割される。

[0166] このような音声データの編集をする場合の構成は、前掲の実施形態にて説明した構成と同じである。すなわち、メルケプストラムデータによるマッチングにより、既存の音声データの変更箇所を特定することができる (ここで、メルケプストラムデータは、音声データを一定区間で音声分析して算出しているため、音声についても変更箇所の特定が可能である)。

[0167] そして、その変更箇所の情報に基づいて、音声の切り取り、新規に入力した音声の挿入、切り取った音声同士の結合などの編集を、自由に行うことができる。

[0168] このように、本実施形態における音声編集装置によれば、携帯端末などを利用して、音声データを簡単に編集することが可能となる。この結果、多様な音声データを容易に、効率的に、かつ安価に作成することが可能となる。

[0169] 以上説明したように、本発明の音声編集装置では、新規の音声データ (音声認識用辞書としての標準パターンを含む）をゼロからつくるのではなぐ既存の音声データを編集して作るようにし、その音声データの編集の際に、パターンマッチング処理を用いて変更箇所を自動的に特定すること (すなわち、音声認識装置がもつ音声認識機能を、音声データの編集にも活用すること）によって、音声データの編集作業が簡単化される。

[0170] すなわち、既存の音声に対して部分音声を入力することによって、容易に音声の切り出しや結合等が可能となり、音声データの編集を簡単に行えるようになる。 [0171] したがって、本発明によれば、携帯端末などを利用して、音声データを簡単に編集することが可能となり、この結果、多様な音声データを容易に、効率的に、かつ安価に作成することが可能となる。例えば、携帯端末に保存されている長い音声データの一部のみを変更する場合にも、その変更箇所のみを特定し、他の音声データに置換するなどして、簡単に編集、加工を行うことができる。

[0172] 具体的には、本発明の音声編集装置、音声編集方法および音声編集プログラムを、音声認識装置、標準パターン作成方法および標準パターン作成プログラムとして活用することによって、既存の標準パターンを活用して多様な標準パターンを効率的に作成することができる。

[0173] また、パターンマッチング処理を用いて変更箇所を自動特定すること、すなわち、音声認識装置がもつ音声認識機能を、標準パターンの作成にも活用することによって、現実の生活に役立つ有用な標準パターンを、非常に効率的に作成することが可能となる。したがって、音声認識可能な語彙を、柔軟かつ迅速に拡大することが可能となる。

[0174] また、音声認識によって携帯端末の動作の制御を行う場合や、入力音声信号をテキストデータに変換して電子メールを効率的に作成するような場合には、内容の一部だけが異なる、一群の音声の音声認識が重要となると考えられる。したがって、既存の標準パターンの一部を改変して新規な標準パターンを豊富化していくという、本発明の音声認識装置で採用する手法は極めて有効である。

[0175] また、流用元の既存の標準パターンにおける変更箇所も、パターンマッチング処理を利用して簡単に指定することができる。すなわち、本発明では、音声認識装置がもつマッチング処理機能を標準パターンの作成にも利用するため、ハードウェアの追加等も最小限に抑えられる。よって、実現が容易であり、コスト面でも有利となる。

[0176] また、流用元の既存の標準パターンデータベースを更新するための更新用音声データとしては、ユーザが入力する音声の音声や、既存の標準パターンから切り取って得られる音声データや、あるいは、既存の標準パターン自体の音声データを利用することができる。多様な音声データを利用できるため、新しい標準パターンの作成処理が効率化される。 [0177] 本発明の音声編集装置 (音声認識装置）は、音声データのカスタマイズが容易であり、小型化や低コストという特徴をもっため、電子機器への搭載に適する。したがって

、電気機器の多機能化の進展に寄与する。

[0178] また、本発明の音声編集方法 (標準パターン作成方法を含む）によれば、無理なく

[0179] また、本発明の音声編集プログラムによれば、多様な電気機器において、音声デ → (標準パターンを含む)の編集を容易かつ安価に行うことが可能となる。

[0180] 本発明を詳細にまた特定の実施態様を参照して説明したが、本発明の精神と範囲を逸脱することなく様々な変更や修正を加えることができることは当業者にとって明らかである。

[0181] 本出願は、 2005年 5月 27日出願の日本特許出願 (特願 2005— 156205)に基づくものであり、その内容はここに参照として取り込まれる。

産業上の利用可能性

[0182] 本発明は、携帯端末などを利用して、音声データを簡単に編集することを可能とし、特に、音声認識装置として利用した場合には、音声認識可能な語彙を、柔軟かつ効率的に豊富化することができるという効果を奏し、したがって、例えば、各種の電気機器や携帯端末 (携帯電話端末や PDA等）に搭載される小型、軽量かつ安価な音声編集装置 (音声認識装置を含む）に用いて好適である。

Claims

請求の範囲

[1] 既存の音声データを流用して、別の音声データを作成する機能をもつ音声編集装置であって、

前記既存の音声データのうちの流用元の音声データと、前記流用元の音声データにおける変更箇所を特定するための変更箇所特定用音声データと、のマッチング処理を実施し、前記流用元の音声データの少なくとも一部を変更箇所として特定する変更箇所特定部と、

前記変更箇所特定部によって特定された前記変更箇所の音声データを利用して、別の音声データを作成する音声データ作成部と、

を有することを特徴とする音声編集装置。

[2] 請求項 1記載の音声編集装置であって、

前記音声データ作成部は、前記変更箇所特定部によって特定された、前記流用元の音声データのうちの前記変更箇所の音声データを他の音声データに置き換えた音声データを、前記別の音声データとして作成することを特徴とする音声編集装置。

[3] 請求項 1記載の音声編集装置であって、

前記音声データ作成部は、前記変更箇所特定部によって特定された、前記変更箇所の音声データに他の音声データを結合した音声データを、前記別の音声データとして作成することを特徴とする音声編集装置。

[4] 請求項 2または 3記載の音声編集装置であって、

前記別の音声データを作成する際に使用される前記他の音声データは、少なくとも

、前記音声編集装置に外部力入力される音声についての音声データ、既存の音声データ力も切り取った音声データ、または、既存の音声データ自体の音声データ、を含むことを特徴とする音声編集装置。

[5] 請求項 1〜請求項 4のいずれかに記載の音声編集装置を利用した、既存の標準パターンを流用して別の標準パターンを作成する機能をもつ音声認識装置であって、前記既存の標準パターンのうちの流用元の標準パターンと、前記流用元の標準パターンにおける変更箇所を特定するための変更箇所特定用音声データと、のマッチング処理を実施し、前記流用元の標準パターンの少なくとも一部を変更箇所として特定する変更箇所特定部と、

前記変更箇所特定部によって特定された前記変更箇所の音声データを利用して、別の標準パターンを作成する音声データ作成部と、

を有することを特徴とする音声認識装置。

[6] 請求項 5記載の音声認識装置であって、

前記音声データ作成部により作成した別の標準パターンを、前記流用元の標準パターンと置き換える、または、前記流用元の標準パターンとは異なる標準パターンとして追加する、ことによって、標準パターンデータベースを更新する標準パターンデータベース更新部を、有することを特徴とする音声認識装置。

[7] 請求項 5または 6に記載の音声認識装置であって、

前記変更箇所特定部は、前記流用元の標準パターンを抽出するための音声データと、複数の既存の標準パターンの音声データと、のマッチング処理を実施し、マツチする部分を含む既存の標準パターンを、前記流用元の標準パターンとして抽出することを特徴とする音声認識装置。

[8] 請求項 1〜請求項 4の、ずれかに記載の音声編集装置または請求項 5〜請求項 7 の、ずれかに記載の音声認識装置を搭載する電気機器。

[9] 請求項 1〜請求項 4の、ずれかに記載の音声編集装置または請求項 5〜請求項 7 のヽずれかに記載の音声認識装置を搭載する携帯端末。

[10] 既存の音声データを流用して、別の音声データを作成する音声編集方法であって流用元の音声データと、前記流用元の音声データにおける変更箇所を特定するための変更箇所特定用音声データと、のマッチング処理を実施し、前記流用元の音声データの少なくとも一部を変更箇所として特定する第 1のステップと、

特定された前記変更箇所の音声データを利用して、別の音声データを作成する第 2のステップと、

を含むことを特徴とする音声編集方法。

[11] 既存の標準パターンを流用して別の標準パターンを作成する音声認識方法であつて、流用元の標準パターンと、前記流用元の標準パターンにおける変更箇所を特定するための変更箇所特定用音声データと、のマッチング処理を実施し、前記流用元の標準パターンの少なくとも一部を変更箇所として特定する第 1のステップと、特定された前記変更箇所の音声データを利用して、別の標準パターンを作成する第 2のステップと、

を含む事を特徴とする音声認識方法。

[12] コンピュータに、請求項 10記載の各ステップを実行させるための音声編集プロダラム。

[13] コンピュータに、請求項 11記載の各ステップを実行させるための音声認識プロダラム。