WO2020089961A1

WO2020089961A1 - 音声処理装置、およびプログラム

Info

Publication number: WO2020089961A1
Application number: PCT/JP2018/040062
Authority: WO
Inventors: 健一海沼
Original assignee: 健一海沼
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2020-05-07
Also published as: JPWO2020089961A1; US10964308B2; EP3693957A4; EP3693957A1; JP6582157B1; US20210027760A1

Abstract

発音者毎の固有の設定を加味しつつ感情のこもった音声を合成することを可能にする。　発話者の顔を撮像して得られる動画データからフレーム毎に顔特徴点を抽出する一方、当該発話者の発話音声からフレーム毎に抽出した音声特徴データに基づいて対応するフレームの顔特徴点を生成するための第１の生成ネットワークを生成し識別ネットワークにより適否を評価する。次いで、発話音声の発話内容を表すテキストと発話音声に込められた感情を示す情報とを少なくとも含む複数種の流動設定、発話者の声質を規定する複数種の固定設定および適切と評価された第１の生成ネットワークにより生成され顔特徴点とから上記発話音声を生成するための第２の生成ネットワークを生成し上記識別ネットワークによりその適否を評価する音声処理装置を提供する。

Description

音声処理装置、およびプログラム

　本発明は、音声の分析、およびその分析結果に基づく音声合成を行う音声処理装置、およびプログラムに関する。

　所謂ボーカイロイドなど音声を電気的に合成する技術が一般に普及している。一般に音声の声質を左右する要素としては、性別，声の高さ，発声速度，アクセント強調量や音量などが挙げられ、これらの要素を指定して所望の声質の音声を合成する技術も提案されている（例えば、特許文献１参照）。

特開平０５－０５３５９５号公報

　音声の声質を左右する要素には、性別，声の高さ，発声速度，アクセント強調量や音量の他にも発話者の年齢、身長、体重などがあるが特許文献１に開示の技術では発話者の年齢、身長、体重等は考慮されていない。なお、以下では、発話者の性別、年齢、身長、体重等の発話者毎に一意に定まる設定のことを「固定設定」と呼ぶ。また、人間らしい音声を合成する際には、喜怒哀楽などの感情をこめることが重要となるが、特許文献１に開示の技術では感情の反映は考慮されていない。

　本発明は上述した事情に鑑みてなされたものであり、発音者の固定設定を加味しつつ感情のこもった音声を合成することを可能にする技術を提供することを目的とする。

　上記課題を解決するために本発明は、発話期間における発話者の顔を撮像して得られる動画データを所定時間長のフレームに区切り、予め定められた顔特徴点の位置を示す顔特徴点データをフレーム毎に抽出する抽出手段と、前記発話期間における前記発話者の発話音声を表す音声データを前記フレームに区切り、各フレームの顔特徴点を、対応するフレームの音声特徴データから生成するための第１の生成ネットワークを生成する第１の生成手段と、各フレームから抽出した顔特徴点データを用いて前記第１の生成ネットワークの適否を第１の識別ネットワークにより評価する第１の評価手段と、前記発話音声の発話内容を表すテキストと前記発話音声に込められた感情を示す情報とを少なくとも含む複数種の流動設定をユーザに指定させるとともに前記発話者の声質を規定する複数種の固定設定をユーザに指定させ、前記第１の評価手段により適切と評価された前記第１の生成ネットワークにより生成される顔特徴点、前記ユーザにより指定された複数種の固定設定および複数種の流動設定から前記発話音声を生成するための第２の生成ネットワークを生成する第２の生成手段と、前記音声データを用いて前記第２の生成ネットワークの適否を第２の識別ネットワークにより評価する第２の評価手段と、を有することを特徴とする音声処理装置を提供する。

　本発明の音声処理装置によれば、発音者の固定設定を加味しつつ感情のこもった音声を合成するための第２の生成ネットワークを生成することが可能になり、当該第２の生成ネットワークを用いて音声を合成することで、発音者の固定設定を加味しつつ感情のこもった音声を合成することが可能になる。

　より好ましい態様の音声処理装置は、合成対象の音声についての固定設定および流動設定の指定をユーザに促す指定受付手段と、前記第２の評価手段により適切と評価された前記第２の生成ネットワークを用いて、前記指定受付手段に対して指定された固定設定および流動設定に対応する音声を合成する音声合成手段と、を有することを特徴とする。

　本態様の音声処理装置によれば、ユーザにより指定された固定設定に応じた声質を有し、かつユーザにより指定された流動設定（発話内容および感情）の音声を合成することが可能になる。

　さらに好ましい態様の音声処理装置では、前記指定受付手段は、感情毎に異なる色を対応付けたカラーマップを表示装置に表示し、色の指定により、合成対象の音声に込める感情をユーザに指定させることを特徴とする。

　本態様の音声処理装置によれば、合成対象の音声に込める感情を色の指定により指定することが可能になる。

　さらに好ましい態様の音声処理装置では、前記指定受付手段は、感情を示す情報の指定を、テキストの文字列長が長いほど多く受け付ける。

　本態様の音声処理装置によれば、合成対象の音声の発話期間において複数の感情を指定することで、感情の起伏を有する音声を合成することが可能になる。

　さらに好ましい態様の音声処理装置では、前記第２の生成手段は、前記複数種の固定設定および前記複数種の流動設定の設定毎に前記第２の生成ネットワークを生成するシングルネットワーク生成手段と、前記複数種の固定設定および前記複数種の流動設定のうちの少なくとも１つの設定を除いた複数個の設定の組み合わせ毎に、前記複数個の設定の各々が他の設定に影響を与えないように前記第２の生成ネットワークを生成するマルチネットワーク生成手段と、前記複数種の固定設定および前記複数種の流動設定の各々が他の設定影響を与えないように前記第２のネットワークを生成するオールネットワーク生成手段と
を含むことを特徴とする。

　シングルネットワーク生成手段により設定毎に生成される生成ネットワークは、他の設定に影響を与える虞があるが、本態様の音声処理装置によれば、マルチネットワーク生成手段およびオールネットワーク生成手段によって、他の設定に影響を与えないよう各設定御に対応するボコーダの可動領域を調整することが可能になる。

　また、上記課題を解決するために本発明は、コンピュータに、発話期間における発話者の顔を撮像して得られる動画データを所定時間長のフレームに区切り、予め定められた顔特徴点の位置を示す顔特徴点データをフレーム毎に抽出する抽出ステップと、前記発話期間における前記発話者の発話音声を表す音声データを前記フレームに区切り、各フレームの顔特徴点を対応するフレームの音声特徴データから生成するための第１の生成ネットワークを生成する第１の生成ステップと、各フレームから抽出した顔特徴点データを用いて前記第１の生成ネットワークの適否を第１の識別ネットワークにより評価する第１の評価ステップと、前記発話音声の発話内容を表すテキストと前記発話音声に込められた感情を示す情報とを少なくとも含む複数種の流動設定をユーザに指定させるとともに前記発話者の声質を規定する複数種の固定設定をユーザに指定させ、前記第１の評価ステップにて適切と評価された前記第１の生成ネットワークにより生成される顔特徴点、前記ユーザにより指定された複数種の固定設定および複数種の流動設定から前記発話音声を生成するための第２の生成ネットワークを生成する第２の生成ステップと、前記音声データを用いて前記第２の生成ネットワークの適否を第２の識別ネットワークにより評価する第２の評価ステップと、を実行させることを特徴とするプログラムを提供する。

　本発明のプログラムによっても、発音者の固定設定を加味しつつ感情のこもった音声を合成するための音声モデルを生成することが可能になる。

　より好ましい態様のプログラムは、合成対象の音声についての固定設定および流動設定の指定をユーザに促す指定受付ステップと、前記第２の評価ステップにて適切と評価された前記第２の生成ネットワークを用いて、前記指定受付ステップにて受け付けた固定設定および流動設定に対応する音声を合成する音声合成ステップと、を実行させることを特徴とする。

　本態様のプログラムによっても、ユーザにより指定された固定設定に応じた声質を有し、かつユーザにより指定された流動設定（発話内容および感情）の音声を合成することが可能になる。

本発明の一実施形態による音声処理装置１のハードウェア構成例を示すブロック図である。音声処理装置１の制御部１０が音声処理プログラム３２２にしたがって実行する生成ネットワーク生成処理の流れを示すフローチャートである。生成ネットワーク生成処理のノイズ除去ステップＳＡ１３０において制御部１０が実行する処理を説明するための図である。生成ネットワーク生成処理の第２の生成ステップＳＡ１４０において制御部１０が生成するスパーベクトルの一例を示す図である。生成ネットワーク生成処理の第２の生成ステップＳＡ１４０において制御部１０が実行するシングルネットワーク生成ステップＳＡ１４１０の処理内容の一例を示す図である。生成ネットワーク生成処理の第２の生成ステップＳＡ１４０において制御部１０が実行するマルチネットワーク生成ステップＳＡ１４２０の処理内容の一例を示す図である。生成ネットワーク生成処理の第２の生成ステップＳＡ１４０において制御部１０が実行するオールネットワーク生成ステップＳＡ１４３０の処理内容の一例を示す図である。音声処理装置１の制御部１０が音声処理プログラム３２２にしたがって実行する音声合成処理の流れを示すフローチャートである。音声合成処理の指定受付ステップＳＢ１００にて制御部１０が表示部２１０に表示させるＵＩ画面の一例を示す図である。本実施形態における感情と色彩の対応付けの一例を示す図である。本実施形態における感情と色彩の対応付けの一例を示す図である。音声合成処理の音声合成ステップＳＢ１１０の処理内容の一例を示す図である。

　以下、図面を参照しつつ本発明の実施形態を説明する。
　図１は、本発明の一実施形態による音声処理装置１のハードウェア構成例を示すブロック図である。音声処理装置１は、例えばスマートフォンである。音声処理装置１は、図１に示すように、制御部１０、ユーザインタフェース部２０，記憶部３０、およびこれら構成要素間のデータ授受を仲介するバス４０を有する。音声処理装置１は、図１に示す構成要素の他に、無線通信網の基地局と無線通信する無線通信部を有するが、無線通信部については本発明との関連が薄いため、図１では図示が省略されている。以下、本明細書においても、無線通信部についての詳細な説明は省略する。また、図１では、「ユーザインタフェース」は「ＵＩ」と略記されており、以下、本明細書においても同様の表記とする。

　制御部１０は、例えばＣＰＵ（Central Processing Unit）などのコンピュータである。制御部１０は、記憶部３０（より正確には不揮発性記憶部３２０）に格納されているプログラムを実行し、音声処理装置１の制御中枢として機能する。

　ＵＩ部２０は、音声処理装置１をユーザに利用させるためのユーザインタフェースを提供する装置の集合体である。図１に示すように、ＵＩ部２０は、表示部２１０、操作部２２０、音声入出力部２３０、および撮像部２４０を含む。

　表示部２１０は、例えば液晶ディスプレイとその駆動回路である。表示部２１０は、制御部１０による制御の下、音声処理装置１の利用をユーザに促す各種画面の画像を表示する。撮像部２４０は例えばイメージセンサである。撮像部２４０は、撮像視野内の動画像を撮像し、その撮像結果を表す動画データを制御部１０へ出力する。操作部２２０は、表示部２１０の表示領域を覆うように設けられた透明なシート状のタッチセンサである。操作部２２０は、表示部２１０とともに所謂タッチパネルを形成する。音声処理装置１のユーザは、操作部２２０に対するタッチ操作或いはフリック操作により各種入力を行うことができる。操作部２２０に対してユーザがタッチ操作或いはフリック操作等を行うと、操作部２２０は、ユーザの操作内容を表すデータを制御部１０へ出力する。これにより、ユーザの行った操作が制御部１０に伝達される。

　音声入出力部２３０は、マイクロフォン、スピーカ、Ａ／Ｄ変換器およびＤ／Ａ変換器を含む（図１では何れも図示略）。マイクロフォンは周囲の音を収音し当該音の波形を表すアナログオーディオ信号をＡ／Ｄ変換器へ出力する。Ａ／Ｄ変換器はマイクロフォンから出力されたアナログオーディオ信号にＡ／Ｄ変換を施しその変換結果である音データ（変換対象のアナログオーディオ信号の表す波形を所定のサンプリング周期でサンプリングして得られるサンプル列）を制御部１０へ出力する。Ｄ／Ａ変換器は制御部１０から与えられる音データにＤ／Ａ変換を施し、その変換結果であるアナログオーディオ信号をスピーカへ出力する。スピーカはＤ／Ａ変換器から出力されたアナログオーディオ信号に応じた音を放射する。

　記憶部３０は、揮発性記憶部３１０と不揮発性記憶部３２０とを含む。揮発性記憶部３１０は、例えばＲＡＭ（Random Access Memory）である。揮発性記憶部３１０は、プログラムを実行する際のワークエリアとして制御部１０によって利用される。不揮発性記憶部３２０は、例えばフラッシュＲＯＭ（Read Only Memory）である。不揮発性記憶部３２０には、各種プログラムと各種データとが記憶されている。不揮発性記憶部３２０に記憶されているプログラムの具体例としては、制御部１０にＯＳ（Operating System）を実現させるカーネルプログラム、ｗｅｂブラウザや電子メールクライアントの各種アプリケーションプログラム、本実施形態の特徴を顕著に示す音声処理を制御部１０に実行させる音声処理プログラム３２２が挙げられる。

　不揮発性記憶部３２０に記憶されているプログラムのうち、音声処理プログラム３２２以外のプログラムについては一般的なスマートフォンにインストールされているものと特段に変わるところは無い。例えば、制御部１０は、音声処理装置１の電源（図１では図示略）の投入を契機としてカーネルプログラムを不揮発性記憶部３２０から揮発性記憶部３１０へ読み出し、その実行を開始する。カーネルプログラムにしたがって作動し、ＯＳを実現している状態の制御部１０は、操作部２２０に対する操作により入力された指示に応じて、音声処理プログラム３２２や他のアプリケーションプログラムを実行することやＵＩ部２０等の制御部１０以外の構成要素の作動制御を行うことができる。このように、音声処理プログラム３２２以外のプログラムについては一般的なスマートフォンにインストールされているものと特段に変わるところは無いため詳細な説明は省略し、以下では音声処理プログラム３２２を中心に説明する。

　音声処理プログラム３２２にしたがって作動している制御部１０は、ニューラルネットワークの一種である敵対的生成ネットワークを利用して音声を合成する音声処理を実行する。この音声処理は、生成ネットワーク生成処理と音声合成処理とに大別される。生成ネットワークとは、音声合成に使用されるニューラルネットワークのことである。生成ネットワーク生成処理は生成ネットワークを機械学習により生成する処理である。音声合成処理は、生成ネットワークをボコーダ（音声合成モデル）として用い、音声処理装置１のユーザにより指定された固定設定および流動設定に対応する音声を合成する処理である。固定設定とは、合成対象の音声の声質を規定する設定（すなわち、発話者毎に固定の設定）のことである。固定設定の具体例としては、発話者の性別、年齢、身長、体重、話速、アクセントが挙げられる。流動設定とは、発話内容に応じて流動的に変化する設定のことである。流動設定の具体例としては発話内容を表すテキスト（文字列）、および合成対象の音声に付与する感情が挙げられる。

　前述したように、ＯＳを実現している制御部１０は、操作部２２０を介して音声処理プログラム３２２の実行指示を与えられたことを契機として、音声処理プログラム３２２を不揮発性記憶部３２０から揮発性記憶部３１０に読み出してその実行を開始する。音声処理プログラム３２２にしたがって作動している制御部１０は、操作部２２０に対する操作により生成ネットワーク生成処理の実行を指示されたことを契機として、表示部２１０へのメッセージ表示或いは音声入出力部２３０からの音声メッセージの出力により、撮像部２４０に顔を向けて発話することをユーザに促すとともに、撮像部２４０を作動させる。上記の要領で発話を促されたユーザが撮像部２４０に顔を向けて発話すると、その発話音声は音声入出力部２３０のマイクロフォンによって収音され、その発話期間におけるユーザの顔の時間変化（表情の変化）を表す動画が撮像部２４０によって撮像される。

　発話音声の収音および発話期間における動画の撮像が完了すると、制御部１０は生成ネットワーク生成処理を開始する。図２は、生成ネットワーク生成処理の流れを示すフローチャートである。図２に示すように、本実施形態の生成ネットワーク生成処理には、抽出ステップＳＡ１００、第１の生成ステップＳＡ１１０、第１の評価ステップＳＡ１２０、ノイズ除去ステップＳＡ１３０、第２の生成ステップＳＡ１４０、および第２の評価ステップＳＡ１５０の６つのステップが含まれている。これら６つのステップの各々において制御部１０が実行する処理の内容は次の通りである。

　抽出ステップＳＡ１００では、制御部１０は、撮像部２４０から出力される動画データ（すなわち、発話期間における発話者の顔を撮像して得られる動画データ）を所定時間長（例えば、１／６０秒）のフレームに区切り、フレーム毎に顔特徴点抽出アルゴリズムにしたがった処理を施し、予め定められた顔特徴点の位置を示す顔特徴点データをフレーム毎に抽出する。顔特徴点の具体例としては、眉、目、鼻、および唇等の顔の構成要素の輪郭線上の点が挙げられる。顔特徴点抽出アルゴリズムについては、既存の顔認識技術におけるものを適宜用いるようにすればよい。

　第１の生成ステップＳＡ１１０では、制御部１０は、まず、音声入出力部２３０から出力される音声データを上記所定時間長のフレームに区切り、音声特徴抽出アルゴリズムにしたがった処理をフレーム毎に施して音声特徴を示す音声特徴データをフレーム毎に抽出する。例えば音声入出力部２３０のＡ／Ｄ変換器におけるサンプリング周波数が４４．１ｋＨｚである場合、１秒分の音声データは４４１００個のサンプルからなるサンプル列である。この場合、１フレーム分の音声データは、４４１００／６０＝７３５個のサンプルからなるサンプル列となる。音声特徴データの具体例としては、基本周波数、スペクトラム包絡、フォルマント等が挙げられる。音声特徴抽出アルゴリズムについても、既存の音声分析技術におけるものを適宜用いるようにすればよい。次いで、制御部１０は、各フレームの顔特徴点を、対応するフレームの音声特徴データから生成するためのニューラルネットワーク（以下、第１の生成ネットワーク）を、機械学習により生成する。音声データおよび動画データの代わりに音声特徴データおよび顔特徴点データを用いて機械学習を行うのは、処理対象のデータ量を低減させ、機械学習の処理負荷を軽減するためである。この機械学習のアルゴリズムについても既存のものを適宜用いるようにすればよい。

　第１の生成ステップＳＡ１１０に後続する第１の評価ステップＳＡ１２０では、制御部１０は、第１の生成ネットワークの適否を評価するためのニューラルネットワーク（以下、第１の識別ネットワーク）を機械学習により生成し、各フレームから抽出した顔特徴点データを用いて第１の生成ネットワークの適否を評価する。一般に、敵対的生成ネットワークでは、生成ネットワークの機械学習は識別ネットワーク側をうまく欺けるようになること（本実施形態では、フレームから抽出した顔特徴点と第１の生成ネットワークにより生成された顔特徴点との区別がつかなくなくようにすること）を目的として行われる。一方、識別ネットワークの機械学習は、動画データのフレームから抽出した顔特徴点と生成ネットワークにより生成された顔特徴点とをうまく識別できるようになることを目的として行われる。この関係は以下の数１で表される。数１において、Ｇ（ｚ）は第１の生成ネットワークにより生成される顔特徴点であり、Ｄ（ｘ）は第１の識別ネットワークによりｘが偽物ではない（すなわち、動画データのフレームから抽出した顔特徴点）と正しく識別される確率である。識別ネットワークの識別能力が向上するほど右辺第１項の値は大きくなり、Ｄ（Ｇ（ｚ））の値は小さくなるため右辺第２項の値は大きくなる。一方、生成ネットワークが識別ネットワークをうまく欺けるようになると、Ｄ（Ｇ（ｚ））の値は大きくなり、右辺第２項の値は小さくなる。

　第１の評価ステップＳＡ１２０に後続するノイズ除去ステップＳＡ１３０では、制御部１０は、第１の評価ステップＳＡ１２０にて適切と評価された第１の生成ネットワークにより生成される顔特徴点からノイズを除去する。より詳細に説明すると、制御部１０は、第１の評価ステップＳＡ１２０にて適切と評価された第１の生成ネットワークにより生成される全ての顔特徴点を元にガウス分布ＧＤ（図３参照）を算出し、図３に示すように、標準偏差の絶対値が２σ以上のデータをノイズとして除去する。なお、σは、図３に示すように、第１の評価ステップＳＡ１２０にて適切と評価された第１の生成ネットワークにより生成される全ての顔特徴点のうちの６８％が－１×σ～＋１×σの範囲に属し、－２×σ～＋２×σの範囲に９５％が属する値である。

　ノイズ除去ステップＳＡ１３０に後続する第２の生成ステップＳＡ１４０では、制御部１０は、発話音声の発話内容を表すテキストと当該発話音声に込められた感情を示す情報とを少なくとも含む複数種の流動設定をユーザに指定させるとともに当該発話者の声質を規定する複数種の固定設定をユーザに指定させる。次いで、制御部１０は、これら固定設定および流動設定と、第１の評価ステップＳＡ１２０にて適切と評価された第１の生成ネットワークにより生成される顔特徴点から生成される特徴面とを要素とするスパーベクトル（図４参照）を生成する。このスパーベクトルは、上記特徴面を介して第１の生成ネットワークに対応付けられている。

　次いで、制御部１０は、生成ネットワーク生成処理の開始時にマイクロフォンにより収音された発話音声を、その発話音声についての設定としてユーザにより指定された複数種の固定設定および複数種の流動設定から生成するためのニューラルネットワーク（以下、第２の生成ネットワーク）を、当該スパーベクトルを用いた機械学習により生成する。音声データおよび動画データの代わりにスパーベクトルを用いて機械学習を行うのは、処理対象のデータ量を低減させ、機械学習の処理負荷を軽減するためである。第２の生成ステップＳＡ１４０にて使用する機械学習アルゴリズムについても既存のものを適宜用いるようにすればよい。

　より詳細に説明すると、第２の生成ステップＳＡ１４０には、シングルネットワーク生成ステップＳＡ１４１０、マルチネットワーク生成ステップＳＡ１４２０、およびオールネットワーク生成ステップＳＡ１４３０の３つのステップが含まれている。なお、図２では、「シングルネットワーク」は「ＳＮ」と、「マルチネットワーク」は「ＭＮ」と、「オールネットワーク」は「ＡＮ」と夫々略記されている。以下、本明細書においても同様の表記とする。ＳＮ生成ステップＳＡ４１０では、図５に示すように、制御部１０は、スパーベクトルに含まれる設定毎に第２の生成ネットワークを生成する。図５には、流動設定に属するテキストおよび感情と固定設定のうちの体重の各設定に対応する第２の生成ネットワーク（テキストＧＮ、感情ＧＮおよび体重ＧＮ）を生成する処理が例示されている。

　ＭＮ生成ステップＳＡ１４２０では、制御部１０は、図６に示すように、スパーベクトルに含まれる複数種の設定のうちの少なくとも１つの設定を除いた複数個の設定の組み合わせ毎に、これら複数個の設定の各々が他の設定に影響を与えないように第２の生成ネットワークを生成する。例えば、図６には、テキストおよび感情の２つの設定の組み合わせに対応する第２の生成ネットワーク（テキスト・感情ＧＮ）を生成する処理と、性別、年齢および感情の３つの設定の組み合わせに対応する第２の生成ネットワーク（性別・年齢・感情ＧＮ）を生成する処理が例示されている。

　ＡＮ生成ステップＳＡ１４３０では、図７に示すように、制御部１０は、スパーベクトルに含まれる全ての設定を対象として、各設定が他の設定に影響を与えないように第２のネットワーク（オールベクトルＧＮ）を生成する。

　第２の生成捨ステップＳＡ１４０に後続する第２の評価ステップＳＡ１５０では、制御部１０は、第２の生成ステップＳＡ１４０にて生成した第２の生成ネットワークの適否を、音声入出力部２３０から出力された音声データを用いて評価するためのニューラルネットワーク（以下、第２の識別ネットワーク）を機械学習により生成し、当該第２の識別ネットワークを用いて第２の生成ネットワークの適否を評価する。そして、制御部１０は、適切と評価した第２の生成ネットワークのデータを不揮発性記憶部３２０の所定の記憶領域に書き込む。なお、第２の評価ステップＳＡ１５０にて使用する機械学習アルゴリズムについても既存のものを適宜用いるようにすればよい。
　以上が、生成ネットワーク生成処理の処理内容である。

　次いで、音声合成処理について説明する。
　音声処理プログラム３２２にしたがって作動している制御部１０は、操作部２２０に対する操作により音声合成処理の実行を指示されたことを契機として、音声合成処理を開始する。この音声合成処理は、ユーザにより指定された固定設定に対応する声質および同ユーザにより指定された流動設定に対応する発話内容および感情の音声を、上記記憶領域に記憶された第２の生成ネットワークを用いて合成する処理である。図８は、音声合成処理の流れを示すフローチャートである。図８に示すように、本実施形態の音声合成処理には、指定受付ステップＳＢ１００と音声合成ステップＳＢ１１０の２つのステップが含まれている。これら２つのステップの各々において制御部１０が実行する処理の内容は次の通りである。

　指定受付ステップＳＢ１００では、制御部１０は、合成対象の音声についての固定設定および流動設定の指定をユーザに促す。より詳細に説明すると、制御部１０は、図９に示すＵＩ画面を表示部２１０に表示させる。図９に示すように、このＵＩ画面には、固定設定指定領域Ａ０１と流動設定指定領域Ａ０２とプレビュー領域Ａ０３とが設けられている。プレビュー領域Ａ０３には、音声合成ステップＳＢ１１０の実行完了後、当該音声合成ステップＳＢ１１０にて合成された音声の波形が表示される。

　図９に示すように、固定設定指定領域Ａ０１には、性別、年齢、話速、アクセント、身長、および体重の各固定設定をユーザに指定させるための仮想操作子Ｖ０１～Ｖ０６が設けられている。ユーザは、操作部２２０に対するタッチ操作等により仮想操作子Ｖ０１～Ｖ０６の各々を操作することで、性別、年齢、話速、アクセント、身長、および体重の各固定設定を指定することができる。なお、性別については男性および女性といった２値的な指定には限らず、男性と女性の間で連続的に指定できるようにしてもよい。

　本実施形態では、性別、年齢、話速、アクセント、身長、および体重の各固定設定にはデフォルト値が定められており、音声合成処理の開始時点では、制御部１０は上記デフォルト値に応じたアバタ画像ＶＡを固定設定指定領域Ａ０１の中央に表示する。そして、制御部１０は、仮想操作子Ｖ０１～Ｖ０６の操作に応じてアバタ画像ＶＡを変化させる。なお、アバタ画像ＶＡの表示を省略しても勿論よい。

　流動設定指定領域Ａ０２には、合成対象の音声の発話内容を表すテキスト（文字列）をユーザに指定（入力）させるためのテキスト入力領域Ｉ０１と、合成対象の音声に込める感情を色彩でユーザに指定させるための感情指定リストＬ０１およびＬ０２（或いはカラーマップＣＭとグレイスケールＧＳ）が設けられている。テキスト入力領域Ｉ０１に対するテキストの入力については、例えば仮想キーボドを用いるなど、一般的なスマートフォンにおけるテキストの入力と特段に変わるところはないので詳細な説明を省略し、以下では、合成対象の音声に込める感情の指定方法を中心に説明する。

　本実施形態では、図１０および図１１に示すｒａｇｅ～ａｌａｒｍｅｄまでの６４通り感情を色彩でユーザに指定させることが可能である。図１０および図１１示すように、上記６４通りの感情は、感情の種類に応じてＡ～Ｐの１６種類、感情の強さに応じてｌｅｖｅｌ＝１～４の４種類に予め分類されている。そして、上記６通りの感情の各々には、固有の色彩が予め対応付けられている。音声処理装置１の不揮発性記憶部３２０には、６４通りの感情の各々を一意に示す感情識別子（例えば、“ｒａｇｅ”等の文字列）に対応付けて、その感情識別子の示す感情に対応付けられた色彩のＣ（シアン）、Ｍ（マゼンタ）、Ｙ（イエロー）およびＫ（黒）の各値（図１０および図１１参照）を示すデータを格納したテーブルが予め格納されている。本実施形態では、感情に対応付ける色彩をＣＭＹＫ表色系で表現するがＲＧＢ表色系を用いてもよく、図１０および図１１では、ＲＧＢ表色系におけるＲ（赤）、Ｇ（緑）およびＢ（青）の各値も併記されている。ただし、ＣＭＹＫ表色系は、ＲＧＢ表色系に比較して座標軸が１つ多く、多様な感情に色彩を対応付けるのに好適であるため、ＣＭＹＫ表色系を用いる方が好ましい。

　本実施形態では、ユーザは、感情指定リストＬ０１およびＬ０２に対する操作と、カラーマップＣＭおよびグレイスケールＧＳに対する操作の何れかで合成対象の音声に込める感情を指定することができる。感情指定リストＬ０１およびＬ０２の各々は、上記６４種類の感情識別子をリスト表示するリストボックスである。ユーザは、当該リストボックスに対する選択操作を行うことで、合成対象の音声に込める感情を指定することができる。図９における＋ボタンＢ０１は、感情指定リストの追加をユーザに指示させるための仮想操作子であり、－ボタンＢ０２は表示されている感情指定リストの消去をユーザに指示させるための仮想操作子である。図９では、感情指定リストを２つ有するＵＩ画面が例示されているが、ＵＩ画面の表示直後の状態では、感情指定リストは１つだけ表示されている。また、本実施形態では、１つのテキストに対して指定可能な感情の数（ＵＩ画面に表示可能な感情指定リストの数）は当該テキストの長さ（文字列長）に応じて定まり、テキストが長いほどその数は大きくなる。本実施形態では、１つのテキストに対して複数の感情を指定することで、テキストの先頭を原点とする時間軸に沿った感情の連続的な時間変化（感情の起伏）を指定することができる。

　カラーマップＣＭは、感情に対尾づけられた色彩の色成分のうちＣ，Ｍ，およびＹの値をユーザに指定させるための入力領域であり、グレイスケールＧＳは同色彩の色成分のうちのＫの値をユーザに指定させるための入力領域である。ユーザは、カラーマップＣＭおよびグレイスケールＧＳの各々に対するタップ操作を行うことで、合成対象の音声に込める感情を指定することができる。カラーマップＣＭおよびグレイスケールＧＳの各々に対する操作によっても、テキストの先頭を原点とする時間軸に沿った感情の連続的な時間変化（感情の起伏）を指定することができる。

　指定受付ステップＳＢ１００に後続する音声合成ステップＳＢ１１０では、制御部１０は、第２の評価ステップＳＡ１５０にて適切と評価された第２の生成ネットワークを用いて、指定受付ステップＳＢ１００にて受け付けた固定設定および流動設定に対応する音声を合成する。より詳細に説明すると、制御部１０は、上記第２の生成ネットワークを、指定受付ステップＳＢ１００にて受け付けた各設定に対応するボコーダとして用い、指定受付ステップＳＢ１００にて受け付けた各設定の値をパラメータとして該当するボコーダに与え、図１２に示すようにこれらボコーダを順次作動させて、音声を合成し音声入出力部２３０のスピーカから放音する。図１２には、性別ボコーダ、年齢ボコーダ、身長・体重ボコーダ、テキストボコーダ、感情ボコーダおよびアクセントボコーダをこの順に作動させて、最終結果の音声を合成する場合について例示されている。

　以上説明したように、本実施形態の音声処理装置１によれば、発音者の固定設定を加味しつつ感情のこもった音声を合成するための第２の生成ネットワークを生成することが可能になり、当該第２の生成ネットワークを用いて音声を合成することで、発音者の固定設定を加味しつつ感情のこもった音声を合成することが可能になる。

　以上、本発明の一実施形態について説明したが、上記実施形態に以下の変形を加えて勿論よい。
（１）上記実施形態では、性別、年齢・・・アクセントの各ボコーダを順次作動させて音声を生成したが、各ボコーダを作動させる順序を入れ替えてもよい。但し、性別、年齢、体重、およびアクセントといった固定設定に関するボコーダを作動させた後に、流動設定に関するボコーダを作動させることが好ましい。

（２）上記実施形態では、スマートフォンにおける音声出力アプリケーションへの本発明の適用例を説明したが、コンピュータゲームやアニメーションにおけるキャラクタの音声の生成に本発明を適用してもよく、また、電話応答など音声対話システムにおける対話音声の生成に本発明を適用してもよい。

（３）上記実施形態では、音声処理装置１の不揮発性記憶部３２０に、本発明の特徴を顕著に示す生成ネットワーク生成処理および音声合成処理を制御部１０に実行させるプログラム（音声処理プログラム３２２）が予め記憶されていた。しかし、上記プログラムを単体で製造・販売してもよい。上記プログラムを単体で製造・販売する態様の具体例としては、フラッシュＲＯＭなどのコンピュータ読み取り可能な記録媒体に上記プログラムを書き込んで配布する態様やインターネットなどの電気通信回線経由のダウンロードにより上記プログラムを配布する態様が挙げられる。これらの態様により配布されるプログラムをスマートフォンやパーソナルコンピュータ、タブレット端末等のコンピュータ（ＣＰＵ）を有する情報端末にインストールし、その情報端末のコンピュータを当該インストールされたプログラムにしたがって作動させることで、一般的な情報端末を本発明の音声処理装置として機能させることが可能になるからである。

（４）上記実施形態の音声処理装置１は、ユーザインタフェース部２０を構成要素として含んでいたが、ユーザインタフェース部２０はＵＳＢケーブルなどの通信線、或いはインターネットなどの電気通信回線を介して制御部１０とデータ授受が可能な外部要素であってもよく、記憶部３０についても同様に通信線、或いはインターネットなどの電気通信回線を介して制御部１０とデータ授受が可能な外部要素であってもよい。要は、本発明の音声処理装置は、生成ネットワーク生成処理および音声合成処理を実行する制御部１０を有していればよい。

（５）上記実施形態の生成ネットワーク生成処理は、ノイズ除去ステップＳＡ１３０を含んでいたが、ノイズの影響よりも処理負荷の軽さが優先される場合には、ノイズ除去ステップＳＡ１３０を省略してもよい。要は、本発明の生成ネットワークには、抽出ステップＳＡ１００、第１の生成ステップＳＡ１１０、第１の評価ステップＳＡ１２０，第２の生成ステップＳＡ１４０および第２の評価ステップＳＡ１５０が含まれていればよい。

（６）上記実施形態の音声処理装置１は、生成ネットワーク生成処理と音声合成処理とを実行したが、前者の処理のみを実行する音声処理装置を提供してもよい。また、生成ネットワーク生成処理に含まれる各ステップおよび音声合成処理に含まれる各ステップを実行する手段を電子回路等のハードウェアで構成し、それら各手段を組み合わせて音声処理装置１を構成してもよい。例えば、抽出ステップＳＡ１００の処理を実行する抽出手段、第１の生成ステップＳＡ１１０の処理を実行する第１の生成手段、第１の評価ステップＳＡ１２０の処理を実行する第１の評価手段、第２の生成ステップＳＡ１４０の処理を実行する第２の生成手段、および第２の評価ステップＳＡ１５０の処理を実行する第２の評価手段の各々を電子回路で構成し、これら各手段を組み合わせて本発明の音声処理装置を構成してもよい。また、指定受付ステップＳＢ１００の処理を実行する指定受付手段、および音声合成ステップＳＢ１１０の処理を実行する音声合成手段の各手段を電子回路で構成に、これら各手段をさらに組み合わせて音声処理装置を構成してもよい。

　１…音声処理装置、１０…制御部、２０…ＵＩ部，２１０…表示部、２２０…操作部、２３０…音声入出力部、２４０…撮像部、３０…記憶部、３１０…揮発性記憶部、３２０…不揮発性記憶部、３２２…音声処理プログラム、４０…バス。

Claims

　発話期間における発話者の顔を撮像して得られる動画データを所定時間長のフレームに区切り、予め定められた顔特徴点の位置を示す顔特徴点データをフレーム毎に抽出する抽出手段と、
　前記発話期間における前記発話者の発話音声を表す音声データを前記フレームに区切り、各フレームの顔特徴点を、対応するフレームの音声特徴データから生成するための第１の生成ネットワークを生成する第１の生成手段と、
　各フレームから抽出した顔特徴点データを用いて前記第１の生成ネットワークの適否を第１の識別ネットワークにより評価する第１の評価手段と、
　前記発話音声の発話内容を表すテキストと前記発話音声に込められた感情を示す情報とを少なくとも含む複数種の流動設定をユーザに指定させるとともに前記発話者の声質を規定する複数種の固定設定をユーザに指定させ、前記第１の評価手段により適切と評価された前記第１の生成ネットワークにより生成される顔特徴点、前記ユーザにより指定された複数種の固定設定および複数種の流動設定から前記発話音声を生成するための第２の生成ネットワークを生成する第２の生成手段と、
　前記音声データを用いて前記第２の生成ネットワークの適否を第２の識別ネットワークにより評価する第２の評価手段と、
　を有することを特徴とする音声処理装置。
　合成対象の音声についての固定設定および流動設定の指定をユーザに促す指定受付手段と、
　前記第２の評価手段により適切と評価された前記第２の生成ネットワークを用いて、前記指定受付手段に対して指定された固定設定および流動設定に対応する音声を合成する音声合成手段と、
　を有することを特徴とする請求項１に記載の音声処理装置。
　前記指定受付手段は、感情毎に異なる色を対応付けたカラーマップを表示装置に表示し、色の指定により、合成対象の音声に込める感情をユーザに指定させることを特徴とする請求項２に記載の音声処理装置。
　前記指定受付手段は、感情を示す情報の指定を、テキストの文字列長が長いほど多く受け付けることを特徴とする請求項２または請求項３に記載の音声処理装置。
　前記第２の生成手段は、
　前記複数種の固定設定および前記複数種の流動設定の設定毎に前記第２の生成ネットワークを生成するシングルネットワーク生成手段と、
　前記複数種の固定設定および前記複数種の流動設定のうちの少なくとも１つの設定を除いた複数個の設定の組み合わせ毎に、前記複数個の設定の各々が他の設定に影響を与えないように前記第２の生成ネットワークを生成するマルチネットワーク生成手段と、
　前記複数種の固定設定および前記複数種の流動設定の各々が他の設定影響を与えないように前記第２のネットワークを生成するオールネットワーク生成手段と、を含む
　ことを特徴とする請求項１～４の何れか１項に記載の音声処理装置。
　コンピュータに、
　発話期間における発話者の顔を撮像して得られる動画データを所定時間長のフレームに区切り、予め定められた顔特徴点の位置を示す顔特徴点データをフレーム毎に抽出する抽出ステップと、
　前記発話期間における前記発話者の発話音声を表す音声データを前記フレームに区切り、各フレームの顔特徴点を対応するフレームの音声特徴データから生成するための第１の生成ネットワークを生成する第１の生成ステップと、
　各フレームから抽出した顔特徴点データを用いて前記第１の生成ネットワークの適否を第１の識別ネットワークにより評価する第１の評価ステップと、
　前記発話音声の発話内容を表すテキストと前記発話音声に込められた感情を示す情報とを少なくとも含む複数種の流動設定をユーザに指定させるとともに前記発話者の声質を規定する複数種の固定設定をユーザに指定させ、前記第１の評価ステップにて適切と評価された前記第１の生成ネットワークにより生成される顔特徴点、前記ユーザにより指定された複数種の固定設定および複数種の流動設定から前記発話音声を生成するための第２の生成ネットワークを生成する第２の生成ステップと、
　前記音声データを用いて前記第２の生成ネットワークの適否を第２の識別ネットワークにより評価する第２の評価ステップと、
　を実行させることを特徴とするプログラム。
　前記コンピュータに、
　合成対象の音声についての固定設定および流動設定の指定をユーザに促す指定受付ステップと、
　前記第２の評価ステップにて適切と評価された前記第２の生成ネットワークを用いて、前記指定受付ステップにて受け付けた固定設定および流動設定に対応する音声を合成する音声合成ステップと、
　を実行させることを特徴とする請求項５に記載のプログラム。