JPWO2019239972A1

JPWO2019239972A1 - 情報処理方法、情報処理装置およびプログラム

Info

Publication number: JPWO2019239972A1
Application number: JP2020525476A
Authority: JP
Inventors: 誠橘; 橘　　誠; 基小笠原
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2018-06-15
Filing date: 2019-06-05
Publication date: 2021-06-17
Anticipated expiration: 2039-06-05
Also published as: JP7127682B2; WO2019239972A1; US20210097975A1

Abstract

情報処理装置は、音響特性の遷移である第１特性遷移を利用者からの指示に応じて生成する第１遷移生成部と、特定の発音スタイルで発音される音声の音響特性の遷移である第２特性遷移を生成する第２遷移生成部と、第１特性遷移と第２特性遷移との合成により、合成音声の音響特性の遷移である合成特性遷移を生成する遷移合成部とを具備する。

Description

本発明は、音声を合成する技術に関する。

利用者により指定された音符を発音した音声を合成する音声合成技術が従来から提案されている。例えば特許文献１には、特定の歌唱者に特有の表現が反映された音高の遷移を例えばＨＭＭ（Hidden Markov Model）等の遷移推定モデルにより設定し、当該音高の遷移に沿う歌唱音声を合成する技術が開示されている。

特開２０１５−３４９２０号公報

音声合成の場面では、音高等の音響特性の遷移を利用者からの指示に応じて微細に調整できることが重要である。しかし、合成音声の全部について利用者が音響特性の遷移を手動で直接的に編集する構成では、利用者の負荷が大きいという問題がある。以上の事情を考慮して、本開示は、合成音声の音響特性の遷移を調整する作業の負荷を軽減することを目的とする。

以上の課題を解決するために、本開示のひとつの態様に係る情報処理方法は、音響特性の遷移である第１特性遷移を利用者からの指示に応じて生成し、複数の発音スタイルから選択された特定の発音スタイルで発音される音声の音響特性の遷移である第２特性遷移を生成し、前記第１特性遷移と前記第２特性遷移との合成により、合成音声の音響特性の遷移である合成特性遷移を生成する。

本開示のひとつの態様に係る情報処理装置は、音響特性の遷移である第１特性遷移を利用者からの指示に応じて生成する第１遷移生成部と、特定の発音スタイルで発音される音声の音響特性の遷移である第２特性遷移を生成する第２遷移生成部と、前記第１特性遷移と前記第２特性遷移との合成により、合成音声の音響特性の遷移である合成特性遷移を生成する遷移合成部とを具備する。

第１実施形態に係る情報処理装置の構成を例示するブロック図である。情報処理装置の機能的な構成を例示するブロック図である。編集画像の模式図である。遷移生成部の構成を例示するブロック図である。第１特性遷移と第２特性遷移との合成の説明図である。第１特性遷移と合成特性遷移との関係の説明図である。第１特性遷移と合成特性遷移との関係の説明図である。第１特性遷移と合成特性遷移との関係の説明図である。音符と特性遷移との関係の説明図である。音符と特性遷移との関係の説明図である。制御装置が実行する処理を例示するフローチャートである。変形例における編集画像の模式図である。

＜第１実施形態＞
図１は、第１実施形態に係る情報処理装置１００の構成を例示するブロック図である。情報処理装置１００は、歌唱者が楽曲（以下「合成楽曲」という）を仮想的に歌唱した音声（以下「合成音声」という）を生成する音声合成装置である。第１実施形態の情報処理装置１００は、複数の発音スタイルのうち何れかの発音スタイルで仮想的に発音される合成音声を生成する。発音スタイルは、例えば特徴的な発音の仕方を意味する。具体的には、例えば音高または音量等の特徴量の時間的な変化に関する特徴（すなわち特徴量の変化パターン）が発音スタイルの一例である。例えばラップ，Ｒ＆Ｂ（rhythm and blues）またはパンク等の各種のジャンルの楽曲に好適な歌い廻しが発音スタイルの一例である。

図１に例示される通り、第１実施形態の情報処理装置１００は、制御装置１１と記憶装置１２と表示装置１３と入力装置１４と放音装置１５とを具備するコンピュータシステムで実現される。例えば携帯電話機もしくはスマートフォン等の可搬型の情報端末、またはパーソナルコンピュータ等の可搬型または据置型の情報端末が、情報処理装置１００として利用される。

表示装置１３は、例えば液晶表示パネルで構成され、制御装置１１から指示された画像を表示する。入力装置１４は、利用者からの指示を受付ける入力機器である。具体的には、利用者が操作可能な操作子、または、表示装置１３の表示面に対する接触を検知するタッチパネルが、入力装置１４として利用される。利用者は、入力装置１４を適宜に操作することで、合成音声の音高の遷移（以下「第１特性遷移」という）を指示することが可能である。放音装置１５（例えばスピーカまたはヘッドホン）は、合成音声を放音する。

制御装置１１は、例えばＣＰＵ（Central Processing Unit）等の１以上のプロセッサで構成され、各種の演算処理および制御処理を実行する。記憶装置１２は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成された１以上のメモリであり、制御装置１１が実行するプログラムと制御装置１１が使用する各種のデータとを記憶する。なお、複数種の記録媒体の組合せにより記憶装置１２を構成してもよい。また、情報処理装置１００とは別体の記憶装置１２（例えばクラウドストレージ）を用意し、制御装置１１が通信網を介して記憶装置１２に対する書込および読出を実行してもよい。すなわち、記憶装置１２を情報処理装置１００から省略してもよい。

第１実施形態の記憶装置１２は、合成データＸと音声素片群Ｌと複数の遷移推定モデルＭとを記憶する。合成データＸは、音声合成の内容を指定する。図１に例示される通り、合成データＸは、範囲データＸ1と楽譜データＸ2とを含む。範囲データＸ1は、合成楽曲内の所定の範囲（以下「特定範囲」という）Ｒと当該特定範囲Ｒ内の発音スタイルＱとを指定するデータである。特定範囲Ｒは、例えば始点時刻と終点時刻とで指定される。１個の合成楽曲内には単数または複数の特定範囲Ｒが設定される。

楽譜データＸ2は、合成楽曲を構成する複数の音符の時系列を指定する音楽ファイルである。楽譜データＸ2は、合成楽曲を構成する複数の音符の各々について音高と音韻（発音文字）と発音期間とを指定する。各音符に関する音量（ベロシティ）等の制御パラメータの数値を楽譜データＸ2が指定してもよい。例えばＭＩＤＩ（Musical Instrument Digital Interface）規格に準拠した形式のファイル（ＳＭＦ：Standard MIDI File）が楽譜データＸ2として利用される。楽譜データＸ2は、ＭＩＤＩで規定されたピッチベンドを指定することが可能である。

音声素片群Ｌは、複数の音声素片で構成される音声合成用ライブラリである。各音声素片は、言語的な意味の最小単位である音素単体（例えば母音または子音）、または複数の音素を連結した音素連鎖である。各音声素片は、時間領域の音声波形のサンプル系列、または音声波形に対応する周波数スペクトルの時系列で表現される。各音声素片は、例えば特定の発声者の収録音声から事前に採取される。

また、第１実施形態の記憶装置１２は、相異なる発音スタイルに対応する複数の遷移推定モデルＭを記憶する。各発音スタイルに対応する遷移推定モデルＭは、当該発音スタイルで発音した音声の音高の遷移を生成するための確率モデルである。具体的には、遷移推定モデルＭは、所定の基準値（例えば音符に対応する音高）に対する音高の相対値の遷移（以下「相対遷移」という）を生成するために利用される。相対遷移が表す音高の相対値は、例えばセントを単位として表現されるピッチベンドである。

各発音スタイルの遷移推定モデルＭは、当該発音スタイルに対応する多数の学習用データを利用した機械学習により事前に生成される。具体的には、学習データが表す音響特性の遷移における各時点の数値を、当該時点におけるコンテキスト（例えば当該時点またはその近傍における音符の音高、強度または音長等）に関連付けて機械学習した生成モデルである。例えば過去の遷移の履歴から現在の遷移を推定する回帰的な確率モデルが遷移推定モデルＭとして利用される。任意の発音スタイルＱの遷移推定モデルＭを楽譜データＸ2に適用することで、当該楽譜データＸ2が指定する音符を当該発音スタイルＱで発音した音声の相対遷移が生成される。各発音スタイルＱの遷移推定モデルＭにより生成される相対遷移には、当該発音スタイルＱに特有の音高の変化が観測される。以上に説明した通り、機械学習による学習済の遷移推定モデルＭを利用して相対遷移が生成されるから、機械学習に利用された学習用データに潜在する傾向を反映した相対遷移を生成することが可能である。なお、遷移推定モデルＭの機械学習に使用するコンテキストに、楽譜データＸ2が指定するピッチベンドを含めてもよい。

図２は、制御装置１１の機能的な構成を例示するブロック図である。図２に例示される通り、制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで、合成音声を表す音声信号Ｚを生成するための複数の機能（表示制御部２１，範囲設定部２２，音符処理部２３および音声合成部２４）を実現する。なお、相互に別体で構成された複数の装置で制御装置１１の機能を実現してもよいし、制御装置１１の機能の一部または全部を専用の電子回路で実現してもよい。

表示制御部２１は、各種の画像を表示装置１３に表示させる。第１実施形態の表示制御部２１は、図３の編集画像Ｇを表示装置１３に表示させる。編集画像Ｇは、合成データＸの内容を表す画像であり、楽譜領域Ｃと指示領域Ｄとを含む。

楽譜領域Ｃは、横方向の時間軸と縦方向の音高軸とが設定された座標平面（ピアノロール画面）であり、合成楽曲の複数の音符の時系列が表示される。表示制御部２１は、図３に例示される通り、合成データＸの範囲データＸ1が指定する特定範囲Ｒと発音スタイルＱの名称とを表示装置１３の楽譜領域Ｃに表示させる。特定範囲Ｒは、楽譜領域Ｃ内における時間軸上の特定の範囲として表現される。また、表示制御部２１は、合成データＸの楽譜データＸ2が指定する音符を表す音符図形Ｎを楽譜領域Ｃに表示させる。音符図形Ｎは、音韻が内部に配置された略矩形状の図形（いわゆるノートバー）である。音高軸の方向における音符図形Ｎの位置は、楽譜データＸ2が指定する音高に応じて設定される。時間軸の方向における音符図形Ｎの端点は、楽譜データＸ2が指定する発音期間に応じて設定される。

指示領域Ｄは、楽譜領域Ｃと共通の時間軸が設定された領域である。指示領域Ｄには利用者からの指示に応じた第１特性遷移Ｖ1（すなわちピッチベンドの時系列）が表示される。具体的には、第１特性遷移Ｖ1は、直線もしくは曲線またはそれらの組合せで表現される。利用者は、入力装置１４を利用して指示領域Ｄを操作することで、第１特性遷移Ｖ1の形状の編集を指示することが可能である。具体的には、表示制御部２１は、利用者からの指示に応じた形状の第１特性遷移Ｖ1を、表示装置１３により指示領域Ｄに描画させる。

図２の範囲設定部２２は、合成楽曲内の特定範囲Ｒについて発音スタイルＱを設定する。利用者は、入力装置１４を適宜に操作することで、特定範囲Ｒの追加または変更と当該特定範囲Ｒの発音スタイルＱとを指示することが可能である。範囲設定部２２は、利用者からの指示に応じて特定範囲Ｒを追加または変更するとともに当該特定範囲Ｒの発音スタイルＱを設定し、当該設定に応じて範囲データＸ1を変更する。また、表示制御部２１は、変更後の範囲データＸ1が指定する特定範囲Ｒおよび発音スタイルＱの名称を表示装置１３に表示させる。なお、特定範囲Ｒが追加された場合に当該特定範囲Ｒの発音スタイルＱを初期値に設定し、利用者からの指示に応じて当該特定範囲Ｒの発音スタイルＱを変更してもよい。

音符処理部２３は、発音スタイルＱが設定された特定範囲Ｒ内に利用者からの指示に応じて音符を配置する。利用者は、入力装置１４を適宜に操作することで、特定範囲Ｒ内の音符の編集（例えば追加、変更または削除）を指示することが可能である。音符処理部２３は、利用者からの指示に応じて楽譜データＸ2を変更する。また、表示制御部２１は、変更後の楽譜データＸ2が指定する各音符に対応する音符図形Ｎを表示装置１３に表示させる。

音声合成部２４は、合成データＸが指定する合成音声の音声信号Ｚを生成する。第１実施形態の音声合成部２４は、素片接続型の音声合成により音声信号Ｚを生成する。具体的には、音声合成部２４は、楽譜データＸ2が指定する各音符の音韻に対応する音声素片を音声素片群Ｌから順次に選択し、各音声素片の音高および発音期間を楽譜データＸ2に応じて調整したうえで相互に接続することで音声信号Ｚを生成する。

第１実施形態の音声合成部２４は、遷移処理部２５を含む。遷移処理部２５は、特定範囲Ｒ毎に合成特性遷移Ｖを生成する。合成特性遷移Ｖは、第１特性遷移Ｖ1と第２特性遷移Ｖ2とを合成した音響特性（具体的には音高）の遷移である。第２特性遷移Ｖ2は、特定の発音スタイルＱで発音される音声の音響特性の遷移である。すなわち、第１実施形態の合成特性遷移Ｖには、利用者が指示領域Ｄに描画した第１特性遷移Ｖ1と、特定の発音スタイルＱに対応する第２特性遷移Ｖ2との双方が反映される。音声合成部２４は、遷移処理部２５が生成した合成特性遷移Ｖに沿って音高が変化する合成音声の音声信号Ｚを生成する。すなわち、各音符の音韻に応じて選択された音声素片の音高が合成特性遷移Ｖに沿うように調整される。

図３に例示される通り、表示制御部２１は、遷移処理部２５が生成した合成特性遷移Ｖを楽譜領域Ｃに表示させる。以上の説明から理解される通り、特定範囲Ｒ内の音符の音符図形Ｎと当該特定範囲Ｒ内の合成特性遷移Ｖとが楽譜領域Ｃに表示されるとともに、利用者からの指示に応じた第１特性遷移Ｖ1が楽譜領域Ｃと共通の時間軸のもとで指示領域Ｄに表示される。したがって、特定範囲Ｒ内の音符と合成特性遷移Ｖと第１特性遷移Ｖ1との時間的な関係を利用者が視覚的に把握できる。なお、音符図形Ｎと合成特性遷移Ｖとを別個の領域に表示してもよい。

図４は、第１実施形態における遷移処理部２５の構成を例示するブロック図である。図４に例示される通り、第１実施形態の遷移処理部２５は、第１遷移生成部２５１と第２遷移生成部２５２と遷移合成部２５３とを具備する。

第１遷移生成部２５１は、指示領域Ｄに対する利用者からの指示に応じた第１特性遷移Ｖ1を生成する。具体的には、第１遷移生成部２５１は、入力装置１４を利用して利用者が指示領域Ｄに指示した線図に対応する第１特性遷移Ｖ1（すなわちピッチベンドの時系列）を生成する。第１特性遷移Ｖ1は、ピッチベンドの時系列として楽譜データＸ2に含められる。

第２遷移生成部２５２は、合成データＸから第２特性遷移Ｖ2を生成する。第１実施形態の第２遷移生成部２５２は、基礎遷移生成部３１と相対遷移生成部３２と調整処理部３３とを含む。

基礎遷移生成部３１は、合成データＸが音符毎に指定する音高に対応する基礎遷移Ｖbを生成する。基礎遷移Ｖbは、相前後する音符間で音高が滑らかに遷移する基礎的な音響特性の遷移である。他方、相対遷移生成部３２は、合成データＸから相対遷移Ｖrを生成する。相対遷移Ｖrは、前述の通り、基礎遷移Ｖbを基準とした音高の相対値（すなわち基礎遷移Ｖbからの音高差である相対ピッチ）の遷移である。相対遷移Ｖrの生成には遷移推定モデルＭが利用される。具体的には、相対遷移生成部３２は、複数の遷移推定モデルＭのうち、特定範囲Ｒに設定された発音スタイルＱの遷移推定モデルＭを選択し、楽譜データＸ2のうち特定範囲Ｒ内の部分に当該遷移推定モデルＭを適用することで相対遷移Ｖrを生成する。

調整処理部３３は、基礎遷移生成部３１が生成した基礎遷移Ｖbと相対遷移生成部３２が生成した相対遷移Ｖrとを調整および合成することで第２特性遷移Ｖ2を生成する。具体的には、調整処理部３３は、各音符の音韻に応じて選択された各音声素片における有声音および無声音の時間長、または各音符の音量等の制御パラメータに応じて、基礎遷移Ｖbまたは相対遷移Ｖrを調整し、調整後の基礎遷移Ｖbと相対遷移Ｖrとを合成することで第２特性遷移Ｖ2を生成する。なお、基礎遷移Ｖbまたは相対遷移Ｖrの調整に反映される情報は以上の例示に限定されない。また、基礎遷移Ｖbと相対遷移Ｖrとを合成してから調整を実行してもよい。

遷移合成部２５３は、第１遷移生成部２５１が生成した第１特性遷移Ｖ1と第２遷移生成部２５２が生成した第２特性遷移Ｖ2とを合成することで合成特性遷移Ｖを生成する。合成特性遷移Ｖのうち時間軸上の任意の時点における特性値（すなわち音高の数値）ｖは、図５に例示される通り、第１特性遷移Ｖ1のうち当該時点での特性値ｖ1と、第２特性遷移Ｖ2のうち当該時点での特性値ｖ2との加算値である。セント値の加算は、リニアスケールにおける乗算に相当する。なお、特性値ｖ1と特性値ｖ2との加重和を特性値ｖとして算定してもよい。特性値ｖ1の加重値および特性値ｖ2の加重値の各々は、例えば入力装置１４に対する利用者からの指示に応じて可変に設定される。

なお、調整処理部３３による調整を遷移合成部２５３が実行してもよい。例えば、遷移合成部２５３は、相対遷移Ｖrを調整し、第１特性遷移Ｖ1と基礎遷移Ｖbと調整後の相対遷移Ｖrとを合成することで合成特性遷移Ｖを生成する。以上の構成では、基礎遷移生成部３１が生成した基礎遷移Ｖbと相対遷移生成部３２が生成した相対遷移Ｖrとの組が、第２特性遷移Ｖ2として第２遷移生成部２５２から遷移合成部２５３に供給される。なお、調整処理部３３を省略してもよい。

図６には、利用者が、新規の楽譜データＸ2における特定範囲Ｒに音符を設定してから、第１特性遷移Ｖ1を指示していない状態における合成特性遷移Ｖが図示され、図７には、図６の状態から利用者が第１特性遷移Ｖ1を指示した状態における合成特性遷移Ｖが図示されている。図６の状態では、第１特性遷移Ｖ1の各時点の特性値ｖ1が初期値（ピッチベンド＝ゼロ）に設定されている。したがって、特定の発音スタイルＱ1（第１発音スタイルの例示）に対応する第２特性遷移Ｖ2が、合成特性遷移Ｖとして楽譜領域Ｃに表示される。具体的には、基礎遷移Ｖbと相対遷移Ｖrとの合成に相当する合成特性遷移Ｖが楽譜領域Ｃに表示される。利用者が第１特性遷移Ｖ1を指示すると、楽譜領域Ｃ内の合成特性遷移Ｖは、図７に例示される通り、第２特性遷移Ｖ2に第１特性遷移Ｖ1を反映させた形状に変更される。

図６および図７においては、特定範囲Ｒに発音スタイルＱ1が設定された場合が想定されている。他方、図８には、特定範囲Ｒの発音スタイルＱが発音スタイルＱ1から発音スタイルＱ2（第２発音スタイルの例示）に変更された場合の合成特性遷移Ｖが図示されている。図８に例示される通り、発音スタイルＱ1から発音スタイルＱ2に変更されると、第２遷移生成部２５２が生成する第２特性遷移Ｖ2は、発音スタイルＱ1に対応する遷移推定モデルＭによる特性遷移から、発音スタイルＱ2に対応する遷移推定モデルＭによる特性遷移に変更される。他方、図７および図８から理解される通り、発音スタイルＱが変更されても、楽譜データＸ2が指定する第１特性遷移Ｖ1は変更されない。すなわち、第１特性遷移Ｖ1が維持されたまま、第２特性遷移Ｖ2が発音スタイルＱに連動して変化し、合成特性遷移Ｖにも結果的に発音スタイルＱの変更が反映される。

次に、遷移処理部２５が生成する合成特性遷移Ｖと音符との関係を説明する。図９には、特定範囲Ｒ内に第１音符ｎ1（音符図形Ｎ1）が設定された第１状態が図示され、図１０には、第１状態の特定範囲Ｒに第２音符ｎ2（音符図形Ｎ2）を追加した第２状態が図示されている。

第２遷移生成部２５２が生成する第２特性遷移Ｖ2は、特定範囲Ｒ内に配置された音符の時系列に影響される。したがって、図９および図１０から理解される通り、第１状態と第２状態との間では、合成特性遷移Ｖのうち第１音符ｎ1に対応する部分が相違する。すなわち、特定範囲Ｒ内における第２音符ｎ2の有無に応じて、合成特性遷移Ｖのうち第１音符ｎ1に対応する部分の形状が変化する。例えば、第２音符ｎ2の追加により第１状態から第２状態に遷移すると、合成特性遷移Ｖは、第１音符ｎ1の終点で低下する形状（第１状態での形状）から、第１音符ｎ1から第２音符ｎ2に向けて上昇する形状（第２状態での形状）に変化する。

以上に説明した通り、第１実施形態では、特定範囲Ｒ内における第２音符ｎ2の有無に応じて合成特性遷移Ｖのうち第１音符ｎ1に対応する部分が変化する。したがって、単体の音符だけでなく周囲の音符の相互間の関係にも影響されるという傾向を反映した自然な合成特性遷移Ｖを生成することが可能である。

図１１は、第１実施形態の制御装置１１が実行する処理（以下「編集処理」という）の具体的な手順を例示するフローチャートである。例えば入力装置１４に対する利用者からの指示を契機として図１１の編集処理が開始される。

編集処理を開始すると、表示制御部２１は、まず、編集画像Ｇを表示装置１３に表示させる（Ｓ1）。例えば、楽譜データＸ2を新規に作成した直後の段階では、楽譜領域Ｃに特定範囲Ｒおよび音符が設定されていない初期的な編集画像Ｇが表示される。範囲設定部２２は、楽譜領域Ｃ内の特定範囲Ｒと当該特定範囲Ｒの発音スタイルＱとを、利用者からの指示に応じて設定する（Ｓ2）。すなわち、合成楽曲の音符の設定前に特定範囲Ｒの発音スタイルＱが設定される。表示制御部２１は、特定範囲Ｒおよび発音スタイルＱを表示装置１３に表示させる（Ｓ3）。

利用者は、以上の手順で設定された特定範囲Ｒについて、楽譜領域Ｃ内の音符と指示領域Ｄ内の第１特性遷移Ｖ1との編集を指示することが可能である。制御装置１１は、利用者から音符の編集が指示されたか否かを判定する（Ｓ4）。

利用者から音符の編集が指示されると（Ｓ4：YES）、音符処理部２３は、当該指示に応じて特定範囲Ｒ内の音符を編集する（Ｓ5）。例えば、音符処理部２３は、利用者からの指示に応じた音符の編集（追加、変更または削除）を実行し、その編集の結果に応じて楽譜データＸ2を変更する。発音スタイルＱが設定された特定範囲Ｒ内に音符が追加されることで、当該音符にも発音スタイルＱが適用される。表示制御部２１は、楽譜領域Ｃ内の編集後の音符を表示装置１３に表示させる（Ｓ6）。

遷移処理部２５は、特定範囲Ｒに設定された発音スタイルＱで当該特定範囲Ｒ内の音符を発音した場合の合成特性遷移Ｖを生成する（Ｓ7）。具体的には、編集後の音符に対応する第２特性遷移Ｖ2が第２遷移生成部２５２により生成され、第１遷移生成部２５１が生成した第１特性遷移Ｖ1に当該第２特性遷移Ｖ2を合成することで合成特性遷移Ｖが生成される。すなわち、特定範囲Ｒ内における音符の編集毎に当該特定範囲Ｒの合成特性遷移Ｖの形状が変更される。表示制御部２１は、遷移処理部２５が生成した合成特性遷移Ｖを表示装置１３の指示領域Ｄに表示させる（Ｓ8）。

以上に説明した通り、第１実施形態では、発音スタイルＱが設定された特定範囲Ｒ内に音符が配置され、特定範囲Ｒに設定された発音スタイルＱで当該特定範囲Ｒ内の音符を発音した音声の合成特性遷移Ｖが生成される。したがって、利用者が音符の編集を指示すると、当該編集後の音符に対して発音スタイルＱが自動的に設定される。すなわち、各音符の発音スタイルＱを利用者が指定する作業の負荷を軽減することが可能である。

制御装置１１は、利用者から第１特性遷移Ｖ1の編集が指示されたか否かを判定する（Ｓ9）。第１特性遷移Ｖ1の編集が指示されると（Ｓ9：YES）、表示制御部２１は、利用者からの指示に応じて、楽譜データＸ2が指定する第１特性遷移Ｖ1を編集するとともに、その編集後の第１特性遷移Ｖ1を指示領域Ｄ内に表示する（Ｓ10）。また、遷移処理部２５は、当該編集を反映した合成特性遷移Ｖを生成する（Ｓ11）。具体的には、利用者からの指示に応じた第１特性遷移Ｖ1が第１遷移生成部２５１により生成され、第２遷移生成部２５２が生成した第２特性遷移Ｖ2に当該第１特性遷移Ｖ1を合成することで合成特性遷移Ｖが生成される。すなわち、第１特性遷移Ｖ1の編集毎に合成特性遷移Ｖが変更される。表示制御部２１は、遷移処理部２５が生成した合成特性遷移Ｖを表示装置１３に表示させる（Ｓ12）。

以上の説明から理解される通り、楽譜領域Ｃ内の音符または指示領域Ｄ内の第１特性遷移Ｖ1の編集毎に、当該特定範囲Ｒの合成特性遷移Ｖの生成（Ｓ7，Ｓ11）と当該合成特性遷移Ｖの表示（Ｓ8，Ｓ12）とが実行される。したがって、利用者は、編集画像Ｇに対する編集毎に、当該編集を反映した合成特性遷移Ｖを確認できる。

以上に説明した通り、第１実施形態では、利用者からの指示に応じた第１特性遷移Ｖ1と、複数の発音スタイルＱから選択された特定の発音スタイルＱに対応する第２特性遷移Ｖ2とを合成することで、音声合成用の合成特性遷移Ｖが生成される。したがって、利用者からの指示のみに応じて合成特性遷移Ｖを生成する構成と比較して、合成音声の音響特性の遷移を調整する作業の負荷を軽減することが可能である。

第１実施形態では、利用者が描画した線図が第１特性遷移Ｖ1として利用されるから、合成特性遷移Ｖを利用者の意図に応じて微細に調整することが可能である。また、発音スタイルＱが変更された場合に、第１特性遷移Ｖ1が維持されたまま第２特性遷移Ｖ2が変更されるから、発音スタイルＱの変更の前後にわたり利用者の意図を忠実に反映した合成特性遷移Ｖを生成できるという利点がある。

＜第２実施形態＞
第２実施形態を説明する。なお、以下の各例示において機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

第１実施形態では、利用者が設定した発音スタイルＱの遷移推定モデルＭを利用して当該発音スタイルＱの相対遷移Ｖrを生成した。第２実施形態の遷移処理部２５は、事前に用意された表現サンプルを利用して相対遷移Ｖr（ひいては合成特性遷移Ｖ）を生成する。

第２実施形態の記憶装置１２は、複数の発音表現にそれぞれ対応する複数の表現サンプルを記憶する。各発音表現の表現サンプルは、当該発音表現により発音される音声の音高（具体的には相対値）の遷移を表す複数のサンプルの時系列である。相異なる条件（コンテキスト）に対応する複数の表現サンプルが発音スタイルＱ毎に記憶装置１２に記憶される。

第２実施形態の遷移処理部２５は、特定範囲Ｒに設定された発音スタイルＱに対応する表現選択モデルにより表現サンプルを選択し、当該表現サンプルを利用して相対遷移Ｖr（ひいては合成特性遷移Ｖ）を生成する。表現選択モデルは、楽譜データＸ2が指定する音符に適用される表現サンプルの選択の傾向を、発音スタイルＱおよびコンテキストに関連付けて機械学習した分類モデルである。例えば、多様な発音表現について熟知した作業者が、特定の発音スタイルＱおよびコンテキストに対して適切な表現サンプルを選択し、当該コンテキストを表す楽譜データＸ2と作業者が選択した表現サンプルとを対応させた学習データを機械学習に利用することで、発音スタイルＱ毎の表現選択モデルが生成される。特定の表現サンプルが１個の音符に適用されるか否かは、当該音符の特性（音高または音長）だけでなく、当該音符の前後の音符の特性、または、前後の音符に適用された表現サンプルにも影響される。

第２実施形態の相対遷移生成部３２は、編集処理（図７）のステップＳ7において、特定範囲Ｒの発音スタイルＱに対応する表現選択モデルを利用して表現サンプルを選択する。具体的には、相対遷移生成部３２は、表現選択モデルを利用して、楽譜データＸ2が指定する複数の音符のうち表現サンプルを適用する音符と、当該音符に適用される表現サンプルとを選択する。そして、相対遷移生成部３２は、当該音符については当該選択した表現サンプルの音高の遷移を適用することで相対遷移Ｖrを生成する。調整処理部３３は、第１実施形態と同様に、基礎遷移生成部３１が生成した基礎遷移Ｖbと相対遷移生成部３２が生成した相対遷移Ｖrとから第２特性遷移Ｖ2を生成する。

以上の説明から理解される通り、第２実施形態の遷移処理部２５は、特定範囲Ｒ内の各音符について発音スタイルＱに応じて選択された表現サンプルの音高の遷移から合成特性遷移Ｖを生成する。遷移処理部２５が生成した合成特性遷移Ｖの表示、および、合成特性遷移Ｖを利用した音声信号Ｚの生成は、第１実施形態と同様である。

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、発音スタイルＱに応じた傾向で選択された表現サンプルの音高の遷移に応じて第２特性遷移Ｖ2が生成されるから、表現サンプルにおける音高の遷移の傾向を忠実に反映した合成特性遷移Ｖを生成することが可能である。

＜第３実施形態＞
第３実施形態においては、遷移処理部２５による合成特性遷移Ｖの生成に調整パラメータＰが適用される。調整パラメータＰの数値は、入力装置１４に対する利用者からの指示に応じて可変に設定される。第３実施形態の調整パラメータＰは、第１パラメータＰ1と第２パラメータＰ2とを含む。遷移処理部２５の調整処理部３３は、利用者からの指示に応じて第１パラメータＰ1および第２パラメータＰ2の各々の数値を設定する。第１パラメータＰ1および第２パラメータＰ2は特定範囲Ｒ毎に設定される。

調整処理部３３は、各特定範囲Ｒの相対遷移Ｖrにおける微細な変動を、当該特定範囲Ｒに設定された第１パラメータＰ1の数値に応じて制御する。例えば、相対遷移Ｖrにおける高周波成分（すなわち時間的に不安定で微細な変動成分）が第１パラメータＰ1に応じて抑制される。微細な変動が抑制された歌唱音声は、歌唱に熟練した印象を受聴者に付与する。したがって、第１パラメータＰ1は、合成音声が表す歌唱の巧拙に関するパラメータに相当する。

また、調整処理部３３は、各特定範囲Ｒ内の相対遷移Ｖrにおける音高の変動幅を、当該特定範囲Ｒに設定された第２パラメータＰ2の数値に応じて制御する。音高の変動幅は、合成音声の受聴者が感取する抑揚に影響する。すなわち、音高の変動幅が大きいほど抑揚が大きい合成音声と受聴者に知覚される。したがって、第２パラメータＰ2は、合成音声の抑揚に関するパラメータに相当する。調整処理部３３が生成した合成特性遷移Ｖの表示、および、合成特性遷移Ｖを利用した音声信号Ｚの生成は、第１実施形態と同様である。

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態によれば、利用者からの指示に応じて設定される調整パラメータＰに応じて多様な合成特性遷移Ｖを生成することが可能である。

なお、以上の説明では、特定範囲Ｒについて調整パラメータＰを設定したが、調整パラメータＰの設定の範囲は以上の例示に限定されない。具体的には、合成楽曲の全体について調整パラメータＰを設定してもよいし、音符毎に調整パラメータＰを調整してもよい。例えば、第１パラメータＰ1は合成楽曲の全体について設定され、第２パラメータＰ2は合成楽曲の全体または音符毎に設定される。

＜変形例＞
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）前述の各形態では、１種類の音色の音声素片群Ｌを音声合成に利用したが、複数の音声素片群Ｌを選択的に音声合成に利用してもよい。複数の音声素片群Ｌは、相異なる発声者の音声から抽出された音声素片で構成される。すなわち、各音声素片の音色は、音声素片群Ｌ毎に相違する。音声合成部２４は、複数の音声素片群Ｌのうち利用者からの指示に応じて選択された音声素片群Ｌを利用した音声合成により音声信号Ｚを生成する。すなわち、複数の音色のうち利用者からの指示に応じた音色の合成音声を表す音声信号Ｚが生成される。以上の構成によれば、多様な音色の合成音声を生成することが可能である。なお、合成楽曲内の区間毎（例えば特定範囲Ｒ毎）に音声素片群Ｌを選択してもよい。

（２）前述の各形態では、特定範囲Ｒ内の全体にわたる合成特性遷移Ｖを音符の編集毎に変更したが、合成特性遷移Ｖの一部を変更してもよい。すなわち、遷移処理部２５は、特定範囲Ｒの合成特性遷移Ｖのうち編集対象の音符を含む特定の範囲（以下「変更範囲」という）を変更する。変更範囲は、例えば編集対象の音符の前後の音符が連続する範囲（例えば合成楽曲の１個のフレーズに相当する期間）である。以上の構成によれば、音符の編集毎に特定範囲Ｒの全体にわたる合成特性遷移Ｖを生成する構成と比較して遷移処理部２５の処理の負荷を軽減することが可能である。

（３）遷移推定モデルＭを利用した第２特性遷移Ｖ2の生成（第１実施形態）と、表現サンプルを利用した第２特性遷移Ｖ2の生成（第２実施形態）とを併用してもよい。例えば、合成楽曲のうち第１区間については、遷移推定モデルＭを利用して第２特性遷移Ｖ2を生成し、第１区間とは異なる第２区間については、表現サンプルを利用して第２特性遷移Ｖ2が生成される。遷移推定モデルＭを利用した第２特性遷移Ｖ2の生成と、表現サンプルを利用した第２特性遷移Ｖ2の生成とを、合成楽曲の音符毎に選択的に適用してもよい。

（４）楽譜領域Ｃ内に第１音符ｎ1が追加されてから、当該追加後の音符の時系列に対応する合成特性遷移Ｖを遷移処理部２５が生成する処理の完了前に、別個の第２音符ｎ2の編集が利用者から指示される場合がある。以上の場合、第１音符ｎ1の追加に対応する合成特性遷移Ｖの生成の途中結果を破棄したうえで、第１音符ｎ1と第２音符ｎ2とを含む音符の時系列に対応する合成特性遷移Ｖを遷移処理部２５が生成する。

（５）前述の各形態では、合成楽曲の各音符に対応する音符図形Ｎを楽譜領域Ｃ内に表示したが、音符図形Ｎとともに（または音符図形Ｎに代えて）、音声信号Ｚが表す音声波形を楽譜領域Ｃ内に配置してもよい。例えば図１２に例示される通り、各音符の音符図形Ｎに重なるように、音声信号Ｚのうち当該音符に対応する部分の音声波形Ｗが表示される。

（６）前述の各形態では、楽譜領域Ｃに合成特性遷移Ｖを表示したが、合成特性遷移Ｖに加えて（または合成特性遷移Ｖに代えて）、基礎遷移Ｖbおよび第２特性遷移Ｖ2の一方または双方を表示装置１３に表示してもよい。基礎遷移Ｖbまたは第２特性遷移Ｖ2は、合成特性遷移Ｖとは別個の表示態様（すなわち視覚的に弁別できる画像の性状）で表示される。具体的には、基礎遷移Ｖbまたは第２特性遷移Ｖ2は、合成特性遷移Ｖとは別個の色彩または線種で表示される。

（７）前述の各形態では、合成音声の音高の遷移を合成特性遷移Ｖとして例示したが、合成特性遷移Ｖにより表現される音響特性は音高に限定されない。例えば、合成音声の音量の遷移を合成特性遷移Ｖとして遷移処理部２５が生成してもよい。

（８）前述の各形態では、特定範囲Ｒ毎に発音スタイルＱを設定したが、合成楽曲内において発音スタイルＱが設定される範囲は特定範囲Ｒに限定されない。例えば、合成楽曲の全体にわたり１個の発音スタイルＱを設定してもよいし、音符毎に発音スタイルＱを設定してもよい。

（９）前述の各形態では、合成音声を生成する音声合成装置を情報処理装置１００として例示したが、合成音声の生成までは必須ではない。例えば、合成音声の特性遷移Ｖを生成する特性遷移生成装置としても情報処理装置１００は実現される。特性遷移生成装置において、合成音声の音声信号Ｚを生成する機能（音声合成部２４）の有無は不問である。

（１０）前述の各形態に係る情報処理装置１００の機能は、コンピュータ（例えば制御装置１１）とプログラムとの協働により実現される。本開示のひとつの態様に係るプログラムは、音響特性の遷移である第１特性遷移Ｖ1を利用者からの指示に応じて生成する第１遷移生成部２５１、特定の発音スタイルで発音される音声の音響特性の遷移である第２特性遷移Ｖ2を生成する第２遷移生成部２５２、および、第１特性遷移Ｖ1と第２特性遷移Ｖ2との合成により、合成音声の音響特性の遷移である合成特性遷移Ｖを生成する遷移合成部２５３、としてコンピュータを機能させる。

以上に例示したプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含む。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。

＜付記＞
以上に例示した形態から、例えば以下の構成が把握される。

本開示のひとつの態様（第１態様）に係る情報処理方法は、音響特性の遷移である第１特性遷移を利用者からの指示に応じて生成し、複数の発音スタイルから選択された特定の発音スタイルで発音される音声の音響特性の遷移である第２特性遷移を生成し、前記第１特性遷移と前記第２特性遷移との合成により、合成音声の音響特性の遷移である合成特性遷移を生成する。以上の態様では、利用者からの指示に応じた第１特性遷移と、複数の発音スタイルから選択された特定の発音スタイルに対応する第２特性遷移とを合成することで、合成音声の合成特性遷移が生成される。したがって、利用者からの指示のみに応じて合成特性遷移を生成する構成と比較して、合成音声の音響特性の遷移を調整する作業の負荷を軽減することが可能である。

第１態様の一例（第２態様）において、前記第１特性遷移は、前記利用者が描画した線図で表現される。以上の態様では、利用者が描画した線図が第１特性遷移として利用されるから、合成特性遷移を利用者の意図に応じて微細に調整することが可能である。

第１態様または第２態様の一例（第３態様）において、前記第２特性遷移の生成においては、前記複数の発音スタイルにそれぞれ対応する複数の遷移推定モデルのうち、前記特定の発音スタイルに対応する遷移推定モデルを利用して、前記第２特性遷移を生成する。以上の態様では、機械学習による学習済の遷移推定モデルを利用して第２特性遷移が生成されるから、機械学習に利用された学習用データに潜在する傾向を反映した合成特性遷移を生成することが可能である。

第１態様または第２態様の一例（第４態様）において、前記第２特性遷移の生成においては、前記複数の発音スタイルにそれぞれ対応する音声を表す複数の表現サンプルのうち、前記特定の発音スタイルに対応する表現サンプルの音響特性の遷移を前記第２特性遷移として生成する。以上の態様では、表現サンプルの音響特性の遷移に応じて第２特性遷移が生成されるから、表現サンプルにおける音響特性の遷移の傾向を忠実に反映した合成特性遷移を生成することが可能である。

第１態様または第２態様の一例（第５態様）において、前記第２特性遷移の生成においては、複数の表現選択モデルのうち前記特定の発音スタイルに対応する表現選択モデルを利用して、音声を表す複数の表現サンプルから音符に対応する表現サンプルを選択し、当該表現サンプルの特性の遷移に応じて前記第２特性遷移を生成する。以上の態様では、音符の状況に応じた適切な表現サンプルを表現選択モデルにより選択することが可能である。なお、表現選択モデルは、音符に適用される表現サンプルの選択の傾向を発音スタイルおよびコンテキストに関連付けて機械学習した分類モデルである。音符に関するコンテキストは、当該音符に関する状況であり、例えば当該音符またはその周囲の音符の音高、強度または音長等である。

第１態様から第５態様の何れかの一例（第６態様）において、前記特定の発音スタイルが第１発音スタイルから第２発音スタイルに変更された場合、前記第１特性遷移を維持したまま、前記第２特性遷移を、前記第１発音スタイルに対応する特性遷移から前記第２発音スタイルに対応する特性遷移に変更する。以上の態様では、発音スタイルが変更された場合に、第１特性遷移が維持されたまま第２特性遷移が変更されるから、発音スタイルの変更の前後にわたり利用者の意図を忠実に反映した合成特性遷移を生成できるという利点がある。

第１態様から第６態様の何れかの一例（第７態様）において、前記合成特性遷移の生成においては、利用者からの指示に応じて設定される調整パラメータに応じた前記合成特性遷移を生成する。以上の態様によれば、利用者からの指示に応じて設定される調整パラメータに応じて多様な合成特性遷移を生成することが可能である。

第１態様から第７態様の何れかの一例（第８態様）において、前記合成特性遷移に沿って前記音響特性が変化する合成音声を表す音声信号を生成する。以上の態様によれば、合成音声の音響特性の遷移を調整する作業の負荷を軽減しながら、特性遷移を反映した合成音声の音声信号を生成することが可能である。

第８態様の一例（第９態様）において、前記音声信号の生成においては、複数の音色のうち利用者からの指示に応じて選択された音色の合成音声を表す前記音声信号を生成する。以上の態様によれば、多様な音色の合成音声を生成することが可能である。

以上に例示した各態様の情報処理方法を実行する情報処理装置、または、以上に例示した各態様の情報処理方法をコンピュータに実行させるプログラムとしても、本開示のひとつの態様は実現される。

１００…情報処理装置、１１…制御装置、１２…記憶装置、１３…表示装置、１４…入力装置、１５…放音装置、２１…表示制御部、２２…範囲設定部、２３…音符処理部、２４…音声合成部、２５…遷移処理部、２５１…第１遷移生成部、２５２…第２遷移生成部、２５３…遷移合成部、３１…基礎遷移生成部、３２…相対遷移生成部、３３…調整処理部。

Claims

音響特性の遷移である第１特性遷移を利用者からの指示に応じて生成し、
複数の発音スタイルから選択された特定の発音スタイルで発音される音声の音響特性の遷移である第２特性遷移を生成し、
前記第１特性遷移と前記第２特性遷移との合成により、合成音声の音響特性の遷移である合成特性遷移を生成する
コンピュータにより実現される情報処理方法。
前記第１特性遷移は、前記利用者が描画した線図で表現される
請求項１の情報処理方法。
前記第２特性遷移の生成においては、前記複数の発音スタイルにそれぞれ対応する複数の遷移推定モデルのうち、前記特定の発音スタイルに対応する遷移推定モデルを利用して、前記第２特性遷移を生成する
請求項１または請求項２の情報処理方法。
前記第２特性遷移の生成においては、前記複数の発音スタイルにそれぞれ対応する音声を表す複数の表現サンプルのうち、前記特定の発音スタイルに対応する表現サンプルの音響特性の遷移を前記第２特性遷移として生成する
請求項１または請求項２の情報処理方法。
前記第２特性遷移の生成においては、複数の表現選択モデルのうち前記特定の発音スタイルに対応する表現選択モデルを利用して、音声を表す複数の表現サンプルから音符に対応する表現サンプルを選択し、当該表現サンプルの特性の遷移に応じて前記第２特性遷移を生成する
請求項１または請求項２の情報処理方法。
前記特定の発音スタイルが第１発音スタイルから第２発音スタイルに変更された場合、前記第１特性遷移を維持したまま、前記第２特性遷移を、前記第１発音スタイルに対応する特性遷移から前記第２発音スタイルに対応する特性遷移に変更する
請求項１から請求項５の何れかの情報処理方法。
前記合成特性遷移の生成においては、前記利用者からの指示に応じて設定される調整パラメータに応じた前記合成特性遷移を生成する
請求項１から請求項６の何れかの情報処理方法。
音響特性の遷移である第１特性遷移を利用者からの指示に応じて生成する第１遷移生成部と、
特定の発音スタイルで発音される音声の音響特性の遷移である第２特性遷移を生成する第２遷移生成部と、
前記第１特性遷移と前記第２特性遷移との合成により、合成音声の音響特性の遷移である合成特性遷移を生成する遷移合成部と
を具備する情報処理装置。
前記第１特性遷移は、前記利用者が描画した線図で表現される
請求項８の情報処理装置。
前記第２遷移生成部は、前記複数の発音スタイルにそれぞれ対応する複数の遷移推定モデルのうち、前記特定の発音スタイルに対応する遷移推定モデルを利用して、前記第２特性遷移を生成する
請求項８または請求項９の情報処理装置。
前記第２遷移生成部は、前記複数の発音スタイルにそれぞれ対応する音声を表す複数の表現サンプルのうち、前記特定の発音スタイルに対応する表現サンプルの音響特性の遷移を前記第２特性遷移として生成する
請求項８または請求項９の情報処理装置。
前記第２遷移生成部は、複数の表現選択モデルのうち前記特定の発音スタイルに対応する表現選択モデルを利用して、音声を表す複数の表現サンプルから音符に対応する表現サンプルを選択し、当該表現サンプルの特性の遷移に応じて前記第２特性遷移を生成する
請求項８または請求項９の情報処理装置。
前記特定の発音スタイルが第１発音スタイルから第２発音スタイルに変更された場合、前記第１特性遷移を維持したまま、前記第２特性遷移を、前記第１発音スタイルに対応する特性遷移から前記第２発音スタイルに対応する特性遷移に変更する
請求項８から請求項１２の何れかの情報処理装置。
前記利用者からの指示に応じて設定される調整パラメータに応じた前記合成特性遷移を生成する調整処理部
を具備する請求項８から請求項１３の何れかの情報処理装置。
音響特性の遷移である第１特性遷移を利用者からの指示に応じて生成する第１遷移生成部、
特定の発音スタイルで発音される音声の音響特性の遷移である第２特性遷移を生成する第２遷移生成部、および、
前記第１特性遷移と前記第２特性遷移との合成により、合成音声の音響特性の遷移である合成特性遷移を生成する遷移合成部
としてコンピュータを機能させるプログラム。