WO2019240042A1

WO2019240042A1 - 表示制御方法、表示制御装置およびプログラム

Info

Publication number: WO2019240042A1
Application number: PCT/JP2019/022750
Authority: WO
Inventors: 誠橘
Original assignee: ヤマハ株式会社
Priority date: 2018-06-15
Filing date: 2019-06-07
Publication date: 2019-12-19
Also published as: US20210096808A1; US11893304B2; JP6992894B2; JPWO2019240042A1

Abstract

表示制御装置は、音合成により生成される合成音と、合成音に対して付加されるブレス音とを指定する合成データに応じて、音高軸と時間軸とが設定された領域に、時間軸上の長さが音符の継続長に応じて設定された音符画像と、時間軸上の長さがブレス音の継続長に応じて設定されたブレス画像とを配置した処理画像を、表示装置に表示させる表示制御部を具備する。

Description

表示制御方法、表示制御装置およびプログラム

　本開示は、音合成に利用する合成データを表示する技術に関する。

　発音期間と音高とを音符毎に指定する合成情報に応じて所望の音声を合成する音合成技術が従来から提案されている。例えば、特許文献１には、音高に対応する音高軸と時間に対応する時間軸とが設定されたピアノロール型の編集画面を利用して、利用者が楽曲を構成する各音符の音高や発音文字や発音期間を視覚的に確認しながら合成情報を編集する構成が開示されている。編集画面には、合成情報が指定する音符を表す音符図像が配置される。また、楽曲に挿入されるブレス音の時間波形が配置されたブレス音画面が、編集画面とは異なる領域に表示される。

特開２０１５－１６１８２２号公報

　しかし、特許文献１の技術では、音符図像とブレス音の時間波形とが異なる領域に表示されるため、時間軸上においてブレス音が挿入される位置を利用者が把握しにくいという問題がある。以上の事情を背景として、本開示の一つの態様は、合成音と効果音との位置関係を利用者が容易に把握することを目的とする。

　以上の課題を解決するために、本開示の一つの態様に係る表示制御方法は、音合成により生成される合成音と、前記合成音に対して付加される効果音とを指定する合成データに応じて、音高軸と時間軸とが設定された領域に、前記合成音に対応する音符を表わす第１画像と、前記効果音を表す第２画像とを配置した処理画像を、表示装置に表示させる。
　本開示の一つの態様に係る表示制御装置は、音合成により生成される合成音と、前記合成音に対して付加される効果音とを指定する合成データに応じて、音高軸と時間軸とが設定された領域に、前記合成音に対応する音符を表わす第１画像と、前記効果音を表す第２画像とを配置した処理画像を、表示装置に表示させる表示制御部を具備する。

第１実施形態における音声合成装置の構成を例示するブロック図である。合成データの模式図である。処理画像の一例を示す図である。処理画像を表示する処理のフローチャートである。第２実施形態に係る処理画像の一例を示す図である。第３実施形態に係る処理画像の一例を示す図である。変形例に係る処理画像の一例を示す図である。

＜第１実施形態＞
　図１は、本開示の第１実施形態に係る音声合成装置１００のブロック図である。音声合成装置１００は、例えば、発話音声や歌唱音声等の音声を素片接続型の音声合成処理で生成する信号処理装置である。第１実施形態では、特定の楽曲（以下「合成楽曲」という）の歌唱音声が音声合成により生成される。歌唱音声は、本来の音声合成の目的となる音（以下「合成音」という）と、当該合成音に対して付加される音（以下「効果音」という）とで構成される。合成音は、合成楽曲を構成する音符毎の音である。なお、合成音は、素片接続以外の方式で合成してもよい。他方、効果音は、合成楽曲の楽譜を構成する音符以外の音である。すなわち、歌唱音声は、効果音が付加された複数の合成音の時系列である。第１実施形態では、ブレス（息継ぎ）音を効果音として例示する。

　図１に例示される通り、音声合成装置１００は、制御装置２０と記憶装置３０と表示装置４０と入力装置５０と放音装置６０とを具備するコンピュータシステムで実現される。表示装置４０（例えば液晶ディスプレイ）は、制御装置２０による制御のもとで各種の画像を表示する。入力装置５０は、利用者からの指示を受付ける操作機器である。例えば利用者が操作する複数の操作子、または、表示装置４０の表示面に対する接触を検知するタッチパネルが入力装置５０として利用される。放音装置６０（例えばヘッドホンまたはスピーカ）は、制御装置２０による制御のもとで歌唱音声を放音する。

　記憶装置３０は、制御装置２０が実行するプログラムと、制御装置２０が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置３０として任意に採用される。第１実施形態の記憶装置３０は、合成データＤと音声素片群とブレス音データとを記憶する。

　図２は、合成データＤの模式図である。合成データＤは、合成楽曲の歌唱音声を指定する時系列データである。具体的には、合成データＤは、合成音と、当該合成音に対して付加される効果音（すなわちブレス音）を指定する。第１実施形態の合成データＤは、合成楽曲を構成する複数の音符の各々について、当該音符に対応する合成音を指示する情報（以下「音符情報」という）Ｎと、一部の合成音の直前に付加（挿入）されるブレス音を指示する情報（以下「ブレス情報」という）Ｂとを含む。音符情報Ｎとブレス情報Ｂとは、発音順に配置される。

　図２に例示される通り、音符情報Ｎ（Ｎ1,Ｎ2,Ｎ3…）は、合成音に対応する音符を指定する情報である。具体的には、音符情報Ｎは、発音文字Ｘ1と発音期間Ｘ2と音高（例えばノートナンバー）Ｘ3とを指定する。発音文字Ｘ1は、母音単体または子音と母音との組合せで構成される音節（モーラ）を示す符号である。発音期間Ｘ2は、音符の時間長（音価）であり、例えば発音の開始時刻と時間長（継続長）または終了時刻とで規定される。合成データＤに含まれる音符情報Ｎは、利用者により設定される。

　他方、ブレス情報Ｂ（Ｂ1,Ｂ2,…）は、合成楽曲の楽譜においてブレス音の挿入を指示する情報である。典型的には、音符に対応する合成音を発音する直前にブレス音が発音される。したがって、ブレス情報Ｂでは、ブレス音が付加されるべき合成音に対応する音符の直前において当該ブレス音が挿入されることが指示される。合成音に対するブレス音の付加の有無を選択する条件（以下「ブレス音条件」という）は、利用者により予め設定される。ブレス音条件は、例えば利用者が設定した合成楽曲の種類に応じて設定される。なお、ブレス音条件の設定方法は、以上の例示に限定されない。ブレス情報Ｂは、制御装置２０によりブレス音条件に応じて自動設定される。なお、自動設定されるブレス情報Ｂに対応するブレス音は、合成楽曲内の全部の音符の直前に発音されるわけではなく、ブレス音条件に応じて特定の音符の直前に発音される。例えば、長い休符の直後の音符の直前、または、大音量で発音される音符の直前にブレス音が付加される。音符情報Ｎとブレス情報Ｂとは、合成楽曲内での発音の順番で時系列に配列されている。ブレス情報Ｂは、ブレス音が付加される合成音に対応する音符情報Ｎの直前に配置される。なお、合成音に付加されるブレス音の波形は、例えば合成楽曲の種類に応じて予め事前に設定される。なお、各ブレス情報Ｂの示すブレス音を、利用者が個別に設定してもよい。

　音声素片群は、複数の音声素片の集合（音声合成用ライブラリ）である。各音声素片は、言語的な意味の最小単位である音素単体（例えば母音または子音）、または複数の音素を連結した音素連鎖（例えばダイフォンまたはトライフォン）であり、時間領域の音声波形のサンプル系列、または、音声波形のフレーム毎に算定された周波数領域のスペクトルの時系列で表現される。各音声素片は、例えば特定の発声者の収録音声から事前に採取される。

　ブレス音データは、所定の時間長にわたるブレス音の波形（以下「ブレス波形」という）を表すデータである。ブレス音は、例えば特定の発声者の収録音声から事前に採取される。

　制御装置２０（コンピュータの例示）は、例えばＣＰＵ（Central Processing Unit）等の処理回路で構成され、音声合成装置１００の各要素を統括的に制御する。図１に例示される通り、第１実施形態の制御装置２０は、記憶装置３０に記憶されたプログラムを実行することで複数の機能（表示制御部３０１、合成データ生成部３０３および音声合成部３０５）を実現する。なお、制御装置２０の一部の機能を専用の電子回路で実現してもよい。また、制御装置２０の機能を複数の装置に搭載してもよい。

　表示制御部３０１は、各種の画像を表示装置４０に表示させる。第１実施形態の表示制御部３０１は、合成データＤに応じて、合成楽曲の内容（音符列）を利用者が確認および編集するための図３の処理画像Ｇを表示装置４０に表示させる。

　図３は処理画像Ｇの一例を示す図である。図３に例示される通り、処理画像Ｇは、相互に交差する音高軸と時間軸とが設定された領域（ピアノロール型の座標平面）に、合成音に対応する音符を表わす第１画像と、ブレス音を表す第２画像とを配置した画像である。第１画像と第２画像とは、表示制御部３０１により処理画像Ｇ内に配置される。ブレス音は、基本的には非調波音であり明確な音高を持たないので、従来技術では、第１画像とは別の領域に第２画像が配置されていた。

　第１実施形態の第１画像は、時間軸上の長さが各音符の継続長に応じて設定された画像（以下「音符画像」という）Ｐ1aである。図３では、矩形状の音符画像Ｐ1a（ノートバー）が例示されている。音符画像Ｐ1aの時間軸上における長さ（画像長）は、当該音符画像Ｐ1aに対応する音符の音符情報Ｎが示す発音期間Ｘ2の継続長に応じて設定される。

　音符画像Ｐ1aは、当該音符画像Ｐ1aに対応する音符の音符情報Ｎに応じて処理画像Ｇ内に配置される。音高軸の方向における各音符の音符画像Ｐ1aの位置は、音高軸上において、音符情報Ｎが示す音符の音高Ｘ3に応じて設定される。他方、時間軸の方向における各音符の音符画像Ｐ1aの位置は、音符情報Ｎが示す音符の発音期間Ｘ2に応じて設定される。第１実施形態では、図３に例示される通り、各音符の音符情報Ｎが示す発音文字Ｘ1が当該音符の音符画像Ｐ1aとともに（例えば図３の例示のように音符画像Ｐ1aにスーパーインポーズして）処理画像Ｇ内に配置される。

　第１実施形態の第２画像は、時間軸上の長さが各ブレス音の継続長に応じて設定された画像（以下「ブレス画像」という）Ｐ2aである。図３では、矩形状のブレス画像Ｐ2aが例示されている。ブレス画像Ｐ2aと音符画像Ｐ1aとは、視覚的に区別が可能なように、例えば模様、色彩および形状等の表示態様が相違する。各ブレス音のブレス画像Ｐ2aの時間軸上における長さ（表示長）は、記憶装置３０に記憶されるブレス音データが示すブレス音のブレス波形の時間長に応じて設定される。すなわち、処理画像Ｇ内に配置される複数のブレス画像Ｐ2aの表示長は等しい。なお、表示長が相違するブレス画像Ｐ2aを処理画像Ｇ内に配置してもよい。例えばブレス音の継続長が相違する場合には、当該ブレス音の継続長に応じてブレス画像Ｐ2aの表示長を変化させる。

　第１実施形態では、ブレス情報Ｂの直後の音符情報Ｎに応じてブレス画像Ｐ2aが処理画像Ｇ内に配置される。音高軸の方向におけるブレス画像Ｐ2aの位置は、ブレス情報Ｂの直後の音符情報Ｎの音高Ｘ3と同じ位置に設定される。すなわち、ブレス画像Ｐ2aが表わす効果音の直後の合成音に対応する音符の音高Ｘ3に応じた位置に、当該ブレス画像Ｐ2aが配置される。時間軸の方向におけるブレス画像Ｐ2aの位置は、例えば、ブレス画像Ｐ2aの終点（すなわちブレス音の終了時刻）が、ブレス情報Ｂの直後の音符情報Ｎの発音期間Ｘ2が示す開始時刻に一致するように設定される。すなわち、音符画像Ｐ1aとブレス画像Ｐ2aとが時間軸方向に連結して配置される。なお、音符画像Ｐ1aとブレス画像Ｐ2aとが完全には連結せず、音符画像Ｐ1aとブレス画像Ｐ2aとが離れていてもよい。特に、音符情報Ｎに応じて生成される合成音の先頭に、音符の開始時刻より前に発音する子音が含まれる場合、ブレス音の終了時刻は、当該子音の発音開始時刻より前に設定される。

　利用者は、以上に例示した処理画像Ｇを視認しながら入力装置５０を適宜に操作することで、合成データＤの音符情報Ｎの編集（新規な音符情報Ｎの生成および既存の音符情報Ｎの変更）の指示、または、合成音に対してブレス音を付加するブレス音条件の変更の指示が可能である。例えば、利用者は、処理画像Ｇ内における音符画像Ｐ1aに対して各種の編集を指示する。例えば、新規な音符画像Ｐ1aの追加、または、既存の音符画像Ｐ1aの削除、移動および時間軸上の伸縮等の編集が指示される。利用者からの音符画像Ｐ1aに対する指示に応じて、制御装置２０が合成データＤを編集する。

　図１の合成データ生成部３０３は、合成データＤを管理する。具体的には、合成データ生成部３０３は、入力装置５０に対する利用者からの指示に応じて合成データＤを編集する。例えば、合成データ生成部３０３は、処理画像Ｇに対する編集内容が反映されるように合成データＤを編集する。例えば、音符画像Ｐ1aの追加が指示された場合には、当該音符画像Ｐ1aに応じた音符情報Ｎが追加され、音符画像Ｐ1aの伸縮が指示された場合には、音符画像Ｐ1aの伸縮に応じて音符情報Ｎの発音期間Ｘ2が変更される。また、設定されているブレス音条件が編集後の音符情報Ｎに対して適用される。具体的には、編集後の音符情報Ｎが示す音符の合成音に対するブレス音の付加の有無がブレス音条件により判断され、当該音符情報Ｎの直前におけるブレス情報Ｂが当該判断に応じて自動的に編集（例えば追加や削除）される。例えば、直前にブレス情報Ｂが存在する音符情報Ｎが削除された場合には、当該ブレス情報Ｂも削除される。

　音声合成部３０５は、記憶装置３０に記憶された音声素片群とブレス音データと合成データＤとを利用した音声合成処理で音声信号Ｖを生成する。第１に、音声合成部３０５は、合成データＤの各音符情報Ｎが指定する発音文字Ｘ1に対応した音声素片を音声素片群から順次に選択し、当該音符情報Ｎが指定する発音期間Ｘ2に応じて各音声素片を伸縮したうえで相互に連結することで音声信号を生成する。第２に、音声合成部３０５は、ブレスデータが示すブレス音を当該音声信号に合成することで歌唱音声の音声信号Ｖを生成する。音声合成部３０５が生成した音声信号Ｖが放音装置６０に供給されることで、合成楽曲の歌唱音声が再生される。

　図４は、処理画像Ｇを表示する処理のフローチャートである。例えば処理画像Ｇの表示を契機として図４の処理が開始される。図４の処理は、例えば、処理画像Ｇを表示している間、所定の期間毎に繰り返し実行される。図４の処理が開始されると、合成データ生成部３０３は、利用者からの合成データＤに対する編集指示の有無を判断する（Ｓa1）。合成データＤの編集指示があった場合（Ｓa1:YES）、合成データ生成部３０３は、利用者からの指示に応じて合成データＤのうち音符情報Ｎを編集する（Ｓa2）。合成データ生成部３０３は、合成データＤのうちブレス情報Ｂを音符情報Ｎの編集内容に応じて編集する（Ｓa3）。ステップＳa2およびステップＳa3の処理により、合成データＤが編集される。なお、音符情報Ｎの編集によりブレス音の有無が変化しない場合、ステップＳa3の処理は省略され得る。表示制御部３０１は、編集後の合成データＤに応じて処理画像Ｇを表示する（Ｓa4）。他方、合成データＤの編集指示がない場合（Ｓa1:NO）、ステップＳa1からステップＳa4の処理は実行されない。

　以上の説明から理解される通り、第１実施形態では、音高軸と時間軸とが設定された領域に音符画像Ｐ1aとブレス画像Ｐ2aとを配置した処理画像Ｇが表示装置４０に表示される。したがって、例えば、音符画像Ｐ1aとブレス画像Ｐ2aとが別個の領域に表示される構成と比較して、合成音とブレス音との位置関係を利用者が容易に把握することができる。また、ブレス音の直後の合成音に対応する音符の音高Ｘ3に応じた位置にブレス画像Ｐ2aが表示される第１実施形態の構成によれば、例えばブレス音の付近に位置する合成音に対応する音符の音高Ｘ3とは無関係に当該ブレス音のブレス画像Ｐ2aを表示する構成と比較して、合成音とブレス音との位置関係を利用者が容易に把握することができるという効果が顕著である。

＜第２実施形態＞
　本開示の第２実施形態を説明する。なお、以下の各例示において機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

　図５は、第２実施形態に係る処理画像Ｇの模式図である。第２実施形態では、第１実施形態と同様の音符画像Ｐ1aと、合成音の波形を表す画像（以下「合成音波形画像」という）Ｐ1bとを含む画像を第１画像として例示する。また、ブレス波形を表わす画像（以下「ブレス波形画像」という）Ｐ2bを第２画像として例示する。

　第２実施形態の音符画像Ｐ1aは、第１実施形態と同様に、音符情報Ｎに応じた表示長および位置で処理画像Ｇ内に配置される。合成音波形画像Ｐ1bは、音声合成部３０５により生成された音声信号Ｖの波形を表わす画像である。音声信号Ｖのうち各音符に応じて合成された部分（つまり合成音の区間）の波形の包絡を表す画像が合成音波形画像Ｐ1bとして利用される。合成音波形画像Ｐ1bが音符画像Ｐ1aにスーパーインポーズして配置される。音声信号Ｖのうちブレス音に対応する部分の波形の包絡の画像がブレス波形画像Ｐ2bとして音符画像Ｐ1aの直前に配置される。すなわち、ブレス画像Ｐ2aが表わす効果音の直後に位置する合成音に対応する音符の音高Ｘ3に応じた位置に、当該ブレス画像Ｐ2aが配置される。なお、発音文字Ｘ1は、例えば第１画像（音符画像Ｐ1aおよび合成音波形画像Ｐ1b）の周囲に配置される。

　第２実施形態においても第１実施形態と同様の効果が実現される。第２実施形態では、合成音波形画像Ｐ1bを第１画像が含むから、合成音の波形を利用者が視覚的に把握できる。また、ブレス波形画像Ｐ2bを第２画像が含むから、効果音の波形を利用者が視覚的に把握できる。

＜第３実施形態＞
　図６は、第３実施形態に係る処理画像Ｇの模式図である。第３実施形態の第１画像は、第２実施形態と同様の音符画像Ｐ1aおよび合成音波形画像Ｐ1bとに加えて、合成音の音高Ｘ3の時間変化を表す画像（以下「音高画像」という）Ｐ1cを含む。第２画像については第２実施形態と同様である。

　音高画像Ｐ1cは、音声合成により生成された歌唱音声の音高の変化を表す画像である。歌唱音声のうち各音符に対応する部分（つまり合成音）の時間変化を表す画像が音高画像Ｐ1cとして利用される。音符画像Ｐ1aおよび合成音波形画像Ｐ1bにスーパーインポーズして音高画像Ｐ1cが配置される。

　第３実施形態においても、第２実施形態と同様の効果が実現される。第３実施形態では、合成音の音高Ｘ3の時間変化を表す音高画像Ｐ1cを第１画像が含むから、合成音の音高Ｘ3の時間変化を利用者が視覚的に把握できる。

＜変形例＞
　以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された複数の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）前述の各形態における構成は、例えば楽器音を合成する楽音合成により生成した合成音について適用してもよい。楽音合成と、前述の各形態で例示した音声合成とは、音合成として包括的に表現される。楽音合成により合成音を生成する構成によれば、例えばギターの演奏者が指をフレットから移動させた場合に発生するフレット音が、当該合成音に付加される効果音として例示される。

　音声合成における効果音としては、前述の各形態で例示したブレス音の他に、演奏者の口から発音される各種の音（例えば舌打ち、ため息、咳、くしゃみ）が例示される。また、演奏者の身体を利用して発音される各種の音（例えば手拍子、拍手またはフィンガースナップ）も効果音として例示される。例えば、演奏者の足音、または、演奏者の着衣がこすれる音等を効果音としてもよい。

　楽音合成における効果音としては、上述したフレット音の他に、楽器の種類に応じた以下の音が例示される。管楽器においては、例えば、操作子を押す音、または、息を吹き込む音が効果音として例示される。打楽器においては、例えば、スティックに由来した各種の音（例えばスティックを操作する音、または、スティックを落とした際の音、）または、演奏者が演奏に伴い発話する掛け声が効果音として例示される。弦楽器においては、例えば、タッピング音、ピックノイズ、または、リリースノイズが効果音として例示される。

（２）前述の各形態において、第１画像の構成は、以上の例示に限定されない。各音符の第１画像を構成する画像は、例えば、音符画像Ｐ1a、合成音波形画像Ｐ1bおよび音高画像Ｐ1cのうちの少なくともひとつであれば任意である。また、第１画像が、以上に例示にした画像以外の画像を含んでもよい。例えば、各音符情報Ｎが示す音符そのものを表す図形を第１画像が含んでもよい。以上の説明から理解される通り、利用者が視覚的に音符に関する情報を把握できれば、第１画像の表示態様（模様、色彩または形状等）は任意である。

（３）第１実施形態では、第２画像がブレス画像Ｐ2aを含み、第２実施形態および第３実施形態では、第２画像がブレス波形画像Ｐ2bを含んだが、第２画像を構成する画像は、以上の例示に限定されない。例えば、第２画像がブレス画像Ｐ2aとブレス波形画像Ｐ2bとの双方を含んでもよい。また、第２画像が以上に例示した画像以外の画像を含んでもよい。第２画像の表示態様は、合成楽曲内においてブレス音が挿入される位置を利用者が視覚的に把握できれば任意である。

（４）前述の各形態では、ブレス画像Ｐ2aが表わす効果音の直後の合成音に対応する音符の音高Ｘ3に対応する位置に、当該ブレス画像Ｐ2aを配置したが、ブレス画像Ｐ2aを配置する位置は以上の例示に限定されない。図７に例示される通り、ブレス画像Ｐ2aに対応するブレス音の直前の合成音に対応する音符の音高Ｘ3に応じた位置に当該ブレス画像Ｐ2aを配置してもよい。具体的には、ブレス情報Ｂの直前の音符情報Ｎに応じてブレス画像Ｐ2aが処理画像Ｇ内に配置される。音高軸の方向におけるブレス画像Ｐ2aの位置は、ブレス情報Ｂの直前の音符情報Ｎの音高Ｘ3に設定される。時間軸の方向におけるブレス画像Ｐ2aの位置は、例えばブレス画像Ｐ2aの始点が、ブレス情報Ｂの直前の音符情報Ｎの発音期間Ｘ2の末尾（終了時刻）に一致するように設定される。以上の構成によれば、例えばブレス音の付近に位置する合成音の音高Ｘ3とは無関係に当該効果音のブレス画像Ｐ2aを表示する構成と比較して、合成音とブレス音との位置関係を利用者が容易に把握することができるという効果が顕著である。

（５）前述の各形態に例示したブレス情報Ｂが、ブレス音に関する各種の情報を含んでもよい。例えば、ブレス情報Ｂがブレス音の発音時刻を指定してもよい。ブレス音の発音時刻は、例えば利用者からの指示に応じて任意に設定される。以上の構成では、処理画像Ｇ内に配置されるブレス画像Ｐ2aの時間軸上の位置は、ブレス情報Ｂが示す発音時刻に応じて調整される。また、処理画像Ｇの音高軸上の配置に利用される音高をブレス情報Ｂが指定してもよい。例えば、ブレス情報Ｂが指定する音高は、ブレス情報Ｂの直後の音符情報Ｎが指定する音高Ｘ3に一致するように設定してもよい。以上の構成では、ブレス情報Ｂが指定する音高に応じて、ブレス画像Ｐ2aが処理画像Ｇ内に配置される。したがって、ブレス画像Ｐ2aが表わす効果音の直後の合成音に対応する音符の音高Ｘ3に応じた位置に、当該ブレス画像Ｐ2aが配置される。以上の通り、音符情報Ｎとブレス情報Ｂとの間で時間的な関係が規定されれば、合成データＤにおいて、音符情報Ｎとブレス情報Ｂとを混在させる必要はない。つまり、音符情報Ｎとブレス情報Ｂとは、別々に記憶されていてもよい。

（６）前述の各形態において、利用者からの第２画像に対する編集の指示に応じて、ブレス音を変化させてもよい。利用者が時間軸上において第２画像を伸縮する指示を利用者がした場合には、当該指示に応じてブレス音の継続長を変化させる。具体的には、ブレス情報Ｂが指定する発音時刻が当該指示に応じて編集される。

　また、ブレス音の挿入や削除を利用者が指示してもよい。具体的には、利用者は、処理画像Ｇ内において新規の第２画像の追加、または、既存の第２画像の削除を指示する。当該指示に応じて合成データＤの編集が指示される。

（７）前述の各形態では、１個のブレス音データを記憶装置３０に記憶する構成を例示したが、相異なるブレス波形をそれぞれが表す複数のブレス音データを記憶装置３０に記憶してもよい。例えば、性別または発声者を相違させた複数のブレス音データが記憶装置３０に記憶される。利用者は、複数のブレス音データのうち所望のブレス音データを選択することも可能である。ブレス波形画像Ｐ2bを表示する構成（第２実施形態および第３実施形態）では、利用者が選択したブレス音データが表すブレス波形画像Ｐ2bが処理画像Ｇに配置される。

（８）前述の各形態において、利用者からの指示に応じて、第２画像の表示の態様を変化させてもよい。例えば、ブレス音の強度を変更する指示が利用者からあった場合には、当該指示に応じて第２画像の音高軸方向の幅を変化させる。ブレス音の強度を下げる指示に対しては、第２画像の音高軸方向の幅を小さくする。また、楽曲内にブレス音が挿入される頻度を変更する指示が利用者からあった場合には、当該指示に応じて処理画像Ｇ内に配置される第２画像の個数を増減させる。

（９）前述の各形態では、ブレス音の付加の有無をブレス音条件として例示したが、これに加えて、ブレス音の強度および時間長などもブレス音条件として設定してもよい。以上の構成によれば、音符情報Ｎの系列に最適なブレス音を自動的に選択して付加することができる。

（１０）前述の各形態では、時間軸方向において第２画像が第１画像に連結するように処理画像Ｇ内に配置したが、時間軸方向において第２画像を第１画像から離間させて処理画像Ｇ内に配置してもよい。

（１１）前述の各形態で例示した表示制御部３０１を具備する装置は、表示制御装置として機能する。表示制御装置が、音声合成部３０５および合成データ生成部３０３を具備するか否かは任意である。すなわち、音声合成装置１００は、表示制御装置の一例である。

（１２）前述の各形態に係る表示制御装置の機能は、各形態での例示の通り、制御装置２０とプログラムとの協働により実現される。前述の各形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。

＜付記＞
　以上に例示した形態から、例えば以下の構成が把握される。

　本開示の一つの態様（第１態様）に係る表示制御方法は、音合成により生成される合成音と、前記合成音に対して付加される効果音とを指定する合成データに応じて、音高軸と時間軸とが設定された領域に、前記合成音に対応する音符を表わす第１画像と、前記効果音を表す第２画像とを配置した処理画像を、表示装置に表示させる。以上の態様では、音高軸と時間軸とが設定された領域に、合成音に対応する音符を表わす第１画像と、効果音を表す第２画像とを配置した処理画像が表示装置に表示されるから、例えば、第１画像と第２画像とが別個の領域に表示される構成と比較して、合成音と効果音との位置関係を利用者が容易に把握することができる。

　第１態様の一例（第２態様）では、前記第２画像を、当該第２画像が表す効果音の直後の合成音に対応する音符の音高に応じた位置に配置する。以上の態様では、効果音の第２画像が、当該効果音の直後の合成音に対応する音符の音高に応じた位置に表示されるから、例えば効果音の付近に位置する合成音に対応する音符の音高とは無関係に当該効果音の第２画像を表示する構成と比較して、合成音と効果音との位置関係を利用者が容易に把握することができるという効果が顕著である。

　第１態様の一例（第３態様）では、前記第２画像を、当該第２画像が表す効果音の直前の合成音に対応する音符の音高に応じた位置に配置する。以上の態様では、効果音の第２画像が、当該効果音の直後の合成音に対応する音符の音高に応じた位置に表示されるから、例えば効果音の付近に位置する合成音に対応する音符の音高とは無関係に当該効果音の第２画像を表示する構成と比較して、合成音と効果音との位置関係を利用者が容易に把握することができるという効果が顕著である。

　第１態様から第３態様の何れかの一例（第４態様）では、前記第１画像は、前記時間軸上の長さが音符の継続長に応じて設定された音符画像を含む。以上の態様では、時間軸上の長さが音符の継続長に応じて設定された音符画像を第１画像が含むから、合成音の継続長を利用者が視覚的に把握できる。

　第４態様の一例（第５態様）では、前記第１画像は、前記合成音の波形を表す波形画像を含む。以上の態様では、合成音の波形を表す波形画像を第１画像が含むから、合成音の波形を利用者が視覚的に把握できる。

　第４態様または第５態様の一例（第６態様）では、前記第１画像は、前記合成音の音高の時間変化を表す音高画像を含む。以上の態様では、合成音の音高の時間変化を表す音高画像を第１画像が含むから、合成音の音高の時間変化を利用者が視覚的に把握できる。

　第１態様から第６態様の何れかの一例（第７態様）では、前記第２画像は、前記効果音の波形を表わす波形画像を含む。以上の態様では、効果音の波形を表わす波形画像を第２画像が含むから、合成音と効果音の波形を利用者が視覚的に把握できる。

　本開示の一つの態様（第８態様）に係る表示制御装置は、音合成により生成される合成音と、前記合成音に対して付加される効果音とを指定する合成データに応じて、音高軸と時間軸とが設定された領域に、前記合成音に対応する音符を表わす第１画像と、前記効果音を表す第２画像とを配置した処理画像を、表示装置に表示させる表示制御部を具備する。以上の態様では、音高軸と時間軸とが設定された領域に、合成音に対応する音符を表わす第１画像と、効果音を表す第２画像とを配置した処理画像が表示装置に表示されるから、例えば、第１画像と第２画像とが別個の領域に表示される構成と比較して、合成音と効果音との位置関係を利用者が容易に把握することができる。

　第８態様の一例（第９態様）では、前記表示制御部は、前記第２画像を、当該第２画像が表す効果音の直後の合成音に対応する音符の音高に応じた位置に配置する。以上の態様では、効果音の第２画像が、当該効果音の直後の合成音に対応する音符の音高に応じた位置に表示されるから、例えば効果音の付近に位置する合成音に対応する音符の音高とは無関係に当該効果音の第２画像を表示する構成と比較して、合成音と効果音との位置関係を利用者が容易に把握することができるという効果が顕著である。

　第８態様の一例（第１０態様）では、前記表示制御部は、前記第２画像を、当該第２画像が表す効果音の直前の合成音に対応する音符の音高に応じた位置に配置する。以上の態様では、効果音の第２画像が、当該効果音の直後の合成音に対応する音符の音高に応じた位置に表示されるから、例えば効果音の付近に位置する合成音に対応する音符の音高とは無関係に当該効果音の第２画像を表示する構成と比較して、合成音と効果音との位置関係を利用者が容易に把握することができるという効果が顕著である。

　第８態様から第１０態様の何れかの一例（第１１態様）では、前記第１画像は、時間軸上の長さが音符の継続長に応じて設定された音符画像を含む。以上の態様では、時間軸上の長さが音符の継続長に応じて設定された音符画像を第１画像が含むから、合成音の継続長を利用者が視覚的に把握できる。

　第１１態様の一例（第１２態様）では、前記第１画像は、合成音の波形を表す波形画像を含む。以上の態様では、合成音の波形を表す波形画像を第１画像が含むから、合成音の波形を利用者が視覚的に把握できる。

　第１１態様または第１２態様の一例（第１３態様）では、前記第１画像は、合成音の音高の時間変化を表す音高画像を含む。以上の態様では、合成音の音高の時間変化を表す音高画像を第１画像が含むから、合成音の音高の時間変化を利用者が視覚的に把握できる。

　第８態様から第１３態様の何れかの一例（第１４態様）では、前記第２画像は、前記効果音の波形を表わす波形画像を含む。以上の態様では、効果音の波形を表わす波形画像を第２画像が含むから、効果音の波形を利用者が視覚的に把握できる。

　本開示の一つの態様（第１５態様）に係るプログラムは、音合成により生成される合成音と、前記合成音に対して付加される効果音とを指定する合成データに応じて、音高軸と時間軸とが設定された領域に、前記合成音に対応する音符を表わす第１画像と、前記効果音を表す第２画像とを配置した処理画像を、表示装置に表示させる表示制御部としてコンピュータを機能させる。以上の態様では、音高軸と時間軸とが設定された領域に、合成音に対応する音符を表わす第１画像と、効果音を表す第２画像とを配置した処理画像が表示装置に表示されるから、例えば、第１画像と第２画像とが別個の領域に表示される構成と比較して、合成音と効果音との位置関係を利用者が容易に把握することができる。

１００…音声合成装置、２０…制御装置、３０…記憶装置、３０１…表示制御部、３０３…合成データ生成部、３０５…音声合成部、４０…表示装置、５０…入力装置、６０…放音装置。

Claims

　音合成により生成される合成音と、前記合成音に対して付加される効果音とを指定する合成データに応じて、音高軸と時間軸とが設定された領域に、前記合成音に対応する音符を表わす第１画像と、前記効果音を表す第２画像とを配置した処理画像を、表示装置に表示させる
　表示制御方法。
　前記第２画像を、当該第２画像が表す効果音の直後の合成音に対応する音符の音高に応じた位置に配置する
　請求項１の表示制御方法。
　前記第２画像を、当該第２画像が表す効果音の直前の合成音に対応する音符の音高に応じた位置に配置する
　請求項１の表示制御方法。
　前記第１画像は、前記時間軸上の長さが音符の継続長に応じて設定された音符画像を含む
　請求項１から請求項３の何れかの表示制御方法。
　前記第１画像は、前記合成音の波形を表す波形画像を含む
　請求項４の表示制御方法。
　前記第１画像は、前記合成音の音高の時間変化を表す音高画像を含む
　請求項４または請求項５の表示制御方法。
　前記第２画像は、前記効果音の波形を表わす波形画像を含む
　請求項１から請求項６の何れかの表示制御方法。
　音合成により生成される合成音と、前記合成音に対して付加される効果音とを指定する合成データに応じて、音高軸と時間軸とが設定された領域に、前記合成音に対応する音符を表わす第１画像と、前記効果音を表す第２画像とを配置した処理画像を、表示装置に表示させる表示制御部
　を具備する表示制御装置。
　前記表示制御部は、前記第２画像を、当該第２画像が表す効果音の直後の合成音に対応する音符の音高に応じた位置に配置する
　請求項８の表示制御装置。
　前記表示制御部は、前記第２画像を、当該第２画像が表す効果音の直前の合成音に対応する音符の音高に応じた位置に配置する
　請求項８の表示制御装置。
　前記第１画像は、時間軸上の長さが音符の継続長に応じて設定された音符画像を含む
　請求項８から請求項１０の何れかの表示制御装置。
　前記第１画像は、合成音の波形を表す波形画像を含む
　請求項１１の表示制御装置。
　前記第１画像は、合成音の音高の時間変化を表す音高画像を含む
　請求項１１または請求項１２の表示制御装置。
　前記第２画像は、前記効果音の波形を表わす波形画像を含む
　請求項８から請求項１３の何れかの表示制御装置。
　音合成により生成される合成音と、前記合成音に対して付加される効果音とを指定する合成データに応じて、音高軸と時間軸とが設定された領域に、前記合成音に対応する音符を表わす第１画像と、前記効果音を表す第２画像とを配置した処理画像を、表示装置に表示させる表示制御部
　としてコンピュータを機能させるプログラム。