WO2010004665A1

WO2010004665A1 - 合成音声

Info

Publication number: WO2010004665A1
Application number: PCT/JP2009/000565
Authority: WO
Inventors: 坂本真一
Original assignee: 株式会社オトデザイナーズ
Priority date: 2008-07-11
Filing date: 2009-02-13
Publication date: 2010-01-14
Also published as: US20110112840A1; JP2010020137A; CN102113048A; JP4209461B1

Abstract

【課題】　テレビ、ラジオなどの広告で使われる効果音、企業イメージをPRするためのサウンドロゴ、および、映画、アニメ、ゲーム、玩具、携帯電話の着信音などで使用される音のコンテンツや擬人化音などのために、個性的かつエンドユーザーに対してインパクトのある合成音声を提供する。【解決手段】　音声信号を聴取することによって当該音声信号以外の音信号のイメージを聴取者に想起させるための合成音声であって、この合成音声は振幅包絡線成分と周波数成分を合成して成り、前記振幅包絡線成分は当該音声信号の振幅包絡線成分であり、前記周波数成分は雑音を除く当該音声信号以外の音信号の周波数成分であることを特徴とする合成音声。

Description

合成音声

　本発明は、テレビ、ラジオなどの広告で使われる効果音、企業イメージをPRするためのサウンドロゴ、および、映画、アニメ、ゲーム、玩具、携帯電話の着信音などで使用される音のコンテンツなどのために、音声の振幅包絡線情報と当該音声以外の信号の周波数成分から構成される、個性的かつエンドユーザーに対してインパクトのある合成音声に関する。

　テレビ、ラジオなどのコマーシャルにおいては、商品をPRするための映像に加えて、商品名や、それをPRするためのメッセージなどの音声が流される。ほとんどの場合は、単にコマーシャル音声を流すだけでなく、商品イメージをアップさせるためのBGM(バックグラウンドミュージック)や、イメージに合う効果音（川の流れの音、鳥の鳴き声など）が音声に重畳されて流されているのは周知の事実である。

　近年では、企業のイメージをエンドユーザーに定着させるための視覚的な企業ロゴマークに加えて、企業の広告を行う際に常にある特定の音を流し、その音を聞くだけでユーザーが特定の企業もしくは商品を想起できるようなPR活動、いわゆるサウンドロゴも一般的に使われるようになってきている。

　一方、ゲーム、アニメ、映画、玩具などでは、従来から様々な種類の効果音が使用されてきているが、近年では、単なる効果音としてではなく、音そのものでゲームを楽しめる技術も開示されている。

　特許文献１では、音声信号を複数の帯域信号に分け、包絡線抽出の後、各包絡線を抽出してから、雑音源信号を複数の帯域濾波器を有する帯域濾波部に加え、雑音源信号を抽出し、各帯域濾波部の出力を乗算したものを累算して、音源信号の成分を雑音化した劣化雑音音声信号を使った補聴器、訓練装置、ゲーム装置、音出力装置について開示されている。

　劣化雑音音声は、人間が音声の内容や環境音の種類などを認識するために活用している周波数成分を全て雑音に置き換え、通常は音声内容などの認識にはほとんど使用されていない振幅包絡線情報のみを残した音声信号である。

　人間は、通常使用している周波数成分を取り除かれると、当然のことながら最初はその音声内容を解することはできないが、解答を知れば、すぐにそのように聞こえるようになる。

　これは、人間の脳が、普段は使っていない振幅包絡線情報を使用するように脳内ネットワークを切り替える能力を有するからであり、この理論から補聴器、訓練装置、脳のトレーニングなどのゲームコンテンツなどに利用できるものとして提案されている。

　一方、映画やアニメでは、自然界に存在する“風”、“樹木”、“滝”、“河”などを擬人化して、これらがあたかも喋っているかのようなシーンが以前から散見される。このような場合の擬人化された音声は、風や樹木のイメージに合わせて一定の法則で周波数を変換したり、発話速度を変化させたりしている。

　携帯電話の着信音においては、楽曲をそのままダウンロードして着信音として使用できるサービスが既に広く普及している。さらに最近では、高周波数域の聴力が低下してくる高齢者には聞こえず、聴力が健常な若者にしか聞こえない“モスキート音”と呼ばれる高周波音を着信音とするサービスがヒットしており、一般に面白い音、他では聞かれない音のコンテンツに対するニーズが高まってきていることが知られている。

　特許文献２では、携帯電話のマイクロフォン、操作キーからの文字入力、メモリに保存された文字データ、カメラによるＱＲコード撮影、非接触ＩＣカード、ＩｒＤＡ受信機からの受信データなどの音声／文字データを、携帯電話機本体あるいはネットワーク接続した劣化雑音音声信号生成サーバの劣化雑音音声信号変換機能を使って劣化雑音音声信号に変換し、これを携帯電話機の受信通知音として使うことにより、他人に与える不快感を軽減しつつ着信通知音のメッセージを受け取ることが出来る携帯電話機の着信通知方法について開示されている。
特許第３９７３５３０号特許第３８３３２４３号

　従来の商品名や企業名、商品PRの音声にBGMや効果音を重畳する方法は、所詮はPR音声とBGMという別々の２つの音の同時再生であるので、あまりに当たり前すぎて個性に乏しく、その行為そのもので現代のユーザーに強いインパクトを与えるのは難しい状況になってきている。

　音に個性を与え、さらにインパクトを与えるために、音量を大きくしたり、突発的な音を発したり、わざと不快な音を発してユーザーの注意喚起を促す方法が取られる場合もあるが、これらはかえって企業イメージをダウンさせてしまう可能性があり、仮に騒音として認識されてしまえば社会問題化してしまう可能性もある。

　サウンドロゴでは、ゲーム機メーカーやパソコン用CPUメーカー、携帯電話キャリアなどにおいて、コマーシャルから流される特定の信号音によって、実際に企業イメージのアップに成功した事例も既に数多くある。しかし、これらは全て、多くのユーザーが特定の信号音から企業名を想起できるようになるまで、あらゆる媒体で音を流し続けねばならず、多大な広告宣伝費用が必要となる。

　さらに、ユーザーへの注意喚起を促しつつも、不快感を与えないために、ほとんどの場合は単発的かつ単純な信号音が用いられており、その音だけで企業名や商品名をダイレクトに伝えることができないという問題があった。

　特許文献１に記載の劣化雑音音声は、個性的ではあるが、雑音をベースに作られているので“がさがさ”した感じの音になっており、イメージアップを目的とする企業PRやコマーシャルなどには不向きである。

　さらに、脳のトレーニング効果がある上に、聞いた当初は意味が分からないのに解答を知れば聞こえるという驚き（インパクト）がある反面、ベースが雑音であるために、常に“がさがさ”とした同じ聴感の音声となるため個性がなく、エンドユーザーにすぐに飽きられてしまい、さらに当然のことながら、企業や商品のイメージを伝える効果はないという欠点があった。

　これまでの映画やアニメで使われている効果音や擬人化された音声も、あくまで作り手のイメージによって作られているに過ぎず、視聴者によってはその様なイメージが伝わらない場合もあり、作品ごとの効果音、擬人化音声の作成には大変な労力が必要とされるという問題があった。

　携帯電話の着信音に関しても同様に、モスキート音や特許文献２に記載の携帯電話機の着信通知方法をはじめ、様々な音のコンテンツが提案されているが、個性的で現代のユーザーにインパクトを与え、さらに飽きられないコンテンツを作り続けるのは極めて難しい状況にあった。

　上記の課題を解決する手段として、本発明の合成音声は、音声信号を聴取することによって当該音声信号以外の音信号のイメージを聴取者に想起させるために、振幅包絡線成分と周波数成分を合成して成り、前記振幅包絡線成分は当該音声信号の振幅包絡線成分であり、前記周波数成分は雑音を除く当該音声信号以外の音信号の周波数成分であることを特徴とする構成とした。

　また、本発明の合成音声は、音声信号を聴取することによって当該音声信号以外の音信号のイメージを聴取者に想起させるために、振幅包絡線成分と周波数成分を合成して成り、前記振幅包絡線成分は当該音声信号を複数の周波数帯域に分割した際の各周波数帯域の信号の振幅包絡線成分であり、前記周波数成分は雑音を除く当該音声信号以外の音信号を前記複数の周波数帯域に分割した際の各周波数帯域の周波数成分であることを特徴とする構成とした。

　本発明の合成音声および音声合成加工装置は、BGMや効果音を音声に重畳するのではなく、当該音声以外の信号を音源として音声が生成されているので、ユーザーは音声を聞くだけで、そのイメージを想起することが可能である。

　従来の複数の音（音声と効果音、イメージ音）が同時再生される単純な重畳音声は１つの音としての個性がなかったが、本発明の合成音声は、音声の特徴と当該音声以外の音の特徴とを併せ持つ“一つの音”としての個性がある。

　そのため、企業広告やサウンドロゴに使用すれば、インパクトを与えるために音量を大きくしたり、突発的な音を発したり、わざと不快な音を発したりすることなく、現代のユーザーに対して個性的で新たなインパクトを与え、不快感なしにユーザーの注意喚起を促すことができる。

　さらに、劣化雑音音声のように、常に“がさがさ”とした聴感なわけではなく、当該音声以外の音信号に様々な音を用いることにより、継続的に個性的でユーザーに飽きられない新たなインパクトのある音コンテンツを提供することが可能となる。

　当該音声以外の音信号の種類を様々に用意すれば、映画などでの効果音、擬人化された音声、携帯電話の着信音やゲーム用音声としても、個性的でイメージに合い、ユーザーに飽きられない音コンテンツを常に提供し続けることが可能となる。

　これらの効果は、音声の振幅包絡線成分と、当該音声以外の信号の周波数成分から成る本発明の合成音声によって成し遂げられるわけであるが、前記振幅包絡線成分を当該音声信号を複数の周波数帯域に分割した際の各周波数帯域の信号の振幅包絡線成分とし、前記周波数成分を当該音声信号以外の音信号を前記複数の周波数帯域に分割した際の各周波数帯域の周波数成分として構成すれば、当該音声信号の意味内容をさらに聞き取りやすくすることができる。

本発明の第１の実施形態（合成音声の波形とサウンドスペクトログラムの例）本発明の第２の実施形態（合成音声の波形例）本発明の第２の実施形態（合成音声のサウンドスペクトログラムの例）本発明の合成音声を作成するための第１のブロック図本発明の合成音声を作成するための第２のブロック図第２のブロック図における詳細図

符号の説明

　１…第１の帯域濾波部、　２…包絡線抽出部、　３…第２の帯域濾波部、　４…帯域濾波器、　５…包絡線抽出器、　６…帯域濾波器、　７…乗算部、　８…加算部。

　以下、本発明を実施するための最良の形態を図面に基づいて詳細に説明する。なお、以下の説明において、同一機能を有するものは同一の符号とし、その繰り返しの説明は省略する。

　図１に、本発明の第１の実施形態として本発明の合成音声の時間波形の一例を示す。図の上段左側は入力音声信号であり、その右側には入力音声信号のサウンドスペクトログラムが示されている（サウンドスペクトログラムは、横軸が時間、縦軸が周波数を表し、色の濃淡でエネルギーの強弱が示されている）。

　入力音声信号波形の下には、入力音声信号の振幅包絡線が示されており、その下には当該音声信号以外の音として、水の流れる音の波形とサウンドスペクトログラムが示されている。

　最下段は、振幅包絡線成分と水の流れる音を乗算して合成した本発明の合成音声を示している。波形およびサウンドスペクトログラムから、本発明の合成音声は、振幅包絡線成分は当該音声信号の振幅包絡線成分を有し、周波数成分は水の流れの音（当該音声信号以外の音信号）の周波数成分を有していることが分かる。

　図２には、本発明の第２の実施形態として、音声及び当該音声以外の音を４つの周波数帯域(～600Hz),(600Hz～500Hz),(1500Hz～2500Hz),(2500Hz～4000Hz)に分割して合成した例を示す。上段から、入力音声信号（発話内容「天然水　水の流れ」）、実際の水の流れの音、入力音声信号と実際の水の流れの音を単純に重畳した場合の波形、本発明の入力音声信号を「天然水　水の流れ」にし、当該音声以外の信号を実際の水の流れの音として合成した音の波形である。

　ここではミネラルウォーターの広告と考え、PRのためのアナウンス音声とともに清涼感に溢れる水流の音をユーザーに聞かせたいものとする。これまでの広告用音声や映画、ゲーム機、携帯電話機などの音コンテンツは、ほとんど全てが両音の単純な重畳によって作成されていたことは言うまでもない。

　しかし、単純な重畳による音声は、図の波形からも明らかな通り、音声と水の流れという２音が混在するため１音としての個性がなく、さらに２音が入り混じって聞き難い。声をより聞かせるために音声の音量を上げれば騒々しく、逆に水の流れの音量を上げると騒々しい上に肝心なアナウンス音声が聞き取り難くなる。

　さらに、このような広告音声や音コンテンツは、現代ではあまりに当たり前すぎて個性がなく、ユーザーに与えるインパクトが最早ほとんど無いことは周知の事実である。

　一方、最下段に示した本発明による合成音声は、水の流れの音で音声が合成されているので１音としての個性に富み、インパクトがある上に、音量を上げずともアナウンス音声の内容および水の流れる音をユーザーが同時に認知することができる。

　図３には、図２に示した各音のサウンドスペクトログラムを示す。水の流れの音が単純に重畳された音声では、全ての周波数帯域に渡って水の流れの音が音声に重なっている。

　一方、本発明による水の流れの音で合成された音声は、音声の周波数成分の微細構造を消失し、各帯域内の周波数成分は水の流れの音の周波数成分に取って代わっているが、色の濃淡で表される各周波数帯域の振幅包絡線は音声のそれのままである。

　よって、特許文献１に記載の劣化雑音音声と同様に最初は発話内容を理解し難いかもしれないが、振幅包絡線情報が残されているので、解答を知れば理解できるようなり、加えて水の流れの音のイメージも伝えることができるようになる。

　さらに、本実施例のように水の流れの音から作られた音声は自然界には存在しないため、ユーザーへ与えるインパクトが大きいことは言うまでもない。

　劣化雑音音声は、雑音に置き換えることによって音声の周波数情報を取り除いた上で振幅包絡線情報のみでの音声を生成し、脳の活性化を促す「脳トレーニング」が目的の音声であり、周波数成分が一様で振幅包絡線が一直線である、何の特徴もない雑音（ホワイトノイズ）の使用が前提であった。

　よって、当該音声以外の音信号として水の流れの音などの有意味な実音（聴取者が何の音かを知っている実在の音）を使用しても、ホワイトノイズと違って、実音側にもその音の特徴的な振幅包絡線情報が存在するわけであるから、音声の意味内容が理解できる音声となるとは考えられていなかった。

　しかし今回、様々な条件下での試行錯誤の結果、本実施例のような合成音声であっても十分に意味内容を伝えることが可能であり、さらに１音としての個性に富み、インパクトのある音が合成可能であるとの知見が新たに得られ、本発明が成し遂げられた。

　図４は、本発明の合成音声を作成するための第１のブロック図であり、帯域濾波器４から成る第1の帯域濾波部１と、包絡線抽出器５から成る包絡線抽出部２と、帯域濾波器６から成る第２の帯域濾波部３と、乗算部７から構成されている。

　入力音声信号は第1の帯域濾波部１へ入力され、帯域濾波器４によって所定の周波数帯域の信号に限定された上で、包絡線抽出部２の包絡線抽出器５によって振幅包絡線情報が抽出される。一方、入力音声信号以外の信号は、第2の帯域濾波部３へ入力され、帯域濾波器６によって所定の周波数帯域の信号に限定される。

　包絡線抽出器５の出力である帯域濾波された入力音声信号の振幅包絡線と、帯域濾波器６の出力である帯域濾波された入力音声信号以外の信号は、乗算部７で乗算されて出力される。

　図５は、本発明の合成音声を作成するための第２のブロック図であり、複数の帯域濾波器４から成る第1の帯域濾波部１と、複数の包絡線抽出器５から成る包絡線抽出部２と、複数の帯域濾波器６から成る第２の帯域濾波部３と、複数の乗算部７と、加算部８から構成されている。

　第２のブロック図については、図６を用いてさらに詳細に説明する。図６において、第１の帯域濾波部１の1番目の帯域濾波器４はLPF（低域通過フィルタ）で、２番目以降の帯域濾波器４は通過帯域が異なるBPF（帯域通過フィルタ）で構成されている。

　ここで例えば、第１の帯域濾波部１を４つの帯域濾波器４で構成するとすれば、１番目のLPFのカットオフ周波数及び２番目以降のBPFの下限周波数と上限周波数は、音声知覚のために重要なフォルマント周波数などの特徴量の一般的な周波数値を勘案し、それぞれ(600Hz),(600Hz,1500Hz),(1500Hz,2500Hz),(2500Hz,4000Hz)程度の値に設定するものとする。

　これらの帯域濾波器４の出力は、音声の振幅包絡線情報を抽出するためのLPFで構成された包絡線抽出器５にそれぞれ入力される。ここで包絡線抽出器５の目的は、入力された信号の振幅の包絡線（つまり、音の強さの強弱の情報）を抽出することである。よって、包絡線抽出器５は、振幅包絡線以外の余分な周波数情報を削除して振幅包絡線情報だけにするために、10Hz～20Hzのカットオフ周波数を有するLPFなどで構成される。

　なお、ここには示していないが、当然のことながら、10Hz～20Hzのカットオフ周波数を有するLPFの前段もしくは後段に半波整流器を配置し、正の成分だけで構成された振幅包絡線を得ても良い。

　　一方、入力音声以外の信号は、帯域濾波器４と同様のカットオフ周波数、上限周波数、下限周波数を有する帯域濾波器６（LPFおよびBPF）で構成される第２の帯域濾波部３に入力される。

　包絡線抽出部５の出力と帯域濾波器６の出力は、それぞれ対応する出力同士が乗算部７で乗算される。この時点で、各帯域濾波器４を通過した入力音声信号の通過帯域内の周波数情報は、入力音声信号以外の信号の対応する帯域内の周波数情報に全て置き換えられたことになる。これはつまり、入力音声信号の情報は各通過帯域内の振幅包絡線情報のみとなっているということである。そして最後に、各乗算部７の出力が加算部８で加算され出力される。

　なお、本実施例では、音声及び当該音声以外の音を４つの周波数帯域(～600Hz),(600Hz～500Hz),(1500Hz～2500Hz),(2500Hz～4000Hz)に分割しているが、分割する帯域の数や、その際のカットオフ周波数、下限周波数、上限周波数は、音声内容や当該音声以外の音信号の特徴及びPRしたい対象物や内容などによって自由に変更が可能である。

　また、本実施例では、第１の帯域濾波部１に入力音声号（ＰＲのアナウンス音声）を、第２の帯域濾波部３に入力音声信号以外の信号（イメージ音：水の流れの音）を入力しているが、これは第１の帯域濾波部１に入力音声信号以外の信号（イメージ音：水の流れの音）を、第２の帯域濾波部３に入力音声号（ＰＲのアナウンス音声）を入力しても良い。

　この場合は、入力音声信号以外の信号の振幅包絡線情報が残り、音声の周波数情報を用いて合成加工することになるので、振幅包絡線が特徴的な音（例えば、ドアの閉まる時の突発音や、せんべいなどを食べる時のパリパリ音など）を用いれば、よりインパクトのある音が合成加工できる。

　また、本実施例では、入力音声信号以外の信号に水の流れる音を用いたが、これは当然、常に水の流れる音である必要はなく、ＰＲしたい企業や商品などに応じて様々な音を使用することが可能である。

　例えば、様々な環境音（風の音、波の音、虫や動物の鳴き声など）、自動車のエンジン音、ポテトチップスを食べる音、氷とグラスの当たる音や、何らかの音楽、楽曲、歌唱音などを用いて合成加工することが可能であるので、ユーザーを飽きさせることなく、常に新しいインパクトのある音を次々に提供することができる。

　さらに、本実施例のようなコマーシャル音声やサウンドロゴに用いる音に限らず、映画、ドラマ、アニメ、ゲーム、携帯電話の着信音などのメディア、ソフトウェア、商品などにおける音コンテンツや効果音、擬人化音声として、音を利用した全ての商品で利用可能である。

Claims

音声信号を聴取することによって当該音声信号以外の音信号のイメージを聴取者に想起させるための合成音声であって、この合成音声は振幅包絡線成分と周波数成分を合成して成り、前記振幅包絡線成分は当該音声信号の振幅包絡線成分であり、前記周波数成分は雑音を除く当該音声信号以外の音信号の周波数成分であることを特徴とする合成音声。
音声信号を聴取することによって当該音声信号以外の音信号のイメージを聴取者に想起させるための合成音声であって、この合成音声は振幅包絡線成分と周波数成分を合成して成り、前記振幅包絡線成分は当該音声信号を複数の周波数帯域に分割した際の各周波数帯域の信号の振幅包絡線成分であり、前記周波数成分は雑音を除く当該音声信号以外の音信号を前記複数の周波数帯域に分割した際の各周波数帯域の周波数成分であることを特徴とする合成音声。