WO2010004665A1 - 合成音声 - Google Patents

合成音声 Download PDF

Info

Publication number
WO2010004665A1
WO2010004665A1 PCT/JP2009/000565 JP2009000565W WO2010004665A1 WO 2010004665 A1 WO2010004665 A1 WO 2010004665A1 JP 2009000565 W JP2009000565 W JP 2009000565W WO 2010004665 A1 WO2010004665 A1 WO 2010004665A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
signal
speech
frequency
component
Prior art date
Application number
PCT/JP2009/000565
Other languages
English (en)
French (fr)
Inventor
坂本真一
Original Assignee
株式会社オトデザイナーズ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社オトデザイナーズ filed Critical 株式会社オトデザイナーズ
Priority to US13/003,632 priority Critical patent/US20110112840A1/en
Priority to CN200980130638.4A priority patent/CN102113048A/zh
Publication of WO2010004665A1 publication Critical patent/WO2010004665A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/001Teaching or communicating with blind persons
    • G09B21/006Teaching or communicating with blind persons using audible presentation of the information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Definitions

  • the present invention relates to sound effects used in advertisements for TVs, radios, sound logos for publicizing corporate images, and sound contents used for movies, animations, games, toys, ringtones of mobile phones, etc.
  • the present invention relates to a unique and end user-impacted synthetic speech composed of amplitude envelope information of speech and frequency components of signals other than the speech.
  • a voice signal is divided into a plurality of band signals, and after envelope extraction, each envelope is extracted, and then a noise source signal is added to a band pass filter section having a plurality of band pass filters;
  • a hearing aid, training apparatus, game apparatus, and sound output apparatus using a noisy noise signal obtained by extracting the noise and multiplying the output of each band-pass filter and accumulating the noise component of the sound source signal There is.
  • the personified voice converts the frequency according to a certain rule or changes the speech rate according to the image of the wind or tree.
  • Patent Document 2 voice / character data such as microphone of mobile phone, character input from operation key, character data stored in memory, QR code photography by camera, contactless IC card, data received from IrDA receiver, etc.
  • An offensive feeling given to another person by converting it into a degradation noise voice signal using the degradation noise voice signal conversion function of a degradation phone voice signal generation server connected to a cellular phone body or a network connection and using it as a reception notification tone of the portable phone. It is disclosed about the incoming call notification method of the mobile telephone which can receive the message of an incoming call notification sound while reducing the.
  • Patent No. 3973530 Patent No. 3833243 Patent No. 3973530 Patent No. 3833243
  • Patent Document 1 Although the degraded noise voice described in Patent Document 1 is unique but is made on the basis of noise, it is a sound that feels "slacking", and it can be used for corporate PR, commercials, etc. for the purpose of image enhancement. Is unsuitable.
  • the synthetic speech of the present invention synthesizes an amplitude envelope component and a frequency component in order to make the listener recall the image of the sound signal other than the sound signal by listening to the sound signal.
  • the amplitude envelope component is an amplitude envelope component of the voice signal
  • the frequency component is a frequency component of a sound signal other than the voice signal excluding noise.
  • the synthetic speech of the present invention is formed by synthesizing an amplitude envelope component and a frequency component in order to make the listener recall the image of a sound signal other than the sound signal by listening to the sound signal
  • the line component is an amplitude envelope component of the signal of each frequency band when the voice signal is divided into a plurality of frequency bands
  • the frequency component is a sound signal other than the voice signal excluding noise into the plurality of frequency bands.
  • the configuration is characterized in that it is a frequency component of each frequency band at the time of division.
  • the synthetic speech and speech synthesis processing apparatus of the present invention does not superimpose BGM and sound effects on speech, but generates speech using a signal other than the speech as a sound source, so that the user can only hear the speech. It is possible to recall images.
  • a simple superimposed voice in which a plurality of conventional sounds (voice and sound effects, image sounds) are simultaneously reproduced has no individuality as a single sound, but the synthetic voice of the present invention has the characteristics of the voice and the voice other than the voice. There is a personality as a "one sound” that combines with the characteristics of the sound.
  • the synthetic speech of the present invention comprising the amplitude envelope component of speech and the frequency component of the signal other than the speech, but the amplitude envelope component can be divided into a plurality of frequency bands of the speech signal.
  • the amplitude envelope component of the signal of each frequency band at the time of division into four, and the frequency component is constituted as the frequency component of each frequency band when the sound signal other than the voice signal is divided into the plurality of frequency bands,
  • the semantic content of the audio signal can be made easier to hear.
  • First embodiment of the present invention (example of synthetic speech waveform and sound spectrogram)
  • Second embodiment of the present invention (example of waveform of synthetic speech)
  • Second embodiment of the present invention (example of sound spectrogram of synthetic speech)
  • First block diagram for creating synthetic speech according to the invention Second block diagram for producing synthetic speech according to the invention Details in the second block diagram
  • SYMBOLS 1 ... 1st band-pass filter part, 2 ... envelope extraction part, 3 ... 2nd band filter part, 4 ... band-pass filter, 5 ... envelope extractor, 6 ... band-pass filter, 7 ... multiplication part, 8 ... addition unit.
  • FIG. 1 shows an example of a time waveform of synthesized speech of the present invention as a first embodiment of the present invention.
  • the upper left side of the figure is the input audio signal, and the sound spectrogram of the input audio signal is shown on the right (the sound spectrogram represents the time on the horizontal axis and the frequency on the vertical axis) It is shown).
  • the amplitude envelope of the input audio signal is shown, and below that, the waveform of the sound of water and the sound spectrogram are shown as sounds other than the audio signal.
  • the lowermost part shows the synthesized speech of the present invention which is synthesized by multiplying the amplitude envelope component and the sound of flowing water.
  • the synthetic speech of the present invention has an amplitude envelope component having the amplitude envelope component of the sound signal and a frequency component being the frequency component of the sound of water flow (sound signal other than the sound signal). It can be seen that
  • voice and sounds other than the voice are divided into four frequency bands ( ⁇ 600 Hz), (600 Hz ⁇ 500 Hz), (1500 Hz ⁇ 2500 Hz), (2500 Hz ⁇ 4000 Hz).
  • An example of division and synthesis is shown. From the upper row, the input voice signal (uttered content “natural water flow”), the sound of the actual water flow, the waveform when the input voice signal and the sound of the actual water flow are simply superimposed, the input of the present invention It is a sound waveform in which the voice signal is “natural water flow” and signals other than the voice are synthesized as the sound of the actual water flow.
  • the sound by simple superposition does not have individuality as one sound because the two sounds of the sound and the flow of water are mixed, and two sounds are mixed and difficult to hear. It is noisy if you raise the volume of the voice to hear the voice more, and conversely if you increase the volume of the stream of water it becomes loud and difficult to hear the important announcement voice.
  • the synthetic voice according to the present invention shown in the lowermost stage is rich in personality as a single sound since the voice is synthesized by the sound of water flow, and there is an impact, and the content of the announcement voice without raising the volume And the user can recognize the flowing sound at the same time.
  • FIG. 3 shows a sound spectrogram of each sound shown in FIG. In the sound in which the sound of water flow is simply superimposed, the sound of water flow overlaps the sound over all frequency bands.
  • the sound synthesized by the sound of the water flow according to the present invention loses the fine structure of the frequency components of the sound, and the frequency components in each band replace the frequency components of the sound of the water flow.
  • the amplitude envelope of each frequency band represented by color shading is the same as that of speech.
  • Deteriorated noise speech is a speech for which "brain training" for promoting brain activation is the target speech by generating speech with amplitude envelope information only after removing frequency information of the speech by replacing it with noise.
  • FIG. 4 is a first block diagram for producing the synthetic speech of the present invention, which is a first band-pass filter unit 1 comprising a band-pass filter 4 and an envelope extraction unit 2 comprising an envelope extractor 5. And a second band filter unit 3 comprising a band filter 6 and a multiplier unit 7.
  • the input speech signal is input to the first band filter unit 1 and is limited to a signal of a predetermined frequency band by the band filter 4, and then the amplitude envelope information is extracted by the envelope extractor 5 of the envelope extraction unit 2. It is extracted.
  • signals other than the input voice signal are input to the second band filter unit 3 and limited by the band filter 6 to signals of a predetermined frequency band.
  • the amplitude envelope of the band-pass filtered input speech signal which is the output of the envelope extractor 5 and the signals other than the band-pass filtered input speech signal which is the output of the band-pass filter 6 are multiplied by the multiplier 7 and output Be done.
  • FIG. 5 is a second block diagram for producing the synthetic speech of the present invention, which is an envelope comprising a first band filter section 1 comprising a plurality of band pass filters 4 and a plurality of envelope extractors 5.
  • a second band filter unit 3 including an extraction unit 2, a plurality of band pass filters 6, a plurality of multiplication units 7, and an addition unit 8.
  • the first band pass filter 4 of the first band pass filter unit 1 is an LPF (low pass filter), and the second and subsequent band pass filters 4 are BPFs (band pass filters) having different pass bands. It is done.
  • the cutoff frequency of the first LPF and the lower limit frequency and the upper limit frequency of the second and subsequent BPFs are for speech perception.
  • Shall be set to values around (600 Hz), (600 Hz, 1500 Hz), (1500 Hz, 2500 Hz), (2500 Hz, 4000 Hz), taking into consideration the general frequency values of feature quantities such as formant frequencies important to .
  • the outputs of these band pass filters 4 are respectively input to an envelope extractor 5 composed of an LPF for extracting amplitude envelope information of speech.
  • the purpose of the envelope extractor 5 is to extract an envelope of the amplitude of the input signal (that is, information on the strength of the sound). Therefore, the envelope extractor 5 is configured of an LPF or the like having a cutoff frequency of 10 Hz to 20 Hz in order to eliminate extra frequency information other than the amplitude envelope and leave only the amplitude envelope information.
  • a half wave rectifier is placed before or after the LPF having a cutoff frequency of 10 Hz to 20 Hz to obtain an amplitude envelope composed of only positive components. It is good.
  • signals other than the input voice are input to the second band filter unit 3 configured by the band filter 6 (LPF and BPF) having the same cutoff frequency, upper limit frequency and lower limit frequency as the band filter 4. Ru.
  • the outputs of the envelope extraction unit 5 and the output of the band pass filter 6 are multiplied by corresponding ones in the multiplication unit 7.
  • the frequency information in the pass band of the input speech signal that has passed through each band filter 4 is completely replaced with the frequency information in the corresponding band of the signal other than the input speech signal. This means that the information of the input speech signal is only the amplitude envelope information in each pass band.
  • the output of each multiplier 7 is added by the adder 8 and output.
  • the voice and sounds other than the voice are divided into four frequency bands ( ⁇ 600 Hz), (600 Hz ⁇ 500 Hz), (1500 Hz ⁇ 2500 Hz), (2500 Hz ⁇ 4000 Hz), but
  • the number of bands, the cutoff frequency at that time, the lower limit frequency, and the upper limit frequency can be freely changed according to the voice content, the features of the sound signal other than the voice, and the target or content to be PRed.
  • the first band-pass filter unit 1 receives an input speech signal (PR announcement sound) and the second band-pass filter unit 3 signals other than the input sound signal (image sound: water flow sound)
  • the first band-pass filter unit 1 receives a signal (image sound: water flow sound) other than the input sound signal, and the second band-pass filter unit 3 receives an input speech signal (PR Voice) may be input.
  • the characteristic sound of the amplitude envelope (for example, sudden noise when the door is closed) If you use sounds, crisp sounds when eating rice crackers, etc.), you can perform synthetic processing of sounds with more impact.
  • the sound of flowing water was used as a signal other than the input voice signal, but it is of course not always necessary to be the sound of flowing water, and various sounds may be used depending on the company or product etc. It is possible to use
  • sound contents and sound effects in human beings, software, products, etc. such as movies, dramas, animations, games, mobile phone ringtones, etc. are not limited to sounds used for commercial voices and sound logos as in this embodiment. It can be used as sound for all products using sound.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Telephone Function (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】 テレビ、ラジオなどの広告で使われる効果音、企業イメージをPRするためのサウンドロゴ、および、映画、アニメ、ゲーム、玩具、携帯電話の着信音などで使用される音のコンテンツや擬人化音などのために、個性的かつエンドユーザーに対してインパクトのある合成音声を提供する。 【解決手段】 音声信号を聴取することによって当該音声信号以外の音信号のイメージを聴取者に想起させるための合成音声であって、この合成音声は振幅包絡線成分と周波数成分を合成して成り、前記振幅包絡線成分は当該音声信号の振幅包絡線成分であり、前記周波数成分は雑音を除く当該音声信号以外の音信号の周波数成分であることを特徴とする合成音声。

Description

合成音声
 本発明は、テレビ、ラジオなどの広告で使われる効果音、企業イメージをPRするためのサウンドロゴ、および、映画、アニメ、ゲーム、玩具、携帯電話の着信音などで使用される音のコンテンツなどのために、音声の振幅包絡線情報と当該音声以外の信号の周波数成分から構成される、個性的かつエンドユーザーに対してインパクトのある合成音声に関する。
 テレビ、ラジオなどのコマーシャルにおいては、商品をPRするための映像に加えて、商品名や、それをPRするためのメッセージなどの音声が流される。ほとんどの場合は、単にコマーシャル音声を流すだけでなく、商品イメージをアップさせるためのBGM(バックグラウンドミュージック)や、イメージに合う効果音(川の流れの音、鳥の鳴き声など)が音声に重畳されて流されているのは周知の事実である。
 近年では、企業のイメージをエンドユーザーに定着させるための視覚的な企業ロゴマークに加えて、企業の広告を行う際に常にある特定の音を流し、その音を聞くだけでユーザーが特定の企業もしくは商品を想起できるようなPR活動、いわゆるサウンドロゴも一般的に使われるようになってきている。
 一方、ゲーム、アニメ、映画、玩具などでは、従来から様々な種類の効果音が使用されてきているが、近年では、単なる効果音としてではなく、音そのものでゲームを楽しめる技術も開示されている。
 特許文献1では、音声信号を複数の帯域信号に分け、包絡線抽出の後、各包絡線を抽出してから、雑音源信号を複数の帯域濾波器を有する帯域濾波部に加え、雑音源信号を抽出し、各帯域濾波部の出力を乗算したものを累算して、音源信号の成分を雑音化した劣化雑音音声信号を使った補聴器、訓練装置、ゲーム装置、音出力装置について開示されている。
 劣化雑音音声は、人間が音声の内容や環境音の種類などを認識するために活用している周波数成分を全て雑音に置き換え、通常は音声内容などの認識にはほとんど使用されていない振幅包絡線情報のみを残した音声信号である。
 人間は、通常使用している周波数成分を取り除かれると、当然のことながら最初はその音声内容を解することはできないが、解答を知れば、すぐにそのように聞こえるようになる。
 これは、人間の脳が、普段は使っていない振幅包絡線情報を使用するように脳内ネットワークを切り替える能力を有するからであり、この理論から補聴器、訓練装置、脳のトレーニングなどのゲームコンテンツなどに利用できるものとして提案されている。
 一方、映画やアニメでは、自然界に存在する“風”、“樹木”、“滝”、“河”などを擬人化して、これらがあたかも喋っているかのようなシーンが以前から散見される。このような場合の擬人化された音声は、風や樹木のイメージに合わせて一定の法則で周波数を変換したり、発話速度を変化させたりしている。
 携帯電話の着信音においては、楽曲をそのままダウンロードして着信音として使用できるサービスが既に広く普及している。さらに最近では、高周波数域の聴力が低下してくる高齢者には聞こえず、聴力が健常な若者にしか聞こえない“モスキート音”と呼ばれる高周波音を着信音とするサービスがヒットしており、一般に面白い音、他では聞かれない音のコンテンツに対するニーズが高まってきていることが知られている。
 特許文献2では、携帯電話のマイクロフォン、操作キーからの文字入力、メモリに保存された文字データ、カメラによるQRコード撮影、非接触ICカード、IrDA受信機からの受信データなどの音声/文字データを、携帯電話機本体あるいはネットワーク接続した劣化雑音音声信号生成サーバの劣化雑音音声信号変換機能を使って劣化雑音音声信号に変換し、これを携帯電話機の受信通知音として使うことにより、他人に与える不快感を軽減しつつ着信通知音のメッセージを受け取ることが出来る携帯電話機の着信通知方法について開示されている。
特許第3973530号 特許第3833243号
 従来の商品名や企業名、商品PRの音声にBGMや効果音を重畳する方法は、所詮はPR音声とBGMという別々の2つの音の同時再生であるので、あまりに当たり前すぎて個性に乏しく、その行為そのもので現代のユーザーに強いインパクトを与えるのは難しい状況になってきている。
 音に個性を与え、さらにインパクトを与えるために、音量を大きくしたり、突発的な音を発したり、わざと不快な音を発してユーザーの注意喚起を促す方法が取られる場合もあるが、これらはかえって企業イメージをダウンさせてしまう可能性があり、仮に騒音として認識されてしまえば社会問題化してしまう可能性もある。
 サウンドロゴでは、ゲーム機メーカーやパソコン用CPUメーカー、携帯電話キャリアなどにおいて、コマーシャルから流される特定の信号音によって、実際に企業イメージのアップに成功した事例も既に数多くある。しかし、これらは全て、多くのユーザーが特定の信号音から企業名を想起できるようになるまで、あらゆる媒体で音を流し続けねばならず、多大な広告宣伝費用が必要となる。
 さらに、ユーザーへの注意喚起を促しつつも、不快感を与えないために、ほとんどの場合は単発的かつ単純な信号音が用いられており、その音だけで企業名や商品名をダイレクトに伝えることができないという問題があった。
 特許文献1に記載の劣化雑音音声は、個性的ではあるが、雑音をベースに作られているので“がさがさ”した感じの音になっており、イメージアップを目的とする企業PRやコマーシャルなどには不向きである。
 さらに、脳のトレーニング効果がある上に、聞いた当初は意味が分からないのに解答を知れば聞こえるという驚き(インパクト)がある反面、ベースが雑音であるために、常に“がさがさ”とした同じ聴感の音声となるため個性がなく、エンドユーザーにすぐに飽きられてしまい、さらに当然のことながら、企業や商品のイメージを伝える効果はないという欠点があった。
 これまでの映画やアニメで使われている効果音や擬人化された音声も、あくまで作り手のイメージによって作られているに過ぎず、視聴者によってはその様なイメージが伝わらない場合もあり、作品ごとの効果音、擬人化音声の作成には大変な労力が必要とされるという問題があった。
 携帯電話の着信音に関しても同様に、モスキート音や特許文献2に記載の携帯電話機の着信通知方法をはじめ、様々な音のコンテンツが提案されているが、個性的で現代のユーザーにインパクトを与え、さらに飽きられないコンテンツを作り続けるのは極めて難しい状況にあった。
 上記の課題を解決する手段として、本発明の合成音声は、音声信号を聴取することによって当該音声信号以外の音信号のイメージを聴取者に想起させるために、振幅包絡線成分と周波数成分を合成して成り、前記振幅包絡線成分は当該音声信号の振幅包絡線成分であり、前記周波数成分は雑音を除く当該音声信号以外の音信号の周波数成分であることを特徴とする構成とした。
 また、本発明の合成音声は、音声信号を聴取することによって当該音声信号以外の音信号のイメージを聴取者に想起させるために、振幅包絡線成分と周波数成分を合成して成り、前記振幅包絡線成分は当該音声信号を複数の周波数帯域に分割した際の各周波数帯域の信号の振幅包絡線成分であり、前記周波数成分は雑音を除く当該音声信号以外の音信号を前記複数の周波数帯域に分割した際の各周波数帯域の周波数成分であることを特徴とする構成とした。
 本発明の合成音声および音声合成加工装置は、BGMや効果音を音声に重畳するのではなく、当該音声以外の信号を音源として音声が生成されているので、ユーザーは音声を聞くだけで、そのイメージを想起することが可能である。
 従来の複数の音(音声と効果音、イメージ音)が同時再生される単純な重畳音声は1つの音としての個性がなかったが、本発明の合成音声は、音声の特徴と当該音声以外の音の特徴とを併せ持つ“一つの音”としての個性がある。
 そのため、企業広告やサウンドロゴに使用すれば、インパクトを与えるために音量を大きくしたり、突発的な音を発したり、わざと不快な音を発したりすることなく、現代のユーザーに対して個性的で新たなインパクトを与え、不快感なしにユーザーの注意喚起を促すことができる。
 さらに、劣化雑音音声のように、常に“がさがさ”とした聴感なわけではなく、当該音声以外の音信号に様々な音を用いることにより、継続的に個性的でユーザーに飽きられない新たなインパクトのある音コンテンツを提供することが可能となる。
 当該音声以外の音信号の種類を様々に用意すれば、映画などでの効果音、擬人化された音声、携帯電話の着信音やゲーム用音声としても、個性的でイメージに合い、ユーザーに飽きられない音コンテンツを常に提供し続けることが可能となる。
 これらの効果は、音声の振幅包絡線成分と、当該音声以外の信号の周波数成分から成る本発明の合成音声によって成し遂げられるわけであるが、前記振幅包絡線成分を当該音声信号を複数の周波数帯域に分割した際の各周波数帯域の信号の振幅包絡線成分とし、前記周波数成分を当該音声信号以外の音信号を前記複数の周波数帯域に分割した際の各周波数帯域の周波数成分として構成すれば、当該音声信号の意味内容をさらに聞き取りやすくすることができる。
本発明の第1の実施形態(合成音声の波形とサウンドスペクトログラムの例) 本発明の第2の実施形態(合成音声の波形例) 本発明の第2の実施形態(合成音声のサウンドスペクトログラムの例) 本発明の合成音声を作成するための第1のブロック図 本発明の合成音声を作成するための第2のブロック図 第2のブロック図における詳細図
符号の説明
 1…第1の帯域濾波部、 2…包絡線抽出部、 3…第2の帯域濾波部、 4…帯域濾波器、 5…包絡線抽出器、 6…帯域濾波器、 7…乗算部、 8…加算部。
 以下、本発明を実施するための最良の形態を図面に基づいて詳細に説明する。なお、以下の説明において、同一機能を有するものは同一の符号とし、その繰り返しの説明は省略する。
 図1に、本発明の第1の実施形態として本発明の合成音声の時間波形の一例を示す。図の上段左側は入力音声信号であり、その右側には入力音声信号のサウンドスペクトログラムが示されている(サウンドスペクトログラムは、横軸が時間、縦軸が周波数を表し、色の濃淡でエネルギーの強弱が示されている)。
 入力音声信号波形の下には、入力音声信号の振幅包絡線が示されており、その下には当該音声信号以外の音として、水の流れる音の波形とサウンドスペクトログラムが示されている。
 最下段は、振幅包絡線成分と水の流れる音を乗算して合成した本発明の合成音声を示している。波形およびサウンドスペクトログラムから、本発明の合成音声は、振幅包絡線成分は当該音声信号の振幅包絡線成分を有し、周波数成分は水の流れの音(当該音声信号以外の音信号)の周波数成分を有していることが分かる。
 図2には、本発明の第2の実施形態として、音声及び当該音声以外の音を4つの周波数帯域(~600Hz),(600Hz~500Hz),(1500Hz~2500Hz),(2500Hz~4000Hz)に分割して合成した例を示す。上段から、入力音声信号(発話内容「天然水 水の流れ」)、実際の水の流れの音、入力音声信号と実際の水の流れの音を単純に重畳した場合の波形、本発明の入力音声信号を「天然水 水の流れ」にし、当該音声以外の信号を実際の水の流れの音として合成した音の波形である。
 ここではミネラルウォーターの広告と考え、PRのためのアナウンス音声とともに清涼感に溢れる水流の音をユーザーに聞かせたいものとする。これまでの広告用音声や映画、ゲーム機、携帯電話機などの音コンテンツは、ほとんど全てが両音の単純な重畳によって作成されていたことは言うまでもない。
 しかし、単純な重畳による音声は、図の波形からも明らかな通り、音声と水の流れという2音が混在するため1音としての個性がなく、さらに2音が入り混じって聞き難い。声をより聞かせるために音声の音量を上げれば騒々しく、逆に水の流れの音量を上げると騒々しい上に肝心なアナウンス音声が聞き取り難くなる。
 さらに、このような広告音声や音コンテンツは、現代ではあまりに当たり前すぎて個性がなく、ユーザーに与えるインパクトが最早ほとんど無いことは周知の事実である。
 一方、最下段に示した本発明による合成音声は、水の流れの音で音声が合成されているので1音としての個性に富み、インパクトがある上に、音量を上げずともアナウンス音声の内容および水の流れる音をユーザーが同時に認知することができる。
 図3には、図2に示した各音のサウンドスペクトログラムを示す。水の流れの音が単純に重畳された音声では、全ての周波数帯域に渡って水の流れの音が音声に重なっている。
 一方、本発明による水の流れの音で合成された音声は、音声の周波数成分の微細構造を消失し、各帯域内の周波数成分は水の流れの音の周波数成分に取って代わっているが、色の濃淡で表される各周波数帯域の振幅包絡線は音声のそれのままである。
 よって、特許文献1に記載の劣化雑音音声と同様に最初は発話内容を理解し難いかもしれないが、振幅包絡線情報が残されているので、解答を知れば理解できるようなり、加えて水の流れの音のイメージも伝えることができるようになる。
 さらに、本実施例のように水の流れの音から作られた音声は自然界には存在しないため、ユーザーへ与えるインパクトが大きいことは言うまでもない。
 劣化雑音音声は、雑音に置き換えることによって音声の周波数情報を取り除いた上で振幅包絡線情報のみでの音声を生成し、脳の活性化を促す「脳トレーニング」が目的の音声であり、周波数成分が一様で振幅包絡線が一直線である、何の特徴もない雑音(ホワイトノイズ)の使用が前提であった。
 よって、当該音声以外の音信号として水の流れの音などの有意味な実音(聴取者が何の音かを知っている実在の音)を使用しても、ホワイトノイズと違って、実音側にもその音の特徴的な振幅包絡線情報が存在するわけであるから、音声の意味内容が理解できる音声となるとは考えられていなかった。
 しかし今回、様々な条件下での試行錯誤の結果、本実施例のような合成音声であっても十分に意味内容を伝えることが可能であり、さらに1音としての個性に富み、インパクトのある音が合成可能であるとの知見が新たに得られ、本発明が成し遂げられた。
 図4は、本発明の合成音声を作成するための第1のブロック図であり、帯域濾波器4から成る第1の帯域濾波部1と、包絡線抽出器5から成る包絡線抽出部2と、帯域濾波器6から成る第2の帯域濾波部3と、乗算部7から構成されている。
 入力音声信号は第1の帯域濾波部1へ入力され、帯域濾波器4によって所定の周波数帯域の信号に限定された上で、包絡線抽出部2の包絡線抽出器5によって振幅包絡線情報が抽出される。一方、入力音声信号以外の信号は、第2の帯域濾波部3へ入力され、帯域濾波器6によって所定の周波数帯域の信号に限定される。
 包絡線抽出器5の出力である帯域濾波された入力音声信号の振幅包絡線と、帯域濾波器6の出力である帯域濾波された入力音声信号以外の信号は、乗算部7で乗算されて出力される。
 図5は、本発明の合成音声を作成するための第2のブロック図であり、複数の帯域濾波器4から成る第1の帯域濾波部1と、複数の包絡線抽出器5から成る包絡線抽出部2と、複数の帯域濾波器6から成る第2の帯域濾波部3と、複数の乗算部7と、加算部8から構成されている。
 第2のブロック図については、図6を用いてさらに詳細に説明する。図6において、第1の帯域濾波部1の1番目の帯域濾波器4はLPF(低域通過フィルタ)で、2番目以降の帯域濾波器4は通過帯域が異なるBPF(帯域通過フィルタ)で構成されている。
 ここで例えば、第1の帯域濾波部1を4つの帯域濾波器4で構成するとすれば、1番目のLPFのカットオフ周波数及び2番目以降のBPFの下限周波数と上限周波数は、音声知覚のために重要なフォルマント周波数などの特徴量の一般的な周波数値を勘案し、それぞれ(600Hz),(600Hz,1500Hz),(1500Hz,2500Hz),(2500Hz,4000Hz)程度の値に設定するものとする。
 これらの帯域濾波器4の出力は、音声の振幅包絡線情報を抽出するためのLPFで構成された包絡線抽出器5にそれぞれ入力される。ここで包絡線抽出器5の目的は、入力された信号の振幅の包絡線(つまり、音の強さの強弱の情報)を抽出することである。よって、包絡線抽出器5は、振幅包絡線以外の余分な周波数情報を削除して振幅包絡線情報だけにするために、10Hz~20Hzのカットオフ周波数を有するLPFなどで構成される。
 なお、ここには示していないが、当然のことながら、10Hz~20Hzのカットオフ周波数を有するLPFの前段もしくは後段に半波整流器を配置し、正の成分だけで構成された振幅包絡線を得ても良い。
  一方、入力音声以外の信号は、帯域濾波器4と同様のカットオフ周波数、上限周波数、下限周波数を有する帯域濾波器6(LPFおよびBPF)で構成される第2の帯域濾波部3に入力される。 
 包絡線抽出部5の出力と帯域濾波器6の出力は、それぞれ対応する出力同士が乗算部7で乗算される。この時点で、各帯域濾波器4を通過した入力音声信号の通過帯域内の周波数情報は、入力音声信号以外の信号の対応する帯域内の周波数情報に全て置き換えられたことになる。これはつまり、入力音声信号の情報は各通過帯域内の振幅包絡線情報のみとなっているということである。そして最後に、各乗算部7の出力が加算部8で加算され出力される。
 なお、本実施例では、音声及び当該音声以外の音を4つの周波数帯域(~600Hz),(600Hz~500Hz),(1500Hz~2500Hz),(2500Hz~4000Hz)に分割しているが、分割する帯域の数や、その際のカットオフ周波数、下限周波数、上限周波数は、音声内容や当該音声以外の音信号の特徴及びPRしたい対象物や内容などによって自由に変更が可能である。
 また、本実施例では、第1の帯域濾波部1に入力音声号(PRのアナウンス音声)を、第2の帯域濾波部3に入力音声信号以外の信号(イメージ音:水の流れの音)を入力しているが、これは第1の帯域濾波部1に入力音声信号以外の信号(イメージ音:水の流れの音)を、第2の帯域濾波部3に入力音声号(PRのアナウンス音声)を入力しても良い。
 この場合は、入力音声信号以外の信号の振幅包絡線情報が残り、音声の周波数情報を用いて合成加工することになるので、振幅包絡線が特徴的な音(例えば、ドアの閉まる時の突発音や、せんべいなどを食べる時のパリパリ音など)を用いれば、よりインパクトのある音が合成加工できる。
 また、本実施例では、入力音声信号以外の信号に水の流れる音を用いたが、これは当然、常に水の流れる音である必要はなく、PRしたい企業や商品などに応じて様々な音を使用することが可能である。
 例えば、様々な環境音(風の音、波の音、虫や動物の鳴き声など)、自動車のエンジン音、ポテトチップスを食べる音、氷とグラスの当たる音や、何らかの音楽、楽曲、歌唱音などを用いて合成加工することが可能であるので、ユーザーを飽きさせることなく、常に新しいインパクトのある音を次々に提供することができる。
 さらに、本実施例のようなコマーシャル音声やサウンドロゴに用いる音に限らず、映画、ドラマ、アニメ、ゲーム、携帯電話の着信音などのメディア、ソフトウェア、商品などにおける音コンテンツや効果音、擬人化音声として、音を利用した全ての商品で利用可能である。

Claims (2)

  1. 音声信号を聴取することによって当該音声信号以外の音信号のイメージを聴取者に想起させるための合成音声であって、この合成音声は振幅包絡線成分と周波数成分を合成して成り、前記振幅包絡線成分は当該音声信号の振幅包絡線成分であり、前記周波数成分は雑音を除く当該音声信号以外の音信号の周波数成分であることを特徴とする合成音声。
  2. 音声信号を聴取することによって当該音声信号以外の音信号のイメージを聴取者に想起させるための合成音声であって、この合成音声は振幅包絡線成分と周波数成分を合成して成り、前記振幅包絡線成分は当該音声信号を複数の周波数帯域に分割した際の各周波数帯域の信号の振幅包絡線成分であり、前記周波数成分は雑音を除く当該音声信号以外の音信号を前記複数の周波数帯域に分割した際の各周波数帯域の周波数成分であることを特徴とする合成音声。
PCT/JP2009/000565 2008-07-11 2009-02-13 合成音声 WO2010004665A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/003,632 US20110112840A1 (en) 2008-07-11 2009-02-13 Synthetic sound generation method and apparatus
CN200980130638.4A CN102113048A (zh) 2008-07-11 2009-02-13 合成声音

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008-181083 2008-07-11
JP2008181083A JP4209461B1 (ja) 2008-07-11 2008-07-11 合成音声作成方法および装置

Publications (1)

Publication Number Publication Date
WO2010004665A1 true WO2010004665A1 (ja) 2010-01-14

Family

ID=40325705

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/000565 WO2010004665A1 (ja) 2008-07-11 2009-02-13 合成音声

Country Status (4)

Country Link
US (1) US20110112840A1 (ja)
JP (1) JP4209461B1 (ja)
CN (1) CN102113048A (ja)
WO (1) WO2010004665A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8254785B1 (en) * 2008-05-15 2012-08-28 Sprint Communications Company L.P. Optical image processing to wirelessly transfer a voice message
JP5221456B2 (ja) * 2009-06-30 2013-06-26 リズム時計工業株式会社 目覚し時計
CN103854642B (zh) * 2014-03-07 2016-08-17 天津大学 基于物理的火焰声音合成方法
US9941855B1 (en) * 2017-01-31 2018-04-10 Bose Corporation Motor vehicle sound enhancement
JP6724932B2 (ja) * 2018-01-11 2020-07-15 ヤマハ株式会社 音声合成方法、音声合成システムおよびプログラム
CN111863028B (zh) * 2020-07-20 2023-05-09 江门职业技术学院 一种发动机声音合成方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0413187A (ja) * 1990-05-02 1992-01-17 Brother Ind Ltd ボイスチェンジャー機能付楽音発生装置
JP3973530B2 (ja) * 2002-10-10 2007-09-12 裕 力丸 補聴器、訓練装置、ゲーム装置、および音出力装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4132109B2 (ja) * 1995-10-26 2008-08-13 ソニー株式会社 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
JP2001117576A (ja) * 1999-10-15 2001-04-27 Pioneer Electronic Corp 音声合成方法
JP3815347B2 (ja) * 2002-02-27 2006-08-30 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
US20080243518A1 (en) * 2006-11-16 2008-10-02 Alexey Oraevsky System And Method For Compressing And Reconstructing Audio Files

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0413187A (ja) * 1990-05-02 1992-01-17 Brother Ind Ltd ボイスチェンジャー機能付楽音発生装置
JP3973530B2 (ja) * 2002-10-10 2007-09-12 裕 力丸 補聴器、訓練装置、ゲーム装置、および音出力装置

Also Published As

Publication number Publication date
US20110112840A1 (en) 2011-05-12
JP2010020137A (ja) 2010-01-28
CN102113048A (zh) 2011-06-29
JP4209461B1 (ja) 2009-01-14

Similar Documents

Publication Publication Date Title
CN104954555B (zh) 一种音量调节方法及系统
JP6600634B2 (ja) ユーザが制御可能な聴覚環境のカスタマイズのためのシステム及び方法
JP5644359B2 (ja) 音声処理装置
US5765134A (en) Method to electronically alter a speaker's emotional state and improve the performance of public speaking
WO2010004665A1 (ja) 合成音声
Zacharov Sensory evaluation of sound
US8594319B2 (en) System and method of adjusting the sound of multiple audio objects directed toward an audio output device
Harkins et al. Technologies for communication: Status and trends
CN109104616B (zh) 一种直播间的语音连麦方法及客户端
CN108260055A (zh) 再现系统及方法、终端装置及方法、计算机可读存储介质
Marshall et al. Treble culture
CN107452394A (zh) 一种基于频率特性降低噪音的方法和系统
US20150049879A1 (en) Method of audio processing and audio-playing device
CN106412225A (zh) 移动终端以及安全提示方法
KR100858283B1 (ko) 대화 도청 방지를 위한 사운드 마스킹 방법과 이를 위한장치
CN103731541A (zh) 对通话中的音频进行控制的方法及终端
US8768406B2 (en) Background sound removal for privacy and personalization use
CN114255782A (zh) 说话人语音增强方法、电子设备和存储介质
CN207706373U (zh) 一种k歌话筒
CN103618823A (zh) 一种移动终端铃声定制方法和系统
JP5747490B2 (ja) マスカ音生成装置、マスカ音出力装置、およびマスカ音生成プログラム
Young Proximity/Infinity
CN109256140A (zh) 一种录音方法、系统和音频分离方法、设备和存储介质
JP3227725U (ja) 文字表示機能付き補聴システム
JP2009000248A (ja) ゲーム機

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200980130638.4

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09794113

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 13003632

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 09794113

Country of ref document: EP

Kind code of ref document: A1