WO2007091475A1 - 音声合成装置、音声合成方法及びプログラム - Google Patents

音声合成装置、音声合成方法及びプログラム Download PDF

Info

Publication number
WO2007091475A1
WO2007091475A1 PCT/JP2007/051669 JP2007051669W WO2007091475A1 WO 2007091475 A1 WO2007091475 A1 WO 2007091475A1 JP 2007051669 W JP2007051669 W JP 2007051669W WO 2007091475 A1 WO2007091475 A1 WO 2007091475A1
Authority
WO
WIPO (PCT)
Prior art keywords
music
speech
unit
utterance
format
Prior art date
Application number
PCT/JP2007/051669
Other languages
English (en)
French (fr)
Inventor
Masanori Kato
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to CN2007800048865A priority Critical patent/CN101379549B/zh
Priority to US12/223,707 priority patent/US8209180B2/en
Priority to JP2007557805A priority patent/JP5277634B2/ja
Publication of WO2007091475A1 publication Critical patent/WO2007091475A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/081Genre classification, i.e. descriptive metadata for classification or selection of musical pieces according to style
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis

Definitions

  • Speech synthesis apparatus speech synthesis method and program
  • the present invention relates to a speech synthesis technique, and more particularly to a speech synthesis apparatus, speech synthesis method, and program for synthesizing speech from text.
  • a prosody eg, pitch frequency pattern, amplitude, duration
  • a phonetic symbol string reading, syntax 'part of speech information, text analysis result including an accent type, etc.
  • the processing result of generating a waveform, selecting a unit waveform for example, a waveform having a length of about the pitch length or syllable time length extracted from natural speech
  • generating the waveform is uniquely determined.
  • the speech synthesizer always synthesizes speech in the same utterance format (voice volume, utterance speed, prosody, voice color, etc.) in any situation or environment.
  • Patent Document 1 discloses a configuration of a speech synthesis system that selects a phoneme / prosodic control rule according to information indicating the brightness of a user environment, the position of a user, and the like.
  • Patent Document 2 discloses a child spectrum based on the power spectrum and frequency distribution information of ambient noise. The structure of a speech synthesizer that controls sound power, pitch frequency, and sampling frequency is disclosed.
  • Patent Document 3 discloses a configuration of a speech synthesizer that controls speech rate, pitch frequency, volume, and voice quality based on various timing information including time, date, and day of the week.
  • Non-Patent Document 1 describes a genre estimation method for estimating a music genre by obtaining musical features (instrument composition, rhythm structure) by analyzing a short-time amplitude spectrum and discrete wavelet transform coefficient of a music signal. It is disclosed.
  • Non-Patent Document 2 discloses a genre estimation method for estimating a music genre from a mel frequency cepstrum coefficient of a music signal using a tree-structured vector quantization method.
  • Non-Patent Document 3 discloses a method of searching for a music signal by calculating similarity using a spectrum histogram! Speak.
  • Patent Document 1 Japanese Patent No. 3595041
  • Patent Document 2 Japanese Patent Laid-Open No. 11-15495
  • Patent Document 3 Japanese Patent Laid-Open No. 11 161298
  • Non-patent literature l Tzanetakis, Essl, Cook: "Automatic Musical Genre CI assification of Audio Signals", Proceedings of IS MIR 2001, pp. 205-210, 2001.
  • Non-Patent Document 2 Hoashi, Matsumoto, Inoue: “Personalization of User Profiles for Content— based Music Retrieval Based on Relevance Feedback”, Proceedings of ACM Multimedia 2003, pp. 110—119, 2003.
  • Non-Patent Document 3 Kimura, et al .: “High-speed search of sound and video with global pruning”, IEICE Transactions D— ⁇ , Vol. J85 -D-II, No. 10, pp. 1552-1562, October 2002
  • BGM background music
  • BGM background music
  • BGM background music
  • BGM is generally played along with natural sound for the purpose of drawing the audience's attention or impressing the audience with a message.
  • BGM is played in the background of narration.
  • BGM especially the music genre to which the BGM belongs
  • BGM may be selected depending on the speaker's utterance format. You can find the relationship that has been made. For example, in weather forecasts and traffic information, it is common for announcements to be made in a calm tone with BGM with a gentle tone like easy listening. However, even if the content is the same, announcements are often made with a loud voice in certain programs and live broadcasts.
  • the environment in which the speech synthesizer is used is diverse, and the opportunity to output synthesized speech in a place where various music including the BGM is played (user environment)
  • the conventional speech synthesizers including those described in Patent Document 1 and the like described above cannot reproduce music existing in the user environment in controlling the speech format of synthesized speech. Therefore, there is a problem that the utterance format cannot be harmonized with the surrounding music.
  • the present invention has been made in view of the above circumstances, and an object of the present invention is to provide a speech synthesizer, a speech synthesis method, and a program capable of synthesizing speech in harmony with music existing in a user environment. It is to provide.
  • a speech synthesizer characterized by automatically selecting an utterance format according to an input music signal. More specifically, the speech synthesizer analyzes a music signal, determines an utterance format that matches the analysis result of the music signal, and an utterance format selection unit that synthesizes speech according to the utterance format. And with Composed.
  • a speech synthesis method for generating synthesized speech using a speech synthesizer, wherein the speech synthesizer analyzes an input music signal, and the music
  • a speech synthesizing method comprising: determining an utterance format suitable for a signal analysis result; and the speech synthesizer synthesizing speech according to the utterance format.
  • a program to be executed by a computer constituting a speech synthesizer wherein an input music signal is analyzed, and the music is selected from utterance formats prepared in advance.
  • FIG. 1 is a block diagram showing a configuration of a speech synthesizer according to a first embodiment of the present invention.
  • FIG. 2 is an example of a table defining a relationship between a music genre, an utterance format, and an utterance format parameter used in the speech synthesizer according to the first embodiment of the present invention.
  • FIG. 3 is a flowchart for explaining the operation of the speech synthesizer according to the first embodiment of the present invention.
  • FIG. 4 is a block diagram showing a configuration of a speech synthesizer according to the second embodiment of the present invention.
  • ⁇ 5 Music genres and sounds used in the speech synthesizer according to the second embodiment of the present invention. It is an example of the table
  • ⁇ 7 A block diagram showing the configuration of the speech synthesizer according to the third embodiment of the present invention.
  • FIG. 8 is a flowchart for explaining the operation of the speech synthesizer according to the third embodiment of the present invention.
  • FIG. 9 is a block diagram showing the configuration of a speech synthesizer according to the fourth embodiment of the present invention.
  • FIG. 10 is a flowchart for explaining the operation of the speech synthesizer according to the fourth embodiment of the present invention.
  • FIG. 1 is a block diagram showing the configuration of the speech synthesizer according to the first embodiment of the present invention.
  • the speech synthesizer according to this embodiment includes a prosody generation unit 11, a unit waveform selection unit 12, a waveform generation unit 13, prosody generation rule storage units 15 to 15, and a unit.
  • An utterance format information storage unit 24 is provided.
  • the prosody generation unit 11 is a processing means for generating prosody information from the prosody generation rule selected based on the utterance format and the phonetic symbol string.
  • the unit waveform selection unit 12 is processing means for selecting a unit waveform from unit waveform data selected based on the utterance format, phonetic symbol string, and prosody information.
  • the waveform generator 13 is a processing means for generating a prosody information and unit waveform data force synthesized speech waveform.
  • the prosody generation rule storage units 15 to 15 are required to realize synthesized speech in each utterance format.
  • Prosody generation rules for example, pitch frequency pattern, amplitude, duration length, etc.
  • the unit waveform data storage unit 16 also has a power of 16, as in the case of the prosody generation rule storage unit.
  • Unit waveform data required for the realization of synthesized speech in each utterance format (for example, a waveform having a pitch length or a syllable time length from which natural speech power is also extracted) is stored.
  • the prosody generation rules and unit waveform data to be stored in 1 N 1 are natural sounds that match each utterance format.
  • the prosody generation rules and unit waveform data required for realizing a vigorous voice that has been generated are stored in the prosody generation rule storage unit 15 and the unit waveform data storage unit 16.
  • Prosody generation rules and unit waveform data required to realize a calm voice generated from a calm voice are stored in the prosody generation rule storage unit 15 and unit waveform data storage.
  • the prosody generation rules and unit waveform data generated from the secret voice stored in the memory 16 are rhymes.
  • the generated prosody generation rules and unit waveform data are the prosody generation rule storage unit 15 and unit waveform data.
  • the method for generating rules and unit waveform data is not dependent on the utterance format, and the same method as that for generating from standard voice can be used.
  • the music genre estimation unit 21 is processing means for estimating the music genre to which the input music signal belongs.
  • the utterance format selection unit 23 is a processing means for determining the music genre utterance format stored in the utterance format information storage unit 24 and estimated based on the table.
  • the utterance format information storage unit 24 stores a table that defines the relationship between the music genre, the utterance format, and the utterance format parameters exemplified in FIG.
  • the utterance format parameters are the prosody generation rule storage unit number and the unit waveform data storage unit number. By combining prosody generation rules and unit waveform data corresponding to each number, synthesized speech in a specific utterance format can be generated. Realized. In the example of FIG. 2, both the utterance format and the utterance format parameter are defined for convenience of explanation, but since only the utterance format parameter is used in the utterance format selection unit 23, Format definitions can be omitted.
  • the utterance format information storage unit 24 defines only the relationship between the music genre and the utterance format, and the correspondence between the utterance format, the prosody generation rules and the unit waveform data is the prosody generation unit 11 and the unit waveform.
  • the selection unit 12 may be configured to select prosody generation rules and unit waveform data according to the utterance format.
  • a configuration in which a number of utterance formats are prepared is prepared, but only unit waveform data of one utterance format is prepared, and the utterance format is switched by changing the prosodic generation rules. It is also possible. In this case, the storage capacity and processing amount of the speech synthesizer can be further reduced.
  • the correspondence between the music genre information defined in the utterance format information storage unit 24 and the utterance format may be changed according to the user's preference, or a plurality of correspondence relationships prepared in advance. It is possible to allow the user to select according to their preference.
  • FIG. 3 is a flowchart showing the operation of the speech synthesizer according to this embodiment. is there.
  • the music genre estimation unit 21 extracts features of a music signal such as spectrum and cepstrum from the input music signal, estimates the music genre to which the input music belongs, Output to the format selector 23 (step Al).
  • the publicly known methods described in Non-Patent Document 1, Non-Patent Document 2, etc. listed above can be used.
  • the utterance format selection unit 23 based on the estimated music genre transmitted from the music genre estimation unit 21, reads the corresponding utterance from the table (see Fig. 2) stored in the utterance format information storage unit 24.
  • the speech format is selected, and the speech format parameters necessary to realize the selected speech format are transmitted to the prosody generation unit 11 and the unit waveform selection unit 12 (step A2).
  • the estimated music genre is pop, a fine voice is selected as the utterance format, a calm voice is selected for easy listening, and a quiet voice is selected for religious music. Voice is selected. If the estimated music genre does not exist in the table of Fig. 2, the standard utterance format is selected as in the case of the "other" music genre.
  • the prosody generation unit 11 refers to the utterance format parameters supplied from the utterance format selection unit 23, and the utterance format selection unit 23 designates the prosody generation rule storage units 15 to 15.
  • the prosody generation rule storage unit having the storage unit number is selected. Then, based on the prosody generation rule of the selected prosody generation rule storage unit, prosody information is generated from the input phonetic symbol string and transmitted to the unit waveform selection unit 12 and the waveform generation unit 13 (step A3).
  • the unit waveform selection unit 12 refers to the utterance format parameter transmitted from the utterance format selection unit 23, and from the unit waveform data storage unit 16 force 16, the utterance format selection unit 23
  • the unit waveform data storage unit having the storage unit number designated by is selected. Then, based on the inputted phonetic symbol string and the prosodic information supplied from the prosody generation unit 11, a unit waveform is selected from the selected unit waveform data storage unit and transmitted to the waveform generation unit 13 (step A4). .
  • the waveform generation unit 13 is simply based on the prosodic information transmitted from the prosody generation unit 11. Connects the unit waveforms supplied from the unit waveform selector 12 and outputs a synthesized speech signal (step A5).
  • the unit waveform data storage units 16 to 16 are provided for each utterance format.
  • the configuration is prepared, it may be configured to provide only a standard voice unit waveform data storage unit.
  • the utterance format is controlled only by the prosody generation rules.
  • the unit waveform data is larger in data size than other data including the prosody generation rules, the storage capacity of the entire synthesizer is greatly increased. The advantage is that it can be reduced.
  • the power of the synthesized speech is not a control target, and the power is the same whether the synthesized speech is output with a secret voice or the synthesized speech is output with a cheerful voice.
  • harmony may be lost if the volume of the synthesized speech is too loud compared to the background music, and in some cases it may be harsh.
  • harmony may be impaired and it may be difficult to hear the synthesized speech.
  • FIG. 4 is a block diagram showing the configuration of the speech synthesizer according to the second embodiment of the present invention.
  • the speech synthesizer according to the present embodiment is different from the speech synthesizer according to the first embodiment (see FIG. 1) in the synthesized speech power adjustment unit 17 and the synthesized speech.
  • a power calculator 18 and a music signal power calculator 19 are added.
  • an utterance format selection unit 27 and an utterance format information storage unit 28 Is arranged.
  • the utterance format information storage unit 28 stores a table that defines the relationship between the music genre, the utterance format, and the utterance format parameters exemplified in FIG.
  • the difference from the table (see FIG. 2) held in the utterance format information storage unit 24 of the first embodiment is that a power ratio is added. It is a point.
  • the power ratio is a value obtained by dividing the power of the synthesized speech by the power of the music signal. In other words, if the power ratio is greater than 1.0, it indicates that the power of the synthesized speech is greater than the power of the music signal. Referring to Fig. 5, for example, if the music genre is estimated to be pops, the utterance format is energetic voice, the power ratio is set to 1.2, and the power (1.2 times) exceeds the music signal power To output the synthesized voice power. Similarly, the power ratio is set to 1.0 when the utterance form is calm, 0.9 for the quiet voice, and 1.0 for the standard voice.
  • FIG. 6 is a flowchart showing the operation of the speech synthesizer according to this embodiment.
  • the process from music genre estimation (step A1) to waveform generation (step A5) is substantially the same as in the first embodiment described above, but in step A2, the utterance format selection unit 27 performs a music genre estimation unit 21.
  • the difference is that the power ratio stored in the utterance format information storage unit 28 is transmitted to the synthesized speech power adjustment unit 17 from the estimated music genre transmitted from (step A2).
  • the music signal power calculator 19 calculates the average power of the input music signal and transmits it to the synthesized speech power adjuster 17 (step Bl). If the sample number of the signal is n and the music signal is x (n), the average power P (n) of the music signal can be obtained by, for example, the primary leak integration as shown in the following equation (1).
  • a is the time constant of the first-order leak integration. Since power is calculated to prevent the difference between the average volume of synthesized speech and BGM from becoming large, it is desirable to set a large value such as 0.9 for a and calculate the average power for a long time. Conversely, if the power is calculated with the value of a set to a small value such as 0.1, the volume of the synthesized speech changes frequently and greatly, and the synthesized speech may become audible.
  • a moving average or an average value of all samples of the input signal can be used.
  • the synthesized speech power calculation unit 18 calculates the average power of the synthesized speech supplied from the waveform generation unit 13 and transmits it to the synthesized speech power adjustment unit 17 (step B2).
  • the same method as the music signal power can be used for the calculation of the synthesized voice power.
  • the synthesized speech power adjusting unit 17 includes the music signal power supplied from the music signal power calculating unit 19, the synthesized speech power supplied from the synthesized speech power calculating unit 18, and the speech format selecting unit 27.
  • the power of the synthesized speech signal supplied from the waveform generator 13 is adjusted based on the power ratio in the utterance format parameters supplied from, and output as a power adjusted speech synthesized signal (step B3). More specifically, the synthesized speech power adjustment unit 17 makes the ratio between the power of the synthesized speech signal that is finally output and the music signal power approach the value of the power ratio supplied from the speech format selection unit 27. Adjust the power of the synthesized voice.
  • the power adjustment coefficient such that the ratio of the power of the music signal and the power-adjusted synthesized speech substantially matches the power ratio supplied from the utterance format selection unit 27. If the music signal power is P, the synthesized voice power is P, and the power ratio is r, the power adjustment factor c is
  • the synthesized speech signal before power adjustment is y (n)
  • the synthesized speech signal y (n) after power adjustment is given by the following equation.
  • fine control such as making the synthesized voice power a little higher than the standard voice when a fine voice is selected, and making the power a little lower when a secret voice is selected. Enables an utterance format that is more harmonious with BGM It is possible to
  • FIG. 7 is a block diagram showing the configuration of a speech synthesizer according to the third embodiment of the present invention.
  • the speech synthesizer according to the present embodiment adds a music attribute information storage unit 32 to the speech synthesizer according to the first embodiment (see FIG. 1). Instead of the music genre estimation unit 21, a music attribute information search unit 31 is provided.
  • the music attribute information search unit 31 is a processing means for extracting a feature quantity such as a spectrum from the input music signal.
  • the characteristic amounts of various music signals and the music genres of the music signals are individually recorded. By comparing the characteristic amounts, the music is specified and the genre is determined. It is possible to do.
  • FIG. 8 is a flowchart showing the operation of the speech synthesizer according to this embodiment. Since the music genre estimation (step A1) is different from the first embodiment described above and the others have already been described, step D1 in FIG. 8 will be described in detail below.
  • the music attribute information search unit 31 extracts a feature amount such as a spectrum from the input music signal. Subsequently, the music attribute information search unit 31 calculates the similarity between all the feature values of the music stored in the music attribute information storage unit 32 and the feature values of the input music signal. Then, the music genre information of the music having the highest similarity is transmitted to the utterance format selection unit 23 (step Dl).
  • step D1 if the maximum value of similarity falls below a preset threshold value.
  • the music attribute information search unit 31 determines that the music corresponding to the input music signal is recorded in the music attribute information storage unit 32, and outputs “other” as the music genre.
  • the music attribute information storage unit 32 in which the music genre is individually recorded is used for each piece of music, which is higher than in the first and second embodiments.
  • V. Music genre can be specified with accuracy and reflected in the utterance format.
  • the utterance format is determined by attribute information other than the music genre. It becomes possible.
  • the music attribute information storage unit 32 If the number of types of music stored in the music attribute information storage unit 32 increases, it becomes possible to specify many genres of music signals. The amount increases. If necessary, when the music attribute information storage unit 32 is arranged outside the speech synthesizer and the similarity of the feature quantity of the music signal is calculated, it is stored in the music attribute information storage unit 32 using wired and wireless communication means. It is also possible to adopt an access configuration.
  • FIG. 9 is a block diagram showing the configuration of a speech synthesizer according to the fourth embodiment of the present invention.
  • the speech synthesizer according to the present embodiment adds a music playback unit 35 and a music data storage unit 37 to the speech synthesizer according to the first embodiment (see FIG. 1).
  • a reproduction music information acquisition unit 36 is provided in place of the music genre estimation unit 21.
  • the music data storage unit 37 stores a music signal, a song number of the music, and a music genre.
  • the music playback unit 35 receives music signals stored in the music data storage unit 37 according to playback commands including various commands such as song number, volume, playback, stop, rewind, fast forward, etc. It is a means to output through.
  • the music playback unit 35 supplies the music number of the music being played back to the playback music information acquisition unit 36.
  • the reproduction music information acquisition unit 36 performs music corresponding to the song number supplied from the music reproduction unit 35.
  • This genre information is extracted from the music data storage unit 37 and transmitted to the utterance format selection unit 23, and is the same processing means as the music genre estimation unit 21 of the first embodiment.
  • FIG. 10 is a flowchart showing the operation of the speech synthesizer according to this embodiment. Since the music genre estimation (step A1) is different from the first embodiment described above, and others have already been described, steps D2 and D3 in FIG. 10 will be described in detail below.
  • the song number is supplied to the playback music information acquisition unit 36 (step D2).
  • the reproduction music information acquisition unit 36 extracts the music genre information corresponding to the song number supplied from the music reproduction unit 35 from the music data storage unit 37 and transmits it to the utterance format selection unit 23 (step D3). .
  • music genre estimation processing and search processing are not required, and it is possible to reliably specify the music genre of the BGM being played.
  • the music playback unit 35 can directly acquire the genre information of the music being played back from the music data storage unit 37, the playback music information acquisition unit 36 is eliminated and the music playback unit 35 changes to the utterance format selection unit 23. It can also be configured to supply music genres directly.
  • music genre information is recorded in the music data storage unit 37.
  • the music genre estimation unit 21 is used instead of the reproduction music information acquisition unit 36 to estimate the music genre. It is also possible.
  • the utterance can be determined using the attribute information other than genre.
  • the format selection unit 23 and the utterance format information storage unit 24 can be changed.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 本発明の目的は、音楽との調和が取れた発話形式を持つ合成音声を生成できる装置、方法の提供することにある。音声合成装置の音楽ジャンル推定部21において、入力された音楽信号が属する音楽ジャンルを推定し、発話形式選択部23において、発話形式情報記憶部24を参照して、音楽ジャンルから発話形式を決定する。韻律生成部11では、韻律生成規則記憶部151から15Nの中から発話形式に従って選択した韻律生成規則記憶部を参照して、発音記号列から韻律情報を生成する。単位波形選択部12では、単位波形データ記憶部161から16N中から発話形式に従って選択した単位波形データ記憶部を参照して、発音記号列と韻律情報から単位波形を選択する。波形生成部13では、韻律情報と単位波形データから合成音声波形を生成する。

Description

音声合成装置、音声合成方法及びプログラム
技術分野
[0001] 本発明は、音声合成技術に関し、特に、テキストから音声を合成するための音声合 成装置、音声合成方法及びプログラムに関する。
背景技術
[0002] 近年、計算機の高性能化 ·小型化に伴い、音声合成技術は、カーナビゲーシヨン 装置、携帯電話、 PC、ロボット等の様々な装置に搭載されて利用されるようになった 。様々な装置への応用が普及するにつれて、音声合成装置が利用される環境は多 様化している。
[0003] 従来の一般的な音声合成装置では、発音記号列 (読み、構文'品詞情報、ァクセン ト型等を含むテキスト解析結果)に対して、韻律 (例えば、ピッチ周波数パタン、振幅 、継続時間長)生成、単位波形 (例えば、自然音声から抽出されたピッチ長又は音節 時間長程度の長さを持つ波形)選択、波形生成の処理結果は原則的に一意に決定 される。すなわち、音声合成装置はどのような状況や環境においても、常に同一の発 話形式 (声の大きさや発声速度、韻律、声色など)で音声合成を行っている。
[0004] しかしながら実際に人間の発声を観察すると、同一テキストを話す場合でも、話者 の状況、感情、意図などに応じて、発話形式を制御している。従って、常に同一の発 話形式を採用する従来の音声合成装置は、必ずしも音声というコミュニケーションメ ディアの特徴を十分に活用して 、るとは 、えな 、のである。
[0005] 音声合成装置のこのような問題を解決するため、ユーザ環境 (音声合成装置の利 用者がいる場所の状況や環境)に応じて韻律生成 ·単位波形選択を動的に変えるこ とで、ユーザ環境に適した合成音声を生成し、ユーザの使い勝手を改善する試みが なされている。例えば、特許文献 1には、ユーザ環境の明るさやユーザの位置等を示 す情報に応じて、音韻'韻律の制御規則を選択する音声合成システムの構成が開示 されている。
[0006] また、特許文献 2には、周囲騒音のパワースペクトルや周波数分布情報を基に、子 音パワー、ピッチ周波数、サンプリング周波数を制御する音声合成装置の構成が開 示されている。
[0007] 更に、特許文献 3には、時刻、 日付、及び曜日を含む各種計時情報を基に、発声 速度、ピッチ周波数、音量、声質を制御する音声合成装置の構成が開示されている
[0008] 本発明の背景技術を構成する音楽信号の分析、検索方法を開示する非特許文献
1〜3を示しておく。非特許文献 1には、音楽信号の短時間振幅スペクトルや離散ゥ エーブレット変換係数を分析することで音楽的な特徴 (楽器構成、リズム構造)を求め て、音楽ジャンルを推定するジャンル推定方法が開示されて ヽる。
[0009] 非特許文献 2には、音楽信号のメル周波数ケプストラム係数から木構造型ベクトル 量子化法を用いて音楽ジャンルを推定するジャンル推定方法が開示されて!、る。
[0010] 非特許文献 3には、スペクトルのヒストグラムで類似度の計算を行い、音楽信号を検 索する方法が開示されて!ヽる。
[0011] 特許文献 1 :特許第 3595041号公報
特許文献 2:特開平 11— 15495号公報
特許文献 3 :特開平 11 161298号公報
非特許文献 l :Tzanetakis, Essl, Cook: "Automatic Musical Genre CI assification of Audio Signals", Proceedings of IS MIR 2001, pp. 205 - 210, 2001.
非特許文献 2 : Hoashi, Matsumoto, Inoue: "Personalization of User Profiles for Content— based Music Retrieval Based on Relevance F eedback", Proceedings of ACM Multimedia 2003, pp. 110— 119, 2003.
非特許文献 3 :木村、他:「グローバルな枝刈りを導入した音や映像の高速探索」, 電 子情報通信学会論文誌 D—Π, Vol. J85 -D-II, No. 10, pp. 1552 - 1562, 2002年 10月
発明の開示
発明が解決しょうとする課題 [0012] 聴衆の注意を引いたり、聴衆にメッセージを印象づけたりする目的で、自然音声とと もに BGM (background music,以下、 BGMという)を流すことが一般的に行われ ている。例えば、テレビやラジオの-ユース、情報提供番組の多くで、ナレーションの 背景に BGMが流されて 、る。
[0013] これらの番組を分析すると、話者の発話形式に応じて、 BGM、特にその BGMが属 する音楽ジャンルが選択されているということもある力 話者の方で BGMを意識した 話し方がなされているという関係を見出すことができる。例えば、天気予報や交通情 報では、イージーリスニングのような穏やかな曲調の BGMとともに、落ち着いた口調 でアナウンスが行われるのが一般的である。ところが、同一の内容であっても、特定 の番組の中や実況中継等では、しばしば張りのある声でアナウンスが行われる。
[0014] また、悲哀を込めて詩を朗読する際には、 BGMとしてブルース音楽が利用され、 話者もまた、感情を込めた朗読を行っている。その他にも、神秘的な雰囲気を演出し た 、場合には宗教音楽が選択され、明るい口調の場合にはポップス音楽が選択され るといった関係を見出すことができる。
[0015] 一方、上述のとおり音声合成装置が利用される環境は多様ィヒしており、上記 BGM を含む各種の音楽が再生されている場 (ユーザ環境)において、合成音声が出力さ れる機会が多くなつているにも拘らず、上記した特許文献 1等に記載されたものを含 む従来の音声合成装置には、合成音声の発話形式を制御する上で、ユーザ環境に 存在する音楽を考慮できな 、ため、発話形式が周囲の音楽と調和できな 、と 、う問 題点がある。
[0016] 本発明は、上記した事情に鑑みてなされたものであって、その目的とするところは、 ユーザ環境に存在する音楽に調和する音声を合成できる音声合成装置、音声合成 方法及びプログラムを提供することにある。
課題を解決するための手段
[0017] 本発明の第 1の視点によれば、入力された音楽信号に応じて発話形式を自動選択 することを特徴とする音声合成装置が提供される。より具体的には、前記音声合成装 置は、音楽信号を分析し、該音楽信号の分析結果に適合する発話形式を決定する 発話形式選択部と、前記発話形式に従って音声を合成する音声合成部と、を備えて 構成される。
[0018] 本発明の第 2の視点によれば、音声合成装置を用いて合成音声を生成する音声合 成方法であって、前記音声合成装置が、入力された音楽信号を分析し、該音楽信号 の分析結果に適合する発話形式を決定するステップと、前記音声合成装置が、前記 発話形式に従って音声を合成するステップと、を含むこと、を特徴とする音声合成方 法が提供される。
[0019] 本発明の第 3の視点によれば、音声合成装置を構成するコンピュータに実行させる プログラムであって、入力された音楽信号を分析し、予め用意された発話形式の中か ら前記音楽信号の分析結果に適合する発話形式を決定する処理と、前記発話形式 に従って音声を合成する処理と、を前記コンピュータに実行させるプログラム及び該 プログラムを格納した記録媒体が提供される。 発明の効果
[0020] 本発明によれば、ユーザ環境の BGM等の音楽と調和の取れた発話形式で合成音 声を生成することが可能になる。この結果、ユーザの注意を引くことのできる合成音 声や、 BGMが持つ雰囲気や BGMを聞 、て!/、るユーザの気分を損なうことのな!/、合 成音声を出力することが可能になる。
図面の簡単な説明
[0021] [図 1]本発明の第 1の実施形態に係る音声合成装置の構成を表したブロック図である
[図 2]本発明の第 1の実施形態に係る音声合成装置にて使用する音楽ジャンルと発 話形式及び発話形式パラメータの関係を定義した表の一例である。
[図 3]本発明の第 1の実施形態に係る音声合成装置の動作を説明するためのフロー チャートである。
[図 4]本発明の第 2の実施形態に係る音声合成装置の構成を表したブロック図である 圆 5]本発明の第 2の実施形態に係る音声合成装置にて使用する音楽ジャンルと発 話形式及び発話形式パラメータの関係を定義した表の一例である。
圆 6]本発明の第 2の実施形態に係る音声合成装置の動作を説明するためのフロー チャートである。
圆 7]本発明の第 3の実施形態に係る音声合成装置の構成を表したブロック図である
[図 8]本発明の第 3の実施形態に係る音声合成装置の動作を説明するためのフロー チャートである。
[図 9]本発明の第 4の実施形態に係る音声合成装置の構成を表したブロック図である
[図 10]本発明の第 4の実施形態に係る音声合成装置の動作を説明するためのフロー チャートである。
符号の説明
[0022] 11 韻律生成部
12 単位波形選択部
13 波形生成部
15〜 15 韻律生成規則記憶部
1 N
16〜16 単位波形データ記憶部
1 N
17 合成音声パワー調整部
18 合成音声パワー計算部
19 音楽信号パワー計算部
21 音楽ジャンル推定部
23、 27 発話形式選択部
24、 28 発話形式情報記憶部
31 音楽属性情報検索部
32 音楽属性情報記憶部
35 音楽再生部
36 再生音楽情報取得部
37 音楽データ記憶部
発明を実施するための最良の形態
[0023] [第 1実施形態] 続いて、本発明を実施するための最良の形態について図面を参照して詳細に説明 する。図 1は、本発明の第 1の実施形態に係る音声合成装置の構成を表したブロック 図である。図 1を参照すると、本実施形態に係る音声合成装置は、韻律生成部 11と、 単位波形選択部 12と、波形生成部 13と、韻律生成規則記憶部 15から 15 と、単位
1 N 波形データ記憶部 16から 16 と、音楽ジャンル推定部 21と、発話形式選択部 23と、
1 N
発話形式情報記憶部 24とを備えて構成されて ヽる。
[0024] 韻律生成部 11は、発話形式を基に選択した韻律生成規則と発音記号列から韻律 情報を生成するための処理手段である。
[0025] 単位波形選択部 12は、発話形式を基に選択した単位波形データと発音記号列と 韻律情報から単位波形を選択するための処理手段である。
[0026] 波形生成部 13は、韻律情報と単位波形データ力 合成音声波形を生成するため の処理手段である。
[0027] 韻律生成規則記憶部 15から 15 には、各発話形式による合成音声の実現に要求
1 N
される韻律生成規則 (例えば、ピッチ周波数パタン、振幅、継続時間長等)が保存さ れている。
[0028] 単位波形データ記憶部 16力も 16 には、韻律生成規則記憶部の場合と同様に、
1 N
各発話形式による合成音声の実現に要求される単位波形データ (例えば、自然音声 力も抽出されたピッチ長又は音節時間長程度の長さを持つ波形)が保存されている。
[0029] なお、上記韻律生成規則記憶部 15力 15や単位波形データ記憶部 16力 16
1 N 1 に保存すべき韻律生成規則や単位波形データは、各発話形式に適合する自然音
N
声を収集 ·分析することで生成することができる。
[0030] 以下、本実施形態では、元気の良い声力 生成した元気の良い声の実現に要求さ れる韻律生成規則と単位波形データが韻律生成規則記憶部 15と単位波形データ 記憶部 16に保存され、落ち着いた声から生成した落ち着いた声の実現に要求され る韻律生成規則と単位波形データが韻律生成規則記憶部 15と単位波形データ記
2
憶部 16に保存され、ひそひそ声から生成した韻律生成規則と単位波形データが韻
2
律生成規則記憶部 15と単位波形データ記憶部 16に保存され、標準的な声から生
3 3
成した韻律生成規則と単位波形データが韻律生成規則記憶部 15 と単位波形デー
N タ記憶部 16 に保存されているものとして説明する。なお、自然音声から韻律生成規
N
則や単位波形データを生成する方法は、発話形式に依存せずに、標準的な声から 生成する場合と同様の方法を用いることができる。
[0031] 音楽ジャンル推定部 21は、入力された音楽信号が属する音楽ジャンルを推定する ための処理手段である。
[0032] 発話形式選択部 23は、発話形式情報記憶部 24に保存されて 、る表を基に推定さ れた音楽ジャンル力 発話形式を決定するための処理手段である。
[0033] 発話形式情報記憶部 24には、図 2に例示する音楽ジャンルと発話形式及び発話 形式パラメータの関係を定義した表が保存されている。発話形式パラメータとは、韻 律生成規則記憶部番号と単位波形データ記憶部番号であり、各番号に対応する韻 律生成規則や単位波形データを組み合わせることにより、特定の発話形式による合 成音声が実現される。なお、図 2の例では、説明の便宜のため発話形式と発話形式 パラメータの双方を定義しているが、発話形式選択部 23で使用しているのは、発話 形式パラメータのみであるので、発話形式の定義は省略することができる。
[0034] 反対に、発話形式情報記憶部 24では音楽ジャンルと発話形式の関係のみを定義 し、発話形式と、韻律生成規則及び単位波形データとの対応関係は、韻律生成部 1 1及び単位波形選択部 12でそれぞれ発話形式に応じた韻律生成規則や単位波形 データを選択させる構成とすることもできる。
[0035] また、図 2の例では、多数の発話形式を用意した構成としているが、 1種類の発話 形式の単位波形データのみを用意し、発話形式の切り替えを韻律生成規則の変更 により行う構成とすることも可能である。この場合、音声合成装置の記憶容量や処理 量をより低減することができる。
[0036] 更に、上記発話形式情報記憶部 24で定義する音楽ジャンル情報と発話形式との 対応関係は、ユーザの好みに合わせて変更できるようにしても良いし、予め用意され た複数の対応関係の組み合わせの中力 ユーザが好みに応じて選択できるようにし ても良い。
[0037] 続いて、本実施形態に係る音声合成装置の動作について図面を参照して詳細に 説明する。図 3は、本実施形態に係る音声合成装置の動作を表したフローチャートで ある。図 3を参照すると、まず、音楽ジャンル推定部 21は、入力された音楽信号から、 スペクトルゃケプストラムなどの音楽信号の特徴量を抽出し、入力された音楽が属す る音楽ジャンルを推定し、発話形式選択部 23に出力する (ステップ Al)。この音楽の ジャンル推定方法には、先に掲げた非特許文献 1、非特許文献 2等に記載された公 知の方法を用いることができる。
[0038] なお、 BGMが存在しな 、場合や、推定対象外の音楽ジャンルに属する音楽が入 力された場合には、特定のジャンル名ではなく「その他」が音楽ジャンルとして発話形 式選択部 23に出力されるものとする。
[0039] 続 ヽて、発話形式選択部 23は、音楽ジャンル推定部 21から伝達された推定音楽 ジャンルを元に、発話形式情報記憶部 24に記憶された表(図 2参照)から該当する発 話形式を選択し、選択した発話形式の実現に必要な発話形式パラメータを韻律生成 部 11と単位波形選択部 12に伝達する (ステップ A2)。
[0040] 図 2によると、例えば、推定された音楽ジャンルがポップスの場合は、発話形式とし て元気の良い声が選択され、イージーリスニングの場合は落ち着いた声が、宗教音 楽の場合はひそひそ声が選択される。推定された音楽ジャンルが図 2の表に存在し なかった場合には、音楽ジャンルが「その他」の場合と同様に、標準的な発話形式が 選択される。
[0041] 続いて、韻律生成部 11は、発話形式選択部 23から供給された発話形式パラメータ を参照し、韻律生成規則記憶部 15から 15 の中から、発話形式選択部 23が指定し
1 N
た記憶部番号を持つ韻律生成規則記憶部を選択する。そして、選択した韻律生成 規則記憶部の韻律生成規則に基づき、入力された発音記号列から韻律情報を生成 し、単位波形選択部 12と波形生成部 13に伝達する (ステップ A3)。
[0042] 続いて、単位波形選択部 12は、発話形式選択部 23から伝達された発話形式パラ メータを参照し、単位波形データ記憶部 16力 16 の中から、発話形式選択部 23
1 N
が指定した記憶部番号を持つ単位波形データ記憶部を選択する。そして、入力され た発音記号列と、韻律生成部 11から供給された韻律情報を基に、選択した単位波 形データ記憶部から単位波形を選択し、波形生成部 13に伝達する (ステップ A4)。
[0043] 最後に、波形生成部 13は、韻律生成部 11から伝達された韻律情報に基づき、単 位波形選択部 12から供給された単位波形を接続し、合成音声信号を出力する (ステ ップ A5)。
[0044] 以上のとおり、本実施形態によれば、ユーザ環境の BGMと調和の取れた韻律と単 位波形で実現される発話形式で合成音声を生成することが可能になる。
[0045] なお、上記した実施形態では、発話形式毎に単位波形データ記憶部 16〜16を
1 N 用意する構成としているが、標準声の単位波形データ記憶部のみを設ける構成とす ることもできる。この場合、韻律生成規則のみにより発話形式を制御することになるが 、単位波形データは韻律生成規則をはじめとする他のデータよりも、データサイズが 大きいため、合成装置全体の記憶容量を大幅に削減できるという利点が生じる。
[0046] [第 2実施形態]
[0047] 上記した第 1の実施形態では合成音声のパワーは制御対象となっておらず、ひそ ひそ声で合成音声を出力する場合も、元気の良い声で合成音声を出力する場合も パワーは同一である。例えば、 BGMと発話形式の対応関係によっては、合成音声の 音量が背景音楽よりも大き過ぎると調和を損ない、場合によっては耳障りになることも 考えられる。反対に、合成音声の音量が背景音楽よりも小さすぎると、調和を損なうだ けでなく合成音声を聞き取ることが困難になることも考えられる。
[0048] そこで、上記について改良をカ卩え、合成音声のパワーも制御対象に加えた本発明 の第 2の実施形態について図面を参照して詳細に説明する。図 4は、本発明の第 2 の実施形態に係る音声合成装置の構成を表したブロック図である。
[0049] 図 4を参照すると、本実施形態に係る音声合成装置は、上記第 1の実施形態に係 る音声合成装置 (図 1参照)に対して、合成音声パワー調整部 17と、合成音声パワー 計算部 18と、音楽信号パワー計算部 19と、を追加した構成となっている。また、図 4 に示すように、本実施形態においては、上記第 1の実施形態の発話形式選択部 23と 発話形式情報記憶部 24の代わりに、発話形式選択部 27と発話形式情報記憶部 28 が配設されている。
[0050] 発話形式情報記憶部 28には、図 5に例示する音楽ジャンルと発話形式及び発話 形式パラメータの関係を定義した表が保存されている。上記第 1の実施形態の発話 形式情報記憶部 24に保持される表(図 2参照)との相違点は、パワー比が追加され ている点である。
[0051] このパワー比とは、合成音声のパワーを音楽信号のパワーで除算した値である。す なわち、パワー比が 1. 0よりも大きければ、合成音声のパワーが音楽信号のパワーよ りも大きいことを示している。図 5を参照すると、例えば、音楽ジャンルがポップスと推 定された場合、発話形式は元気の良い声、パワー比は 1. 2に設定され、音楽信号パ ヮーを上回るパワー(1. 2倍)で合成音声パワーが出力される。同様に、発話形式が 落ち着いた声のときパワー比は 1. 0、ひそひそ声の場合は 0. 9、標準声の場合は 1 . 0にて設定されている。
[0052] 続いて、本実施形態に係る音声合成装置の動作について図面を参照して詳細に 説明する。図 6は、本実施形態に係る音声合成装置の動作を表したフローチャートで ある。音楽ジャンル推定 (ステップ A1)〜波形生成 (ステップ A5)までの間は、上記し た第 1の実施形態と略同様であるが、ステップ A2において、発話形式選択部 27が、 音楽ジャンル推定部 21から伝達された推定音楽ジャンルから、発話形式情報記憶 部 28に記憶されたパワー比を合成音声パワー調整部 17に伝達する点で相違してい る(ステップ A2)。
[0053] ステップ A5において、波形生成が完了すると、音楽信号パワー計算部 19は、入力 された音楽信号の平均的なパワーを計算し、合成音声パワー調整部 17へ伝達する( ステップ Bl)。信号のサンプル番号を n、音楽信号を x(n)とすると、例えば次式(1) に示すような一次リーク積分により、音楽信号の平均パワー P (n)を求めることが可 能である。
[0054] [数 1]
M ( = fl ー1) + (1 - ^ (
[0055] 但し、 aは、一次リーク積分の時定数である。合成音声と BGMの平均的な音量の差 が大きくなることを防ぐためにパワーを計算するので、 aには 0. 9等の大きい値を設定 し、長時間平均パワーを計算することが望ましい。逆に、 aの値を 0. 1といった小さな 値に設定してパワーを計算すると、合成音声の音量の変化が頻繁かつ大きくなり、合 成音声が聞き取りに《なる可能性がある。なお、上式に代えて、移動平均や入力信 号の全サンプルの平均値などを用いることも可能である。 [0056] 続いて、合成音声パワー計算部 18は、波形生成部 13から供給された合成音声の 平均的なパワーを計算し、合成音声パワー調整部 17に伝達する (ステップ B2)。合 成音声パワーの計算にも、上記音楽信号パワーと同様の方法を用いることができる。
[0057] 最後に、合成音声パワー調整部 17は、音楽信号パワー計算部 19から供給される 音楽信号パワーと、合成音声パワー計算部 18から供給される合成音声パワーと、発 話形式選択部 27から供給される発話形式パラメータの中のパワー比を基に、波形生 成部 13から供給される合成音声信号のパワーを調整し、パワー調整済音声合成信 号として出力する (ステップ B3)。より具体的には、合成音声パワー調整部 17は、最 終的に出力される合成音声信号のパワーと音楽信号パワーの比が、発話形式選択 部 27から供給されたパワー比の値に近づくように合成音声のパワーを調整する。
[0058] より端的には、音楽信号パワーと、合成音声信号パワーと、パワー比とを用いて、パ ヮー調整係数を求めて、合成音声信号に乗ずることで実現する。従って、パワー調 整係数には、音楽信号とパワー調整済合成音声のパワーの比が、発話形式選択部 27から供給されたパワー比にほぼ一致するような値を用いる必要がある。音楽信号 パワーを P 、合成音声パワーを P、パワー比を rとすれば、パワー調整係数 cは次式 m s
で与えられる。
[0059] [数 2]
Figure imgf000013_0001
[0060] そして、パワー調整前の合成音声信号を y (n)とすれば、パワー調整後の合成音 声信号 y (n)は次式で与えられる。
2
[0061] [数 3] y2 ( =
Figure imgf000013_0002
(
以上のとおり、元気の良い声が選択された場合には、合成音声パワーを標準的な 声よりも少し大きくし、ひそひそ声が選択された場合には、パワーを少し小さめにする といったきめ細かい制御が可能となり、より BGMとの調和がとれた発話形式を実現す ることが可能となる。
[0063] [第 3実施形態]
上記第 1、第 2の実施形態では、入力音楽のジャンルを推定するものとしているが、 近年の探索 ·照合手法を用いると、より精緻に入力音楽を分析することも可能である。 以下、上記について改良を加えた本発明の第 3の実施形態について図面を参照し て詳細に説明する。図 7は、本発明の第 3の実施形態に係る音声合成装置の構成を 表したブロック図である。
[0064] 図 7を参照すると、本実施形態に係る音声合成装置は、上記第 1の実施形態に係 る音声合成装置 (図 1参照)に対して、音楽属性情報記憶部 32を追加するとともに、 音楽ジャンル推定部 21に代えて音楽属性情報検索部 31を配設した構成となってい る。
[0065] 音楽属性情報検索部 31は、入力された音楽信号からスペクトルなどの特徴量を抽 出するための処理手段である。音楽属性情報記憶部 32には、種々の音楽信号の特 徴量と、その音楽信号の音楽ジャンルが、個別に記録されており、特徴量を照合する ことにより、音楽を特定し、ジャンルを決定することが可能となっている。
[0066] 上記特徴量を用いた音楽信号の検索には、非特許文献 3に掲げたスペクトルのヒス トグラムで類似度の計算を行う方法等を用いることができる。
[0067] 続いて、本実施形態に係る音声合成装置の動作について図面を参照して詳細に 説明する。図 8は、本実施形態に係る音声合成装置の動作を表したフローチャートで ある。上記した第 1の実施形態に対し、音楽ジャンル推定 (ステップ A1)の部分が相 違し、その他は既に説明済みであるので、以下、図 8のステップ D1について詳細に 説明する。
[0068] はじめに、音楽属性情報検索部 31は、入力された音楽信号からスペクトルなどの 特徴量を抽出する。続いて、音楽属性情報検索部 31は、音楽属性情報記憶部 32に 保存されている音楽のすべての特徴量と、入力された音楽信号の特徴量の類似度を それぞれ計算する。そして、最高の類似度を持つ音楽の音楽ジャンル情報が発話形 式選択部 23に伝達される (ステップ Dl)。
[0069] なお、ステップ D1において、類似度の最大値が、予め設定した閾値を下回った場 合には、音楽属性情報検索部 31は、入力された音楽信号に対応する音楽が音楽属 性情報記憶部 32に記録されて 、な 、と判断し、音楽ジャンルとして「その他」を出力 する。
[0070] 以上のとおり、本実施形態によれば、個々の音楽に対して、個別に音楽ジャンルを 記録した音楽属性情報記憶部 32を用いるので、上記第 1、第 2の実施形態よりも高 V、精度で音楽ジャンルを特定し、発話形式に反映させることが可能となる。
[0071] なお、音楽属性情報記憶部 32を構築する際に、曲名やアーティスト名、作曲者名 などの属性情報も記憶しておけば、音楽ジャンル以外の属性情報によっても、発話 形式を決定することが可能になる。
[0072] また、音楽属性情報記憶部 32に記憶されて 、る音楽の種類数が多くなれば、多く の音楽信号のジャンルを特定することが可能になるが、音楽属性情報記憶部 32の容 量が大きくなる。必要に応じて、音楽属性情報記憶部 32を音声合成装置の外部に 配置し、音楽信号の特徴量の類似度を計算するときに、有線及び無線通信手段を用 いて音楽属性情報記憶部 32にアクセスする構成を採ることも可能である。
[0073] 続いて、上記第 1の実施形態に係る音声合成装置に対し、 BGM等の楽曲の再生 機能を追加した本発明の第 4の実施形態について図面を参照して詳細に説明する。
[0074] [第 4実施形態]
図 9は、本発明の第 4の実施形態に係る音声合成装置の構成を表したブロック図で ある。図 9を参照すると、本実施形態に係る音声合成装置は、上記第 1の実施形態に 係る音声合成装置(図 1参照)に対して、音楽再生部 35、音楽データ記憶部 37を追 加するとともに、音楽ジャンル推定部 21に代えて再生音楽情報取得部 36を配設した 構成となっている。
[0075] 音楽データ記憶部 37には、音楽信号と、その音楽の曲番号と音楽ジャンルが保存 されている。音楽再生部 35は、曲番号や音量、再生 ·停止 ·巻き戻し ·早送り等の各 種コマンドを含む再生指令に応じて、音楽データ記憶部 37に保存されている音楽信 号をスピーカやイヤホンなどを通して出力する手段である。また、音楽再生部 35は、 再生音楽情報取得部 36に対して、再生中の音楽の曲番号を供給する。
[0076] 再生音楽情報取得部 36は、音楽再生部 35から供給された曲番号に対応する音楽 のジャンル情報を音楽データ記憶部 37から取り出し、発話形式選択部 23へ伝達す る、上記第 1の実施形態の音楽ジャンル推定部 21と同等の処理手段である。
[0077] 続いて、本実施形態に係る音声合成装置の動作について図面を参照して詳細に 説明する。図 10は、本実施形態に係る音声合成装置の動作を表したフローチャート である。上記した第 1の実施形態に対し、音楽ジャンル推定 (ステップ A1)の部分が 相違し、その他は既に説明済みであるので、以下、図 10のステップ D2、 D3につい て詳細に説明する。
[0078] 音楽再生部 35が、指定された音楽を再生すると、その曲番号が再生音楽情報取 得部 36に供給される (ステップ D2)。
[0079] 再生音楽情報取得部 36は、音楽再生部 35から供給された曲番号に対応する音楽 のジャンル情報を音楽データ記憶部 37から取り出し、発話形式選択部 23へ伝達す る(ステップ D3)。
[0080] 本実施例によれば、音楽ジャンルの推定処理や検索処理は不要となり、再生中の BGMの音楽ジャンル等を確実に特定することが可能となる。もちろん、音楽再生部 3 5が、再生中の音楽のジャンル情報を音楽データ記憶部 37から直接取得できる場合 には、再生音楽情報取得部 36を廃し、音楽再生部 35から発話形式選択部 23に音 楽ジャンルを直接供給する構成とすることもできる。
[0081] また、音楽データ記憶部 37に音楽ジャンル情報が記録されて 、な 、場合には、再 生音楽情報取得部 36の代わりに音楽ジャンル推定部 21を用いて、音楽ジャンルを 推定する構成とすることも可能である。
[0082] また、音楽データ記憶部 37にジャンル以外の音楽属性情報が記録されていれば、 上記第 3の実施形態でも説明したように、ジャンル以外の属性情報で発話形式を決 定できるよう発話形式選択部 23及び発話形式情報記憶部 24を変更することも可能 である。
[0083] 以上、本発明の各実施の形態を説明したが、本発明の技術的範囲は、上述した実 施の形態に限定されるものではなぐ音声合成装置の用途、仕様等に応じて、各種 の変形を加え、あるいは、均等物を採用することが可能である。

Claims

請求の範囲
[1] 音楽信号を分析し、該音楽信号の分析結果に適合する発話形式を決定する発話 形式選択部と、
前記発話形式に従って音声を合成する音声合成部と、を有し、
入力された音楽信号に応じて発話形式を自動選択すること、
を特徴とする音声合成装置。
[2] 前記音声合成部が、
前記発話形式に従って韻律情報を生成する韻律生成部と、
前記発話形式に従って単位波形を選択する単位波形選択部と、を有すること、 を特徴とする請求項 1に記載の音声合成装置。
[3] 前記音声合成部が、
発話形式毎の韻律生成規則を記憶する韻律生成規則記憶部と、
発話形式毎に単位波形を記憶する単位波形記憶部と、
前記発話形式に従って選択した韻律生成規則を参照して、発音記号列から韻律 情報を生成する韻律生成部と、
単位波形記憶部に記憶された単位波形の中から前記発音記号列と前記韻律情報 に応じた単位波形を選択する単位波形選択部と、
前記韻律情報に従って前記単位波形を合成し合成音声波形を生成する波形生成 部と、を有すること、
を特徴とする請求項 1に記載の音声合成装置。
[4] 更に、
音楽とその属性を関連付けて記憶する音楽属性情報記憶部から、入力された音楽 信号の分析結果に対応するデータを検索し、前記入力された音楽の属性を推定す る音楽属性情報検索部を有し、
前記発話形式選択部は、前記入力された音楽の属性に応じた発話形式を選択す ることにより、前記発話形式の決定を行うこと、
を特徴とする請求項 1乃至 3いずれか一に記載の音声合成装置。
[5] 更に、 前記音楽信号を分析して前記音楽が属する音楽ジャンルを推定する音楽ジャンル 推定部を有し、
前記発話形式選択部は、前記音楽ジャンルに応じた発話形式を選択することにより 、前記発話形式の決定を行うこと、
を特徴とする請求項 1乃至 3いずれか一に記載の音声合成装置。
[6] 音楽信号と、属性情報とを関連付けて記憶する音楽データ記憶部と、
前記音楽データ記憶部に保存された音楽信号を再生する音楽再生部と、 前記音楽データ記憶部を参照し、再生された音楽の属性情報を取得する再生音 楽情報取得部と、を有し、
前記発話形式選択部が、前記属性情報に従って発話形式を決定すること、 を特徴とする請求項 1乃至 3いずれか一に記載の音声合成装置。
[7] 前記発話形式選択部が、
前記属性情報に含まれる音楽ジャンルに従って前記発話形式を決定すること、 を特徴とする請求項 6に記載の音声合成装置。
[8] 更に、
前記発話形式に従って生成された前記合成音声波形のパワーを、前記音楽信号 のパワーに応じて調整する合成音声パワー調整部を有すること、
を特徴とする請求項 1乃至 7いずれか一に記載の音声合成装置。
[9] 更に、
前記音楽信号を分析して音楽信号のパワーを求める音楽信号パワー計算部と、 前記合成音声波形を分析して合成音声のパワーを求める合成音声パワー計算部 と、
予め発話形式毎に定められた前記音楽信号のパワーと前記合成音声のパワーの 比率を参照して、前記発話形式に従って生成された前記合成音声波形のパワーを、 前記音楽信号のパワーに応じて調整する合成音声パワー調整部と、を有すること、 を特徴とする請求項 1乃至 7いずれか一に記載の音声合成装置。
[10] 音声合成装置を用いて合成音声を生成する音声合成方法であって、
前記音声合成装置が、入力された音楽信号を分析し、該音楽信号の分析結果に 適合する発話形式を決定するステップと、
前記音声合成装置が、前記発話形式に従って音声を合成するステップと、を含む こと、
を特徴とする音声合成方法。
[11] 更に、
前記音声合成装置が前記発話形式に従って韻律情報を生成するステップと、 前記音声合成装置が前記発話形式に従って単位波形を選択するステップと、を含 み、
前記音声合成装置が、前記韻律情報と前記単位波形とを用いて、音声を合成する こと、
を特徴とする請求項 10に記載の音声合成方法。
[12] 前記音声合成装置が、前記発話形式に従って音声を合成するステップが、
前記音声合成装置が、韻律生成規則記憶部に記憶された韻律生成規則の中から 前記発話形式に応じて選択した韻律生成規則を参照して、発音記号列から韻律情 報を生成するステップと、
前記音声合成装置が、前記発話形式毎に用意された単位波形の中から、前記発 音記号列と前記韻律情報に応じた単位波形を選択するステップと、
前記音声合成装置が、前記韻律情報に従って前記単位波形を合成し合成音声波 形を生成するステップと、を含んで構成されること、
を特徴とする請求項 10に記載の音声合成方法。
[13] 更に、前記音声合成装置が、音楽とその属性を関連付けて記憶する音楽属性情報 記憶部から、入力された音楽信号の分析結果に対応するデータを検索し、前記入力 された音楽の属性を推定するステップを含み、
前記入力された音楽信号の属性に応じた発話形式を選択することにより、前記音 楽信号の分析結果に適合する発話形式が決定されること、
を特徴とする請求項 10乃至 12いずれか一に記載の音声合成方法。
[14] 前記音声合成装置が、前記音楽信号を分析して該音楽が属する音楽ジャンルを推 定するステップと、 前記音声合成装置が、前記音楽ジャンルに応じた発話形式を選択することにより、 前記音楽信号の分析結果に適合する発話形式が決定されること、
を特徴とする請求項 10乃至 12いずれか一に記載の音声合成方法。
[15] 更に、前記音声合成装置が、音楽信号と、属性情報とを関連付けて記憶する音楽 データ記憶部に保存された音楽信号を再生するステップと、
前記音声合成装置が、前記音楽データ記憶部を参照し、再生された音楽の属性情 報を取得するステップと、を含み、
前記音声合成装置が、入力された音楽信号の分析に代えて、前記属性情報に従 つて発話形式を決定すること、
を特徴とする請求項 10乃至 12いずれか一に記載の音声合成方法。
[16] 前記音声合成装置は、前記属性情報に含まれる音楽ジャンルに従って前記発話 形式を決定すること、
を特徴とする請求項 15に記載の音声合成方法。
[17] 更に、
前記音声合成装置が、前記発話形式に従って生成された前記合成音声波形のパ ヮーを、前記音楽信号のパワーに応じて調整するステップを含むこと、
を特徴とする請求項 10乃至 16いずれか一に記載の音声合成方法。
[18] 更に、
前記音声合成装置が、前記音楽信号を分析して音楽信号のパワーを求めるステツ プと、
前記音声合成装置が、前記合成音声波形を分析して合成音声パワーを求めるステ ップと、
前記音声合成装置が、予め発話形式毎に定められた前記音楽信号のパワーと前 記合成音声のパワーの比率を参照して、前記発話形式に従って生成された前記合 成音声波形のパワーを、前記音楽信号のパワーに応じて調整するステップと、を含 むこと、
を特徴とする請求項 10乃至 16いずれか一に記載の音声合成方法。
[19] 音声合成装置を構成するコンピュータに実行させるプログラムであって、 入力された音楽信号を分析し、予め用意された発話形式の中から前記音楽信号の 分析結果に適合する発話形式を決定する処理と、
前記発話形式に従って音声を合成する処理と、
を前記コンピュータに実行させるプログラム。
[20] 前記発話形式に従って韻律情報を生成する処理と、
前記発話形式に従って単位波形を選択する処理と、を経て、
前記韻律情報と前記単位波形とを用いて、音声を合成する処理が行われること、 を特徴とする請求項 19に記載のプログラム。
[21] 前記コンピュータに接続された韻律生成規則記憶部に記憶された韻律生成規則の 中から前記発話形式に応じて選択した韻律生成規則を参照して、発音記号列から韻 律情報を生成する処理と、
前記コンピュータに接続された単位波形記憶部に、前記発話形式毎に用意された 単位波形の中から、前記発音記号列と前記韻律情報に応じた単位波形を選択する 処理と、を経て、
前記韻律情報に従って前記単位波形を合成し、音声を合成する処理が行われるこ と、
を特徴とする請求項 19に記載のプログラム。
[22] 更に、音楽とその属性を関連付けて記憶する音楽属性情報記憶部から、入力され た音楽信号の分析結果に対応するデータを検索し、前記入力された音楽の属性を 推定する処理を含み、
前記入力された音楽の属性に応じた発話形式を選択することにより、前記音楽信 号の分析結果に適合する発話形式を決定する処理が行われること、
を特徴とする請求項 19乃至 21いずれか一に記載のプログラム。
[23] 前記音楽信号を分析して前記音楽が属する音楽ジャンルを推定する処理と、 前記音楽ジャンルに応じた発話形式を選択することにより、前記音楽信号の分析結 果に適合する発話形式を決定する処理が行われること、
を特徴とする請求項 19乃至 21いずれか一に記載のプログラム。
[24] 更に、 音楽信号と属性情報とを関連付けて記憶する音楽データ記憶部に保存された音楽 信号を再生する処理と、
前記音楽データ記憶部を参照し、再生された音楽の属性情報を取得する処理と、 を前記コンピュータに実行させ、
前記コンピュータが、入力された音楽信号の分析に代えて、前記属性情報に従つ て発話形式を決定すること、
を特徴とする請求項 19乃至 21いずれか一に記載のプログラム。
[25] 前記コンピュータが、前記属性情報に含まれる音楽ジャンルに従って前記発話形 式を決定すること、
を特徴とする請求項 24に記載のプログラム。
[26] 更に、
前記発話形式に従って生成された前記合成音声波形のパワーを、前記音楽信号 のパワーに応じて調整する処理を含むこと、
を特徴とする請求項 19乃至 25いずれか一に記載のプログラム。
[27] 更に、
前記音楽信号を分析して音楽信号のパワーを求める処理と、
前記合成音声波形を分析して合成音声パワーを求める処理と、
予め発話形式毎に定められた前記音楽信号のパワーと前記合成音声のパワーの 比率を参照して、前記発話形式に従って生成された前記合成音声波形のパワーを、 前記音楽信号のパワーに応じて調整する処理と、を含むこと、
を特徴とする請求項 19乃至 25いずれか一に記載のプログラム。
PCT/JP2007/051669 2006-02-08 2007-02-01 音声合成装置、音声合成方法及びプログラム WO2007091475A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2007800048865A CN101379549B (zh) 2006-02-08 2007-02-01 声音合成装置、声音合成方法
US12/223,707 US8209180B2 (en) 2006-02-08 2007-02-01 Speech synthesizing device, speech synthesizing method, and program
JP2007557805A JP5277634B2 (ja) 2006-02-08 2007-02-01 音声合成装置、音声合成方法及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006-031442 2006-02-08
JP2006031442 2006-02-08

Publications (1)

Publication Number Publication Date
WO2007091475A1 true WO2007091475A1 (ja) 2007-08-16

Family

ID=38345078

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/051669 WO2007091475A1 (ja) 2006-02-08 2007-02-01 音声合成装置、音声合成方法及びプログラム

Country Status (4)

Country Link
US (1) US8209180B2 (ja)
JP (1) JP5277634B2 (ja)
CN (1) CN101379549B (ja)
WO (1) WO2007091475A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009139022A1 (ja) * 2008-05-15 2009-11-19 パイオニア株式会社 音声出力装置およびプログラム
WO2018211750A1 (ja) 2017-05-16 2018-11-22 ソニー株式会社 情報処理装置および情報処理方法
JP2021067922A (ja) * 2019-10-28 2021-04-30 ネイバー コーポレーションNAVER Corporation 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130030789A1 (en) * 2011-07-29 2013-01-31 Reginald Dalce Universal Language Translator
US9959342B2 (en) * 2016-06-28 2018-05-01 Microsoft Technology Licensing, Llc Audio augmented reality system
JPWO2018030149A1 (ja) * 2016-08-09 2019-06-06 ソニー株式会社 情報処理装置及び情報処理方法
EP3506255A1 (en) * 2017-12-28 2019-07-03 Spotify AB Voice feedback for user interface of media playback device
CN112735454A (zh) * 2020-12-30 2021-04-30 北京大米科技有限公司 音频处理方法、装置、电子设备和可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0837700A (ja) * 1994-07-21 1996-02-06 Kenwood Corp 音場補正回路
JP2003058198A (ja) * 2001-08-21 2003-02-28 Canon Inc 音声出力装置、音声出力方法、及び、プログラム
JP2003524906A (ja) * 1998-04-14 2003-08-19 ヒアリング エンハンスメント カンパニー,リミティド ライアビリティー カンパニー 聴覚障害および非聴覚障害リスナーの好みに合わせてユーザ調整能力を提供する方法および装置
JP2004513445A (ja) * 2000-10-30 2004-04-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 個人のインタラクションをシミュレートし、ユーザの情緒状態及び/又は性格に反応するユーザインタフェース/エンタテインメントデバイス
JP2004361874A (ja) * 2003-06-09 2004-12-24 Sanyo Electric Co Ltd 音楽再生装置
JP2005077663A (ja) * 2003-08-29 2005-03-24 Brother Ind Ltd 音声合成装置、音声合成方法、及び音声合成プログラム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3070127B2 (ja) * 1991-05-07 2000-07-24 株式会社明電舎 音声合成装置のアクセント成分制御方式
CN1028572C (zh) 1991-11-05 1995-05-24 湘潭市新产品开发研究所 声控自动伴奏机
JPH05307395A (ja) * 1992-04-30 1993-11-19 Sony Corp 音声合成装置
JPH08328576A (ja) * 1995-05-30 1996-12-13 Nec Corp 音声案内装置
JPH1020885A (ja) * 1996-07-01 1998-01-23 Fujitsu Ltd 音声合成装置
JP3578598B2 (ja) 1997-06-23 2004-10-20 株式会社リコー 音声合成装置
JPH1115488A (ja) * 1997-06-24 1999-01-22 Hitachi Ltd 合成音声評価・合成装置
JPH11161298A (ja) 1997-11-28 1999-06-18 Toshiba Corp 音声合成方法及び装置
US6446040B1 (en) * 1998-06-17 2002-09-03 Yahoo! Inc. Intelligent text-to-speech synthesis
JP2000105595A (ja) * 1998-09-30 2000-04-11 Victor Co Of Japan Ltd 歌唱装置及び記録媒体
JP2001309498A (ja) * 2000-04-25 2001-11-02 Alpine Electronics Inc 音声制御装置
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US6915261B2 (en) * 2001-03-16 2005-07-05 Intel Corporation Matching a synthetic disc jockey's voice characteristics to the sound characteristics of audio programs
US7203647B2 (en) * 2001-08-21 2007-04-10 Canon Kabushiki Kaisha Speech output apparatus, speech output method, and program
JP2004205605A (ja) * 2002-12-24 2004-07-22 Yamaha Corp 音声および楽曲再生装置およびシーケンスデータフォーマット
US9042921B2 (en) * 2005-09-21 2015-05-26 Buckyball Mobile Inc. Association of context data with a voice-message component
JP2007086316A (ja) 2005-09-21 2007-04-05 Mitsubishi Electric Corp 音声合成装置、音声合成方法、音声合成プログラムおよび音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体
US7684991B2 (en) * 2006-01-05 2010-03-23 Alpine Electronics, Inc. Digital audio file search method and apparatus using text-to-speech processing

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0837700A (ja) * 1994-07-21 1996-02-06 Kenwood Corp 音場補正回路
JP2003524906A (ja) * 1998-04-14 2003-08-19 ヒアリング エンハンスメント カンパニー,リミティド ライアビリティー カンパニー 聴覚障害および非聴覚障害リスナーの好みに合わせてユーザ調整能力を提供する方法および装置
JP2004513445A (ja) * 2000-10-30 2004-04-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 個人のインタラクションをシミュレートし、ユーザの情緒状態及び/又は性格に反応するユーザインタフェース/エンタテインメントデバイス
JP2003058198A (ja) * 2001-08-21 2003-02-28 Canon Inc 音声出力装置、音声出力方法、及び、プログラム
JP2004361874A (ja) * 2003-06-09 2004-12-24 Sanyo Electric Co Ltd 音楽再生装置
JP2005077663A (ja) * 2003-08-29 2005-03-24 Brother Ind Ltd 音声合成装置、音声合成方法、及び音声合成プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HAN K.-P. ET AL.: "Genre classification system of TV sound signals based on a spectrogram analysis", IEEE TRANSACTIONS ON CONSUMER ELECTRONICS, vol. 44, no. 1, 1998, pages 33 - 42, XP000779248 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009139022A1 (ja) * 2008-05-15 2009-11-19 パイオニア株式会社 音声出力装置およびプログラム
JPWO2009139022A1 (ja) * 2008-05-15 2011-09-08 パイオニア株式会社 音声出力装置およびプログラム
WO2018211750A1 (ja) 2017-05-16 2018-11-22 ソニー株式会社 情報処理装置および情報処理方法
JP2021067922A (ja) * 2019-10-28 2021-04-30 ネイバー コーポレーションNAVER Corporation 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム
JP7128222B2 (ja) 2019-10-28 2022-08-30 ネイバー コーポレーション 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム

Also Published As

Publication number Publication date
CN101379549A (zh) 2009-03-04
JP5277634B2 (ja) 2013-08-28
JPWO2007091475A1 (ja) 2009-07-02
CN101379549B (zh) 2011-11-23
US8209180B2 (en) 2012-06-26
US20100145706A1 (en) 2010-06-10

Similar Documents

Publication Publication Date Title
JP6645956B2 (ja) 携帯用音声合成のためのシステム及び方法
KR101274961B1 (ko) 클라이언트단말기를 이용한 음악 컨텐츠 제작시스템
US7825321B2 (en) Methods and apparatus for use in sound modification comparing time alignment data from sampled audio signals
JP5143569B2 (ja) 音響的特徴の同期化された修正のための方法及び装置
JP5277634B2 (ja) 音声合成装置、音声合成方法及びプログラム
US7613612B2 (en) Voice synthesizer of multi sounds
BR112013019792B1 (pt) Misturador de faixa de áudio semântico
CN101111884B (zh) 用于声学特征的同步修改的方法和装置
JP7363954B2 (ja) 歌唱合成システム及び歌唱合成方法
JP7424359B2 (ja) 情報処理装置、歌唱音声の出力方法、及びプログラム
US6915261B2 (en) Matching a synthetic disc jockey's voice characteristics to the sound characteristics of audio programs
CN112289300B (zh) 音频处理方法、装置及电子设备和计算机可读存储介质
JP2016161919A (ja) 音声合成装置
CN113936629B (zh) 音乐文件处理方法和装置、音乐演唱设备
CN113781989A (zh) 一种音频的动画播放、节奏卡点识别方法及相关装置
WO2014142200A1 (ja) 音声処理装置
JP2023013684A (ja) 歌唱声質変換プログラム及び歌唱声質変換装置
JPH11167388A (ja) 音楽演奏装置
Jayasinghe Machine Singing Generation Through Deep Learning
CN118379978A (zh) 一种基于智能音响的线上k歌方法、系统及存储介质
JP6182894B2 (ja) 音響処理装置および音響処理方法
JP2005274790A (ja) 音楽再生装置、音楽再生方法、音楽再生プログラム、及び電子アルバム装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
ENP Entry into the national phase

Ref document number: 2007557805

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 12223707

Country of ref document: US

Ref document number: 200780004886.5

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 07707855

Country of ref document: EP

Kind code of ref document: A1

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)