WO2006080149A1 - 音復元装置および音復元方法 - Google Patents

音復元装置および音復元方法 Download PDF

Info

Publication number
WO2006080149A1
WO2006080149A1 PCT/JP2005/022802 JP2005022802W WO2006080149A1 WO 2006080149 A1 WO2006080149 A1 WO 2006080149A1 JP 2005022802 W JP2005022802 W JP 2005022802W WO 2006080149 A1 WO2006080149 A1 WO 2006080149A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
information
characteristic
restoration
restored
Prior art date
Application number
PCT/JP2005/022802
Other languages
English (en)
French (fr)
Inventor
Shinichi Yoshizawa
Tetsu Suzuki
Yoshihisa Nakatoh
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to JP2007500432A priority Critical patent/JP3999812B2/ja
Priority to US11/401,263 priority patent/US7536303B2/en
Publication of WO2006080149A1 publication Critical patent/WO2006080149A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Definitions

  • the present invention relates to sound before distorting sound (including environmental sounds such as voice, music, notification sound, and automobile sound) distorted due to sound collection errors, ambient noise insertion, transmission noise insertion, and the like.
  • the present invention relates to a sound restoration apparatus and method for restoring the sound.
  • FIG. 1 shows a conventional sound restoration method described in Non-Patent Document 1.
  • FIG. 1 in the speech extraction step 3201, the speech waveform force distorted by the sudden noise insertion is also extracted by removing the sudden noise section.
  • the speech restoration step 3202 the speech was restored by inserting the speech waveform into the position where the noise was present just before the sudden noise was present! Indicates a range).
  • FIG. 2 shows a conventional sound restoration device described in Patent Document 1.
  • a receiving device 3302 receives radio waves of road traffic information transmitted from a broadcasting station 3301 and converts them into audio signals.
  • the voice recognition device 3303 recognizes the voice signal and converts it into language data.
  • the language analysis device 3304 performs power language analysis by correcting missing portions based on the same content language data repeatedly output from the speech recognition device 3303 (showing a range related to the present invention).
  • the speech synthesizer 3305 reads out information judged to be necessary from the traffic situation information expressed by the phoneme sequence restored from the language analyzer 3304 by speech synthesis.
  • a sample value corresponding to a template is input in a voice packet interpolation method in which a missing voice packet is interpolated into a missing portion by a voice packet signal input before the loss.
  • a voice packet interpolation method in which a missing voice packet is interpolated into a missing portion by a voice packet signal input before the loss.
  • the optimal matching waveform with the voice bucket signal input before the loss is calculated by non-standardized difference calculation processing, and the missing voice packet is interpolated (for example, patent document). 2).
  • FIG. 3 shows a conventional sound restoration device described in Patent Document 3.
  • the input unit 3401 also extracts the voice signal data portion of each incoming voice packet and sequentially outputs it.
  • Voice recognition unit 3404 is time-series from input unit 3401 Speech recognition was performed on the speech signal data output using the acoustic model for speech recognition 3402 and the language model 3403, and a state time series was output as a recognition result.
  • the monitor unit 3407 monitors each incoming packet, and gives accompanying information to the voice recognition unit 3404 indicating whether or not a packet loss has occurred.
  • the speech synthesis unit 3406 performs speech synthesis based on the phoneme sequence output from the speech recognition unit 3404 using the speech synthesis acoustic model 3405, and outputs a digital speech signal.
  • the nota 3408 accumulated the output from the input unit 3401.
  • the signal mixing unit 3409 is controlled by the monitor unit 3407 to select and output only the output of the speech synthesis unit 3406 during the period corresponding to the packet loss, and only the output of the buffer 3408 during the other periods.
  • Non-patent document 1 Noguchi, 3 others, "Distinction and removal of sudden noise in 1-channel input signal",
  • Patent Document 1 JP 2000-222682 (Claim 2, Fig. 1)
  • Patent Document 2 Japanese Patent Laid-Open No. 2-4062 (Claim 1)
  • Patent Document 3 Japanese Patent Laid-Open No. 2004-272128 (Claim 1, FIG. 1)
  • the sound to be restored has a repetitive waveform, and the sound is restored only in a rare case where only a part of the force has disappeared. I can't. There was a problem that the sound cannot be restored for many general sounds that exist in the real environment that cannot be represented by repetitive waveforms or when the sound to be restored is distorted as a whole.
  • the phonological sequence is restored using knowledge about the sound structure by linguistic analysis, so that a general sound that is not a repetitive waveform or a restored sound is restored. It is possible to restore linguistically even when the is distorted as a whole. However, the actual sound is close to the actual sound based on the sound characteristics information such as speaker characteristics and voice quality, and if it is restored with the sound! The problem was that the sound could not be restored. For example, if the voice of Dj (Disc Jockey) is restored by this method, it will be restored with the voice of another person stored in the speech synthesizer.
  • Dj Disc Jockey
  • the present invention solves the above-described conventional problems. Sounds distorted due to mistakes in sound collection, insertion of ambient noise, insertion of transmission noise, and the like (voice, music, notification sound, and car sound) It is an object of the present invention to provide a sound restoration device or the like that restores the sound before it is distorted. Means for solving the problem
  • the inventors of the present application have the same sound in the real environment, such as "Mr. B speaks after Mr. A speaks” and “Mr. A and B speak at the same time”. It is important to pay attention to the fact that the voice quality and tone of a human voice change from moment to moment depending on how you feel and get tired, and the volume and reverberation characteristics of the environmental sound change from moment to moment due to changes in the surrounding environment. I realized that. In such a situation, it is difficult to memorize all the sound characteristics existing in the real environment in advance, and the sound to be restored is extracted by extracting the sound to be restored included in the mixed sound and the sound power to be restored is also restored. It is necessary to extract the actual sound characteristics.
  • the sound characteristics are simply extracted using only sounds near the time in the missing part of the sound to be restored.
  • the sound to be restored will be distorted.
  • the temporal neighborhood in the missing part of the restored sound is In the case of a change point of the sound characteristic, a sound characteristic different from the actual sound characteristic is extracted. Therefore, the change in the sound characteristics is monitored for the sound to be restored from which the mixed sound power is also extracted, and the sound to be restored is classified in the time domain where the sound characteristics are the same.
  • the restoration target sound is divided at times having different sound characteristics, and is classified into time regions having the same sound characteristics.
  • the sound characteristics are extracted using sound data (waveform data, etc.) with a relatively long time length, so that the actual sound characteristics can be faithfully reproduced. Can do. Since the time domain where the sound characteristics are the same changes depending on the nature of the sound to be restored in the mixed sound, the situation of which changes every moment, so it is obtained each time for the sound to be restored in the actually input mixed sound. There is a need.
  • the sound restoration device is a sound restoration device that restores a restoration target sound that is included in a mixed sound and in which a part of the sound is missing, and extracts the restoration target sound contained in the mixed sound. Based on the mixed sound separation means and the sound structure knowledge database in which the meaning content of the sound is registered, the phoneme series, character series, and note series of the part where the extracted sound to be restored is missing.
  • a sound structure analyzing means for creating at least one of them, an identical sound characteristic region analyzing means for dividing the extracted sound to be restored into time regions having the same sound characteristic, and the divided time regions A time region where the missing part is located, and a sound characteristic extracting means for extracting a sound characteristic of the restoration target sound in the specified time area, and the sound structure analyzing means Phoneme series, character series and note system
  • the sound characteristic is at least one said extraction of, and a sound restoring means for restoring the sound of the missing portion Te restore sound smell.
  • sound structure information that is, at least one of a phoneme sequence, a character sequence, and a note sequence is created using a sound structure knowledge database in which the meaning content of the sound is registered, and the sound Restore sound based on structural information.
  • general sounds including voice, music, and environmental sounds
  • the sound of the missing part in the restoration target sound is restored based on the sound characteristics of the restoration target sound in the time domain having the same sound characteristics, so that sound restoration faithful to the actual sound characteristics, that is, The sound before the restoration target sound is distorted or missing can be restored.
  • the same sound characteristic region analyzing means includes a change in voice quality, a change in tone, and a tone color. Based on at least one of the following: change, volume change, reverberation characteristic change, and sound quality change, the time domain where the sound characteristics are the same is determined.
  • the sound restoration means includes the phoneme sequence created by the sound structure analysis means, wherein the whole restoration target sound, which is a combination of the missing part sound and the sound other than the missing part, Restoration is performed using at least one of a character sequence and a note sequence and the extracted sound characteristic.
  • the sound restoration device of the present invention According to the sound restoration device of the present invention, a wide range of general sounds (including voice, music, and environmental sounds) can be restored, and moreover, the sound characteristics of the actual sound can be restored faithfully. Therefore, its practical value is extremely high.
  • FIG. 1 is a diagram for explaining a first conventional sound restoration method.
  • FIG. 2 is a diagram for explaining a second conventional sound restoration method.
  • FIG. 3 is a diagram for explaining a fourth conventional sound restoration method.
  • FIG. 4 is a block diagram showing an overall configuration of the sound restoration apparatus according to Embodiment 1 of the present invention.
  • FIG. 5 is a flowchart showing a process flow of the sound restoration apparatus according to Embodiment 1 of the present invention.
  • FIG. 6 is a diagram showing an example of mixed sound and separated sound information.
  • FIG. 7 is a diagram showing an example of separated sound information.
  • FIG. 8 is a diagram showing an example of a method for creating sound structure information.
  • FIG. 9 is a diagram showing an example of a method for creating sound structure information.
  • FIG. 10 is a diagram showing an example of the same sound characteristic area information.
  • FIG. 11 is a diagram showing an example of sound characteristic information.
  • FIG. 12 is a diagram showing an example of sound characteristic information.
  • FIG. 13 is a block diagram showing another overall configuration of the sound restoration apparatus according to Embodiment 1 of the present invention.
  • FIG. 14 is a flowchart showing another flow of processing of the sound restoration apparatus in the first embodiment of the present invention.
  • FIG. 15 is a block diagram showing another overall configuration of the sound restoration apparatus according to Embodiment 1 of the present invention.
  • FIG. 16 is a diagram showing an example of a mixed sound.
  • FIG. 17 is a diagram showing an example of separated sound information.
  • FIG. 18 is a diagram showing an example of separated sound information.
  • FIG. 19 is a block diagram showing another overall configuration of the sound restoration apparatus according to Embodiment 1 of the present invention.
  • FIG. 20 is a diagram showing an example of mixed sound and separated sound information.
  • FIG. 21 is a diagram showing an example of the same sound characteristic area information.
  • FIG. 22 is a block diagram showing another overall configuration of the sound restoration apparatus according to Embodiment 1 of the present invention.
  • FIG. 23 is a diagram showing an example of a mixed sound.
  • FIG. 24 is a block diagram showing another overall configuration of the sound restoration apparatus according to Embodiment 1 of the present invention.
  • FIG. 25 is a diagram showing an example of a mixed sound.
  • FIG. 26 is a diagram showing an example of separated sound information.
  • FIG. 27 is a diagram showing an example of separated sound information.
  • FIG. 28 is a diagram showing an example of the same sound characteristic area information.
  • FIG. 29 is a block diagram showing an overall configuration of a sound restoration apparatus according to Embodiment 2 of the present invention.
  • FIG. 30 is a flowchart showing a processing flow of the sound restoration apparatus in the second embodiment of the present invention. It is a chart.
  • FIG. 31 is a block diagram showing another overall configuration of the sound restoration apparatus according to Embodiment 2 of the present invention.
  • FIG. 32 is a block diagram showing an overall configuration of a sound restoration apparatus according to Embodiment 3 of the present invention.
  • FIG. 33 is a flowchart showing a process flow of the sound restoration apparatus in the third embodiment of the present invention.
  • FIG. 34 is a block diagram showing another overall configuration of the sound restoration apparatus according to Embodiment 3 of the present invention. Explanation of symbols
  • FIG. 4 is a block diagram showing the overall configuration of the sound restoration apparatus according to Embodiment 1 of the present invention.
  • an example in which the sound restoration device according to the present invention is incorporated in the headphone device 101. Will be described.
  • the headphone device 101 can be used with functions such as a mobile phone, a portable music stereo, and a hearing aid, and restores the sound required by the user from the mixed sound. It implements a sound restoration function.
  • the headphone device 101 includes a microphone 102, a mixed sound separation unit 103, a sound structure analysis unit 104, a sound structure knowledge database 105, an identical sound characteristic region analysis unit 106, a sound characteristic extraction unit 107, and a sound restoration unit 108. And a speaker 109.
  • the headphone device 101 is an example of a sound restoration device that restores a restoration target sound that is included in the mixed sound and lacks a part of the sound.
  • the mixed sound separation unit 103 is an example of a mixed sound separation unit that extracts a restoration target sound included in the mixed sound.
  • the sound structure analysis unit 104 Based on the sound structure knowledge database 105 in which the meaning content of the sound is registered, the sound structure analysis unit 104 includes a phoneme sequence, a character sequence, and a note sequence of the portion where the extracted sound of the restoration target sound is missing. This is an example of a sound structure analysis means that creates at least one of the above.
  • the same sound characteristic region analysis unit 106 is an example of the same sound characteristic region analysis unit that divides the extracted restoration target sound into time regions having the same sound characteristic.
  • the sound characteristic extraction unit 107 identifies a time region where a missing portion is located from the divided time regions, and extracts a sound property of the sound to be restored in the identified time region. It is an example of a means.
  • the sound restoration unit 108 uses the at least one of the phoneme series, the character series, and the note series created by the sound structure analysis means and the extracted sound characteristics to obtain a missing part in the restoration target sound. It is an example of the sound restoration means which restores the sound.
  • the “phoneme sequence” includes a phoneme sequence in addition to a phoneme sequence. In addition to the character sequence, the “character sequence” includes a word sequence, a sentence sequence, and the like. Further, the “note sequence” indicates a sequence of notes in music, as will be described later.
  • the microphone 102 receives the mixed sound S101 and outputs it to the mixed sound separation unit 103.
  • the mixed sound separation unit 103 extracts the sound material restored from the mixed sound S101, that is, the information regarding the waveform of the separated sound and the information regarding the lack of sound as the separated sound information S102.
  • the sound structure analysis unit 104 includes sound structure information S10 indicating the semantic content of the sound to be restored based on the separated sound information S102 extracted by the mixed sound separation unit 103 and the sound structure knowledge database 105.
  • the waveform information includes not only the sound waveform on the time axis but also the spectrogram described later.
  • the same sound characteristic region analysis unit 106 obtains a region having both the separated sound information S102 force extracted by the mixed sound separation unit 103 and the same sound characteristic force, and creates the same sound characteristic region information S104. Sound characteristics correspond to the way in which sound is expressed. Further, it corresponds to obtaining a region having the same sound characteristic force as the “classification” force in the claims.
  • the sound characteristic extraction unit 107 extracts the sound characteristics of the sound to be restored based on the same sound characteristic area information S104 created by the same sound characteristic area analysis unit 106 for each area including the same sound characteristics. Create characteristic information S105.
  • the sound restoration unit 108 creates a restored sound S106 based on the sound structure information S103 created by the sound structure analysis unit 104 and the sound characteristic information S105 created by the sound characteristic extraction unit 107.
  • the speaker 109 outputs the restored sound S106 created by the sound restoration unit 108 to the user.
  • FIG. 5 is a flow chart showing the flow of processing of the sound restoration apparatus in Embodiment 1 of the present invention.
  • the mixed sound separation unit 103 extracts a sound material restored from the mixed sound S101 as separated sound information S102 (step 401).
  • the sound structure analysis unit 104 creates sound structure information S103 based on the extracted separated sound information S102 and the sound structure knowledge database 105 (step 402).
  • the same sound characteristic region analysis unit 106 obtains a region having the same sound characteristic force from the extracted separated sound information S102, and creates the same sound characteristic region information S104 (step 403).
  • the sound characteristic extraction unit 107 extracts the sound characteristics of the sound to be restored based on the same sound characteristic area information S 104 for each area composed of the same sound characteristics, and creates the sound characteristic information S105 (step 404).
  • the sound restoration unit 108 performs sound structure information S103 and region-specific information. Based on the sound characteristic information S105, a restored sound S106 is created (step 405).
  • the mixed sound S101 is a mixed sound in which the announcement sound and the chime overlap
  • the restored sound S106 to be restored is the announcement sound.
  • the sound structure knowledge database 105 includes a phoneme dictionary, a word dictionary, a morpheme dictionary, a language chain dictionary, a thesaurus dictionary, and an example dictionary.
  • the same sound characteristic region analysis unit 106 determines a region having the same sound characteristic power based on a phoneme break, a word break, a phrase break, a sentence break, an utterance content break, and an utterance break.
  • the same sound characteristic region analysis unit 106 performs a time region in which the sound characteristics are the same based on a change in voice quality, a change in tone, a change in timbre, a change in volume, a change in reverberation characteristics, a change in sound quality, etc. May be determined.
  • the sound restoration unit 108 restores the sound of the missing part of the sound to be restored based on the sound structure information S103 and the sound characteristic information S105, and creates other sounds using the separated sound information S102.
  • Figure 6 (a) shows an example of a mixed sound in which the announcement sound and chimes overlap.
  • the chime is partially missing the announcement voice, “Next is ⁇ Osaka ⁇ Osaka ⁇ ”, as shown in Fig. 6 (b).
  • Saka ⁇ Kuni Osa Kuni "t is distorted by voice.
  • the sound that is heard without distortion is used as it is. Restores the missing voices indicated by "Kuni”.
  • the mixed sound separation unit 103 extracts the separated sound information S 102 using the mixed sound S101 taken in by the microphone 102 (corresponding to step 401 in FIG. 5).
  • the separated sound information S102 a speech waveform obtained by extracting an announcement speech component, which is a sound to be restored, and missing section information of the announcement speech are extracted.
  • the frequency of the mixed sound is analyzed, and the time when the chime is inserted due to the rise and fall of power, the change of power in a specific frequency band, etc. is detected.
  • chimes Unlike chimes, chimes have a constant power in all frequency bands, so the time when chimes are inserted is detected using this characteristic.
  • the mixed sound (announcement voice, waveform information) during the time when the chime is not inserted and the time frame information (missing section frame) where the chime is inserted are extracted as separated sound information S102 (Fig. 6 (c)). See).
  • the separated sound information S102 may be extracted by using auditory scene analysis, independent component analysis, and array processing using a plurality of microphones.
  • information on the spectrogram after frequency analysis for example, [time information, frequency information, power] It may be expressed as a set).
  • the sound structure analysis unit 104 includes the separated sound information S102 extracted by the mixed sound separation unit 103, and a sound having a phoneme dictionary, a word dictionary, a morpheme dictionary, a language chain dictionary, a thesaurus dictionary, and an example dictionary.
  • sound structure information S103 of the announcement voice is created (corresponding to step 402 in FIG. 5).
  • the phoneme sequence information of the announcement speech is created as the sound structure information S103.
  • the extracted speech waveform of the announcement which is a part of the separated sound information S102 as shown in FIG. 6 (c) is converted into a cepstrum coefficient used in speech recognition by analyzing the features.
  • speech recognition is performed using the converted cepstrum coefficient.
  • the cepstrum coefficients are input to a phoneme dictionary composed of hidden Markov models that have been learned from a large amount of speech data in advance, and the likelihood of each phoneme model is calculated. Then, considering the possibility of each phoneme based on the calculated likelihood, a word dictionary in which words used at the station home are registered, and a morpheme in which rules of morphemes between consecutive words are described. To be able to replace words with N-grams created from dictionaries, utterances used at station platforms, and language chain dictionaries expressed by probability models The most probable phoneme sequence is determined using a thesaurus dictionary in which similar words are registered and an example dictionary in which utterance contents of multiple announcements are registered. Then, phoneme sequence information (sound structure information S 103) is created.
  • FIG. 8 shows an example in which sound structure information S 103 is created from separated sound information S 102.
  • the announcement voice “Next is ⁇ Osaka ⁇ Osaka ⁇ ” is partially missing, and “Next is ⁇ Kokukoku Saka ⁇ Kuni Osakoku” t
  • the sound structure knowledge database 105 is shown in which the next phoneme sequence information is restored! / Yes.
  • FIG. 9 shows another example for obtaining phoneme sequence information.
  • "Konnikuni is” a can be determined as "Hello", the “N and does Kunikuni Garden” to determine the "Shinkansen” Can do.
  • Fig. 9 (b) by using an example dictionary, it is possible to determine that the signal color is red, garden, and yellow and that the signal color is red, blue, and yellow.
  • “Monkeys and kingdoms fall” can be determined as “monkeys and wooden powers fall”.
  • a voice recognition method called missing feature that does not use missing portion waveform information and finds a phoneme sequence by matching with a voice recognition model with a constant likelihood may be used.
  • a voice recognition method called missing feature that does not use missing portion waveform information and finds a phoneme sequence by matching with a voice recognition model with a constant likelihood may be used.
  • only a part of the power of using all six types of dictionaries may be used.
  • the sound structure knowledge database may be updated as necessary.
  • the same sound characteristic region analysis unit 106 obtains a region having the same sound characteristic force based on the separated sound information S102 extracted by the mixed sound separation unit 103, and creates the same sound characteristic region information S104. (Corresponds to step 403 in Figure 5).
  • regions having the same sound characteristics are determined and the same sound characteristic region information S104 is set. create.
  • phoneme sequence information is created in the same manner as the sound structure analysis unit 104, using the separated sound information S102. Based on the phoneme sequence information, phoneme breaks, word breaks, phrase breaks, and sentence breaks can be determined.
  • the sound structure database is stored in the same sound characteristic region analysis unit 106.
  • the phoneme breaks are represented as [frame, phoneme type]. Can appear.
  • word breaks can be expressed as “next”, “ha”, “Osaka”, “Osaka”.
  • paragraph breaks can be expressed as “Next”, “Osaka”, “Osaka”.
  • it is possible to determine the utterance break by detecting the silent section in the frequency band of speech. Based on these pieces of delimiter information, the same sound characteristic area information S 104 indicating information on areas having the same sound characteristics is created.
  • FIG. 10 shows an example of the same sound characteristic area information S 104.
  • Fig. 10 (a) shows the region where the sound characteristics are the same as a phoneme break. For example, frames 2 to 3 indicate that the phoneme is “ZuZ” and the voice quality is the same.
  • Figure 10 (b) shows a region where the sound characteristics are the same, expressed by word breaks. For example, frames 1 to 10 are one identical sound characteristic region and indicate that the word “next” is included.
  • Figure 10 (c) shows the region with the same sound characteristics expressed in terms of time and text. For example, the first to fifth seconds are one identical sound characteristic area, and the sentence between them is “Next Osaka Osaka”. Further, as shown in FIG.
  • a region having the same sound characteristics may be determined for each sound characteristic to be extracted. For example, the same sound characteristics area when the sound characteristics are voice quality, the same sound characteristics area when the sound characteristics are tone, and the sound characteristics are speaker characteristics, gender characteristics, voice age, volume, reverberation characteristics, sound quality In this case, the same sound characteristic area may be determined at the same time.
  • the voice of the announcement greatly changes the inflection of speech, and has special characteristics for each phoneme, such as utterance applied to the nose, and the characteristics of the voice also change depending on the content of the speech.
  • the sound characteristics change from moment to moment even if they are uttered by the same person. For this reason, it is extremely difficult to restore the sound by extracting the phonetic characteristics by determining the region that has the same sound characteristics by phoneme unit, word unit, phrase unit, sentence unit, utterance content unit, utterance unit, etc. is important.
  • the same sound characteristic area information is created using all of the content breaks and utterance breaks, but the same sound characteristic area information may be created using a part of them.
  • the sound characteristic extraction unit 107 performs the restoration based on the separated sound information S102 extracted by the mixed sound separation unit 103 and the same sound characteristic region information S104 created by the same sound characteristic region analysis unit 106
  • Sound characteristics information S105 is created by extracting the sound characteristics of the voices for each region composed of the same sound characteristics (corresponding to step 404 in FIG. 5).
  • voice characteristics such as voice power, screaming or fraud, whether reverberation is large or small, and whether sound quality is high or low.
  • sound characteristic information S105 speaker characteristics, gender characteristics, voice age, voice quality, tone, volume, reverberation characteristics, and sound quality of the announcement announcement to be restored are extracted for each region to create sound characteristic information S105.
  • the sound characteristic information S105 the basic frequency F0, power, spectrum rate, and spectrum features used in speech synthesis are extracted for each area based on the same sound characteristic area information S104.
  • description will be made using the separated sound information 3102 (FIG. 11 ( & )) shown in FIG. 6 (c) and the same sound characteristic region information S104 (FIG. 11 (b)) shown in FIG. 10 (b).
  • the area is divided into areas having the same sound characteristics.
  • the frame is divided into four areas: a frame 1 to 10 area, a frame 11 to 15 area, a frame 16 to 32 area, and a frame 33 to 55.
  • sound characteristics are extracted using speech waveform information of frames other than the missing section that is a part of the separated sound information S102.
  • FIG. 11 (a) there are three missing parts: frames 16 to 21, frames 33 to 36, and frames 49 to 55.
  • Fig. 11 (d) shows an example of the sound characteristic information S105.
  • F0, power, spectral rate, and spectral characteristics are determined for each divided region.
  • the sound characteristics (F0, power, vector rate, spectrum) of the third area “area 3” are determined to be the sound characteristics A of the non-missing portion included in area 3.
  • FIG. 10D when FIG. 10D is used as the same sound characteristic area information S104, sound characteristic information S105 having different areas for each sound characteristic is created as shown in FIG.
  • the sound characteristics are extracted for each sound characteristic of F0, spectral, spectral rate, and spectral characteristics.
  • F0 is a parameter that can express speaker characteristics, gender characteristics, tone, etc.
  • power is a parameter that can express volume, etc.
  • spectrum rate is a parameter that can express tone, etc.
  • the reverberation characteristics may be measured by using a separate device for measuring the reverberation characteristics.
  • the sound characteristic extraction unit 107 does not extract the sound characteristics in the region that does not include the missing part, and does not need to describe the sound characteristic information in the region that does not include the missing part in the sound characteristic information S105. .
  • the sound restoration unit 108 restores the announcement voice based on the sound structure information S103 created by the sound structure analysis unit 104 and the sound characteristic information S105 created by the sound characteristic extraction unit 107 (FIG. 5). Corresponding to step 405).
  • the sound restoration unit 108 restores the voice of the part in which the announcement is lost using the synthesized voice.
  • the frame (missing section) of the missing part is determined using the separated sound information S102 (see FIG. 6 (c)).
  • the sound characteristic of the missing part is determined based on the sound characteristic of the region including the missing part based on the sound characteristic information S105. In the case of the example in FIG.
  • the sound characteristic A from which the “strength” force is extracted is used as the sound characteristic of the missing part of the “national power” garden.
  • the phoneme sequence information of the missing portion and the accent information of the missing portion are determined from the word including the missing portion, and the intonation information of the missing portion is determined from the utterance information including the missing portion.
  • the phoneme sequence “O” of the missing part of “Kunikuni Saka” is determined, and the accent information of “O” is determined from the word “Osaka” including the missing part.
  • the intonation information of “O” is determined from the utterance information “Next is Osaka” that includes the missing part.
  • the phoneme sequence information of the missing part is generated and combined with the restored voice of the missing part to restore the announcement voice.
  • the “Kunikoku Sachi” garden part is restored by speech synthesis, and the “Sashiki” part uses the sound captured by the microphone 102 as it is.
  • a waveform database (not shown), that is, a sound having a high similarity between the sound characteristics of the missing portion and the phoneme sequence information, based on the extracted sound characteristics
  • Audio may be restored by selecting from these templates.
  • the sound characteristics can be estimated with higher accuracy using the waveform database, so that accurate speech can be restored.
  • the selected waveform may be corrected by learning to restore the missing part sound.
  • the sound characteristics may be estimated by using the prior information of the sound to be restored, and the sound may be restored.
  • the sound characteristics of the voice of the person who makes the announcement may be downloaded to the headphone device 101 in advance, and the sound may be restored with reference to the sound characteristics.
  • basic sound characteristics of a human voice may be stored in the headphone device 101 in advance and used. This makes it possible to restore accurate voice.
  • the waveform of the restoration target sound is used as it is for the sound other than the missing portion, the sound restoration can be performed with high accuracy.
  • the same sound characteristic region analysis unit 106 uses the sound structure information S103 created by the sound structure analysis unit 104 as the same sound characteristic region analysis unit 106Z. You can create S104.
  • FIG. 14 shows a flowchart of the sound restoration process in this case.
  • the mixed sound separation unit 103 extracts a sound material restored from the mixed sound S 101 as separated sound information S 102 (S Step 1301).
  • the sound structure analysis unit 104 creates sound structure information S103 based on the extracted separated sound information S102 and the sound structure knowledge database 105 (step 1302).
  • the same sound characteristic region analysis unit 106Z obtains a region having the same sound characteristic force from the separated sound information S102 extracted based on the sound structure information S103 obtained in the sound structure information creation process (step 1302). Sound characteristic area information S104 is created (step 1303).
  • the sound characteristic extraction unit 107 extracts the sound characteristics of the sound to be restored based on the same sound characteristic area information S104 for each area composed of the same sound characteristics, and creates the sound characteristic information S105 (step 1304).
  • the sound restoration unit 108 creates a sound to be restored based on the sound structure information S103 and the sound characteristic information S105 for each region (step 1305).
  • the same sound characteristic region analysis unit 106Z can determine phoneme breaks, word breaks, phrase breaks, and sentence breaks using the sound structure information S103 created by the sound structure analysis unit 104. The amount can be greatly reduced.
  • the sound corresponding to the mixed sound S101 is a mixed sound in which the voice of a friend and the noise of a car or the voice of a person in the surrounding area overlap, and the sound corresponding to the restored sound S106 is a friend The voice of two people.
  • the difference from the example of ⁇ I> is the operation of the mixed sound separation unit 103, the operation of the same sound characteristic region analysis unit 106, the operation of the sound characteristic extraction unit 107, and the operation of the sound restoration unit 108. Therefore, as shown in FIG. 15, the mixed sound separation unit 103 is the mixed sound separation unit 103A, the same sound characteristic region analysis unit 106 is the same sound characteristic region analysis unit 106A, and the sound characteristic extraction unit 107 is the sound characteristic extraction unit 1 07A.
  • the sound restoration unit 108 is referred to as a sound restoration unit 108A.
  • the sound restoration unit 108A performs the entire restoration target sound, which is a combination of the missing part sound and the sound other than the missing part, out of the phoneme series, the character series, and the note series created by the sound structure analysis unit described above.
  • This is an example of sound restoration means for restoration using at least one and extracted sound characteristics.
  • the mixed sound S101 is the mixed sound S101A
  • the separated sound information S102 is the separated sound information S102A
  • the sound structure information S103 is the sound structure information S103A
  • the same sound characteristic area information S104 is the same sound characteristic area.
  • sound characteristic information S105 is sound characteristic information S105A
  • restored sound S106 is restored sound S106A.
  • the sound restoration unit 108A restores the entire sound including the missing part (including the distorted part) of the restored sound based on the sound structure information S103A and the sound characteristic information S105A. At this time, the entire sound is restored based on the balance information of the entire sound. In other words, the entire sound is restored by correcting the distortion as well as the distortion.
  • mixed sound S101A is captured using microphone 102 attached to headphone device 101.
  • FIG. 16 shows an example schematically showing the mixed sound S101A.
  • boyfriend A was energetically listening to "what to eat”
  • girl friend B energetically replied “French cuisine”
  • girl friend B knew that French food was expensive.
  • An example of being discouraged and replied “but too expensive” is shown.
  • the voices of the two people are partially missing due to the noise of the car and the voices of the people around them.
  • the mixed sound separating unit 103A extracts the separated sound information S102A using the mixed sound S101A taken in by the microphone 102 (corresponding to step 401 in FIG. 5).
  • a speech waveform extracted from the speech of two friends is extracted as a part of the separated sound information S102A by an auditory scene analysis technology that separates sounds using the local structure of the sound waveform.
  • the degree of distortion of the extracted voice is also extracted as separated sound information S 102A.
  • FIG. 17 shows an example of the separated sound information S102A.
  • a pair of a speech waveform and a distortion degree for each frame is used as separated sound information S102A.
  • the distortion degree “0.0” means no distortion
  • the distortion degree “1.0” means a missing part. That is, the degree of distortion corresponds to the degree of reliability of the speech waveform.
  • the separated sound information S102 As a part of the separated sound information S102, as shown in Fig. 18, it may be expressed as a set of [time information, frequency information, power] on the spectrogram that has been subjected to frequency analysis that is not a waveform. .
  • frequency information For example, automobile noise is present at low frequencies.
  • the frequency band that exists is limited depending on the type of ambient noise. Therefore, when the separated sound information S102A is extracted on the spectrogram, the information on the sound to be restored can be accurately extracted.
  • the voices of two friends may be extracted by independent component analysis or array processing using multiple microphones.
  • the sound structure analysis unit 104 extracts sound structure information S103A in the same manner as the example of ⁇ I>. (Corresponding to step 402 in FIG. 5).
  • the sound structure information S103A may be extracted with high accuracy by speech recognition with reliability based on the degree of distortion included in the separated sound information S102A.
  • the same sound characteristic region analysis unit 106A obtains a region having the same sound characteristic force based on the separated sound information S102A extracted by the mixed sound separation unit 103A, and creates the same sound characteristic region information S104A (Corresponding to step 403 in FIG. 5).
  • changes in speaker characteristics changes in gender characteristics, changes in voice age, changes in voice quality, changes in tone, areas with the same sound characteristic power are determined and the same sound characteristic area information S104A is created.
  • the change in the speaker characteristics can be measured by the likelihood of the likelihood with a plurality of speaker models expressed by a Gaussian distribution. For example, when the speaker model with the highest likelihood changes from the Mr. A model to the Mr.
  • Changes in gender characteristics can be measured by changes in F0. For example, men use the fact that F0 is low and women are high.
  • the change in voice age can be judged by making a probability model by age and comparing it.
  • changes in voice quality can be judged by creating a voice quality probability model and comparing it.
  • changes in tone can be judged from changes in F0 and changes in spectral rate.
  • the same sound characteristic area information S104 is created by setting the sections where these changes are small as areas where the sound characteristics are the same.
  • an area having the same sound characteristics may be determined for each sound characteristic (see FIG. 12).
  • the area is divided, and thereafter, the sound characteristics are extracted independently for each area. At this time, if the utterance tension of “but too much” gradually decreases, the sound characteristics are extracted by further dividing the region.
  • the same sound characteristic region information is created using all of the change in speaker characteristics, the change in gender characteristics, the change in voice age, the change in voice quality, and the change in tone. You can use the to create the same sound characteristic area information.
  • the sound characteristic extraction unit 107A performs restoration based on the separated sound information S102A extracted by the mixed sound separation unit 103A and the same sound characteristic region information S104A created by the same sound characteristic region analysis unit 106A.
  • Sound characteristic information S105A is created by extracting the sound characteristics of the voice to be generated for each region composed of the same sound characteristics (corresponding to step 404 in FIG. 5).
  • the sound characteristics of a frame with a high degree of distortion are estimated using the sound characteristics of a frame with a low degree of distortion.
  • the sound characteristics of a frame with a low degree of distortion are simply used as the sound characteristics of a frame with a high degree of distortion.
  • the sound characteristics in a given region are estimated by linearly adding the sound characteristics in a weight proportional to the degree of distortion.
  • the sound to be restored is divided by the time domain where the sound characteristics are the same, and the sound characteristic in which the missing portion is located.
  • the sound characteristics By extracting sound characteristics using sound data (waveform data, etc.) with a relatively long time length in the same time domain, the actual sound characteristics can be faithfully reproduced.
  • the sound restoration unit 108A has no missing voices of friends based on the sound structure information S103A created by the sound structure analysis unit 104 and the sound characteristic information S105A created by the sound characteristic extraction unit 107A. Restore the entire voice of the two friends including the part (corresponding to step 405 in Fig. 5).
  • phoneme sequence information of the entire speech to be restored is determined.
  • accent information and intonation information considering the whole speech such as word units and utterance units are determined.
  • sound characteristic information S105A based on the sound characteristics (F0, power, spectral rate, and spectral characteristics) of the restored sound, phoneme sequence information, accent information, and intonation information, only the missing parts
  • voice synthesis balance the voice of two friends with the whole voice. Restore with consideration.
  • the speech may be restored by selecting a waveform database with a waveform having high similarity to the sound characteristics, phonological information, accent information, and intonation information.
  • the selected waveform may be corrected by learning based on actual sound characteristics and surrounding sounds to restore the sound.
  • the sound characteristic information S1 05A extracted by the sound characteristic extraction unit 107A the sound may be reconstructed by estimating the sound characteristics based on the restored! / Or the sound prior information.
  • the sound characteristics of the voices of two friends may be downloaded to the headphone device 101 in advance, and the sound may be restored with reference to the sound characteristics.
  • the basic sound characteristics of a human voice can be stored in the headphone device 101 in advance and used. This makes it possible to restore accurate voice.
  • a restored sound is output from the speaker 109, and the user can listen to the restored friend's voice.
  • the same sound characteristic power is obtained based on the phoneme break, word break, phrase break, sentence break, utterance content break, and utterance break.
  • the same sound characteristic area information S104A may be created by determining the area.
  • the sound restoration unit 108A may restore the sound based on the sound structure information S103A and the sound characteristic information S105A without using the separated sound information S102A.
  • the sound corresponding to the mixed sound S101 is a mixed sound in which the street corner BGM and the car classification overlap
  • the sound corresponding to the restored sound S106 is the street corner BGM.
  • the difference from ⁇ I> is that the stored contents of the sound structure knowledge database 105, the operation of the sound structure analysis unit 104, the operation of the same sound characteristic region analysis unit 106, the operation of the sound characteristic extraction unit 107, and the sound restoration unit 108 operations.
  • the sound structure knowledge database 105 is the sound structure database 105B
  • the sound structure analysis unit 104 is the sound structure analysis unit 104B
  • the same sound characteristic region analysis unit 106 is the same sound characteristic region analysis unit 106B.
  • the extraction unit 107 is a sound characteristic extraction unit 107B
  • the sound restoration unit 108 is a sound restoration unit 108B.
  • mixed sound S101 is mixed sound S101B
  • separated sound information S102 is separated sound information S102B
  • sound structure information S103 is sound structure information S103B
  • same sound characteristic area information S104 is same sound characteristic area information S104B
  • the restored sound S106 be the restored sound S106B.
  • the sound restoration unit 108B restores the sound of the missing musical sound to be restored based on the sound structure information S103B and the sound characteristic information S105B, and creates other sounds based on the separated sound information S102B.
  • Fig. 20 (a) shows an example of a mixed sound in which the street corner BGM and the car horn overlap.
  • street corner BGM is partially missing due to car horn, as shown in Fig. 20 (b).
  • the street corner BGM that is not missing (heard) is restored using the sound as it is.
  • the mixed sound separation unit 103 performs frequency analysis of the mixed sound using the mixed sound S101B captured by the microphone 102 in the same manner as in the example of ⁇ I>, and by the rise of power or the like.
  • the time when the car horn is inserted is detected, and the separated sound information S102B is extracted (corresponding to step 401 in FIG. 5).
  • the separated sound information to be extracted is not about speech but about music.
  • FIG. 20 (c) shows an example of separated sound information S102B.
  • the separated sound information is composed of a musical sound waveform obtained by extracting street corner BGM components and a section information card in which the street corner BGM is missing.
  • the separated sound information S102B may be extracted by using auditory scene analysis, independent component analysis, and array processing using a plurality of microphones.
  • frequency information on the spectrogram that has been subjected to frequency analysis not waveform information (for example, [ It may be expressed as a set of time information, frequency information, and power].
  • the sound structure analysis unit 104B performs restoration based on the separated sound information S102B extracted by the mixed sound separation unit 103 and the sound structure knowledge database 105B composed of a sound ontology dictionary and a score dictionary.
  • Sound structure information S103B of street corner BGM that is a musical tone is created (corresponding to step 402 in FIG. 5).
  • note sequence information of street corner BGM is created as part of the sound structure information S103B.
  • frequency analysis is performed on a sound waveform obtained by extracting a street corner BGM component which is separated sound information S102B.
  • the missing note sequence is estimated using the analyzed frequency structure and the sound ontology dictionary.
  • the sound ontology dictionary stores rules such as chords, modulations, and rhythms related to musical sounds, and estimates note sequences based on these rules.
  • the note sequence of missing parts is estimated more accurately by comparing with the scores of a plurality of pieces of music registered in the score dictionary. For example, a note sequence that is partly missing and estimated by the separated sound information S102B is compared with a note sequence of a score that is registered in the score dictionary, and a corresponding missing note of the same note sequence. A series can be determined.
  • the score dictionary may be registered in advance in the sound structure knowledge database 105B, or may be updated and registered by downloading a music site or the like. Also, based on the user's location information, etc., one or a plurality of musical scores may be selected to determine the power and note sequence. For example, if BGM-A always flows from store A, when you get close to store A! / ⁇ , select the BGM-A score and select the note sequence to use. The estimation accuracy can be improved.
  • the same sound characteristic region analysis unit 106B obtains a region having the same sound characteristic force based on the separated sound information S102B extracted by the mixed sound separation unit 103, and creates the same sound characteristic region information S104B (Corresponding to step 403 in FIG. 5).
  • an area consisting of the same sound characteristic is determined and the same sound characteristic area information S104B Create To change the sound structure, first, sound structure information is extracted in the same manner as the sound structure analysis unit 104B.
  • the sound structure group of the input musical sound does not change, separate the sound structure of the piano performance and the sound structure of the guitar performance into different groups.
  • the area is At this time, it is rare that the sound characteristics of a group of sound structures created in advance match the sound characteristics of the sound to be restored now, and the sound characteristics are extracted based on changes in the sound structure! It is important to extract the region power of the actual sound characteristics of the sound that was restored by dividing the sound.
  • the sound structure information is extracted in the same manner as the sound structure analysis unit 104B.
  • the tone characteristic can be extracted with high accuracy. Changes in volume can be detected by measuring power. The region where the power is in a certain range is determined as the region consisting of the same sound characteristics. Also, the reverberation characteristic change and the sound quality change are calculated from the separated sound information S102B, and a region in which the reverberation degree and sound quality are in a certain range is determined as a region having the same sound characteristic force.
  • timbre changes can be measured by the likelihood of a timbre model expressed by a Gaussian distribution created by grouping sounds such as pierced guitars and violins.
  • the sound characteristic power of it is assumed that the change in the sound structure, the change in melody, the change in volume, the change in reverberation characteristics, the change in sound quality, and the change in timbre of the missing part of the sound are not changed.
  • FIG. 21 shows an example of the same sound characteristic area information S104B.
  • a region where the sound characteristics are the same is determined for each of the sound characteristics, such as timbre, volume, reverberation characteristics, and sound quality.
  • the timbre region is obtained from the sound structure change, melody change, and timbre change
  • the volume is obtained from the volume change power
  • the reverberation characteristic is also obtained from the reverberation characteristic change power
  • the sound quality is changed from the sound quality. I'm looking for it
  • the sound characteristics such as timbre, volume, reverberation characteristics, and sound quality change.
  • the volume and reverberation characteristics change from moment to moment depending on the location of surrounding buildings, the location of people around you, temperature, humidity, and so on. Therefore, changes in sound structure, melody, timbre, volume, reverberation characteristics, etc. It is very important to restore the sound by extracting the sound characteristics after determining the area consisting of the same sound characteristics due to changes, changes in sound quality, etc.
  • the same sound characteristic region information S104B is created using all of the sound structure change, melody change, volume change, reverberation characteristic change, sound quality change, and timbre change.
  • the same sound characteristic area information may be created using a part.
  • a change in sound structure or a change in melody may be extracted using the sound structure information 103B created by the sound structure analysis unit 104B.
  • the sound characteristic extraction unit 107B restores the street corner BGM based on the separated sound information S102B extracted by the mixed sound separation unit 103 and the same sound characteristic region information S104B created by the same sound characteristic region analysis unit 106B.
  • the sound characteristics are extracted for each region composed of the same sound characteristics to create sound characteristic information S105B (corresponding to step 404 in FIG. 5).
  • the sound characteristic information S105B is created by extracting the tone, volume, reverberation characteristic, and sound quality of the street corner BGM for each region.
  • these sound characteristics are extracted by an expression method based on MIDI (Musical Instrument Digital Interface) sound sources.
  • the timbre can be determined by examining the frequency structure by analyzing the frequency of the waveform information included in the sound characteristic information S105B.
  • the timbre is the guitar. If the piano is played, the timbre is the piano. Even if only the piano performance is considered, it is actually played.
  • the tone varies depending on the type of piano to be played and the temperature and humidity of the performance location.
  • the volume varies depending on the distance between the user's ear (the position of the microphone 102 in this example) and the sound source. If you listen to street corner BGM while moving, the volume changes from moment to moment.
  • the reverberation characteristics can express a sense of realism with a sense of depth.
  • the sound quality varies depending on the characteristics of the speaker and microphone. For this reason, it is extremely important to extract the sound characteristics, determine the same sound characteristics area, extract the sound characteristics, and restore the sound.
  • the sound to be restored is divided in the time domain where the sound characteristics are the same, and the missing part is detected.
  • Real sound characteristics can be faithfully reproduced by extracting sound characteristics using relatively long sound data (waveform data, etc.) in the time domain where the sound characteristics are the same.
  • the sound restoration unit 108B restores the street corner BGM based on the sound structure information S103B created by the sound structure analysis unit 104B and the sound characteristic information S105B created by the sound characteristic extraction unit 107B (FIG. 5). Corresponding to step 405).
  • the sound restoration unit 108B uses the note sequence information described in the sound structure information S103B and the sound characteristic information based on the MIDI sound source described in the sound characteristic information S105B to perform the missing part by synthesizing the musical sound based on the MIDI sound source. Restore the sound. For the part that is not missing (not distorted), the sound of the street corner BGM input from the microphone 102 by the separated sound information S102B is used as it is.
  • the similarity between the sound characteristic and the note sequence is high, and the waveform is selected by a waveform database (not shown) force to generate the musical sound. It may be restored.
  • the sound characteristics can be estimated more accurately by the waveform database, so that a high-accuracy musical sound can be restored.
  • the sound of the missing part may be restored by correcting the selected waveform by learning based on the actual sound characteristics and musical sounds around the missing part.
  • the sound characteristics may be restored by estimating the sound characteristics based on the general information about the musical sound to be restored, in addition to the sound characteristic information S105B extracted by the sound characteristic extracting unit 107B.
  • the sound characteristics of a general street corner BGM may be stored in advance in the headphone device 101, and the sound may be restored with reference to the sound characteristics. This makes it possible to restore the V music sound with high accuracy.
  • the musical sound other than the missing portion is used!
  • the waveform of the sound to be restored is used as it is, so that the sound restoration can be performed with high accuracy.
  • the user can listen to the restored street corner BGM through the speaker 109. For example, if a certain store power street corner BGM is flowing, the user hears the street corner BGM with a louder sound as he gets closer to the store. You can enjoy street corner BGM without noise.
  • the one corresponding to the mixed sound S101 is a confectionery for classical music. It is a mixed sound with overlapping sounds of eating, and the one corresponding to the restored sound S106 is classical music.
  • the difference from the example of ⁇ II> in FIG. 19 is the operation of the mixed sound separation unit 103, the operation of the sound characteristic extraction unit 107B, and the operation of the sound restoration unit 108B. Therefore, as shown in FIG.
  • the mixed sound separation unit 103B uses the mixed sound separation unit 103A (refer to the example of ⁇ I> item ii>), and the sound characteristic extraction unit 107B is replaced with the sound characteristic extraction unit 107C.
  • the unit 108B is a sound restoration unit 108C.
  • mixed sound S101B is mixed sound S101C
  • separated sound information S102B is separated sound information S102C
  • sound structure information S103B is sound structure information S103C
  • same sound characteristic area information S104B is same sound characteristic area information S104C
  • sound characteristic information S105B Is the sound characteristic information S105C
  • the restored sound S106B is the restored sound S106C.
  • the sound restoration unit 108C restores the entire sound including the missing portion of the sound to be restored based on the sound structure information S103C and the sound characteristic information S105C, as in the example of ⁇ I> No. ii>. . At this time, the entire sound is restored based on the balance information of the entire sound.
  • the difference from ⁇ I> No. ii> is that the sound to be restored is not a voice but a musical sound.
  • a microphone 102 attached to the headphone device 101 is used to capture a sound in which the sound of eating sweets overlapped with the mixed music S101C classical music.
  • Figure 23 shows an example of a mixed sound in which classic music is mixed with the sound of eating sweets. In this example, the sound of classical music is totally distorted by the sound of eating sweets.
  • the mixed sound separation unit 103A extracts the separated sound information S102C using the mixed sound S101C captured by the microphone 102 in the same manner as in the example of ⁇ I>, ii> (see FIG. 5). Corresponds to step 401).
  • the separated sound information to be extracted is not related to speech but related to music.
  • separated sound information in the same format as in FIG. 17 can be extracted. However, in this example, it is a musical sound waveform, not a speech waveform.
  • the separated sound information S102C may be expressed as frequency information (for example, a set of [time information, frequency information, power]) on a spectrum that has been subjected to frequency analysis rather than waveform information.
  • the classical music waveform information that is part of the separated sound information S102C may be extracted by independent component analysis or array processing using multiple microphones.
  • the sound structure analysis unit 104B creates the sound structure information S103C of classical music, which is the sound to be restored (corresponding to step 402 in Fig. 5), in the same manner as in ⁇ II>.
  • the score dictionary may be registered in advance in the sound structure knowledge database 105B. You can also update and register your music by downloading the sheet music of today's music, such as the music site at the concert venue.
  • the same sound characteristic region analysis unit 106B creates the same sound characteristic region information S104C (corresponding to step 403 in FIG. 5) in the same manner as the example of ⁇ II>.
  • the sound characteristic extraction unit 107C performs restoration based on the separated sound information S102C extracted by the mixed sound separation unit 103A and the same sound characteristic region information S104C created by the same sound characteristic region analysis unit 106B.
  • the sound characteristics of classical music are extracted for each area composed of the same sound characteristics to create sound characteristic information S105C (corresponding to step 404).
  • the sound characteristics are estimated using the sound characteristics of a frame with a small degree of distortion using the separated sound information S102C including the degree of distortion as shown in FIG. Note that the amount of sound characteristics may be linearly added and estimated with weighting proportional to the degree of distortion.
  • the restoration target sound is divided into time regions having the same sound characteristics, and the missing portion is located.
  • sound data waveform data, etc.
  • the sound restoration unit 108C has a portion in which classical music is missing based on the sound structure information S103C created by the sound structure analysis unit 104B and the sound characteristic information S105C created by the sound characteristic extraction unit 107C. Restore the entire classical music, including the distorted and undistorted parts (corresponding to step 405 in Figure 5).
  • phoneme sequence information of the entire music to be restored is determined.
  • rhythm information, volume change information, and the like taking into account the entire music in units of music, bars, etc. are determined.
  • the sound restoration unit 108C then balances the entire sound by synthesizing music based on the MIDI sound source based on the note sequence described in the sound structure information S103C and the sound characteristics based on the MIDI sound source described in the sound characteristic information S105C. Restore with consideration.
  • the sound corresponding to the mixed sound S101 is a mixed sound in which the friend's speaking voice, the sound of the bicycle bell and the surrounding noise overlap, and the sound corresponding to the restored sound S 106 is the sound of the friend.
  • Speaking voice and bicycle bell sound The difference from the ⁇ I> example is that the sound to be restored is not only the sound, but also the sound and the environmental sound. is there.
  • FIG. 24 is a block diagram showing the overall configuration of this embodiment.
  • the microphone 102 inputs the mixed sound S101D and outputs it to the mixed sound separation unit 103D.
  • the mixed sound separation unit 103D extracts the sound material restored from the mixed sound S101D as separated sound information S102D.
  • the sound structure analysis unit 104D creates sound structure information S103D of the sound to be restored based on the separated sound information S102D extracted by the mixed sound separation unit 103D and the sound structure knowledge database 105D.
  • the same sound characteristic region analysis unit 106D obtains a region where the separated sound information S102D force extracted by the mixed sound separation unit 103D has the same sound characteristic force, and creates the same sound characteristic region information S104D.
  • the sound characteristic extraction unit 107D extracts the sound characteristics of the sound to be restored based on the same sound characteristic region information S104D created by the same sound characteristic region analysis unit 106D for each region composed of the same sound characteristics. Create characteristic information S105D.
  • the sound restoration unit 108D creates the restored sound S106D based on the sound structure information S103D created by the sound structure analysis unit 104D and the sound characteristic information S105D created by the sound characteristic extraction unit 107D.
  • the speaker 109 outputs the restored sound S106D created by the sound restoration unit 108D to the user.
  • a microphone 102 attached to the headphone device 101 is used to capture a mixed sound S101D of a friend's voice, a sound of a bicycle bell, and surrounding noise.
  • Figure 25 shows an example of a mixed sound in which the voice of a friend, the sound of a bicycle bell, and the surrounding noise overlap.
  • the friend's voice which is the sound that you want to restore, partially overlaps the sound of the bicycle bell.
  • ambient noise overlaps both the friend's voice and the bicycle bell.
  • the mixed sound separation unit 103D extracts the separated sound information S102D using the mixed sound S101D captured by the microphone 102 (corresponding to step 401 in FIG. 5).
  • the mixed sound S101D is frequency-analyzed and expressed as a spectrogram, and then the auditory scene analysis is performed using the local structure of the sound waveform. Determine the area of the bicycle bell and the surrounding noise.
  • the three types of sound are separated using a method that assumes that only one sound preferentially powers in each minute region.
  • Figure 26 schematically shows the results of auditory scene analysis. This example shows that even if a friend's voice and a bicycle bell overlap in time, the components can be separated if the region is divided by frequency.
  • the separated sound information S102D as in the example of FIG. 27 is extracted.
  • the separated sound information S102D as in the example of FIG. 27 is extracted.
  • the degree of distortion can be calculated based on the ratio of the component extracted by auditory scene analysis to the component of the mixed sound before extraction in each region.
  • the separated sound information S 102D may be extracted using independent component analysis, array processing using a plurality of microphones, or the like.
  • the sound structure analysis unit 104D has a sound structure composed of the separated sound information S102 D extracted by the mixed sound separation unit 103D and a phoneme dictionary, a word dictionary, a language chain dictionary, and a sound source model dictionary.
  • the voice structure information S103D of the friend's talking voice and bicycle bell which is the sound to be restored, is created (corresponding to step 402 in FIG. 5).
  • phonetic structure information S103D phonetic sequence information of a friend's speaking voice is created using a phoneme dictionary, a word dictionary, and a language chain dictionary, and a bicycle bell note sequence information, which is an environmental sound, is used as a sound source. Create using a model dictionary.
  • a friend's speech component that is part of the separated sound information S102D (for example, frequency information where the “sound type” in the separated sound information in FIG.
  • Phoneme candidates are predicted by calculating the likelihood of the phoneme dictionary (Hidden Markov Model) expressed in the frequency domain learned from the speech data.
  • the phoneme sequence is determined with restrictions using a word dictionary and a language chain dictionary.
  • the bicycle bell component that is part of the separated sound information S102D (for example, frequency information where the “sound type” in the separated sound information in FIG. 27 is described as “bell”)
  • the candidate of a note is predicted by calculating the likelihood with the phoneme dictionary (Hidden Markov Model) expressed in the frequency domain learned by the Verde data.
  • the note sequence is determined with constraints using a sound source model dictionary in which the temporal structure of the bicycle bell is stored.
  • the phoneme sequence or the note sequence may be accurately determined using “distortion degree” described in the separated sound information of FIG.
  • the same sound characteristic region analysis unit 106D obtains a region having the same sound characteristic force based on the separated sound information S102D extracted by the mixed sound separation unit 103D and creates the same sound characteristic region information S104D (Corresponding to step 403 in FIG. 5).
  • the separated sound information S102D it is determined which time and frequency regions should be regions having the same sound characteristic power, and the same sound characteristic region information is obtained.
  • FIG. 28 shows an example of the same sound characteristic area information S104D.
  • two areas are extracted: the time and frequency area of the friend's voice and the time and frequency area of the bicycle bell. That is, two types of sound characteristics are extracted by the sound characteristic extraction unit 107D shown below.
  • the feature in this example is that the region considered to have the same sound characteristic is temporally interrupted, and that the region takes frequency into consideration.
  • the sound characteristic extraction unit 107D performs the sound characteristics of the friend's voice and the bicycle bell based on the separated sound information S102 D extracted by the mixed sound separation unit 103D and the same sound characteristic region analysis unit 106D.
  • Sound characteristic information S105D are extracted to create sound characteristic information S105D (corresponding to step 404).
  • speaker characteristics etc. are extracted as the sound characteristics of the friend's speaking voice
  • timbre etc. are extracted as the sound characteristics of the bicycle bell.
  • the extracted information is set as sound characteristic information S105D.
  • one sound characteristic is extracted from the entire voice of the friend, and another sound characteristic is extracted from the entire bell sound of the car to generate sound characteristic information S105D.
  • the restoration target sound is divided into time domains with the same sound characteristics, and the missing portion is located.
  • sound data waveform data, etc.
  • the sound restoration unit 108D uses the sound structure information S103D created by the sound structure analysis unit 104D and the sound characteristic information S105D created by the sound characteristic extraction unit 107D to check the voice of the friend and the bell of the bicycle. Restore the sound (corresponding to step 405 in Fig. 5). The friend's voice is restored using the MIDI sound source in the same way as in ⁇ I> Noku ii>.
  • the “power” value of the separated sound information may be used as it is to restore the sound. At this time, the degree of distortion is large, and the power of the frequency in the region is restored.
  • the speaker 109 allows the user to selectively listen to the restored friend's voice and the bicycle bell. For example, you can give priority to listening to the sound of a bicycle bell for safety, and then listen offline to a friend's voice that has been restored if necessary. It is also possible to listen by shifting the positions of the two sound sources intentionally using two speakers, the right and left ears. At this time, setting the sound of the bell of the bicycle so that the position of the sound source does not change is preferable because the direction of arrival of the bicycle is strong and safe.
  • the sound is restored based on the sound structure information created using the sound structure knowledge database! Sound (including voice, music, and environmental sound) can be restored, and the sound is restored based on the sound characteristic information extracted for each region with the same sound characteristic power, so it is faithful to the actual sound characteristics.
  • the sound before being distorted can be restored.
  • the mixed sound separation unit can restore the mixed sound power that is a mixture of multiple sounds.
  • the restoration target sound is divided into time domains with the same sound characteristics, and the sound characteristic where the missing part is located Relatively in the same time domain
  • sound data such as waveform data
  • Sound may be restored based on the auditory characteristics. For example, in consideration of the masking effect, the parts that cannot be heard by the user need not be restored. In addition, sound may be restored taking into account the user's audible range.
  • the voice quality, tone, volume, sound quality, etc. are faithfully restored, and part of the sound characteristics are changed to reduce only the reverberation. It may be easy to hear for the user.
  • part of the sound structure information created by the sound structure analysis unit may be changed to change to honorific expression or dialect expression according to the phoneme sequence based on the sound structure information.
  • the sound characteristics can be restored to a user-friendly and natural sound by changing the sound characteristics partially by the sound characteristics partial changing unit.
  • the sound restoration apparatus according to the present invention is incorporated in a sound editing apparatus will be described.
  • ⁇ IV> when restoring sound and ⁇ V> when restoring music are described.
  • FIG. 29 is a block diagram showing the overall configuration of the sound restoration device of the example ⁇ IV> in Embodiment 2 of the present invention.
  • the sound editing device 201 can be incorporated into a TV, a personal computer, a DVD (Digital Versatile Disc) editor, etc., and the sound required by the user from the mixed sound is set as one of the sound characteristics.
  • the sound restoration function is implemented to restore the sound with easy to hear by changing the part.
  • the sound editing device 201 includes a data reading unit 202, a mixed sound separation unit 103, a sound structure analysis unit 104, a sound structure knowledge database 105, a same sound characteristic region analysis unit 106, a sound characteristic extraction unit 107, A partial characteristic changing unit 203, a sound restoration unit 204, a storage unit 205, and a speaker 206 are provided.
  • Data reading unit 202 inputs mixed sound S101 and outputs the mixed sound S101 to mixed sound separating unit 103.
  • the mixed sound separation unit 103 extracts the sound material restored from the mixed sound S101 as separated sound information S102.
  • the sound structure analysis unit 104 creates sound structure information S 103 of sound to be restored based on the separated sound information S 102 extracted by the mixed sound separation unit 103 and the sound structure knowledge database 105.
  • the same sound characteristic region analysis unit 106 obtains a region having both the separated sound information S102 force extracted by the mixed sound separation unit 103 and the same sound characteristic force, and creates the same sound characteristic region information S104.
  • the sound characteristic extraction unit 107 extracts the sound characteristics of the sound to be restored based on the same sound characteristic region information S104 created by the same sound characteristic region analysis unit 106 for each region composed of the same sound characteristics. Create characteristic information S105.
  • the sound characteristic partial changing unit 203 partially changes the sound characteristic information S105 created by the sound characteristic extracting unit 107 to create changed sound characteristic information S201.
  • the sound restoration unit 204 creates the restored sound S202 based on the sound structure information S103 created by the sound structure analysis unit 104 and the changed sound characteristic information S201 created by the sound characteristic partial change unit 203.
  • the storage unit 205 stores the restored sound S202 created by the sound restoration unit 204.
  • the speaker 206 outputs the restored sound S202 stored in the storage unit 205 to the user.
  • FIG. 30 is a flowchart showing a process flow of the sound restoration apparatus according to the second embodiment of the present invention.
  • the mixed sound separation unit 103 extracts a sound material restored from the mixed sound S101 as separated sound information S102 (step 401).
  • the sound structure analysis unit 104 creates sound structure information S103 based on the extracted separated sound information S102 and the sound structure knowledge database 105 (step 402).
  • the same sound characteristic region analysis unit 106 obtains a region having the same sound characteristic force from the extracted separated sound information S102, and creates the same sound characteristic region information S104 (step 403).
  • the sound characteristic extraction unit 107 extracts the sound characteristics of the sound to be restored based on the same sound characteristic area information S 104 for each area composed of the same sound characteristics, and creates the sound characteristic information S 105 (step 404). .
  • the sound characteristic partial changing unit 203 partially changes the sound characteristic information S105 to create changed sound characteristic information S201 (step 2801).
  • the sound restoration unit 204 creates a restored sound S202 based on the sound structure information S103 and the modified sound characteristic information S201 (step 2802).
  • Embodiment 1 a method for restoring the announcement sound from the mixed sound S101 in which the announcement sound and the chime overlap is described.
  • the difference from Embodiment 1 is that the sound restoration unit 204 uses the modified sound characteristic information S201 created by the sound characteristic partial modification unit 203 that does not use the created sound characteristic information S105 as it is. To restore the sound.
  • mixed sound separation section 103 uses the mixed sound S101 captured by data reading section 202 to extract separated sound information S102 in the same manner as in the example of ⁇ I> in Embodiment 1. (Corresponds to step 401 in Figure 30).
  • the sound structure analysis unit 104 creates sound structure information S103 of the announcement voice in the same manner as in the example of ⁇ I> in Embodiment 1 (in step 402 of FIG. 30). Correspondence).
  • the same sound characteristic region analysis unit 106 performs the same sound based on the separated sound information S102 extracted by the mixed sound separation unit 103 in the same manner as in the example of ⁇ I> in Embodiment 1.
  • the same sound characteristic area information S104 is created by obtaining an area that also has characteristic power (corresponding to step 403 in FIG. 30).
  • the sound characteristic extraction unit 107 is the same sound characteristic region analysis unit as the separated sound information S102 extracted by the mixed sound separation unit 103 in the same manner as the example of ⁇ I> in Embodiment 1.
  • the sound characteristics of the announcement sound to be restored based on the same sound characteristic area information S104 created by 106 are extracted for each area composed of the same sound characteristics to create sound characteristic information S105 (step 40 4 in FIG. 30).
  • speaker characteristics, gender characteristics, voice age, voice quality, tone, volume, reverberation characteristics, and sound quality are extracted as sound characteristics.
  • the sound characteristic partial changing unit 203 partially changes the sound characteristic information S105 created by the sound characteristic extracting unit 107 to create changed sound characteristic information S201 (corresponding to step 2801 in Fig. 30).
  • some of the sound characteristics information S105 such as speaker characteristics, gender characteristics, voice age, voice quality, tone, volume, sound quality, reverberation characteristics, and timbre, are changed to make it easier for users to hear. create. For example, by changing only the speaker characteristics and slightly emphasizing the speaker characteristics, Sound characteristics can be restored with little change to the natural sound.
  • the tone can be changed to make the announcement tone polite, and the sound that is easy to hear can be restored by clarifying the voice.
  • Sounds that are easy to hear can also be restored by increasing the volume or reducing the reverberation.
  • the sound characteristic to be changed is a part of the overall sound characteristic, a natural sound can be restored.
  • the speaker nature is maintained, so that the real voice of the speaker can be restored.
  • the sound restoration unit 204 restores the announcement sound based on the sound structure information S103 created by the sound structure analysis unit 104 and the changed sound characteristic information S201 created by the sound characteristic partial change unit 203 (Corresponds to step 2802 in Figure 30).
  • the voice of the entire announcement is restored as the restored sound S202 based on the changed sound characteristics by voice synthesis.
  • the storage unit 205 stores the restored sound S202 created by the sound restoration unit 204.
  • FIG. 31 is a block diagram showing an overall configuration of the sound restoration device of the example ⁇ V> in the second embodiment of the present invention.
  • the sound editing device 201 can be incorporated into a television, a computer, a DVD editor, etc., and the sound required by the user from the mixed sound. It implements a sound restoration function that restores sound with a sound that is easy to hear by changing part of the sound characteristics.
  • the sound editing device 201 includes a data reading unit 202, a mixed sound separating unit 103, a sound structure analyzing unit 104B, a sound structure knowledge database 105B, a same sound characteristic region analyzing unit 106B, a sound characteristic extracting unit 107B, A sound characteristic partial changing unit 203B, a sound restoring unit 204B, a storage unit 205, and a speaker 206 are provided.
  • the data reading unit 202 inputs the mixed sound S101B and outputs it to the mixed sound separating unit 103.
  • the mixed sound separation unit 103 extracts the sound material restored from the mixed sound S101B as separated sound information S102B.
  • the sound structure analysis unit 104B creates sound structure information S103B of sound to be restored based on the separated sound information S102B extracted by the mixed sound separation unit 103 and the sound structure knowledge database 105B.
  • the same sound characteristic region analysis unit 106B obtains a region having the same sound characteristic force from the separated sound information S102 B extracted by the mixed sound separation unit 103, and creates the same sound characteristic region information S104B.
  • the sound characteristic extraction unit 107B extracts the sound characteristics of the sound to be restored based on the same sound characteristic region information S104B created by the same sound characteristic region analysis unit 106B for each region composed of the same sound characteristics. Create characteristic information S105B.
  • the sound characteristic partial changing unit 203B partially changes the sound characteristic information S105B created by the sound characteristic extracting unit 107B to create changed sound characteristic information S201B.
  • the sound restoration unit 204B is configured to restore the restored sound S202 based on the sound structure information S103B created by the sound structure analysis unit 104B and the changed sound characteristic information S201B created by the partial sound characteristic changing unit 203B.
  • the storage unit 205 stores the restored sound S202B created by the sound restoration unit 204B.
  • the speaker 206 outputs the restored sound S202B stored in the storage unit 205 to the user.
  • the example ⁇ V> of the present embodiment is applied to the sound restoration function of the sound editing device.
  • a method of restoring the street corner BGM using the mixed sound S101B force in which the sound of the street corner BGM and the car horn is overlapped will be described.
  • the sound to be restored is not a voice but a musical sound.
  • the mixed sound S1 01B which is the sound of the street corner BGM and the sound of the car horn overlapped (see Fig. 20).
  • the mixed sound separation unit 103 uses the mixed sound S101B captured by the data reading unit 202 to extract the separated sound information S102B in the same manner as the example ⁇ II> in the first embodiment. (Corresponds to step 401 in Figure 30).
  • the sound structure analysis unit 104B creates the sound structure information S103B of the street corner B GM in the same manner as the example of ⁇ II> in Embodiment 1 (corresponding to step 402 in FIG. 30). .
  • the same sound characteristic region analysis unit 106B performs the same process as in the example of ⁇ II> in the first embodiment. Based on the separated sound information S102B extracted by the mixed sound separation unit 103, an area composed of the same sound characteristics is obtained to create the same sound characteristic area information S104B (corresponding to step 403 in FIG. 30).
  • the sound characteristic extraction unit 107B is the same sound characteristic region analysis unit as the separated sound information S102B extracted by the mixed sound separation unit 103 in the same manner as in the example of ⁇ II> in Embodiment 1.
  • the sound characteristics of street corner BGM restored based on the same sound characteristic area information S104B created by 106B are extracted for each area consisting of the same sound characteristics to create sound characteristic information S105B (corresponding to step 404 in FIG. 30). ).
  • volume, sound quality, reverberation characteristics, and timbre are extracted as sound characteristics.
  • the sound characteristic partial changing unit 203B partially changes the sound characteristic information S105B created by the sound characteristic extracting unit 107B to create changed sound characteristic information S201B (corresponding to step 2801 in Fig. 30).
  • a part of the sound characteristic information S105B such as volume, sound quality, reverberation characteristic, tone color, is changed to create a sound characteristic that is easy for the user to hear.
  • volume, sound quality, reverberation characteristic, tone color is changed to create a sound characteristic that is easy for the user to hear.
  • sounds that are easy to hear can be restored by increasing the volume, reducing reverberation, and improving sound quality.
  • the sound characteristics to be changed are part of the overall sound characteristics, so that natural sounds can be restored.
  • the sound restoration unit 204B restores the street corner BGM based on the sound structure information S103B created by the sound structure analysis unit 104B and the changed sound property information S201B created by the partial sound property change unit 203B ( Corresponds to step 2802 in Figure 30).
  • the sound of the entire street corner BGM is restored as the restored sound S202B based on the changed sound characteristics by musical sound synthesis.
  • the storage unit 205 stores the restored sound S202B created by the sound restoration unit 204B.
  • the sound to be restored has the same sound characteristics by monitoring the change in the sound characteristics of the restored sound extracted from the mixed sound.
  • the sound characteristics are extracted using sound data (waveform data, etc.) with a relatively long time length in the time domain where the sound characteristics where the missing part is located are the same.
  • the target sound in the mixed sound is restored with high accuracy, faithfully to the retained sound characteristics.
  • by providing a partial sound characteristic changer it is possible to restore the sound so that it is easy for the user to hear.
  • the sound restoration unit may restore the sound based on the auditory characteristics of the user! For example, in consideration of the masking effect, parts that cannot be heard by the user need not be restored. Further, the sound may be restored in consideration of the audible range of the user. Further, the sound characteristic partial changing unit may change the sound characteristic based on the auditory characteristic of the user. For example, for users who have difficulty hearing low frequencies, increase the low frequency power and restore it.
  • This section describes how the sound structure information can be restored to a user-friendly and natural sound by changing the sound structure information partly.
  • the sound restoration device according to the present invention is incorporated in a portable videophone device will be described.
  • the sound to be restored we will describe the case of Ku VI> Restoring the voice and Ku VII> Restoring the musical sound.
  • FIG. 32 is a block diagram showing the overall configuration of the sound restoration apparatus of the example ⁇ VI> in Embodiment 3 of the present invention.
  • the portable videophone 301 has a sound restoration function when the sound required by the user is easily changed by changing a part of the sound structure.
  • the portable videophone 301 includes a receiving unit 302, a mixed sound separating unit 103, a sound structure analyzing unit 104, a sound structure knowledge database 105, a sound structure part changing unit 303, and a same sound characteristic region analyzing unit 106.
  • a sound characteristic extraction unit 107, a sound restoration unit 204, and a speaker 305 is a receiving unit 302, a mixed sound separating unit 103, a sound structure analyzing unit 104, a sound structure knowledge database 105, a sound structure part changing unit 303, and a same sound characteristic region analyzing unit 106.
  • Receiving section 302 receives mixed sound S101 and outputs the mixed sound S101 to mixed sound separating section 103.
  • the mixed sound separation unit 103 extracts the sound material restored from the mixed sound S101 as separated sound information S102.
  • the sound structure information S 103 of the sound to be restored is created based on the knowledge database 105.
  • the sound structure partial change unit 303 partially changes the sound structure information S103 created by the sound structure analysis unit 104 to create changed sound structure information S301.
  • the same sound characteristic region analysis unit 106 obtains a region having both the separated sound information S102 force extracted by the mixed sound separation unit 103 and the same sound characteristic force, and creates the same sound characteristic region information S104.
  • the sound characteristic extraction unit 107 extracts the sound characteristics of the sound to be restored based on the same sound characteristic region information S104 created by the same sound characteristic region analysis unit 106 for each region including the same sound characteristics. Create characteristic information S105.
  • the sound restoration unit 304 creates a restored sound S302 based on the changed sound structure information S301 created by the sound structure partial change unit 303 and the sound characteristic information S105 created by the sound characteristic extraction unit 107.
  • the speaker 305 outputs the restored sound S302 created by the sound restoration unit 304 to the user.
  • FIG. 33 is a flowchart showing a process flow of the sound restoration apparatus according to the third embodiment of the present invention.
  • the mixed sound separation unit 103 extracts a sound material restored from the mixed sound S101 as separated sound information S102 (step 401).
  • the sound structure analysis unit 104 creates sound structure information S103 based on the extracted separated sound information S102 and the sound structure knowledge database 105 (step 402).
  • the sound structure partial change unit 303 partially changes the sound structure information S103 to create the changed sound structure information S301 (step 3001).
  • the same sound characteristic region analysis unit 106 obtains a region having the same sound characteristic force from the extracted separated sound information S102 and creates the same sound characteristic region information S104 (step 403).
  • the sound characteristic extraction unit 107 extracts the sound characteristics of the sound to be restored based on the same sound characteristic area information S104 for each area composed of the same sound characteristics, and creates the sound characteristic information S105 (step 404).
  • the sound restoration unit 304 creates a restored sound S302 based on the changed sound structure information S301 and the sound characteristic information S105 (step 3002).
  • the mixed sound S1 is received using the receiving unit 302 attached to the portable videophone device 101.
  • the mixed sound separation unit 103 extracts the separated sound information S102 using the mixed sound S101 captured by the receiving unit 302 in the same manner as in the example of ⁇ I> in the first embodiment ( Corresponds to step 401 in Figure 33).
  • the sound structure analysis unit 104 creates sound structure information S103 of the announcement voice in the same manner as in the example of ⁇ I> in Embodiment 1 (in step 402 of FIG. 33). Correspondence).
  • the sound structure partial change unit 303 partially changes the sound structure information S103 created by the sound structure analysis unit 104 to create changed sound structure information S301 (corresponding to step 3001 in Fig. 33). ).
  • a part of the phoneme sequence information that is the sound structure information S103 is changed to create a sound structure that is easy for the user to understand. For example, by changing the phoneme sequence at the end of a sentence to an honorific form, or changing a local dialect to a phonetic sequence of a standard language, it is possible to restore an easy-to-understand natural sound. In this example, what is being spoken does not change.
  • the same sound characteristic region analysis unit 106 performs the same sound based on the separated sound information S102 extracted by the mixed sound separation unit 103 in the same manner as the example of ⁇ I> in Embodiment 1.
  • the same sound characteristic area information S104 is created by obtaining the area that also has the characteristic power (corresponding to step 403 in FIG. 33).
  • the sound characteristic extraction unit 107 is the same sound characteristic region analysis unit as the separated sound information S102 extracted by the mixed sound separation unit 103 in the same manner as in the example of ⁇ I> in Embodiment 1.
  • the sound characteristics of the announcement sound to be restored based on the same sound characteristic area information S104 created by 106 are extracted for each area composed of the same sound characteristics to create sound characteristic information S105 (step 40 4 in FIG. 33). Corresponding to).
  • the sound restoration unit 304 restores the announcement sound based on the modified sound structure information S301 created by the sound structure partial modification unit 303 and the sound characteristic information S105 created by the sound characteristic extraction unit 107. (Corresponds to step 3002 in Figure 33).
  • the voice of the entire announcement is restored as the restored sound S302 based on the changed sound characteristics by voice synthesis.
  • the user can listen to the restored announcement through the speaker 305.
  • FIG. 34 is a block diagram showing the overall configuration of the sound restoration apparatus of the example ⁇ VII> in Embodiment 3 of the present invention.
  • the portable videophone device 301 makes it easy to change the sound structure that the user needs from the mixed sound. ! When restoring with roar! Implement a roaring restoration function! / Speak.
  • the portable videophone 301 includes a receiving unit 302, a mixed sound separating unit 103, a sound structure analyzing unit 104B, a sound structure knowledge database 105B, a sound structure partial changing unit 303B, and the same sound characteristic region.
  • An analysis unit 106B, a sound characteristic extraction unit 107B, a sound restoration unit 304B, and a speaker 305 are provided.
  • Receiving section 302 receives mixed sound S101B and outputs the mixed sound S101B to mixed sound separating section 103.
  • the mixed sound separation unit 103 extracts the sound material restored from the mixed sound S101B as separated sound information S102B.
  • the sound structure analysis unit 104B creates sound structure information S103B of the sound to be restored based on the separated sound information S102B extracted by the mixed sound separation unit 103 and the sound structure knowledge database 105B.
  • the sound structure partial change unit 303B partially changes the sound structure information S103B created by the sound structure analysis unit 104B to create the changed sound structure information S301B.
  • the same sound characteristic region analysis unit 106B has separated sound information S102 extracted by the mixed sound separation unit 103.
  • the same sound characteristic area information S104B is created by obtaining an area having the same sound characteristic power from B.
  • the sound characteristic extraction unit 107B extracts the sound characteristics of the sound to be restored based on the same sound characteristic region information S104B created by the same sound characteristic region analysis unit 106B for each region composed of the same sound characteristics. Create characteristic information S105B.
  • the sound restoration unit 304B is based on the modified sound structure information S301B created by the sound structure partial modification unit 303B and the sound characteristic information S105B created by the sound characteristic extraction unit 107B.
  • the speaker 305 outputs the restored sound S302B created by the sound restoration unit 304B to the user.
  • ⁇ VII> in this embodiment is applied to the sound restoration function of a portable videophone device.
  • a specific example will be described.
  • a method for restoring street corner BGM from mixed sound S 101B in which street corner BGM and car horn sound overlap is described.
  • the point different from the example of ⁇ VI> is that the sound to be restored is not a voice but a musical sound.
  • the reception unit 302 attached to the portable videophone 301 is used to capture the mixed sound S101B, a street corner BGM and the sound of the car horn (see Fig. 20).
  • the mixed sound separation unit 103 extracts the separated sound information S102B using the mixed sound S101B captured by the receiving unit 302 in the same manner as the example of ⁇ II> in the first embodiment. (Corresponds to step 401 in Figure 33).
  • the sound structure analysis unit 104B creates the sound structure information S103B of the street corner B GM in the same manner as the example of ⁇ II> in Embodiment 1 (corresponding to step 402 in FIG. 33). .
  • the sound structure partial modification unit 303B partially modifies the sound structure information S 103B created by the sound structure analysis unit 104B to create modified sound structure information S301B (corresponding to step 3001 in FIG. 33).
  • the note structure information which is the sound structure information S103B
  • the note structure information S103B is changed to restore a user-friendly sound. For example, if the street corner BGM has a fast tempo for the elderly, change the note sequence information to a slow tempo.
  • the sound repetition period may be changed. For example, elderly people are hard to hear fast-cycle sounds, so you can restore the sound at a slightly slower speed! /.
  • the same sound characteristic region analysis unit 106B is identical to the example of ⁇ II> in Embodiment 1 based on the separated sound information S102B extracted by the mixed sound separation unit 103.
  • the same sound characteristic area information S104B is created by obtaining an area composed of sound characteristics (corresponding to step 403 in FIG. 33).
  • the sound characteristic extraction unit 107B is the same sound characteristic region analysis unit 106B as the separated sound information S102B extracted by the mixed sound separation unit 103 in the same manner as the example of ⁇ II> in the first embodiment.
  • the sound characteristics of street corner BGM to be restored based on the same sound characteristics area information S104B created by S is extracted for each area consisting of the same sound characteristics to create sound characteristics information S105B (corresponding to step 404 in FIG. 33) .
  • the sound restoration unit 304B restores the street corner BGM based on the changed sound structure information S 301B created by the sound structure partial change unit 303B and the sound characteristic information S105B created by the sound property extraction unit 107B. (Corresponds to step 3002 in Figure 33).
  • the sound of the entire street corner BGM is restored as the restored sound S302B based on the changed sound characteristics by tone synthesis.
  • the sound to be restored has the same sound characteristics by monitoring the change in the sound characteristics of the restored sound extracted from the mixed sound.
  • the sound characteristics are extracted using sound data (waveform data, etc.) with a relatively long time length in the time domain where the sound characteristics where the missing part is located are the same. Realistic sound characteristics can be reproduced faithfully. Furthermore, by providing a sound structure partial change section, it is possible to restore the sound with a natural sound that is easy for the user to understand.
  • the sound restoration unit may restore the sound based on the user's auditory characteristics! For example, the sound structure may be changed in consideration of auditory temporal resolution.
  • ⁇ I >> and ⁇ II >> in Embodiment 1 were used as part of the description. Sounds may be restored using part II, part II, part IV and part IV.
  • the mixed sound may include sound distorted due to transmission noise, sound collection errors, etc.!
  • the sound restoration device can be used as a device that requires a sound restoration function, such as a sound editing device, a mobile phone, a portable terminal, a video conference system, headphones, and a hearing aid.
  • a sound restoration function such as a sound editing device, a mobile phone, a portable terminal, a video conference system, headphones, and a hearing aid.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 混合音に含まれる音の一部が欠落した復元対象音を復元する音復元装置(101)は、前記混合音に含まれる復元対象音を抽出する混合音分離部(103)と、音の意味内容が登録されている音構造知識データベース(105)に基づいて、前記抽出された復元対象音の音が欠落した部分の音素系列、文字系列および音符系列のうちの少なくとも1つを作成する音構造分析部(104)と、前記抽出された復元対象音を、同一音特性を有する時間領域に区分けする同一音特性領域分析部(106)と、前記区分けされた時間領域の中から欠落された部分が位置する時間領域を特定し、当該特定された時間領域における復元対象音の音特性を抽出する音特性抽出部(107)と、前記音構造分析部(107)で作成された前記音素系列、文字系列および音符系列のうちの少なくとも1つと前記抽出された音特性とを用いて、復元対象音において欠落した部分の音を復元する音復元部(108)とを備える。

Description

明 細 書
音復元装置および音復元方法
技術分野
[0001] 本発明は、収音ミス、周囲騒音の挿入、伝送ノイズの挿入などの原因により歪んだ 音 (音声、音楽、報知音や自動車の音などの環境音を含む)を歪む前の音に復元す る音復元装置およびその方法に関するものである。
背景技術
[0002] 近年、生活空間に、街角音楽や報知音などの人工的に作成した音や自動車など の人工物が発生した音など様々な音があふれるようになり、安全性、機能性、快適性 の観点力 大きな問題となってきている。例えば、都会の駅において、発車ベル、電 車の音、周囲の人の声などでアナウンスが聞こえな力つたり、携帯電話の話し声が周 囲騒音により聞こえな力つたり、自転車のベルの音が自動車の音で聞こえな力つたり 、安全性、機能性、快適性が損なわれている。
[0003] これらの社会環境の変化を鑑みると、収音ミス、周囲騒音の挿入、伝送ノイズの挿 入などの原因により歪んだ音を自然かつ聞きやす 、音で復元して利用者に提供する ことが望まれると考えられる。その中でも特に、実際の環境で聞いて不自然さを感じさ せないために、実際の音の、声質、口調、音色、音量、残響特性、音質などの音特性 に基づ!/、て実際の音に近 、音で復元することが重要になると考えられる。
[0004] 第 1の従来の音復元方法としては、突発性雑音により歪んだ区間に前記区間に時 間的に連結した区間の音声波形を歪んだ音と入れ替えて挿入して音声を復元して いるものがあった (例えば、非特許文献 1参照)。図 1は、前記非特許文献 1に記載さ れた従来の音復元方法を示すものである。
[0005] 図 1において、音声抽出ステップ 3201では、突発性雑音の挿入により歪んだ音声 波形力も突発性雑音の区間を取り除いて音声部分を抽出していた。音声復元ステツ プ 3202では、突発性雑音の存在した直前の歪んで!/、な 、音声波形を雑音が存在し ていた位置に挿入することで音声の復元を行っていた (本発明と関連のある範囲を 示す)。 [0006] 第 2の従来の音復元方法としては、車両に搭載され、放送局から送信される道路交 通情報の電波を受信して運転者に報知する道路交通情報報知装置において、伝送 ノイズの挿入により歪んだ音声を言語分析手段により音韻系列を復元して、復元した 音韻系列を音声合成により読み上げるものがあった (例えば、特許文献 1参照)。図 2 は、前記特許文献 1に記載された従来の音復元装置を示すものである。
[0007] 図 2において、受信装置 3302は放送局 3301から送信される道路交通情報の電波 を受信して音声信号に変換していた。音声認識装置 3303は前記音声信号を音声 認識して言語データに変換していた。言語分析装置 3304は音声認識装置 3303か ら繰り返し出力される同一内容の言語データに基づいて、欠落部分の補正を行いな 力 言語分析を行っていた (本発明と関連のある範囲を示す)。音声合成器 3305は 言語分析装置 3304より復元された音韻系列により表現された交通状況の情報のう ち必要であると判断された情報を音声合成により読み上げていた。
[0008] 第 3の従来の音復元方法としては、欠落した音声パケットを、欠落以前に入力した 音声パケットの信号により欠落部に補間する音声パケット補間方式において、テンプ レートに相当するサンプル値を入力する度に、前記欠落以前に入力した音声バケツ トの信号との最適マッチング波形の算出を、非規格化差分演算処理により行い、欠 落部の音声パケットを補間して 、た (例えば、特許文献 2参照)。
[0009] 第 4の従来の音復元方法としては、パケットを用いる音声通信に関し、入力される音 声信号データ列に消失区間があるか否かを判定し、判定結果を示す第 1の信号を出 力するための判定手段と、入力される音声信号データ列に対して、音響モデルと言 語モデルとを用いて音声認識を行い、認識結果を出力するための音声認識手段と、 前記音声認識手段の認識結果から音声合成を行って、音声信号を出力するための 音声合成手段と、前記第 1の信号に応答して変化する混合比で、前記入力される音 声信号データ列と前記音声合成手段の出力とを混合して出力するための混合手段 とを含むものがあった (例えば、特許文献 3参照)。図 3は、前記特許文献 3に記載さ れた従来の音復元装置を示すものである。
[0010] 図 3において、入力部 3401は、入来する音声パケットの各々力も音声信号データ 部分を抽出して順次出力していた。音声認識部 3404は、入力部 3401から時系列 的に出力される音声信号データに対して、音声認識用音響モデル 3402と言語モデ ル 3403とを用いて音声認識を行って、認識結果として状態時系列を出力していた。 モニタ部 3407は、入来する各パケットを監視し、パケットロスが発生している力否かを 示す付随情報を音声認識部 3404に与えていた。音声合成部 3406は、音声合成用 音響モデル 3405を用いて音声認識部 3404から出力された音素系列に基づいて音 声合成を行い、デジタルの音声信号を出力していた。ノ ッファ 3408は、入力部 340 1からの出力を蓄積していた。信号混合部 3409は、モニタ部 3407に制御されて、パ ケットロスに対応する期間では音声合成部 3406の出力のみを、それ以外の期間で はバッファ 3408の出力のみを選択して出力していた。
非特許文献 1 :野口、外 3名、 "1チャネル入力信号中の突発性雑音の判別と除去"、
2004年 3月、日本音響学会講演論文集、 pp. 665 - 656
特許文献 1:特開 2000— 222682号公報 (請求項 2、第 1図)
特許文献 2:特開平 2— 4062号公報 (請求項 1)
特許文献 3 :特開 2004— 272128号公報 (請求項 1、第 1図)
発明の開示
発明が解決しょうとする課題
[0011] し力しながら、前記第 1の従来の構成では、復元する音が繰り返し波形であることが 前提であり、し力もその一部分のみが消失したというごく稀な場合にしか音を復元す ることができない。繰り返し波形で表現できない実環境に存在する多くの一般的な音 や、復元する音が全体的に歪んだ場合に対して音を復元することができないという課 題を有していた。
[0012] 前記第 2の従来の構成では、歪んだ音を復元するときに言語分析により音構造に 関する知識を用いて音韻系列に関して復元を行うため、繰り返し波形でない一般的 な音や復元する音が全体的に歪んだ場合に対しても言語的に復元することが可能と なる。しかしながら、実際の音の、話者性、声質などの音特性情報に基づいて実際の 音に近!、音で復元すると!、う概念がな 、ため、実際の環境で聞!、て自然な音を復元 することができないという課題を有していた。たとえば、 Dj (Disc Jockey)の声をこの 方法で復元すると、音声合成器に蓄積された他の人の声で復元されてしまう。 [0013] 前記第 3の従来の構成では、波形レベルのパターンマッチングで欠落部分の音を 作成しているため、波形が変化する区間全体が欠落した場合に欠落部分の音を復 元することができないという課題を有していた。たとえば、「こんにちは」という発声に おいて「こ X Xちは」(「X」は音韻が欠落した部分を示す)のように複数の音韻が欠 落した場合に復元することができな力つた。
[0014] 前記第 4の従来の構成では、言語モデルと 、う音構造に関する知識を用いて!/、る ため、複数の音韻が欠落しても前後のコンテキストから復元する音の音韻系列を推 定して言語的に復元することできる。し力しながら、入力音声から、声質、口調、音量 、残響特性などの音特性を抽出して、抽出した音特性に基づいて音声を復元すると いう概念がないため、同じ人の声でも気分や疲れ方により時々刻々と声質や口調な どが変化する場合に現実の音特性に忠実な音声を復元することができな 、と 、う課 題を有していた。
[0015] これらの従来の技術の構成では、繰り返し波形でない実世界に存在する一般的な 音が歪んだ場合に、実際の音特性で歪む前の音を復元することができな力つた。
[0016] 本発明は、前記従来の課題を解決するもので、収音ミス、周囲騒音の挿入、伝送ノ ィズの挿入などの原因により歪んだ音 (音声、音楽、報知音や自動車の音などの環 境音を含む)を歪む前の音に復元する音復元装置等を提供することを目的とする。 課題を解決するための手段
[0017] 本願発明者らは、実環境での音は、「Aさんが話した後に Bさんが話す」、「Aさんと Bさんが同時に話す」など複数の人の声が存在し、同じ人の声でも気分や疲れ方に より時々刻々と声質や口調などが変化し、環境音なども周りの環境の変化により音量 や残響特性などが時々刻々と変化するという事実に着目することが重要であることに 気づいた。このような状況では、実環境に存在する全ての音特性を事前に記憶して おくことは困難であり、混合音に含まれる復元対象音を抽出して、抽出した復元対象 音力も復元したい音の実際の音特性を抽出する必要がある。しかし、音特性を精度 良く抽出するためには比較的時間長が長い波形データが必要となるため、単純に復 元対象音の欠落部分における時間的近傍の音のみを用いて音特性を抽出して復元 すると復元対象音が歪んでしまう。また、復元音の欠落部分における時間的近傍が 音特性の変化点である場合に、現実の音特性と異なる音特性を抽出することになる。 そこで、混合音力も抽出した復元対象音に対して音特性の変化を監視して、復元対 象音を音特性が同一である時間領域で区分けする。すなわち、復元対象音を音特 性が異なる時刻で分割するとともに、音特性が同一である時間領域ごとに分類する。 欠落した部分が位置する音特性が同一である時間領域において、比較的時間長が 長い音データ (波形データ等)を用いて音特性を抽出することにより、現実の音特性 を忠実に再現することができる。この音特性が同一である時間領域は刻々と状況が 変わる混合音中の復元対象音の性質に依存して変化するため、実際に入力された 混合音中の復元対象音に対してその都度求める必要がある。
[0018] 本発明に係る音復元装置は、混合音に含まれる、音の一部が欠落した復元対象音 を復元する音復元装置であって、前記混合音に含まれる復元対象音を抽出する混 合音分離手段と、音の意味内容が登録されている音構造知識データベースに基づ いて、前記抽出された復元対象音の音が欠落した部分の音素系列、文字系列およ び音符系列のうちの少なくとも 1つを作成する音構造分析手段と、前記抽出された復 元対象音を、同一の音特性を有する時間領域に区分けする同一音特性領域分析手 段と、前記区分けされた時間領域の中から欠落された部分が位置する時間領域を特 定し、当該特定された時間領域における復元対象音の音特性を抽出する音特性抽 出手段と、前記音構造分析手段で作成された前記音素系列、文字系列および音符 系列のうちの少なくとも 1つと前記抽出された音特性とを用いて、復元対象音におい て欠落した部分の音を復元する音復元手段とを備える。
[0019] 本構成によると、音の意味内容が登録されている音構造知識データベースを用い て音構造情報、すなわち音素系列、文字系列および音符系列のうちの少なくとも 1つ を作成するとともに、当該音構造情報に基づいて音を復元する。このため、幅広い一 般的な音 (音声、音楽、環境音を含む)を復元することができる。それとともに、復元 対象音において欠落した部分の音を、同一音特性を有する時間領域における復元 対象音の音特性に基づいて復元しているため、実際の音特性に忠実な音の復元、 すなわち、復元対象音が歪む前または欠落する前の音を復元することができる。
[0020] 好ましくは、前記同一音特性領域分析手段は、声質の変化、口調の変化、音色の 変化、音量の変化、残響特性の変化および音質の変化のうちの少なくとも 1つに基づ いて、音特性が同一である時間領域を決定する。
[0021] これによつて、同一音特性を有する時間領域を正確に求めることができる。このため 、高い精度で音特性情報を作成することができ、ひいては、復元対象音を正確に復 元することができる。
[0022] さらに好ましくは、前記音復元手段は、前記欠落した部分の音と前記欠落した部分 以外の音とを合わせた復元対象音全体を、前記音構造分析手段で作成された前記 音素系列、文字系列および音符系列のうちの少なくとも 1つと前記抽出された音特性 とを用いて復元する。
[0023] この構成によると、欠落した部分の音と欠落した部分以外の音とを、同じ音特性を 用いて復元している。このため、欠落した部分と欠落していない部分との間で整合性 が高 、音を復元することができる。
発明の効果
[0024] 本発明の音復元装置によれば、幅広い一般的な音 (音声、音楽、環境音を含む)を 復元することができ、さらに、実際の音の音特性に対して忠実に復元することができる ため、その実用価値は極めて高い。
図面の簡単な説明
[0025] [図 1]図 1は、第 1の従来の音復元方法を説明する図である。
[図 2]図 2は、第 2の従来の音復元方法を説明する図である。
[図 3]図 3は、第 4の従来の音復元方法を説明する図である。
[図 4]図 4は、本発明の実施の形態 1における音復元装置の全体構成を示すブロック 図である。
[図 5]図 5は、本発明の実施の形態 1における音復元装置の処理の流れを示すフロー チャートである。
[図 6]図 6は、混合音と分離音情報の一例を示す図である。
[図 7]図 7は、分離音情報の一例を示す図である。
[図 8]図 8は、音構造情報の作成方法の一例を示す図である。
[図 9]図 9は、音構造情報の作成方法の一例を示す図である。 [図 10]図 10は、同一音特性領域情報の一例を示す図である。
[図 11]図 11は、音特性情報の一例を示す図である。
[図 12]図 12は、音特性情報の一例を示す図である。
[図 13]図 13は、本発明の実施の形態 1における音復元装置の別の全体構成を示す ブロック図である。
[図 14]図 14は、本発明の実施の形態 1における音復元装置の処理の別の流れを示 すフローチャートである。
[図 15]図 15は、本発明の実施の形態 1における音復元装置の別の全体構成を示す ブロック図である。
[図 16]図 16は、混合音の一例を示す図である。
[図 17]図 17は、分離音情報の一例を示す図である。
[図 18]図 18は、分離音情報の一例を示す図である。
[図 19]図 19は、本発明の実施の形態 1における音復元装置の別の全体構成を示す ブロック図である。
圆 20]図 20は、混合音と分離音情報の一例を示す図である。
[図 21]図 21は、同一音特性領域情報の一例を示す図である。
[図 22]図 22は、本発明の実施の形態 1における音復元装置の別の全体構成を示す ブロック図である。
[図 23]図 23は、混合音の一例を示す図である。
[図 24]図 24は、本発明の実施の形態 1における音復元装置の別の全体構成を示す ブロック図である。
[図 25]図 25は、混合音の一例を示す図である。
[図 26]図 26は、分離音情報の一例を示す図である。
[図 27]図 27は、分離音情報の一例を示す図である。
[図 28]図 28は、同一音特性領域情報の一例を示す図である。
[図 29]図 29は、本発明の実施の形態 2における音復元装置の全体構成を示すプロ ック図である。
[図 30]図 30は、本発明の実施の形態 2における音復元装置の処理の流れを示すフ ローチャートである。
[図 31]図 31は、本発明の実施の形態 2における音復元装置の別の全体構成を示す ブロック図である。
[図 32]図 32は、本発明の実施の形態 3における音復元装置の全体構成を示すプロ ック図である。
[図 33]図 33は、本発明の実施の形態 3における音復元装置の処理の流れを示すフ ローチャートである。
[図 34]図 34は、本発明の実施の形態 3における音復元装置の別の全体構成を示す ブロック図である。 符号の説明
101 ヘッドホン装置
102 マイク
103 103A、 103D 混合音分離部
104 104B、 104D 音構造分離部
105 105B、 105D 音構造知識データベース
106 106Z、 106A、 106B、 106D 同一音特性領域分析部
107 107A、 107B、 107C、 107D 音特性抽出部
108 204、 304、 108A、 108B、 108C、 108D、 204B、 304B 音復元部 109 206、 305 スピーカ
201
202 データ読み取り部
203 203B 音特性一部変更部
205
301 携帯型テレビ電話装置
302 受信部
303 303B 音構造一部変更部
5101、 S101A、 S101B、 S101C、 S101D 混合音
5102、 S102A、 S102B、 S102C、 S102D 分離音情報 5103、 S103A、 S103B、 S103C、 S103D 音構造情報
5104、 SI 04 A, S104B、 S104C、 S104D 同一音特性領域情報
5105、 S105A、 S105B、 S105C、 S105D 音特性情報
5106、 S202、 S302、 S106A、 S106B、 S106C、 S106D、 S202B、 S302B 復元音
S201、 S201B 変更音特性情報
S301、S301B 変更音構造情報
3301 放送局
3302 受信装置
3303 音声認識装置
3304 言語分析装置
3305 音声合成器
3306 スピーカ
3401 入力部
3402 音声認識用音響モデル
3403 言語モアル
3404 音声認識部
3405 音声合成用音響モデル
3406 音声合成部
3407 モニタ部
3408 ノッファ
3409 信号混合部
発明を実施するための最良の形態
[0027] 以下本発明の実施の形態について、図面を参照しながら説明する。なお、図中同 一または相当部分には同一符号を付し、その説明は繰り返さない。
[0028] (実施の形態 1)
図 4は、本発明の実施の形態 1における音復元装置の全体構成を示すブロック図 である。ここでは、本発明に係る音復元装置がヘッドホン装置 101に組み込まれた例 を用いて説明する。
[0029] 以下の説明では、復元する音として、〈I〉音声を復元する場合、〈II〉楽音を復元する 場合、〈III〉重なった 2種類の音 (音声と環境音)を復元する場合について述べる。ま た、音を復元する方法として、〈i〉欠落部分のみを復元する方法、く ii〉欠落部分を含 む全体の音を復元する方法、について述べる。
[0030] 図 4において、ヘッドホン装置 101は、携帯電話、携帯型音楽ステレオ、補聴器な どの機能を付加して利用することも可能であり、混合音の中から利用者が必要とする 音を復元するという音復元機能を実装している。ヘッドホン装置 101は、マイク 102と 、混合音分離部 103と、音構造分析部 104と、音構造知識データベース 105と、同一 音特性領域分析部 106と、音特性抽出部 107と、音復元部 108と、スピーカ 109と、 を備える。
[0031] ヘッドホン装置 101は、混合音に含まれる、音の一部が欠落した復元対象音を復 元する音復元装置の一例である。混合音分離部 103は、前記混合音に含まれる復 元対象音を抽出する混合音分離手段の一例である。音構造分析部 104は、音の意 味内容が登録されている音構造知識データベース 105に基づいて、前記抽出された 復元対象音の音が欠落した部分の音素系列、文字系列および音符系列のうちの少 なくとも 1つを作成する音構造分析手段の一例である。同一音特性領域分析部 106 は、前記抽出された復元対象音を、同一音特性を有する時間領域に区分けする同 一音特性領域分析手段の一例である。音特性抽出部 107は、前記区分けされた時 間領域の中から欠落された部分が位置する時間領域を特定し、当該特定された時 間領域における復元対象音の音特性を抽出する音特性抽出手段の一例である。音 復元部 108は、前記音構造分析手段で作成された前記音素系列、文字系列および 音符系列のうちの少なくとも 1つと前記抽出された音特性とを用いて、復元対象音に おいて欠落した部分の音を復元する音復元手段の一例である。なお、「音素系列」と は、音素の系列以外にも、音韻の系列等も含む。また、「文字系列」とは、文字の系 列以外にも、単語の系列、文章の系列等も含む。さらに、「音符系列」とは、後述する ように、音楽における音符の系列を示す。
[0032] 以下、ヘッドホン装置 101を構成する各処理部について具体的に説明する。 [0033] マイク 102は、混合音 S101を入力して混合音分離部 103へ出力する。 混合音分離部 103は、混合音 S101から復元する音の材料、すなわち分離された 音の波形に関する情報および音の欠落に関する情報を分離音情報 S102として抽出 する。
[0034] 音構造分析部 104は、混合音分離部 103が抽出した分離音情報 S102と音構造知 識データベース 105とに基づいて復元する音の意味的内容を示す音構造情報 S10
3を作成する。なお、波形に関する情報には、時間軸上の音波形のみならず、後述 するスペクトログラムち含む。
[0035] 同一音特性領域分析部 106は、混合音分離部 103が抽出した分離音情報 S102 力も同一の音特性力もなる領域を求めて同一音特性領域情報 S104を作成する。音 特性とは、音の表現方法に対応する。また、請求項における「区分け」力 同一の音 特性力もなる領域を求めることに相当する。
[0036] 音特性抽出部 107は、同一音特性領域分析部 106が作成した同一音特性領域情 報 S104に基づいて復元する音の音特性を同一の音特性よりなる領域ごとに抽出し て音特性情報 S105を作成する。
[0037] 音復元部 108は、音構造分析部 104が作成した音構造情報 S103および音特性 抽出部 107が作成した音特性情報 S105に基づいて復元音 S106を作成する。
[0038] スピーカ 109は、音復元部 108が作成した復元音 S106を利用者へ出力する。
[0039] 図 5は、本発明の実施の形態 1における音復元装置の処理の流れを示すフローチ ヤートである。
[0040] はじめに、混合音分離部 103は、混合音 S101から復元する音の材料を分離音情 報 S102として抽出する (ステップ 401)。次に、音構造分析部 104は、抽出した分離 音情報 S102と音構造知識データベース 105とに基づいて音構造情報 S103を作成 する (ステップ 402)。また、同一音特性領域分析部 106は、抽出した分離音情報 S1 02から同一の音特性力も成る領域を求めて同一音特性領域情報 S104を作成する( ステップ 403)。そして、音特性抽出部 107は、同一音特性領域情報 S 104に基づい て復元する音の音特性を同一の音特性より成る領域ごとに抽出して音特性情報 S10 5を作成する (ステップ 404)。最後に、音復元部 108は、音構造情報 S103と領域ご との音特性情報 S105とに基づいて復元音 S106を作成する (ステップ 405)。
[0041] 次に、本実施の形態をヘッドホン装置 101の音復元機能に適用した具体例につい て説明する。ここでは、いろいろな人の話し声や、自転車のベルの音、自動車の走る 音、電車の音、駅のホームでのアナウンスやチャイムの音、街角音楽などが交じり合 つた混合音から利用者が必要とする音を復元する場合を例として考える。
[0042] 〈I〉音声を復元する場合
<i>欠落部分の音声を復元する方法
利用者は、駅のホームで自分の乗る電車がホームに何時に到着するのかを確認す るために駅のアナウンスに耳を傾けている。し力し、突然チャイムがなりアナウンスの 音声が部分的に欠落してしまっている。そこで本発明の音復元装置を用いることでァ
Figure imgf000014_0001
ヽて述べる。
[0043] この例では、図 4において、混合音 S101は、アナウンスの音声とチャイムが重なつ た混合音であり、復元したい復元音 S106は、アナウンスの音声である。音構造知識 データベース 105は、音素辞書、単語辞書、形態素辞書、言語連鎖辞書、シソーラ ス辞書、用例辞書から構成される。同一音特性領域分析部 106は、音素の区切り、 単語の区切り、文節の区切り、文章の区切り、発話内容の区切り、発声の区切りに基 づいて、同一の音特性力も成る領域を決定する。その他にも、同一音特性領域分析 部 106は、声質の変化、口調の変化、音色の変化、音量の変化、残響特性の変化、 音質の変化等に基づいて、音特性が同一である時間領域を決定してもよい。
音復元部 108は、復元する音の欠落部分の音を、音構造情報 S103および音特性 情報 S105に基づいて復元を行い、それ以外の音を、分離音情報 S102を用いて作 成する。
[0044] はじめに、ヘッドホン装置 101に装着されたマイク 102を用いて混合音 S101である アナウンスの音声とチャイムが重なった音を取り込む。図 6 (a)に、アナウンスの音声と チャイムが重なった混合音を模式的に図示した例を示す。この例では、チャイムによ り、アナウンスの音声である「つぎは〜おおさか〜おおさか〜」という音声が部分的に 欠落してしま 、、図 6 (b)に示すように「つぎは〜國國さか〜國おさ國」 t 、う音声に歪 んでしまっている。ここでは、歪まずに聞こえている音声はそのままの音を利用して、「 國」が示す欠落部分の音声を復元する。
[0045] まず、混合音分離部 103は、マイク 102が取り込んだ混合音 S101を用いて分離音 情報 S 102を抽出する(図 5のステップ 401に対応)。ここでは、分離音情報 S102とし て、復元する音であるアナウンスの音声の成分を抽出した音声波形とアナウンスの音 声の欠落区間情報とを抽出する。ここでは、混合音を周波数分析して、パワーの立ち 上がり、立ち下り、特定の周波数帯域のパワーの変化などによりチャイムが挿入され た時間を検出する。チャイムは音声と異なり全周波数帯域で一定のパワーをもった めこの特性を利用してチャイムが挿入された時間を検出する。そして、チャイムが挿 入されなかった時間の混合音 (アナウンスの音声、波形情報)とチャイムが挿入された 時間フレーム情報 (欠落区間フレーム)とを分離音情報 S102として抽出する(図 6 (c )を参照)。
[0046] なお、聴覚情景分析、独立成分分析、複数のマイクを用いたアレイ処理を利用して 分離音情報 S102を抽出してもよい。また、図 7に示すように、分離音情報 S102の一 部として、波形情報の代わりに、周波数分析を行ったあとのスペクトログラム上での情 報 (たとえば、 [時間情報,周波数情報,パワー]の組)で表現してもよい。
[0047] 次に、音構造分析部 104は、混合音分離部 103が抽出した分離音情報 S102と、 音素辞書、単語辞書、形態素辞書、言語連鎖辞書、シソーラス辞書および用例辞書 力も構成された音構造知識データベース 105とに基づ 、て、アナウンスの音声の音 構造情報 S 103を作成する(図 5のステップ 402に対応)。ここでは、音構造情報 S10 3として、アナウンスの音声の音韻系列情報を作成する。まず、図 6 (c)に示すような 分離音情報 S102の一部である抽出されたアナウンスの音声波形を特徴量分析して 音声認識で用いられるケプストラム係数に変換する。次に、変換されたケプストラム係 数を用いて音声認識を行う。ケプストラム係数を、事前に多くの音声データで学習さ れた隠れマルコフモデルで構成された音素辞書に入力して各音素モデルとの尤度 を計算する。そして、計算された尤度に基づいて各音素の可能性を考慮して、駅の ホームで利用される単語が登録された単語辞書と、連続する単語間の形態素のルー ルが記述された形態素辞書と、駅のホームで利用する発話内容から作成された N-グ ラムと 、う確率モデルで表現された言語連鎖辞書と、単語の置き換えができるように 類似単語を登録したシソーラス辞書と、複数のアナウンスの発声内容が登録された 用例辞書とを用いて、一番可能性の高い音韻系列を決定する。そして、音韻系列情 報 (音構造情報 S 103)を作成する。
[0048] 図 8に、分離音情報 S 102より音構造情報 S 103を作成する例が示されている。ここ では、チャイムにより、アナウンスの音声である「つぎは〜おおさか〜おおさか〜」とい う音声が部分的に欠落してしま 、、「つぎは〜國國さか〜國おさ國」 t 、う音声に歪ん でしまっている分離音情報 S102から、音構造知識データベース 105を用いることで 、「つぎは〜おおさか〜おおさか〜」と 、う音韻系列情報を復元して!/、る例が示され ている。
[0049] また、図 9には、音韻系列情報を求める別の例が示されている。図 9 (a)に示すよう に、単語辞書を用いることで、「こんに國は」を「こんにちは」と決定することができ、「し ん國國園ん」を「しんかんせん」と決定することができる。また、図 9 (b)に示すように、 用例辞書を用いることで、「信号の色は赤と園と黄色だ」を「信号の色は赤と青と黄色 だ」と決定することができ、「サルも國國國落ちる」を「サルも木力も落ちる」と決定する ことができる。
[0050] なお、ミシングフューチャーという、欠落部分の波形情報は利用せずに尤度を一定 として音声認識モデルとマッチングして音韻系列を求めるという音声認識の手法を用 いてもよい。また、この例では 6種類の辞書を全て利用した力 その一部のみを利用 してもよい。また、音構造知識データベースを必要に応じて更新してもよい。
[0051] 次に、同一音特性領域分析部 106は、混合音分離部 103が抽出した分離音情報 S 102に基づいて同一の音特性力も成る領域を求めて同一音特性領域情報 S104を 作成する(図 5のステップ 403に対応)。ここでは、音素の区切り、単語の区切り、文節 の区切り、文章の区切り、発話内容の区切り、発声の区切りに基づいて、同一の音特 性から成る領域を決定して同一音特性領域情報 S104を作成する。まず、分離音情 報 S102を用いて音構造分析部 104と同様にして音韻系列情報を作成する。この音 韻系列情報に基づいて音素の区切り、単語の区切り、文節の区切り、文章の区切り を決定することができる。このとき、同一音特性領域分析部 106の内部に音構造デー タベースを蓄積しておく。たとえば、音素の区切りを [フレーム,音素の種類]として表 現することができる。また、単語の区切りを「次」「は」「大阪」「大阪」のように表現する ことができる。また、文節の区切りを「次は」「大阪」「大阪」のように表現することができ る。また、音韻系列情報と用例辞書とに基づいて、発声内容の区切りを決定すること ができる。たとえば、同じ発声内容の用例をグループ化しておいて、音韻系列情報よ り発声した内容がどのグループに属するかを検出しておいて、グループが変わった 場合に発声内容が変化したとして、発声内容の区切りを決定することができる。また、 音声の周波数帯域において無音区間を検知することで発声の区切りを決定すること ができる。これらの区切り情報に基づいて、音特性が同一である領域の情報を示す 同一音特性領域情報 S 104を作成する。
[0052] 図 10に、同一音特性領域情報 S 104の例を示す。図 10 (a)は、音特性が同一であ る領域を音素の区切りとして表現したものである。例えば、フレーム 2〜3は、音素が「 ZuZ」であり、声質が同一であることを示している。図 10(b)は、音特性が同一であ る領域を単語の区切りにより表現したものである。例えば、フレーム 1〜10が 1つの同 一音特性領域であり、「次」という単語が含まれていることを示している。図 10 (c)は、 音特性が同一である領域を時間と文章とにより表現したものである。例えば、 1秒目 から 5秒目までが 1つの同一音特性領域であり、その間の文章が「次は大阪大阪」で あることを示している。また、図 10(d)で示すように、抽出したい音特性ごとに、音特 性が同一である領域を決定してもよい。たとえば、音特性を声質とした場合の同一音 特性領域、音特性を口調とした場合の同一音特性領域、音特性を話者性、性別特 性、声年齢、音量、残響特性、音質とした場合の同一音特性領域などを同時に決定 してちよい。
[0053] このように、アナウンスの音声は、話し方の抑揚が大きく変化し、鼻にかけた発声な ど音素ごとに特殊な特性を持ち、話す内容によっても声の特性が変化する。このよう に、たとえ同じ人の発声であっても音特性は時々刻々変化する。そのため、音素単 位、単語単位、文節単位、文章単位、発声内容単位、発声単位などで、同一の音特 性力 成る領域を決定して力 音特性を抽出して音を復元することは極めて重要で ある。
[0054] なお、ここでは、音素の区切り、単語の区切り、文節の区切り、文章の区切り、発話 内容の区切り、発声の区切り、の全てを用いて同一音特性領域情報を作成したが、 その一部を用いて同一音特性領域情報を作成してもよ 、。
[0055] 次に、音特性抽出部 107は、混合音分離部 103が抽出した分離音情報 S102と同 一音特性領域分析部 106が作成した同一音特性領域情報 S104とに基づいて復元 するアナウンスの音声の音特性を同一の音特性より成る領域ごとに抽出して音特性 情報 S 105を作成する(図 5のステップ 404に対応)。ここでは、誰の声であるか、男性 の声か女性の声か、子供の声か高齢者の声か、透き通った声かダミ声か風邪を引い たときの声か、優しい口調力怒った口調の声力、叫び声かひそひそ声か、残響が大 きいか小さいか、音質が高いか低いかなどの音特性を抽出する。ここでは、復元する アナウンスの音声の、話者性、性別特性、声年齢、声質、口調、音量、残響特性、音 質を領域ごとに抽出して音特性情報 S105を作成する。ここでは、音特性情報 S105 として、同一音特性領域情報 S104に基づいた領域ごとに、音声合成で利用する基 本周波数 F0、パワー、スペクトルレート、スペクトルの特徴を抽出する。ここでは、図 6 (c)に示す分離音情報3102 (図11 (&) )と、図 10 (b)の同一音特性領域情報 S104 (図 11 (b) )とを用いて説明する。まず、図 11 (b)に示す同一音特性領域情報 S104 に基づいて、同一の音特性から成る領域に分割する。ここでは、図 11 (c)に示される ようにフレーム 1〜10の領域、フレーム 11〜15の領域、フレーム 16〜32の領域、フ レーム 33〜55の 4つの領域に分割される。次に分割された各領域において、分離音 情報 S102の一部である欠落区間以外のフレームの音声波形情報を用いて音特性 を抽出する。ここでは、図 11 (a)に示すように、欠落部分は、フレーム 16〜21、フレ ーム 33〜36、フレーム 49〜55の 3箇所である。図 11 (d)に、音特性情報 S105の例 を示す。この例では、分割された領域ごとに F0、パワー、スペクトルレート、スペクトル の特徴が決定されている。例えば、 3番目の領域「領域 3」の音特性 (F0、パワー、ス ベクトルレート、スペクトル)は、領域 3に含まれる欠落していない部分の音特性 Aであ るものとして決定される。
[0056] なお、同一音特性領域情報 S104として図 10 (d)を用いたときは、図 12に示すよう に音特性ごとに領域が異なる音特性情報 S105が作成される。この例では、 F0、パヮ 一、スペクトルレート、スペクトルの特徴という音特性ごとに、音特性を抽出する領域 が異なっている。ここで、 F0は、話者性、性別特性、口調などを表現できるパラメータ であり、パワーは、音量などを表現できるパラメータであり、スペクトルレートは、口調 などを表現できるパラメータであり、スペクトルの特性は、話者性、性別特性、声年齢 、声質、口調、音質などを表現できるパラメータである。なお、残響特性は、残響特性 を測定する装置を別途付属して計測して利用してもよい。なお、音特性抽出部 107 は、欠落部分を含まない領域での音特性を抽出せず、音特性情報 S105に欠落部 分を含まな ヽ領域での音特性情報を記載しなくてもょ ヽ。
[0057] このように、混合音から抽出した復元対象音の波形成分 (分離音情報)に対して音 特性の変化を監視することで、音特性が同一である時間領域を示す同一音特性領 域情報を作成して、音特性が同一である時間領域における比較的時間長が長い波 形データを用いて音特性を抽出することで、高い精度で混合音の中の復元対象音を 復元することが可能となる。
[0058] 次に、音復元部 108は、音構造分析部 104が作成した音構造情報 S103と音特性 抽出部 107が作成した音特性情報 S105とに基づいてアナウンスの音声を復元する (図 5のステップ 405に対応)。ここでは、音復元部 108は、音声合成により、アナゥン スの欠落した部分の音声を合成音声により復元する。まず、分離音情報 S102を用い て欠落部分のフレーム (欠落区間)を決定する(図 6 (c)を参照)。ここでは、欠落部分 は、フレーム 16〜21、フレーム 33〜36、フレーム 49〜55の 3箇所である。次に、音 特性情報 S105に基づいて欠落部分の音特性は、欠落部分を含む領域の音特性に より決定される。図 11の例の場合は、「國國さ力」の園の欠落部分の音特性は「さ力」 力も抽出された音特性 Aを用いる。次に、音構造情報 S103に基づいて、欠落部分 の音韻系列情報と、欠落部分を含む単語より欠落部分のアクセント情報とを決定し、 欠落部分を含む発声情報から欠落部分のイントネーション情報を決定する。図 11の 例の場合は、「國國さか」の欠落部分の音韻系列「おお」であり、欠落部分を含む単 語「おおさか」から「おお」のアクセント情報を決定する。また、欠落部分を含む発声情 報「つぎはおおさかおおさか」から「おお」のイントネーション情報を決定する。そして 、欠落部分の音特性 (FO、パワー、スペクトルレート、スペクトルの特徴)と、欠落部分 の音韻系列情報と、アクセント情報と、イントネーション情報とに基づいて、音声合成 により欠落部分の音声を復元する。そして、分離音情報 S102を用いて、欠落部分以 外のアナウンスの音声を作成して欠落部分の復元された音声と結合することでァナウ ンスの音声を復元する。すなわち、「國國さ力」の園の部分を音声合成で復元して「さ 力」の部分はマイク 102が取り込んだ音をそのまま利用する。
[0059] なお、音声を復元する方法として、抽出した音特性に基づいて、欠落部分の音特 性と音韻系列情報との類似度が高い波形を波形データベース(図示せず)、すなわ ち音のテンプレートから選択して音声を復元してもよい。これにより、欠落部分が多い 場合でも波形データベースにより音特性をより精度よく推定できるため、精度のよい 音声を復元することができる。また、選択した波形を実際の音特性や欠落部分の周 囲の音声に基づ 、て学習により修正して欠落部分の音を復元してもよ 、。このとき、 音声合成により音を復元した場合は、一般的な音声合成の使い方とは異なり、音韻 系列情報だけでなく欠落部分以外の実際の音声が存在するため、その音声に合うよ うにチューニングすることができ、精度のよい音声を復元することができる。また、音特 性抽出部 107が抽出した音特性情報 S105に加えて、復元したい音の事前情報を用 いて音特性を推定して音声を復元してもよい。たとえば、アナウンスを発声する人の 声の音特性を事前にヘッドホン装置 101にダウンロードしておいて、その音特性も参 考にして音声を復元してもよい。たとえば、人の声の基本的な音特性を事前にヘッド ホン装置 101に記憶しておいて利用してもよい。これにより、精度のよい音声を復元 することができる。
[0060] このように、欠落部分以外の音声にっ 、ては、復元対象音の波形をそのまま利用 するため、高い精度で音復元を行なうことができる。
[0061] 最後に、スピーカ 109を介して、利用者は復元されたアナウンスの音声を聞くことが できる。
[0062] なお、同一音特性領域分析部 106は、図 13に示すように、同一音特性領域分析部 106Zとして、音構造分析部 104が作成した音構造情報 S103を用いて同一音特性 領域情報 S 104を作成してもよ 、。
[0063] 図 14に、この場合の音復元処理のフローチャートを示す。はじめに、混合音分離部 103は、混合音 S 101から復元する音の材料を分離音情報 S 102として抽出する (ス テツプ 1301)。次に、音構造分析部 104は、抽出した分離音情報 S102と音構造知 識データベース 105とに基づいて音構造情報 S103を作成する (ステップ 1302)。次 に、同一音特性領域分析部 106Zは、音構造情報作成処理 (ステップ 1302)で求め た音構造情報 S103に基づいて抽出した分離音情報 S102から同一の音特性力も成 る領域を求めて同一音特性領域情報 S104を作成する (ステップ 1303)。そして、音 特性抽出部 107は、同一音特性領域情報 S104に基づいて復元する音の音特性を 同一の音特性より成る領域ごとに抽出して音特性情報 S105を作成する (ステップ 13 04)。最後に、音復元部 108は、音構造情報 S103と領域ごとの音特性情報 S105と に基づいて復元する音を作成する (ステップ 1305)。同一音特性領域分析部 106Z は、音構造分析部 104が作成した音構造情報 S103を用いて、音素の区切り、単語 の区切り、文節の区切り、文章の区切り、を決定することができるため、計算量を大幅 に削減できる。
[0064] く ii〉欠落部分を含む全体の音声を復元する方法
利用者は、交差点で友達 2人と話しをしている。しかし、自動車の騒音や周りの人の 話し声などで友達の音声が聞こえに《なっているものとする。そこで本発明の音復 元装置を用いることで友達 2人の音声を復元する方法につ 、て述べる。この例では、 図 4において、混合音 S101に対応するものは、友達の話し声と、自動車の騒音や周 囲の人の声が重なった混合音であり、復元音 S106に対応するものは、友達 2人の話 し声である。〈I〉の 〉の例と異なる点は、混合音分離部 103の動作、同一音特性領 域分析部 106の動作、音特性抽出部 107の動作、音復元部 108の動作である。そこ で、図 15に示すように、混合音分離部 103を混合音分離部 103A、同一音特性領域 分析部 106を同一音特性領域分析部 106A、音特性抽出部 107を音特性抽出部 1 07A、音復元部 108を音復元部 108Aとする。音復元部 108Aは、欠落した部分の 音と欠落した部分以外の音とを合わせた復元対象音全体を、上述の音構造分析手 段で作成された音素系列、文字系列および音符系列のうちの少なくとも 1つと抽出さ れた音特性とを用いて復元する音復元手段の一例である。
[0065] また、混合音 S101を混合音 S101A、分離音情報 S102を分離音情報 S102A、音 構造情報 S103を音構造情報 S103A、同一音特性領域情報 S104を同一音特性領 域情報 S104A、音特性情報 S105を音特性情報 S105A、復元音 S106を復元音 S 106Aとする。ここでの音復元部 108Aは、復元する音の欠落部分 (歪んだ部分を含 む)を含む全体の音を、音構造情報 S103Aおよび音特性情報 S105Aに基づいて 復元を行う。このとき、全体の音のバランス情報に基づいて音全体を復元する。すな わち、歪んで 、な 、部分も合わせて修正することで音全体を復元する。
[0066] はじめに、ヘッドホン装置 101に装着されたマイク 102を用いて混合音 S101Aを取 り込む。図 16に、混合音 S101Aを模式的に図示した例を示す。この例では、男友達 Aが元気よく「何食べる」と聞いたあとに、女友達 Bが元気よく「フランス料理」と答えた がそのあと女友達 Bがフランス料理の値段が高 、と知って落胆して「だけど高すぎる ね」と答えた例が示されている。また、 2人の話し声は、自動車の騒音や周囲の人の 声で部分的に欠落しており、さらに全体的にところどころ歪んで 、る。
[0067] まず、混合音分離部 103Aは、マイク 102が取り込んだ混合音 S101Aを用いて分 離音情報 S102Aを抽出する(図 5のステップ 401に対応)。ここでは、音の波形の局 所的な構造を利用して音を分離する聴覚情景分析技術により、友達 2人の話し声を 抽出した音声波形を分離音情報 S102Aの一部として抽出する。このとき、抽出した 音声のパワーなどに基づいて、抽出した音声の歪み度合いも合わせて分離音情報 S 102Aとして抽出する。図 17に、分離音情報 S102Aの例を示す。この例では、フレ ームごとの音声波形と歪み度合 、とのペアを分離音情報 S 102Aとして 、る。ここで は、歪み度合い「0. 0」は歪みなし、歪み度合い「1. 0」は欠落部分を意味している。 すなわち、歪み度合いは、音声波形の信頼度合いに対応する。
[0068] なお、分離音情報 S102の一部として、図 18に示すように、波形ではなぐ周波数 分析を行ったスペクトログラム上での [時間情報,周波数情報,パワー]の組で表現し てもよい。たとえば、自動車の騒音は低い周波数に存在する。このように、周囲騒音 の種類によって存在する周波数帯域が限られるので、スペクトログラム上で分離音情 報 S102Aを抽出すると、復元する音の情報を精度よく抽出することができる。なお、 友達 2人の話し声を、独立成分分析や複数のマイクを用いたアレイ処理により抽出し てもよい。
[0069] 次に、音構造分析部 104は、〈I〉の 〉の例と同様にして音構造情報 S103Aを抽出 する(図 5のステップ 402に対応)。
[0070] なお、分離音情報 S102Aに含まれる歪み度合いに基づいて、信頼度付きの音声 認識により音構造情報 S103Aを精度よく抽出してもよい。
[0071] 次に、同一音特性領域分析部 106Aは、混合音分離部 103Aが抽出した分離音情 報 S102Aに基づいて同一の音特性力も成る領域を求めて同一音特性領域情報 S1 04Aを作成する(図 5のステップ 403に対応)。ここでは、話者性の変化、性別特性の 変化、声年齢の変化、声質の変化、口調の変化に基づいて、同一の音特性力 成る 領域を決定して同一音特性領域情報 S104Aを作成する。ここで、話者性の変化は、 ガウス分布で表現された複数の話者モデルとの尤度のノ《ランスにより測定することが できる。たとえば、尤度が一番大きい話者モデルが Aさんモデルから Bさんモデルに 変化したとき話者性が変化したと判断する。また、性別特性の変化は、 F0の変化など で測定することができる。たとえば、男性は F0が低く女性は高いことを利用する。また 、声年齢の変化は、年齢別確率モデルを作成しておいてそれとの比較で判断するこ とができる。また、声質の変化は、声質別確率モデルを作成しておいてそれとの比較 で判断することができる。また、口調の変化は、 F0の変化やスペクトルレートの変化 などで判断することができる。これらの変化が小さい区間を音特性が同一である領域 として、同一音特性領域情報 S104を作成する。図 16の例を用いた場合は、話者性 の変化、性別の変化、声年齢の変化などに基づき、男友達 Aの話し声と女友達 Bの 話し声が異なる領域として分割される。また、声質の変化、口調の変化などに基づき 、女友達 Bの話し声の中で、元気よく話している「フランスりようり」の領域と、落胆して 話して 、る「だけどたかすぎるね」の領域は異なる領域として分割される。
[0072] なお、〈I〉の 〉の例と同様に音特性が同一である領域を音特性ごとに決定してもよ い(図 12を参照)。ここで、図 16の例を考えてみると、話者性、性別特性、口調の変 化により、「なにたベる」「フランスりようり」「だけどたかすぎるね」の区間で少なくとも領 域が分割され、このあと、領域ごとに独立に音特性を抽出することになる。このとき、「 だけどたかすぎるね」の発声のテンションが次第に低くなる場合は、さらに領域を分割 して音特性を抽出することになる。
[0073] このように、複数の話者が発声した音声を復元する場合や、口調が変化する音声を 復元する場合は、話者の切れ目、口調の切れ目などを判断して、同一の音特性から 成る領域を決定して力 音特性を抽出して音を復元することが極めて重要である。
[0074] なお、ここでは、話者性の変化、性別特性の変化、声年齢の変化、声質の変化、口 調の変化の全てを用いて同一音特性領域情報を作成したが、その一部を用いて同 一音特性領域情報を作成してもよ ヽ。
[0075] 次に、音特性抽出部 107Aは、混合音分離部 103Aが抽出した分離音情報 S102 Aと同一音特性領域分析部 106Aが作成した同一音特性領域情報 S104Aとに基づ いて、復元する音声の音特性を同一の音特性より成る領域ごとに抽出して音特性情 報 S105Aを作成する(図 5のステップ 404に対応)。ここでは、図 17に示すような分 離音情報 S102Aを用いて、歪み度合いが大きいフレームの音特性を、歪み度合い が小さいフレームの音特性を用いて推定する。例えば、単純に歪み度合いの小さい フレームの音特性をそのまま歪み度合いが大きいフレームの音特性とする。また、所 定の領域の音特性を、歪み度合 、の大きさに比例した重み付けで音特性の量を線 形加算して推定する。
[0076] 混合音から抽出した復元対象音に対して音特性の変化を監視することで、復元対 象音を音特性が同一である時間領域で区分けして、欠落した部分が位置する音特 性が同一である時間領域における比較的時間長が長い音データ (波形データ等)を 用いて音特性を抽出することで、現実の音特性を忠実に再現することができる。
[0077] 次に、音復元部 108Aは、音構造分析部 104が作成した音構造情報 S103Aと音 特性抽出部 107Aが作成した音特性情報 S105Aとに基づいて、友達の音声が欠落 していない部分を含めた友達 2人の話し声全体を復元する(図 5のステップ 405に対 応)。
[0078] まず、音構造情報 S103Aに基づいて、復元したい音声全体の音韻系列情報を決 定する。次に、決定した音韻系列情報に基づいて、単語単位や発声単位などの音声 全体を考慮したアクセント情報、イントネーション情報を決定する。そして、音特性情 報 S105Aを用いて、復元する音声の音特性(F0、パワー、スペクトルレート、スぺタト ルの特徴)、音韻系列情報、アクセント情報、イントネーション情報に基づいて、欠落 した部分だけではなぐ音声合成により友達 2人の音声全体を、音声全体のバランス を考慮して復元する。
[0079] なお、音声を復元する方法として、抽出した音特性に基づ!、て、音特性、音韻情報 、アクセント情報、イントネーション情報、との類似度が高い波形を波形データベース 力 選択して音声を復元してもよい。これにより、欠落部分が多い場合でも波形デー タベースにより音特性をより精度よく推定できるため、精度のよい音声を復元すること ができる。また、選択した波形を実際の音特性や周辺の音声に基づいて学習により 修正して音を復元してもよい。また、音特性抽出部 107Aが抽出した音特性情報 S1 05Aに加えて、復元した!/、音の事前情報により音特性を推定して音声を復元しても よい。たとえば、友達 2人の声の音特性を事前にヘッドホン装置 101にダウンロードし ておいて、その音特性も参考にして音声を復元してもよい。たとえば、人の声の基本 的な音特性を事前にヘッドホン装置 101に記憶してぉ 、て利用してもよ 、。これによ り、精度のよい音声を復元することができる。
[0080] このように、欠落部分のみでなぐ音声全体を復元することで、欠落部分とそれ以外 の音声のバランスがよくなり、より自然な音声を復元することができる。
[0081] 最後に、スピーカ 109により復元音が出力され、利用者は復元された友達の音声を 聞くことができる。
[0082] なお、〈I〉の 〉の例のように、音素の区切り、単語の区切り、文節の区切り、文章の 区切り、発話内容の区切り、発声の区切りに基づいて、同一の音特性力 成る領域を 決定して同一音特性領域情報 S104Aを作成してもよい。
[0083] なお、音復元部 108Aは、分離音情報 S102Aを用いずに、音構造情報 S103Aお よび音特性情報 S105Aに基づ 、て、音声を復元してもよ 、。
[0084] 〈II〉楽音を復元する場合
<i>欠落部分の楽音を復元する方法
利用者は、街角でながれる街角 BGM (Back Ground Music)を聞いている。しかし、 自動車のクラクションがなり街角 BGMの楽音が部分的に欠落してしまっている。そこ で本発明の音復元装置を用いることで街角 BGMを復元する方法について述べる。 この例では、図 4において、混合音 S101に対応するものは、街角 BGMと自動車のク ラタシヨンが重なった混合音であり、復元音 S106に対応するものは、街角 BGMであ る。〈I〉の 〉の例と異なる点は、音構造知識データベース 105の記憶内容、音構造 分析部 104の動作、同一音特性領域分析部 106の動作、音特性抽出部 107の動作 、音復元部 108の動作である。そこで、図 19に示すように、音構造知識データベース 105を音構造データベース 105B、音構造分析部 104を音構造分析部 104B、同一 音特性領域分析部 106を同一音特性領域分析部 106B、音特性抽出部 107を音特 性抽出部 107B、音復元部 108を音復元部 108Bとする。また、混合音 S101を混合 音 S101B、分離音情報 S102を分離音情報 S102B、音構造情報 S 103を音構造情 報 S103B、同一音特性領域情報 S104を同一音特性領域情報 S104B、音特性情 報 S105を音特性情報 S105B、復元音 S106を復元音 S106Bとする。ここでは、音 声ではなく楽音を復元する。音復元部 108Bは、復元する楽音の欠落部分の音を、 音構造情報 S103Bおよび音特性情報 S105Bに基づいて復元を行い、それ以外の 音を分離音情報 S102Bにより作成する。
[0085] はじめに、ヘッドホン装置 101に装着されたマイク 102を用いて混合音 S101Bであ る街角 BGMに自動車のクラクションが重なった音を取り込む。図 20 (a)に、街角 BG Mと自動車のクラクションが重なった混合音を模式的に図示した例を示す。この例で は、自動車のクラクションにより、図 20 (b)に示すように街角 BGMが部分的に欠落し ている。ここでは、欠落していない(聞こえている)街角 BGMはそのままの音を利用し て、街角 BGMを復元する。
[0086] まず、混合音分離部 103は、〈I〉の 〉の例と同様にして、マイク 102が取り込んだ混 合音 S101Bを用いて、混合音を周波数分析して、パワーの立ち上がりなどにより自 動車のクラクションが挿入された時刻を検出して、分離音情報 S102Bを抽出する(図 5のステップ 401に対応)。ここでは、抽出する分離音情報は音声に関するものでは なく楽音に関するものである。図 20 (c)に、分離音情報 S102Bの例を示す。この例 では、分離音情報は、街角 BGMの成分を抽出した楽音波形と、街角 BGMが欠落し た区間情報カゝら構成される。
[0087] なお、聴覚情景分析、独立成分分析、複数のマイクを用いたアレイ処理を利用して 分離音情報 S102Bを抽出してもよい。また、分離音情報 S102Bの一部として、波形 情報ではなぐ周波数分析を行ったスペクトログラム上での周波数情報 (たとえば、 [ 時間情報,周波数情報,パワー]の組)で表現してもよい。
[0088] 次に、音構造分析部 104Bは、混合音分離部 103が抽出した分離音情報 S102Bと 、音オントロジー辞書、楽譜辞書とから構成された音構造知識データベース 105Bと に基づいて、復元する楽音である街角 BGMの音構造情報 S103Bを作成する(図 5 のステップ 402に対応)。ここでは、音構造情報 S103Bの一部として、街角 BGMの 音符系列情報を作成する。まず、図 20 (c)に示すように、分離音情報 S102Bである 街角 BGMの成分を抽出した音波形を周波数分析する。次に、分析された周波数構 造と音オントロジー辞書とを用いて欠落した部分の音符系列を推定する。音オントロ ジー辞書には、楽音に関する和音、変調、リズムなどの規則が記憶されており、その 規則に基づいて音符系列を推定する。また、楽譜辞書に登録されている複数の楽曲 の楽譜と比較することで欠落部分の音符系列をさらに精度よく推定する。たとえば、 分離音情報 S102Bにより分析され推定された一部が欠落した音符系列と、楽譜辞 書に登録された楽譜の音符系列とを比較して、対応する同じ音符系列の部分力 欠 落した音符系列を決定することができる。
[0089] なお、楽譜辞書は、音構造知識データベース 105Bに事前に登録しておいてもよ いし、音楽サイトなど力もダウンロードすることで更新して登録してもよい。また、利用 者の位置情報などに基づ 、て、 1もしくは複数の楽譜を選択して力も音符系列を決 定してもよい。たとえば、お店 Aからはいつも BGM- Aが流れているとすると、お店 A に近づ!/ヽたときは、 BGM-Aの楽譜を選択して音符系列を選択して利用することで推 定精度を向上することができる。
[0090] 次に、同一音特性領域分析部 106Bは、混合音分離部 103が抽出した分離音情 報 S102Bに基づいて同一の音特性力も成る領域を求めて同一音特性領域情報 S1 04Bを作成する(図 5のステップ 403に対応)。ここでは、音構造の変化、メロディーの 変化、音量の変化、残響特性の変化、音質の変化、音色の変化、に基づいて、同一 の音特性から成る領域を決定して同一音特性領域情報 S104Bを作成する。音構造 の変化は、まず、音構造分析部 104Bと同様にして音構造情報を抽出する。そして、 事前に、音色、音量などの音特性が同一の音構造ごとにグループィ匕しておき、抽出 した音構造の属するグループにより音構造の変化を検知することができる。たとえば 、ピアノ演奏の複数の音構造とギター演奏の複数の音構造とをそれぞれ別のグルー プにしておいて、入力された楽音の音構造のグループが変化しないときは同一領域 、変化した場合は別の領域とする。このとき、事前に作成した音構造のグループの音 特性が今復元したい音の音特性と完全に一致することはまれであり、音構造の変化 に基づ!/、て音特性を抽出する領域を分割して、復元した 、音の実際の音特性をその 領域力も抽出することは重要である。また、メロディーの変化は、まず、音構造分析部 104Bと同様にして音構造情報を抽出する。そして、事前に、音色、音量などの音特 性が同一のメロディーごとにグループィ匕しておき、抽出した音構造の属するグループ によりメロディーの変化を検知することができる。メロディーに基づいて、明るい音色、 暗い音色、音量などが決定される場合があり、メロディーの区切りで同一の音特性か ら成る領域を決定することで、精度よく音特性を抽出することができる。また、音量の 変化は、パワーを測定することで検知できる。パワーが一定範囲の領域を同一の音 特性から成る領域と決定する。また、残響特性の変化、音質の変化は、分離音情報 S 102Bより計算して、残響度合い、音質が一定範囲の領域を同一の音特性力も成る 領域と決定する。また、音色の変化は、ピア入ギター、バイオリンなどの音をグルー プ化して作成したガウス分布で表現された音色モデルとの尤度により測定することが でき、同じ音色と判断された部分を同一の音特性力 成る領域と決定する。ここでは 、音の欠落部分の、音構造の変化、メロディーの変化、音量の変化、残響特性の変 ィ匕、音質の変化、音色の変化、は変化していないとする。
[0091] 図 21に、同一音特性領域情報 S104Bの例を示す。ここでは、音特性である、音色 、音量、残響特性、音質ごとに音特性が同一である領域を決定している。また、この 例では、音色の領域を音構造の変化、メロディーの変化、音色の変化から求め、音 量を音量の変化力も求め、残響特性は残響特性の変化力も求め、音質を音質の変 ィ匕から求めている。
[0092] このように、楽曲は、同じ曲であっても、音色、音量、残響特性、音質などの音特性 が変化する。たとえば、歩きながら街角 BGMを聴いた場合などは、周囲の建物の位 置や周囲の人の位置、温度や湿度などで音量や残響特性は時々刻々変化する。そ のため、音構造の変化、メロディーの変化、音色の変化、音量の変化、残響特性の 変化、音質の変化、などで、同一の音特性から成る領域を決定してから音特性を抽 出して音を復元することは極めて重要である。
[0093] なお、ここでは、音構造の変化、メロディーの変化、音量の変化、残響特性の変化、 音質の変化、音色の変化の全てを用いて同一音特性領域情報 S104Bを作成したが 、その一部を用いて同一音特性領域情報を作成してもよい。また、音構造分析部 10 4Bが作成した音構造情報 103Bを用いて音構造の変化、メロディーの変化を抽出し てもよい。
[0094] 次に、音特性抽出部 107Bは、混合音分離部 103が抽出した分離音情報 S102Bと 同一音特性領域分析部 106Bが作成した同一音特性領域情報 S104Bとに基づい て復元する街角 BGMの音特性を同一の音特性より成る領域ごとに抽出して音特性 情報 S105Bを作成する(図 5のステップ 404に対応)。ここでは、街角 BGMの、音色 、音量、残響特性、音質、を領域ごとに抽出して音特性情報 S105Bを作成する。たと えば、 MIDI (Musical Instrument Digital Interface)音源に基づく表現方法でこれらの 音特性を抽出する。たとえば、音色は、音特性情報 S105Bに含まれる波形情報を周 波数分析して周波数構造を調べることにより決定することができる。
[0095] ここで音特性について考えてみると、ギターの演奏であれば音色はギターであり、ピ ァノ演奏であれば音色はピアノであり、ピアノ演奏だけを考えた場合でも実際に演奏 されるピアノの種類や演奏場所の温度や湿度などにより音色は異なる。また、利用者 の耳元 (この例ではマイク 102の位置)と音源との距離などにより音量は異なる。移動 しながら街角 BGMを聴いた場合は時々刻々音量は変化する。また、残響特性により 奥行き感ゃ臨場感を表現できる。また、スピーカやマイクの特性により音質は異なる。 このため、音特性を抽出し、しかも同一の音特性の領域を決定して力ゝら音特性を抽 出して音を復元することは極めて重要である。
[0096] このように混合音力ゝら抽出した復元対象音に対して音特性の変化を監視することで 、復元対象音を音特性が同一である時間領域で区分けして、欠落した部分が位置す る音特性が同一である時間領域における比較的時間長が長い音データ (波形デー タ等)を用いて音特性を抽出することで、現実の音特性を忠実に再現することができ る。 [0097] 次に、音復元部 108Bは、音構造分析部 104Bが作成した音構造情報 S103Bと音 特性抽出部 107Bが作成した音特性情報 S105Bとに基づいて街角 BGMを復元す る(図 5のステップ 405に対応)。ここでは、音復元部 108Bは、音構造情報 S103Bに 記述された音符系列情報と、音特性情報 S105Bに記述された MIDI音源に基づく 音特性情報とにより、 MIDI音源に基づく楽音合成により、欠落部分の音を復元する 。欠落していない(歪んでいない)部分は、分離音情報 S102Bによりマイク 102で入 力された街角 BGMの音をそのまま利用する。
[0098] なお、楽音を復元する方法として、抽出した音特性に基づ!ヽて、音特性と音符系列 との類似度が高 、波形を波形データベース(図示せず)力 選択して楽音を復元して もよい。これにより、欠落部分が多い場合でも波形データベースにより音特性をより精 度よく推定できるため、精度のよい楽音を復元することができる。また、選択した波形 を実際の音特性や欠落部分の周囲の楽音に基づいて学習により修正して欠落部分 の音を復元してもよい。また、音特性抽出部 107Bが抽出した音特性情報 S105Bに カロえて、復元したい楽音に関する一般的な情報により音特性を推定して楽音を復元 してもよい。たとえば、一般的な街角 BGMの音特性を事前にヘッドホン装置 101に 記憶しておいてその音特性を参考にして音を復元してもよい。これにより、精度のよ Vヽ楽音を復元することができる。
[0099] このように、欠落部分以外の楽音につ!、ては、復元対象音の波形をそのまま利用 するため、高い精度で音復元を行なうことができる。
[0100] 最後に、スピーカ 109を介して、利用者は復元された街角 BGMを聞くことができる 。たとえば、あるお店力 街角 BGMが流れていたとすると、利用者は、お店に近づく ほど大きな音で街角 BGMが聞こえ遠ざ力ると小さく聞こえ、実際の感覚とあい、自然 な音でしかも周囲騒音を除去した形で街角 BGMを楽しむことができる。
[0101] く ii〉欠落部分を含む全体の楽音を復元する方法
利用者は、コンサート会場でクラシック音楽を聞いている。しかし、隣の人がお菓子 をボリボリ食べ始めたために音楽が聞こえに《なっているものとする。そこで本発明 の音復元装置を用いることでクラシック音楽を復元する方法にっ 、て述べる。この例 では、図 4において、混合音 S101に対応するものは、クラシック音楽にお菓子をボリ ボリ食べる音が重なった混合音であり、復元音 S 106に対応するものは、クラシック音 楽である。図 19の〈II〉の 〉の例と異なる点は、混合音分離部 103の動作、音特性抽 出部 107Bの動作、音復元部 108Bの動作である。そこで、図 22に示すように、混合 音分離部 103Bは混合音分離部 103A(〈I〉のく ii〉の例を参照)を用い、音特性抽出 部 107Bを音特性抽出部 107C、音復元部 108Bを音復元部 108Cとする。また、混 合音 S101Bを混合音 S101C、分離音情報 S102Bを分離音情報 S102C、音構造 情報 S103Bを音構造情報 S103C、同一音特性領域情報 S104Bを同一音特性領 域情報 S104C、音特性情報 S105Bを音特性情報 S105C、復元音 S106Bを復元 音 S106Cとする。ここで音復元部 108Cは、〈I〉のく ii〉の例と同様に、復元する音の欠 落部分を含む全体の音を、音構造情報 S103Cおよび音特性情報 S105Cに基づい て復元を行う。このとき、全体の音のバランス情報に基づいて音全体を復元する。ここ で〈I〉のく ii〉の例と異なる点は、復元する音が音声ではなく楽音であることである。
[0102] はじめに、ヘッドホン装置 101に装着されたマイク 102を用いて混合音 S101Cであ るクラシック音楽にお菓子をボリボリ食べる音が重なった音を取り込む。図 23に、クラ シック音楽にお菓子をボリボリ食べる音が重なった混合音を模式的に図示した例を 示す。この例では、クラシック音楽の音がお菓子を食べる音によって全体的に歪んで いる。まず、混合音分離部 103Aは、〈I〉のく ii〉の例と同様にして、マイク 102が取り 込んだ混合音 S 101 Cを用 、て分離音情報 S 102Cを抽出する(図 5のステップ 401 に対応)。ここでは、抽出する分離音情報は音声に関するものではなく楽音に関する ものである。ここでは、図 17と同様な形式の分離音情報が抽出できる。ただし、この 例では、音声波形ではなく楽音波形である。
[0103] なお、分離音情報 S102Cを、波形情報ではなぐ周波数分析を行ったスぺタトログ ラム上での周波数情報 (たとえば、 [時間情報,周波数情報,パワー]の組)で表現し てもよい。また、分離音情報 S102Cの一部であるクラシック音楽の波形情報を、独立 成分分析や複数のマイクを用いたアレイ処理により抽出してもよ ヽ。
[0104] 次に、音構造分析部 104Bは、〈II〉の 〉の例と同様にして、復元する音である クラシック音楽の音構造情報 S103Cを作成する(図 5のステップ 402に対応)。
[0105] なお、楽譜辞書は、音構造知識データベース 105Bに事前に登録しておいてもよ いし、コンサート会場の音楽サイトなど力も本日演奏される楽曲の楽譜をダウンロード することで更新して登録してもよ 、。
[0106] 次に、同一音特性領域分析部 106Bは、〈II〉の 〉の例と同様にして、同一音特 性領域情報 S104Cを作成する(図 5のステップ 403に対応)。
[0107] 次に、音特性抽出部 107Cは、混合音分離部 103Aが抽出した分離音情報 S102 Cと同一音特性領域分析部 106Bが作成した同一音特性領域情報 S104Cとに基づ いて復元するクラシック音楽の音特性を同一の音特性より成る領域ごとに抽出して音 特性情報 S105Cを作成する (ステップ 404に対応)。ここでは、〈II〉の 〉の例とは 異なり、図 17のような歪み度合いを含む分離音情報 S102Cを用いて、歪み度合い の小さいフレームの音特性を利用して音特性を推定する。なお、歪み度合いの大き さに比例した重み付けで音特性の量を線形加算して推定してもよ ヽ。
[0108] このように、混合音力 抽出した復元対象音に対して音特性の変化を監視すること で、復元対象音を音特性が同一である時間領域で区分けして、欠落した部分が位置 する音特性が同一である時間領域における比較的時間長が長い音データ (波形デ ータ等)を用いて音特性を抽出することで、現実の音特性を忠実に再現することがで きる。
[0109] 次に、音復元部 108Cは、音構造分析部 104Bが作成した音構造情報 S103Cと音 特性抽出部 107Cが作成した音特性情報 S105Cとに基づいて、クラシック音楽が欠 落した部分、歪んだ部分、歪んでいない部分を含めたクラシック音楽全体を復元する (図 5のステップ 405に対応)。まず、音構造情報 S103Cに基づいて、復元したい楽 音全体の音韻系列情報を決定する。次に、決定した音韻系列情報に基づいて、曲、 小節などを単位とした楽曲全体を考慮したリズム情報、音量変化情報などを決定する 。そして、音復元部 108Cは、音構造情報 S103Cに記述された音符系列と、音特性 情報 S105Cに記述された MIDI音源に基づく音特性とにより、 MIDI音源に基づく楽 音合成により、音全体のバランスを考慮して復元する。
[0110] このように、欠落部分のみでなぐ楽音全体のバランスを考慮して復元することで、 欠落部分とそれ以外の楽音のバランスがよくなり、より自然な楽音を復元することがで きる。最後に、スピーカ 109により、利用者は復元されたクラシック音楽を聞くことがで きる。
[oiii] 〈m〉重なった 2種類の音 (音声と環境音)を復元する場合
利用者は、街角を友達と話しをしながら歩いている。しかし、自動車の騒音や周りの 人の話し声で友達の声が聞き取りにくい。そのとき、自転車が後ろからきて自転車の ベルの音がなった。しかし、周りの騒音で自転車のベルの音が聞き取りに《なって いるものとする。そこで本発明の音復元装置を用いることで友達の話し声と自転車の ベルの音を復元する方法について述べる。この例では、図 4において、混合音 S101 に対応するものは、友達の話し声と自転車のベルの音と周囲の騒音が重なった混合 音であり、復元音 S 106に対応するものは、友達の話し声と自転車のベルの音である 。〈I〉の 〉の例と異なる点は、復元する音が音声だけではなく音声と環境音の 2つで あり、し力も、復元したい音である音声と環境音が一部重なっていることである。
[0112] 図 24に、この実施例の全体構成を示すブロック図を示す。
[0113] マイク 102は、混合音 S101Dを入力して混合音分離部 103Dへ出力する。
[0114] 混合音分離部 103Dは、混合音 S101Dから復元する音の材料を分離音情報 S10 2Dとして抽出する。
[0115] 音構造分析部 104Dは、混合音分離部 103Dが抽出した分離音情報 S102Dと音 構造知識データベース 105Dとに基づいて復元する音の音構造情報 S103Dを作成 する。
[0116] 同一音特性領域分析部 106Dは、混合音分離部 103Dが抽出した分離音情報 S1 02D力も同一の音特性力もなる領域を求めて同一音特性領域情報 S104Dを作成 する。
[0117] 音特性抽出部 107Dは、同一音特性領域分析部 106Dが作成した同一音特性領 域情報 S104Dに基づいて復元する音の音特性を同一の音特性よりなる領域ごとに 抽出して音特性情報 S105Dを作成する。
[0118] 音復元部 108Dは、音構造分析部 104Dが作成した音構造情報 S103Dおよび音 特性抽出部 107Dが作成した音特性情報 S105Dと基づいて復元音 S106Dを作成 する。
[0119] スピーカ 109は、音復元部 108Dが作成した復元音 S106Dを利用者へ出力する。 [0120] はじめに、ヘッドホン装置 101に装着されたマイク 102を用いて混合音 S101Dであ る友達の話し声と自転車のベルの音と周囲の騒音が重なった音を取り込む。図 25に 、友達の話し声と自転車のベルの音と周囲の騒音が重なった混合音を模式的に図 示した例を示す。この例では、復元したい音である友達の話し声と自転車のベルの 音が一部重なっている。また、友達の話し声と自転車のベルの両方に周囲の騒音が 重なっている。
[0121] まず、混合音分離部 103Dは、マイク 102が取り込んだ混合音 S101Dを用いて分 離音情報 S102Dを抽出する(図 5のステップ 401に対応)。ここでは、混合音 S101D を周波数分析してスペクトログラムで表現したのちに音の波形の局所的な構造を利 用して聴覚情景分析を行い、時間と周波数の微小領域ごとに友達の話し声の領域、 自転車のベルの領域、周囲の騒音の領域を決定する。ここでは、各微小領域には 1 つの音のみが優先的にパワーをしめていることを仮定した方法を用いて 3種類の音を 分離する。図 26に、聴覚情景分析を行った結果を模式的に示す。この例をみると、 友達の話し声と自転車のベルが時間的に重なった場合でも、周波数ごとに領域を区 分すればそれぞれの成分を分離できることがわかる。そして、聴覚情景分析の結果 に基づいて図 27の例のような分離音情報 S102Dを抽出する。図 27に示す分離音 情報の例では、時間フレームと周波数ごとに、その領域の成分が友達の話し声か自 転車のベルかが記載され、それぞれのパワーの値とそれぞれの歪み度合 、が記載さ れている。歪み度合いは、各領域において聴覚情景分析により抽出した成分と抽出 前の混合音の成分との比に基づいて計算することができる。
[0122] なお、独立成分分析、複数のマイクを用いたアレイ処理などを用いて分離音情報 S 102Dを抽出してもよい。
[0123] 次に、音構造分析部 104Dは、混合音分離部 103Dが抽出した分離音情報 S102 Dと、音素辞書、単語辞書、言語連鎖辞書、音源モデル辞書、とから構成された音構 造知識データベース 105Dとに基づ 、て、復元する音である友達の話し声と自転車 のベルの音構造情報 S103Dを作成する(図 5のステップ 402に対応)。ここでは、音 構造情報 S103Dとして、友達の話し声の音韻系列情報を、音素辞書、単語辞書、言 語連鎖辞書を用いて作成し、環境音である自転車のベルの音符系列情報を、音源 モデル辞書を用いて作成する。まず、分離音情報 S102Dの一部である友達の話し 声の成分 (たとえば、図 27の分離音情報の「音の種類」が「友達」と記載されたところ の周波数情報)と、事前に多くの音声データで学習された周波数領域上で表現され た音素辞書 (隠れマルコフモデル)との尤度を計算して音素の候補を予測する。さら に、単語辞書、言語連鎖辞書を用いて制約をかけて音韻系列を決定する。また、分 離音情報 S102Dの一部である自転車のベルの成分 (たとえば、図 27の分離音情報 の「音の種類」が「ベル」と記載されたところの周波数情報)と、事前に多くのベルデ一 タで学習された周波数領域上で表現された音素辞書 (隠れマルコフモデル)との尤 度を計算して音符の候補を予測する。さらに、自転車のベルの時間的構造などが記 憶された音源モデル辞書を用いて制約をかけて音符系列を決定する。ここで、図 27 の分離音情報に記載された「歪み度合 、」を用いて精度よく音韻系列または音符系 列を決定してもよい。
[0124] 次に、同一音特性領域分析部 106Dは、混合音分離部 103Dが抽出した分離音情 報 S102Dに基づいて同一の音特性力も成る領域を求めて同一音特性領域情報 S1 04Dを作成する(図 5のステップ 403に対応)。ここでは、分離音情報 S102Dに基づ いて、どの時間と周波数の領域とを同じ音特性力も成る領域にしたらよいかを決定し て、同一音特性領域情報とする。図 28に、同一音特性領域情報 S104Dの例を示す 。ここでは、友達の話し声の時間と周波数の領域、自転車のベルの時間と周波数の 領域と 2つの領域が抽出されている。すなわち、次に示す音特性抽出部 107Dで 2種 類の音特性を抽出することになる。この例での特徴は、同一の音特性と考えられる領 域が時間的に途切れていることと、周波数を考慮した領域であることである。
[0125] 次に、音特性抽出部 107Dは、混合音分離部 103Dが抽出した分離音情報 S102 Dと同一音特性領域分析部 106Dとに基づいて、友達の話し声と自転車のベルとの 音特性をそれぞれ抽出して音特性情報 S105Dを作成する (ステップ 404に対応)。 ここで、友達の話し声の音特性として話者性などを抽出して、自転車のベルの音特 性として音色などを抽出する。そして、抽出した情報を音特性情報 S105Dとする。こ こでは、友達の話し声全体で 1つの音特性を抽出し、自動車のベルの音全体でもう 1 つの音特性を抽出して音特性情報 S105Dを作成する。 [0126] このように、混合音力 抽出した復元対象音に対して音特性の変化を監視すること で、復元対象音を音特性が同一である時間領域で区分けして、欠落した部分が位置 する音特性が同一である時間領域における比較的時間長が長い音データ (波形デ ータ等)を用いて音特性を抽出することで、現実の音特性を忠実に再現することがで きる。
[0127] 次に、音復元部 108Dは、音構造分析部 104Dが作成した音構造情報 S103Dと音 特性抽出部 107Dが作成した音特性情報 S105Dに基づいて、友達の話し声と自転 車のベルの音を復元する(図 5のステップ 405に対応)。友達の話し声は〈I〉のく ii〉の 例と同様にして、自転車のベルの音は MIDI音源を用いることで復元する。
[0128] このように、複数の復元対象音が重なった場合にお!、て、それぞれの復元対象音 に対して高 ヽ精度で音復元を行なうことができる。
[0129] なお、図 27の分離音情報を用いて、歪み度合いが小さいもしくは歪んでいない領 域は、分離音情報の「パワー」の値をそのまま利用して音を復元してもよい。このとき は、歪み度合 、が大き 、領域の周波数のパワーを復元することになる。
[0130] 最後に、スピーカ 109により、利用者は復元された友達の話し声と自転車のベルを 選択的に聴くことができる。たとえば、安全のために自転車のベルの音を優先的に聞 き、そのあとに、必要に応じて復元された友達の話し声をオフラインで聞くことができ る。また、右耳と左耳の 2つのスピーカを用いて 2つの音源の位置を意図的にずらし て聞くこともできる。このとき、自転車のベルの音は音源の位置が変わらないように設 定すると自転車の到来方向がわ力り安全で好ましい。
[0131] 以上説明したように、本発明の実施の形態 1によれば、音構造知識データベースを 用いて作成した音構造情報に基づ!/、て音を復元するため、幅広!/、一般的な音 (音声 、音楽、環境音を含む)を復元することができるとともに、同一の音特性力 なる領域 ごとに抽出した音特性情報に基づいて音を復元するため、実際の音特性に忠実に 歪む前の音を復元することができる。また、混合音分離部により、複数の音が混在し た混合音力ゝら音を復元することができる。特に、混合音から抽出した復元対象音に対 して音特性の変化を監視することで、復元対象音を音特性が同一である時間領域で 区分けして、欠落した部分が位置する音特性が同一である時間領域における比較的 時間長が長い音データ (波形データ等)を用いて音特性を抽出することで、現実の音 特性を忠実に再現することができる。
[0132] なお、〈I〉の 〉、〈I〉のく ii〉、〈II〉の 〉、〈II〉のく ii〉、〈III〉の全ての例において、音復 元部は、利用者の聴覚特性に基づいて音を復元してもよい。たとえば、マスキング効 果を考慮して利用者に聞こえない部分は復元しなくてもよい。また、利用者の可聴範 囲を考慮して音を復元してもよ ヽ。
[0133] なお、音特性抽出部が作成した音特性情報に基づいて、声質、口調、音量、音質 などを忠実に復元し、音特性の一部を変更して、残響だけを小さくすることで、利用 者に聞き取りやすく加工してもよい。また、音構造分析部が作成した音構造情報を一 部変更して、音構造情報に基づいた音韻系列に従って、敬語表現にしたり方言表現 に変更したりしてもよい。これらの変形例に関しては、実施の形態 2および実施の形 態 3において説明をカ卩える。
[0134] (実施の形態 2)
実施の形態 2では、音特性一部変更部により音特性を一部変更することで、利用者 に聞きやすくかつ自然な音で復元できることについて述べる。ここでは、本発明に係 る音復元装置が音編集装置に組み込まれた例で説明する。復元する音として、〈IV〉 音声を復元する場合、〈V〉楽音を復元する場合、について述べる。
[0135] 〈IV〉音声を復元する場合
図 29は、本発明の実施の形態 2における〈IV〉の例の音復元装置の全体構成を示 すブロック図である。図 29において、音編集装置 201は、テレビ、パソコン、 DVD (Di gital Versatile Disc)編集器などに組み込むことも可能であり、混合音の中から利用 者が必要とする音を、音特性の一部を変更して聞きやすい音で復元するといぅ音復 元機能を実装している。音編集装置 201は、データ読み取り部 202と、混合音分離 部 103と、音構造分析部 104と、音構造知識データベース 105と、同一音特性領域 分析部 106と、音特性抽出部 107と、音特性一部変更部 203と、音復元部 204と、記 憶部 205と、スピーカ 206とを備える。
[0136] データ読み取り部 202は、混合音 S101を入力して混合音分離部 103へ出力する [0137] 混合音分離部 103は、混合音 S101から復元する音の材料を分離音情報 S102と して抽出する。
[0138] 音構造分析部 104は、混合音分離部 103が抽出した分離音情報 S102と音構造知 識データベース 105とに基づいて復元する音の音構造情報 S 103を作成する。
[0139] 同一音特性領域分析部 106は、混合音分離部 103が抽出した分離音情報 S102 力も同一の音特性力もなる領域を求めて同一音特性領域情報 S104を作成する。
[0140] 音特性抽出部 107は、同一音特性領域分析部 106が作成した同一音特性領域情 報 S104に基づいて復元する音の音特性を同一の音特性よりなる領域ごとに抽出し て音特性情報 S105を作成する。
[0141] 音特性一部変更部 203は、音特性抽出部 107が作成した音特性情報 S105を一 部変更して変更音特性情報 S201を作成する。
[0142] 音復元部 204は、音構造分析部 104が作成した音構造情報 S103および音特性 一部変更部 203が作成した変更音特性情報 S201に基づいて復元音 S202を作成 する。
[0143] 記憶部 205は、音復元部 204が作成した復元音 S202を記憶する。
[0144] スピーカ 206は、記憶部 205が記憶した復元音 S202を利用者へ出力する。
[0145] 図 30は、本発明の実施の形態 2における音復元装置の処理の流れを示すフロー チャートである。はじめに、混合音分離部 103は、混合音 S101から復元する音の材 料を分離音情報 S102として抽出する (ステップ 401)。次に、音構造分析部 104は、 抽出した分離音情報 S102と音構造知識データベース 105とに基づいて音構造情報 S 103を作成する (ステップ 402)。また、同一音特性領域分析部 106は、抽出した分 離音情報 S102から同一の音特性力も成る領域を求めて同一音特性領域情報 S10 4を作成する (ステップ 403)。そして、音特性抽出部 107は、同一音特性領域情報 S 104に基づいて復元する音の音特性を同一の音特性より成る領域ごとに抽出して音 特性情報 S 105を作成する (ステップ 404)。そして、音特性一部変更部 203は、音特 性情報 S105を一部変更して変更音特性情報 S201を作成する (ステップ 2801)。最 後に、音復元部 204は、音構造情報 S103と変更音特性情報 S201とに基づいて復 元音 S 202を作成する(ステップ 2802)。 [0146] 次に、本実施の形態の〈IV〉の例を音編集装置の音復元機能に適用した具体例に ついて説明する。ここでは、実施の形態 1の〈I〉の 〉の例と同じように、アナウンスの 音声とチャイムが重なった混合音 S101からアナウンスの音声を復元する方法につい て説明する。ここで実施の形態 1と異なる点は、音復元部 204は、作成した音特性情 報 S105をそのまま利用するのではなぐ音特性一部変更部 203により作成された変 更音特性情報 S201を用いて音を復元することである。
[0147] はじめに、音編集装置 101に装着されたデータ読み取り部 202を用いて混合音 S1 01であるアナウンスの音声とチャイムが重なった音(図 6を参照)を取り込む。
[0148] まず、混合音分離部 103は、データ読み取り部 202が取り込んだ混合音 S101を用 いて、実施の形態 1の〈I〉の 〉の例と同様にして、分離音情報 S102を抽出する(図 3 0のステップ 401に対応)。
[0149] 次に、音構造分析部 104は、実施の形態 1の〈I〉の 〉の例と同様にして、アナゥン スの音声の音構造情報 S 103を作成する(図 30のステップ 402に対応)。
[0150] 次に、同一音特性領域分析部 106は、実施の形態 1の〈I〉の 〉の例と同様にして、 混合音分離部 103が抽出した分離音情報 S102に基づいて同一の音特性力も成る 領域を求めて同一音特性領域情報 S104を作成する(図 30のステップ 403に対応)
[0151] 次に、音特性抽出部 107は、実施の形態 1の〈I〉の 〉の例と同様にして、混合音分 離部 103が抽出した分離音情報 S102と同一音特性領域分析部 106が作成した同 一音特性領域情報 S104とに基づいて復元するアナウンスの音声の音特性を同一の 音特性より成る領域ごとに抽出して音特性情報 S105を作成する(図 30のステップ 40 4に対応)。ここでは、音特性として、話者性、性別特性、声年齢、声質、口調、音量、 残響特性、音質を抽出する。
[0152] 次に、音特性一部変更部 203は、音特性抽出部 107が作成した音特性情報 S105 を一部変更して変更音特性情報 S201を作成する(図 30のステップ 2801に対応)。 ここでは、音特性情報 S105である、話者性、性別特性、声年齢、声質、口調、音量、 音質、残響特性、音色、の情報の一部を変更して利用者が聞き取りやすい音特性を 作成する。たとえば、話者性だけを変更して発話者の特徴を少し強調することで、実 際の音特性はほとんど変更することなしに、聞きやす ヽ自然な音を復元することがで きる。また、口調を変更して、アナウンス口調を丁寧な口調にすることができ、どもった 声を明瞭にすることで聞きやすい音を復元することができる。また、音量を大きくした り、残響を少なくしたりすることでも聞きやすい音を復元することができる。ここで、変 更する音特性は全体の音特性の一部であるため、自然な音を復元することができる。 たとえば、残響特性だけを変更した場合は、話者性は保持されるため、発話者のリア ルな音声を復元することができる。
[0153] 次に、音復元部 204は、音構造分析部 104が作成した音構造情報 S103と音特性 一部変更部 203が作成した変更音特性情報 S201とに基づいてアナウンスの音声を 復元する(図 30のステップ 2802に対応)。ここでは、音声合成により、変更された音 特性に基づいてアナウンス全体の音声を復元音 S202として復元する。
[0154] 次に、記憶部 205は、音復元部 204が作成した復元音 S202を記憶する。
[0155] 最後に、利用者は、復元されたアナウンスをスピーカ 206で聞くことができる。
[0156] 〈V〉楽音を復元する場合
図 31は、本発明の実施の形態 2における〈V〉の例の音復元装置の全体構成を示 すブロック図である。図 31において、〈IV〉の例と同じように、音編集装置 201は、テレ ビ、ノ ソコン、 DVD編集器などに組み込むことも可能であり、混合音の中から利用者 が必要とする音を、音特性の一部を変更して聞きやすい音で復元するという音復元 機能を実装している。音編集装置 201は、データ読み取り部 202と、混合音分離部 1 03と、音構造分析部 104Bと、音構造知識データベース 105Bと、同一音特性領域 分析部 106Bと、音特性抽出部 107Bと、音特性一部変更部 203Bと、音復元部 204 Bと、記憶部 205と、スピーカ 206とを備える。
[0157] データ読み取り部 202は、混合音 S101Bを入力して混合音分離部 103へ出力す る。
[0158] 混合音分離部 103は、混合音 S101Bから復元する音の材料を分離音情報 S102 Bとして抽出する。
[0159] 音構造分析部 104Bは、混合音分離部 103が抽出した分離音情報 S102Bと音構 造知識データベース 105Bとに基づいて復元する音の音構造情報 S103Bを作成す る。
[0160] 同一音特性領域分析部 106Bは、混合音分離部 103が抽出した分離音情報 S102 Bから同一の音特性力もなる領域を求めて同一音特性領域情報 S104Bを作成する
[0161] 音特性抽出部 107Bは、同一音特性領域分析部 106Bが作成した同一音特性領 域情報 S104Bに基づいて復元する音の音特性を同一の音特性よりなる領域ごとに 抽出して音特性情報 S105Bを作成する。
[0162] 音特性一部変更部 203Bは、音特性抽出部 107Bが作成した音特性情報 S105B を一部変更して変更音特性情報 S201Bを作成する。
[0163] 音復元部 204Bは、音構造分析部 104Bが作成した音構造情報 S103Bおよび音 特性一部変更部 203Bが作成した変更音特性情報 S201Bに基づいて復元音 S202
Bを作成する。
[0164] 記憶部 205は、音復元部 204Bが作成した復元音 S202Bを記憶する。
[0165] スピーカ 206は、記憶部 205が記憶した復元音 S202Bを利用者へ出力する。
[0166] 次に、本実施の形態の〈V〉の例を音編集装置の音復元機能に適用した具体例に ついて説明する。ここでは、実施の形態 1の〈II〉の 〉の例と同じように、街角 BGMと 自動車のクラクションの音が重なった混合音 S101B力も街角 BGMを復元する方法 について説明する。ここで、〈IV〉の例とことなる点は、復元する音は音声ではなく楽 音であることである。
[0167] はじめに、音編集装置 101に装着されたデータ読み取り部 202を用いて混合音 S1 01Bである街角 BGMと自動車のクラクションの音が重なった音(図 20を参照)を取り 込む。
[0168] まず、混合音分離部 103は、データ読み取り部 202が取り込んだ混合音 S101Bを 用いて、実施の形態 1の〈II〉の 〉の例と同様にして、分離音情報 S102Bを抽出する (図 30のステップ 401に対応)。
[0169] 次に、音構造分析部 104Bは、実施の形態 1の〈II〉の 〉の例と同様にして、街角 B GMの音構造情報 S103Bを作成する(図 30のステップ 402に対応)。
[0170] 次に、同一音特性領域分析部 106Bは、実施の形態 1の〈II〉の 〉の例と同様にし て、混合音分離部 103が抽出した分離音情報 S102Bに基づいて同一の音特性から 成る領域を求めて同一音特性領域情報 S104Bを作成する(図 30のステップ 403に 対応)。
[0171] 次に、音特性抽出部 107Bは、実施の形態 1の〈II〉の 〉の例と同様にして、混 合音分離部 103が抽出した分離音情報 S102Bと同一音特性領域分析部 106Bが 作成した同一音特性領域情報 S104Bとに基づいて復元する街角 BGMの音特性を 同一の音特性より成る領域ごとに抽出して音特性情報 S105Bを作成する(図 30のス テツプ 404に対応)。ここでは、音特性として、音量、音質、残響特性、音色を抽出す る。
[0172] 次に、音特性一部変更部 203Bは、音特性抽出部 107Bが作成した音特性情報 S 105Bを一部変更して変更音特性情報 S201Bを作成する(図 30のステップ 2801に 対応)。ここでは、音特性情報 S105Bである、音量、音質、残響特性、音色、の情報 の一部を変更して利用者が聞き取りやすい音特性を作成する。たとえば、音色だけ を変更して、演奏している楽器の音色を少し強調することで、聞きやすい自然な音を 復元することができる。また、音量を大きくしたり、残響を少なくしたり、音質をよくした りすることで、聞きやすい音を復元することができる。ここで、変更する音特性は全体 の音特性の一部であるため、自然な音を復元することができる。
[0173] 次に、音復元部 204Bは、音構造分析部 104Bが作成した音構造情報 S103Bと音 特性一部変更部 203Bが作成した変更音特性情報 S201Bとに基づいて街角 BGM を復元する(図 30のステップ 2802に対応)。ここでは、楽音合成により、変更された 音特性に基づいて街角 BGM全体の音を復元音 S202Bとして復元する。
[0174] 次に、記憶部 205は、音復元部 204Bが作成した復元音 S202Bを記憶する。
[0175] 最後に、利用者は、復元された街角 BGMをスピーカ 206で聞くことができる。
[0176] 以上説明したように、本発明の実施の形態 2によれば、混合音から抽出した復元対 象音に対して音特性の変化を監視することで、復元対象音を音特性が同一である時 間領域で区分けして、欠落した部分が位置する音特性が同一である時間領域にお ける比較的時間長が長い音データ (波形データ等)を用いて音特性を抽出することで 、保持した音特性に対して忠実に、高い精度で混合音の中の復元対象音を復元す ることができる。さらに、音特性一部変更部を備えることで、利用者に聞きやすく復元 することができる。
[0177] なお、〈IV〉、 〈V〉の例にぉ 、て、音復元部は、利用者の聴覚特性に基づ!/、て音を 復元してもよい。たとえば、マスキング効果を考慮して利用者に聞こえない部分は復 元しなくてもよい。また、利用者の可聴範囲を考慮して音を復元してもよい。また、音 特性一部変更部は、利用者の聴覚特性に基づいて音特性を変更してもよい。たとえ ば、低い周波数が聞こえにくい利用者に対しては、低い周波数のパワーを大きくして 復元してちょい。
[0178] なお、〈IV〉、 〈V〉の例で、実施の形態 1の〈I〉の 〉、〈II〉の 〉を一部として用いて説 明を行ったが、この形態に限らず、〈I〉のく ii〉、〈II〉のく ii〉、〈IV〉を一部として用いて音 を復元してもよい。
[0179] (実施の形態 3)
音構造一部変更部により音構造情報を一部変更することで、利用者にわ力りやすく かつ自然な音で復元できることについて述べる。ここでは、本発明に係る音復元装置 が携帯型テレビ電話装置に組み込まれた例で説明する。復元する音として、く VI〉音 声を復元する場合、く VII〉楽音を復元する場合、について述べる。
[0180] く VI〉音声を復元する場合
図 32は、本発明の実施の形態 3におけるく VI〉の例の音復元装置の全体構成を示 すブロック図である。図 32において、携帯型テレビ電話装置 301は、混合音の中から 利用者が必要とする音を、音構造の一部を変更してわ力りやす 、音で復元すると 、う 音復元機能を実装している。携帯型テレビ電話装置 301は、受信部 302と、混合音 分離部 103と、音構造分析部 104と、音構造知識データベース 105と、音構造一部 変更部 303と、同一音特性領域分析部 106と、音特性抽出部 107と、音復元部 204 と、スピーカ 305とを備える。
[0181] 受信部 302は、混合音 S101を入力して混合音分離部 103へ出力する。
[0182] 混合音分離部 103は、混合音 S101から復元する音の材料を分離音情報 S102と して抽出する。
[0183] 音構造分析部 104は、混合音分離部 103が抽出した分離音情報 S102と音構造知 識データベース 105とに基づいて復元する音の音構造情報 S 103を作成する。
[0184] 音構造一部変更部 303は、音構造分析部 104が作成した音構造情報 S103を一 部変更して変更音構造情報 S301を作成する。
[0185] 同一音特性領域分析部 106は、混合音分離部 103が抽出した分離音情報 S102 力も同一の音特性力もなる領域を求めて同一音特性領域情報 S104を作成する。
[0186] 音特性抽出部 107は、同一音特性領域分析部 106が作成した同一音特性領域情 報 S104に基づいて復元する音の音特性を同一の音特性よりなる領域ごとに抽出し て音特性情報 S105を作成する。
[0187] 音復元部 304は、音構造一部変更部 303が作成した変更音構造情報 S301およ び音特性抽出部 107が作成した音特性情報 S105に基づいて復元音 S302を作成 する。
[0188] スピーカ 305は、音復元部 304が作成した復元音 S302を利用者へ出力する。
[0189] 図 33は、本発明の実施の形態 3における音復元装置の処理の流れを示すフロー チャートである。はじめに、混合音分離部 103は、混合音 S101から復元する音の材 料を分離音情報 S102として抽出する (ステップ 401)。次に、音構造分析部 104は、 抽出した分離音情報 S102と音構造知識データベース 105とに基づいて音構造情報 S 103を作成する (ステップ 402)。そして、音構造一部変更部 303は、音構造情報 S 103を一部変更して変更音構造情報 S301を作成する (ステップ 3001)。また、同一 音特性領域分析部 106は、抽出した分離音情報 S102から同一の音特性力も成る領 域を求めて同一音特性領域情報 S104を作成する (ステップ 403)。そして、音特性 抽出部 107は、同一音特性領域情報 S104に基づいて復元する音の音特性を同一 の音特性より成る領域ごとに抽出して音特性情報 S105を作成する (ステップ 404)。 最後に、音復元部 304は、変更音構造情報 S301と音特性情報 S105とに基づいて 復元音 S 302を作成する (ステップ 3002)。
[0190] 次に、本実施の形態のく VI〉の例を携帯型テレビ電話装置の音復元機能に適用し た具体例について説明する。ここでは、実施の形態 1の〈I〉の 〉の例と同じように、ァ ナウンスの音声とチャイムが重なった混合音 S101からアナウンスの音声を復元する 方法について説明する。ここで実施の形態 1と異なる点は、音復元部 304は、作成し た音構造情報 S103をそのまま利用するのではなぐ音構造一部変更部 303により作 成された変更音特性情報 S301を用いて音を復元することである。
[0191] はじめに、携帯型テレビ電話装置 101に装着された受信部 302を用いて混合音 S1
01であるアナウンスの音声とチャイムが重なった音(図 6を参照)を取り込む。
[0192] まず、混合音分離部 103は、受信部 302が取り込んだ混合音 S101を用いて、実施 の形態 1の〈I〉の 〉の例と同様にして、分離音情報 S102を抽出する(図 33のステツ プ 401に対応)。
[0193] 次に、音構造分析部 104は、実施の形態 1の〈I〉の 〉の例と同様にして、アナゥン スの音声の音構造情報 S 103を作成する(図 33のステップ 402に対応)。
[0194] 次に、音構造一部変更部 303は、音構造分析部 104が作成した音構造情報 S103 を一部変更して変更音構造情報 S 301を作成する(図 33のステップ 3001に対応)。 ここでは、音構造情報 S103である音韻系列情報の一部を変更して利用者がわかり やすい音構造を作成する。たとえば、文末の音韻系列を敬語形態に変更したり、地 方の方言を標準語の音韻系列に変更したりすることで、わかりやすい自然な音を復 元することができる。この例では、話している内容は変更しない。
[0195] 次に、同一音特性領域分析部 106は、実施の形態 1の〈I〉の 〉の例と同様にして、 混合音分離部 103が抽出した分離音情報 S102に基づいて同一の音特性力も成る 領域を求めて同一音特性領域情報 S104を作成する(図 33のステップ 403に対応)
[0196] 次に、音特性抽出部 107は、実施の形態 1の〈I〉の 〉の例と同様にして、混合音分 離部 103が抽出した分離音情報 S102と同一音特性領域分析部 106が作成した同 一音特性領域情報 S104とに基づいて復元するアナウンスの音声の音特性を同一の 音特性より成る領域ごとに抽出して音特性情報 S105を作成する(図 33のステップ 40 4に対応)。
[0197] 次に、音復元部 304は、音構造一部変更部 303が作成した変更音構造情報 S301 と音特性抽出部 107が作成した音特性情報 S105とに基づいてアナウンスの音声を 復元する(図 33のステップ 3002に対応)。ここでは、音声合成により、変更された音 特性に基づいてアナウンス全体の音声を復元音 S302として復元する。 [0198] 最後に、利用者は、復元されたアナウンスをスピーカ 305で聞くことができる。
[0199] く VII〉楽音を復元する場合
図 34は、本発明の実施の形態 3におけるく VII〉の例の音復元装置の全体構成を示 すブロック図である。図 34において、く VI〉の例と同じように、携帯型テレビ電話装置 3 01は、混合音の中から利用者が必要とする音を、音構造の一部を変更してわ力りや す!ヽ音で復元すると!ヽぅ音復元機能を実装して!/ヽる。携帯型テレビ電話装置 301は 、受信部 302と、混合音分離部 103と、音構造分析部 104Bと、音構造知識データべ ース 105Bと、音構造一部変更部 303Bと、同一音特性領域分析部 106Bと、音特性 抽出部 107Bと、音復元部 304Bと、スピーカ 305とを備える。
[0200] 受信部 302は、混合音 S101Bを入力して混合音分離部 103へ出力する。
[0201] 混合音分離部 103は、混合音 S101Bから復元する音の材料を分離音情報 S102 Bとして抽出する。
[0202] 音構造分析部 104Bは、混合音分離部 103が抽出した分離音情報 S102Bと音構 造知識データベース 105Bとに基づいて復元する音の音構造情報 S103Bを作成す る。
[0203] 音構造一部変更部 303Bは、音構造分析部 104Bが作成した音構造情報 S103B を一部変更して変更音構造情報 S301Bを作成する。
[0204] 同一音特性領域分析部 106Bは、混合音分離部 103が抽出した分離音情報 S102
Bから同一の音特性力もなる領域を求めて同一音特性領域情報 S104Bを作成する
[0205] 音特性抽出部 107Bは、同一音特性領域分析部 106Bが作成した同一音特性領 域情報 S104Bに基づいて復元する音の音特性を同一の音特性よりなる領域ごとに 抽出して音特性情報 S105Bを作成する。
[0206] 音復元部 304Bは、音構造一部変更部 303Bが作成した変更音構造情報 S301B および音特性抽出部 107Bが作成した音特性情報 S105Bに基づいて復元音 S302
Bを作成する。
[0207] スピーカ 305は、音復元部 304Bが作成した復元音 S302Bを利用者へ出力する。
[0208] 次に、本実施の形態のく VII〉の例を携帯型テレビ電話装置の音復元機能に適用し た具体例について説明する。ここでは、実施の形態 1の〈II〉の 〉の例と同じように、 街角 BGMと自動車のクラクションの音が重なった混合音 S 101Bから街角 BGMを復 元する方法について説明する。ここで、く VI〉の例とことなる点は、復元する音は音声 ではなく楽音であることである。
[0209] はじめに、携帯型テレビ電話装置 301に装着された受信部 302を用いて混合音 S1 01Bである街角 BGMと自動車のクラクションの音が重なった音(図 20を参照)を取り 込む。
[0210] まず、混合音分離部 103は、受信部 302が取り込んだ混合音 S101Bを用いて、実 施の形態 1の〈II〉の 〉の例と同様にして、分離音情報 S102Bを抽出する(図 33のス テツプ 401に対応)。
[0211] 次に、音構造分析部 104Bは、実施の形態 1の〈II〉の 〉の例と同様にして、街角 B GMの音構造情報 S103Bを作成する(図 33のステップ 402に対応)。
[0212] 次に、音構造一部変更部 303Bは、音構造分析部 104Bが作成した音構造情報 S 103Bを一部変更して変更音構造情報 S301Bを作成する(図 33のステップ 3001に 対応)。ここでは、音構造情報 S103Bである、音符系列情報を変更して、利用者にわ 力りやすい音を復元する。たとえば、高齢者に対して街角 BGMのテンポが速い場合 は、ゆっくりとしたテンポの音符系列情報に変更する。なお、復元する音が報知音な どの場合は、音の繰返し周期を変更してもよい。たとえば、高齢者は、速い周期の音 は聞き取りにく 、ため、スピードを少しゆっくりにして音を復元してもよ!/、。
[0213] 次に、同一音特性領域分析部 106Bは、実施の形態 1の〈II〉の 〉の例と同様に して、混合音分離部 103が抽出した分離音情報 S102Bに基づいて同一の音特性か ら成る領域を求めて同一音特性領域情報 S104Bを作成する(図 33のステップ 403 に対応)。
[0214] 次に、音特性抽出部 107Bは、実施の形態 1の〈II〉の 〉の例と同様にして、混合音 分離部 103が抽出した分離音情報 S102Bと同一音特性領域分析部 106Bが作成し た同一音特性領域情報 S104Bとに基づいて復元する街角 BGMの音特性を同一の 音特性より成る領域ごとに抽出して音特性情報 S105Bを作成する(図 33のステップ 404に対応)。 [0215] 次に、音復元部 304Bは、音構造一部変更部 303Bが作成した変更音構造情報 S 301Bと音特性抽出部 107Bが作成した音特性情報 S105Bとに基づいて街角 BGM を復元する(図 33のステップ 3002に対応)。ここでは、楽音合成により、変更された 音特性に基づいて街角 BGM全体の音を復元音 S302Bとして復元する。
[0216] 最後に、利用者は、復元された街角 BGMをスピーカ 305で聞くことができる。
[0217] 以上説明したように、本発明の実施の形態 3によれば、混合音から抽出した復元対 象音に対して音特性の変化を監視することで、復元対象音を音特性が同一である時 間領域で区分けして、欠落した部分が位置する音特性が同一である時間領域にお ける比較的時間長が長い音データ (波形データ等)を用いて音特性を抽出することで 、現実の音特性を忠実に再現することができる。さらに、音構造一部変更部を備える ことで、利用者にわかりやすくかつ自然な音で復元することができる。
[0218] なお、く VI〉、く VII〉の例にぉ 、て、音復元部は、利用者の聴覚特性に基づ!/、て音を 復元してもよい。たとえば、聴覚の時間分解能などを考慮して音構造を変更してもよ い。なお、く VI〉、く VII〉の例で、実施の形態 1の〈I〉の 〉、〈II〉の 〉を一部として用い て説明を行ったが、この形態に限らず、〈I〉のく ii〉、 〈II〉のく ii〉、 〈IV〉を一部として用い て音を復元してもよい。
[0219] なお、混合音は、伝送ノイズ、収音ミスなどにより歪んだ音を含んでもよ!ヽ。
[0220] なお、実施の形態 2の音特性一部変更部と組み合わせて音を復元してもよい。
産業上の利用可能性
[0221] 本発明にかかる音復元装置は、音編集装置、携帯電話、携帯端末、テレビ会議シ ステム、ヘッドホン、補聴器等の音復元機能を必要とする装置等として利用すること ができる。

Claims

請求の範囲
[1] 混合音に含まれる、音の一部が欠落した復元対象音を復元する音復元装置であつ て、
前記混合音に含まれる復元対象音を抽出する混合音分離手段と、
音の意味内容が登録されている音構造知識データベースに基づいて、前記抽出さ れた復元対象音の音が欠落した部分の音素系列、文字系列および音符系列のうち の少なくとも 1つを作成する音構造分析手段と、
前記抽出された復元対象音を、同一の音特性を有する時間領域に区分けする同 一音特性領域分析手段と、
前記区分けされた時間領域の中から欠落された部分が位置する時間領域を特定し 、当該特定された時間領域における復元対象音の音特性を抽出する音特性抽出手 段と、
前記音構造分析手段で作成された前記音素系列、文字系列および音符系列のう ちの少なくとも 1つと前記抽出された音特性とを用いて、復元対象音において欠落し た部分の音を復元する音復元手段と
を備える音復元装置。
[2] 前記同一音特性領域分析手段は、声質の変化、口調の変化、音色の変化、音量 の変化、残響特性の変化および音質の変化のうちの少なくとも 1つに基づいて、音特 性が同一である時間領域を決定する
請求項 1に記載の音復元装置。
[3] 前記音復元手段は、前記欠落した部分の音と前記欠落した部分以外の音とを合わ せた復元対象音全体を、前記音構造分析手段で作成された前記音素系列、文字系 列および音符系列のうちの少なくとも 1つと前記抽出された音特性とを用いて復元す る
請求項 1に記載の音復元装置。
[4] 混合音に含まれる音の一部が欠落した復元対象音を復元する音復元方法であつ て、
前記混合音に含まれる復元対象音を抽出し、 音の意味内容が登録されている音構造知識データベースに基づいて、前記抽出さ れた復元対象音の音が欠落した部分の音素系列、文字系列および音符系列のうち の少なくとも 1つを作成し、
前記抽出された復元対象音を、同一の音特性を有する時間領域に区分けし、 前記区分けされた時間領域の中から欠落された部分が位置する時間領域を特定し 、当該特定された時間領域における復元対象音の音特性を抽出し、
作成された前記音素系列、文字系列および音符系列のうちの少なくとも 1つと前記 抽出された音特性とを用いて、復元対象音において欠落した部分の音を復元する 音復元方法。
混合音に含まれる音の一部が欠落した復元対象音を復元するプログラムであって、 前記混合音に含まれる復元対象音を抽出するステップと、
音の意味内容が登録されている音構造知識データベースに基づいて、前記抽出さ れた復元対象音の音が欠落した部分の音素系列、文字系列および音符系列のうち の少なくとも 1つを作成するステップと、
前記抽出された復元対象音を、同一の音特性を有する時間領域に区分けするステ ップと、
前記区分けされた時間領域の中から欠落された部分が位置する時間領域を特定し 、当該特定された時間領域における復元対象音の音特性を抽出するステップと、 作成された前記音素系列、文字系列および音符系列のうちの少なくとも 1つと前記 抽出された音特性とを用いて、復元対象音において欠落した部分の音を復元するス テツプと
をコンピュータに実行させるプログラム。
PCT/JP2005/022802 2005-01-25 2005-12-12 音復元装置および音復元方法 WO2006080149A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007500432A JP3999812B2 (ja) 2005-01-25 2005-12-12 音復元装置および音復元方法
US11/401,263 US7536303B2 (en) 2005-01-25 2006-04-11 Audio restoration apparatus and audio restoration method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005-017424 2005-01-25
JP2005017424 2005-01-25

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US11/401,263 Continuation US7536303B2 (en) 2005-01-25 2006-04-11 Audio restoration apparatus and audio restoration method

Publications (1)

Publication Number Publication Date
WO2006080149A1 true WO2006080149A1 (ja) 2006-08-03

Family

ID=36740183

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/022802 WO2006080149A1 (ja) 2005-01-25 2005-12-12 音復元装置および音復元方法

Country Status (3)

Country Link
US (1) US7536303B2 (ja)
JP (1) JP3999812B2 (ja)
WO (1) WO2006080149A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011257656A (ja) * 2010-06-10 2011-12-22 Canon Inc 音声信号処理装置および音声信号処理方法
JP2013210230A (ja) * 2012-03-30 2013-10-10 Sony Corp データ処理装置、データ処理方法、及び、プログラム
KR101475894B1 (ko) * 2013-06-21 2014-12-23 서울대학교산학협력단 장애 음성 개선 방법 및 장치
US10452986B2 (en) 2012-03-30 2019-10-22 Sony Corporation Data processing apparatus, data processing method, and program
WO2020226001A1 (ja) * 2019-05-08 2020-11-12 ソニー株式会社 情報処理装置および情報処理方法

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100555287C (zh) * 2007-09-06 2009-10-28 腾讯科技(深圳)有限公司 互联网音乐文件排序方法、系统和搜索方法及搜索引擎
US20090129605A1 (en) * 2007-11-15 2009-05-21 Sony Ericsson Mobile Communications Ab Apparatus and methods for augmenting a musical instrument using a mobile terminal
US8103511B2 (en) * 2008-05-28 2012-01-24 International Business Machines Corporation Multiple audio file processing method and system
WO2009152124A1 (en) * 2008-06-10 2009-12-17 Dolby Laboratories Licensing Corporation Concealing audio artifacts
CN101304391A (zh) * 2008-06-30 2008-11-12 腾讯科技(深圳)有限公司 一种基于即时通讯系统的语音通话方法及系统
KR101042515B1 (ko) * 2008-12-11 2011-06-17 주식회사 네오패드 사용자의 의도에 기반한 정보 검색방법 및 정보 제공방법
US8611558B2 (en) 2009-02-26 2013-12-17 Adobe Systems Incorporated System and method for dynamic range extension using interleaved gains
GB0919672D0 (en) * 2009-11-10 2009-12-23 Skype Ltd Noise suppression
WO2011116514A1 (en) * 2010-03-23 2011-09-29 Nokia Corporation Method and apparatus for determining a user age range
US9330675B2 (en) 2010-11-12 2016-05-03 Broadcom Corporation Method and apparatus for wind noise detection and suppression using multiple microphones
US8571873B2 (en) * 2011-04-18 2013-10-29 Nuance Communications, Inc. Systems and methods for reconstruction of a smooth speech signal from a stuttered speech signal
US8682678B2 (en) * 2012-03-14 2014-03-25 International Business Machines Corporation Automatic realtime speech impairment correction
JP2014106247A (ja) * 2012-11-22 2014-06-09 Fujitsu Ltd 信号処理装置、信号処理方法および信号処理プログラム
CN105335592A (zh) * 2014-06-25 2016-02-17 国际商业机器公司 生成时间数据序列的缺失区段中的数据的方法和设备
US10140089B1 (en) * 2017-08-09 2018-11-27 2236008 Ontario Inc. Synthetic speech for in vehicle communication
US11727949B2 (en) * 2019-08-12 2023-08-15 Massachusetts Institute Of Technology Methods and apparatus for reducing stuttering
CN111556254B (zh) * 2020-04-10 2021-04-02 早安科技(广州)有限公司 利用视频内容进行视频切割的方法、系统、介质及智能设备
CN113612808B (zh) * 2021-10-09 2022-01-25 腾讯科技(深圳)有限公司 音频处理方法、相关设备、存储介质及程序产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003295880A (ja) * 2002-03-28 2003-10-15 Fujitsu Ltd 録音音声と合成音声を接続する音声合成システム
JP2004272128A (ja) * 2003-03-12 2004-09-30 Advanced Telecommunication Research Institute International 音声信号の復元装置及びコンピュータプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2543577B2 (ja) 1988-06-20 1996-10-16 沖電気工業株式会社 音声パケット補間方法
FI97758C (fi) * 1992-11-20 1997-02-10 Nokia Deutschland Gmbh Järjestelmä audiosignaalin käsittelemiseksi
US5673210A (en) * 1995-09-29 1997-09-30 Lucent Technologies Inc. Signal restoration using left-sided and right-sided autoregressive parameters
JP2000222682A (ja) 1999-02-01 2000-08-11 Honda Motor Co Ltd 道路交通情報報知装置
JP3594514B2 (ja) * 1999-07-12 2004-12-02 株式会社ソニー・コンピュータエンタテインメント エンコーダ、デコーダ、音声データ処理装置、音声データ処理システム、音声データ圧縮方法、音声データ伸張方法、音声データ処理方法及び記録媒体
US7031980B2 (en) * 2000-11-02 2006-04-18 Hewlett-Packard Development Company, L.P. Music similarity function based on signal analysis
GB0202386D0 (en) * 2002-02-01 2002-03-20 Cedar Audio Ltd Method and apparatus for audio signal processing
US7243060B2 (en) * 2002-04-02 2007-07-10 University Of Washington Single channel sound separation
JP3950930B2 (ja) * 2002-05-10 2007-08-01 財団法人北九州産業学術推進機構 音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法
US7024360B2 (en) * 2003-03-17 2006-04-04 Rensselaer Polytechnic Institute System for reconstruction of symbols in a sequence
JP4287785B2 (ja) 2003-06-05 2009-07-01 株式会社ケンウッド 音声合成装置、音声合成方法及びプログラム
DE04735990T1 (de) * 2003-06-05 2006-10-05 Kabushiki Kaisha Kenwood, Hachiouji Sprachsynthesevorrichtung, sprachsyntheseverfahren und programm
JP3923513B2 (ja) * 2004-06-08 2007-06-06 松下電器産業株式会社 音声認識装置および音声認識方法
WO2007023660A1 (ja) * 2005-08-24 2007-03-01 Matsushita Electric Industrial Co., Ltd. 音識別装置
KR100733965B1 (ko) * 2005-11-01 2007-06-29 한국전자통신연구원 객체기반 오디오 전송/수신 시스템 및 그 방법
US8019089B2 (en) * 2006-11-20 2011-09-13 Microsoft Corporation Removal of noise, corresponding to user input devices from an audio signal

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003295880A (ja) * 2002-03-28 2003-10-15 Fujitsu Ltd 録音音声と合成音声を接続する音声合成システム
JP2004272128A (ja) * 2003-03-12 2004-09-30 Advanced Telecommunication Research Institute International 音声信号の復元装置及びコンピュータプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011257656A (ja) * 2010-06-10 2011-12-22 Canon Inc 音声信号処理装置および音声信号処理方法
JP2013210230A (ja) * 2012-03-30 2013-10-10 Sony Corp データ処理装置、データ処理方法、及び、プログラム
US10452986B2 (en) 2012-03-30 2019-10-22 Sony Corporation Data processing apparatus, data processing method, and program
KR101475894B1 (ko) * 2013-06-21 2014-12-23 서울대학교산학협력단 장애 음성 개선 방법 및 장치
WO2020226001A1 (ja) * 2019-05-08 2020-11-12 ソニー株式会社 情報処理装置および情報処理方法

Also Published As

Publication number Publication date
US7536303B2 (en) 2009-05-19
US20060193671A1 (en) 2006-08-31
JPWO2006080149A1 (ja) 2008-06-19
JP3999812B2 (ja) 2007-10-31

Similar Documents

Publication Publication Date Title
JP3999812B2 (ja) 音復元装置および音復元方法
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
McLoughlin Applied speech and audio processing: with Matlab examples
US8898062B2 (en) Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program
RU2294565C2 (ru) Способ и система динамической адаптации синтезатора речи для повышения разборчивости синтезируемой им речи
JPH10260692A (ja) 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
CN104081453A (zh) 用于声学变换的系统和方法
JPH10507536A (ja) 言語認識
JP2007086316A (ja) 音声合成装置、音声合成方法、音声合成プログラムおよび音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体
US20120095767A1 (en) Voice quality conversion device, method of manufacturing the voice quality conversion device, vowel information generation device, and voice quality conversion system
Hinterleitner Quality of Synthetic Speech
CN112289300B (zh) 音频处理方法、装置及电子设备和计算机可读存储介质
Nakagiri et al. Improving body transmitted unvoiced speech with statistical voice conversion
Deka et al. Development of assamese text-to-speech system using deep neural network
JP2007025042A (ja) 音声合成装置および音声合成プログラム
JP3914612B2 (ja) 通信システム
CN109686358A (zh) 高保真的智能客服语音合成方法
Meyer Coding human languages for long-range communication in natural ecological environments: shouting, whistling, and drumming
Laaksonen Artificial bandwidth extension of narrowband speech-enhanced speech quality and intelligibility in mobile devices
Ferris Techniques and challenges in speech synthesis
US6934680B2 (en) Method for generating a statistic for phone lengths and method for determining the length of individual phones for speech synthesis
KR20210012265A (ko) 음성 제공 방법, 음성 제공을 위한 학습 방법 및 그 장치들
Ozaydin Acoustic and linguistic properties of Turkish Whistle Language
CN113421544B (zh) 歌声合成方法、装置、计算机设备及存储介质
JP2005181998A (ja) 音声合成装置および音声合成方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2007500432

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11401263

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 11401263

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application
122 Ep: pct application non-entry in european phase

Ref document number: 05814777

Country of ref document: EP

Kind code of ref document: A1

WWW Wipo information: withdrawn in national office

Ref document number: 5814777

Country of ref document: EP