WO2006126649A1 - 音声編集装置、音声編集方法、および、音声編集プログラム - Google Patents

音声編集装置、音声編集方法、および、音声編集プログラム Download PDF

Info

Publication number
WO2006126649A1
WO2006126649A1 PCT/JP2006/310490 JP2006310490W WO2006126649A1 WO 2006126649 A1 WO2006126649 A1 WO 2006126649A1 JP 2006310490 W JP2006310490 W JP 2006310490W WO 2006126649 A1 WO2006126649 A1 WO 2006126649A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
standard pattern
data
audio data
voice data
Prior art date
Application number
PCT/JP2006/310490
Other languages
English (en)
French (fr)
Inventor
Toshiyuki Teranishi
Kouji Hatano
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to EP06746869A priority Critical patent/EP1884923A4/en
Priority to JP2006535901A priority patent/JP5094120B2/ja
Priority to CN2006800185552A priority patent/CN101185115B/zh
Priority to US11/915,613 priority patent/US8438027B2/en
Publication of WO2006126649A1 publication Critical patent/WO2006126649A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Definitions

  • Voice editing apparatus voice editing method, and voice editing program
  • the present invention relates to a voice editing device, a voice editing method, and a voice editing program.
  • an advanced audio editing program is used when creating an audio card (recording audio on a card and attaching a photograph or the like on the surface of the card).
  • the recorded audio is displayed in the editing window on the computer screen using the editor, and the editor performs partial deletion, cutout, combining, etc. of the audio using a tool such as a mouse.
  • a speech recognition device speech recognition is performed using a speech standard pattern as a speech recognition dictionary (hereinafter simply referred to as a standard pattern).
  • a standard pattern is used. Need to increase.
  • a standard pattern may be created by deleting or cutting out a part of an existing standard pattern, which is also a form of editing audio data.
  • the speech recognition device divides the speech to be recognized at predetermined time intervals (frames), extracts multidimensional feature parameters (cepstrum) representing the features of the speech waveform of each frame, and extracts the feature parameters.
  • the time series pattern is compared with the standard pattern stored in the speech recognition device (the time series pattern of the vocabulary feature parameter that is the basic unit of speech recognition), the degree of similarity between them is determined, and the highest degree of similarity is obtained.
  • Vocabulary is output as a recognition result.
  • the cepstrum (characteristic parameter) is an absolute value of a speech signal that is divided into 20 msec to 40 msec time windows, and the sound signals corresponding to the time windows are analyzed by Fourier transform (FFT). Find the logarithm of the value (amplitude spectrum) and It can be obtained by performing inverse Fourier transform (IDFT) on the wavenumber spectrum.
  • FFT Fourier transform
  • the frequency spectrum of the speech obtained by FFT is roughly the shape information of the speech (envelope information indicating phonological properties) and fine !, vibration component information (fine structure information indicating voice pitch)
  • envelope information indicating phonological properties
  • fine structure information indicating voice pitch
  • IDFT Fourier transform processing
  • IDFT concentrates envelope information on the left side of the kerflens axis (horizontal axis), while fine structure information is concentrated on the right side of the kerflenght axis. Can be separated. This is the cepstrum.
  • LPC Linear Predictive Coding
  • LPC Linear Predictive Coding
  • Melui ⁇ logarithmic transformation of a kerflensic axis in accordance with the human auditory characteristics
  • mel cepstrum the melted cepstrum
  • cepstrum is used as a broad concept term including “mel cepstrum”.
  • cepstrum is mainly displayed as “characteristic parameters”.
  • cepstrum and characteristics are described as “voice data (high-level concept term)”.
  • speech data as a high-level term includes not only the above-mentioned voice feature parameters (cepstrum) but also “speech text” and “speech data (waveform data itself)”
  • speech data as a high-level term includes not only the above-mentioned voice feature parameters (cepstrum) but also “speech text” and “speech data (waveform data itself)”
  • voice data high-level concept term
  • the speech recognition apparatus has a large number of standard patterns as a recognition dictionary (that is, each cepstrum for each vocabulary as a recognition unit: a feature parameter indicating the speech characteristics of the vocabulary). It is prepared. In order to increase the recognizable vocabulary, standard patterns must be enriched.
  • Patent Document 1 Conventionally, as a method for creating a new standard pattern for use in speech recognition, a method for automatically creating a standard pattern for a word by inputting the text of the word (Patent Document 1) has been proposed. Speak.
  • Patent Document 2 describes a small number of words in order to create a recognition word dictionary for unspecified speakers.
  • the phonetic segment dictionary is created by comparing the feature parameters of words pronounced by multiple speakers with a general-purpose standard pattern created based on the speech of many speakers, and obtaining similarity.
  • a technique for performing speech recognition using a computer is disclosed.
  • a technique has been proposed in which a voice recognition device is mounted on a mobile terminal (such as a mobile phone terminal) and the operation of the mobile terminal can be controlled using voice recognition (eg, a patent). Reference 3).
  • Patent Document 1 Japanese Patent Laid-Open No. 11-190997
  • Patent Document 2 JP-A-5-188988
  • Patent Document 3 Japanese Patent Application Laid-Open No. 2004-153306
  • Patent Document 4 Japanese Unexamined Patent Application Publication No. 2003-188948
  • Patent Document 5 Japanese Unexamined Patent Publication No. 2000-276184
  • an advanced dedicated voice editing program is used when editing voice data. It is difficult to install in a terminal from the viewpoint of cost.
  • editing audio data using a dedicated audio editing program requires complex device operations using a mouse or the like, and in this respect as well, it is difficult to apply to mobile terminals. Also, editing audio data using a dedicated audio editing program tends to increase the editing time.
  • the present invention has been made based on such considerations, so that audio data can be easily and inexpensively edited. For example, audio data can be easily edited even on a mobile terminal.
  • the purpose is to do.
  • One of the specific objects of the present invention is to easily enrich the standard patterns registered in the speech recognition device, thereby enabling a speech recognition device that can efficiently expand a speech-recognizable vocabulary, It is to provide a standard pattern creation method and a standard pattern creation program.
  • the voice editing device of the present invention is a voice editing device having a function of creating existing voice data by diverting existing voice data, and the diversion source voice of the existing voice data. Data is matched with the change location specifying voice data for specifying the change location in the diversion source audio data, and at least a part of the diversion source audio data is specified as the change location And a voice data creation unit that creates another voice data using the voice data of the changed part specified by the changed part specifying unit.
  • the voice data creation unit may include the voice data of the changed portion of the diversion source voice data specified by the changed portion specifying unit. Audio data obtained by replacing the data with other audio data is created as the other audio data.
  • the voice data creation unit is configured to output voice data obtained by combining other voice data with the voice data of the changed portion specified by the changed portion specifying unit. Create as separate audio data.
  • the present invention can also be used to divide existing voice data into a plurality of sentences. For example, the existing voice data that says “It is a 10 o'clock meeting. The place is the first meeting room” is stored on the mobile terminal. And the user utters “Place is”, and this voice is taken into the mobile terminal as a new voice input and compared with the existing voice data by pattern matching. As a result, the text is divided in front of the “place” of the existing audio data, and as a result, the audio data “10 o'clock power is also a meeting. "And the place is the first meeting room.”
  • the voice editing device of the present invention it is used when creating the other voice data.
  • the other audio data includes at least audio data about audio input to the audio editing device from the outside, audio data obtained by cutting off existing audio data, or audio data of the existing audio data itself. Including.
  • the speech recognition apparatus of the present invention is a speech recognition apparatus having a function of creating another standard pattern by diverting an existing standard pattern using the speech editing apparatus of the present invention.
  • the diversion source standard pattern is matched with the change location specifying audio data for specifying the change location in the diversion source standard pattern, and the diversion source standard pattern is matched.
  • a change location specifying unit that identifies at least a part of the change location as a change location
  • a voice data creation unit that creates another standard pattern using the voice data of the change location specified by the change location specification unit
  • V, “t”, a standard pattern of vocabulary for example, by changing the matched part (that is, “in the hall”) to the changed part, where in the standard pattern of the diversion source You can easily specify whether to change. Then, by replacing the voice data for update (“in the hospital”, “in the station”, “in the building”) with the voice data for update (“in the building”), A large number of new standard patterns can be created efficiently for automatic off control.
  • the speech recognition apparatus of the present invention replaces another standard pattern created by the speech data creation unit with the standard pattern of the diversion source, or a standard pattern different from the standard pattern of the diversion source
  • the standard pattern database update unit for updating the standard pattern database by adding as
  • the newly created standard pattern is replaced with the standard pattern of the diversion source (in this case, the standard pattern of the diversion source disappears), or as a standard pattern different from the standard pattern of the diversion source It is added to the speech recognition dictionary (standard pattern database) (in this case, the original standard pattern and the new standard pattern coexist). This updates the standard pattern database.
  • the change location specifying unit performs a matching process between voice data for extracting the diversion-source standard pattern and voice data of a plurality of existing standard patterns. Then, an existing standard pattern including a matching portion is extracted as the standard pattern of the diversion source.
  • the matching process is also used when using the diversion source standard pattern.
  • the voice recognition function inherent to the voice recognition device it is possible to quickly extract and identify the target diversion source standard pattern. .
  • the electric device of the present invention is equipped with the voice editing device or the voice recognition device of the present invention.
  • new voice data can be efficiently created by appropriately modifying (editing) existing standard patterns according to actual needs.
  • the vocabulary of voice data and voice recognition dictionary can be expanded flexibly and quickly. Therefore, users of electronic devices can effectively customize voice data (including standard patterns) according to their own lifestyle patterns, which will lead to multi-functionalization of electrical devices.
  • the portable terminal of the present invention is equipped with the voice editing device or the voice recognition device of the present invention.
  • the voice editing device and voice recognition device of the present invention are suitable for downsizing and cost reduction with little waste in order to make full use of existing functions and voice data, and are also installed in mobile phone terminals. can do.
  • mobile phone users since it is easy to customize the voice data to be used, mobile phone users can freely and easily use the voice editing functions (including standard pattern editing functions) in various situations of their daily lives. can do. Therefore, the multi-functionality and high functionality of mobile terminals will advance, and the utility value of mobile terminals will improve.
  • the audio editing method of the present invention is a voice editing method for creating another audio data by diverting existing audio data, the diversion source audio data and the diversion source audio data.
  • the first step of performing the matching process with the change location specifying voice data for specifying the change location in the above and specifying at least a part of the diversion source voice data as the change location, and the specified And a second step of creating another voice data by using the voice data of the changed portion.
  • the speech recognition method of the present invention is a speech recognition method for creating another standard pattern by diverting an existing standard pattern, in the diversion source standard pattern and the diversion source standard pattern.
  • the first step of performing the matching process with the change location specifying audio data for specifying the change location, and specifying at least a part of the standard pattern of the diversion source as the change location, and the identified change And a second step of creating another standard pattern using the audio data of the location.
  • the voice editing program of the present invention is a program for causing a computer to execute each step of the voice editing method of the present invention.
  • the speech recognition program of the present invention is a program for causing a computer to execute each step of the speech recognition method of the present invention.
  • new voice data (including a standard pattern as a voice recognition dictionary) is created by editing existing voice data that is not created from scratch.
  • the location of change is automatically identified using pattern matching processing, that is, the voice recognition function of the voice recognition device is also used for editing voice data. Editing work is simplified.
  • an existing standard pattern is utilized by utilizing the voice editing device, the voice editing method, and the voice editing program of the present invention as a voice recognition device, a standard pattern creating method, and a standard pattern creating program.
  • Various standard patterns can be created efficiently. Also, by using the pattern matching process to automatically identify the changes, that is, by using the voice recognition function of the voice recognition device for the creation of standard patterns, useful standard patterns useful for real life can be created. It can be created very efficiently. Therefore, the vocabulary that can be recognized by voice can be expanded flexibly and quickly.
  • the input voice signal is In the case of efficiently creating e-mails by converting to text data, it is considered important to recognize a group of voices that differ only in part. Therefore, the technique adopted in the speech recognition apparatus of the present invention, which modifies a part of the existing standard pattern and enriches the new standard pattern, is extremely effective.
  • a change point in the existing standard pattern of the diversion source can be easily specified using the pattern matching process. That is, in the present invention, since the matching processing function of the speech recognition apparatus is also used for creating a standard pattern, the addition of hardware and the like can be minimized. Therefore, realization is easy and it is advantageous in terms of cost.
  • update voice data for updating the existing standard pattern database of the diversion source voice voice input by the user, voice data obtained by cutting from an existing standard pattern, or The voice data of the existing standard pattern itself can be used. Since various audio data can be used, the process of creating a new standard pattern is made more efficient.
  • the voice editing apparatus (including the voice recognition apparatus) of the present invention is easy to customize voice data and has features such as downsizing and low cost, and is therefore suitable for mounting on electronic equipment. Therefore, it contributes to the advancement of multifunctional electrical equipment.
  • the audio editing program of the present invention it is possible to easily and inexpensively edit audio data ⁇ (including standard patterns) in various electric devices.
  • FIG. 1 A block diagram for explaining the outline of a speech recognition apparatus (using a speech editing apparatus for speech recognition) of the present invention.
  • FIG. 2 Flow for explaining the main procedure of the process of creating a new standard pattern by using the existing standard pattern and updating the contents of the standard pattern database in the speech recognition apparatus of the present invention of FIG. Figure
  • FIG. 3 A user of a mobile phone terminal incorporating the speech recognition apparatus of the present invention Diagram for explaining the main procedure for creating a scene
  • FIG. 4 (a) to (d) are diagrams showing specific signal processing contents when a standard pattern is created according to the procedure shown in Fig. 3.
  • FIG. 5 is a block diagram showing an example of a specific configuration of the speech recognition apparatus of the present invention.
  • FIG. 6 is a sequence diagram showing the operation procedure of each part of the speech recognition apparatus of FIG. 5 and the procedure for exchanging data (signals).
  • FIG. 8 (a) to (d) are diagrams showing specific signal processing contents when a standard pattern is created according to the procedure shown in FIG.
  • FIG. 9 is a block diagram showing another example of the specific configuration of the speech recognition apparatus of the present invention (example of performing the control described in FIGS. 7 and 8).
  • FIG. 10 is a sequence diagram showing the operation procedure of each part of the speech recognition apparatus of FIG. 9 and the procedure for exchanging data (signals).
  • FIG. 11 is a perspective view showing an external configuration of a mobile phone terminal equipped with the voice recognition device of the present invention.
  • FIG. 12 is a block diagram showing an internal configuration of the mobile phone terminal shown in FIG.
  • Pattern matching unit for pattern matching for original speech recognition 24 Standard pattern database (speech recognition dictionary file)
  • a pattern matching unit that performs matching processing for original speech recognition and for identifying diversion-source standard patterns
  • the present invention relates to an audio editing apparatus and audio editing method in a broad sense, and can be used for various other applications as well as editing and processing pure audio.
  • the speech editing apparatus of the present invention for speech recognition that is, as a speech recognition apparatus
  • the standard pattern as a speech recognition dictionary can be efficiently expanded. It becomes possible.
  • FIG. 1 is a block diagram for explaining the outline of the speech recognition device of the present invention (the speech editing device of the present invention is used for speech recognition).
  • the speech recognition apparatus of the present invention includes an acoustic analysis unit 10, a feature parameter extraction unit 12, and a changed part specifying unit 14 (pattern matching used for specifying a changed part. Part 16), standard pattern creation part 18 and standard pattern database update part 2
  • a pattern matching unit speech recognition unit for performing speech recognition of the speech recognition apparatus 22 for executing pattern matching processing
  • a standard pattern database speech recognition dictionary file
  • the format of the data stored in the standard pattern database 24 includes “characteristic parameters (cepstrum)”, “text-to-speech (dictionary data as a character string)”, “speech”. Even if the data (waveform data itself) may be shifted, in the following description, the standard pattern database 24 will be described assuming that “characteristic parameters (cepstrum)” are stored as standard patterns. . [0063] In FIG.
  • the pattern matching unit 16 in the change location specifying unit 14 and the pattern matching unit (speech recognition unit) 22 that performs the original speech recognition of the speech recognition device are separately described. It is possible to use a common pattern matching unit that is not limited to this. This is the same in the following embodiments.
  • the acoustic analysis unit 10 in Fig. 1 divides the input audio signal by a time window of about 20 msec to 40 msec, and performs a Fourier transform (FFT) on the audio signal corresponding to the time window.
  • FFT Fourier transform
  • the feature parameter extraction unit 12 obtains the logarithm of the absolute value of the acoustic analysis result (that is, the amplitude of the frequency spectrum), and performs inverse Fourier transform (I DFT) on the logarithmic frequency spectrum. And then perform Melly IV to obtain a mel cepstrum (feature parameter).
  • the feature parameters are sent to the change location specifying unit 14 and the standard pattern creating unit 18.
  • the change location specifying unit 14 extracts the feature parameters of the existing standard pattern that is the diversion source from the standard pattern database 24. Then, the pattern matching unit 16 is used to match the feature parameter of the change location specifying voice data (for example, the user inputs using a microphone) and the feature parameter of the existing standard pattern of the diversion source, The location that has been changed or matched is identified as the changed location. Then, a change location signal indicating the location of the change location is sent to the standard pattern creation unit 18.
  • the standard pattern creation unit 18 performs an editing process such as cut, deletion, replacement, and combination on the diversion source standard pattern to create a new standard pattern.
  • Cut-out audio data that is, cut-out audio feature parameters
  • audio data obtained by replacing the changed audio data with other audio data for example, replacement audio data input by the user using a microphone
  • That is, the speech feature parameters of the vocabulary after replacement the speech data obtained by combining other speech data at the beginning or end of the cut speech data (ie, speech features of the vocabulary after combined processing)
  • At least one of the parameters is a new standard pattern.
  • the standard pattern database update unit 20 updates the standard pattern database (speech recognition dictionary file) 24.
  • update contents There are two types of update contents: “replacement” and “addition”. That is, in the case of updating by “replacement”, the newly created standard pattern is replaced with the existing standard pattern of the diversion source. If “add” is selected, the newly created standard pattern is added to the standard pattern database 24. In this case, the existing standard pattern of the diversion source and the new standard pattern coexist.
  • FIG. 2 shows a main procedure of the process of creating a new standard pattern by using the existing standard pattern and updating the contents of the standard pattern database in the speech recognition apparatus of the present invention shown in FIG. It is a flowchart for demonstrating.
  • the time-series pattern of audio data is expressed in alphabets for convenience of explanation.
  • step S100 the process of specifying the changed part of the existing standard pattern of the diversion source is executed.
  • a pattern of the changed part specifying voice data (referred to as “ cd ”) and the standard pattern (referred to as “abcdef”) of the diversion source.
  • the matching process is performed (step S101).
  • the matched part (“cd”) is set as the changed part (step S102).
  • the matching part (abef) is used as the change location (step S103).
  • the standard pattern creation unit 18 performs a new standard pattern creation process (step S 200).
  • step S100 S102, S103
  • step S201, 202 the audio data is cut out from the changed part specified in step S100 (S102, S103) (steps S201, 202).
  • the cut audio data “abef” and “cd” itself can be used as a new standard pattern (S301, S302).
  • “Abef” is the part other than the part matched at step SlOl, which is equal to the voice data obtained by deleting the voice data of the part matching the standard pattern power of the diversion source. .
  • step S201 the voice data “cd” at the changed part specified in step 102 is replaced with the voice data for update “QRS”.
  • step S204 the audio data cut in step S201 is displayed.
  • the voice data for update “QRS” is combined at the beginning or end of the data (“cd”).
  • the update audio data “QRS” is either the audio data of the input audio to which the microphone force is input, the audio data cut in S201 or S202, or the audio data of the existing standard pattern itself. It is.
  • step S203 the part of “abOOef” is replaced with “QRS” to be “a bQRSefJ (the“ cd ”in the original standard pattern is replaced with“ QRS ”. Form).
  • step S204 “QRS” is combined with the beginning or end of “cd” to obtain “QRSc dj” or “cdQRS”.
  • the standard pattern database update unit 20 updates the standard pattern database 24 (step S300).
  • the contents of the update include “Replacement processing (step S30
  • the newly created standard pattern is added to the standard pattern database 24.
  • the existing standard pattern of the diversion source and the new standard pattern coexist.
  • a new standard pattern is created by utilizing an existing standard pattern that is not created from scratch, and a change point is automatically identified using a pattern matching process.
  • the standard pattern is enriched for voice recognition of the announcement in the train is taken as an example, and the configuration and operation of the voice recognition device and the standard pattern creation procedure are used. This will be described more specifically.
  • an office worker commuting by train may become tired from work and fall asleep and cannot get off at a disembarking station (eg, Shibuya station).
  • the office worker's mobile phone terminal is equipped with a voice recognition device, "Shibuya is coming soon" ⁇ ⁇ voice recognition of the in-car announcement, the vibrator is triggered by this voice recognition, and a sleep is caused by vibration. If you can wake up the office worker, you can prevent forgetting to get off and it is convenient. However, if the office worker gets off frequently in “Yokohama”, it is also necessary to activate the vibrator by recognizing the announcement “Now Yokohama”.
  • FIG. 3 is a diagram for explaining a main procedure when a user of a mobile phone terminal incorporating the speech recognition apparatus of the present invention newly creates a standard pattern.
  • step Sl an in-car announcement was recorded using the microphone 2 of the mobile phone terminal 550, and "Soon after Shibuya", and the sound of the in-car announcement was subjected to acoustic analysis and feature parameters. And is registered in the mobile phone terminal 550 as a standard pattern (step Sl).
  • step S2 On the display unit (liquid crystal display or the like) 30 of the cellular phone terminal 550, a message "Please say the part you want to change" t is displayed (step S2).
  • the user (P) pronounces “Shibuya”.
  • the voice “Shibuya” is taken into the mobile phone terminal 550 via the microphone 2 of the mobile phone terminal 550, and the characteristic parameters are extracted through acoustic analysis.
  • a matching process is performed for the standard pattern of the diversion source, that is, the characteristic parameter of the vocabulary “I will soon be Shibuya” and the characteristic parameter of the voice data “Shibuya” to identify the changed part. Is identified as the change (step S4).
  • a guidance message “Please say the replacement character! /,” T is displayed on the display unit 30 of the mobile phone terminal 550 (step S5).
  • the user (P) pronounces “Yokohama”, and this “Yokohama”! Voice is captured into the mobile phone terminal 550 via the microphone 2 of the mobile phone terminal 550, and the acoustic analysis is performed. After that, feature parameters are extracted.
  • a newly created standard pattern (“Now Yokohama") is displayed on the display unit 30 of the mobile phone terminal 550, and this is displayed to the user P. Ask if it is okay. After confirming the screen, the user (P) selects “yes” (step S7).
  • step S8 A standard pattern is automatically created as a characteristic parameter of the vocabulary, and the standard pattern database 24 is updated (step S8).
  • the voice data of the changed part identified in step S4 ("Shibuya" characteristic parameter) is replaced with the characteristic parameter of "Yokohama", and this makes the vocabulary characteristic of "I'm Yokohama soon".
  • a standard pattern with parameter power is created, and the newly created standard pattern
  • FIGS. 4A to 4D are diagrams showing specific signal processing contents when a standard pattern is created according to the procedure shown in FIG.
  • pattern matching processing is performed between the voice data “Tsutsuki Shibuades” of the diversion source standard pattern and the change location specifying voice data “Shupya”.
  • FIG. 4 (d) shows the updated standard pattern group! /.
  • FIG. 5 is a block diagram showing an example of a specific configuration of the speech recognition apparatus of the present invention.
  • FIG. 5 the configuration of FIG. 1 includes a microphone (MIC) 2, a recorded voice storage unit 4, and a voice recognition device.
  • the control unit 26 for comprehensively controlling the operation, the display interface 28, and the display unit 30 are added.
  • the basic operation of the speech recognition device is as described above with reference to FIG.
  • FIG. 6 is a sequence diagram showing the operation procedure of each part of the speech recognition apparatus of FIG. 5 and the procedure for exchanging data (signals).
  • the control unit 26 displays a diversion source audio selection screen on the display unit 30, and allows the user to select diversion source audio data (step S400).
  • the in-car announcement voice “Shibuya is coming soon” has been recorded in advance and stored in the recorded voice storage unit 4, so this is selected.
  • the acoustic analysis unit 10 performs voice analysis (step S401), and the feature parameter extraction unit 12 extracts feature parameters (step S402).
  • the extracted feature parameters are sent to the change location specifying unit 14 and the standard pattern creating unit 18 (steps S403, S404).
  • control unit 26 displays on the display unit 30 a guidance message that prompts the user to input a voice for specifying the changed portion (step S405).
  • step S406 acoustic analysis
  • step S407 feature parameters are extracted, and the feature parameters are sent to the change location specifying unit 14 and the standard pattern creating unit 18 (step S408, S409), the changed part is identified (S410).
  • the change location signal indicating the location of the change location is sent to the standard pattern creation section 18 (S411).
  • the newly created standard pattern is sent to the standard pattern database update unit 20 (step S417), and is also sent to the display unit 30 (S418). After the user confirms the update (step S419), the standard pattern is updated. The pattern database 24 is updated (step S420).
  • the setting in the mobile phone terminal in which the speech recognition apparatus of the present invention is mounted This section describes the procedure for creating a new standard pattern required for this control, assuming that settings (for example, settings when receiving e-mail) are controlled by the user's voice.
  • the user of the mobile phone terminal can appropriately change the screen displayed on the display unit when an e-mail is received and the ringtone output when the incoming call is received according to his / her preference.
  • the folder for storing received mail can also be freely selected.
  • display settings has a broad meaning, and includes display settings for telephone standby screens and display settings for game downloads in addition to display settings for e-mail. .
  • display settings When changing the settings of a mobile phone terminal, first change the menu item of the superordinate concept “Change display settings”, then “Change display settings when receiving mail” t It is common to select specific menu items.
  • Figure 7 shows a new standard that uses the voice recognition to select the standard pattern for changing the display settings when receiving mail, and deletes the part when the mail is received from the selected standard pattern. It is a figure which shows the procedure in the case of producing a pattern.
  • a guidance message "Please say the recognized vocabulary you want to change” is displayed on display 30 of mobile phone terminal 550 (step Sl).
  • the user utters "mail reception” which is a keyword for searching for a diversion source standard pattern (step S2).
  • the diversion source standard pattern can be efficiently found by utilizing the voice recognition function inherent in the speech recognition apparatus. Can be put out.
  • step S6 On the display unit 30 of the cellular phone terminal 550, a message “Please say the part you want to change” t is displayed (step S6).
  • the user (P) pronounces "when receiving mail”. This voice is captured in the mobile phone terminal 550, acoustic analysis and feature parameter extraction are performed, and matching with the feature parameter of the standard pattern “Change the display setting when receiving mail” selected in step S5. As a result, it is specified that the changed part is “at the time of receiving mail” (step S8).
  • a guidance message for inquiring about how to change the standard pattern is displayed on the display unit 30 of the mobile phone terminal 550. That is, the following two options are displayed: “1. Delete target part” and “2. Change target part” (step S9).
  • the user 1) selects "1. Delete target part”. Then, the display unit 30 displays a confirmation screen that asks if you really want to “delete”. If the user (P) selects “yes, (yes)”, “change the display settings.
  • the standard pattern is newly created according to the desired vocabulary (step S11).
  • FIGS. 8A to 8D are diagrams showing specific signal processing contents when a standard pattern is created according to the procedure shown in FIG.
  • Fig. 8 (a) the voice data of the standard pattern of the diversion source "Mail Jushinji no hijisushi wo henshi sushi" has already been identified. A pattern matching process with “Mail Jushinzino” is performed.
  • the standard pattern group ie, “E-mail address”, “E-mail address” registered in this newly created standard pattern force standard pattern database (reference numeral 24 in FIG. 1) Newly added to "Justinno Otossetoji” and "E-mail Shinsetsu Freeze Setto".
  • FIG. 8 (d) shows the updated standard pattern group! /.
  • FIG. 9 is a block diagram showing another example of the specific configuration of the speech recognition apparatus of the present invention (example in which the control described in FIGS. 7 and 8 is performed).
  • FIG. 9 parts that are the same as those in FIGS. 1 and 5 are given the same reference numerals.
  • the recorded voice storage unit 4 is deleted from the configuration of FIG. 5, and the diversion source standard pattern extraction unit 32 (including the pattern matching unit 34 and a pattern that matches the input keyword is displayed. It has a function to add all existing standard patterns as candidates for diversion source standard patterns).
  • the pattern matching unit 34 of the diversion source standard pattern extraction unit 32 extracts the feature parameters of the existing standard pattern passed from the standard pattern creation unit 20 and the feature parameter extraction. Part 12 is compared with the characteristic parameter of the keyword “mail received” sent from the section 12, the matching degree is judged, and all existing standard patterns having a pattern that matches the entered keyword are used as the original standard. Extract as a pattern candidate.
  • FIG. 10 is a sequence diagram showing an operation procedure of each part of the speech recognition apparatus of FIG. 9 and a data (signal) exchange procedure.
  • control unit 26 displays a guidance screen that prompts the user to input a keyword voice for selecting the diversion source voice on the display unit 30, and the user inputs the keyword ("mail reception") by voice ( Step S600).
  • step S601 acoustic analysis
  • step S602 feature parameter extraction
  • step S603 A matching process is performed by comparing with the feature parameters (step S603), and all standard patterns having matching parts are extracted.
  • the information of the extracted standard pattern is sent to the display unit 30 (step S604), and all the contents of the extracted standard pattern are displayed on the display unit 30, and the user can select the standard that is the diversion source. Select the pattern (“Change display settings when receiving mail”) (step S605). Thereby, the diversion source standard pattern is specified.
  • the characteristic parameters of the diversion source standard pattern stored in the standard pattern database 24 are sent to the change location specifying unit 14 and the standard pattern creating unit 18 (steps S606 and S607).
  • step S608 the user inputs a voice for specifying the changed portion (that is, "when receiving mail") (step S608).
  • step S609 acoustic analysis is performed (step S609), feature parameter extraction is performed (step S610), and the extracted feature parameters are sent to the change location specifying unit 14 and the standard pattern creation ⁇ 18. (Steps S611 and S612).
  • the changed part specifying unit 14 specifies the changed part by pattern matching (step S613).
  • a signal indicating the position of the change location is sent to the standard pattern creation unit 18 ( Step S614).
  • step S615 the user selects to perform deletion. Along with this, from the diversion source standard pattern “Change the screen settings at the time of reception”, “On reception” is deleted and a new standard pattern (“Change the screen settings”) is created. (Step S616).
  • the standard pattern database update unit 20 adds the newly created standard pattern to the standard pattern database 24.
  • the standard pattern database (speech recognition dictionary file) is updated (step S620).
  • FIG. 11 is a perspective view showing an external configuration of a mobile phone terminal equipped with the voice recognition device of the present invention.
  • the mobile phone terminal 1000 stores an antenna (AN), an upper casing 1002, a lower casing 1004, a display section 1006, operation keys 1008, and a standard pattern.
  • FIG. 12 is a block diagram showing an internal configuration of the mobile phone terminal of FIG.
  • this mobile phone terminal 1000 includes an antenna AN, a radio unit 700, an audio codec 701, a digital signal processing unit 702, an AZD converter and a DZA converter 703, and a speaker 704.
  • And pattern matching unit (performs original speech recognition of the speech recognition device, and is also used to extract standard pattern candidates for diversion source if necessary) 716 and speech Z text conversion unit 717 And comprising.
  • the operation of the mobile phone terminal can be controlled and the setting can be changed by the user's voice.
  • the voice Z text conversion unit 717 can also automatically convert the input voice into text, thereby reducing the effort of creating an e-mail.
  • public places include "movie theater”, “hospital”, “ Because there are “station premises”, “inside the building”, etc., first turn off the power of the mobile phone in the building, so that the announcements in the movie theater can be recognized by voice (that is, “ “Turn off the power,” and register the standard pattern in the vocabulary in the voice recognition dictionary of the mobile device. Then, divert the standard pattern to the place “In the building” Is replaced with voice data “in a hospital”, “in a station”, or “in a building”, the standard patterns used for automatic power-off control can be efficiently enriched.
  • the e-mail of a mobile phone terminal is mostly used for contact with close friends such as friends, and is used frequently especially for adjustment of waiting time.
  • the voice recognition device (using the voice editing device of the present invention for the purpose of voice recognition) has been described as an example.
  • the voice editing device of the present invention can be used for various purposes. It can also be used for audio processing and editing.
  • a user of a mobile terminal records his / her voice (a considerably long voice) in the mobile terminal (the voice data is embedded in, for example, an attached mail and sent to a friend) Is prepared for). If, for some reason, it is necessary to check only a part of the recorded audio data for a long time, the voice input is repeated again from the beginning! Is inefficient.
  • the existing audio data is edited and created, and when editing the audio data, changes are automatically made using the pattern matching process.
  • the voice data editing operation is simplified. That is, voices can be easily cut out and combined by inputting partial voices with respect to existing voices.
  • the present invention can also be used to divide existing audio data into a plurality of sentences.
  • the place is the first meeting room” is stored on the mobile terminal. Please ”and the user utters“ Place is ”.
  • This voice is imported into the mobile terminal as a new voice input and compared with the existing voice data by pattern matching.
  • mel cepstrum data is calculated by voice analysis of voice data in a certain interval. It is also possible to identify changes.
  • the audio editing apparatus of the present embodiment it is possible to easily edit audio data using a mobile terminal or the like. As a result, various audio data can be created easily, efficiently, and inexpensively.
  • new speech data (including a standard pattern as a speech recognition dictionary) is created by editing existing speech data rather than creating from scratch.
  • pattern change processing is used to automatically identify the changed part (that is, the voice recognition function of the voice recognition device is also used for voice data editing). Editing of audio data is simplified.
  • voice editing device voice editing method and voice editing program of the present invention as a voice recognition device, standard pattern creating method and standard pattern creating program, an existing standard pattern is utilized.
  • Various standard patterns can be created efficiently.
  • a change point in the existing standard pattern of the diversion source can be easily specified using the pattern matching process. That is, in the present invention, since the matching processing function of the speech recognition apparatus is also used for creating a standard pattern, the addition of hardware and the like can be minimized. Therefore, realization is easy and it is advantageous in terms of cost.
  • voice voice input by the user voice data obtained by cutting from an existing standard pattern, or The voice data of the existing standard pattern itself can be used. Since various audio data can be used, the process of creating a new standard pattern is made more efficient.
  • the voice editing device (speech recognition device) of the present invention is suitable for mounting on electronic equipment because it can easily customize voice data and has features such as downsizing and low cost. Therefore
  • the present invention makes it possible to easily edit voice data using a portable terminal or the like.
  • a vocabulary capable of voice recognition can be flexibly and efficiently used. Therefore, for example, a small, lightweight, and inexpensive voice editing device (speech recognition device installed in various electric devices and mobile terminals (such as mobile phone terminals and PDAs)). Suitable for use).

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本発明の目的の一つは、音声認識装置に登録される標準パターンを容易に豊富化し、これによって、音声認識可能な語彙を効率的に拡張できるようにすることである。 新規の標準パターンをゼロからつくるのではなく、既存の標準パターンの一部を改変して、効率的に新規の標準パターンを作成する。流用元の既存の標準パターンのどの部分を変更するかを、変更箇所特定部14内のパターンマッチング部16によるマッチング処理により特定する。そして、標準パターン作成部18にて、流用元標準パターンの変更箇所の音声データを、切り取り、削除し、他の音声データに置換し、あるいは他の音声データと結合させて、新しい標準パターンを作成し、標準パターンデータベース更新部20が、新しい標準パターンを標準パターンデータベース24に追加する。

Description

明 細 書
音声編集装置、音声編集方法、および、音声編集プログラム
技術分野
[0001] 本発明は、音声編集装置、音声編集方法、および、音声編集プログラムに関する。
背景技術
[0002] 記録した音声の音声データを編集する場合、従来は、編集者が再生された音声を 聞きながら編集点を特定し、切り出しを行って 、る。
[0003] また、特許文献 5に開示される従来技術では、音声カード (音声をカードに記録し、 そのカードの表面に写真等を貼付したもの)を作成する際に、高度な音声編集プログ ラムを利用してコンピュータの画面上の編集用ウィンドウに、記録した音声を表示し、 編集者が、マウス等のツールを用いて音声の部分的な削除、切り出し、結合等を行つ ている。
[0004] また、音声認識装置では、音声認識辞書としての音声標準パターン (以下、単に標 準パターンという)を用いて音声認識を行うが、音声認識可能な語彙を増やすために は、標準パターンを増やす必要がある。この際、既存の標準パターンの一部を削除し たり、切り出したりすることによって標準パターンを作成することがあり、これも、音声デ ータの編集の一形態である。
[0005] 以下、音声データの編集について、音声認識装置における音声認識辞書としての 標準パターンの編集を例にとって説明する。
[0006] 音声認識装置は、認識対象の音声を所定の時間間隔 (フレーム)で区切り、各フレ ームの音声波形の特徴を表す多次元の特徴パラメータ (ケプストラム)を抽出し、この 特徴パラメータの時系列パターンを、音声認識装置に蓄積されている標準パターン( 音声認識の基本単位となる語彙の特徴パラメータの時系列パターン)と比較し、両者 の類似度を判定し、最も類似度の高 ヽ語彙を認識結果として出力する。
[0007] ケプストラム(cepstrum:特徴パラメータ)は、音声信号を 20msec〜40msec程度 の時間窓で区切り、その時間窓に対応する音声信号に対して、フーリエ変換 (FFT) による音響分析を行い、その絶対値 (振幅スペクトル)の対数を求め、その対数の周 波数スペクトルに対して、逆フーリエ変換 (IDFT)を行うこと〖こよって得られる。
[0008] すなわち、 FFTによって得られる音声の周波数スペクトルは、その音声の大まかな 形状の情報 (音韻性を示す包絡情報)と、細か!、振動成分の情報 (声の高さを示す 微細構造情報)を含んでいるが、音声認識では、音声の音韻性を抽出すること (つま り、その声が何という音であるかを推定すること)が重要であり、後者の微細構造情報 は、あまり役立たない。そこで、対数処理後の周波数スペクトルについて、再度フーリ ェ変換処理 (IDFT)を行 、、包絡情報と微細構造情報とを分離する。
[0009] すなわち、 IDFTによって、ケフレンシ一軸 (横軸)の左側に包絡情報が集中し、一 方、ケフレンシ一軸の右側に微細構造情報が集中し、これにより、包絡情報と微細構 造情報を効率的に分離することができる。これがケプストラムである。なお、音響分析 として、 FFTの他に、 LPC (線形予測符号化)が用いられることがある。
[0010] また、人間の聴覚特性に合わせてケフレンシ一軸を対数的に変換することをメルイ匕 と呼び、メル化されたケプストラムは、メルケプストラムと呼ばれる。
[0011] 本明細書では、「ケプストラム」は、「メルケプストラム」を含む広い概念の用語として 使用する。また、本明細書では、「ケプストラム」を、主として「特徴パラメータ」と表示 する。また、「ケプストラム」や「特徴パラメータ」を、「音声データ (上位概念の用語)」と 記載する場合もある。なお、上位概念の用語としての「音声データ」には、上記の音 声の特徴パラメータ (ケプストラム)の他、「音声をテキストイ匕したもの」、「音声データ( 波形データそのもの)が含まれるものとする。
[0012] 音声認識装置には、認識辞書としての多数の標準パターン (すなわち、認識単位と なる語彙の一つ一つにつ 、てのケプストラム:その語彙の音声の特徴を示す特徴パ ラメータ)が用意されている。認識可能な語彙を増やすためには、標準パターンを豊 富ィ匕しなければならない。
[0013] 従来、音声認識に用いられる標準パターンを新規に作成する方法としては、単語の テキストを入力することによって、その単語の標準パターンを自動的に作成する方法 (特許文献 1)が提案されて ヽる。
[0014] また、標準パターンの代わりに音素片辞書を使用する提案もなされている (特許文 献 2)。この特許文献 2には、不特定話者用の認識単語辞書を作成するために、少数 の話者が発音した単語の特徴パラメータを、多数の話者の音声に基づいて作成され た汎用性のある標準パターンと比較して類似度を求めて音素片辞書を作成し、この 音素片辞書を用いて音声認識を行う技術が開示されている。
[0015] また、近年、音声認識装置を携帯端末 (携帯電話端末等)に搭載し、音声認識を利 用して携帯端末の動作を制御できるようにする技術が提案されている(例えば、特許 文献 3参照)。
[0016] また、音声認識装置とテキスト変換装置を携帯端末 (携帯電話端末、 PDA等)に搭 載し、入力音声をテキストデータに自動変換できるようにする技術も提案されている( 特許文献 4)。
[0017] 省スペースや低コストが厳しく求められる携帯端末には、簡単な認識辞書 (標準パ ターン)を備えた比較的安価な音声認識装置を搭載するのが現実的である。この場 合、携帯端末のユーザが、自己の現実の利用状況に合わせて、適応的に認識辞書( 標準パターン)を更新する(すなわち、認識辞書のカスタマイズを行う)こと〖こなる。
[0018] 携帯端末に搭載される認識辞書 (標準パターン)のカスタマイズに際し、その手続 や機器操作が面倒であると、携帯端末のユーザの利便性が損なわれることになる。し たがって、携帯端末のユーザに過度の負担を力 4ナることなぐ快適に認識辞書 (標準 ノターン)を拡張していくことを可能とする技術が求められる。また、例えば、携帯端 末上で、長い音声データの一部を編集する必要性が生じた場合等には、長い音声を 最初力も入力するのはきわめて効率が悪いため、このような場合に、音声データを簡 単に編集する技術が求められる。
特許文献 1:特開平 11— 190997号公報
特許文献 2 :特開平 5— 188988号公報
特許文献 3 :特開 2004— 153306号公報
特許文献 4:特開 2003— 188948号公報
特許文献 5 :特開 2000— 276184号公報
発明の開示
発明が解決しょうとする課題
[0019] 特許文献 1に記載される標準パターン (音声データ)作成方法では、標準パターン として登録される全ての語彙を、テキスト入力(文字入力)する必要がある。一般に、 テキスト入力は面倒である。特に、携帯端末の入力キーは小さぐテキスト入力には 不向きである。
[0020] また、特許文献 2に記載される標準パターン (音声データ)作成方法は、追加した 、 認識語句を正確に全て発声する必要があるため、特に長い語句を追加する場合に、 手間がかかり、間違えてしまう可能性がある。
[0021] また、特許文献 5に記載される音声編集方法では、音声データの編集の際に、高 度な専用の音声編集プログラムを使用するが、このような高度かつ専用の音声編集 プログラムを携帯端末に搭載するのはコスト面からみても困難である。また、専用の音 声編集プログラムによる音声データの編集には、マウス等を用いた複雑な機器操作 が必要であり、この点でも携帯端末への適用が困難である。また、専用の音声編集プ ログラムによって音声データを編集すると、編集時間が長くなりがちである。
[0022] 本発明は、このような考察に基づいてなされたものであり、音声データの編集を簡 易かつ安価に行えるようにし、例えば、携帯端末上でも音声データの編集を手軽に 行えるようにすることを目的とする。そして、本発明の具体的な目的の一つは、音声 認識装置に登録される標準パターンを容易に豊富化し、これによつて、音声認識可 能な語彙を効率的に拡張できる音声認識装置、標準パターン作成方法、および、標 準パターン作成プログラムを提供することである。
課題を解決するための手段
[0023] 本発明の音声編集装置は、既存の音声データを流用して、別の音声データを作成 する機能をもつ音声編集装置であって、前記既存の音声データのうちの流用元の音 声データと、前記流用元の音声データにおける変更箇所を特定するための変更箇 所特定用音声データと、のマッチング処理を実施し、前記流用元の音声データの少 なくとも一部を変更箇所として特定する変更箇所特定部と、前記変更箇所特定部に よって特定された前記変更箇所の音声データを利用して、別の音声データを作成す る音声データ作成部と、を有する。
[0024] また、本発明の音声編集装置では、前記音声データ作成部は、前記変更箇所特 定部によって特定された、前記流用元の音声データのうちの前記変更箇所の音声デ ータを他の音声データに置き換えた音声データを、前記別の音声データとして作成 する。
[0025] また、本発明の音声編集装置では、前記音声データ作成部は、前記変更箇所特 定部によって特定された、前記変更箇所の音声データに他の音声データを結合した 音声データを、前記別の音声データとして作成する。
[0026] 新規の音声データをゼロ力 つくるのではなぐ既存の音声データを編集して作る ようにし、その音声データの編集の際に、パターンマッチング処理を用いて変更箇所 を自動的に特定すること (すなわち、音声認識装置がもつ音声認識機能を、音声デ ータの編集にも活用すること)によって、音声データの編集作業が簡単化される。す なわち、既存の音声に対して部分音声を入力することによって、容易に音声の切り出 しゃ結合等が可能となる。例えば、「私は、 2005年 4月 1日に A社に入社しました」と V、う既存の音声データが携帯端末内に保存されて!、るとする。この既存の音声デー タを編集する際に、携帯端末の表示部に「切り出す箇所を発音して下さい」という表 示をなし、これに応答して、ユーザが「2005年 4月 1日に」と発声し、その音声が、携 帯端末に入力される。すると、既存の音声データと新たに入力された音声とのパター ンマッチングが行われて、一致する箇所が切り取られる。その結果として、「私は、 A 社に入社しました」と言う音声を取得することができる。また、本発明は、既存の音声 データを複数の文章に分割するために使用することもできる。例えば「10時力 会議 です。場所は第一会議室です」と言う既存の音声データが携帯端末に保存されてお り、携帯端末の表示部上に「分割したい音声箇所を発音してください」と表示し、ユー ザが、「場所は」と音声し、この音声は、新規の音声入力として携帯端末に取り込まれ 、既存の音声データとパターンマッチングによる比較がなされる。この結果、既存の 音声データの「場所は」の前で文章が分割され、その結果として、「10時力も会議で す。場所は第一会議室です」という音声データは、「10時力も会議です」と「場所は第 一会議室です」という 2つの音声データに分割される。このように、本発明によれば、 携帯端末などを利用して、音声データを簡単に編集することが可能となる。この結果 、多様な音声データを容易に、効率的に、かつ安価に作成することが可能となる。
[0027] また、本発明の音声編集装置では、前記別の音声データを作成する際に使用され る前記他の音声データは、少なくとも、前記音声編集装置に外部から入力される音 声についての音声データ、既存の音声データ力 切り取った音声データ、または、既 存の音声データ自体の音声データ、を含む。
[0028] これにより、音声データの編集のために多様な音声データを利用できるため、新し V、音声データの作成が効率ィ匕される。
[0029] また、本発明の音声認識装置は、本発明の音声編集装置を利用した、既存の標準 ノターンを流用して別の標準パターンを作成する機能をもつ音声認識装置であって 、前記既存の標準パターンのうちの流用元の標準パターンと、前記流用元の標準パ ターンにおける変更箇所を特定するための変更箇所特定用音声データと、のマッチ ング処理を実施し、前記流用元の標準パターンの少なくとも一部を変更箇所として特 定する変更箇所特定部と、前記変更箇所特定部によって特定された前記変更箇所 の音声データを利用して、別の標準パターンを作成する音声データ作成部と、を有 する。
[0030] 新規の標準パターンをゼロ力 つくるのではなぐ既存の標準パターンを活用して 作るようにし、また、パターンマッチング処理を用いて変更箇所を自動特定すること( 音声認識装置がもつ音声認識機能を、標準パターンの作成にも活用すること)によつ て、現実の生活に役立つ有用な標準パターンを、非常に効率的に作成することがで きる。ここで、携帯端末に音声認識装置を搭載し、音声認識による携帯端末の動作 の制御を実施する場合を想定すると、定型的な音声パターンをもつ語彙群が必要と なる可能性が高い。例えば、公共の場所において流れる音声アナウンスを音声認識 して、携帯電話の電源を自動的にオフさせる場合を考える。公共の場所としては、「 映画館内」、「病院内」、「駅構内」、「建物内」等があるから、まず、「館内では携帯の 電源をオフにして下さ 、」 t 、う映画館の館内アナウンスを音声認識できるようにし( つまり「館内では携帯の電源をオフにして下さ!/、」 t 、う語彙にっ 、ての標準パターン を携帯端末の音声認識辞書に登録しておく)、次に、その標準パターンを流用して、 「館内では」という箇所を、「病院内では」、「駅構内では」、「建物内では」という音声 データに置換すれば、電源の自動オフ制御に用いる標準パターンを、効率的に豊富 化することができる。また、流用元の標準パターンの、「館内では」という箇所を変更 する場合、音声認識用のマッチング処理を用いれば、変更箇所は、簡単な手続で自 動的に指定することができる。例えば、携帯端末のユーザがマイクから「館内では」と いう音声を入力し、流用元の標準パターン(「館内では携帯の電源をオフにして下さ
V、」 t 、う語彙の標準パターン)とのマッチングを行 、、例えば、マッチした部分(つま り、「館内では」という部分)を変更箇所とすることにより、流用元の標準パターンのどこ を変更するのかを容易に指定することができる。そして、更新用の音声データ(「病院 内では」、「駅構内では」、「建物内では」)を、更新用音声データ(「館内では」)と置 換する処理を行うことで、電源の自動オフ制御に用いる、多数の新たな標準パターン を効率的に作成することができる。
[0031] また、本発明の音声認識装置は、前記音声データ作成部により作成した別の標準 ノターンを、前記流用元の標準パターンと置き換える、または、前記流用元の標準パ ターンとは異なる標準パターンとして追加する、ことによって、標準パターンデータべ ースを更新する標準パターンデータベース更新部を、有する。
[0032] 新規に作成された標準パターンは、流用元の標準パターンと置換されるか (この場 合、流用元の標準パターンは消滅)、あるいは、流用元の標準パターンとは別の標準 ノターンとして音声認識辞書 (標準パターンデータベース)に追加される (この場合、 流用元の標準パターンと新規の標準パターンは併存する)。これによつて、標準バタ ーンデータベースが更新される。
[0033] また、本発明の音声認識装置は、前記変更箇所特定部は、前記流用元の標準パ ターンを抽出するための音声データと、複数の既存の標準パターンの音声データと、 のマッチング処理を実施し、マッチする部分を含む既存の標準パターンを、前記流 用元の標準パターンとして抽出する。
[0034] すなわち、流用元の標準パターンを使用する際にも、マッチング処理を利用するも のである。音声認識装置が本来的にもつ音声認識機能を、流用元の標準パターンの 選択にも利用することによって、目当ての流用元の標準パターンを、迅速に抽出して 特定することができるよう〖こなる。
[0035] また、本発明の電気機器は、本発明の音声編集装置または音声認識装置を搭載 する。 [0036] 本発明の音声編集装置や音声認識装置では、既存の標準パターンを現実のニー ズに合わせて適宜、改変 (編集)することによって新 、音声データ (標準パターンを 含む)を効率的に増やすことが可能であり、音声データや音声認識辞書の語彙を柔 軟かつ迅速に拡大することができる。したがって、電子機器のユーザは、自己の生活 パターンに合わせて、音声データ (標準パターンを含む)を効果的にカスタマイズす ることができ、これにより電気機器の多機能化が進展する。
[0037] また、本発明の携帯端末は、本発明の音声編集装置または音声認識装置を搭載 する。
[0038] 本発明の音声編集装置や音声認識装置は、既存の機能や音声データを最大限に 活用するため、無駄が少なぐ小型化や低価格化に適しており、携帯電話端末にも 搭載することができる。また、使用する音声データのカスタマイズも容易であることから 、携帯端末のユーザは、一日の生活の種々の場面で、音声編集機能 (標準パターン の編集機能を含む)を自由に、手軽に利用することができる。したがって、携帯端末 の多機能や高機能化が進展し、携帯端末の利用価値が向上する。
[0039] また、本発明の音声編集方法は、既存の音声データを流用して、別の音声データ を作成する音声編集方法であって、流用元の音声データと、前記流用元の音声デー タにおける変更箇所を特定するための変更箇所特定用音声データと、のマッチング 処理を実施し、前記流用元の音声データの少なくとも一部を変更箇所として特定す る第 1のステップと、特定された前記変更箇所の音声データを利用して、別の音声デ ータを作成する第 2のステップと、を含む。
[0040] また、本発明の音声認識方法は、既存の標準パターンを流用して別の標準パター ンを作成する音声認識方法であって、流用元の標準パターンと、前記流用元の標準 パターンにおける変更箇所を特定するための変更箇所特定用音声データと、のマツ チング処理を実施し、前記流用元の標準パターンの少なくとも一部を変更箇所として 特定する第 1のステップと、特定された前記変更箇所の音声データを利用して、別の 標準パターンを作成する第 2のステップと、を含む。
[0041] これによつて、無理なぐ最小限の労力で、現実に役立つ新規な音声データ (標準 ノターン)を、効果的に増やすことが可能となる。 [0042] また、本発明の音声編集プログラムは、コンピュータに、本発明の音声編集方法の 各ステップを実行させるためのプログラムである。
[0043] また、本発明の音声認識プログラムは、コンピュータに、本発明の音声認識方法の 各ステップを実行させるためのプログラムである。
[0044] これにより、多様な電気機器において、音声データ (標準パターンを含む)の編集を 容易かつ安価に行うことができる。
発明の効果
[0045] 本発明の音声編集装置では、新規の音声データ (音声認識用辞書としての標準パ ターンを含む)をゼロからつくるのではなぐ既存の音声データを編集して作るように し、その音声データの編集の際に、パターンマッチング処理を用いて変更箇所を自 動的に特定すること、すなわち、音声認識装置がもつ音声認識機能を、音声データ の編集にも活用することによって、音声データの編集作業が簡単化される。
[0046] すなわち、既存の音声に対して部分音声を入力することによって、容易に音声の切 り出しや結合等が可能となり、音声データの編集を簡単に行えるようになる。
[0047] したがって、本発明によれば、携帯端末などを利用して、音声データを簡単に編集 することが可能となり、この結果、多様な音声データを容易に、効率的に、かつ安価 に作成することが可能となる。例えば、携帯端末に保存されている長い音声データの 一部のみを変更する場合にも、その変更箇所のみを特定し、他の音声データに置換 するなどして、簡単に編集、加工を行うことができる。
[0048] 具体的には、本発明の音声編集装置、音声編集方法および音声編集プログラムを 、音声認識装置、標準パターン作成方法および標準パターン作成プログラムとして 活用することによって、既存の標準パターンを活用して多様な標準パターンを効率的 に作成することができる。また、パターンマッチング処理を用いて変更箇所を自動特 定すること、すなわち、音声認識装置がもつ音声認識機能を、標準パターンの作成 にも活用することによって、現実の生活に役立つ有用な標準パターンを、非常に効 率的に作成することが可能となる。したがって、音声認識可能な語彙を、柔軟かつ迅 速に拡大することが可能となる。
[0049] また、音声認識によって携帯端末の動作の制御を行う場合や、入力音声信号をテ キストデータに変換して電子メールを効率的に作成するような場合には、内容の一部 だけが異なる、一群の音声の音声認識が重要となると考えられる。したがって、既存 の標準パターンの一部を改変して新規な標準パターンを豊富化していくという、本発 明の音声認識装置で採用する手法は極めて有効である。
[0050] また、流用元の既存の標準パターンにおける変更箇所も、パターンマッチング処理 を利用して簡単に指定することができる。すなわち、本発明では、音声認識装置がも つマッチング処理機能を標準パターンの作成にも利用するため、ハードウェアの追 加等も最小限に抑えられる。よって、実現が容易であり、コスト面でも有利となる。
[0051] また、流用元の既存の標準パターンデータベースを更新するための更新用音声デ ータとしては、ユーザが入力する音声の音声や、既存の標準パターンから切り取って 得られる音声データや、あるいは、既存の標準パターン自体の音声データを利用す ることができる。多様な音声データを利用できるため、新しい標準パターンの作成処 理が効率化される。
[0052] 本発明の音声編集装置 (音声認識装置を含む)は、音声データのカスタマイズが容 易であり、小型化や低コストという特徴をもっため、電子機器への搭載に適する。した がって、電気機器の多機能化の進展に寄与する。
[0053] また、本発明の音声編集方法 (標準パターン作成方法を含む)によれば、無理なく
、最小限の労力で、現実に役立つ新規な音声データ (標準パターン)を、効果的に増 やすことが可能となる。
[0054] また、本発明の音声編集プログラムによれば、多様な電気機器において、音声デ → (標準パターンを含む)の編集を容易かつ安価に行うことが可能となる。
図面の簡単な説明
[0055] [図 1]本発明の音声認識装置 (音声編集装置を音声認識の用途に利用したもの)の 概要を説明するためのブロック図
[図 2]図 1の本発明の音声認識装置における、既存の標準パターンを流用して標準 パターンを新規に作成し、標準パターンデータベースの内容を更新する処理の主要 な手順を説明するためのフロー図
[図 3]本発明の音声認識装置を内蔵する携帯電話端末のユーザが、新規に標準バタ ーンを作成する場合の主要な手順を説明するための図
[図 4] (a)〜 (d)は、図 3に示される手順に従って標準パターンが作成される場合の、 具体的な信号処理の内容を示す図
[図 5]本発明の音声認識装置の具体的な構成の一例を示すブロック図
[図 6]図 5の音声認識装置の各部の動作手順ならびにデータ (信号)の授受の手順を 示すシーケンス図
[図 7]メール受信時の表示設定を変更しますという標準パターンを音声認識により選 択し、その選択された標準パターンからメール受信時のという部分を削除して新たな 標準パターンを作成する場合の手順を示す図
[図 8] (a)〜 (d)は、図 7に示される手順に従って標準パターンが作成される場合の、 具体的な信号処理の内容を示す図
[図 9]本発明の音声認識装置の具体的な構成の他の例(図 7,図 8に記載の制御を 行う例)を示すブロック図
[図 10]図 9の音声認識装置の各部の動作手順ならびにデータ (信号)の授受の手順 を示すシーケンス図
[図 11]本発明の音声認識装置を搭載する携帯電話端末の外観構成を示す斜視図 [図 12]図 11の携帯電話端末の内部構成を示すブロック図
符号の説明
10 音響分析部
12 特徴パラメータ抽出部
14 変更箇所特定部
16 変更箇所を特定するためのマッチング処理を行うパターンマッチング部
18 標準パターン作成部
20 標準パターンデータベース更新部
22 本来の音声認識のためのパターンマッチング処理を行うパターンマッチング部 24 標準パターンデータベース (音声認識辞書ファイル)
26 制御部
28 表示インタフェース 30 表示部
32 流用元標準パターン抽出部
34 流用元標準パターンを抽出するためのマッチング処理を行うパターンマツチン グ部
550 携帯電話端末
700 無線部
701 音声コーデック
702 デジタル信号処理部
703 変
704 スピーカ
705 マイク
706 制御部
707 音声記録部
708 音響分析部
709 特徴パラメータ抽出部
710 変更箇所特定部
711 本来の音声認識のための、および、流用元標準パターンを特定するための マッチング処理を行うパターンマッチング部
712 標準パターン作成部
713 標準パターンデータベース更新部
714 標準パターンデータベース (音声認識辞書ファイル)
715 メディアインタフェース咅
717 テキスト変換部
1000 携帯電話端末
1002 上部筐体
1004 下部筐体
1006 表示部
1008 操作キー 1010 揷入口
1012 記録メディア
AN アンテナ
発明を実施するための最良の形態
[0057] 次に、本発明の実施形態について、図面を参照して説明する。
[0058] 本発明は、広義の音声編集装置や音声編集方法に関するものであり、純粋な音声 の編集、加工はもちろんのこと、他の種々の用途に利用することができる。
[0059] 例えば、本発明の音声編集装置を、音声認識の用途に使用する(すなわち、音声 認識装置として利用する)こと〖こよって、音声認識辞書としての標準パターンを効率 的に拡大することが可能となる。
[0060] 以下の説明では、まず、第 1の実施形態〜第 4の実施形態にて、本発明の音声編 集装置を、音声認識装置における標準パターンの豊富化のために利用する場合の 例について説明し、そして、第 5の実施形態において、本発明の音声編集装置を、 音声認識の用途を離れて、純粋な音声編集、加工の用途に使用した場合について 説明することにする。
[0061] (第 1の実施形態)
図 1は、本発明の音声認識装置 (本発明の音声編集装置を音声認識の用途に利 用したもの)の概要を説明するためのブロック図である。
[0062] 図示されるように、本発明の音声認識装置は、音響分析部 10と、特徴パラメータ抽 出部 12と、変更箇所特定部 14 (変更箇所の特定のために使用されるパターンマッチ ング部 16をもつ)と、標準パターン作成部 18と、標準パターンデータベース更新部 2
0と、パターンマッチング処理を実行するパターンマッチング部(音声認識装置の本 来の音声認識を行う音声認識部) 22と、標準パターンデータベース (音声認識辞書 ファイル) 24と、を有する。ここで、標準パターンデータベース 24に保存されているデ ータの形式は、「特徴パラメータ (ケプストラム)」の他、「音声をテキストイ匕したもの(文 字列としての辞書データ)」、「音声データ (波形データ自体)の 、ずれであってもよ 、 力 以下の説明では、標準パターンデータベース 24には、標準パターンとして、「特 徴パラメータ(ケプストラム)」が保存されているものとして説明を行う。 [0063] なお、図 1では、変更箇所特定部 14内のパターンマッチング部 16と、音声認識装 置の本来の音声認識を実施するパターンマッチング部(音声認識部) 22と、を別々に 記載している力 これに限定されるものではなぐ共通のパターンマッチング部を状況 に応じて使い分ける構成であってもよい。この点は、以下の実施形態でも同様である
[0064] 図 1の音響分析部 10は、入力音声信号を、 20msec〜40msec程度の時間窓で区 切り、その時間窓に対応する音声信号についてフーリエ変換 (FFT)を行う。
[0065] また、特徴パラメータ抽出部 12は、音響分析結果の絶対値 (すなわち周波数スぺク トルの振幅)の対数を求め、その対数の周波数スペクトルに対して、逆フーリエ変換 (I DFT)を行い、さらにメルィ匕を行ってメルケプストラム (特徴パラメータ)を得る。なお、 特徴パラメータは、変更箇所特定部 14および標準パターン作成部 18に送られる。
[0066] また、変更箇所特定部 14は、標準パターンデータベース 24から、流用元となる既 存の標準パターンの特徴パラメータを取り出す。そして、パターンマッチング部 16を 用いて、変更箇所特定用音声データ(例えば、ユーザがマイクを用いて入力する)の 特徴パラメータと、流用元の既存の標準パターンの特徴パラメータとのマッチングを 行い、マッチした箇所またはマッチしな力つた箇所を変更箇所として特定する。そして 、変更箇所の位置を示す変更箇所位置信号が、標準パターン作成部 18に送られる
[0067] 標準パターン作成部 18は、流用元の標準パターンについて、切り取り、削除、置換 、結合といった編集処理を行い、新規の標準パターンを作成する。すなわち、流用元 の標準パターンの変更箇所の音声データを切り取った後に残る音声データ(つまり、 切り取った後の残余部分の音声の特徴パラメータ =変更箇所の音声を削除して得ら れる音声の特徴パラメータ)、切り取った音声データ(つまり、切り出した音声の特徴 パラメータ)、変更箇所の音声データを他の音声データ (例えば、ユーザがマイクを用 いて入力する置換用音声データ)に置き換えて得られる音声データ (つまり、置換後 の語彙の音声の特徴パラメータ)、および、切り取った音声データの冒頭または末尾 に他の音声データを結合することによって得られる音声データ(つまり、結合処理後 の語彙の音声の特徴パラメータ)、の少なくとも一つを、新しい標準パターンとする。 [0068] 標準パターンデータベース更新部 20は、標準パターンデータベース (音声認識辞 書ファイル) 24を更新する。更新の内容としては、「置換」と「追加」の二種類がある。 すなわち、「置換」による更新の場合は、新たに作成された標準パターンを、流用元 の既存の標準パターンに置き換える。また、「追加」の場合は、新たに作成された標 準パターンを、標準パターンデータベース 24に追加する。この場合、流用元の既存 の標準パターンと新規の標準パターンは併存する。
[0069] 図 2は、図 1の本発明の音声認識装置における、既存の標準パターンを流用して標 準パターンを新規に作成し、標準パターンデータベースの内容を更新する処理の主 要な手順を説明するためのフロー図である。図 2中では、説明の便宜上、音声データ (音声の特徴パラメータ)の時系列パターンを、アルファベットで表現している。
[0070] まず、流用元の既存の標準パターンの変更箇所の特定処理を実行する (ステップ S 100)。
[0071] すなわち、変更箇所特定部 14内のパターンマッチング部 16にて、変更箇所特定 用音声データ(「cd」とする)と、流用元の標準パターン(「abcdef」とする)とのパター ンマッチング処理を実施する (ステップ S101)。そして、マッチングした部分(「cd」)を 変更箇所とする (ステップ S 102)。あるいは、マッチングしな力つた部分 (abef)を変 更箇所とする (ステップ S 103)。
[0072] 次に、標準パターン作成部 18にて、標準パターンの新規作成処理を実施する (ス テツプ S 200)。
[0073] すなわち、ステップ S100 (S102、 S103)にて特定された変更箇所から、音声デー タを切り取る(ステップ S201, 202)。
[0074] 切り取った音声データ「abef」 「cd」自体を、新しい標準パターンとすることができ る(S301, S302)。「abef」は、ステップ SlOlにてマッチした部分の以外の部分を切 り出したものであり、これは、流用元の標準パターン力 マッチした部分の音声データ を削除して得られる音声データに等しい。
[0075] 次に、置換処理や結合処理を行う(ステップ S201、 S204)。ステップ S201では、ス テツプ 102で特定された変更箇所の音声データ「cd」を、更新用音声データ「QRS」 によって置換する。また、ステップ S204では、ステップ S201にて切り取った音声デ ータ(「cd」)の冒頭あるいは末尾に、更新用音声データ「QRS」を結合させる。ここで 、更新用音声データ「QRS」は、マイク力も入力される入力音声の音声データ、ある いは、 S201, S202で切り取った音声データ、あるいは、既存の標準パターンの音声 データそのもの、のいずれかである。
[0076] すなわち、ステップ S203では、「ab〇〇ef」の〇〇の部分を、「QRS」で置換し、「a bQRSefJとする(流用元の標準パターンの「cd」を「QRS」で置換した形態となる)。
[0077] また、ステップ S204では、「cd」の冒頭あるいは末尾に「QRS」を結合して、「QRSc djあるいは「cdQRS」とする。
[0078] 新たに作成された、「cd (切り取ったデータ)」、「abef (マッチした部分の音声データ を削除して得られるデータ」、「abQRSef (置換により得られるデータ)」、「QRScd」あ るいは「cdQRS (結合により得られるデータ)」の 、ずれかを、新 、標準パターンと することができる。
[0079] 次に、標準パターンデータベース更新部 20が、標準パターンデータベース 24の更 新処理を実施する (ステップ S300)。更新の内容としては、「置換処理 (ステップ S30
1)」と「追加処理 (ステップ S302)」の二種類がある。
[0080] すなわち、「置換」による更新の場合 (ステップ S301)では、新たに作成された標準 ノターンを、流用元の既存の標準パターンに置き換える。「追加」の場合 (ステップ S3
02)では、新たに作成された標準パターンを、標準パターンデータベース 24に追カロ する。この場合、流用元の既存の標準パターンと新規の標準パターンは併存する。
[0081] このように、本発明では、新規の標準パターンをゼロからつくるのではなぐ既存の 標準パターンを活用して作るようにし、また、パターンマッチング処理を用いて変更箇 所を自動特定すること (音声認識装置がもつ音声認識機能を、標準パターンの作成 にも活用すること)によって、有用な標準パターンを、非常に効率的に作成することが 可能となる。したがって、音声認識可能な語彙を、柔軟かつ迅速に拡大することがで きる。
[0082] (第 2の実施形態)
本実施形態では、電車内のアナウンスを音声認識するために、標準パターンを豊 富化する場合を例にとり、音声認識装置の構成と動作、標準パターンの作成手順に ついて、より具体的に説明する。
[0083] 例えば、電車通勤をしているサラリーマンは、仕事に疲れて居眠りをしてしまい、降 車駅 (例えば、渋谷駅とする)で降車できないことがある。この場合、そのサラリーマン の携帯電話端末に音声認識装置を搭載し、「まもなく渋谷です」 ヽぅ車内アナウンス を音声認識し、この音声認識を契機としてバイブレータを起動し、振動によって居眠 りをしているサラリーマンを目覚めさせることができれば、降り忘れを防止することがで き、便利である。ただし、そのサラリーマンが、「横浜」においても頻繁に下車する場合 には、「まもなく横浜です」というアナウンスを音声認識してバイブレータを起動するこ とも必要となる。
[0084] この場合、「まもなく渋谷です」という標準パターンが音声認識装置に登録されてい るのであれば、この標準パターンを流用し、「渋谷」を「横浜」に置換することができれ ば、必要な標準パターンを、効率的に作成することができる。
[0085] 図 3は、本発明の音声認識装置を内蔵する携帯電話端末のユーザが、新規に標準 ノターンを作成する場合の主要な手順を説明するための図である。
[0086] 図示されるように、最初に、「まもなく渋谷です」と 、う車内アナウンスを、携帯電話 端末 550のマイク 2を用いて録音し、その車内アナウンスの音声について、音響分析 を経て特徴パラメータを抽出し、標準パターンとして携帯電話端末 550内に登録して おく(ステップ Sl)。
[0087] 次に、携帯電話端末 550の表示部 (液晶ディスプレイ等) 30に、「変更したい部分 を発声してくださ 、」 t 、う案内メッセージが表示される (ステップ S 2)。
[0088] 次に、ユーザ (P)が、「渋谷」と発音する。この「渋谷」という音声は、携帯電話端末 5 50のマイク 2を介して携帯電話端末 550内に取り込まれ、音響分析を経て特徴パラメ ータが抽出される。そして、流用元の標準パターン、すなわち「まもなく渋谷です」とい う語彙の特徴パラメータと、変更箇所を特定するための音声データ「渋谷」の特徴パ ラメータのマッチング処理がなされ、ここでは、マッチングした箇所が変更箇所として 特定される (ステップ S4)。
[0089] 次に、携帯電話端末 550の表示部 30に、「置き換える文字を発声してくださ!/、」 t 、 う案内メッセージが表示される (ステップ S5)。 [0090] ユーザ (P)は、「横浜」と発音し、この「横浜」と!、う音声は、携帯電話端末 550のマ イク 2を介して携帯電話端末 550内に取り込まれ、音響分析を経て特徴パラメータが 抽出される。
[0091] ここで、誤った標準パターンの作成を防ぐため、新規作成する標準パターン(「まも なく横浜です」)を、携帯電話端末 550の表示部 30上に表示し、ユーザ Pに、これで よいかを問い合わせる。ユーザ (P)は、画面の確認後、「はい (yes)」を選択する (ス テツプ S7)。
[0092] すると、「まもなく横浜です」と!、う語彙の特徴パラメータ力 なる標準パターンが自 動的に作成され、標準パターンデータベース 24が更新される (ステップ S8)。すなわ ち、ステップ S4で特定された変更箇所の音声データ(「渋谷」の特徴パラメータ)を、「 横浜」の特徴パラメータと置換し、これによつて、「まもなく横浜です」という語彙の特 徴パラメータ力もなる標準パターンが作成され、その新規作成された標準パターンが
、標準パターンデータベース(図 1の参照符号 24)に追加されることになる。
[0093] 図 4 (a)〜(d)は、図 3に示される手順に従って標準パターンが作成される場合の、 具体的な信号処理の内容を示す図である。
[0094] 図 4 (a)では、流用元の標準パターンの音声データ「ツギヮシブャデス」と、変更箇 所特定用音声データ「シプヤ」とのパターンマッチング処理が実施される。
[0095] 図 4 (b)では、流用元の標準パターンのうちの「シブャ」の部分が変更箇所であるこ とが特定されており(2つの太い矢印で変更箇所が特定されている)、また、「シプヤ」 力 「ョコハマ」に置換されることが示されている。
[0096] 図 4 (c)では、「ツギハョコハマデス」と 、う更新音声 (すなわち、新規作成された標 準パターン)が、音声記憶部(図 1の参照符号 24)に蓄積されている既存の標準バタ ーン群 (「ツギノエキヮョコノヽマデス」、「モウスグョコノヽマデス」、「マモナクョコノヽマデ ス」)に追加される。
[0097] 図 4 (d)は、更新後の標準パターン群を示して!/、る。
[0098] 図 5は、本発明の音声認識装置の具体的な構成の一例を示すブロック図である。
図 5において、図 1と共通する部分には、共通の符号を付してある。
[0099] 図 5では、図 1の構成に、マイク (MIC) 2と、録音音声蓄積部 4と、音声認識装置の 動作を統括的に制御する制御部 26と、表示インタフェース 28と、表示部 30と、が追 カロされている。音声認識装置の基本的な動作は、図 1を用いて先に説明したとおりで ある。
[0100] 図 6は、図 5の音声認識装置の各部の動作手順ならびにデータ (信号)の授受の手 順を示すシーケンス図である。
[0101] まず、制御部 26は、表示部 30上に流用元音声の選択画面を表示させ、ユーザに、 流用元となる音声データを選択させる (ステップ S400)。この場合は、図 3で説明した ように、「まもなく渋谷です」という車内アナウンスの音声が予め録音され、録音音声蓄 積部 4に蓄積されているため、これを選択する。
[0102] 次に、音響分析部 10が、音声分析を行い (ステップ S401)、特徴パラメータ抽出部 12が、特徴パラメータを抽出する (ステップ S402)。抽出された特徴パラメータは、変 更箇所特定部 14および標準パターン作成部 18に送られる (ステップ S403, S404)
[0103] また、制御部 26は、表示部 30上に、変更箇所を特定するための音声の入力を促 す案内メッセージを表示する (ステップ S405)。続いて、音響分析 (ステップ S406)、 特徴パラメータ抽出 (ステップ S407)を経て、特徴パラメータが抽出され、特徴パラメ ータは、変更箇所特定部 14および標準パターン作成部 18に送られ (ステップ S408 , S409)、変更箇所が特定される (S410)。変更箇所の位置を示す変更箇所位置信 号は、標準パターン作成部 18に送られる(S411)。
[0104] 次に、ユーザが、変更箇所に置換するための更新用音声(「横浜」)を入力する(S4 12)。すると、音響分析 (S413)、特徴パラメータ抽出(S414)、特徴パラメータの標 準パターン作成部 18への送信(S415)を経て、新しい標準パターンが作成される(S 416)。
[0105] 新しく作成された標準パターンは、標準パターンデータベース更新部 20に送られ( ステップ S417)、また、表示部 30にも送られ (S418)、ユーザによる更新確認を経て (ステップ S419)、標準パターンデータベース 24が更新される(ステップ S420)。
[0106] (第 3の実施形態)
本実施形態では、本発明の音声認識装置が搭載された携帯電話端末における設 定 (例えば、電子メール受信時の設定)を、ユーザの音声によって制御する場合を想 定し、この制御に必要な標準パターンを新規作成する場合の手順について説明する
[0107] 携帯電話端末のユーザは、電子メールの着信時において表示部に表示される画 面や、着信時に出力される着信音を自身の好みに合わせて、適宜、変更することが でき、また、受信メールを蓄積するフォルダも自由に選択することができる。
[0108] 通常は、メール着信時の画面や着信音の変更などは、入力キーの操作によって行 われるが、携帯電話端末の操作キーは小さいために、操作がかなりむずかしい。ここ で、キー操作に代えて、音声入力によってメール着信時の画面や着信音の変更など を行えるようになれば、携帯電話端末の利便性が向上する。
[0109] また、「表示設定」という用語は、広い意味を持っており、電子メール時の表示設定 の他に、電話の待ち受け画面の表示設定や、ゲームのダウンロード時の表示設定等 が含まれる。携帯電話端末の設定を変更する場合には、まず、「表示設定を変更す る」という上位概念のメニュー項目を変更し、次に、「メール受信時の表示設定を変更 する」 t 、う具体的なメニュー項目を選択するのが普通である。
[0110] ここで、上位概念のメニュー項目である「表示設定の変更」を、音声により選択する 場合には、「表示設定を変更します」というユーザの音声を認識する必要があるため、 「表示設定を変更します」と 、う語彙の音声の標準パターンを予め登録しておく必要 がある。
[0111] ここで、仮に、携帯電話端末内には、「メール受信時の表示設定を変更します」とい う標準パターンが登録されて 、るとすると、「メール受信時の」 t 、う部分の音声デー タを削除すれば、「表示設定を変更します」という標準パターンを簡単に作成すること ができる。
[0112] 図 7は、メール受信時の表示設定を変更しますという標準パターンを音声認識によ り選択し、その選択された標準パターンからメール受信時のという部分を削除して新 たな標準パターンを作成する場合の手順を示す図である。
[0113] 図 7に示すように、携帯電話端末 550の表示部 30に、「変更したい認識語彙を発声 してください」という案内メッセージが表示される (ステップ Sl)。 [0114] ユーザ )は、流用元の標準パターンを検索するためのキーワードである「メール 受信」を発声する (ステップ S2)。
[0115] すると、音声認識がなされ、「メール受信」とマッチングする部分をもつ標準パターン がすべて抽出される。すなわち、標準パターンとして登録されている語彙の中から、 キーワード「メール受信」を含む語彙(「1.メール受信時の表示設定を変更します」、「 2.メール受信時の音設定を変更します」、「3.メール受信時の振分け設定をします」 )が、流用元の標準パターンの候補として抽出され、表示部 30に表示される (ステツ プ S4)。
[0116] このように、流用元の標準パターンを選択する場合にも、音声認識装置が本来的に 有している音声認識機能を活用することにより、流用元の標準パターンを効率的に見 つけ出すことができる。
[0117] 次に、ユーザ )は、「1.メール受信時の表示設定を変更します」を選択する (ステ ップ S5)。
[0118] 次に、携帯電話端末 550の表示部 30には、「変更したい部分を発声してください」 t 、う案内メッセージが表示される (ステップ S6)。
[0119] ユーザ (P)は、「メール受信時の」と発音する。この音声は、携帯電話端末 550内に 取り込まれ、音響分析、特徴パラメータの抽出がなされ、ステップ S5で選択された標 準パターン「メール受信時の表示設定を変更します」の特徴パラメータとのマッチング がなされ、この結果として、変更箇所が、「メール受信時の」という箇所であることが特 定される (ステップ S8)。
[0120] 次に、携帯電話端末 550の表示部 30上には、標準パターンをどのように変更する の力を問い合わせる案内メッセージが表示される。すなわち、「1.対象部分削除」と、 「2.対象部分変更」 、う 2つの選択肢が表示される (ステップ S9)。
[0121] ここでは、ユーザ )は、「1.対象部分削除」を選択する。すると、表示部 30には、 「削除」を本当に行ってょ 、かを問 ヽ合わせる確認画面が表示され、ユーザ (P)が「 は 、 (yes)」を選択すると、「表示設定を変更します」と 、う所望の語彙にっ 、ての標 準パターンが新規に作成される (ステップ S 11)。
[0122] 流用元の標準パターンから「メール受信時の」という音声データが削除されて新た な標準パターンが作成されたものである力 この処理は、流用元の標準パターンであ る「メール受信時の表示設定を変更します」と 、う音声データから、変更箇所の音声 データ(「メール受信時の」)という音声データを切り取り、切り取った後の残余の部分
(「表示設定を変更します」 )を新たな標準パターンとするのと等価である。
[0123] 図 8 (a)〜(d)は、図 7に示される手順に従って標準パターンが作成される場合の、 具体的な信号処理の内容を示す図である。
[0124] 図 8 (a)では、流用元の標準パターンの音声データ「メールジュシンジノヒヨウジセッ ティヲヘンンコゥシマス」が既に特定されており、この標準パターンと、変更箇所特定 用音声データ「メールジュシンジノ」とのパターンマッチング処理が実施される。
[0125] 図 8 (b)では、流用元の標準パターンのうちの「メールジュシンジノ」の部分が変更 箇所であることが特定される(2つの太 、矢印で変更箇所が特定されて ヽる)。
[0126] 図 8 (c)では、流用元の標準パターンの「メールジュシンジノヒヨウジセッティヲヘンン コゥシマス」から、「メールジュシンジノ」が削除され、「ヒヨウジセッティヲヘンンコゥシマ ス」 t 、う新規の標準パターンが作成されて 、る。
[0127] この新たに作成された標準パターン力 標準パターンデータベース(図 1の参照符 号 24)に登録されている標準パターン群(すなわち、「メールジュシンジノヒヨウジセッ ティヲヘンコゥシマス」、「メールジュシンジノオトセッティヲヘンコゥシマス」、「メールジ ュシンジノフリヮケセッティヲヘンコゥシマス」)に新規に追加される。
[0128] 図 8 (d)は、更新後の標準パターン群を示して!/、る。
[0129] 図 9は、本発明の音声認識装置の具体的な構成の他の例(図 7,図 8に記載の制御 を行う例)を示すブロック図である。図 9において、図 1,図 5と共通する部分には、同 じ参照符号を付してある。
[0130] 図 9では、図 5の構成から、録音音声蓄積部 4を削除すると共に、流用元標準バタ ーン抽出部 32 (パターンマッチング部 34を含み、入力されたキーワードと合致するパ ターンをもつ既存の標準パターンのすべてを、流用元標準パターンの候補として抽 出する機能をもつ)を追加した構成となって ヽる。
[0131] なお、流用元標準パターン抽出部 32のパターンマッチング部 34は、標準パターン 作成部 20から渡される既存の標準パターンの特徴パラメータと、特徴パラメータ抽出 部 12から送られてくるキーワード「メール受信」の特徴パラメータと、を比較してマッチ ング度を判定し、入力されたキーワードと合致するパターンをもつ既存の標準パター ンのすべてを、流用元標準パターンの候補として抽出する。
[0132] また、図 9の音声認識装置の基本的な動作は、図 1、図 5を用いて先に説明したと おりである。
[0133] 図 10は、図 9の音声認識装置の各部の動作手順ならびにデータ (信号)の授受の 手順を示すシーケンス図である。
[0134] まず、制御部 26は、表示部 30上に流用元音声を選択ためのキーワード音声の入 力を促す案内画面を表示し、ユーザは、キーワード(「メール受信」)を音声入力する( ステップ S600)。
[0135] 続いて、音響分析 (ステップ S601)、特徴パラメータ抽出 (ステップ S602)が行われ 、入力されたキーワード(「メール受信」)の音声の特徴パラメータと、既存の標準バタ ーン群の各々の特徴パラメータとを比較してマッチング処理が実施され (ステップ S6 03)、マッチングする部分をもつ標準パターンがすべて抽出される。
[0136] そして、抽出された標準パターンの情報が表示部 30に送られ (ステップ S604)、表 示部 30上に抽出された標準パターンの内容がすべて表示され、ユーザは、流用元と なる標準パターン(「メール受信時の表示設定を変更します」 )を選択する (ステップ S 605)。これにより、流用元の標準パターンが特定される。
[0137] 続いて、標準パターンデータベース 24に記憶されている、流用元の標準パターン の特徴パラメータが、変更箇所特定部 14および標準パターン作成部 18に送られる ( ステップ S606, S607)。
[0138] 次に、ユーザが、変更箇所を特定するための音声 (すなわち「メール受信時の」)を 入力する(ステップ S 608)。
[0139] 続いて、音響分析がなされ (ステップ S609)、また、特徴パラメータ抽出がなされ (ス テツプ S610)、抽出された特徴パラメータが、変更箇所特定部 14および標準パター ン作成咅 18に送られる(ステップ S 611 , S612)。
[0140] 変更箇所特定部 14では、パターンマッチングによって変更箇所を特定する (ステツ プ S613)。また、変更箇所位置を示す信号は、標準パターン作成部 18に送られる( ステップ S614)。
[0141] 次に、ユーザが、削除を行うことを選択する (ステップ S615)。これに伴い、流用元 の標準パターン「受信時の画面設定を変更します」から、「受信時の」が削除されて、 新し 、標準パターン(「画面設定を変更します」)が作成される (ステップ S616)。
[0142] そして、新規に作成された標準パターンの情報が表示部 30に送られ、ユーザに、 その新しく作成された標準パターンを、標準パターンデータベース 24に追加してもよ いかを確認する(S618)。
[0143] ユーザによって、新規作成された標準パターンの追加が承認されると、標準パター ンデータベース更新部 20は、新しく作成された標準パターンを標準パターンデータ ベース 24に追加する。これによつて、標準パターンデータベース (音声認識辞書ファ ィル)が更新される (ステップ S620)。
[0144] (第 4の実施形態)
本実施形態では、本発明の音声認識装置を搭載する携帯電話端末の構成と動作 について説明する。
[0145] 図 11は、本発明の音声認識装置を搭載する携帯電話端末の外観構成を示す斜視 図である。
[0146] 図示されるように、携帯電話端末 1000は、アンテナ (AN)と、上部筐体 1002と、下 部筐体 1004と、表示部 1006と、操作キー 1008と、標準パターンを記憶している記 録媒体 (記録メディア) 1012を挿入するための揷入口 1010と、スピーカ 704と、マイ ク 705と、を有して!/、る。
[0147] 図 12は、図 11の携帯電話端末の内部構成を示すブロック図である。
[0148] 図示されるように、この携帯電話端末 1000は、アンテナ ANと、無線部 700と、音声 コーデック 701と、デジタル信号処理部 702と、 AZD変換器および DZA変換器 70 3と、スピーカ 704と、マイク 705と、制御部 706と、音声記録部 707と、音響分析部 7 08と、特徴パラメータ抽出部 709と、変更箇所特定部 710 (パターンマッチング部 71 1を含む)と、標準パターン作成部 712と、標準パターンデータベース更新部 713と、 標準パターンデータベース 714と、スタンダードな標準パターンを記録している記録 メディア 1012とのデータインタフェースとして機能するメディアインタフェース部 715と 、パターンマッチング部 (音声認識装置の本来の音声認識を行い、また、必要に応じ て、流用元の標準パターンの候補を抽出するためにも使用される) 716と、音声 Zテ キスト変換部 717と、を備える。
[0149] このような構成をもつ携帯電話端末では、ユーザの音声による携帯電話端末の動 作の制御や設定の変更が可能である。
[0150] また、音声 Zテキスト変換部 717によって、入力された音声を自動的にテキストに変 換することもでき、これによつて、電子メールの作成の手間が軽減される。
[0151] 先に説明したように、携帯電話端末の動作を音声にて制御する場合には、一つの 定型的な音声パターンのうち、一部を別の音声に置換した多数の音声の認識が重要 となる。
[0152] 例えば、公共の場所において流れる音声アナウンスを音声認識して、携帯電話の 電源を自動的にオフさせる場合を考えると、公共の場所としては、「映画館内」、「病 院内」、「駅構内」、「建物内」等があるから、まず、「館内では携帯の電源をオフにして 下さ 、」 t 、う映画館の館内アナウンスを音声認識できるようにし (つまり「館内では携 帯の電源をオフにして下さ 、」 、う語彙にっ 、ての標準パターンを携帯端末の音声 認識辞書に登録しておく)、次に、その標準パターンを流用して、「館内では」という箇 所を、「病院内では」、「駅構内では」、「建物内では」という音声データに置換すれば 、電源の自動オフ制御に用いる標準パターンを、効率的に豊富化することができる。
[0153] また、音声 Zテキスト変換を利用して、音声入力によって電子メールの文面を作成 する場合も、同様に、一つの定型的な音声パターンのうち、一部を別の音声に置換 した多数の音声の認識が重要となると考えられる。
[0154] 携帯電話端末の電子メールは、友人等の親しい仲間との連絡がほとんどであり、特 に、待ち合わせの調整等に頻繁に用いられる。
[0155] 例えば、「月曜日の 18時に渋谷のハチ公前で会いましょう」という標準パターンを用 意しておき、「月曜日」という部分を、他の曜日に置換したり、「18時」という部分を他 の時刻に変更したり、あるいは、「渋谷のハチ公前」という部分を他の場所に変更する ことにより、現実に頻繁に使用する電子メールの文面に対応する、音声認識用の標 準パターンを効率的に作成することができる。 [0156] このように、既存の標準パターンの一部を改変して新規な標準パターンを豊富化し ていくという、本発明の音声認識装置で採用する手法は、携帯端末に搭載される音 声認識装置の認識辞書の拡張手法として、極めて有効である。
[0157] (第 5の実施形態)
前掲の実施形態では、音声認識装置 (本発明の音声編集装置を音声認識の用途 に使用したもの)を例にとって説明したが、本発明の音声編集装置はいろいろな用途 に利用でき、例えば、純粋に音声の加工や編集にも活用できる。
[0158] すなわち、例えば、携帯端末のユーザが、携帯端末内に、自己の音声 (かなり長い 音声)を記録しているとする(その音声データは、例えば、添付メールに埋め込んで 友人に送付するために用意されているものである)。ここで、何らかの理由により、そ の記録されて 、る長 、音声データの一部だけをカ卩ェする必要性が生じた場合に、も う一度、最初から長!、音声の入力を繰り返すのは効率が悪 、。
[0159] この場合に、パターンマッチングを利用して変更箇所を特定し、その変更部分の音 声データを他の音声データに変更できれば、非常に効率的に新規な音声データを 作成することができる。
[0160] つまり、新規の音声データをゼロからつくるのではなぐ既存の音声データを編集し て作るようにし、その音声データの編集の際に、パターンマッチング処理を用いて変 更箇所を自動的に特定すること (すなわち、音声認識装置がもつ音声認識機能を、 音声データの編集にも活用すること)によって、音声データの編集作業が簡単化され る。すなわち、既存の音声に対して部分音声を入力することによって、容易に音声の 切り出しや結合等が可能となる。
[0161] 例えば、「私は、 2005年 4月 1日に A社に入社しました」という既存の音声データが 携帯端末内に保存されているとする。この既存の音声データを編集する際に、携帯 端末の表示部に「切り出す箇所を発音して下さ 、」 、う表示をなし、これに応答して 、ユーザが「2005年 4月 1日に」と発声し、その音声が、携帯端末に入力される。
[0162] すると、既存の音声データと新たに入力された音声とのパターンマッチングが行わ れて、一致する箇所が切り取られる。その結果として、「私は、 A社に入社しました」と 言う音声を取得することができる。 [0163] また、本発明は、既存の音声データを複数の文章に分割するために使用することも できる。
[0164] 例えば「10時力 会議です。場所は第一会議室です」と言う既存の音声データが 携帯端末に保存されており、携帯端末の表示部上に「分割したい音声箇所を発音し てください」と表示し、ユーザが、「場所は」と音声し、この音声は、新規の音声入力と して携帯端末に取り込まれ、既存の音声データとパターンマッチングによる比較がな される。
[0165] この結果、既存の音声データの「場所は」の前で文章が分割され、その結果として、 「10時力も会議です。場所は第一会議室です」という音声データは、「10時から会議 です」と「場所は第一会議室です」という 2つの音声データに分割される。
[0166] このような音声データの編集をする場合の構成は、前掲の実施形態にて説明した 構成と同じである。すなわち、メルケプストラムデータによるマッチングにより、既存の 音声データの変更箇所を特定することができる (ここで、メルケプストラムデータは、音 声データを一定区間で音声分析して算出しているため、音声についても変更箇所の 特定が可能である)。
[0167] そして、その変更箇所の情報に基づいて、音声の切り取り、新規に入力した音声の 挿入、切り取った音声同士の結合などの編集を、自由に行うことができる。
[0168] このように、本実施形態における音声編集装置によれば、携帯端末などを利用して 、音声データを簡単に編集することが可能となる。この結果、多様な音声データを容 易に、効率的に、かつ安価に作成することが可能となる。
[0169] 以上説明したように、本発明の音声編集装置では、新規の音声データ (音声認識 用辞書としての標準パターンを含む)をゼロからつくるのではなぐ既存の音声データ を編集して作るようにし、その音声データの編集の際に、パターンマッチング処理を 用いて変更箇所を自動的に特定すること (すなわち、音声認識装置がもつ音声認識 機能を、音声データの編集にも活用すること)によって、音声データの編集作業が簡 単化される。
[0170] すなわち、既存の音声に対して部分音声を入力することによって、容易に音声の切 り出しや結合等が可能となり、音声データの編集を簡単に行えるようになる。 [0171] したがって、本発明によれば、携帯端末などを利用して、音声データを簡単に編集 することが可能となり、この結果、多様な音声データを容易に、効率的に、かつ安価 に作成することが可能となる。例えば、携帯端末に保存されている長い音声データの 一部のみを変更する場合にも、その変更箇所のみを特定し、他の音声データに置換 するなどして、簡単に編集、加工を行うことができる。
[0172] 具体的には、本発明の音声編集装置、音声編集方法および音声編集プログラムを 、音声認識装置、標準パターン作成方法および標準パターン作成プログラムとして 活用することによって、既存の標準パターンを活用して多様な標準パターンを効率的 に作成することができる。
[0173] また、パターンマッチング処理を用いて変更箇所を自動特定すること、すなわち、音 声認識装置がもつ音声認識機能を、標準パターンの作成にも活用することによって、 現実の生活に役立つ有用な標準パターンを、非常に効率的に作成することが可能と なる。したがって、音声認識可能な語彙を、柔軟かつ迅速に拡大することが可能とな る。
[0174] また、音声認識によって携帯端末の動作の制御を行う場合や、入力音声信号をテ キストデータに変換して電子メールを効率的に作成するような場合には、内容の一部 だけが異なる、一群の音声の音声認識が重要となると考えられる。したがって、既存 の標準パターンの一部を改変して新規な標準パターンを豊富化していくという、本発 明の音声認識装置で採用する手法は極めて有効である。
[0175] また、流用元の既存の標準パターンにおける変更箇所も、パターンマッチング処理 を利用して簡単に指定することができる。すなわち、本発明では、音声認識装置がも つマッチング処理機能を標準パターンの作成にも利用するため、ハードウェアの追 加等も最小限に抑えられる。よって、実現が容易であり、コスト面でも有利となる。
[0176] また、流用元の既存の標準パターンデータベースを更新するための更新用音声デ ータとしては、ユーザが入力する音声の音声や、既存の標準パターンから切り取って 得られる音声データや、あるいは、既存の標準パターン自体の音声データを利用す ることができる。多様な音声データを利用できるため、新しい標準パターンの作成処 理が効率化される。 [0177] 本発明の音声編集装置 (音声認識装置)は、音声データのカスタマイズが容易であ り、小型化や低コストという特徴をもっため、電子機器への搭載に適する。したがって
、電気機器の多機能化の進展に寄与する。
[0178] また、本発明の音声編集方法 (標準パターン作成方法を含む)によれば、無理なく
、最小限の労力で、現実に役立つ新規な音声データ (標準パターン)を、効果的に増 やすことが可能となる。
[0179] また、本発明の音声編集プログラムによれば、多様な電気機器において、音声デ → (標準パターンを含む)の編集を容易かつ安価に行うことが可能となる。
[0180] 本発明を詳細にまた特定の実施態様を参照して説明したが、本発明の精神と範囲 を逸脱することなく様々な変更や修正を加えることができることは当業者にとって明ら かである。
[0181] 本出願は、 2005年 5月 27日出願の日本特許出願 (特願 2005— 156205)に基づくも のであり、その内容はここに参照として取り込まれる。
産業上の利用可能性
[0182] 本発明は、携帯端末などを利用して、音声データを簡単に編集することを可能とし 、特に、音声認識装置として利用した場合には、音声認識可能な語彙を、柔軟かつ 効率的に豊富化することができるという効果を奏し、したがって、例えば、各種の電気 機器や携帯端末 (携帯電話端末や PDA等)に搭載される小型、軽量かつ安価な音 声編集装置 (音声認識装置を含む)に用いて好適である。

Claims

請求の範囲
[1] 既存の音声データを流用して、別の音声データを作成する機能をもつ音声編集装 置であって、
前記既存の音声データのうちの流用元の音声データと、前記流用元の音声データ における変更箇所を特定するための変更箇所特定用音声データと、のマッチング処 理を実施し、前記流用元の音声データの少なくとも一部を変更箇所として特定する 変更箇所特定部と、
前記変更箇所特定部によって特定された前記変更箇所の音声データを利用して、 別の音声データを作成する音声データ作成部と、
を有することを特徴とする音声編集装置。
[2] 請求項 1記載の音声編集装置であって、
前記音声データ作成部は、前記変更箇所特定部によって特定された、前記流用元 の音声データのうちの前記変更箇所の音声データを他の音声データに置き換えた 音声データを、前記別の音声データとして作成することを特徴とする音声編集装置。
[3] 請求項 1記載の音声編集装置であって、
前記音声データ作成部は、前記変更箇所特定部によって特定された、前記変更箇 所の音声データに他の音声データを結合した音声データを、前記別の音声データと して作成することを特徴とする音声編集装置。
[4] 請求項 2または 3記載の音声編集装置であって、
前記別の音声データを作成する際に使用される前記他の音声データは、少なくとも
、前記音声編集装置に外部力 入力される音声についての音声データ、既存の音 声データ力も切り取った音声データ、または、既存の音声データ自体の音声データ、 を含むことを特徴とする音声編集装置。
[5] 請求項 1〜請求項 4のいずれかに記載の音声編集装置を利用した、既存の標準パ ターンを流用して別の標準パターンを作成する機能をもつ音声認識装置であって、 前記既存の標準パターンのうちの流用元の標準パターンと、前記流用元の標準パ ターンにおける変更箇所を特定するための変更箇所特定用音声データと、のマッチ ング処理を実施し、前記流用元の標準パターンの少なくとも一部を変更箇所として特 定する変更箇所特定部と、
前記変更箇所特定部によって特定された前記変更箇所の音声データを利用して、 別の標準パターンを作成する音声データ作成部と、
を有することを特徴とする音声認識装置。
[6] 請求項 5記載の音声認識装置であって、
前記音声データ作成部により作成した別の標準パターンを、前記流用元の標準パ ターンと置き換える、または、前記流用元の標準パターンとは異なる標準パターンとし て追加する、ことによって、標準パターンデータベースを更新する標準パターンデー タベース更新部を、有することを特徴とする音声認識装置。
[7] 請求項 5または 6に記載の音声認識装置であって、
前記変更箇所特定部は、前記流用元の標準パターンを抽出するための音声デー タと、複数の既存の標準パターンの音声データと、のマッチング処理を実施し、マツ チする部分を含む既存の標準パターンを、前記流用元の標準パターンとして抽出す ることを特徴とする音声認識装置。
[8] 請求項 1〜請求項 4の 、ずれかに記載の音声編集装置または請求項 5〜請求項 7 の 、ずれかに記載の音声認識装置を搭載する電気機器。
[9] 請求項 1〜請求項 4の 、ずれかに記載の音声編集装置または請求項 5〜請求項 7 の ヽずれかに記載の音声認識装置を搭載する携帯端末。
[10] 既存の音声データを流用して、別の音声データを作成する音声編集方法であって 流用元の音声データと、前記流用元の音声データにおける変更箇所を特定するた めの変更箇所特定用音声データと、のマッチング処理を実施し、前記流用元の音声 データの少なくとも一部を変更箇所として特定する第 1のステップと、
特定された前記変更箇所の音声データを利用して、別の音声データを作成する第 2のステップと、
を含むことを特徴とする音声編集方法。
[11] 既存の標準パターンを流用して別の標準パターンを作成する音声認識方法であつ て、 流用元の標準パターンと、前記流用元の標準パターンにおける変更箇所を特定す るための変更箇所特定用音声データと、のマッチング処理を実施し、前記流用元の 標準パターンの少なくとも一部を変更箇所として特定する第 1のステップと、 特定された前記変更箇所の音声データを利用して、別の標準パターンを作成する 第 2のステップと、
を含む事を特徴とする音声認識方法。
[12] コンピュータに、請求項 10記載の各ステップを実行させるための音声編集プロダラ ム。
[13] コンピュータに、請求項 11記載の各ステップを実行させるための音声認識プロダラ ム。
PCT/JP2006/310490 2005-05-27 2006-05-25 音声編集装置、音声編集方法、および、音声編集プログラム WO2006126649A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP06746869A EP1884923A4 (en) 2005-05-27 2006-05-25 VOICE EDITING DEVICE, VOICE EDITING METHOD, AND VOICE EDITING PROGRAM
JP2006535901A JP5094120B2 (ja) 2005-05-27 2006-05-25 音声認識装置及び音声認識方法
CN2006800185552A CN101185115B (zh) 2005-05-27 2006-05-25 语音编辑装置及方法和语音识别装置及方法
US11/915,613 US8438027B2 (en) 2005-05-27 2006-05-25 Updating standard patterns of words in a voice recognition dictionary

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005-156205 2005-05-27
JP2005156205 2005-05-27

Publications (1)

Publication Number Publication Date
WO2006126649A1 true WO2006126649A1 (ja) 2006-11-30

Family

ID=37452072

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/310490 WO2006126649A1 (ja) 2005-05-27 2006-05-25 音声編集装置、音声編集方法、および、音声編集プログラム

Country Status (5)

Country Link
US (1) US8438027B2 (ja)
EP (1) EP1884923A4 (ja)
JP (1) JP5094120B2 (ja)
CN (1) CN101185115B (ja)
WO (1) WO2006126649A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008087934A1 (ja) * 2007-01-16 2008-07-24 Nec Corporation 拡張認識辞書学習装置と音声認識システム

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7689417B2 (en) * 2006-09-04 2010-03-30 Fortemedia, Inc. Method, system and apparatus for improved voice recognition
US8666751B2 (en) 2011-11-17 2014-03-04 Microsoft Corporation Audio pattern matching for device activation
US9082403B2 (en) * 2011-12-15 2015-07-14 Microsoft Technology Licensing, Llc Spoken utterance classification training for a speech recognition system
US9536528B2 (en) 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
CN103730032B (zh) * 2012-10-12 2016-12-28 李志刚 多媒体数据控制方法和系统
US9159319B1 (en) * 2012-12-03 2015-10-13 Amazon Technologies, Inc. Keyword spotting with competitor models
US9886947B2 (en) * 2013-02-25 2018-02-06 Seiko Epson Corporation Speech recognition device and method, and semiconductor integrated circuit device
KR102281178B1 (ko) * 2014-07-09 2021-07-23 삼성전자주식회사 멀티-레벨 음성 인식 방법 및 장치
US9263042B1 (en) 2014-07-25 2016-02-16 Google Inc. Providing pre-computed hotword models
GB2535766B (en) * 2015-02-27 2019-06-12 Imagination Tech Ltd Low power detection of an activation phrase
US9685061B2 (en) * 2015-05-20 2017-06-20 Google Inc. Event prioritization and user interfacing for hazard detection in multi-room smart-home environment
JP6531776B2 (ja) * 2017-04-25 2019-06-19 トヨタ自動車株式会社 音声対話システムおよび音声対話方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0533491A2 (en) 1991-09-19 1993-03-24 Xerox Corporation Wordspotting using two hidden Markov models (HMM)
JPH05188988A (ja) 1992-01-14 1993-07-30 Matsushita Electric Ind Co Ltd 音声認識方法
JPH11190997A (ja) 1997-12-25 1999-07-13 Omron Corp 音声認識のための標準パターン作成方法およびその方法を実施するための標準パターン作成用の制御プログラムの記録媒体、ならびにその方法を用いた標準パターン作成装置
JP2001324995A (ja) * 2000-05-17 2001-11-22 Alpine Electronics Inc 音声認識方法
JP2003188948A (ja) 2001-12-19 2003-07-04 Nec Corp 携帯端末装置
JP2004153306A (ja) 2002-10-28 2004-05-27 Sharp Corp 携帯端末装置及びセキュリティシステム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4819271A (en) * 1985-05-29 1989-04-04 International Business Machines Corporation Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
JP3279684B2 (ja) * 1992-11-17 2002-04-30 株式会社日立製作所 音声インタフェース・ビルダ・システム
JPH0926799A (ja) * 1995-07-12 1997-01-28 Aqueous Res:Kk 音声認識装置
US5712957A (en) * 1995-09-08 1998-01-27 Carnegie Mellon University Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
JPH11202886A (ja) * 1998-01-13 1999-07-30 Hitachi Ltd 音声認識装置、単語認識装置、単語認識方法、及び単語認識プログラムを記録した記憶媒体
CN1182694C (zh) * 1998-01-16 2004-12-29 皇家菲利浦电子有限公司 用于电话机的自动拨号的话音命令系统
JP2000276184A (ja) 1999-03-24 2000-10-06 Toppan Printing Co Ltd 音声カードモジュール及び音声カード供給システム並びに方法
US6385579B1 (en) * 1999-04-29 2002-05-07 International Business Machines Corporation Methods and apparatus for forming compound words for use in a continuous speech recognition system
US7120582B1 (en) * 1999-09-07 2006-10-10 Dragon Systems, Inc. Expanding an effective vocabulary of a speech recognition system
US6473734B1 (en) * 2000-03-27 2002-10-29 Motorola, Inc. Methodology for the use of verbal proxies for dynamic vocabulary additions in speech interfaces
US20020120451A1 (en) * 2000-05-31 2002-08-29 Yumiko Kato Apparatus and method for providing information by speech
WO2002021510A1 (en) * 2000-09-08 2002-03-14 Koninklijke Philips Electronics N.V. Speech recognition method with a replace command
JP2002358095A (ja) * 2001-03-30 2002-12-13 Sony Corp 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
JP4736478B2 (ja) * 2005-03-07 2011-07-27 日本電気株式会社 音声書き起こし支援装置およびその方法ならびにプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0533491A2 (en) 1991-09-19 1993-03-24 Xerox Corporation Wordspotting using two hidden Markov models (HMM)
JP3434838B2 (ja) * 1991-09-19 2003-08-11 ゼロックス・コーポレーション ワードスポッティング法
JPH05188988A (ja) 1992-01-14 1993-07-30 Matsushita Electric Ind Co Ltd 音声認識方法
JPH11190997A (ja) 1997-12-25 1999-07-13 Omron Corp 音声認識のための標準パターン作成方法およびその方法を実施するための標準パターン作成用の制御プログラムの記録媒体、ならびにその方法を用いた標準パターン作成装置
JP2001324995A (ja) * 2000-05-17 2001-11-22 Alpine Electronics Inc 音声認識方法
JP2003188948A (ja) 2001-12-19 2003-07-04 Nec Corp 携帯端末装置
JP2004153306A (ja) 2002-10-28 2004-05-27 Sharp Corp 携帯端末装置及びセキュリティシステム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1884923A4

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008087934A1 (ja) * 2007-01-16 2008-07-24 Nec Corporation 拡張認識辞書学習装置と音声認識システム
JP5240457B2 (ja) * 2007-01-16 2013-07-17 日本電気株式会社 拡張認識辞書学習装置と音声認識システム
US8918318B2 (en) 2007-01-16 2014-12-23 Nec Corporation Extended recognition dictionary learning device and speech recognition system

Also Published As

Publication number Publication date
JPWO2006126649A1 (ja) 2008-12-25
EP1884923A1 (en) 2008-02-06
CN101185115A (zh) 2008-05-21
US20090106027A1 (en) 2009-04-23
EP1884923A4 (en) 2009-06-03
CN101185115B (zh) 2011-07-20
US8438027B2 (en) 2013-05-07
JP5094120B2 (ja) 2012-12-12

Similar Documents

Publication Publication Date Title
JP5094120B2 (ja) 音声認識装置及び音声認識方法
JP6434948B2 (ja) 名前発音システム及び方法
JP4263614B2 (ja) リモートコントロール装置及び情報端末装置
EP1600018B1 (en) Multimedia and text messaging with speech-to-text assistance
US7870142B2 (en) Text to grammar enhancements for media files
EP2005319B1 (en) System and method for extraction of meta data from a digital media storage device for media selection in a vehicle
US7689417B2 (en) Method, system and apparatus for improved voice recognition
EP2311031B1 (en) Method and device for converting speech
US20110112837A1 (en) Method and device for converting speech
US20080130699A1 (en) Content selection using speech recognition
Husnjak et al. Possibilities of using speech recognition systems of smart terminal devices in traffic environment
WO2009006081A2 (en) Pronunciation correction of text-to-speech systems between different spoken languages
US20060190260A1 (en) Selecting an order of elements for a speech synthesis
EP1899955B1 (en) Speech dialog method and system
AU760377B2 (en) A method and a system for voice dialling
JP2001268669A (ja) 移動電話端末を利用した機器制御装置、方法、及び記録媒体
KR102574311B1 (ko) 음성 합성 서비스를 제공하는 장치, 단말기 및 방법
JP5500647B2 (ja) 動的音声認識辞書の生成方法及びその生成装置
CN1726531A (zh) 用于生成语音的设备,可连接到或含有该设备的装置以及相关的计算机程序产品

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200680018555.2

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2006535901

Country of ref document: JP

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006746869

Country of ref document: EP

Ref document number: 11915613

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: RU

WWP Wipo information: published in national office

Ref document number: 2006746869

Country of ref document: EP