WO2011052412A1 - 音声認識システム、音声認識要求装置、音声認識方法、音声認識用プログラムおよび記録媒体 - Google Patents

音声認識システム、音声認識要求装置、音声認識方法、音声認識用プログラムおよび記録媒体 Download PDF

Info

Publication number
WO2011052412A1
WO2011052412A1 PCT/JP2010/068230 JP2010068230W WO2011052412A1 WO 2011052412 A1 WO2011052412 A1 WO 2011052412A1 JP 2010068230 W JP2010068230 W JP 2010068230W WO 2011052412 A1 WO2011052412 A1 WO 2011052412A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech recognition
data
result
recognition
voice recognition
Prior art date
Application number
PCT/JP2010/068230
Other languages
English (en)
French (fr)
Inventor
長友 健太郎
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US13/504,264 priority Critical patent/US20120215528A1/en
Priority to JP2011538353A priority patent/JP5621993B2/ja
Publication of WO2011052412A1 publication Critical patent/WO2011052412A1/ja
Priority to US14/064,976 priority patent/US9520129B2/en
Priority to US15/241,233 priority patent/US9905227B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Definitions

  • the present invention relates to a speech recognition system, a speech recognition method, and a speech recognition program. More specifically, the present invention relates to a speech recognition system, a speech recognition method, and a speech recognition program that make it impossible for a third party to restore details of recognition results regarding the content of speech that is subject to speech recognition and details of a speech recognition dictionary.
  • Speech recognition technology using an information processing system is a technology for extracting language information contained in input speech data.
  • a system using speech recognition technology can be used as a speech word processor if all speech data is converted into text, and can be used as a speech command input device by extracting a keyword contained in speech data.
  • An example of a related speech recognition system is shown in FIG.
  • the speech recognition system shown in FIG. 7 includes an utterance section extraction unit, a feature vector extraction unit, an acoustic likelihood calculation unit, a hypothesis search unit, and a speech recognition database.
  • the speech recognition system having such a configuration operates as follows. In the sound (speech) input to the speech recognition system, there are a mixture of sections that are actually speaking (voice sections) and sections that are not (silence sections). Extract only the speech segment.
  • the extracted speech data of the section is input to the feature vector extraction unit, and various feature amounts included in the speech are extracted at regular time intervals (frames) to extract feature vectors.
  • What is often used as a feature quantity is a cepstrum, power, ⁇ power, and the like. This is referred to as a feature vector because it is handled as an array (vector) combining a plurality of feature quantities.
  • the extracted speech feature vector is sent to the acoustic likelihood calculation unit, and the likelihood (acoustic likelihood) for each of a plurality of phonemes given in advance is obtained.
  • the acoustic likelihood the similarity with each phoneme model recorded in the acoustic model of the database is often used.
  • acoustic likelihood calculation is sometimes referred to as “distance calculation”.
  • Phonemes are intuitively divided into consonants and vowels, but even if they are the same phoneme, the preceding phonemes and the following phonemes differ in their acoustic characteristics, so they are modeled separately. It is known that this can be recognized with high accuracy.
  • a phoneme that takes into account the difference between the preceding and following phonemes is called a triphone.
  • state transitions in phonemes are expressed by HMM (Hidden Markov Model). Therefore, the acoustic model is a set of HMMs for each triphone.
  • an ID (hereinafter referred to as a phoneme ID) is assigned to each triphone, and this phoneme ID is exclusively handled in subsequent processing.
  • the hypothesis search unit searches the word string having the highest likelihood with reference to the language model with respect to the acoustic likelihood obtained by the acoustic likelihood calculation unit.
  • the language model may be divided into a dictionary and a narrowly-defined language model.
  • the dictionary is provided with a list of vocabularies that can be handled by the (broad sense) language model.
  • Each word entry in the dictionary is generally given a phoneme string (or phoneme ID string) and a notation character string of the word.
  • the language model in a narrow sense includes information obtained by modeling the likelihood (language likelihood) that a certain word group in the vocabulary appears continuously in a certain order.
  • Grammar and N-gram are the most commonly used language models in a narrow sense today.
  • Grammar is a direct description of the validity of a word chain using words, word attributes or word categories.
  • N-gram is a statistical calculation of the appearance likelihood of a word chain composed of N words based on the actual appearance frequency in a large amount of corpus (learning text data).
  • an ID hereinafter referred to as a word ID
  • a (narrow sense) language model works like a function that returns a language likelihood with a word ID string as an input.
  • the search processing in the hypothesis search unit includes the likelihood of the phoneme (acoustic likelihood) from the feature vector string, the possibility of conversion from the phoneme ID string to the word ID, the appearance likelihood of the word string from the word ID string (language The likelihood) is obtained, and the word string having the highest likelihood is finally found.
  • a typical speech recognition system as described above, T.W. Kawahara, A .; Lee, T .; Kobayashi, K. et al. Takeda, N .; Minematsu, S.M. Sagayama, K .; Itou, A .; Ito, M.M. Yamamoto, A .; Yamada, T .; Utsuro and K.K. Shikano.
  • Nonpatent literature 1 “Free software toolkit for Japan large vocabulary continuous speech recognition.” In Proc. Int'l Conf. on Spoken Language Processing (ICSLP), Vol. 4, pp. 476-479, 2000. (Nonpatent literature 1) is mentioned. There is a limit to the vocabulary and expressions that can be modeled by one language model. If an attempt is made to model a large amount of vocabulary and various expressions beyond the limit, ambiguity increases during hypothesis search, resulting in a decrease in recognition speed and deterioration in recognition accuracy. Also, it is impossible to collect all of the huge vocabulary. Therefore, it is common to customize a language model according to a task or domain in which speech recognition technology is to be used. For example, if speech recognition technology is used as a voice command, a language model consisting only of acceptable commands is created.
  • a language model that models only words and expressions that appear in past meeting records and meeting sounds, and related words and expressions .
  • the acoustic model is generally obtained by using machine learning technology using a large amount of labeled voice data (a set of voice data to which information indicating which section of the voice data corresponds to which phoneme). Since the collection of such audio data is expensive, customization for each user is generally not performed, and the audio data is prepared individually according to the general characteristics of the assumed usage scene. For example, in the case of telephone speech recognition, an acoustic model learned from data with telephone voice labels is used.
  • An optimization processing function (generally called “speaker learning” function or “enroll” function) may be provided according to the voice of each user. Difference information is learned, and the acoustic model itself as a base is rarely constructed for each user.
  • speech recognition can be widely used for various purposes, there is a problem that a corresponding amount of calculation is required particularly in the above hypothesis search processing. Speech recognition technology has been developed while overcoming the conflicting issues of improving recognition accuracy and reducing the amount of computation, but there are still problems such as the limited number of vocabularies that can be handled by mobile phone terminals, for example. . In order to realize voice recognition with higher accuracy and higher degree of freedom, it is more effective to execute voice recognition processing on a remote server capable of generating abundant calculation amount.
  • Patent Document 1 Japanese Patent Laid-Open No. 2003-5949
  • the speech recognition system described in Patent Document 1 includes a client terminal and a server that communicate via a network.
  • the client terminal includes a voice detection unit (speech extraction unit) that detects a voice section from input voice, a waveform compression unit that compresses voice data in the detected section, and a waveform that transmits the compressed waveform data to the server A transmission unit is provided.
  • the server also recognizes a waveform receiving unit that receives compressed waveform data transmitted from the client terminal, a waveform expanding unit that expands the received compressed speech, and an analysis unit that analyzes the expanded waveform and performs speech recognition processing.
  • the speech recognition system of Patent Document 1 having such a configuration operates as follows. That is, the sound (voice) captured by the client terminal is divided into a voice section and a non-voice section by the voice detection unit.
  • the speech section is compressed by the waveform compression unit and then transmitted to the server by the waveform transmission unit.
  • the waveform receiving unit of the server that has received this sends the received data to the waveform expanding unit.
  • the server extracts a feature amount from the waveform data expanded by the waveform expansion unit, and finally executes speech recognition processing by the recognition unit.
  • the operation of the speech recognition unit itself is essentially the same as that operating on a single host. In the invention disclosed in Patent Document 1, the processing up to the speech extraction unit shown in FIG. 7 is executed by the client terminal, and the subsequent processing is executed by the server.
  • the client / server type speech recognition technology has been developed mainly assuming the use of a mobile terminal (mobile phone, PDA, PHS, netbook, etc.).
  • the initial purpose was to overcome the problem of difficulty in speech recognition on a portable terminal having inferior processing capability because the amount of calculation required for speech recognition processing was severe as described above.
  • the processing capability of mobile terminals has been improved and the speech recognition technology has been refined, so that a client / server speech recognition system is not necessarily required.
  • the attention to the client-server type speech recognition system is increasing.
  • SaaS Software as a Service
  • various functions provided on the local terminal are provided over the network in terms of network bandwidth expansion and management costs.
  • voice recognition technology is provided as a network service
  • the system is built on the basis of the client / server type voice recognition technology.
  • the first problem is that when the voice recognition function is realized as a service via a network, the risk of leakage of the user's utterance content (voice signal) to a third party increases. This is because the voice data is decrypted at least on the voice recognition server that provides the voice recognition service, even if the voice data is encrypted on the communication path to keep the communication secret.
  • the second problem is that when the voice recognition function is realized as a service via a network, the contents that the user is expected to utter and the special information regarding the task and domain that the user is going to use the voice recognition technology are third. The risk of leakage to the person increases.
  • the task essentially adds a vocabulary that expresses special information about the task or domain to the language model. It means to do.
  • the language model is essential at the hypothesis search stage in the speech recognition process, and therefore, in the system that performs the hypothesis search process on the recognition server, at least the recognition server can read the language model.
  • the third party referred to here includes those that provide a speech recognition service (natural persons, corporations, other systems). If leakage to only the speech recognition service provider is not a problem, the communication path and language model file need only be simply encrypted. However, when it is desired to keep the information confidential from the voice recognition service provider, the above-described technique cannot cope with it.
  • the present invention provides a speech recognition system capable of performing secret speech recognition, in which, when the speech recognition function is realized as a service via a network, the risk of leakage of user utterance content to a third party is reduced as much as possible.
  • the present invention when the voice recognition function is realized as a service via a network, the present invention includes special information regarding contents expected to be spoken by the user and tasks and domains that the user is going to use the voice recognition technology.
  • a speech recognition system capable of concealed speech recognition that minimizes the risk of leakage to the three parties.
  • a speech recognition system includes a first information processing unit including a speech recognition processing unit that receives data used for speech recognition transmitted via a network, performs speech recognition processing, and sends back the resulting data.
  • a device is connected to the first information processing apparatus via a network, and the data used for speech recognition of the speech recognition processing unit cannot be acquired, and the speech recognition processing unit performs speech recognition processing.
  • a second information processing apparatus that converts the data into a format that can be transmitted and transmits the result data returned from the first information processing apparatus into a content that is a valid recognition result. It is characterized by that.
  • the speech recognition requesting apparatus is a speech recognition apparatus including a speech recognition processing unit that receives data used for speech recognition transmitted via a network, performs speech recognition processing, and sends back the resulting data.
  • the data used for speech recognition of the communication unit connected via the network and the speech recognition processing unit is converted into data in a format in which the content cannot be obtained and the speech recognition processing unit can perform speech recognition processing.
  • An information conversion unit that converts the converted data into a voice recognition result that can be obtained as a result of a speech recognition performed on the converted data and sent back from the speech recognition device, and a content that is a valid recognition result It has the authentication result construction part reconstructed based on this.
  • the speech recognition system when implement
  • the voice recognition function when the voice recognition function is realized as a service via a network, there is special information regarding contents expected to be spoken by the user and tasks and domains that the user is going to use the voice recognition technology. It is possible to provide a speech recognition system capable of performing confidential speech recognition that reduces the risk of leakage to a third party as much as possible.
  • FIG. 1 is a block diagram showing the configuration of the first embodiment.
  • FIG. 2 is a flowchart showing the speech recognition process in the first embodiment.
  • FIG. 3 is a block diagram showing the configuration of the second embodiment.
  • FIG. 4 is a block diagram showing the configuration of the third embodiment.
  • FIG. 5 is a block diagram showing a configuration of the fourth embodiment.
  • FIG. 6 is a block diagram showing the configuration of the fifth embodiment.
  • FIG. 7 is a block diagram showing an example of the configuration of the voice recognition system.
  • FIG. 8 is a block diagram showing an example of the configuration of a voice recognition system having a client-server structure.
  • ⁇ Sound can be restored incomplete from acoustic features ⁇ Even if the speech itself cannot be restored, if the details of the acoustic features are known, the speech content can be restored incompletely by performing the corresponding speech recognition processing.
  • the speech recognition server provider knows what feature quantity is used by the recognition processing unit of the recognition server that it provides. ⁇ Therefore, at least the speech recognition server provider can restore the utterance content from the acoustic features.
  • Vocabulary information included in a language model usually includes at least reading information, and in many cases also includes a written character string. The reading information is usually data that can be converted into a phoneme ID string according to the acoustic model used by a given procedure, or the phoneme ID string itself.
  • the recognition procedure of the recognition server should know the conversion procedure.
  • the speech recognition server provider can decipher the vocabulary information contained in the language model
  • the phoneme ID cannot be deciphered by humans at first glance, a person who knows the details of the acoustic model can grasp the phoneme indicated by each phoneme ID.
  • it is difficult for a user to construct an acoustic model and it is generally constructed and provided by a speech recognition server provider or another provider.
  • the voice recognition server provider or another acoustic model provider knows the details of the phoneme ID. In other words, the voice recognition server provider can know the details of the phoneme ID within a range that the user is not aware of.
  • FIG. 1 shows the configuration of the first embodiment of the present invention.
  • the first embodiment of the present invention includes a client 110 and a server 120.
  • the client 110 includes an utterance extraction unit 111, a feature vector extraction unit 112, a feature vector conversion unit 113, a phoneme ID conversion unit 114, a data transmission unit 115, a search result reception unit 116, and a recognition result construction unit 117.
  • the database 118 also has an acoustic model, a language model, and conversion / reconstruction data.
  • the conversion / reconstruction data is used by the feature vector conversion unit 113, the phoneme ID conversion unit 114, and the recognition result construction unit 117.
  • the conversion / reconstruction data may be set in advance in the feature vector conversion unit 113, the phoneme ID conversion unit 114, and the recognition result construction unit 117.
  • the utterance extraction unit 111 extracts voice from sound and outputs it as voice data.
  • voice section a section in which speech is actually spoken
  • a section in which it is not are determined from the acoustic data.
  • the voice and noise are separated and removed.
  • the feature vector extraction unit 112 extracts a set of acoustic feature quantities (feature vectors) such as cepstrum, power, and ⁇ power from the voice data.
  • feature vector conversion unit 113 converts the content of the feature vector into data in a format that cannot be obtained by a third party.
  • the feature vector conversion unit 113 outputs an output result as follows.
  • the conversion process is performed so as to ensure that the output result obtained by the combination of the acoustic model before conversion and the feature vector is the same as or an approximate value. Examples of conversion include shuffling of the arrangement order of feature vectors, and addition of dimensions that are redundant and can be ignored in calculation.
  • the phoneme ID conversion unit 114 converts the phoneme IDs of the acoustic model and the language model into data in a format that cannot be obtained by a third party.
  • the data transmission unit 115 appropriately transmits converted data such as a feature vector, an acoustic model, and a language model to the server 120.
  • the search result reception unit 116 receives the output of the speech recognition unit 122 such as the most likely word ID string via the search result transmission unit 123 of the server 120.
  • the recognition result construction unit 117 refers to the conversion / reconstruction data recorded in the database 118 with respect to the most likely word ID string received from the search result reception unit 116, and performs conversion performed by the phoneme ID conversion unit 114. To restore. For example, when the word ID is shuffled, the reverse conversion is performed to reconstruct the word ID in the language model before conversion.
  • the recognition result construction unit 117 constructs a recognition result that is similar to the recognition result of the existing system by referring to the language model before conversion using the restored word ID.
  • the server 120 includes a data reception unit 121, a voice recognition unit 122, and a search result transmission unit 123.
  • the data receiving unit 121 receives data used for voice recognition from the client 110.
  • the data used for speech recognition received in this embodiment is converted data such as feature vectors, acoustic models, and language models.
  • the speech recognition unit 122 searches for the most likely word string for the feature vector series while referring to the acoustic model and the language model.
  • the speech recognition unit 122 will be described in detail as an acoustic likelihood calculation unit 122a and a hypothesis search unit 122b.
  • the acoustic likelihood calculation unit 122a calculates the acoustic likelihood of the feature vector for each phoneme of the acoustic model.
  • the hypothesis search part 122b calculates
  • requires the maximum likelihood word ID sequence ( phoneme ID sequence) using an acoustic likelihood and a language likelihood. It should be noted that an implementation that evaluates these processes at once may be used.
  • the search result transmission unit 123 transmits the output of the speech recognition unit 122 such as the most likely word ID string to the client 110.
  • the phoneme ID conversion unit 114 converts the phoneme IDs of the acoustic model and the language model into data in a format that cannot be obtained by a third party.
  • the phoneme ID conversion unit 114 records information necessary for restoration according to the content of the conversion process in the database 118 as conversion / reconstruction data. For example, an acoustic model in which a phoneme ID and a feature vector are converted, and a language model in which the phoneme ID is similarly converted and vocabulary information other than the phoneme ID string is deleted, and a recognition result construction unit 117 are generated.
  • Data for conversion / reconstruction is recorded in the database 118.
  • the conversion process will be described in detail later.
  • the data transmitting unit 115 transmits the generated converted acoustic model (converted acoustic model) and language model (converted language model) to the server 120 as speech recognition information.
  • the speech extraction unit 111 cuts out a speech section from the input sound (speech) in parallel with the processes 1 and 2 described above. 4).
  • the feature vector extraction unit 112 calculates a set (feature vector) of acoustic feature amounts for each minute section (frame) of the extracted speech section. 5.
  • the feature vector conversion unit 113 cannot know the content of the calculated feature quantity vector by a third party.
  • the feature vector conversion unit 113 can construct a valid processing result from the recognition processing result of the speech recognition unit 122. Convert to a data structure that is a format. The conversion will be described in detail later. 6).
  • the data transmission unit 115 transmits the converted feature vector (converted feature vector) to the server 120 as information for speech recognition. The processes 1 to 2 and the processes 3 to 6 may be performed in parallel. 7).
  • the data receiving unit 121 receives a converted acoustic model, a converted language model, a converted feature vector, and the like, which are information for speech recognition after conversion, from the client 110. 8).
  • the speech recognition unit 122 searches for the most likely word ID string for the feature vector series while referring to the received acoustic model and language model. An example of the search process will be described later in detail.
  • the search result transmission unit 123 transmits a word ID string or the like to the client 110 as voice recognition result data obtained as a search result. If necessary, the search result transmission unit 123 also combines the likelihood or the top N word ID strings (N best), the likelihood information of the word ID strings, the search space itself (lattice or word graph), and the like. To send. 10.
  • the search result receiving unit 116 receives a search result word ID string or the like (voice recognition result data) from the server 120. 11.
  • the recognition result construction unit 117 acquires word information corresponding to each word ID in the word ID string from the language model before conversion, and generates a word string as a final recognition result. N vests and word graphs are similarly processed as necessary. Here, details of the search process are shown below. 8-1.
  • the acoustic likelihood calculation unit 122a performs processing for obtaining the acoustic likelihood for each phoneme included in the acoustic model (the converted acoustic model) for each feature vector. 8-2.
  • a word (word ID) corresponding to a phoneme ID string corresponding to reading of any word included in the language model (converted language model) is referred to.
  • a likelihood (language likelihood) calculation process obtained from the validity information of the word ID string included in the language model is performed.
  • the hypothesis search unit 122b performs a search process for a word ID string that gives the largest likelihood to the feature vector string while referring to the acoustic likelihood and the language likelihood.
  • the hypothesis search unit 122b may perform arbitrary rescoring processing as necessary, and may use the word ID string having the maximum score as the search result as a search result.
  • a processing method using a mapping function may be stored in advance in each unit.
  • the conversion using the feature vector and the acoustic model mapping function in the feature vector conversion unit 113 and the phoneme ID conversion unit 114 relates to the operation of the speech recognition unit 122, particularly the acoustic likelihood calculation unit 122a.
  • the process performed by the acoustic likelihood calculating unit 122a is a process for obtaining the likelihood of the feature vector given to each phoneme. If the feature vector is V and the acoustic model is A, there are M types of phonemes.
  • D acoustic likelihood function
  • f_v ((v_1, ..., v_N)) (v_N, v_1, ..., v_ ⁇ N-1 ⁇ )
  • f_a is a function that shifts the model for the i-th feature amount in the acoustic model to the (i + 1) th
  • f_a ((A_ ⁇ 1, j ⁇ , ..., A_ ⁇ N, j ⁇ )) ((A_ ⁇ N, j ⁇ , A_ ⁇ 1, j ⁇ , ..., A_ ⁇ N-1, j) ⁇ ))
  • D (f_v (V), f_a (A_j)) D (v_N, A_ ⁇ N, j ⁇ ) + D (v_1, A_ ⁇ 1, j ⁇ ) +.
  • c_k and c_k ⁇ ⁇ 1 ⁇ are a set of known values satisfying the above formula.
  • the acoustic likelihood is linear with respect to the likelihood for each element of the feature vector and the set of feature values for which the sum of acoustic likelihoods is zero and the model for that feature amount are known, The number of apparent dimensions of the feature vector can be increased using the set. Further, if the acoustic likelihood is generally linear with respect to the likelihood for each element of the feature vector and the acoustic likelihood function D (v_i, A_ ⁇ i, j ⁇ ) for each feature quantity is also linear, a certain feature By dividing the quantity into a plurality of elements, the number of apparent dimensions of the feature vector can be increased.
  • the acoustic likelihood calculation unit 122a is based on an acoustic likelihood function having such a property, the combination of “feature vector shuffle” and “appearance dimension expansion” as described above Can provide any number of arbitrary mapping functions as required by embodiments of the present invention.
  • f_a can be defined, it can be used as a system shown in the embodiment of the present invention.
  • mapping F ′ The embodiment of the present invention can be realized using (f′_v, f′_a).
  • the speech recognition unit 122 of the server 120 performs these conversions. It is possible to obtain a recognition result similar to or similar to the case where there is not. Next, the conversion process between the acoustic model and the language model will be described in detail.
  • the conversion of the acoustic model and the language model in the phoneme ID conversion unit 114 relates to the speech recognition unit 122, and particularly relates to the operation of the hypothesis search unit 122b.
  • a phoneme string a_1,. . . , A_N need to be determined whether to form a certain word w.
  • a lookup function that returns 0 or 1 for all the words w included in L can be expressed as the following equation.
  • e_j ⁇ in ⁇ 0,1 ⁇
  • this function seems to have a very high computational load, but it can be obtained at high speed using the TRIE structure or the like.
  • a phoneme ID string is often used instead of a phoneme string, and a word ID is often used instead of a word itself, but both correspond to phonemes and words one-to-one. Describe only words.
  • mapping function ⁇ ⁇ used for the transformation is Data structure X is ⁇ _x ⁇ X ⁇ , Data structure Y is ⁇ _y ⁇ Y ⁇ , When mapping each Function F (X, Y) used by the recognition processing unit F (X, Y) and F ( ⁇ _x ⁇ X ⁇ , ⁇ _y ⁇ Y ⁇ ) The values of are always equal.
  • F is Feature vector + acoustic model ⁇ acoustic likelihood
  • X is the feature vector and Y is the acoustic model and
  • X is an acoustic model
  • Y is a language model That's what it means. Note that if the implementation of the speech recognition unit 122, particularly the hypothesis search unit 122b, is expressed as a search problem in which the likelihood is regarded as a score and a path with the maximum score is obtained, only the magnitude relationship between the likelihoods is saved.
  • the isotropy and error are not sufficient to satisfy the requirements, and the equivalence is strictly required. Otherwise, the recognition accuracy is adversely affected.
  • the language model conversion unit 114 the information other than the information of the phoneme ID string (the phoneme ID is also converted by the mapping function as described above) out of the information about each word included in the language model is fundamental. To delete everything. This not only provides confidentiality but also reduces the amount of communication. However, if there is other data (information affecting the voice recognition processing result) referred to by the recognition processing unit 122, it is desirable not to delete it.
  • data such as part of speech information of a word and class information to which the word belongs can be cited.
  • the speech recognition processing unit 122 that requests data relating to leakage of word information should be avoided from being used for speech recognition processing.
  • a recognition processing unit 122 that requests a display character string of a word is not used in this embodiment. If it is unavoidable to use a speech recognition processing unit that requests such data, it may be avoided by a method such as mapping like a phoneme ID or a word ID.
  • mapping like a phoneme ID or a word ID.
  • the phoneme ID conversion between the acoustic model and the language model may be performed once prior to speech recognition as described above.
  • a model converted with the same mapping function is used for a long time, the risk of guessing the mapping function using a statistical method or the like increases. Therefore, the confidentiality of the third party is enhanced by periodically switching the behavior of the conversion operation, such as changing the mapping function to another one. Specifically, it is preferable to switch the timing once every few utterances or once every few minutes.
  • considering the amount of calculation required for the conversion operation and the amount of communication for transmitting the converted model to the server it is not appropriate to switch the frequency too frequently.
  • the timing and frequency of switching may be values that take into account the overhead (the amount of calculation required for the conversion operation and the amount of communication for transmitting the converted model to the server) caused by frequent switching. Further, as in a silent section, it may be modified in a timely manner at the timing when the processing amount and communication amount are reduced.
  • the embodiment that performs the conversion using the mapping function is configured to transmit the feature vector to the server after converting the feature vector using the mapping function. Therefore, even if a third party obtains the feature vector on the communication path or the server. It can be difficult to immediately restore this to speech.
  • the acoustic model is also converted by the mapping function selected so as to return the same acoustic likelihood as the feature vector before conversion, the same acoustic likelihood as when the feature vector is not converted is calculated. In other words, the same recognition result is guaranteed.
  • the information of the written character string among the information of each word entry included in the language model is not transmitted to the server, and in addition, the phoneme ID string indicating the reading of the word entry is also converted by the mapping function. Since it is configured to transmit to the server, even if a third party who knows the structure of the language model obtains it, it is difficult to immediately know information such as reading and notation of words included therein.
  • FIG. 3 is a block diagram showing the configuration of the second embodiment.
  • the voice recognition system according to the second embodiment includes a plurality of voice recognition servers.
  • An information processing apparatus that requests voice recognition is also a server.
  • the plurality of voice recognition servers respectively correspond to different converted acoustic recognition information data (types A, B, and C in the figure).
  • the server that requests speech recognition stores the specifications of each acoustic recognition server in advance, and stores the converted acoustic recognition information data to be transmitted to each acoustic recognition server. It should be noted that such specifications of the acoustic recognition server may be managed centrally with the conversion / reconstruction data, or may be managed by other methods. Even with such a configuration, it is possible to recognize the voice obtained by the server requesting the voice recognition by providing confidentiality to a third party. An example of operation is shown below.
  • a server that requests speech recognition uses each unit to perform speech extraction processing and feature vector extraction processing, then selects a sound recognition server to be used, and legitimate processing corresponding to the sound recognition server for information for speech recognition The result is converted into a data format that can be restored, and transmitted to the selected acoustic recognition server.
  • a server that requests voice recognition uses each unit to construct and output the result data sent back from the acoustic recognition server into a voice recognition result that is a valid recognition result. At this time, the shuffling method and the acoustic recognition server to be transmitted are switched as necessary or over time.
  • the plurality of speech recognition servers of the speech recognition system provides a service only for hypothesis search processing.
  • the speech recognition server can perform acoustic likelihood detection processing and hypothesis search processing, and provides a service only by hypothesis search processing.
  • An information processing apparatus that requests speech recognition has an acoustic likelihood detection unit and is configured to perform distance calculation.
  • Each of the plurality of speech recognition servers performs the requested speech recognition processing (acoustic likelihood detection processing, hypothesis search processing) and sends back the results.
  • the requesting terminal that requests speech recognition stores the specifications of each acoustic recognition server in advance, and stores the converted acoustic recognition information data to be transmitted to each acoustic recognition server.
  • the acoustic recognition server may be managed centrally with the conversion / reconstruction data, or may be managed by other methods. Even with such a configuration, it is possible to recognize the voice acquired by the requesting terminal requesting the voice recognition by giving confidentiality to the third party.
  • An example of operation is shown below.
  • the requesting terminal that requests speech recognition uses each unit to perform the speech extraction process, the feature vector extraction process, and the acoustic likelihood detection process, and then selects the acoustic recognition server to be used, and information that detects the acoustic likelihood.
  • Information used for speech recognition is converted into a data format that can be restored to a legitimate processing result corresponding to the acoustic recognition server, and transmitted to the selected acoustic recognition server.
  • FIG. 5 is a block diagram showing a configuration of the fourth embodiment.
  • the plurality of voice recognition servers of the voice recognition system each provide a voice recognition service.
  • An information processing apparatus that requests speech recognition has an utterance dividing unit that extracts time-division of received sound (speech) and extracts a feature vector. It should be noted that instead of time division of the feature vector, it may be divided in units of speech phrases or words.
  • An information processing apparatus (request server) that requests voice recognition shuffles the order relation of the divided voice data, and then converts the data as voice recognition information, and then sends it to a plurality of voice recognition servers. The results are sent separately, and the results sent back from each voice recognition server are reconstructed together.
  • FIG. 6 is a block diagram showing the configuration of the fifth embodiment.
  • acoustic likelihood result data is generated, and the result data is used as another hypothesis search unit. It is a form to transfer to.
  • the voice recognition system may be configured to instruct the transfer itself to the voice recognition server having the acoustic likelihood detection unit from the secret voice identification device.
  • the speech recognition system may be configured to divide the result data of the acoustic likelihood to be transferred and transfer it to a plurality of speech recognition servers having a hypothesis search unit. Even with the above configuration, it is possible to recognize a voice obtained by a device that requests voice recognition by providing confidentiality to a third party.
  • the voice data or feature amount extracted on the secret voice identification device as a client is divided, the order relation is shuffled, and voice recognition is requested to each server side.
  • the secret voice identification device performs reverse processing on the shuffle added before transmission to the voice recognition result from each server, and reconstructs the content that is a valid recognition result. That is, the secret speech identification device performs processing up to feature vector extraction and reconstruction processing, and performs the rest on the server side. By operating in this way, it is possible to reduce the communication load and the load of the secret voice identification device.
  • no mapping function is used will be described.
  • the client terminal that performs speech recognition receives the speech recognition result from the server, and executes a second recognition process for inserting the word deleted from the dictionary and the word chain information on the result. In other words, information that is concerned about leakage that is not included in the recognition result from the server is restored by performing the second voice recognition process (search process).
  • the second speech recognition unit is provided in the recognition result construction unit, and uses the recognition result output from the speech recognition unit (first speech recognition unit) on the server as an input.
  • the word graph the graph structure generated during the search process, each arc has a word and its likelihood (either language likelihood or acoustic likelihood, or both, or scores of other measures such as reliability)
  • the search process is a process for finding a path with the maximum sum of the likelihoods.
  • the recognition result construction unit converts these into word strings, and further converts them into phoneme strings using reading information.
  • the second speech recognition unit extracts the phoneme string from the recognition result returned from the server, and searches for a section matching the deleted word and the phoneme string of the word chain. In this search process, if a confusion matrix, which is a table showing the difficulty of discriminating between one phoneme and another phoneme, is given separately, not only an exact match but also an ambiguous match can be performed.
  • the recognition result construction unit processes as described above and a phoneme string matching a word chain or word chain that is likely to be leaked is found from the recognition result from the server (first recognition unit), that part is replaced with that word. Or a valid recognition result is constructed by replacing (inserting) with a word chain.
  • the merit of this method is that the mapping of the word ID is unnecessary, and as a result, only the acoustic model and the dictionary need be uploaded.
  • the confidentiality can be ensured even if the server uses a narrowly-defined language model. Since most of the capacity of the language model in a broad sense is a language model in a narrow sense, it has a remarkable effect in reducing the communication bandwidth between server clients.
  • the present embodiment is configured so that the acoustic model is not uploaded and the client terminal does not execute the acoustic likelihood calculation. That is, feature amount extraction and acoustic likelihood calculation are performed and transmitted by the server, and search processing is performed at the client terminal. At this time, the acoustic data transmitted from the client terminal to the server is concealed by encryption that can be decrypted by the server and a mapping that the server cannot know the contents of.
  • the first effect can reduce the risk that the utterance content of the speaker leaks to a third party.
  • the reason is that even if a third party obtains intermediate data (feature vector, phoneme ID string, word string ID string) converted from voice data, how to convert phoneme ID etc. to restore it This is because it is necessary to know the details of whether or not it is possible to make it difficult for a third party to restore the audio data by performing appropriate conversion.
  • the second effect is that it is possible to reduce the risk of leaking special information about tasks and domains from a language model to a third party.
  • the language model temporarily stored on the server contains only the minimum necessary word information such as the phoneme ID after conversion, and the details of the phoneme ID conversion are unknown from the server.
  • the third party here includes a voice recognition service provider. Therefore, as an indirect effect of the present invention, it is possible to recognize voices with extremely strong secrecy requirements, such as those related to privacy and voices related to business secrets in the form of network services. It is done.
  • the speech recognition system may be configured as follows using the technique described in the above embodiment.
  • a first information processing apparatus including a voice recognition processing unit that receives data used for voice recognition transmitted via a network, performs voice recognition processing, and sends back the resulting data, and the first information processing Data connected to the apparatus via the network and used for voice recognition of the voice recognition processing unit is mapped and transmitted using a mapping function unknown to the first information processing apparatus, and sent back from the first information processing apparatus.
  • the second information processing apparatus constructs a speech recognition result by correcting the data obtained as a result similar to the result of speech recognition without using an image function based on the mapping function used.
  • a speech recognition system is configured by a plurality of information processing devices having a speech recognition processing unit in at least one information processing device connected to each other via a network.
  • the requesting information processing device converts at least one data structure of data used for the speech recognition processing by the speech recognition processing unit using the mapping function and transmits the information to the information processing device having the speech recognition processing unit. .
  • the information processing apparatus having the speech recognition processing unit performs speech recognition processing based on the converted data structure and transmits the result to the request source.
  • the requesting information processing apparatus builds the execution result of the speech recognition process affected by the mapping function into the execution result not affected by the mapping function of the speech recognition process.
  • a function F (X, Y) used by the speech recognition processing unit when mapping the mapping function to ⁇ ⁇ , the data structure X to ⁇ _x ⁇ X ⁇ , and the data structure Y to ⁇ _y ⁇ Y ⁇ , respectively.
  • a speech recognition system configured with a mapping function ⁇ in which the values of F (X, Y) and F ( ⁇ _x ⁇ X ⁇ , ⁇ _y ⁇ Y ⁇ ) are always equal or always less than a given threshold.
  • a speech recognition system configured using a mapping function ⁇ in which the ratio of F (X, Y) and F ( ⁇ _x ⁇ X ⁇ , ⁇ _y ⁇ Y ⁇ ) is always constant.
  • the destination referenced by an arbitrary index before mapping matches the destination referenced by the same index after mapping It is a function that is not limited, and the data of the reference destination that was referenced by any index before mapping is constructed using a mapping function that guarantees that it is always referenced by any index after mapping.
  • Speech recognition system A speech recognition system configured using a mapping function indicating an index shuffle that refers to specific data included in a certain data structure.
  • a speech recognition system configured by using a mapping function that adds an arbitrary number of indexes for an index that refers to specific data included in a certain data structure.
  • a speech recognition system in which at least one of data used for speech recognition mapped using a mapping function is held only by an information processing apparatus that inputs sound for speech recognition before mapping.
  • the structure of data used in the speech recognition processing unit is a speech recognition system in which at least one of an acoustic model structure, a language model structure, and a feature vector structure is mapped.
  • An index indicating each feature amount included in the feature vector is mapped using a mapping function provided by a device that inputs sound that is a speech recognition target, and the index to the model associated with each feature amount of the acoustic model is represented.
  • a phoneme ID that is an index to a phoneme included in the acoustic model is mapped using a mapping function given by a device that inputs sound, and a phoneme ID string indicating a reading of each word included in the language model is
  • a speech recognition system that maps using a mapping function provided by an input device and deletes at least written character string information of each word included in the language model.
  • a speech recognition system that maps a word ID, which is an index to each word included in a language model, using a mapping function provided by a device that inputs sound.
  • An information processing apparatus for inputting speech data includes at least an acoustic likelihood calculating unit, and uses a mapping function provided by the information processing apparatus for inputting speech data to provide a phoneme ID string indicating a reading of each word included in the language model.
  • a mapping function provided by the information processing apparatus for inputting speech data to provide a phoneme ID string indicating a reading of each word included in the language model.
  • at least the written character string information of each word included in the language model is deleted, and the acoustic likelihood is calculated for all known phonemes or necessary phonemes for each frame of the speech data.
  • An array of pairs of phoneme IDs and acoustic likelihoods mapped using a mapping function given by an input information processing apparatus is generated, and an array of pairs of mapped phoneme IDs and acoustic likelihoods and a language model after mapping are hypothesized.
  • a speech recognition system for transmitting to an information processing apparatus having a search unit.
  • An information processing apparatus that inputs audio data divides the audio data into blocks, maps a time series between the divided blocks using a mapping function provided by the information processing apparatus that inputs audio data, and a time series after mapping Information is received from the information processing apparatus that performs speech recognition, receives either a feature vector or an array of phoneme ID and acoustic likelihood pairs from the information processing apparatus that performs speech recognition, and inputs speech data
  • a speech recognition system that restores these time series using an inverse function of a mapping function given by a processing device.
  • the various units of the speech recognition requesting device may be realized using hardware or a combination of hardware and software.
  • a voice recognition program is developed in the RAM, and each unit and various means are realized by operating hardware such as a CPU based on the program.
  • the program may be recorded on a storage medium and distributed.
  • the program recorded on the recording medium is read into a memory via a wired, wireless, or recording medium itself, and operates a control unit or the like.
  • the recording medium examples include an optical disk, a magnetic disk, a semiconductor memory device, and a hard disk.
  • the present invention can be applied to all uses for performing client / server type speech recognition and uses for improving secrecy.
  • the present invention can be applied to the construction of a speech recognition SaaS system for recognizing speech including business secrets.
  • the present invention can be applied to the construction of a voice recognition SaaS system for a voice with high privacy such as a diary.
  • a voice shopping site that allows a menu selection or the like to be performed by voice in a shopping site is constructed, if the site is constructed by using the voice recognition SaaS system using the present invention, the user can obtain at least purchase history and the like.
  • the voice recognition SaaS system provider need not be known. This is an advantage for voice shopping site operators in that the opportunity for customer information to flow out decreases. Further, when viewed from the voice recognition SaaS system provider side, by using the present invention, a language model including a user's voice and a vocabulary corresponding to the user's personal information is temporarily stored in a voice recognition server managed by the voice recognition SaaS system provider. In other words, since it is not necessary to hold it, it is possible to avoid the risk of unintentional leakage of personal information by a cracker or the like.
  • This application claims the priority on the basis of Japanese application Japanese Patent Application No. 2009-247874 for which it applied on October 28, 2009, and takes in those the indications of all here.

Abstract

 音声認識システムは、ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理部を備えた第1の情報処理装置と、第1の情報処理装置とネットワークを介して接続し、音声認識処理手段の音声認識に用いるデータを、その内容を知得不能で且つ音声認識処理手段が音声認識処理を行うことが可能な形式のデータに変換して送信すると共に、第1の情報処理装置から送り返されてきた結果のデータを、正当な認識結果である内容に構築する第2の情報処理装置で構成される。

Description

音声認識システム、音声認識要求装置、音声認識方法、音声認識用プログラムおよび記録媒体
 本発明は、音声認識システム、音声認識方法および音声認識用プログラムに関する。詳しくは、音声認識の対象となる音声の内容や音声認識辞書の詳細などについて、第三者が認識結果の詳細を復元不能とする音声認識システム、音声認識方法および音声認識用プログラムに関する。
 情報処理システムを用いる音声認識技術は、入力された音声データに含まれる言語情報を取り出す技術である。音声認識技術を用いたシステムは、音声データすべてをテキストに変換すれば音声ワープロとして利用でき、音声データに含まれるキーワードを抽出すれば音声コマンド入力装置として利用できる。
 関連する音声認識システムの一例を図7に示す。図7に示した音声認識システムは、発話区間抽出部、特徴ベクトル抽出部、音響尤度算出部、仮説探索部、音声認識用データベースを含み構成されている。
 このような構成を有する音声認識システムは、次のように動作する。
 音声認識システムに入力された音響(音声)には、実際に発話している区間(音声区間)とそうでない区間(無音区間)とが混在しているので、発話区間抽出部を用いてこのうち音声区間のみを取り出す。
 次に、抽出された区間の音声データを特徴ベクトル抽出部に入力し、一定の時間間隔(フレーム)ごとに音声に含まれる様々な特徴量を取り出して特徴ベクトルを抽出する。特徴量としてよく利用されるものはケプストラム、パワー、Δパワーなどである。複数の特徴量を組み合わせた配列(ベクトル)として扱うことから、これを特徴ベクトルと呼ぶ。
 抽出された音声の特徴ベクトルは、音響尤度算出部に送られ、予め与えられた複数の音素それぞれに対する尤度(音響尤度)が求められる。音響尤度としてはデータベースの音響モデルに記録されている各音素のモデルとの類似度が用いられることが多い。この類似度は一般に、モデルからの「距離」(ズレの大きさ)として表現されるので、「音響尤度算出」は「距離計算」と呼ばれることもある。音素は、直感的には音韻を子音と母音に分割したものであるが、同一の音素であっても先行する音素や後続する音素が異なるとその音響的な特徴が異なるため、別々にモデル化した方が精度良く認識できることが知られている。このように前後の音素の違いを考慮した音素は、トライフォン(Triphone:音素三つ組み)と呼ばれる。今日広く使われている音響モデルでは、音素内の状態遷移をHMM(Hidden Markov Model:隠れマルコフモデル)で表現する。従って、音響モデルとはトライフォンごとのHMMの集合となる。多くの実装では、各トライフォンにはID(以降、音素IDと表記する)が付与されており、後段の処理では専らこの音素IDで取り扱われる。
 仮説探索部は、音響尤度算出部によって求めた音響尤度に対して、言語モデルを参照して、最も尤度の高い単語列を探索する。言語モデルは、辞書と狭義の言語モデルに分けて考えることもある。この場合、辞書にはその(広義の)言語モデルが扱うことのできる語彙の一覧が与えられている。辞書内の一つ一つの単語エントリには、一般にその単語の音素列(または音素ID列)と表記文字列が付与される。一方、狭義の言語モデルは、語彙内のある単語群がある順序で連続して現れる尤度(言語尤度)をモデル化した情報が含まれる。狭義の言語モデルとして今日最もよく用いられているのは文法とN−gramである。文法とは、単語、単語の属性または単語の属すカテゴリなどを用いて、ある単語連鎖の妥当性を直接的に記述したものである。一方、N−gramとは、N個の単語からなる単語連鎖の出現尤度を、大量のコーパス(学習用テキストデータ)における実際の出現頻度を元に統計的に算出したものである。一般に、辞書の各エントリにはID(以降、単語IDと表記する)が付与されており、(狭義の)言語モデルは単語ID列を入力として言語尤度を返す関数のように働く。まとめると、仮説探索部における探索処理は、特徴ベクトル列から音素の尤度(音響尤度)を、音素ID列から単語IDへの変換可否を、単語ID列から単語列の出現尤度(言語尤度)をそれぞれ求め、最終的にもっとも尤度の高い単語列を見つけ出す処理となる。
 以上のような典型的な音声認識システムの例としては、T.Kawahara,A.Lee,T.Kobayashi,K.Takeda,N.Minematsu,S.Sagayama,K.Itou,A.Ito,M.Yamamoto,A.Yamada,T.Utsuro and K.Shikano.″Free software toolkit for Japanese large vocabulary continuous speech recognition.″In Proc.Int′l Conf.on Spoken Language Processing(ICSLP),Vol.4,pp.476−479,2000.(非特許文献1)が挙げられる。
 なお、一つの言語モデルがモデル化可能な語彙や表現には限界がある。限界を超えて大量の語彙や多彩な表現をモデル化しようとすると、仮説探索の際に曖昧性が増加し、結果として認識速度の低下や認識精度の劣化を招く。また、膨大な語彙をすべて収集することはそもそも不可能である。従って、通常は、音声認識技術を活用しようとするタスクやドメインに応じて言語モデルのカスタマイズを行なうことが一般的である。例えば、音声認識技術を音声コマンドとして利用するのであれば、受理可能なコマンドのみからなる言語モデルを作成する。あるいは、音声認識技術を議事録音声の書き起こしの補助に利用するのであれば、過去の会議記録や会議音声に現れた単語や表現、関連する単語や表現のみをモデル化した言語モデルを構築する。このようにすることで、特定のタスクやドメインに特有の語彙を収集し、それらの出現パターンをモデル化することが可能になる。
 また、音響モデルは、一般に大量のラベルつき音声データ(音声データのどの区間がどの音素に相当するかという情報が与えられた音声データの集合)を用いて機械学習技術を駆使して求められる。このような音声データの収集はコストが高いので、一般にユーザごとのカスタマイズは行われず、想定される利用シーンの一般的な性質に合わせて個別に用意される。例えば電話音声認識であれば電話音声のラベルつきデータから学習された音響モデルが用いられる。個々のユーザの音声に合わせた最適化処理機能(一般に「話者学習」機能ないし「エンロール」機能と呼ばれる)が提供されることもあるが、これはユーザ共有の音響モデルからユーザの音声への差分情報を学習するものであって、ベースとなる音響モデルそのものがユーザごとに構築されることは少ない。
 音声認識はさまざまな用途に広く利用可能であるが、特に上記の仮説探索処理において、相応の計算量が必要であるという問題がある。音声認識技術は、認識精度の向上と計算量の削減という、相反する課題を克服しつつ発展してきたが、今日でも、例えば、携帯電話端末などでは扱える語彙数に制限がある等の問題がある。より精度良く自由度の高い音声認識を実現するためには、豊富な計算量を捌くことが可能なリモートサーバ上で音声認識処理を実行したほうが効果的である。このような理由から、近年では音声認識処理をリモートサーバで実行し、ローカル端末では認識結果(またはその結果に基づく何らかのアクション)のみを受け取るという実装形態(クライアント・サーバ型音声認識)が活発に開発されつつある。
 このような実装形態の音声認識システムの一例が、特開2003−5949号公報(特許文献1)に記載されている。図8に示すように、特許文献1に記載された音声認識システムは、ネットワークを介して通信するクライアント端末とサーバから構成される。クライアント端末は、入力された音声から音声区間を検出する音声検出部(発話抽出部)と、検出された区間の音声データを圧縮する波形圧縮部と、圧縮された波形データをサーバに送信する波形送信部を備える。またサーバは、クライアント端末から送信された圧縮波形データを受信する波形受信部と、受信した圧縮音声を伸張する波形伸張部と、伸張された波形を分析して音声認識処理を施す分析部と認識部とを備える。
 このような構成を有する特許文献1の音声認識システムは、次のように動作する。すなわち、クライアント端末に取り込まれた音響(音声)は、音声検出部によって音声区間と非音声区間に分けられる。このうち音声区間は波形圧縮部で圧縮された後、波形送信部によってサーバに送信される。これを受信したサーバの波形受信部は、受け取ったデータを波形伸張部に送る。サーバは、波形伸張部で伸張された波形データを分析部で特徴量を抽出し、最終的に認識部にて音声認識処理を実行する。
 クライアント・サーバ型音声認識技術においても、音声認識部の動作自体は単一ホスト上で動作するものと本質的には同じものである。特許文献1に開示されている発明においては、図7で言う発話抽出部の行う処理までをクライアント端末で実行し、それ以降をサーバで実行している。これとは別に、クライアント端末上で特徴ベクトル抽出部に相当する処理までを行うような形態のクライアント・サーバ型音声認識技術も存在する。
 クライアント・サーバ型音声認識技術は主として携帯端末(携帯電話、PDA、PHS、ネットブック等)の利用を想定して開発されてきた。当初の目的は、前述の通り、音声認識処理に掛かる計算量がシビアなために、処理能力の劣る携帯端末上での音声認識が困難であるという問題を克服することにあった。近年では携帯端末の処理能力も向上し、また音声認識技術も洗練してきたことにより、必ずしもクライアント・サーバ型音声認識システムが必要とは限らなくなってきている。他方、クライアント・サーバ型音声認識システムに対する注目は一層高まりつつある。これは、ネットワーク帯域の拡大や管理コスト等の面から、ローカル端末上で提供されていた様々な機能がネットワーク越しに提供されるという流れ(所謂SaaS(Software as a Service))に則ったものである。音声認識技術をネットワークサービスとして提供する場合、そのシステムはクライアント・サーバ型音声認識技術を基盤に構築することになる。
 次に、音声認識システムにおける今後の課題を述べる。
 第1の課題は、音声認識機能を、ネットワークを介するサービスとして実現した場合、ユーザの発話内容(音声信号)が第三者に漏洩する危険が高まることである。これは、例え通信路上で音声データを暗号化して通信の秘密を守ったとしても、少なくとも音声認識サービスを提供する音声認識サーバ上では音声データは復号化されるためである。
 第2の課題は、音声認識機能を、ネットワークを介するサービスとして実現した場合、ユーザが発話すると期待される内容や、ユーザが音声認識技術を利用しようとしているタスクやドメインに関する特別な情報が第三者に漏洩する危険が高まることである。これは、音声認識を実用的な精度で行うためには大なり小なり言語モデルのカスタマイズが必要であり、当該作業は実質的にタスクやドメインに関する特別な情報を表現する語彙を言語モデルに追加することを意味するためである。そして言語モデルは音声認識処理のうち仮説探索段階で必須となるため、仮説探索処理を認識サーバ上で行うシステムでは、少なくとも認識サーバ上では言語モデルを読み取り可能な状態にするためである。
 なお、ここで言う第三者とは、音声認識サービスを提供するもの(自然人や法人、他のシステム)を含む。仮に、音声認識サービス提供者のみへの漏洩が問題でないのであれば、通信路や言語モデルファイルを単純に暗号化するだけでよい。しかし、音声認識サービス提供者からも情報を秘匿したいと考えた場合、上記した技術では対処できない。また、他の第三者の例では、サーバに不正侵入したハッカーやクラッカー、当該行為を行なうシステム(プログラム)が挙げられる。これは、音声認識サービスを提供するサーバに侵入されている場合に、複合化された音声データや解析結果、タスクやドメインに関する特別な情報などを容易に取得されてしまい、サービス利用者は、何ら対抗手段が無い。
 本発明は、音声認識機能を、ネットワークを介するサービスとして実現した場合、ユーザの発話内容が第三者に漏洩する危険性を極力低下させた、秘匿音声認識が可能な音声認識システムを提供する。
 また、本発明は、音声認識機能を、ネットワークを介するサービスとして実現した場合、ユーザが発話すると期待される内容や、ユーザが音声認識技術を利用しようとしているタスクやドメインなどに関する特別な情報が第三者に漏洩する危険性を極力低下させた、秘匿音声認識が可能な音声認識システムを提供する。
 本発明に係る音声認識システムは、ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理部を備えた第1の情報処理装置と、前記第1の情報処理装置とネットワークを介して接続し、前記音声認識処理部の音声認識に用いるデータを、その内容を知得不能で且つ前記音声認識処理部が音声認識処理を行うことが可能な形式のデータに変換して送信すると共に、前記第1の情報処理装置から送り返されてきた結果のデータを、正当な認識結果である内容に構築する第2の情報処理装置を有することを特徴とする。
 本発明に係る音声認識要求装置は、ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理部を備えた音声認識装置にネットワークを介して接続する通信部と、前記音声認識処理部の音声認識に用いるデータを、その内容を知得不能で且つ前記音声認識処理部が音声認識処理を行うことが可能な形式のデータに変換する情報変換部と、変換されたデータに対して音声認識されて前記音声認識装置から送り返されてきた結果のデータを、正当な認識結果である内容を知得できる音声認識結果に前記変換内容に基づいて再構築する認証結果構築部を有することを特徴とする。
 本発明によれば、音声認識機能をネットワークを介するサービスとして実現した場合、ユーザの発話内容が第三者に漏洩する危険性を極力低下させた、秘匿音声認識を行なえる音声認識システムを提供できる。
 また、本発明によれば、音声認識機能をネットワークを介するサービスとして実現した場合、ユーザが発話すると期待される内容や、ユーザが音声認識技術を利用しようとしているタスクやドメインなどに関する特別な情報が第三者に漏洩する危険性を極力低下させた、秘匿音声認識を行なえる音声認識システムを提供できる。
 図1は、第1の実施の形態の構成を示すブロック図である。
 図2は、第1の実施の形態における音声認識処理を示すフローチャートである。
 図3は、第2の実施の形態の構成を示すブロック図である。
 図4は、第3の実施の形態の構成を示すブロック図である。
 図5は、第4の実施の形態の構成を示すブロック図である。
 図6は、第5の実施の形態の構成を示すブロック図である。
 図7は、音声認識システムの構成の一例を示すブロック図である。
 図8は、クライアント−サーバ構造を有する音声認識システムの構成の一例を示すブロック図である。
 110  クライアント(音声認識要求装置)
 111  発話抽出部(発話抽出手段)
 112  特徴ベクトル抽出部(特徴ベクトル抽出手段)
 113  特徴ベクトル変換部(特徴ベクトル変換手段)
 114  音素ID変換部(音素ID変換手段)
 115  データ送信部(データ送信手段)
 116  探索結果受信部(探索結果受信手段)
 117  認識結果構築部(認識結果構築手段)
 118  データベース(データ記録手段)
 120  サーバ(音声認識装置)
 121  データ受信部(データ受信手段)
 122  音声認識部(データ受信手段)
 122a 音響尤度算出部(音響尤度算出手段)
 122b 仮説探索部(仮説探索手段)
 123  探索結果送信部(探索結果送信手段)
 次に、発明を実施するための形態について図面を参照して詳細に説明する。尚、説明を明瞭とするため、本発明と関係の少ない入力や制御処理、表示、通信等に関する説明は、簡略化又は省力する。
 ここで、発明の理解を容易にするために、第1の実施の形態にかかる前提となる事項を整理する。
・秘匿したい内容(情報)は、発話した内容(データ化した情報)そのものと、発話する可能性のある内容(発話に関連する情報:音声認識に用いる情報)である
・前者は音声を復元することで漏洩し、後者は言語モデルに含まれる語彙情報を解読することなどで漏洩する
・音声は音響特徴量から不完全ながら復元可能である
・音声そのものが復元できないとしても、音響特徴量の詳細を知っていれば、相応の音声認識処理を行うことで不完全ながら発話内容を復元可能である
・通常、音声認識サーバ提供者は、自らが提供する認識サーバの認識処理部がどのような特徴量を用いて動作しているか知っている
 →ゆえに、少なくとも音声認識サーバ提供者は、音響特徴量から発話内容を復元可能である
・言語モデルに含まれる語彙情報は、通常、少なくとも読み情報を含み、多くの場合さらに表記文字列をも含む
・通常、読み情報は、使用される音響モデルに応じた音素ID列に所与の手続きで変換可能なデータであるか、または音素ID列そのものである
・前者の場合、その変換手続きは、認識サーバの認識処理部が知っているはずである
 →ゆえに、少なくとも音声認識サーバ提供者は、言語モデルに含まれる語彙情報を解読可能である
・後者の場合、音素IDは、一見すると人間には解読不能であるものの、音響モデルの詳細を知る者であれば、各音素IDが指し示す音素を把握できる
・通常、音響モデルの構築は、ユーザでは困難であり、一般に、音声認識サーバ提供者あるいは別の提供者によって構築され、提供される
 →すなわち、音声認識サーバ提供者または別の音響モデル提供者は、音素IDの詳細を知っている
 →換言すると、音声認識サーバ提供者は、ユーザの関知しない範囲で音素IDの詳細を知ることが可能である。
 →ゆえに、少なくとも音声認識サーバ提供者は、言語モデルに含まれる語彙情報を解読可能である
 以上のことから、ネットワークを介して秘匿音声認識を実施するには、一般的な通信路での音声データの漏洩防止に加えて
・音声認識サーバ提供者が詳細を容易に知りえない音響特徴量を用いる
・音声認識サーバ提供者が詳細を容易に知りえない音素IDを用いる
のいずれか、または両方の対処が必要であると考える。
 図1に本発明の第1の実施の形態の構成を示す。図1を参照すると、本発明の第1の実施の形態は、クライアント110とサーバ120からなる。
 それぞれはさらに以下の動作を行なう構成を有する:
 クライアント110は、発話抽出部111、特徴ベクトル抽出部112、特徴ベクトル変換部113、音素ID変換部114、データ送信部115、探索結果受信部116、認識結果構築部117を有する。また、データベース118を有し、音響モデル、言語モデル、変換・再構築用データを格納する。変換・再構築用データは、特徴ベクトル変換部113、音素ID変換部114、認識結果構築部117で使用される。尚、変換・再構築用データは、特徴ベクトル変換部113、音素ID変換部114、認識結果構築部117に予め設定しておいても良い。
 発話抽出部111は、音響から音声を抽出して音声データとして出力する。抽出する一例としては、音響データから実際に発話されている区間(発話区間)とそうでない区間(無音区間)を判別する。また、音声とノイズを分離して除去する。
 特徴ベクトル抽出部112は、音声データからケプストラム、パワー、Δパワー等の音響特徴量の集合(特徴ベクトル)を抽出する。
 特徴ベクトル変換部113は、特徴ベクトルを、その内容を第3者が知得不能な形式のデータに変換する。このとき、特徴ベクトル変換部113は、サーバ120の音響尤度算出部122aが適切に変換された音響モデルを用いて変換後のデータに対して音響尤度計算を行った場合、その出力結果は、変換前の音響モデルと特徴ベクトルの組み合わせによって得られる出力結果と同一であるか、または近似した値になることが保証されるように、変換処理を行う。変換の例としては、特徴ベクトルの並び順のシャッフルや、冗長かつ計算上は無視できるような次元の付与などが挙げられる。
 音素ID変換部114は、音響モデルと言語モデルの音素IDを、その内容を第3者が知得不能な形式のデータに変換する。また、サーバ120での音声認識処理に不必要な情報を音響モデルと言語モデルから削除する。さらに、変換処理の内容に応じて、その復元に必要な情報を変換・再構築用データとしてデータベース118に記録する。変換及び削除の例としては、音素IDや単語IDをシャッフルし、言語モデルから表記文字列等を削除することが挙げられる。どのような変換処理を行うかは、事前に与えても良いし、動的に決定しても良い。
 尚、特徴ベクトル変換部113と音素ID変換部114の処理動作については、後に詳説する。
 データ送信部115は、特徴ベクトル、音響モデル、言語モデル等の変換されたデータを適宜サーバ120に送信する。
 探索結果受信部116は、最尤な単語ID列等の、音声認識部122の出力をサーバ120の探索結果送信部123を介して受信する。
 認識結果構築部117は、探索結果受信部116から受信した最尤な単語ID列に対して、データベース118に記録された変換・再構築用データを参照して音素ID変換部114によって施した変換を復元する。例えば単語IDがシャッフルされていた場合は、その逆変換を行って変換前の言語モデルにおける単語IDを再構築する。このように復元された単語IDを用いて変換前の言語モデルを参照することで、認識結果構築部117は、既存システムの認識結果と同様となる認識結果を構築する。即ち、音声認識結果に影響をほぼ与えずに、音声認識を行うサーバ120に対して、音声認識に用いるデータの内容を知得不能とできる。
 サーバ120は、データ受信部121、音声認識部122、探索結果送信部123を有する。
 データ受信部121は、音声認識に用いるデータをクライアント110から受信する。尚、本実施の形態での受信する音声認識に用いるデータは、特徴ベクトル、音響モデル、言語モデル等の変換されたデータとなる。
 音声認識部122は、音響モデルと言語モデルを参照しながら、特徴ベクトル系列に対して最尤な単語列を探索する。尚、音声認識部122を詳説すると、音響尤度算出部122aと仮説探索部122bに分けられる。
 音響尤度算出部122aは、音響モデルの各音素に対する特徴ベクトルの音響尤度を求める。仮説探索部122bは、音響尤度、言語尤度を用いて、最尤な単語ID列(=音素ID列)を求める。尚、これらの処理を一度に評価する実装としても良い。
 探索結果送信部123は、最尤な単語ID列等の、音声認識部122の出力をクライアント110に送信する。
 次に、本実施の形態の全体の動作例について図2を用いて詳細に説明する。以下で、(C)は、クライアント装置を指し、(S)は、サーバ装置を指す。クライアント装置とサーバ装置は、音響の入力や、音声認識の開始指示を受けると、音声認識を開始して、以下のように動作する。
1.(C)音素ID変換部114は、音響モデルと言語モデルの音素IDを、その内容を第3者が知得不能な形式のデータに変換する。音素ID変換部114は、変換処理の内容に応じた、復元に必要となる情報を変換・再構築用データとしてデータベース118に記録する。例示すれば、音素IDおよび特徴ベクトルが変換された音響モデルと、同様に音素IDが変換された上で音素ID列以外の語彙情報を削った言語モデルとを生成すると共に、認識結果構築部117での復元に用いる情報を変換・再構築用データをデータベース118に記録する。尚、変換処理については、後に詳説する。
2.(C)データ送信部115は、生成された変換後の音響モデル(変換後音響モデル)と言語モデル(変換後言語モデル)を、音声認識用情報としてサーバ120に送信する。
3.(C)発話抽出部111は、上記1、2の処理と並列的に、入力された音響(音声)から音声区間を切り出す。
4.(C)特徴ベクトル抽出部112は、切り出された音声区間の微小区間(フレーム)ごとの音響特徴量の組(特徴ベクトル)を算出する。
5.(C)特徴ベクトル変換部113は、算出された特徴量ベクトルを、その内容を第3者が知得不能であり、加えて、音声認識部122の認識処理結果から正当な処理結果を構築できる形式であるデータ構造に変換する。尚、変換については、後に詳説する。
6.(C)データ送信部115は、変換された特徴ベクトル(変換後特徴ベクトル)を、音声認識用情報としてサーバ120に送信する。
 尚、上記1から2の処理と上記3から6の処理は、並列的に行えばよい。
7.(S)データ受信部121は、クライアント110から、変換後の音声認識用情報である変換後音響モデル、変換後言語モデル、変換後特徴ベクトル等を受信する。
8.(S)音声認識部122は、受け取った音響モデルおよび言語モデルを参照しつつ、特徴ベクトル系列に対して最尤な単語ID列を探索する。尚、探索処理の一例は、後に詳述する。
9.(S)探索結果送信部123は、探索結果として得られた音声認識結果データとして単語ID列などをクライアント110に送信する。必要に応じて、探索結果送信部123は、尤度ないしスコア上位N個の単語ID列(Nベスト)や、単語ID列の尤度情報、または探索空間そのもの(ラティスないしワードグラフ)等もあわせて送信する。
10.(C)探索結果受信部116は、サーバ120から探索結果の単語ID列など(音声認識結果データ)を受信する。
11.(C)認識結果構築部117は、単語ID列の各単語IDに対応する単語情報を変換前の言語モデルから取得し、最終的な認識結果の単語列を生成する。必要に応じてNベストやワードグラフ等も同様に処理する。
 ここで、探索処理の詳細を以下に示す。
8−1.(S)音響尤度算出部122aでは、各特徴ベクトルについて、音響モデル(変換後音響モデル)に含まれる各音素に対する音響尤度を求める処理が行なわれる。
8−2.(S)また、音響尤度算出部122aでは、言語モデル(変換後言語モデル)に含まれているいずれかの単語の読みにあたる音素ID列に対しての単語(単語ID)が参照され、同じく言語モデルに含まれる単語ID列の妥当性の情報から得られる尤度(言語尤度)の算定処理が成される。
8−3.(S)仮説探索部122bでは、上記の音響尤度および言語尤度を参照しつつ、特徴ベクトル列に対して最も大きな尤度を与える単語ID列の探索処理が行なわれる。
8−4.(S)なお、仮説探索部122bでは、必要に応じて任意のリスコアリング処理を行い、その結果として最大スコアとなった単語ID列を探索結果としてもよい。
 次に、特徴ベクトルと音響モデルの一つの変換処理(写像関数を用いる変換処理)の動作について、詳細に説明する。尚、以下で説明する写像関数等の情報は、変換・再構築用データ内に記載されている。また、各部に予め写像関数による処理方法を記憶させても良い。
 特徴ベクトル変換部113および音素ID変換部114における特徴ベクトルと音響モデルの写像関数を用いる変換は、音声認識部122、なかでも特に音響尤度算出部122aの動作に関係する。以下では、例示として写像関数を用いた場合の正当な処理結果に修復する過程を説明する。
 音響尤度算出部122aの行う処理は、各音素に対して与えられた特徴ベクトルの尤度を求める処理である。これは特徴ベクトルをV、音響モデルをAとしてそこに含まれる音素がM種類だとすると
1_A(V)=D(V,A)=(D(V,A_1),D(V,A_2),...,D(V,A_M))=(1_A_1,...,1_A_M)
なる音響尤度関数Dを適用する処理として表現できる。
 特徴ベクトル変換部113および音素ID変換部114で行われる特徴ベクトルと音響モデルの変換を、ある写像関数F=(f_v,f_a)で表すとき、f_vとf_aに求められる性質は、任意の特徴ベクトルVに対して、D(f_v(V),f_a(A))=D(V,A)が常に成り立つことである。
 上記ことがらが成り立つならば、
1_A(V)=D(V,A)=D(f_v(V),f_a(A))=1_{f_a(A)}(f_v(V))
であるので、写像関数Fで変換された特徴ベクトルと音響モデルを用いても、変換前とまったく同じ認識結果を得ることができる。
 このような性質を満たす写像関数の例を複数挙げる。
 特徴ベクトルがN個の特徴量のベクトルであるとすると次式で表せる。
V=(v_1,...,v_N)
 いま、ある音素に対する特徴ベクトルの音響尤度は、特徴ベクトルの各要素に対する尤度の総和で与えられるとすると次式が成り立つ。
1_{A_j}(V)=D(V,A_j)=D{v_1,A_{1,j})+...+D(v_N,A_{N,j})=¥sum_{i,j}{D(v_i,A_{i,j})}
 ここでf_vが特徴ベクトルの各要素の添え字をひとつずつずらし、N番目の要素については0番目に移すとする。即ち、次式のようにシフトさせる。
f_v((v_1,...,v_N))=(v_N,v_1,...,v_{N−1})
 一方、f_aは、音響モデルの中のi番目の特徴量に対するモデルをi+1番目にずらす関数であるなら、
f_a((A_{1,j},...,A_{N,j}))=((A_{N,j},A_{1,j},...,A_{N−1,j}))
となり、このとき、
D(f_v(V),f_a(A_j))=D(v_N,A_{N,j})+D(v_1,A_{1,j})+...+D(v_{N−1},A_{N−1,j})
 =¥sum_{i,j}{D(v_i,A_{i,j})}=D(V,A_j)
となる。
 一般に、音響尤度が特徴ベクトルの各要素に対する尤度に対して線形であるなら、特徴ベクトルの要素をk個ずらす写像(k−シフト関数)は要求される性質を満たす。さらに、並び順そのものに意味がないので、特徴ベクトルの要素の並びを任意の順に変換する写像(シャッフル関数)も要求される性質を満たす。
 次に、別の関数の例を挙げる。音響尤度が上記のように定義され、また、
D(v_i,¥alpha A_{i,j})=¥alpha D(v_i,A_{i,j})
かつ
¥sum_k{D(c_k,c_k^{−1})}=0
であるとする。ここでc_kおよびc_k^{−1}は上記の式を満たす既知の値の組である。
 写像(f_v,f_a)がそれぞれ、
f_v((v_1,...,v_N))=(v_1,...,v_N,c_1,...,c_L,v_1)
f_a((A_{1,j},...,A_{N,j}))=(A_{1,j}/2,...,A_{N,j},c_1^{−1},...,c_L^{−1},A_{1,j}/2)
と与えられれば、
D(f_v(V),f_a(A_j))=D(v_1,A_{1,j}/2)+...+D(v_N,A_{N,j})+D(c_1,c_1^{−1})+...D(c_L,c_L^{−1})+D(v_1,A_{1,j}/2)
 =D(v_1,A_{1,j})/2+...+D(v_N,A_{N,j})+0+D(v_1,A_{1,j})/2
 =¥sum_{i,j}{D(v_i,A_{i,j})}=D(V,A_j)
となる。
 一般に、音響尤度が特徴ベクトルの各要素に対する尤度に対して線形であって、音響尤度の総和がゼロになる特徴量の値とその特徴量に対するモデルの組が既知であるなら、その組を使って特徴ベクトルの見た目の次元数を増やすことができる。
 また、一般に音響尤度が特徴ベクトルの各要素に対する尤度に対して線形であって、各特徴量に対する音響尤度関数D(v_i,A_{i,j})も線形であるなら、ある特徴量を複数の要素に分割することで、特徴ベクトルの見た目の次元数を増やすことができる。
 音響尤度算出部122aがこのような性質を持つ音響尤度関数のもとに成り立っているのであれば、以上示したような「特徴ベクトルのシャッフル」や「見た目の次元数の拡張」の組み合わせによって、本発明の実施の形態が要求するような任意の写像関数をいくつでも与えることができる。
 もちろん、音響尤度関数がここで挙げたものと異なる性質を持つ場合であっても、D(f_v(V),f_a(A))=D(V,A)を満たす写像F=(f_v,f_a)が定義できさえすれば、本発明の実施の形態で示すシステムとして利用することができる。
 また、D(V,A)とD(f’_v(V),f’_a(A))が完全に一致しなくとも、両者の誤差がある十分に小さい場合、そのような写像F’=(f’_v,f’_a)を用いて本発明の実施の形態を実現できる。
 上記説明したように、特徴ベクトル変換部113および音素ID変換部114で、写像関数を用いて、特徴ベクトルと音響モデルを変換しても、サーバ120の音声認識部122で、これらの変換を施さなかった場合と同様の、または近似の認識結果を得ることが可能となる。
 次に、音響モデルと言語モデルの変換処理について、詳細に説明する。
 音素ID変換部114における音響モデルと言語モデルの変換は、音声認識部122中に関係し、特に仮説探索部122bの動作に関係する。
 仮説探索部122bの処理においては、ある音素列a_1,...,a_Nがある単語wを形成するかどうかを判定する必要がある。
 換言すれば、M個の単語を持つ言語モデルLについて、Lに含まれるすべての単語wに関して0,1のいずれかを返すルックアップ関数は、次式のように表現できる。
S_L(a_1,...,a_N)=T(L,a_1,...,a_N)={e_1,...,e_M}
where e_j ¥in{0,1}
 ここで、添え字jに対するe_jは、単語w_jがその音素列によって形成される(=1)か否か(=0)を示す。
 一見するとこの関数は非常に計算負荷が高いように見えるが、TRIE構造などを用いて高速に求めることができる。
 実際には音素そのものの列の変わりに音素ID列を、単語そのものの変わりに単語IDをそれぞれ用いることが多いが、どちらも音素や単語と一対一に対応するものであるから、以下では音素と単語についてのみ記述する。
 音素ID変換部114で行われる音響モデルと言語モデルの変換を、ある写像関数G=(g_1,g_a)で表すとき、g_1とg_aに求められる性質は、任意の音素列a_1,...,a_Nに対して、次式が常に成り立つことである。
T(L,A,a_1,...,a_N)=T(g_1(L),g_a(A),g_a(a_1),...,g_a(a_N))
 上記式が成り立つならば、下記式が成立するので、写像関数Gで変換された音響モデルと言語モデルを用いても、変換前の音響モデルと言語モデルを用いた場合とまったく同じ認識結果を得ることがわかる。
S_{L,A}(a_1,...,a_N)=T(L,A,a_1,...,a_N)
 =T(g_1(L),g_a(A),g_a(a_1),...,g_a(a_N))
 =S_{g_1(L),g_a(A)}(g_a(a_1),...,g_a(a_N))
 上述の特徴ベクトルに対する写像と同様に、音素IDや単語IDをシャッフルするような写像はこの性質を満たす。
 また、ある音素a_iに対応する音素IDがp_iがあるとき、その音素a_iに対応する新たな音素IDをp_i′として追加するような写像も、この性質を満たす。
 以上の二つの変換処理は、結局、次のような要件を満たす変換処理であるといえる。
要件:
 変換に用いられる写像関数Φ={φ}は、
データ構造Xをφ_x{X}に、
データ構造Yをφ_y{Y}に、
それぞれ写像するとき、
認識処理部が用いる関数F(X,Y)について
F(X,Y)とF(φ_x{X},φ_y{Y})
の値が常に等しい。
 Fの具体的な例は、
特徴ベクトル+音響モデル → 音響尤度
このとき、Xは特徴ベクトル,Yは音響モデル
 および、
音素ID列+音響モデル+言語モデル → 単語成立ベクタ
このとき、Xは音響モデル,Yは言語モデル
ということである。
 なお、音声認識部122、特に仮説探索部122bの実装が、尤度をスコアと看做してスコアが最大のパスを求める探索問題と表されるなら、尤度間の大小関係のみが保存されればよいので、特徴ベクトルと音響モデルに施される変換において実際に問題になるのは
F(X,Y)とF(φ_x{X},φ_y{Y})の等価性ではなく、
F(X,Y)とF(φ_x{X},φ_y{Y})の比が常に一定である、
という性質になる。したがって、そのような音声認識部122を用いる場合、上記の要件は緩和される。また、どのような音声認識部を用いる場合であっても、F(X,Y)とF(φ_x{X},φ_y{Y})の誤差が十分に小さければ、それも認識精度にはほとんど影響しないので、許容できる。
 一方で、音素IDと音響モデルと言語モデルに施される変換においては、等比性や誤差は要件を満たすには十分ではなく、等価性が厳密に要求される。さもなければ認識精度に悪影響を及ぼす。
 次に、言語モデルの変換処理について、詳細を説明する。
 音素ID変換部114における言語モデルの変換では、言語モデルに含まれる各単語に関する情報のうち、音素ID列の情報(この音素IDも上述のように写像関数によって変換されている)以外は基本的にすべて削除する。これは秘匿性をもたらすだけでなく、通信量の削減にも効果がある。
 ただし、認識処理部122が参照する他のデータ(音声認識処理結果に影響する情報)があれば、それは削除しないことが望ましい。例えば単語の品詞情報やその単語が属すクラス情報などのデータが挙げられる。尚、単語情報の漏洩にかかわるようなデータを要求する音声認識処理部122は、音声認識処理に用いることを避けるべきである。例えば、単語の表示文字列を要求するような認識処理部122は、本実施の形態では用いないこととする。どうしてもそのようなデータを要求する音声認識処理部を利用したい場合は、音素IDや単語IDと同様に写像するなどの方法で回避するようにしてみてもよい。
 次に、特徴ベクトル変換および音素ID変換のタイミングと変換動作の切り替えタイミングについて説明する。
 特徴ベクトル変換は新たな特徴ベクトルが得られるたびに毎回実行される。
 音響モデルと言語モデルの音素ID変換に関しては、上述のように、音声認識に先立って1回行えばよい。
 しかし、同じ写像関数で変換したモデルを長時間使い続けると、統計的な方法等を用いて写像関数を推測される危険性が高まる。
 そこで、写像関数を別のものに変更する等、変換動作の振る舞いを定期的に切り替えることで第3者に対する秘匿性が高まる。
 具体的には数発話に1回、または数分に1回のタイミングで切り替えるのが良い。他方、変換動作に必要な計算量や、変換後のモデルをサーバに送信する通信量を考えると、あまり頻繁に切り替えることは適切ではない。
 切替えるタイミングや頻度は、頻繁に切り替えることによって発生するオーバヘッド(変換動作に必要な計算量や、変換後のモデルをサーバに送信する通信量)を考慮した値とすれば良い。また、無音区間のように、処理量や通信量が低下したタイミングで適時改変するようにしても良い。
 次に、上記写像関数を用いた変換を行なう実施の形態の効果について説明する。
 写像関数を用いた変換を行なう実施の形態は、特徴ベクトルを写像関数によって変換した後にサーバへ送信するよう構成されているため、通信路あるいはサーバ上で第三者が特徴ベクトルを入手したとしても、直ちにこれを音声に復元することを困難にできる。
 その一方で、音響モデルも、変換前の特徴ベクトルと同じ音響尤度を返すように選ばれた写像関数によって変換されているため、特徴ベクトルを変換しなかった場合と同じ音響尤度が算出されること、引いては同じ認識結果が得られることが保証される。
 また、上記の形態は、言語モデルに含まれる各単語エントリの情報のうち表記文字列の情報はサーバに送信せず、加えて単語エントリの読みを表す音素ID列も、写像関数によって変換した後にサーバへ送信するよう構成されているため、言語モデルの構造を知る第三者がこれを入手したとしても、直ちにそこに含まれる単語の読みや表記等の情報を知ることを困難にできる。
 その一方で、音響モデルも、変換前の言語モデルと同じ音素列に対しては同じ単語の成否を返すように選ばれた写像関数によって変換されているため、同じ音素列に対しては言語モデルを変換しなかった場合と同じ単語の成否が得られること、引いては同じ認識結果が得られることが保証される。
 次に、第2の実施の形態について図3を参照して説明する。尚、説明を明瞭とするため、第1の実施の形態と同様の部分については、簡略化又は省力する。
 図3は、第2の実施の形態の構成を示すブロック図である。第2の実施の形態の音声認識システムは、複数の音声認識サーバを有して成る。また、音声認識を要求する情報処理装置もサーバである。
 複数の音声認識サーバは、それぞれ異なる変換された音響認識情報データに対応している(図中タイプA,B,C)。音声認識を要求するサーバは、それぞれの音響認識サーバの仕様を予め記憶し、それぞれの音響認識サーバに送信する変換された音響認識情報データを記憶する。尚、このような音響認識サーバの仕様等は、変換・再構築用データと一元的に管理しても良いし、他の方法で管理しても良い。
 このような構成であっても、音声認識を要求するサーバで取得された音声を第3者に秘匿性を持たせて音声認識が可能である。以下に、動作例を示す。
 音声認識を要求するサーバは、各部を用いて、発話抽出処理、特徴ベクトル抽出処理を実施後、使用する音響認識サーバを選択して、音声認識用情報を当該音響認識サーバに対応した正当な処理結果に修復可能な形式のデータ形式に変換し、選択した音響認識サーバに送信する。
 音声認識を要求するサーバは、各部を用いて、音響認識サーバから送り返されてきた結果データを、正当な認識結果である音声認識結果に構築して出力する。
 このとき、必要に応じて又は時間の経過と共に、シャッフルの仕方や、送信する音響認識サーバを切替える。
 次に、第3の実施の形態について図4を参照して説明する。尚、説明を明瞭とするため、第1及び第2の実施の形態と同様の部分については、簡略化又は省力する。
 図4は、第3の実施の形態の構成を示すブロック図である。第3の実施の形態の音声認識システムの複数の音声認識サーバは、仮説探索処理のみサービスを提供する。又は、音声認識サーバは、音響尤度検出処理と仮説探索処理を行え、仮説探索処理のみでもサービスを提供する。
 音声認識を要求する情報処理装置は、音響尤度検出部を有し、距離計算を行える構成である。
 複数の音声認識サーバは、それぞれ要求された音声認識処理(音響尤度検出処理、仮説探索処理)を実施し、その結果を送り返す。音声認識を要求する要求端末は、それぞれの音響認識サーバの仕様を予め記憶し、それぞれの音響認識サーバに送信する変換された音響認識情報データを記憶する。尚、このような音響認識サーバの仕様等は、変換・再構築用データと一元的に管理しても良いし、他の方法で管理しても良い。
 このような構成であっても、音声認識を要求する要求端末で取得された音声を第3者に秘匿性を持たせて音声認識が可能である。以下に、動作例を示す。
 音声認識を要求する要求端末は、各部を用いて、発話抽出処理、特徴ベクトル抽出処理、音響尤度検出処理を実施後、使用する音響認識サーバを選択すると共に、音響尤度を検出した情報と音声認識に用いる情報を当該音響認識サーバに対応した正当な処理結果に修復可能な形式のデータ形式に変換し、選択した音響認識サーバに送信する。
 その後、要求端末は、各部を用いて、音響認識サーバから送り返されてきた結果データを、正当な認識結果である音声認識結果に構築して出力する。
 このとき、必要に応じて又は時間の経過と共に、シャッフルの仕方や、送信する音響認識サーバを切替える。
 このように構成すれば、音響モデルのシャッフル処理や、音響モデルの送信を省略できる。即ち、端末に音響尤度算出処理を行う計算能力があれば、通信量を圧縮できる。
 次に、第4の実施の形態について図5を参照して説明する。尚、説明を明瞭とするため、他の実施の形態と同様の部分については、簡略化又は省力する。
 図5は、第4の実施の形態の構成を示すブロック図である。第4の実施の形態の音声認識システムの複数の音声認識サーバは、それぞれ音声認識サービスを提供する。
 音声認識を要求する情報処理装置は、入力を受けた音響(音声)を時分割して特徴ベクトルを抽出する発話分割部を有する。尚、特徴ベクトルの時分割に変えて、音声の文節やワード単位で分割することとしても良い。
 音声認識を要求する情報処理装置(要求サーバ)は、分割した音声データの順序関係をシャッフル等した後、そのデータに対して音声認識用情報としての変換を加えた後、複数の音声認識サーバに分けて送信し、それぞれの音声認識サーバから送り返されてきた結果をまとめて再構築する。
 このような構成であっても、音声認識を要求する端末で取得された音声を第3者に秘匿性を持たせて音声認識が可能である。
 このとき、必要に応じて時分割間隔やシャッフルの仕方、送信する音響認識サーバを切替える。
 このように構成すれば、個々の音声認識サーバには部分的な音声のみ送信されるので、並行する音声認識サーバの数が多ければ復元はより困難になる。
 次に、第5の実施の形態について図6を参照して説明する。尚、説明を明瞭とするため、他の実施の形態と同様の部分については、簡略化又は省力する。
 図6は、第5の実施の形態の構成を示すブロック図である。第5の実施の形態の音声認識システムでは、音響尤度検出部を有する音声認識サーバを用いて、音響尤度の結果データを生成し、その結果データを他の仮説探索部を有する音声認識サーバに転送する形態である。また、音声認識システムは、転送自体を音響尤度検出部を有する音声認識サーバに、秘匿音声識別装置から指示する構成としても良い。また、音声認識システムは、転送する音響尤度の結果データを分割して仮説探索部を有する複数の音声認識サーバに転送する構成としても良い。
 上記構成であっても、音声認識を要求する装置で取得された音声を第3者に秘匿性を持たせて音声認識が可能である。
 次に、第6の実施の形態について説明する。尚、説明を明瞭とするため、他の実施の形態と同様の部分については、簡略化又は省力する。
 第6の実施の形態は、クライアントとなる秘匿音声識別装置上で抽出した音声データまたは特徴量を分割し、その順序関係をシャッフルした上で、各サーバ側に音声認識を要求する。秘匿音声識別装置は、各サーバからの音声認識結果に対して、送信前に加えたシャッフルに対する逆処理を加え、正当な認識結果である内容を再構築する。即ち、秘匿音声識別装置が特徴ベクトル抽出までの処理と再構築処理を実施し、それ以外をサーバ側で実施する。
 このように動作させることによって、通信負荷と秘匿音声識別装置の負荷を低減できる。
 次に、写像関数を用いない実施形態を説明する。本実施の形態では、情報の漏洩が懸念される単語または単語の連鎖情報を辞書から削除することを特徴する。即ち、他の実施の形態と異なり、読み情報(=音素ID列情報)も含めてエントリを完全に削除する。或いは、当初から言語モデルには入れないようにしてもよい。その結果、音声認識を行なうサーバでは、存在の痕跡も含めてその単語の存在を一切関知できない。
 音声認識を行わせるクライアント端末は、サーバからの音声認識結果を受けて、当該結果に対して、辞書から削除した単語および単語の連鎖情報を挿入する第2の認識処理を実行する。即ち、サーバからの認識結果に含まれない漏洩が懸念された情報を、第2の音声認識処理(探索処理)を施すことによって復活させる。
 第2の音声認識部は、認識結果構築部内に設けられ、サーバ上の音声認識部(第1の音声認識部)の出力した認識結果を入力として用いる。これは尤度最大の単語ID列(=最尤単語ID列)でも良いし、尤度上位N位(Nベスト)の単語ID列でも良いし、ワードグラフでもよい。ワードグラフには、探索処理の途上で生成されるグラフ構造、各アークに単語とその尤度(言語尤度と音響尤度のどちらか、あるいは両方、または信頼度等その他の尺度のスコア)が割り当てられており、探索処理はこの尤度の総和が最大になるパスを見つける処理になる。
 認識結果構築部では、これらを単語列に変換し、さらにそこから読み情報を用いて音素列に変換する。このように処理することによって、最尤単語ID列を入力とした場合はただひとつの音素列が得られ、それ以外の場合は複数の音素列が得られる。
 一方で、漏洩が懸念されて削除した単語および単語連鎖も音素列に変換する。そして、第2の音声認識部では、サーバから返却された認識結果に対して、その音素列を取り出し、その列中から削除した単語および単語連鎖の音素列にマッチする区間を探索処理する。
 この探索処理は、ある音素と別の音素の弁別困難度の表であるコンフュージョンマトリクスを別途与えておけば、厳密なマッチだけではなく曖昧なマッチも行える。例えばfとvの識別の困難度が高い場合、削除した区間のマッチング処理でfとvさえ一致すればマッチすると看做せる場合、それらを同一と看做してマッチ扱いにすれば良い。
 上記の様に処理して認識結果構築部では、サーバ(第1の認識部)からの認識結果から漏洩が懸念される単語または単語連鎖にマッチする音素列が見つかった場合、その部分をその単語または単語連鎖に置き換える(挿入する)ことによって、正当な認識結果を構築する。
 この方法のメリットは、単語IDの写像が不要になることで、その結果、アップロードするものは音響モデルと辞書だけでよい。換言すれば、上記の様に処理することで、狭義の言語モデルをサーバが準備したものを利用しても、秘匿性を担保できる。尚、広義の言語モデルの容量の大半は狭義の言語モデルであるので、サーバークライアント間の通信帯域の削減に顕著な効果を奏する。
 次に、更に別の実施形態を説明する。本実施の形態は、音響モデルのアップロードを伴わず、かつクライアント端末が音響尤度計算を実行しないように構成する。即ち、特徴量抽出と音響尤度計算をサーバで実施して送信し、クライアント端末において探索処理を実施する。このとき、クライアント端末からサーバに送信される音響データは、サーバが複合できる暗号化と、サーバがその内容を知得不能である写像によって秘匿される。
 このように構成することによって、言語モデルを特に変換せずに秘匿性のあるクライアント−サーバ型音声認識を行う手段として有効に動作する。
 以上説明したように、本発明によれば、以下の効果を得られる。
 第1の効果は、話者の発話内容が第三者に漏洩する危険性を低下させることができる。その理由は、音声データから変換された中間データ(特徴ベクトル、音素ID列、単語列ID列)を第三者が取得したとしても、これを復元するには音素ID等がどのように変換されたのかその詳細を知る必要があるため、適宜変換を行うことで第三者による音声データの復元を困難にできるためである。
 第2の効果は、言語モデルからタスクやドメインに関する特別な情報が第三者に漏洩する危険を低下させることができるということにある。その理由は、サーバ上に一時的に保持される言語モデルには変換後の音素ID等の必要最小限の単語情報しか含まれておらず、また音素IDの変換の詳細はサーバからは不明なため、第三者が言語モデルの内容の詳細を知ることを困難にできるためである。
 なお、既に述べたように、ここでいう第三者には音声認識サービス提供者も含まれる。従って本発明の間接的な効果としては、極めて秘匿の要求の強い音声、例えばプライバシーに係わるものや、企業秘密に係わる音声なども、ネットワークサービスの形態で音声認識することが可能になることが挙げられる。
 尚、上記実施の形態で示した技術を用いて、音声認識システムを以下の様に構成しても良い。
 ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理部を備えた第1の情報処理装置と、その第1の情報処理装置とネットワークを介して接続し、音声認識処理部の音声認識に用いるデータを、第1の情報処理装置の知らない写像関数を用いて写像して送信すると共に、第1の情報処理装置から送り返されてきた結果のデータを、像関数を用いずに音声認識した結果と同様の結果に、使用した写像関数に基づき修正して音声認識結果を構築する第2の情報処理装置で構成する。
 ネットワークで相互に接続された少なくとも一の情報処理装置に音声認識処理部を有する複数の情報処理装置で音声認識システムを構成する。要求元の情報処理装置は、音声認識処理部を有する情報処理装置に対して、音声認識処理部で音声認識処理に用いるデータの少なくともひとつのデータ構造を、写像関数を用いて変換して送信する。音声認識処理部を有する情報処理装置は、変換されたデータ構造に基づいて音声認識処理を実施してその結果を要求元に送信する。要求元の情報処理装置は、写像関数の影響を受けている音声認識処理の実施結果を、音声認識処理の写像関数の影響を受けていない実施結果に構築する。
 写像関数をΦ={φ}とし、データ構造Xをφ_x{X}に、データ構造Yをφ_y{Y}に、それぞれ写像するとき、音声認識処理部が用いる関数F(X,Y)について、F(X,Y)とF(φ_x{X},φ_y{Y})の値が常に等しいか、または常に所与の閾値未満である写像関数Φを用いて構成された音声認識システム。
 写像関数をΦ={φ}とし、データ構造Xをφ_x{X}に、データ構造Yをφ_y{Y}に、それぞれ写像するとき、音声認識処理部が用いる関数F(X,Y)について、F(X,Y)とF(φ_x{X},φ_y{Y})の比が常に一定である写像関数Φを用いて構成された音声認識システム。
 あるデータ構造に含まれる特定のデータを参照するインデックスと参照先との参照関係に関して、写像前にある任意のインデックスが参照していた先と、写像後に同じインデックスが参照する先とが一致するとは限らない関数であり、且つ、写像前にいずれかのインデックスによって参照されていた参照先のデータは、写像後のいずれかのインデックスによって必ず参照されることを保証する写像関数を用いて構成された音声認識システム。
 あるデータ構造に含まれる特定のデータを参照するインデックスのシャッフルを示す写像関数を用いて構成された音声認識システム。
 あるデータ構造に含まれる特定のデータを参照するインデックスについて任意個のインデックスを追加する写像関数を用いて構成された音声認識システム。
 写像関数を用いて写像される音声認識に用いるデータのうち少なくともひとつは、写像前には音声認識を行う音響を入力する情報処理装置にのみ保持されている音声認識システム。
 音声認識処理部で用いるデータの構造は、音響モデルの構造と、言語モデルの構造と、特徴ベクトルの構造の少なくともいずれかが写像されている音声認識システム。
 特徴ベクトルに含まれる各特徴量を指すインデックスを、音声認識対象である音響を入力する装置が与える写像関数を用いて写像し、且つ、音響モデルの各特徴量に結び付けられたモデルへのインデックスを、音声認識する音響を入力する装置が与える写像関数を用いて写像する音声認識システム。
 音響モデルに含まれる音素へのインデックスである音素IDを、音響を入力する装置が与える写像関数を用いて写像し、且つ、言語モデルに含まれる各単語の読みを示す音素ID列を、音響を入力する装置が与える写像関数を用いて写像し、且つ、言語モデルに含まれる各単語の少なくとも表記文字列の情報は削除する音声認識システム。
 言語モデルに含まれる各単語へのインデックスである単語IDを、音響を入力する装置が与える写像関数を用いて写像する音声認識システム。
 音声データを入力する情報処理装置は、少なくとも音響尤度算出部を備え、言語モデルに含まれる各単語の読みを示す音素ID列を音声データを入力する情報処理装置が与える写像関数を用いて写像すると共に、言語モデルに含まれる各単語の少なくとも表記文字列の情報を削除し、且つ、音声データのフレームごとに、既知の音素すべて或いは必要な音素について音響尤度を算出して、音声データを入力する情報処理装置が与える写像関数を用いて写像した音素IDと音響尤度の組の配列を生成し、写像した音素IDと音響尤度の組の配列と、写像後の言語モデルを、仮説探索部を有する情報処理装置に送信する音声認識システム。
 音声データを入力する情報処理装置は、音声データをブロックに分割し、分割したブロック間の時系列を、音声データを入力する情報処理装置が与える写像関数を用いて写像し、写像後の時系列に従ってそれら音声ブロックを音声認識を行う情報処理装置に送信し、音声認識を行う情報処理装置から、特徴ベクトルまたは音素IDと音響尤度の組の配列のいずれかを受け取り、音声データを入力する情報処理装置が与える写像関数の逆関数を用いてこれらの時系列を復元する音声認識システム。
 また、本発明の具体的な構成は前述の実施の形態に限られるものではなく、この発明の要旨を逸脱しない範囲の変更があってもこの発明に含まれる。例えば、上記実施の形態のそれぞれの特徴を、融合させるように構成されたものも本発明に含まれる。
 また、音声認識要求装置の各種部は、ハードウェア又は、ハードウェアとソフトウェアの組み合わせを用いて実現しても良い。ハードウェアとソフトウェアとを組み合わせた形態では、RAMに音声認識用プログラムが展開され、プログラムに基づいてCPU等のハードウェアを動作させることによって、各部及び各種手段を実現する。また、前記プログラムは、記憶媒体に記録されて頒布されても良い。当該記録媒体に記録されたプログラムは、有線、無線、又は記録媒体そのものを介して、メモリに読込まれ、制御部等を動作させる。尚、記録媒体を例示すれば、オプティカルディスクや磁気ディスク、半導体メモリ装置、ハードディスクなどが挙げられる。
 本発明は、クライアント・サーバ型の音声認識を行うあらゆる用途に、秘匿性を向上させる用途に適用することが可能である。
 例えば、企業秘密などを含む音声を認識するための音声認識SaaSシステムの構築に適用できる。また、日記などのプライバシーの高い音声のための音声認識SaaSシステムの構築に適用できる。
 また例えば、ショッピングサイトで、メニュー選択などを音声で行えるような音声ショッピングサイトを構築する際、本発明を用いた音声認識SaaSシステムを利用してサイトを構築すれば、ユーザは購入履歴などを少なくとも音声認識SaaSシステムプロバイダに知られずにすむ。これは、音声ショッピングサイトの運営者にとっては顧客情報の流出機会が低下するという点でメリットとなる。
 また、音声認識SaaSシステム提供者側から見ると、本発明を用いることで、利用者の音声や、利用者の個人情報に当たる語彙を含む言語モデルを、自らの管理する音声認識サーバに一時的にせよ保持する必要がなくなるため、クラッカー等による意図しない個人情報流出の危険性を回避することができる。
 この出願は、2009年10月28日に出願された日本出願特願2009−247874号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (32)

  1.  ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理部を備えた第1の情報処理装置と、
     前記第1の情報処理装置とネットワークを介して接続し、前記音声認識処理部の音声認識に用いるデータを、その内容を知得不能で且つ前記音声認識処理部が音声認識処理を行うことが可能な形式のデータに変換して送信すると共に、前記第1の情報処理装置から送り返されてきた結果のデータを、正当な認識結果である内容に構築する第2の情報処理装置と
    を有することを特徴とする音声認識システム。
  2.  ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理部を備えた第1の情報処理装置と、
     前記第1の情報処理装置とネットワークを介して接続し、前記音声認識処理部の音声認識に用いるデータを、前記第1の情報処理装置の知らない写像関数を用いて写像して送信すると共に、前記第1の情報処理装置から送り返されてきた結果のデータを、前記写像関数を用いずに音声認識した結果と同様の結果に、前記像関数に基づき修正して音声認識結果を構築する第2の情報処理装置と
    を有することを特徴とする音声認識システム。
  3.  ネットワークで相互に接続された少なくとも一の情報処理装置に音声認識処理部を有する複数の情報処理装置を備え、
     前記音声認識処理部を有する情報処理装置に対して、前記音声認識処理部で音声認識処理に用いるデータの少なくともひとつのデータ構造を、写像関数を用いて変換して送信し、
     前記音声認識処理部を有する情報処理装置は、変換したデータ構造に基づいて音声認識処理を実施してその結果を送信し、
     前記写像関数の影響を受けている音声認識処理の実施結果を、音声認識処理の前記写像関数の影響を受けていない実施結果に構築する
    ことを特徴とする音声認識システム。
  4.  請求項2ないし3の何れか一項に記載の音声認識システムであって、
     写像関数Φ={φ}が、
     データ構造Xをφ_x{X}に、データ構造Yをφ_y{Y}に、それぞれ写像するとき、
     前記音声認識処理部が用いる関数F(X,Y)について、F(X,Y)とF(φ_x{X},φ_y{Y})の値が常に等しいか、または常に所与の閾値未満であるか、またはその比が常に一定である写像関数Φを用いる
    ことを特徴とする音声認識システム。
  5.  請求項2ないし3の何れか一項に記載の音声認識システムであって、
     前記音声認識処理部が用いるデータ構造は、
     そのデータ構造に含まれる特定のデータを参照するインデックスに関して、あるインデックスと参照先との参照関係を指す
    ことを特徴とする音声認識システム。
  6.  請求項2ないし3の何れか一項に記載の音声認識システムであって、
     前記写像関数は、
     あるデータ構造に含まれる特定のデータを参照するインデックスと参照先との参照関係に関して、写像前にある任意のインデックスが参照していた先と、写像後に同じインデックスが参照する先とが一致するとは限らない関数であり、
     かつ、
     写像前にいずれかのインデックスによって参照されていた参照先のデータは、写像後のいずれかのインデックスによって必ず参照される
    ことを保証する関数である
    ことを特徴とする音声認識システム。
  7.  請求項6に記載の音声認識システムであって、
     前記写像関数が、あるデータ構造に含まれる特定のデータを参照するインデックスのシャッフルである
    ことを特徴とする音声認識システム。
  8.  請求項6に記載の音声認識システムであって、
     前記写像関数が、あるデータ構造に含まれる特定のデータを参照するインデックスについて任意個のインデックスを追加する
    ことを特徴とする音声認識システム。
  9.  請求項2ないし8の何れか一項に記載の音声認識システムであって、
     前記写像関数を用いて写像される音声認識に用いるデータのうち少なくともひとつは、写像前には音声認識を行う音響を入力する情報処理装置にのみ保持されている
    ことを特徴とする音声認識システム。
  10.  請求項2ないし8の何れか一項に記載の音声認識システムであって、
     前記音声認識処理部で用いるデータの構造は、音響モデルの構造と、言語モデルの構造と、特徴ベクトルの構造の少なくともいずれかが写像されている
    ことを特徴とする音声認識システム。
  11.  請求項10に記載の音声認識システムであって、
     特徴ベクトルに含まれる各特徴量を指すインデックスを、音声認識対象である音響を入力する装置が与える写像関数を用いて写像し、
     かつ、
     音響モデルの各特徴量に結び付けられたモデルへのインデックスを、前記音声認識する音響を入力する装置が与える写像関数を用いて写像する
    ことを特徴とする音声認識システム。
  12.  請求項11に記載の音声認識システムであって、
     音響モデルに含まれる音素へのインデックスである音素IDを、前記音響を入力する装置が与える写像関数を用いて写像し、
     かつ、
     言語モデルに含まれる各単語の読みを示す音素ID列を、前記音響を入力する装置が与える写像関数を用いて写像し、
     かつ、
     前記言語モデルに含まれる各単語の少なくとも表記文字列の情報は削除する
    ことを特徴とする音声認識システム。
  13.  請求項12に記載の音声認識システムであって、
     言語モデルに含まれる各単語へのインデックスである単語IDを、前記音響を入力する装置が与える写像関数を用いて写像する
    ことを特徴とする音声認識システム。
  14.  請求項2ないし8の何れか一項に記載の音声認識システムであって、
     音声データを入力する情報処理装置は、少なくとも音響尤度算出部を備え、
     言語モデルに含まれる各単語の読みを示す音素ID列を前記情報処理装置が与える写像関数を用いて写像すると共に、言語モデルに含まれる各単語の少なくとも表記文字列の情報を削除し、
     かつ、
     音声データのフレームごとに、既知の音素すべて或いは必要な音素について音響尤度を算出して、前記情報処理装置が与える写像関数を用いて写像した音素IDと音響尤度の組の配列を生成し、
     写像した音素IDと音響尤度の組の配列と、写像後の言語モデルを、仮説探索部を有する情報処理装置に送信する
    ことを特徴とする音声認識システム。
  15.  請求項2ないし14の何れか一項に記載の音声認識システムであって、
     音声データを入力する情報処理装置は、音声データをブロックに分割し、
     分割したブロック間の時系列を、前記音声データを入力する情報処理装置が与える写像関数を用いて写像し、
     写像後の時系列に従って前記音声ブロックを音声認識を行う情報処理装置に送信し、
     前記音声認識を行う情報処理装置から、特徴ベクトルまたは音素IDと音響尤度の組の配列のいずれかを受け取り、
    前記音声データを入力する情報処理装置が与える写像関数の逆関数を用いてこれらの時系列を復元する
    ことを特徴とする音声認識システム。
  16.  ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理部を備えた音声認識装置にネットワークを介して接続する通信部と、
     前記音声認識処理部の音声認識に用いるデータを、その内容を知得不能で且つ前記音声認識処理部が音声認識処理を行うことが可能な形式のデータに変換する情報変換部と、
     変換されたデータに対して音声認識されて前記音声認識装置から送り返されてきた結果のデータを、正当な認識結果である内容を知得できる音声認識結果に前記変換内容に基づいて再構築する認証結果構築部と
    を有することを特徴とする音声認識要求装置。
  17.  ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理部を備えた音声認識装置にネットワークを介して接続する通信部と、
     前記音声認識処理部の音声認識に用いるデータを、前記第1の情報処理装置の知らない写像関数を用いて写像する情報変換部と、
     写像されたデータに対して音声認識されて前記音声認識装置から送り返されてきた結果のデータを、前記写像関数を用いずに音声認識した結果と同様の結果に、前記像関数に基づき修正して構築する認証結果構築部と
    を有することを特徴とする音声認識要求装置。
  18.  請求項17記載の音声認識要求装置であって、
     前記情報変換部は、前記音声認識処理部に対して送信する音声認識に用いるデータのデータ構造を、そのデータ構造に含まれる特定のデータを参照するインデックスに関して、所定のインデックスと参照先との参照関係を指すように写像する
    ことを特徴とする音声認識要求装置。
  19.  請求項17記載の音声認識要求装置であって、
     前記写像関数は、
     あるデータ構造に含まれる特定のデータを参照するインデックスと参照先との参照関係に関して、写像前にある任意のインデックスが参照していた先と、写像後に同じインデックスが参照する先とが一致するとは限らない関数であり、
     かつ、
     写像前にいずれかのインデックスによって参照されていた参照先のデータは、写像後のいずれかのインデックスによって必ず参照される
    ことを保証する関数である
    ことを特徴とする音声認識要求装置。
  20.  請求項17記載の音声認識要求装置であって、
     特徴ベクトルに含まれる各特徴量を指すインデックスを、前記写像関数を用いて写像し、
     かつ、
     音響モデルの各特徴量に結び付けられたモデルへのインデックスを、前記写像関数を用いて写像する
    ことを特徴とする音声認識要求装置。
  21.  請求項17記載の音声認識要求装置であって、
     音響モデルに含まれる音素へのインデックスである音素IDを、前記写像関数を用いて写像し、
     かつ、
     言語モデルに含まれる各単語の読みを示す音素ID列を、前記写像関数を用いて写像し、
     かつ、
     前記言語モデルに含まれる各単語の少なくとも表記文字列の情報は削除する
    ことを特徴とする音声認識要求装置。
  22.  請求項17ないし請求項21の何れか一項に記載の音声認識要求装置であって、
     音響尤度算出部を備え、
     言語モデルに含まれる各単語の読みを示す音素ID列を前記写像関数を用いて写像すると共に、言語モデルに含まれる各単語の少なくとも表記文字列の情報を削除し、
     かつ、
     音声データのフレームごとに、既知の音素すべて或いは必要な音素について音響尤度を算出して、前記情報処理装置が与える写像関数を用いて写像した音素IDと音響尤度の組の配列を生成し、
     写像した音素IDと音響尤度の組の配列と、写像後の言語モデルを、仮説探索部を有する音声認識装置に送信する
    ことを特徴とする音声認識要求装置。
  23.  請求項17ないし請求項21の何れか一項に記載の音声認識要求装置であって、
     音声認識対象である音響の音声データを複数のブロックに分割し、
     分割したブロック間の時系列を、前記写像関数を用いて写像し、
     写像後の時系列に従って前記音声ブロックを音声認識装置に送信し、
     前記音声認識装置から送信されてきた音声認識の結果データを受け取り、前記写像関数の逆関数を用いてこれらの時系列を復元する
    ことを特徴とする音声認識要求装置。
  24.  音響モデルと、言語モデルと、秘匿性を持たせる変換と復元に用いる変換・再構築用データとを格納する手段と、
     前記音響モデルと前記言語モデルと前記変換・再構築用データとを取得し、音声認識に用いる各モデルのデータ構造を秘匿性を有するデータ構造に変換する第1の変換手段と、
     識別対象の音響をデータ化し、当該データのデータ構造を秘匿性を有するデータ構造に変換する第2の変換手段と、
     ネットワークを介して音響認識装置に変換したデータを送信する手段と、
     ネットワークを介して音響認識装置から受信した音声認識した結果と、前記音響モデルと前記言語モデルと前記変換・再構築用データに基づいて、前記第1及び第2の変換手段を用いずに音声認識させた結果と同等の認識結果を構築する手段と
    を有することを特徴とする情報処理装置。
  25.  音声認識処理部を有する音声認識装置と前記音声認識装置に対して音声認識を要求する音声認識要求装置とをネットワークで相互に接続し、
     前記音声認識要求装置は、前記音声認識装置に対して、前記音声認識処理部で音声認識処理に用いるデータの少なくともひとつのデータ構造を、写像関数を用いて変換して送信し、
     前記音声認識装置は、前記音声認識要求装置に対して、変換したデータ構造に基づいて音声認識処理を実施してその結果を送信し、
     前記音声認識要求装置は、前記写像関数の影響を受けている音声認識処理の実施結果を、音声認識処理の前記写像関数の影響を受けていない実施結果に構築する
    ことを特徴とする音声認識方法。
  26.  請求項25に記載の音声認識方法であって、
     前記音声認識要求装置から前記音声認識装置に対して変換して送信する前記音声認識処理部で用いるデータの構造は、音響モデルの構造、言語モデルの構造、及び特徴ベクトルの構造の少なくともいずれかが写像された構造である
    ことを特徴とする音声認識方法。
  27.  請求項25又は26に記載の音声認識方法であって、
     前記写像関数は、あるデータ構造に含まれる特定のデータを参照するインデックスのシャッフル又は、あるデータ構造に含まれる特定のデータを参照するインデックスについて任意個のインデックスを追加する関数である
    ことを特徴とする音声認識方法。
  28.  請求項25ないし27の何れか一項に記載の音声認識方法であって、
     写像関数Φ={φ}が、
     データ構造Xをφ_x{X}に、データ構造Yをφ_y{Y}に、それぞれ写像するとき、
     前記音声認識処理部が用いる関数F(X,Y)について、F(X,Y)とF(φ_x{X},φ_y{Y})の値が常に等しいか、または常に所与の閾値未満であるか、またはその比が常に一定である写像関数Φを用いる
    ことを特徴とする音声認識方法。
  29.  情報処理装置の制御部を、
     ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理部を備えた音声認識装置と、ネットワークを介して接続する通信部と、
     前記音声認識処理部の音声認識に用いるデータを、その内容を知得不能で且つ前記音声認識処理部が音声認識処理を行うことが可能な形式のデータに変換する情報変換部と、
     変換されたデータに対して音声認識されて前記音声認識装置から送り返されてきた結果のデータを、正当な認識結果である内容を知得できる音声認識結果に前記変換内容に基づいて再構築する認証結果構築部
    として動作させることを特徴とする音声認識用プログラムを記録した記録媒体。
  30.  音響モデルと、言語モデルと、秘匿性を持たせる変換と復元に用いる変換・再構築用データとを管理格納する手段と、ネットワークを介して音響認識装置に変換したデータを送信する手段とを有する情報処理装置の制御部を、
     前記音響モデルと前記言語モデルと前記変換・再構築用データとを取得し、音声認識に用いる各モデルのデータ構造を秘匿性を有するデータ構造に変換する第1の変換手段と、
     識別対象の音響をデータ化し、当該データのデータ構造を秘匿性を有するデータ構造に変換する第2の変換手段と、
     ネットワークを介して音響認識装置から受信した音声認識した結果と、前記音響モデルと前記言語モデルと前記変換・再構築用データに基づいて、前記第1及び第2の変換手段を用いずに音声認識させた結果と同等の認識結果を構築する手段
    として動作させることを特徴とする音声認識用プログラムを記録した記録媒体。
  31.  情報処理装置の制御部を、
     ネットワークを介して送信されてきた音声認識に用いるデータを受信して音声認識処理を実施して結果のデータを送り返す音声認識処理部を備えた音声認識装置と、ネットワークを介して接続する通信部と、
     前記音声認識処理部の音声認識に用いるデータを、その内容を知得不能で且つ前記音声認識処理部が音声認識処理を行うことが可能な形式のデータに変換する情報変換部と、
     変換されたデータに対して音声認識されて前記音声認識装置から送り返されてきた結果のデータを、正当な認識結果である内容を知得できる音声認識結果に前記変換内容に基づいて再構築する認証結果構築部
    として機能させることを特徴とする音声認識用プログラム。
  32.  音響モデルと、言語モデルと、秘匿性を持たせる変換と復元に用いる変換・再構築用データとを管理格納する手段と、ネットワークを介して音響認識装置に変換したデータを送信する手段とを有する情報処理装置の制御部を、
     前記音響モデルと前記言語モデルと前記変換・再構築用データとを取得し、音声認識に用いる各モデルのデータ構造を秘匿性を有するデータ構造に変換する第1の変換手段と、
     識別対象の音響をデータ化し、当該データのデータ構造を秘匿性を有するデータ構造に変換する第2の変換手段と、
     ネットワークを介して音響認識装置から受信した音声認識した結果と、前記音響モデルと前記言語モデルと前記変換・再構築用データに基づいて、前記第1及び第2の変換手段を用いずに音声認識させた結果と同等の認識結果を構築する手段
    として機能させることを特徴とする音声認識用プログラム。
PCT/JP2010/068230 2009-10-28 2010-10-12 音声認識システム、音声認識要求装置、音声認識方法、音声認識用プログラムおよび記録媒体 WO2011052412A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US13/504,264 US20120215528A1 (en) 2009-10-28 2010-10-12 Speech recognition system, speech recognition request device, speech recognition method, speech recognition program, and recording medium
JP2011538353A JP5621993B2 (ja) 2009-10-28 2010-10-12 音声認識システム、音声認識要求装置、音声認識方法、及び音声認識用プログラム
US14/064,976 US9520129B2 (en) 2009-10-28 2013-10-28 Speech recognition system, request device, method, program, and recording medium, using a mapping on phonemes to disable perception of selected content
US15/241,233 US9905227B2 (en) 2009-10-28 2016-08-19 Speech recognition system, request device, method, program, and recording medium, using a mapping on phonemes to disable perception of selected content

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009-247874 2009-10-28
JP2009247874 2009-10-28

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US13/504,264 A-371-Of-International US20120215528A1 (en) 2009-10-28 2010-10-12 Speech recognition system, speech recognition request device, speech recognition method, speech recognition program, and recording medium
US14/064,976 Division US9520129B2 (en) 2009-10-28 2013-10-28 Speech recognition system, request device, method, program, and recording medium, using a mapping on phonemes to disable perception of selected content

Publications (1)

Publication Number Publication Date
WO2011052412A1 true WO2011052412A1 (ja) 2011-05-05

Family

ID=43921838

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/068230 WO2011052412A1 (ja) 2009-10-28 2010-10-12 音声認識システム、音声認識要求装置、音声認識方法、音声認識用プログラムおよび記録媒体

Country Status (3)

Country Link
US (3) US20120215528A1 (ja)
JP (1) JP5621993B2 (ja)
WO (1) WO2011052412A1 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017203953A (ja) * 2016-05-13 2017-11-16 パナソニックIpマネジメント株式会社 データ処理装置、データ処理システム、データ処理方法及びデータ処理プログラム
CN108573713A (zh) * 2017-03-09 2018-09-25 株式会社东芝 语音识别装置、语音识别方法以及存储介质
JP2019056746A (ja) * 2017-09-20 2019-04-11 株式会社野村総合研究所 データ変換装置
JP2019109503A (ja) * 2017-12-07 2019-07-04 インターデジタル シーイー パテント ホールディングス プライバシー保護音声対話のための装置及び方法
JP2020119271A (ja) * 2019-01-24 2020-08-06 日本電信電話株式会社 系列ラベリング装置、系列ラベリング方法、およびプログラム
JP2021043338A (ja) * 2019-09-11 2021-03-18 株式会社ソケッツ テキスト表示用同期情報生成装置および方法並びに音声認識装置および方法
US20220020362A1 (en) * 2020-07-17 2022-01-20 Samsung Electronics Co., Ltd. Speech signal processing method and apparatus
WO2022153504A1 (ja) * 2021-01-15 2022-07-21 日本電信電話株式会社 学習方法、学習システム及び学習プログラム
WO2022215140A1 (ja) * 2021-04-05 2022-10-13 株式会社KPMG Ignition Tokyo プログラム、情報処理装置、及び情報処理方法

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI420510B (zh) * 2010-05-28 2013-12-21 Ind Tech Res Inst 可調整記憶體使用空間之語音辨識系統與方法
JP6047922B2 (ja) * 2011-06-01 2016-12-21 ヤマハ株式会社 音声合成装置および音声合成方法
DE102012202407B4 (de) * 2012-02-16 2018-10-11 Continental Automotive Gmbh Verfahren zum Phonetisieren einer Datenliste und sprachgesteuerte Benutzerschnittstelle
US20140136210A1 (en) * 2012-11-14 2014-05-15 At&T Intellectual Property I, L.P. System and method for robust personalization of speech recognition
JP5868544B2 (ja) * 2013-03-06 2016-02-24 三菱電機株式会社 音声認識装置および音声認識方法
US9269355B1 (en) * 2013-03-14 2016-02-23 Amazon Technologies, Inc. Load balancing for automatic speech recognition
US9317736B1 (en) * 2013-05-08 2016-04-19 Amazon Technologies, Inc. Individual record verification based on features
WO2015118645A1 (ja) * 2014-02-06 2015-08-13 三菱電機株式会社 音声検索装置および音声検索方法
JP6596924B2 (ja) * 2014-05-29 2019-10-30 日本電気株式会社 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム
US9824688B2 (en) * 2014-07-16 2017-11-21 Panasonic Intellectual Property Corporation Of America Method for controlling speech-recognition text-generation system and method for controlling mobile terminal
JP6118838B2 (ja) * 2014-08-21 2017-04-19 本田技研工業株式会社 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
EP3690879A3 (en) * 2014-11-07 2020-08-26 Samsung Electronics Co., Ltd. Speech signal processing method and speech signal processing apparatus
EP4350558A2 (en) 2014-11-07 2024-04-10 Samsung Electronics Co., Ltd. Speech signal processing method and speech signal processing apparatus
US10065124B2 (en) * 2016-01-15 2018-09-04 Disney Enterprises, Inc. Interacting with a remote participant through control of the voice of a toy device
US20170229124A1 (en) * 2016-02-05 2017-08-10 Google Inc. Re-recognizing speech with external data sources
US9997173B2 (en) * 2016-03-14 2018-06-12 Apple Inc. System and method for performing automatic gain control using an accelerometer in a headset
JP6724511B2 (ja) * 2016-04-12 2020-07-15 富士通株式会社 音声認識装置、音声認識方法および音声認識プログラム
US10192555B2 (en) * 2016-04-28 2019-01-29 Microsoft Technology Licensing, Llc Dynamic speech recognition data evaluation
US9761227B1 (en) * 2016-05-26 2017-09-12 Nuance Communications, Inc. Method and system for hybrid decoding for enhanced end-user privacy and low latency
US20170365249A1 (en) * 2016-06-21 2017-12-21 Apple Inc. System and method of performing automatic speech recognition using end-pointing markers generated using accelerometer-based voice activity detector
US10950235B2 (en) * 2016-09-29 2021-03-16 Nec Corporation Information processing device, information processing method and program recording medium
CN106601257B (zh) * 2016-12-31 2020-05-26 联想(北京)有限公司 一种声音识别方法、设备和第一电子设备
JP7062958B2 (ja) * 2018-01-10 2022-05-09 トヨタ自動車株式会社 通信システム、及び通信方法
CN111868717A (zh) * 2018-03-20 2020-10-30 索尼公司 信息处理装置及信息处理方法
KR20210044985A (ko) * 2019-10-16 2021-04-26 엘지전자 주식회사 음성 처리 방법 및 음성 처리 장치
CN111081256A (zh) * 2019-12-31 2020-04-28 苏州思必驰信息科技有限公司 数字串声纹密码验证方法及系统
US11900921B1 (en) 2020-10-26 2024-02-13 Amazon Technologies, Inc. Multi-device speech processing
US11721347B1 (en) * 2021-06-29 2023-08-08 Amazon Technologies, Inc. Intermediate data for inter-device speech processing

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09120293A (ja) * 1995-10-24 1997-05-06 Ricoh Co Ltd 話者認識システムおよび話者認識方法
JP2003005949A (ja) * 2001-06-20 2003-01-10 Nec Corp サーバ・クライアント型音声認識装置及び方法
JP2004530149A (ja) * 2001-02-13 2004-09-30 トムソン ライセンシング ソシエテ アノニム 音声認識のための処理、モジュール、装置及びサーバ
JP2005514682A (ja) * 2001-12-20 2005-05-19 ミュレックス・セキュリティーズ・リミテッド グローバル通信ネットワーク内で情報を捕捉し、マッチングしかつリンクするためのシステム及び方法
JP2005331616A (ja) * 2004-05-18 2005-12-02 Nippon Telegr & Teleph Corp <Ntt> クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体
JP2006309356A (ja) * 2005-04-26 2006-11-09 Mark-I Inc スケジュール等管理システムおよびスケジュール等管理方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5893057A (en) 1995-10-24 1999-04-06 Ricoh Company Ltd. Voice-based verification and identification methods and systems
US6292782B1 (en) * 1996-09-09 2001-09-18 Philips Electronics North America Corp. Speech recognition and verification system enabling authorized data transmission over networked computer systems
JP2003295893A (ja) * 2002-04-01 2003-10-15 Omron Corp 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
US8407048B2 (en) * 2008-05-27 2013-03-26 Qualcomm Incorporated Method and system for transcribing telephone conversation to text

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09120293A (ja) * 1995-10-24 1997-05-06 Ricoh Co Ltd 話者認識システムおよび話者認識方法
JP2004530149A (ja) * 2001-02-13 2004-09-30 トムソン ライセンシング ソシエテ アノニム 音声認識のための処理、モジュール、装置及びサーバ
JP2003005949A (ja) * 2001-06-20 2003-01-10 Nec Corp サーバ・クライアント型音声認識装置及び方法
JP2005514682A (ja) * 2001-12-20 2005-05-19 ミュレックス・セキュリティーズ・リミテッド グローバル通信ネットワーク内で情報を捕捉し、マッチングしかつリンクするためのシステム及び方法
JP2005331616A (ja) * 2004-05-18 2005-12-02 Nippon Telegr & Teleph Corp <Ntt> クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体
JP2006309356A (ja) * 2005-04-26 2006-11-09 Mark-I Inc スケジュール等管理システムおよびスケジュール等管理方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017203953A (ja) * 2016-05-13 2017-11-16 パナソニックIpマネジメント株式会社 データ処理装置、データ処理システム、データ処理方法及びデータ処理プログラム
CN108573713B (zh) * 2017-03-09 2022-01-11 株式会社东芝 语音识别装置、语音识别方法以及存储介质
CN108573713A (zh) * 2017-03-09 2018-09-25 株式会社东芝 语音识别装置、语音识别方法以及存储介质
JP2019056746A (ja) * 2017-09-20 2019-04-11 株式会社野村総合研究所 データ変換装置
JP7088645B2 (ja) 2017-09-20 2022-06-21 株式会社野村総合研究所 データ変換装置
JP2019109503A (ja) * 2017-12-07 2019-07-04 インターデジタル シーイー パテント ホールディングス プライバシー保護音声対話のための装置及び方法
JP7166900B2 (ja) 2017-12-07 2022-11-08 インターディジタル・シーイー・パテント・ホールディングス・ソシエテ・パ・アクシオンス・シンプリフィエ プライバシー保護音声対話のための装置及び方法
JP2020119271A (ja) * 2019-01-24 2020-08-06 日本電信電話株式会社 系列ラベリング装置、系列ラベリング方法、およびプログラム
JP7211103B2 (ja) 2019-01-24 2023-01-24 日本電信電話株式会社 系列ラベリング装置、系列ラベリング方法、およびプログラム
JP2021043338A (ja) * 2019-09-11 2021-03-18 株式会社ソケッツ テキスト表示用同期情報生成装置および方法並びに音声認識装置および方法
US20220020362A1 (en) * 2020-07-17 2022-01-20 Samsung Electronics Co., Ltd. Speech signal processing method and apparatus
US11670290B2 (en) * 2020-07-17 2023-06-06 Samsung Electronics Co., Ltd. Speech signal processing method and apparatus
WO2022153504A1 (ja) * 2021-01-15 2022-07-21 日本電信電話株式会社 学習方法、学習システム及び学習プログラム
WO2022215140A1 (ja) * 2021-04-05 2022-10-13 株式会社KPMG Ignition Tokyo プログラム、情報処理装置、及び情報処理方法

Also Published As

Publication number Publication date
US20120215528A1 (en) 2012-08-23
US20160358608A1 (en) 2016-12-08
US9520129B2 (en) 2016-12-13
JPWO2011052412A1 (ja) 2013-03-21
US20140058729A1 (en) 2014-02-27
JP5621993B2 (ja) 2014-11-12
US9905227B2 (en) 2018-02-27

Similar Documents

Publication Publication Date Title
JP5621993B2 (ja) 音声認識システム、音声認識要求装置、音声認識方法、及び音声認識用プログラム
US20240112667A1 (en) Synthesis of speech from text in a voice of a target speaker using neural networks
Le et al. Deep shallow fusion for RNN-T personalization
Aloufi et al. Privacy-preserving voice analysis via disentangled representations
JP6469252B2 (ja) アカウント追加方法、端末、サーバ、およびコンピュータ記憶媒体
US6182038B1 (en) Context dependent phoneme networks for encoding speech information
US9412359B2 (en) System and method for cloud-based text-to-speech web services
Zhang et al. Encrypted speech recognition using deep polynomial networks
Perero-Codosero et al. X-vector anonymization using autoencoders and adversarial training for preserving speech privacy
CN113724718B (zh) 目标音频的输出方法及装置、系统
US20230127787A1 (en) Method and apparatus for converting voice timbre, method and apparatus for training model, device and medium
Aloufi et al. Paralinguistic privacy protection at the edge
US10522135B2 (en) System and method for segmenting audio files for transcription
JP2023162265A (ja) テキストエコー消去
KR102500255B1 (ko) 음성 개인정보 보호 기술을 이용한 기계학습 데이터베이스 구축 시스템
JP4769121B2 (ja) サーバ・クライアント型音声認識方法、装置およびサーバ・クライアント型音声認識プログラム、記録媒体
CN113724690A (zh) Ppg特征的输出方法、目标音频的输出方法及装置
KR20220070979A (ko) 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치 및 음성 합성 방법
Jalal et al. On-Device Speaker Anonymization of Acoustic Embeddings for ASR based onFlexible Location Gradient Reversal Layer
Saini et al. Speaker Anonymity and Voice Conversion Vulnerability: A Speaker Recognition Analysis
JP6965846B2 (ja) 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム
JP7146038B2 (ja) 音声認識システム及び方法
US20240071396A1 (en) System and Method for Watermarking Audio Data for Automated Speech Recognition (ASR) Systems
WO2023135788A1 (ja) 音声処理学習方法、音声処理学習装置、およびプログラム
KR20230123295A (ko) 음성 복원 장치, 음성 복원 방법 및 음성 검증 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10826546

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 13504264

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2011538353

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10826546

Country of ref document: EP

Kind code of ref document: A1