WO2011040056A1 - 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置 - Google Patents

音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置 Download PDF

Info

Publication number
WO2011040056A1
WO2011040056A1 PCT/JP2010/053419 JP2010053419W WO2011040056A1 WO 2011040056 A1 WO2011040056 A1 WO 2011040056A1 JP 2010053419 W JP2010053419 W JP 2010053419W WO 2011040056 A1 WO2011040056 A1 WO 2011040056A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
translation
unit
result
model
Prior art date
Application number
PCT/JP2010/053419
Other languages
English (en)
French (fr)
Inventor
中村 哲
隅田 英一郎
葦苅 豊
法幸 木村
堀 智織
Original Assignee
独立行政法人情報通信研究機構
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 独立行政法人情報通信研究機構 filed Critical 独立行政法人情報通信研究機構
Priority to KR1020127008314A priority Critical patent/KR101683943B1/ko
Priority to EP10820177.3A priority patent/EP2485212A4/en
Priority to CN201080043645.3A priority patent/CN102549653B/zh
Priority to JP2011534094A priority patent/JP5598998B2/ja
Priority to US13/499,311 priority patent/US8862478B2/en
Publication of WO2011040056A1 publication Critical patent/WO2011040056A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Definitions

  • the translation server device includes a speech recognition unit to be acquired and a speech recognition result transmission unit that transmits a speech recognition result, and the translation server device translates all or some of the two or more languages.
  • the voice speaker attribute acquisition unit 304 determines a speaker class (this speaker class is a kind of language speaker attribute) from the voice recognition result that is the result of the voice recognition unit 308 performing voice recognition. Also good.
  • the voice speaker attribute acquisition unit 304 holds a term dictionary having a difficulty level (a set of two or more pieces of term information having terms and difficulty levels associated with each other), and is included in the speech recognition result. The difficulty level (n1, n2,%) Is acquired, and the speaker class (high difficulty level “0”, middle difficulty level “1”, low difficulty level “ 2 ”etc.). Further, the voice speaker attribute acquisition unit 304 determines the speaker class using the difficulty level (n1, n2,%) Of one or more terms and the presence / absence of a grammatical error.
  • the voice speaker attribute acquisition unit 304 obtains a final difficulty level obtained from one or more difficulty levels (high “0”, difficulty level medium “1”, difficulty level low). A value obtained by adding “1” to “2”) is acquired as a speaker class.
  • the checking process for determining whether or not there is a grammatical error in the sentence is a known natural language process, and thus detailed description thereof is omitted.
  • the voice speaker attribute acquisition unit 304 may acquire a speaker attribute by a method other than the method described above, or may acquire any speaker attribute.
  • the voice recognition unit 308 recognizes the voice information received by the voice information reception unit 306 using the voice recognition model stored in the voice recognition model storage unit 302, and acquires a voice recognition result. In addition, it is preferable that the voice recognition unit 308 recognizes the voice information received by the voice information reception unit 306 using the voice recognition model selected by the voice recognition model selection unit 307 and acquires a voice recognition result. .
  • the voice recognition unit 308 may use any voice recognition method.
  • the voice recognition unit 308 is a known technique.
  • information on a speech recognition target language is included in, for example, speech translation control information.
  • the speech translation control information is transferred between the first terminal device, the speech recognition server device, the translation server device, the speech synthesis server device, and the second terminal device 2.
  • the voice recognition result is usually a character string in the original language (the language of the voice spoken by the user A of the first terminal device 1).
  • the fourth speaker attribute accumulating unit 405 accumulates at least temporarily the speaker attributes received by the fourth speaker attribute receiving unit 403 in the fourth speaker attribute storage unit 401 at least temporarily.
  • the fourth speaker attribute storage unit 405 may store the speech translation control information in the fourth speaker attribute storage unit 401.
  • the fourth speaker attribute accumulation unit 405 may be referred to as a fourth speech translation control information accumulation unit 405.
  • the translation unit 408 translates the speech recognition result received by the speech recognition result receiving unit 406 into a target language using the translation model in the translation model storage unit 402, and acquires the translation result. It is preferable that the translation unit 408 translates the speech recognition result received by the speech recognition result reception unit 406 into a target language using the translation model selected by the translation model selection unit 407 and acquires the translation result. Information specifying the source language and the target language is included in the speech translation control information, for example. Moreover, it does not ask
  • the translation unit 408 is a known technique.
  • the translation result transmission unit 410 transmits the translation result, which is a result of the translation processing performed by the translation unit 408, to the speech synthesis server device 5 directly or indirectly. In addition, it is preferable that the translation result transmission unit 410 directly or indirectly transmits the translation result to the speech synthesis server device 5 selected by the speech synthesis server selection unit 409.
  • the speech synthesis model selection unit 506 selects one speech synthesis model from two or more speech synthesis models according to one or more speaker attributes received by the fifth speaker attribute reception unit 503.
  • the fifth model selection means 5062 searches the speech synthesis model selection information management table from one or more speaker attributes stored in the fifth speaker attribute storage unit 501, and performs speech synthesis corresponding to the one or more speaker attributes. Get the model device identifier.
  • the speech synthesis unit 507 acquires a speech synthesis model corresponding to the speech synthesis model identifier acquired by the fifth model selection unit 5062 from the speech synthesis model storage unit 502, and performs speech synthesis processing using the speech synthesis model. .
  • First speaker attribute storage unit 11 First speaker attribute storage unit 11, first server selection information storage unit 151, second speaker attribute storage unit 21, second server selection information storage unit 251, third speaker attribute storage unit 301, speech recognition model storage unit 302, third model selection information storage unit 3071, third server selection information storage unit 3091, fourth speaker attribute storage unit 401, translation model storage unit 402, fourth model selection information storage unit 4071, fourth server selection information storage
  • the unit 4091, the fifth speaker attribute storage unit 501, the speech synthesis model storage unit 502, and the fifth model selection information storage unit 5061 are preferably non-volatile recording media, but can also be realized by volatile recording media. is there.
  • the process in which the above information is stored in the first speaker attribute storage unit 11 or the like is not limited.
  • First speaker attribute storage unit 13 first voice recognition server selection unit 15, first server selection information storage unit 151, second speaker attribute storage unit 23, second voice recognition server selection unit 25, second server selection unit 252, voice speaker attribute acquisition unit 304, third speaker attribute storage unit 305, voice recognition model selection unit 307, voice recognition unit 308, translation server selection unit 309, third model selection unit 3072, third server selection unit 3092 , Language speaker attribute acquisition unit 404, fourth speaker attribute storage unit 405, translation model selection unit 407, translation unit 408, speech synthesis server selection unit 409, fourth model selection unit 4072, fourth server selection unit 4092,
  • the five-speaker attribute storage unit 504, the speech synthesis model selection unit 506, the speech synthesis unit 507, and the fifth model selection unit 5062 can be usually realized by an MPU, a memory, or the like. .
  • the processing procedure of the first speaker attribute storage unit 13 or the like is usually realized by software, and the software is recorded on a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).
  • Step S603 The first speaker attribute storage unit 13 stores the accepted one or more speaker attributes in the first speaker attribute storage unit 11. The process returns to step S601.
  • Step S607 The first server selection unit 152 reads one or more speaker attributes from the first speaker attribute storage unit 11.
  • Step S608 The first server selection unit 152 applies one or more speaker attributes read in step S607 to the first server selection information (voice recognition server selection information management table) of the first server selection information storage unit 151. Then, the voice recognition server device 3 is selected.
  • the selection of the speech recognition server device 3 is, for example, obtaining one speech recognition server device identifier.
  • the first speaker attribute transmission unit 19 configures speech translation control information using one or more speaker attributes stored in the first speaker attribute storage unit 11. For example, the first speaker attribute transmission unit 19 acquires an identifier of the target language determined from the telephone number of the input second terminal device 2. Further, the first speaker attribute transmission unit 19 acquires the identifier of the source language determined from the stored telephone number of the first terminal device 1. For example, since the telephone number includes a country code, the first speaker attribute transmission unit 19 determines a target language from the country code. The first speaker attribute transmission unit 19 holds a correspondence table of country codes and target language identifiers (for example, a table having records such as “81: Japanese” and “82: Korean”). Then, the first speaker attribute transmission unit 19 receives the speech translation control information from one or more speaker attributes stored in the first speaker attribute storage unit 11, the source language identifier, the target language identifier, and the like. Constitute.
  • step S607 it is preferable not to perform the processes of step S607, step S608, step S609, and step S611 again during a call. That is, it is preferable to perform the processing of Step S607, Step S608, Step S609, and Step S611 once in a call or a smaller number of times than the transmission of voice information.
  • the process is terminated by powering off or interruption for aborting the process.
  • Step S703 The voice speaker attribute acquisition unit 304 acquires one or more speaker attributes from the voice information received in step S701. Such processing is called speaker attribute acquisition processing and will be described with reference to the flowchart of FIG.
  • the third model selection unit 3072 searches the speech recognition model selection information management table using one or more speaker attributes included in the speech translation control information stored in the third speaker attribute storage unit 301.
  • the voice recognition model identifier is acquired. That is, the third model selection unit 3072 selects a speech recognition model. Then, the third model selection unit 3072 reads the selected speech recognition model from the speech recognition model storage unit 302.
  • the third server selection unit 3092 searches the translation server selection information management table using one or more speaker attributes included in the speech translation control information stored in the third speaker attribute storage unit 301.
  • a translation server device identifier corresponding to one or more speaker attributes is acquired.
  • Step S708 The speech recognition result transmitting unit 310 transmits the speech recognition result obtained in step S706 to the translation server device 4 corresponding to the translation server device identifier acquired in step S707.
  • Step S710 The third model selection unit 3072 determines whether or not the speech translation control information is stored in the third speaker attribute storage unit 301. If the speech translation control information is stored, go to step S711, otherwise go to step S712.
  • the process is terminated by powering off or interruption for aborting the process.
  • the voice speaker attribute acquisition unit 304 acquires one or more feature amounts from voice information (voice analysis).
  • the feature vector data that is a vector composed of one or more feature amounts acquired by the voice speaker attribute acquisition unit 304 is, for example, MFCC obtained by discrete cosine transform of a filter bank output of 24 channels using a triangular filter.
  • the static parameter, the delta parameter and the delta delta parameter each have 12 dimensions, and also have normalized power and delta power and delta delta power (39 dimensions).
  • Step S802 The voice speaker attribute acquisition unit 304 determines the gender of the speaker using the one or more feature amounts acquired in step S801.
  • Step S804 The voice speaker attribute acquisition unit 304 acquires the speech speed from the voice information. Note that the processing for acquiring the speech speed is a known technique.
  • Step S805 The voice speaker attribute acquisition unit 304 requests the voice recognition unit 308 to perform voice recognition processing, and obtains a voice recognition result.
  • Step S806 The voice speaker attribute acquisition unit 304 performs natural language processing on the voice recognition result obtained in step S805, and determines a speaker class. Return to upper process.
  • Step S901 The speech recognition result receiving unit 406 determines whether a speech recognition result has been received. If the voice recognition result is received, the process goes to step S902. If the voice recognition result is not received, the process returns to step S901.
  • Step S902 The fourth speaker attribute receiving unit 403 determines whether or not the speech translation control information has been received. If the speech translation control information is received, the process proceeds to step S903, and if not received, the process proceeds to step S909.
  • the language speaker attribute acquisition unit 404 performs natural language processing on the speech recognition result received in step S901, and acquires one or more language speaker attributes.
  • the language speaker attribute acquisition unit 404 acquires a speaker class from the speech recognition result, for example.
  • the fourth model selection unit 4072 has one or more speaker attributes included in the speech translation control information received in Step S902, or speech translation control information stored in the fourth speaker attribute storage unit 401.
  • the translation model selection information management table is searched using one or more speaker attributes to obtain a translation model identifier. That is, the fourth model selection unit 4072 selects a translation model. Then, the fourth model selection unit 4072 reads the selected translation model from the translation model storage unit 402.
  • Step S908 The translation result transmission unit 410 transmits the translation result obtained in Step S906 to the speech synthesis server device 5 corresponding to the speech synthesis server device identifier acquired in Step S907.
  • Step S909 The fourth speaker attribute transmission unit 411 uses the speech translation control information stored in the fourth speaker attribute storage unit 401 as a speech synthesis server corresponding to the speech synthesis server device identifier acquired in step S907. Transmit to device 5. The process returns to step S901.
  • Step S911 The fourth model selection unit 4072 reads the speech translation control information stored in the fourth speaker attribute storage unit 401. Go to step S905
  • Step S912 The fourth model selection unit 4072 reads an arbitrary translation model stored in the translation model storage unit 402. Go to step S906.
  • Step S1002 The fifth speaker attribute receiving unit 503 determines whether or not the speech translation control information has been received. If the speech translation control information is received, the process goes to step S1003. If not received, the process goes to step S1007.
  • the fifth speaker attribute storage unit 504 stores at least temporarily the speech translation control information received in step S1002 in the fifth speaker attribute storage unit 501.
  • the fifth model selection unit 5062 searches the speech synthesis model selection information management table using one or more speaker attributes included in the speech translation control information stored in the fifth speaker attribute storage unit 501. Then, a speech synthesis model identifier is acquired. That is, the fifth model selection unit 5062 selects a speech synthesis model. Then, the fifth model selection unit 5062 reads the selected speech synthesis model from the speech synthesis model storage unit 502.
  • Step S1005 The speech synthesis unit 507 performs speech synthesis processing on the translation result received in step S1001, using the read speech synthesis model. Then, the voice synthesis unit 507 obtains voice information (speech synthesis result) obtained by voice synthesis.
  • the user A of the first terminal device 1 is a 37-year-old woman who speaks Japanese, and the Japanese is native.
  • the second terminal device 2 user B is a 38-year-old man who speaks English, and English is native.
  • the second speaker attribute storage unit 21 of the second terminal device 2 stores a second speaker attribute management table shown in FIG.
  • the first server selection information storage unit 151 of the first terminal device 1 and the second server selection information storage unit 251 of the second terminal device 2 store the voice recognition server selection information management table shown in FIG. Yes.
  • the voice recognition server selection information management table stores one or more records having attribute values of “ID”, “language”, “speaker attribute”, and “voice recognition server device identifier”.
  • “Language” is a language for speech recognition.
  • the “speaker attribute” includes “gender”, “age” (here, age category), and the like.
  • the “voice recognition server device identifier” is information for communicating with the voice recognition server device 3, and is an IP address here.
  • the first server selection information storage unit 151 only needs to have a record corresponding to the language “Japanese” in the speech recognition server selection information management table.
  • the second server selection information storage unit 251 only needs to have a record corresponding to the language “English” in the voice recognition server selection information management table.
  • the “translation server device identifier” is information for communicating with the translation server device 4, and here is an IP address.
  • the fourth model selection information storage means 4071 of the translation server device 4 holds a translation model selection information management table shown in FIG.
  • the translation model selection information management table stores one or more records having attribute values of “ID”, “source language”, “speaker attribute”, and “translation model identifier”.
  • the “speaker attribute” includes “sex”, “age”, “second speaker class”, and the like.
  • the “second speaker class” indicates whether the language used is native.
  • the attribute value is “Y” if it is native, and “N” if it is not native.
  • the “translation model identifier” is information for identifying the translation model, and is used, for example, to read out the translation model.
  • the “translation model identifier” is a file name in which the translation model is stored.
  • the “speech synthesis server device identifier” is information for communicating with the speech synthesis server device 5 and is an IP address here.
  • the fifth model selection information storage means 5061 of the speech synthesis server device 5 holds a speech synthesis model selection information management table shown in FIG.
  • the speech synthesis model selection information management table stores one or more records having attribute values of “ID”, “target language”, “speaker attribute”, and “speech synthesis model identifier”.
  • the “speaker attribute” includes “sex”, “age”, “second speaker class”, and the like. It is more preferable to have “speaking speed” and “first speaker class” as “speaker attributes”.
  • the “speech synthesis model identifier” is information for identifying a speech synthesis model, and is used, for example, for reading a speech synthesis model.
  • “speech synthesis model identifier” is the name of a file in which the speech synthesis model is stored.
  • user A tries to call user B.
  • User A is a screen for inputting the telephone number of the other party (user B) from the first terminal device 1 and calls the screen of FIG.
  • the 1st terminal device 1 reads the 1st speaker attribute management table
  • the user inputs the other party's language and the other party's telephone number, and presses the “call” button.
  • FIG. 19 it is assumed that the telephone number “080-1111-2256” is stored in a recording medium (not shown).
  • the first voice reception unit 14 of the first terminal device 1 receives the voice “Good morning” of the user A.
  • the first server selection unit 152 reads the speaker attributes in FIG. 11 from the first speaker attribute storage unit 11.
  • the first speaker attribute transmitting unit 19 configures speech translation control information using one or more speaker attributes.
  • the first speaker attribute transmission unit 19 configures the speech translation control information shown in FIG. 20, for example.
  • This speech translation control information includes one or more speaker attributes and information (a language used by the other party [target language]) input by the user A from the screen of FIG.
  • the speech translation control information includes a speech recognition server device identifier “186.221.1.27”.
  • the first voice transmitting unit 16 digitizes the received voice “Good morning” and acquires the voice information of “Good morning”. And the 1st audio
  • the first speaker attribute transmission unit 19 transmits the speech translation control information of FIG. 20 to the speech recognition server device 3 identified by “186.221.1.27”.
  • the voice information receiving unit 306 of the voice recognition server device 3 receives the voice information “Good morning”. Then, the third speaker attribute receiving unit 303 receives the speech translation control information of FIG.
  • the voice speaker attribute acquisition unit 304 acquires one or more speaker attributes from the received voice information “Good morning”. That is, the third speaker attribute receiving unit 303 acquires one or more feature amounts from the voice information “Good morning”. Then, the third speaker attribute receiving unit 303 acquires predetermined information using one or more feature amounts.
  • the speech translation control information in FIG. 20 includes speaker attributes such as gender and age, but the third speaker attribute receiving unit 303 uses speaker attributes (such as gender and age) that overlap with the speech translation control information. May be used for speech recognition, later translation, and speech synthesis, giving priority to the acquired speaker attributes.
  • the third model selection unit 3072 includes one or more speaker attributes included in the speech translation control information stored in the third speaker attribute storage unit 301 and one or more acquired by the speech speaker attribute acquisition unit 304.
  • the third model selection unit 3072 reads the selected speech recognition model “JR6” from the speech recognition model storage unit 302.
  • the voice recognition unit 308 performs voice recognition processing on the received voice information using the read voice recognition model, and obtains a voice recognition result “Good morning”.
  • the voice speaker attribute acquisition unit 304 requests the voice recognition unit 308 to perform voice recognition processing, and obtains a voice recognition result “Good morning”.
  • the speech speaker attribute acquisition unit 304 performs natural language processing on the obtained speech recognition result, and acquires the first speaker class “A” because it is a polite language.
  • the voice speaker attribute acquisition unit 304 stores, for example, the terms “There” and “Is” that constitute a polite word, the highly difficult terms “ ⁇ ”,“ error ”, and the like,
  • the first speaker class may be determined based on the appearance ratio.
  • the voice speaker attribute acquisition unit 304 performs morphological analysis on “good morning” and divides it into two morphemes of “good morning” and “present”. Then, the voice speaker attribute acquisition unit 304 detects that “present” matches the managed term. Next, the voice speaker attribute acquisition unit 304 calculates a management term “50%”.
  • the voice speaker attribute acquisition unit 304 stores the judgment condition “A: the appearance ratio of the management term is 5% or more, B: the appearance ratio of the management term is 1% or more and less than 5%, C: management Based on the term appearance ratio of less than 1%, the first speaker class “A” is determined. Note that it is preferable that the voice speaker attribute acquisition unit 304 calculates the appearance ratio of the management terms every time, and determines and changes the first speaker class each time conversations are made.
  • the third speaker attribute storage unit 305 adds the translation server device identifier “77.128.50.80” to the speech translation control information and stores it in the third speaker attribute storage unit 301.
  • Such updated speech translation control information is shown in FIG.
  • the speech recognition result transmission unit 310 transmits the speech recognition result “Good morning” to the translation server device 4 corresponding to the acquired translation server device identifier “77.128.50.80”.
  • the fourth speaker attribute storage unit 405 stores at least temporarily the received speech translation control information (FIG. 22) in the fourth speaker attribute storage unit 401.
  • the translation unit 408 performs translation processing on the received speech recognition result “Good morning” using the read translation model “JT4”. Then, the translation unit 408 obtains a translation result “Good morning.”
  • the fourth speaker attribute storage unit 405 configures speech translation control information (FIG. 23) obtained by adding the speech synthesis server device identifier “238.3.55.7” to the speech translation control information of FIG.
  • the speech translation control information is accumulated in the fourth speaker attribute storage unit 401.
  • the fourth speaker attribute transmission unit 411 transmits the speech translation control information of FIG. 23 to the speech synthesis server device 5 corresponding to the speech synthesis server device identifier “238.3.55.7”.
  • the translation result receiving unit 505 of the speech synthesis server device 5 receives the translation result. Also, the fifth speaker attribute receiving unit 503 receives the speech translation control information of FIG.
  • the fifth speaker attribute accumulation unit 504 accumulates the received speech translation control information in the fifth speaker attribute storage unit 501 at least temporarily.
  • the speech synthesis unit 507 performs speech synthesis processing on the translation result “Good morning.” Using the read speech synthesis model. Then, the voice synthesis unit 507 obtains voice information (speech synthesis result) obtained by voice synthesis.
  • the second voice receiving unit 27 of the second terminal apparatus 2 receives the voice synthesis result “Good morning”. Then, the second audio output unit 28 outputs the audio “Good morning”.
  • the voice generated by the user B of the second terminal device 2 in response to “Good morning” and “Good morning” is converted into “good morning” by the same processing as described above, and the voice is sent to the first terminal device 1. “Good morning” is output.
  • the speech synthesis processing is performed using the designated speech synthesis server device or speech synthesis model. It is preferred to do so.
  • a user may want to perform speech synthesis in a target language by using a speech synthesis model that collects his / her speech or a speech synthesis server device that stores a speech synthesis model that collects his / her speech. is there.
  • the first terminal device 1 stores a speech synthesis server device identifier for identifying a speech synthesis server device to be used or a speech synthesis model identifier for identifying a speech synthesis model.
  • the speech translation control information is transmitted from the first terminal device 1 to the speech synthesis server device 5 via the speech recognition server device 3 and the translation server device 4.
  • the first terminal device 1 performs the selection process of the voice recognition server device 3.
  • the speech recognition server device 3 performs a speech recognition model selection process and a translation server device 4 selection process.
  • the translation server device 4 performs a translation model selection process and a speech synthesis server apparatus 5 selection process.
  • the speech synthesis server device 5 performs a speech synthesis model selection process.
  • FIG. 25 is a conceptual diagram of the speech translation system 6 in a case where one control device performs such server device selection processing.
  • the first terminal device 251, the second terminal device 252, the speech recognition server device 253, the translation server device 254, and the speech synthesis server device 5 each receive a result before processing from the control device 256.
  • the result after processing is transmitted to the control device 256. That is, the first terminal device 251 transmits the audio information received from the user A to the control device 256. Then, the control device 256 determines a voice recognition server device 253 that performs voice recognition, and transmits the voice information to the voice recognition server device 253. Next, the voice recognition server device 253 receives voice information, selects a voice recognition model as necessary, and performs voice recognition processing. Then, the speech recognition server device 253 transmits the speech recognition result to the control device 256.
  • the control device 256 receives the speech recognition result from the speech recognition server device 253, and selects the translation server device 254 that performs translation. Then, the control device 256 transmits the speech recognition result to the selected translation server device 254.
  • the translation server device 254 receives the speech recognition result, selects a translation model as necessary, and performs a translation process. Then, the translation server device 254 transmits the translation result to the control device 256.
  • the control device 256 receives the translation result from the translation server device 254, and selects the speech synthesis server device 5 that performs speech synthesis. Then, the control device 256 transmits the translation result to the selected speech synthesis server device 5.
  • the first terminal device 251 includes a first speaker attribute storage unit 11, a first speaker attribute reception unit 12, a first speaker attribute storage unit 13, a first voice reception unit 14, and a first voice transmission unit.
  • the second terminal device 252 includes a second speaker attribute storage unit 21, a second speaker attribute reception unit 22, a second speaker attribute storage unit 23, a second voice reception unit 24, a second voice transmission unit 26, a second An audio receiving unit 27, a second audio output unit 28, and a second speaker attribute transmitting unit 29 are provided.
  • FIG. 27 is a block diagram of the control device 256.
  • the control device 256 includes a speaker attribute storage unit 2561, a transmission / reception unit 2562, a speaker attribute storage unit 2563, a second speech recognition server selection unit 25, a translation server selection unit 309, and a speech synthesis server selection unit 409.
  • the speaker attribute storage unit 2561 can store one or more speaker attributes.
  • the speaker attribute storage unit 2561 may store speech translation control information.
  • the transmission / reception unit 2562 transmits / receives various kinds of information to / from the first terminal device 251, the second terminal device 252, the speech recognition server device 253, the translation server device 254, and the speech synthesis server device 5.
  • the various types of information include speech information, speech recognition results, translation results, speech synthesis results, speech translation control information (including some speaker attributes), and the like.
  • the transmission / reception unit 2562 can be realized typically by wireless or wired communication means.
  • the speaker attribute storage unit 2563 stores one or more speaker attributes (speech translation control information) received by the transmission / reception unit 2562 in the speaker attribute storage unit 2561.
  • FIG. 28 is a block diagram of the voice recognition server device 253.
  • the voice recognition server device 253 includes a third speaker attribute storage unit 301, a voice recognition model storage unit 302, a third speaker attribute reception unit 303, a voice speaker attribute acquisition unit 304, a third speaker attribute storage unit 305, a voice An information receiving unit 306, a speech recognition model selection unit 307, a speech recognition unit 308, a speech recognition result transmission unit 310, and a third speaker attribute transmission unit 311 are provided.
  • FIG. 29 is a block diagram of the translation server device 254.
  • the translation server device 254 includes a fourth speaker attribute storage unit 401, a translation model storage unit 402, a fourth speaker attribute reception unit 403, a fourth speaker attribute storage unit 405, a speech recognition result reception unit 406, and a translation model selection unit. 407, a translation unit 408, a translation result transmission unit 410, and a fourth speaker attribute transmission unit 411.
  • the speech translation control information may be in an XML format as shown in FIG.
  • the description language of the speech translation control information shown in FIG. 30 is referred to as a speech translation markup language, STML (Speed Translation Markup Language).
  • STML Speed Translation Markup Language
  • the gender here, “male”), age (here, “30”), and whether or not the speaker is native (here, “no”) are described.
  • 30 also shows information indicating the format of the output text (here, “SurfaceForm”), and further, the speech translation control information.
  • the speech synthesis unit 507 stores the speech synthesis model so that the translation result received by the translation result reception unit 505 matches the attribute indicated by one or more speaker attributes received by the fifth speaker attribute reception unit 503. Speech synthesis may be performed using the speech synthesis model of the unit 502 and a speech synthesis result may be acquired. In addition, the speech synthesis unit 507 uses the speech synthesis model in the speech synthesis model storage unit 52 so that the translation result received by the translation result reception unit 505 matches the attribute indicated by the speaker attribute of the speech translation control information. Speech synthesis may be performed to obtain a speech synthesis result. In such a case, it may be said that the selection of a speech synthesis model.
  • the processing in the present embodiment may be realized by software. Then, this software may be distributed by software download or the like. Further, this software may be recorded on a recording medium such as a CD-ROM and distributed. This also applies to other embodiments in this specification.
  • achieves the 1st terminal device in this Embodiment is the following programs. That is, this program causes a computer to recognize one voice recognition server among two or more voice recognition server devices according to a first voice receiving unit that receives voice and one or more speaker attributes stored in a storage medium. A first voice recognition server selecting unit for selecting a device, and a voice information composed of the voice received by the first voice receiving unit to the voice recognition server device selected by the first voice recognition server selecting unit; It is a program for functioning as one audio transmission unit.
  • the software that realizes the speech recognition server device includes a computer, a speech information receiving unit that receives speech information, and one or more speaker attributes stored in the storage medium.
  • a speech recognition model selection unit that selects one speech recognition model from two or more speech recognition models stored in the speech recognition model selected by the speech recognition model selection unit, and the speech information received by the speech information reception unit
  • a speech recognition unit that performs speech recognition using a recognition model and acquires a speech recognition result, and a program for functioning as a speech recognition result transmission unit that transmits the speech recognition result.
  • the software that realizes the voice recognition server device stores a voice information receiving unit that receives voice information and voice information received by the voice information receiving unit in a storage medium.
  • a speech recognition unit that performs speech recognition using a speech recognition model and obtains a speech recognition result, and one translation server among two or more translation server devices according to one or more speaker attributes stored in a storage medium
  • a translation server selection unit that selects a device, and a program for causing the translation server device selected by the translation server selection unit to function as a speech recognition result transmission unit that transmits the speech recognition result.
  • the software that realizes the speech recognition server device includes: a speech speaker attribute acquisition unit that acquires a speaker attribute related to one or more speeches from speech information received by the speech information reception unit; A program for further functioning as one or more speaker attribute accumulating units that accumulate one or more speaker attributes acquired by the voice speaker attribute acquiring unit in a storage medium.
  • the software for realizing the translation server device in the present embodiment includes a computer, a fourth speaker attribute receiving unit that receives one or more speaker attributes, a voice recognition result receiving unit that receives a speech recognition result, A translation model selection unit that selects one translation model from two or more translation models stored in a storage medium according to one or more speaker attributes received by the fourth speaker attribute reception unit; The speech recognition result received by the recognition result receiving unit is translated into a target language using the translation model selected by the translation model selecting unit, and the translation result is sent to obtain the translation result.
  • a program for functioning as a section is provided as a section.
  • the software for realizing the translation server device in the present embodiment includes a computer, a fourth speaker attribute receiving unit that receives one or more speaker attributes, a voice recognition result receiving unit that receives a speech recognition result, A speech recognition result received by the speech recognition result receiving unit is translated into a target language using a translation model stored in a storage medium, and a translation result is obtained, and the one or more speaker attributes
  • a speech synthesis server selection unit that selects one of the two or more speech synthesis server devices, and a translation that transmits the translation result to the speech synthesis server device selected by the speech synthesis server selection unit It is a program for functioning as a result transmission part.
  • the software that realizes the translation server device includes a language speaker attribute acquisition unit that acquires a speaker attribute related to one or more languages from a speech recognition result received by the speech recognition result reception unit. And a program for causing the one or more speaker attributes acquired by the language speaker attribute acquiring unit to function as a fourth speaker attribute storing unit that stores in a storage medium.
  • the software for realizing the speech synthesis server device includes a computer, a fifth speaker attribute receiving unit that receives one or more speaker attributes, a translation result receiving unit that receives a translation result, A speech synthesis model selection unit that selects one speech synthesis model from two or more speech synthesis models stored in a storage medium according to one or more speaker attributes received by the fifth speaker attribute reception unit; The speech synthesis unit that synthesizes speech using the speech synthesis model selected by the speech synthesis model selection unit and obtains the speech synthesis result, and the speech synthesis result is transmitted to the second terminal. It is a program for functioning as a speech synthesis result transmission unit to be transmitted to the apparatus.
  • FIG. 31 shows the external appearance of a computer that executes the program described in this specification to realize the speech translation system or the like of the above-described embodiment.
  • the above-described embodiments can be realized by computer hardware and a computer program executed thereon.
  • FIG. 31 is an overview diagram of the computer system 340
  • FIG. 32 is a diagram showing an internal configuration of the computer system 340.
  • the computer system 340 includes a computer 341 including an FD drive 3411 and a CD-ROM drive 3412, a keyboard 342, a mouse 343, and a monitor 344.
  • the computer 341 stores an MPU 3413, a bus 3414 connected to the CD-ROM drive 3412 and the FD drive 3411, and a program such as a bootup program. And includes a RAM 3416 for temporarily storing application program instructions and providing a temporary storage space, and a hard disk 3417 for storing application programs, system programs, and data.
  • the computer 341 may further include a network card that provides connection to the LAN.
  • the program does not necessarily include an operating system (OS) or a third-party program that causes the computer 341 to execute functions such as the speech translation system of the above-described embodiment.
  • the program only needs to include an instruction portion that calls an appropriate function (module) in a controlled manner and obtains a desired result. How the computer system 340 operates is well known and will not be described in detail.
  • two or more communication means may be physically realized by one medium. it goes without saying.
  • each process may be realized by centralized processing by a single device (system), or by distributed processing by a plurality of devices. May be.
  • the speech translation system is a single device, and the speech recognition server device, the translation server device, and the speech synthesis server device are: It is included in one device.
  • the transmission and reception of the information is information delivery. That is, the above reception or transmission is widely understood.
  • the speech translation system when the speech translation system is centrally processed by a single device, the speech translation system has a configuration shown in FIG. 33, for example.
  • the speech translation system includes a speech reception unit 3301, a third speaker attribute storage unit 301, a speech recognition model storage unit 302, a speech speaker attribute acquisition unit 304, a speech recognition model selection unit 307, a speech recognition unit 308, a translation model.
  • a storage unit 402, a language speaker attribute acquisition unit 404, a translation model selection unit 407, a translation unit 408, a speech synthesis model storage unit 502, a speech synthesis model selection unit 506, a speech synthesis unit 507, and a speech synthesis result output unit 3302 are provided.
  • the voice reception unit 3301 receives voice from the user. This voice is a voice to be translated.
  • the voice reception unit 3301 can be constituted by, for example, a microphone and its driver software.
  • the third speaker attribute storage unit 301 normally stores speaker attributes received from the user.
  • the speaker attribute here is usually static speaker attribute information.
  • the voice speaker attribute acquisition unit 304 acquires one or more voice speaker attributes from the voice information configured from the voice received by the voice reception unit 3301.
  • the voice speaker attribute acquired here is mainly dynamic speaker attribute information, but may be static speaker attribute information.
  • the speech recognition model selection unit 307 includes two or more speaker attributes according to one or more speaker attributes of the speaker attributes of the third speaker attribute storage unit 301 or the speaker attributes acquired by the voice speaker attribute acquisition unit 304.
  • One speech recognition model is selected from the speech recognition models.
  • the speech recognition unit 308 recognizes speech information composed of the speech received by the speech reception unit 3301 using the speech recognition model in the speech recognition model storage unit 302, and acquires a speech recognition result.
  • the speech recognition unit 308 recognizes speech information using the speech recognition model selected by the speech recognition model selection unit 307 and acquires a speech recognition result.
  • the language speaker attribute acquisition unit 404 acquires one or more language speaker attributes from the speech recognition result acquired by the speech recognition unit 308.
  • the translation model selection unit 407 selects one translation model from two or more translation models according to one or more speaker attributes.
  • the speaker attribute here is a speaker attribute of the third speaker attribute storage unit 301 or a speaker attribute acquired by the voice speaker attribute acquisition unit 304 or a language speaker attribute acquired by the language speaker attribute acquisition unit 404. Of these, one or more speaker attributes.
  • the translation unit 408 translates the speech recognition result into a target language using the translation model in the translation model storage unit 402, and acquires the translation result.
  • the speech translation system includes a third speaker attribute storage unit 301, a speech speaker attribute acquisition unit 304, a speech recognition model selection unit 307, a language speaker attribute acquisition unit 404, a translation model selection unit 407, and a speech synthesis model selection unit. 506 is not an essential component.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

【課題】従来のネットワーク型の音声翻訳システムにおいて、話者の属性に応じて音声認識や翻訳や音声合成を行う装置やモデルを変更できなかったために、音声認識や翻訳や音声合成の各処理において、精度が低下したり、不適切な出力が生じたりしていた。 【解決手段】ネットワーク型の音声翻訳システムにおいて、話者属性に基づいて、音声認識を行うサーバ装置や音声認識モデルを適切に変更したり、翻訳を行うサーバ装置や翻訳モデルを適切に変更したり、音声合成を行うサーバ装置や音声合成モデルを適切に変更したりすることにより、音声認識、または翻訳、または音声合成の各処理において、精度が向上し、適切な出力が行われる。

Description

音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置
 本発明は、音声翻訳を行う音声翻訳システム等に関するものである。
 従来の音声翻訳システムにおいて、音声認識の精度を向上させたり、翻訳処理の精度を向上させたり等、各部分処理の精度を向上させるための技術が存在した(例えば、特許文献1、特許文献2参照)。
特開2008-243080号公報(第1頁、第1図等) 特開2009-140503号公報(第1頁、第1図等)
 しかしながら、従来の音声翻訳システムにおいては、音声翻訳において、話者の属性に応じて音声認識や翻訳や音声合成を行う装置やモデルを変更できなかったために、音声認識や翻訳や音声合成の各処理において、精度が低下したり、不適切な出力が生じたりしていた。
 本第一の発明の音声翻訳システムは、音声を入力する第一端末装置、2以上の音声認識サーバ装置、1以上の翻訳サーバ装置、1以上の音声合成サーバ装置とを有する音声翻訳システムであって、第一端末装置は、話者の属性値である話者属性を、1以上格納し得る第一話者属性格納部と、音声を受け付ける第一音声受付部と、1以上の話者属性に応じて、2以上の音声認識サーバ装置のうち一の音声認識サーバ装置を選択する第一音声認識サーバ選択部と、第一音声認識サーバ選択部が選択した音声認識サーバ装置に、第一音声受付部が受け付けた音声から構成される音声情報を送信する第一音声送信部とを具備し、音声認識サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、音声情報を受信する音声情報受信部と、音声情報受信部が受信した音声情報を、音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、音声認識結果を送信する音声認識結果送信部とを具備し、翻訳サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、音声認識結果を受信する音声認識結果受信部と、音声認識結果受信部が受信した音声認識結果を、翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、翻訳結果を送信する翻訳結果送信部とを具備し、音声合成サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、翻訳結果を受信する翻訳結果受信部と、翻訳結果受信部が受信した翻訳結果を、音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムである。
 かかる構成により、音声翻訳において、話者の属性に応じて音声認識を行う装置を変更でき、音声認識処理において、精度が向上する。
 また、本第二の発明の音声翻訳システムは、音声を入力する第一端末装置、1以上の音声認識サーバ装置、1以上の翻訳サーバ装置、1以上の音声合成サーバ装置とを有する音声翻訳システムであって、第一端末装置は、音声を受け付ける第一音声受付部と、第一音声受付部が受け付けた音声から構成される音声情報を、音声認識サーバ装置に送信する第一音声送信部とを具備し、音声認識サーバ装置は、話者の属性値である話者属性を、1以上格納し得る第三話者属性格納部と、2以上の言語のうちのすべての言語または2以上の一部の言語について、2以上の音声認識モデルを格納し得る音声認識モデル格納部と、音声情報を受信する音声情報受信部と、1以上の話者属性に応じて、2以上の音声認識モデルから、一の音声認識モデルを選択する音声認識モデル選択部と、音声情報受信部が受信した音声情報を、音声認識モデル選択部が選択した音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、音声認識結果を送信する音声認識結果送信部とを具備し、翻訳サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、音声認識結果を受信する音声認識結果受信部と、音声認識結果受信部が受信した音声認識結果を、翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、翻訳結果を送信する翻訳結果送信部とを具備し、音声合成サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、翻訳結果を受信する翻訳結果受信部と、翻訳結果受信部が受信した翻訳結果を、音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムである。
 かかる構成により、音声翻訳において、話者の属性に応じて音声認識を行うモデルを変更でき、音声認識処理において、精度が向上する。
 また、本第三の発明の音声翻訳システムは、1以上の音声認識サーバ装置、2以上の翻訳サーバ装置、1以上の音声合成サーバ装置とを有する音声翻訳システムであって、音声認識サーバ装置は、話者の属性値である話者属性を、1以上格納し得る第三話者属性格納部と、2以上の言語のうちのすべての言語または2以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、音声情報を受信する音声情報受信部と、音声情報受信部が受信した音声情報を、音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、1以上の話者属性に応じて、2以上の翻訳サーバ装置のうち一の翻訳サーバ装置を選択する翻訳サーバ選択部と、翻訳サーバ選択部が選択した翻訳サーバ装置に、音声認識結果を送信する音声認識結果送信部とを具備し、翻訳サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、音声認識結果を受信する音声認識結果受信部と、音声認識結果受信部が受信した音声認識結果を、翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、翻訳結果を送信する翻訳結果送信部とを具備し、音声合成サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、翻訳結果を受信する翻訳結果受信部と、翻訳結果受信部が受信した翻訳結果を、音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムである。
 かかる構成により、音声翻訳において、話者の属性に応じて翻訳を行う装置を変更でき、翻訳処理において、精度が向上する。
 また、本第四の発明の音声翻訳システムは、1以上の音声認識サーバ装置、1以上の翻訳サーバ装置、1以上の音声合成サーバ装置とを有する音声翻訳システムであって、音声認識サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、音声情報を受信する音声情報受信部と、音声情報受信部が受信した音声情報を、音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、翻訳サーバ装置に、音声認識結果を送信する音声認識結果送信部とを具備し、翻訳サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、2以上の翻訳モデルを格納し得る翻訳モデル格納部と、1以上の話者属性を格納し得る第四話者属性格納部と、音声認識結果を受信する音声認識結果受信部と、1以上の話者属性に応じて、2以上の翻訳モデルから、一の翻訳モデルを選択する翻訳モデル選択部と、音声認識結果受信部が受信した音声認識結果を、翻訳モデル選択部が選択した翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、翻訳結果を送信する翻訳結果送信部とを具備し、音声合成サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、翻訳結果を受信する翻訳結果受信部と、翻訳結果受信部が受信した翻訳結果を、音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムである。
 かかる構成により、音声翻訳において、話者の属性に応じて翻訳行うモデルを変更でき、翻訳処理において、精度が向上する。
 また、本第五の発明の音声翻訳システムは、1以上の音声認識サーバ装置、1以上の翻訳サーバ装置、2以上の音声合成サーバ装置とを有する音声翻訳システムであって、音声認識サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、音声情報を受信する音声情報受信部と、音声情報受信部が受信した音声情報を、音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、翻訳サーバ装置に、音声認識結果を送信する音声認識結果送信部とを具備し、翻訳サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、1以上の話者属性を格納し得る第四話者属性格納部と、音声認識結果を受信する音声認識結果受信部と、音声認識結果受信部が受信した音声認識結果を、翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、1以上の話者属性に応じて、2以上の音声合成サーバ装置のうち一の音声合成サーバ装置を選択する音声合成サーバ選択部と、音声合成サーバ選択部が選択した音声合成サーバ装置に、翻訳結果を送信する翻訳結果送信部とを具備し、音声合成サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、翻訳結果を受信する翻訳結果受信部と、翻訳結果受信部が受信した翻訳結果を、音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムである。
 かかる構成により、音声翻訳において、話者の属性に応じて音声合成を行う装置を変更でき、音声合成処理において、適切な出力が行われる。
 また、本第六の発明の音声翻訳システムは、1以上の音声認識サーバ装置、1以上の翻訳サーバ装置、1以上の音声合成サーバ装置とを有する音声翻訳システムであって、音声認識サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、音声情報を受信する音声情報受信部と、音声情報受信部が受信した音声情報を、音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、翻訳サーバ装置に、音声認識結果を送信する音声認識結果送信部とを具備し、翻訳サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、音声認識結果を受信する音声認識結果受信部と、音声認識結果受信部が受信した音声認識結果を、翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、音声合成サーバ装置に、翻訳結果を送信する翻訳結果送信部とを具備し、音声合成サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、2以上の音声合成モデルを格納し得る音声合成モデル格納部と、1以上の話者属性を格納し得る第五話者属性格納部と、翻訳結果を受信する翻訳結果受信部と、1以上の話者属性に応じて、2以上の音声合成モデルから、一の音声合成モデルを選択する音声合成モデル選択部と、翻訳結果受信部が受信した翻訳結果を、音声合成モデル選択部が選択した音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムである。
 かかる構成により、音声翻訳において、話者の属性に応じて音声合成を行うモデルを変更でき、音声合成処理において、適切な出力が行われる。
 また、本第七の発明の音声翻訳システムは、第一の発明に対して、第一端末装置は、1以上の話者属性を受け付ける第一話者属性受付部と、1以上の話者属性を、第一話者属性格納部に蓄積する第一話者属性蓄積部とを具備する音声翻訳システムである。
 かかる構成により、話者が用いる端末において、話者属性の設定ができるために、音声認識や翻訳や音声合成の各処理において話者属性が利用でき、音声認識や翻訳や音声合成の各処理において、精度が向上し、適切な出力が行われる。
 また、本第八の発明の音声翻訳システムは、第二から第六いずれかの発明に対して、音声認識サーバ装置は、音声情報受信部が受信した音声情報から、1以上の音声に関する話者属性を取得する音声話者属性取得部と、音声話者属性取得部が取得した1以上の話者属性を、第三話者属性格納部に蓄積する第三話者属性蓄積部とをさらに具備する音声翻訳システムである。
 かかる構成により、自動的に音声に関する話者属性が取得できるために、音声認識や翻訳や音声合成の各処理において話者属性が利用でき、音声認識や翻訳や音声合成の各処理において、精度が向上し、適切な出力が行われる。
 また、本第九の発明の音声翻訳システムは、第二から第六いずれかの発明に対して、翻訳サーバ装置は、音声認識結果受信部が受信した音声認識結果から、1以上の言語に関する話者属性を取得する言語話者属性取得部と、言語話者属性取得部が取得した1以上の話者属性を、第四話者属性格納部に蓄積する第四話者属性蓄積部とをさらに具備する音声翻訳システムである。
 かかる構成により、自動的に言語に関する話者属性が取得できるために、音声認識や翻訳や音声合成の各処理において話者属性が利用でき、音声認識や翻訳や音声合成の各処理において、精度が向上し、適切な出力が行われる。
 また、本第十の発明の音声翻訳システムは、第一から第九いずれかの発明に対して、話者が使用する言語である原言語を特定する原言語識別子、および翻訳先の言語である目的言語を特定する目的言語識別子、および1以上の話者属性を含む音声翻訳制御情報が、音声認識サーバ装置から1以上の翻訳サーバ装置を経由して、音声合成サーバ装置に送信され、音声認識サーバ選択部、または音声認識部、または音声認識モデル選択部、または翻訳サーバ選択部、または翻訳部、または翻訳モデル選択部、音声合成サーバ選択部、または音声合成部、または音声合成モデル選択部は、音声翻訳制御情報を用いて、各々の処理を行う音声翻訳システムである。
 かかる構成により、話者属性を含む音声翻訳制御情報が流通し、音声認識、翻訳、および音声合成において、同一の話者を想定した処理が行われ、音声認識や翻訳や音声合成の各処理において、精度が向上し、適切な出力が行われる。
 本発明による音声翻訳システムによれば、音声翻訳において、音声認識、または翻訳、または音声合成の各処理において、精度が向上し、適切な出力が行われる。
 以下、音声翻訳システム等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
 本実施の形態において、ネットワーク型音声翻訳システムにおいて、話者属性に基づいて、音声認識を行うサーバ装置や音声認識モデルを適切に変更したり、翻訳を行うサーバ装置や翻訳モデルを適切に変更したり、音声合成を行うサーバ装置や音声合成モデルを適切に変更したりすることにより、精度の高い音声翻訳を行えるネットワーク型音声翻訳システムについて説明する。
 図1は、本実施の形態における音声翻訳システムの概念図である。音声翻訳システムは、1以上の第一端末装置1、1以上の第二端末装置2、1以上の音声認識サーバ装置3、1以上の翻訳サーバ装置4、1以上の音声合成サーバ装置5を具備する。
 音声翻訳システムにおいて、例えば、第一端末装置1のユーザ(ユーザA)である日本人が日本語で「おはようございます」と発話した場合、音声認識サーバ装置3は日本語「おはようございます」を音声認識する。そして、翻訳サーバ装置4は音声認識結果を、例えば、英語「Good morning」に翻訳する。次に、音声合成サーバ装置5は英文「Good morning」から「Good morning」の音声情報を作りだす。そして、英語のネイティブであるユーザBの第二端末装置2から、音声「Good morning」が出力される。
 第一端末装置1および第二端末装置2は、例えば、通話する端末(電話、携帯電話を含む)である。ここでは、主として、第一端末装置1を発話する側の端末、第二端末装置2を発話される側の端末として説明するが、両者は入れ替われることは言うまでもない。また、通常、第一端末装置1と第二端末装置2とが、発話する側の端末、発話される側の端末として、順次、連続的に入れ替わりながら、第一端末装置1のユーザAと第二端末装置2のユーザBとが会話を進めていく。また、第一端末装置1および第二端末装置2は、同様の機能(下記の構成要素)を有するとして説明するが、それぞれ、一部に有しない機能があっても良いことは言うまでもない。また、第一端末装置1のユーザ(話者)をユーザA、第二端末装置2のユーザ(話者)をユーザBとして、以下、説明する。
 図2は、本実施の形態における音声翻訳システムのブロック図である。また、図3は、音声認識サーバ装置3のブロック図である。図4は、翻訳サーバ装置4のブロック図である。図5は、音声合成サーバ装置5のブロック図である。
 音声翻訳システムは、1以上の第一端末装置1、1以上の第二端末装置2、1以上の音声認識サーバ装置3、1以上の翻訳サーバ装置4、1以上の音声合成サーバ装置5を備える。
 第一端末装置1は、第一話者属性格納部11、第一話者属性受付部12、第一話者属性蓄積部13、第一音声受付部14、第一音声認識サーバ選択部15、第一音声送信部16、第一音声受信部17、第一音声出力部18、第一話者属性送信部19を備える。第一音声認識サーバ選択部15は、第一サーバ選択情報格納手段151、第一サーバ選択手段152を備える。
 第二端末装置2は、第二話者属性格納部21、第二話者属性受付部22、第二話者属性蓄積部23、第二音声受付部24、第二音声認識サーバ選択部25、第二音声送信部26、第二音声受信部27、第二音声出力部28、第二話者属性送信部29を備える。第二音声認識サーバ選択部25は、第二サーバ選択情報格納手段251、第二サーバ選択手段252を備える。
 音声認識サーバ装置3は、第三話者属性格納部301、音声認識モデル格納部302、第三話者属性受信部303、音声話者属性取得部304、第三話者属性蓄積部305、音声情報受信部306、音声認識モデル選択部307、音声認識部308、翻訳サーバ選択部309、音声認識結果送信部310、第三話者属性送信部311を備える。音声認識モデル選択部307は、第三モデル選択情報格納手段3071、第三モデル選択手段3072を備える。また、翻訳サーバ選択部309は、第三サーバ選択情報格納手段3091、第三サーバ選択手段3092を備える。
 翻訳サーバ装置4は、第四話者属性格納部401、翻訳モデル格納部402、第四話者属性受信部403、言語話者属性取得部404、第四話者属性蓄積部405、音声認識結果受信部406、翻訳モデル選択部407、翻訳部408、音声合成サーバ選択部409、翻訳結果送信部410、第四話者属性送信部411を備える。翻訳モデル選択部407は、第四モデル選択情報格納手段4071、第四モデル選択手段4072を備える。音声合成サーバ選択部409は、第四サーバ選択情報格納手段4091、第四サーバ選択手段4092を備える。
 音声合成サーバ装置5は、第五話者属性格納部501、音声合成モデル格納部502、第五話者属性受信部503、第五話者属性蓄積部504、翻訳結果受信部505、音声合成モデル選択部506、音声合成部507、音声合成結果送信部508を備える。音声合成モデル選択部506は、第五モデル選択情報格納手段5061、第五モデル選択手段5062を備える。
 以下、各構成要素の機能、実現手段等について説明する。ただし、第一端末装置1の構成要素の機能と、対応する第二端末装置2の構成要素の機能とは同じ(例えば、第一話者属性受付部12と第二話者属性受付部22の機能は同じ)であるので、第一端末装置1の構成要素についてのみ説明する。
 第一端末装置1を構成する第一話者属性格納部11は、1以上の話者属性を格納し得る。話者属性とは、話者の属性値である。話者属性とは、例えば、話者の性別、年齢、話速、話者クラス(話者が使用する言語に関して、使う単語の難しさ,文法の正しさなどを考慮した熟練度)などである。話者クラスは、使う単語の難しさの度合いを示す情報、使う用語の丁寧さの度合いを示す情報、文法の正しさの度合いを示す情報、およびこれらの複合的な度合いを示す情報、ネイティブか否かを示す情報などである。また、話者属性には、話者の感情(嬉しい、悲しいなど)なども含まれても良い。なお、話者属性の内容は問わないことは言うまでもない。また、話者属性には、話者が特定されれば、一時的には変化の無い属性である静的話者属性情報と、時々により変化し得る属性である動的話者属性情報とがある。静的話者属性情報には、例えば、上述した話者の性別、年齢、話者クラスなどがある。また、動的話者属性情報には、話速や感情などがある。
 第一話者属性格納部11に格納されている話者属性は、通常、第一端末装置1のユーザが入力した情報である。また、第一話者属性格納部11に格納されている話者属性は、通常、静的話者属性情報である。第一話者属性格納部11は、1以上の話者属性を含む音声翻訳制御情報を格納していても良い。かかる場合、第一話者属性格納部11は、第一音声翻訳制御情報格納部11と呼んでも良い。
 第一話者属性受付部12は、第一端末装置1のユーザから、1以上の話者属性を受け付ける。ここで、受け付けとは、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。話者属性の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。
 第一話者属性蓄積部13は、第一話者属性受付部12が受け付けた1以上の話者属性を、第一話者属性格納部11に蓄積する。
 第一音声受付部14は、第一端末装置1のユーザ(ユーザAという)から音声を受け付ける。
 第一音声認識サーバ選択部15は、1以上の話者属性に応じて、2以上の音声認識サーバ装置3のうち一の音声認識サーバ装置3を選択する。例えば、第一音声認識サーバ選択部15は、音声認識サーバ選択情報管理表を用いて選択する。第一音声認識サーバ選択部15は、図示しないサーバ装置(後述する制御装置256)にあっても良い。かかる場合、第一音声送信部16も図示しないサーバ装置に存在しても良い。ここで、音声認識サーバ装置3の選択とは、例えば、一の音声認識サーバ装置3と通信するための情報(例えば、一の音声認識サーバ装置3のIPアドレス)などを取得する処理である。また、第一音声認識サーバ選択部15は、1以上の話者属性を含む音声翻訳制御情報を用いて、2以上の音声認識サーバ装置3のうち一の音声認識サーバ装置3を選択することは好適である。音声翻訳制御情報とは、音声認識サーバ装置3、翻訳サーバ装置4、および音声合成サーバ装置5が、それぞれ音声認識、翻訳、および音声合成を行ったり、処理結果を送信したりするための情報を有する。音声翻訳制御情報は、例えば、処理結果を送信する先を特定する情報(IPアドレスや電話番号など)、原言語や目的言語を特定する情報(日本語、英語、ドイツ語など)などを有する。第一端末装置1(第二端末装置2も同様である)の図示しない受付部(第一話者属性受付部12でも良い)は、例えば、原言語と目的言語を、ユーザから受け付ける。また、第一音声認識サーバ選択部15は、例えば、第二端末装置2の電話番号やIPアドレスなどから、自動的に原言語と目的言語を決定する。かかる場合、第一音声認識サーバ選択部15は、電話番号やIPアドレスなどの情報と、言語を特定する情報を対応付けて保持していたり、電話番号やIPアドレスなどの情報をキーとして他の装置から言語を特定する情報を取得したりする。また、第一音声認識サーバ選択部15は、原言語や目的言語から音声認識すべき音声認識サーバ装置3を特定する情報(IPアドレスなど)や、翻訳サーバ装置4を特定する情報(IPアドレスなど)や、音声合成サーバ装置5を特定する情報(IPアドレスなど)を取得する。つまり、第一音声認識サーバ選択部15は、原言語や目的言語と、各サーバ装置を特定する情報とを対応付けて有していたり、原言語や目的言語を用いて、他の装置から、各サーバ装置を特定する情報を取得したりする。また、音声翻訳制御情報は、通常、1以上の話者属性を有し、かつ、入力音声のフォーマットを示す情報、出力音声のフォーマットを示す情報、入出力音声の声質を指定する情報、入力テキストのフォーマットを示す情報、出力テキストのフォーマットを示す情報なども有しても良い。
 第一サーバ選択情報格納手段151は、音声認識サーバ装置3を識別する音声認識サーバ識別子と、1以上の話者属性とを対応付けて有する音声認識サーバ選択情報を、2以上有する音声認識サーバ選択情報管理表を格納している。音声認識サーバ識別子は、例えば、音声認識サーバ装置3と通信するための情報(例えば、一の音声認識サーバ装置3のIPアドレス)である。
 第一サーバ選択手段152は、第一話者属性格納部11に格納されている1以上の話者属性に対応する音声認識サーバ識別子を、第一サーバ選択情報格納手段151から検索する。
 第一音声送信部16は、第一音声受付部14が受け付けた音声から構成した音声情報を送信する。音声の送信先は、1以上の音声認識サーバ装置3のうちのいずれかである。第一音声送信部16は、第一音声認識サーバ選択部15が選択した音声認識サーバ装置3に、第一音声受付部14が受け付けた音声から構成される音声情報を送信することは好適である。なお、第一音声送信部16は、2以上の音声認識サーバ装置3に音声情報を送信しても良い。また、ここで、音声情報は、音声から構成されるデジタル情報であることは好適である。さらに、第一音声送信部16は、直接的に音声を1以上の音声認識サーバ装置3に送信しても良いし、他の装置経由で(間接的に)、音声を1以上の音声認識サーバ装置3に送信しても良い。
 第一音声受信部17は、第二端末装置2のユーザBから発声された音声から構成された音声情報を音声翻訳した結果である音声情報を受信する。この音声情報は、通常、第一端末装置1のユーザAが理解できる言語に翻訳された音声の情報である。この音声情報は、通常、第二端末装置2から音声認識サーバ装置3、翻訳サーバ装置4、および音声合成サーバ装置5を経由して送信されてきた情報である。
 第一音声出力部18は、第一音声受信部17が受信した音声情報を出力する。ここで、出力とは、通常、スピーカへの音声出力である。
 第一話者属性送信部19は、第一話者属性格納部11に格納されている1以上の話者属性を、第一音声認識サーバ選択部15が選択した音声認識サーバ装置3に送信する。第一話者属性送信部19は、1以上の話者属性を含む音声翻訳制御情報を、第一音声認識サーバ選択部15が選択した音声認識サーバ装置3に送信しても良い。かかる場合、第一話者属性送信部19は、第一音声翻訳制御情報送信部19と言い換えても良い。
 音声認識サーバ装置3を構成する第三話者属性格納部301は、話者の属性値である話者属性を、1以上格納し得る。ここでの話者属性は、音声認識サーバ装置3で取得した話者属性でも良いし、第一端末装置1や第二端末装置2からから送信された話者属性でも良いし、音声認識サーバ装置3で取得した話者属性および第一端末装置1や第二端末装置2からから送信された話者属性の両方を含むものでも良い。また、第三話者属性格納部301は、1以上の話者属性を含む音声翻訳制御情報を格納していても良い。第三話者属性格納部301は、第三音声翻訳制御情報格納部301と呼んでも良い。
 音声認識モデル格納部302は、2以上の言語のうちのすべての言語または2以上の一部の言語について、音声認識モデルを格納し得る。音声認識モデル格納部302は、2以上の音声認識モデルを格納しても良い。音声認識モデルとは、例えば、隠れマルコフモデル(HMM)の音響モデルである。ただし、音声認識モデルは、必ずしも、HMMの音響モデルである必要はない。音声認識モデルは、単一ガウス分布モデルや、確率モデル(GMM:ガウシャンミクスチャモデル)や、統計モデルなど、他のモデルに基づく音響モデルでも良い。
 第三話者属性受信部303は、第一端末装置1から、直接的または間接的に、1以上の話者属性を受信する。第三話者属性受信部303は、第一端末装置1から、音声翻訳制御情報を受信しても良い。かかる場合、第三話者属性受信部303は、第三音声翻訳制御情報受信部303と呼んでも良い。
 音声話者属性取得部304は、音声情報受信部306が受信した音声情報から、1以上の音声話者属性を取得する。音声話者属性とは、音声に関する話者属性であり、音声から取得できる話者属性である。音声話者属性取得部304は、動的話者属性情報を取得することは好適である。また、音声話者属性取得部304は、静的話者属性情報を取得しても良い。
 また、音声話者属性取得部304は、例えば、音声情報をスペクトル分析し、1以上の特徴量を取得する。そして、音声話者属性取得部304は、1以上の特徴量から、話者の年齢、性別、話速、感情などの話者属性を決定する。音声話者属性取得部304は、例えば、男性または/および女性であることを決定するための特徴量の情報(特徴量をパラメータとする条件)を保持しており、取得した1以上の特徴量から、話者が男性か女性かを決定して、性別の情報(例えば、男性「0」、女性「1」)を取得する。また、音声話者属性取得部304は、例えば、特定の年齢、または特定の年齢層(例えば、10代、20代など)を決定するための特徴量の情報を保持しており、取得した1以上の特徴量から、話者の年齢または年齢層を決定して、年齢または年齢層の情報(例えば、9歳まで「0」、10代「1」など)を取得する。また、音声話者属性取得部304は、音声情報を解析し、話速(例えば、4.5音/秒)を取得する。話速を取得する技術は公知技術であるので、詳細な説明を省略する。また、音声話者属性取得部304は、例えば、取得した1以上の特徴量から感情(動的話者属性情報の一種)を取得しても良い。さらに具体的には、音声話者属性取得部304は、例えば、感情「普通」の場合のピッチとパワーの値を保持している。そして、音声話者属性取得部304は、抽出した有声部分のピッチとパワーの値から平均値・最大値・最小値を求める。そして、音声話者属性取得部304は、感情「普通」の場合のピッチとパワーの値と、抽出した有声部分のピッチとパワーの平均値・最大値・最小値とを用いて、平均ピッチが低く、平均パワーが高い場合は、感情「怒り」を取得する。また、音声話者属性取得部304は、感情「普通」の場合のピッチとパワーの値と比較して、最小ピッチが高く、最大パワーが低い場合、感情「悲しみ」を取得する。また、感情「普通」の場合のピッチとパワーの値と比較して、特徴量が大きい場合、音声話者属性取得部304は、感情「喜び」を取得する。
 音声話者属性取得部304は、取得した1以上の特徴量のうち、パワーおよび韻律を用いて感情を取得することは好適である。感情を取得する手法については、URL「http://www.kansei.soft.iwate-pu.ac.jp/abstract/2007/0312004126.pdf」の論文を参照のこと。
 なお、音声話者属性取得部304が、話速等の属性を取得する音声情報の単位は問わない。つまり、音声話者属性取得部304は、文の単位で話速等の属性を取得しても良いし、単語の単位で話速等の属性を取得しても良いし、認識結果の単位で話速等の属性を取得しても良いし、複数の文の単位で話速等の属性を取得しても良い。
 また、音声話者属性取得部304は、音声認識部308が音声認識した結果である音声認識結果から、話者クラス(この話者クラスは、言語話者属性の一種である)を決定しても良い。例えば、音声話者属性取得部304は、難解度を有する用語辞書(用語と難解度とを対応づけて有する2以上の用語情報の集合)を保持しており、音声認識結果に含まれる1以上の用語の難解度(n1,n2,・・・)を取得し、当該1以上の難解度から話者クラス(難解度が高「0」、難解度が中「1」、難解度が低「2」など)を決定する。また、音声話者属性取得部304は、1以上の用語の難解度(n1,n2,・・・)、および文法ミスの有無を用いて話者クラスを決定する。例えば、音声話者属性取得部304は、文法ミスが存在する場合には、1以上の難解度から取得される最終難解度(高「0」、難解度が中「1」、難解度が低「2」)に「1」を加えた値を話者クラスとして取得する。なお、文の中に文法ミスが存在するか否かの検査処理は、公知の自然言語処理であるので、詳細な説明は省略する。なお、音声話者属性取得部304は、上述した方法以外の方法により、話者属性を取得しても良いし、いかなる話者属性を取得しても良い。また、音声話者属性取得部304に関する技術は、例えば、「不特定話者の音声自動認識のための性別・年齢差による話者分類の考察」(中川聖一他,電子通信学会論文誌)に開示されている(http://www.slp.ics.tut.ac.jp/shiryou/number-1/J1980-06.pdf参照)。また、音声話者属性取得部304は、機械学習を用いて、性別や年齢などの話者属性を決定しても良い。つまり、音声話者属性取得部304は、性別(男性または女性)と1以上の特徴量とを有する情報の組を複数組格納しており、音声情報受信部306が受信した音声情報から得られた1以上の特徴量に対して、SVMや決定木などの機械学習のアルゴリズムにより、音声情報受信部306が受信した音声情報に対応する話者の性別を決定しても良い。
 第三話者属性蓄積部305は、音声話者属性取得部304が取得した1以上の話者属性を、第三話者属性格納部301に蓄積する。なお、ここでの蓄積は、一時的な蓄積でも良い。
 音声情報受信部306は、第一端末装置1から、直接的にまたは間接的に音声情報を受信する。
 音声認識モデル選択部307は、1以上の話者属性に応じて、2以上の音声認識モデルから、一の音声認識モデルを選択する。
 第三モデル選択情報格納手段3071は、音声認識モデル選択情報管理表を格納している。音声認識モデル選択情報管理表は、1以上の話者属性に関する条件(1以上の話者属性でも良い)と、音声認識モデルを識別する音声認識モデル識別子とを有するレコードを1以上含む表である。
 第三モデル選択手段3072は、第三話者属性格納部301に格納されている1以上の話者属性から音声認識モデル選択情報管理表を検索し、1以上の話者属性に対応する音声認識モデル識別子を取得する。なお、音声認識部308は、第三モデル選択手段3072が取得した音声認識モデル識別子で識別される音声認識モデルを、音声認識モデル格納部302から読み出し、当該音声認識モデルを用いて、音声認識処理を行う。
 音声認識部308は、音声情報受信部306が受信した音声情報を、音声認識モデル格納部302の音声認識モデルを用いて音声認識し、音声認識結果を取得する。また、音声認識部308は、音声情報受信部306が受信した音声情報を、音声認識モデル選択部307が選択した音声認識モデルを用いて音声認識し、音声認識結果を取得することは好適である。音声認識部308は、いかなる音声認識方法でも良い。音声認識部308は公知技術である。また、音声認識の対象の言語(原言語)の情報は、例えば、音声翻訳制御情報の中に含まれる。例えば、音声翻訳制御情報は、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、音声合成サーバ装置、および第二端末装置2の間を転送されていく。音声認識結果は、通常、原言語(第一端末装置1のユーザAが発話した音声の言語)の文字列である。
 翻訳サーバ選択部309は、1以上の話者属性に応じて、2以上の翻訳サーバ装置4のうち一の翻訳サーバ装置4を選択する。なお、翻訳サーバ選択部309は、図示しないサーバ装置にあっても良い。かかる場合、通常、音声認識結果送信部310も図示しないサーバ装置に存在する。また、かかる場合、選択すべき翻訳サーバ装置4の情報が図示しないサーバ装置から送信されても良い。
 第三サーバ選択情報格納手段3091は、翻訳サーバ選択情報管理表を格納している。翻訳サーバ選択情報管理表は、1以上の話者属性に関する条件(1以上の話者属性でも良い)と、翻訳サーバ装置4を識別する翻訳サーバ装置識別子とを有するレコードを1以上含む表である。
 第三サーバ選択手段3092は、第三話者属性格納部301に格納されている1以上の話者属性から翻訳サーバ選択情報管理表を検索し、1以上の話者属性に対応する翻訳サーバ装置識別子を取得する。なお、音声認識結果送信部310は、第三サーバ選択手段3092が取得した翻訳サーバ装置識別子に対応する翻訳サーバ装置4に、音声認識結果を送信する。
 音声認識結果送信部310は、翻訳サーバ装置4に、直接的にまたは間接的に音声認識結果を送信する。音声認識結果送信部310は、翻訳サーバ選択部309が選択した一の翻訳サーバ装置4に、直接的にまたは間接的に音声認識結果を送信することは好適である。
 第三話者属性送信部311は、第三話者属性格納部301に格納されている1以上の話者属性を、直接的にまたは間接的に翻訳サーバ装置4に送信する。第三話者属性送信部311は、音声翻訳制御情報を翻訳サーバ装置4に送信しても良い。かかる場合、第三話者属性送信部311は、第三音声翻訳制御情報送信部311と呼んでも良い。
 翻訳サーバ装置4を構成する第四話者属性格納部401は、1以上の話者属性を格納し得る。第四話者属性格納部401は、音声翻訳制御情報を格納していても良い。かかる場合、第四話者属性格納部401は、第四音声翻訳制御情報格納部401と呼んでも良い。
 翻訳モデル格納部402は、2以上の言語のうちのすべての言語または2以上の一部の言語について、翻訳用情報を格納し得る。翻訳モデル格納部402は、2以上の翻訳用情報を格納していても良い。翻訳用情報は、例えば、翻訳モデルと言語モデルである。また、翻訳モデル格納部402は、言語モデルを有さず、1以上の翻訳モデルのみを格納していても良い。かかる場合、翻訳モデル格納部402は、1以上の翻訳モデルを格納し得る。なお、後述する翻訳モデルの選択は、翻訳用情報の選択と同意義である、とする。
 第四話者属性受信部403は、1以上の話者属性を、音声認識サーバ装置3から直接にまたは間接的に受信する。第四話者属性受信部403は、音声翻訳制御情報を音声認識サーバ装置3から受信しても良い。かかる場合、第四話者属性受信部403は、第四音声翻訳制御情報受信部403と呼んでも良い。
 言語話者属性取得部404は、音声認識結果受信部406が受信した音声認識結果から、1以上の言語話者属性を取得する。言語話者属性とは、言語処理によって取得され得る話者属性である。言語話者属性取得部404は、例えば、音声認識結果を自然言語処理に、話者クラスを特定する。話者クラスとは、例えば、使う単語の難しさ,文法の正しさなどを考慮した言語の熟練度により、話者をカテゴライズした情報である。言語話者属性取得部404は、例えば、音声認識結果の中で、難解な用語が使われている頻度や割合から、話者クラスを決定する。また、言語話者属性取得部404は、例えば、音声認識結果の中で、丁寧語が使われているか否か、丁寧語が使われている頻度や割合から、話者クラスを決定する。また、言語話者属性取得部404は、例えば、音声認識結果の中で、女子高生が多用する新語が使われているか否か、新語が使われている頻度や割合から、話者クラスを決定する。言語話者属性取得部404は、例えば、難解な用語や丁寧語を構成する形態素や女子高生が多用する新語などを格納しており、音声認識結果を形態素解析し、難解な用語や丁寧語を構成する形態素や女子高生が多用する新語などが存在する頻度や割合を取得し、予め決められた条件(ランクA:難解な用語が10%以上、B:難解な用語が1%以上10%未満、C:難解な用語が1%未満など)により、話者クラス(ランク)を決定する。言語話者属性取得部404は、その他のアルゴリズムにより、音声認識結果を自然言語処理し、1以上の言語話者属性を取得しても良い。なお、言語話者属性取得部404は、音声話者属性取得部304における言語話者属性の取得方法と同様の方法により、1以上の言語話者属性を取得しても良い。
 第四話者属性蓄積部405は、第四話者属性受信部403が受信した以上の話者属性を、第四話者属性格納部401に、少なくとも一時的に蓄積する。第四話者属性蓄積部405は、音声翻訳制御情報を第四話者属性格納部401に蓄積しても良い。かかる場合、第四話者属性蓄積部405は、第四音声翻訳制御情報蓄積部405と呼んでも良い。
 音声認識結果受信部406は、音声認識結果を、音声認識サーバ装置3から直接、または間接的に受信する。
 翻訳モデル選択部407は、第四話者属性受信部403が受信した1以上の話者属性に応じて、2以上の翻訳モデルから、一の翻訳モデルを選択する。
 第四モデル選択情報格納手段4071は、翻訳モデル選択情報管理表を格納している。翻訳モデル選択情報管理表は、1以上の話者属性に関する条件(1以上の話者属性でも良い)と、翻訳モデルを識別する翻訳モデル識別子とを有するレコードを1以上含む表である。
 第四モデル選択手段4072は、第四話者属性格納部401に格納されている1以上の話者属性から翻訳モデル選択情報管理表を検索し、1以上の話者属性に対応する翻訳モデル装置識別子を取得する。なお、翻訳部408は、第四モデル選択手段4072が取得した翻訳モデル識別子に対応する翻訳モデルを翻訳モデル格納部402から取得し、当該翻訳モデルを用いて翻訳処理を行う。
 翻訳部408は、音声認識結果受信部406が受信した音声認識結果を、翻訳モデル格納部402の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する。翻訳部408は、音声認識結果受信部406が受信した音声認識結果を、翻訳モデル選択部407が選択した翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得することは好適である。なお、原言語と目的言語を特定する情報は、例えば、音声翻訳制御情報の中に含まれる。また、翻訳部408における翻訳方法と問わない。翻訳部408は公知技術である。
 音声合成サーバ選択部409は、1以上の話者属性に応じて、2以上の音声合成サーバ装置5のうち一の音声合成サーバ装置5を選択する。
 第四サーバ選択情報格納手段4091は、音声合成サーバ選択情報管理表を格納している。音声合成サーバ選択情報管理表は、1以上の話者属性に関する条件(1以上の話者属性でも良い)と、音声合成サーバ装置5を識別する音声合成装置識別子とを有するレコードを1以上含む表である。
 第四サーバ選択手段4092は、第四話者属性格納部401に格納されている1以上の話者属性から音声合成サーバ選択情報管理表を検索し、1以上の話者属性に対応する音声合成サーバ装置識別子を取得する。なお、翻訳結果送信部410は、第四サーバ選択手段4092が取得した音声合成サーバ装置識別子に対応する音声合成サーバ装置5に、翻訳結果を送信する。
 翻訳結果送信部410は、翻訳部408が翻訳処理を行った結果である翻訳結果を、音声合成サーバ装置5に、直接または間接的に送信する。また、翻訳結果送信部410は、音声合成サーバ選択部409はが選択した音声合成サーバ装置5に、翻訳結果を、直接または間接的に送信することは好適である。
 第四話者属性送信部411は、音声合成サーバ装置5に、直接または間接的に、第四話者属性受信部403が受信した1以上の話者属性を送信する。第四話者属性送信部411は、音声翻訳制御情報を音声合成サーバ装置5に送信しても良い。かかる場合、第四話者属性送信部411は、第四音声翻訳制御情報送信部411と呼んでも良い。
 音声合成サーバ装置5を構成する第五話者属性格納部501は、1以上の話者属性を格納し得る。第五話者属性格納部501は、音声翻訳制御情報を格納していても良い。かかる場合、第五話者属性格納部501は、第五音声翻訳制御情報格納部501と呼んでも良い。
 音声合成モデル格納部502は、2以上の言語のうちのすべての言語または2以上の一部の言語について、音声合成モデルを格納し得る。音声合成モデル格納部502は、2以上の音声合成モデルを格納していても良い。
 第五話者属性受信部503は、1以上の話者属性を、音声認識サーバ装置3から直接にまたは間接的に受信する。第五話者属性受信部503は、音声翻訳制御情報を音声認識サーバ装置3から受信しても良い。かかる場合、第五話者属性受信部503は、第五音声翻訳制御情報受信部503と呼んでも良い。
 第五話者属性蓄積部504は、第五話者属性受信部503が受信した1以上の話者属性を、第五話者属性格納部501に、少なくとも一時的に蓄積する。第五話者属性蓄積部504は、音声翻訳制御情報を第五話者属性格納部501に蓄積しても良い。かかる場合、第五話者属性蓄積部504は、第五音声翻訳制御情報蓄積部504と呼んでも良い。
 翻訳結果受信部505は、翻訳サーバ装置4から直接または間接的に、翻訳結果を受信する。
 音声合成モデル選択部506は、第五話者属性受信部503が受信した1以上の話者属性に応じて、2以上の音声合成モデルから、一の音声合成モデルを選択する。
 第五モデル選択情報格納手段5061は、音声合成モデル選択情報管理表を格納している。音声合成モデル選択情報管理表は、1以上の話者属性に関する条件(1以上の話者属性でも良い)と、音声合成モデルを識別する音声合成モデル識別子とを有するレコードを1以上含む表である。
 第五モデル選択手段5062は、第五話者属性格納部501に格納されている1以上の話者属性から音声合成モデル選択情報管理表を検索し、1以上の話者属性に対応する音声合成モデル装置識別子を取得する。なお、音声合成部507は、第五モデル選択手段5062が取得した音声合成モデル識別子に対応する音声合成モデルを音声合成モデル格納部502から取得し、当該音声合成モデルを用いて音声合成処理を行う。
 音声合成部507は、翻訳結果受信部505が受信した翻訳結果を、音声合成モデル格納部502の音声合成モデルを用いて音声合成し、音声合成結果を取得する。音声合成部507は、翻訳結果受信部505が受信した翻訳結果を、音声合成モデル選択部506が選択した音声合成モデルを用いて音声合成し、音声合成結果を取得することは好適である。ここで、音声合成をする目的言語を特定する情報は、例えば、音声翻訳制御情報の中に含まれる。
 音声合成結果送信部508は、音声合成部507が取得した音声合成結果を、直接または間接的に第二端末装置2に送信する。
 第一話者属性格納部11、第一サーバ選択情報格納手段151、第二話者属性格納部21、第二サーバ選択情報格納手段251、第三話者属性格納部301、音声認識モデル格納部302、第三モデル選択情報格納手段3071、第三サーバ選択情報格納手段3091、第四話者属性格納部401、翻訳モデル格納部402、第四モデル選択情報格納手段4071、第四サーバ選択情報格納手段4091、第五話者属性格納部501、音声合成モデル格納部502、および第五モデル選択情報格納手段5061は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。第一話者属性格納部11等に、上記の情報が記憶される過程は問わない。例えば、記録媒体を介して上記の情報が第一話者属性格納部11等で記憶されるようになってもよく、通信回線等を介して送信された上記の情報が第一話者属性格納部11等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された上記の情報が第一話者属性格納部11等で記憶されるようになってもよい。
 第一話者属性受付部12、および第二話者属性受付部22は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
 第一音声受付部14、および第二音声受付部24は、例えば、マイクとそのデバイスドライバーなどにより実現され得る。
 第一音声送信部16、第一音声受信部17、第一話者属性送信部19、第二音声送信部26、第二音声受信部27、第二話者属性送信部29、第三話者属性受信部303、音声情報受信部306、音声認識結果送信部310、第三話者属性送信部311、第四話者属性受信部403、音声認識結果受信部406、翻訳結果送信部410、第四話者属性送信部411、第五話者属性受信部503、翻訳結果受信部505、および音声合成結果送信部508は、通常、無線または有線の通信手段で実現されるが、放送手段または放送受信手段で実現されても良い。
 第一音声出力部18、および第二音声出力部28は、スピーカおよびそのドライバーソフト等で実現され得る。
 第一話者属性蓄積部13、第一音声認識サーバ選択部15、第一サーバ選択情報格納手段151、第二話者属性蓄積部23、第二音声認識サーバ選択部25、第二サーバ選択手段252、音声話者属性取得部304、第三話者属性蓄積部305、音声認識モデル選択部307、音声認識部308、翻訳サーバ選択部309、第三モデル選択手段3072、第三サーバ選択手段3092、言語話者属性取得部404、第四話者属性蓄積部405、翻訳モデル選択部407、翻訳部408、音声合成サーバ選択部409、第四モデル選択手段4072、第四サーバ選択手段4092、第五話者属性蓄積部504、音声合成モデル選択部506、音声合成部507、および第五モデル選択手段5062は、通常、MPUやメモリ等から実現され得る。第一話者属性蓄積部13等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
 次に、音声翻訳システムの動作について図6から図10のフローチャートを用いて説明する。まず、第一端末装置1の動作について図6のフローチャートを用いて説明する。
 (ステップS601)第一話者属性受付部12等の受付部は、ユーザAからの入力を受け付けたか否かを判断する。入力を受け付ければステップS602に行き、入力を受け付けなければステップS606に行く。
 (ステップS602)第一話者属性受付部12は、ステップS601で受け付けた入力が話者属性であるか否かを判断する。話者属性であればステップS603に行き、話者属性でなければステップS604に行く。
 (ステップS603)第一話者属性蓄積部13は、受け付けられた1以上の話者属性を、第一話者属性格納部11に蓄積する。ステップS601に戻る。
 (ステップS604)図示しない受付部は、ステップS601で受け付けた入力が発呼要求であるか否かを判断する。発呼要求であればステップS605に行き、発呼要求でなければステップS601に戻る。なお、発呼要求は、第二端末装置2のユーザBに対しての通話の依頼であり、通常、第二端末装置2の第二端末装置識別子(電話番号など)が含まれる。
 (ステップS605)図示しない発呼部は、第二端末装置2に対して、発呼する。そして、発呼の結果、通話が開始される。ステップS601に戻る。
 (ステップS606)第一音声受付部14は、ユーザAの音声を受け付けたか否かを判断する。音声を受け付ければステップS607に行き、音声を受け付けなければステップS601に戻る。
 (ステップS607)第一サーバ選択手段152は、第一話者属性格納部11から、1以上の話者属性を読み出す。
 (ステップS608)第一サーバ選択手段152は、ステップS607で読み出した1以上の話者属性を、第一サーバ選択情報格納手段151の第一サーバ選択情報(音声認識サーバ選択情報管理表)に適用し、音声認識サーバ装置3を選択する。ここで、音声認識サーバ装置3の選択とは、例えば、一の音声認識サーバ装置識別子を取得することである。
 (ステップS609)第一話者属性送信部19は、第一話者属性格納部11に格納されている1以上の話者属性を用いて、音声翻訳制御情報を構成する。第一話者属性送信部19は、例えば、入力された第二端末装置2の電話番号から決定した目的言語の識別子を取得する。また、第一話者属性送信部19は、格納されている第一端末装置1の電話番号から決定した原言語の識別子を取得する。例えば、電話番号は国コードを含むので、第一話者属性送信部19は、かかる国コードから目的言語を決定する。第一話者属性送信部19は、国コードと目的言語識別子との対応表(例えば、「81:日本語」「82:韓国語」などのレコードを有する表)を保持している。そして、第一話者属性送信部19は、第一話者属性格納部11に格納されている1以上の話者属性と、原言語の識別子と目的言語の識別子等から、音声翻訳制御情報を構成する。
 (ステップS610)第一音声送信部16は、ステップS606で受け付けた音声をデジタル化し、音声情報を取得する。そして、第一音声送信部16は、当該音声情報を、ステップS608で選択された音声認識サーバ装置3に送信する。
 (ステップS611)第一話者属性送信部19は、ステップS609で構成された音声翻訳制御情報を、ステップS608で選択された音声認識サーバ装置3に送信する。なお、ここで、第一話者属性送信部19は、1以上の話者属性のみを、ステップS608で選択された音声認識サーバ装置3に送信しても良い。ステップS601に戻る。
 なお、図6のフローチャートにおいて、通話中に、再度、ステップS607、ステップS608、ステップS609、およびステップS611の処理を行わないことは好適である。つまり、一通話において、一度または、音声情報の送信より少ない回数、テップS607、ステップS608、ステップS609、およびステップS611の処理を行うことは好適である。
 さらに、図6のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
 また、第二端末装置2の動作は、第一端末装置1の動作と同様であるので、説明を省略する。
 次に、音声認識サーバ装置3の動作について図7のフローチャートを用いて説明する。
 (ステップS701)音声情報受信部306は、音声情報を受信したか否かを判断する。音声情報を受信すればステップS702に行き、音声情報を受信しなければステップS701に戻る。
 (ステップS702)第三話者属性受信部303は、音声翻訳制御情報を受信したか否かを判断する。音声翻訳制御情報を受信すればステップS703に行き、受信しなければステップS710に行く。
 (ステップS703)音声話者属性取得部304は、ステップS701で受信された音声情報から、1以上の話者属性を取得する。かかる処理を話者属性取得処理といい、図8のフローチャートを用いて説明する。
 (ステップS704)第三話者属性蓄積部305は、ステップS702で受信した音声翻訳制御情報に、ステップS703で取得した1以上の話者属性を加え、新たな音声翻訳制御情報を構成し、当該音声翻訳制御情報を第三話者属性格納部301に、少なくとも一時的に蓄積する。なお、第三話者属性蓄積部305は、ステップS703で取得したすべての話者属性をステップS702で受信した音声翻訳制御情報に加える必要はない。また、第三話者属性蓄積部305は、ステップS703で取得したすべての話者属性を優先し、ステップS702で受信した音声翻訳制御情報の一部の話者属性を修正しても良い。ステップS703で取得したすべての話者属性を優先させた場合、例えば、女性的な男性の音声に対しても、音声認識しやすくなるなどのメリットがある。
 (ステップS705)第三モデル選択手段3072は、第三話者属性格納部301に格納されている音声翻訳制御情報が有する1以上の話者属性を用いて、音声認識モデル選択情報管理表を検索し、音声認識モデル識別子を取得する。つまり、第三モデル選択手段3072は、音声認識モデルを選択する。そして、第三モデル選択手段3072は、選択した音声認識モデルを、音声認識モデル格納部302から読み出す。
 (ステップS706)音声認識部308は、読み出された音声認識モデルを用いて、ステップS701で受信された音声情報に対して、音声認識処理を行う。そして、音声認識部308は、音声認識結果を得る。
 (ステップS707)第三サーバ選択手段3092は、第三話者属性格納部301に格納されている音声翻訳制御情報が有する1以上の話者属性を用いて、翻訳サーバ選択情報管理表を検索し、1以上の話者属性に対応する翻訳サーバ装置識別子を取得する。
 (ステップS708)音声認識結果送信部310は、ステップS707で取得された翻訳サーバ装置識別子に対応する翻訳サーバ装置4に、ステップS706で得られた音声認識結果を送信する。
 (ステップS709)第三話者属性送信部311は、第三話者属性格納部301に格納されている音声翻訳制御情報を、ステップS707で取得された翻訳サーバ装置識別子に対応する翻訳サーバ装置4に送信し、ステップS701に戻る。
 (ステップS710)第三モデル選択手段3072は、第三話者属性格納部301に音声翻訳制御情報が格納されているか否かを判断する。音声翻訳制御情報が格納されていればステップS711に行き、格納されていなければステップS712に行く。
 (ステップS711)第三モデル選択手段3072は、第三話者属性格納部301に格納されている音声翻訳制御情報を読み出し、ステップS705に行く
 (ステップS712)第三モデル選択手段3072は、音声認識モデル格納部302に格納されている任意の音声認識モデルを読み出し、ステップS706に行く。
 なお、図7のフローチャートにおいて、話者属性取得処理で音声認識が行われている場合、再度の音声認識処理を行わなくても良い。ただし、話者属性取得処理で音声認識が行われている場合でも、音声認識モデルを選択し、精度の高い音声認識処理を行うことは好適である。
 また、図7のフローチャートにおいて、ステップS703の話者属性取得処理を、音声認識処理した結果に対して行っても良い。
 さらに、図7のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
 ステップS703の話者属性取得処理を、図8のフローチャートを用いて説明する。
 (ステップS801)音声話者属性取得部304は、音声情報から1以上の特徴量を取得する(音声分析する)。音声話者属性取得部304が取得した1以上の特徴量から構成されるベクトルである特徴ベクトルデータは、例えば、三角型フィルタを用いたチャネル数24のフィルタバンク出力を離散コサイン変換したMFCCであり、その静的パラメータ、デルタパラメータおよびデルタデルタパラメータをそれぞれ12次元、さらに正規化されたパワーとデルタパワーおよびデルタデルタパワー(39次元)を有する。
 (ステップS802)音声話者属性取得部304は、ステップS801で取得した1以上の特徴量を用いて、話者の性別を決定する。
 (ステップS803)音声話者属性取得部304は、ステップS801で取得した1以上の特徴量を用いて、話者の年齢層を決定する。
 (ステップS804)音声話者属性取得部304は、音声情報から、話速を取得する。なお、話速を取得する処理は公知技術である。
 (ステップS805)音声話者属性取得部304は、音声認識部308に音声認識処理を依頼し、音声認識結果を得る。
 (ステップS806)音声話者属性取得部304は、ステップS805で得られた音声認識結果を自然言語処理し、話者クラスを決定する。上位処理にリターンする。
 なお、図8のフローチャートにおいて、受信された音声翻訳制御情報(話者属性)に含まれている話者属性(例えば、性別)について、取得する処理(例えば、ステップS802)を行わなくても良い。処理の高速化になる。また、会話によって不変の話者属性(性別、年齢層など)は、一度のみ取得し、会話中に変化する話者属性(話速など)は、都度、取得する、または、累積された情報をも用いて、変化させていくことは好適である。
 次に、翻訳サーバ装置4の動作について図9のフローチャートを用いて説明する。
 (ステップS901)音声認識結果受信部406は、音声認識結果を受信したか否かを判断する。音声認識結果を受信すればステップS902に行き、音声認識結果を受信しなければステップS901に戻る。
 (ステップS902)第四話者属性受信部403は、音声翻訳制御情報を受信したか否かを判断する。音声翻訳制御情報を受信すればステップS903に行き、受信しなければステップS909に行く。
 (ステップS903)言語話者属性取得部404は、ステップS901で受信された音声認識結果を自然言語処理し、1以上の言語話者属性を取得する。言語話者属性取得部404は、例えば、音声認識結果から、話者クラスを取得する。
 (ステップS904)第四話者属性蓄積部405は、ステップS902で受信した音声翻訳制御情報に、ステップS903で取得された1以上の言語話者属性を加えて、音声翻訳制御情報を構成し、当該音声翻訳制御情報を、第四話者属性格納部401に、少なくとも一時的に蓄積する。
 (ステップS905)第四モデル選択手段4072は、ステップS902で受信した音声翻訳制御情報が有する1以上の話者属性、または第四話者属性格納部401に格納されている音声翻訳制御情報が有する1以上の話者属性を用いて、翻訳モデル選択情報管理表を検索し、翻訳モデル識別子を取得する。つまり、第四モデル選択手段4072は、翻訳モデルを選択する。そして、第四モデル選択手段4072は、選択した翻訳モデルを、翻訳モデル格納部402から読み出す。
 (ステップS906)翻訳部408は、読み出された翻訳モデルを用いて、ステップS901で受信された音声認識結果に対して、翻訳処理を行う。そして、翻訳部408は、翻訳結果を得る。
 (ステップS907)第四サーバ選択手段4092は、第四話者属性格納部401に格納されている音声翻訳制御情報が有する1以上の話者属性を用いて、音声合成サーバ選択情報管理表を検索し、1以上の話者属性に対応する音声合成サーバ装置識別子を取得する。
 (ステップS908)翻訳結果送信部410は、ステップS907で取得された音声合成サーバ装置識別子に対応する音声合成サーバ装置5に、ステップS906で得られた翻訳結果を送信する。
 (ステップS909)第四話者属性送信部411は、第四話者属性格納部401に格納されている音声翻訳制御情報を、ステップS907で取得された音声合成サーバ装置識別子に対応する音声合成サーバ装置5に送信する。ステップS901に戻る。
 (ステップS910)第四モデル選択手段4072は、第四話者属性格納部401に音声翻訳制御情報が格納されているか否かを判断する。音声翻訳制御情報が格納されていればステップS911に行き、格納されていなければステップS912に行く。
 (ステップS911)第四モデル選択手段4072は、第四話者属性格納部401に格納されている音声翻訳制御情報を読み出す。ステップS905に行く
 (ステップS912)第四モデル選択手段4072は、翻訳モデル格納部402に格納されている任意の翻訳モデルを読み出す。ステップS906に行く。
 なお、図9のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
 次に、音声合成サーバ装置5の動作について図10のフローチャートを用いて説明する。
 (ステップS1001)翻訳結果受信部505は、翻訳結果を受信したか否かを判断する。翻訳結果を受信すればステップS1002に行き、翻訳結果を受信しなければステップS1001に戻る。
 (ステップS1002)第五話者属性受信部503は、音声翻訳制御情報を受信したか否かを判断する。音声翻訳制御情報を受信すればステップS1003に行き、受信しなければステップS1007に行く。
 (ステップS1003)第五話者属性蓄積部504は、ステップS1002で受信した音声翻訳制御情報を、第五話者属性格納部501に、少なくとも一時的に蓄積する。
 (ステップS1004)第五モデル選択手段5062は、第五話者属性格納部501に格納されている音声翻訳制御情報が有する1以上の話者属性を用いて、音声合成モデル選択情報管理表を検索し、音声合成モデル識別子を取得する。つまり、第五モデル選択手段5062は、音声合成モデルを選択する。そして、第五モデル選択手段5062は、選択した音声合成モデルを、音声合成モデル格納部502から読み出す。
 (ステップS1005)音声合成部507は、読み出された音声合成モデルを用いて、ステップS1001で受信された翻訳結果に対して、音声合成処理を行う。そして、音声合成部507は、音声合成された音声情報(音声合成結果)を得る。
 (ステップS1006)音声合成結果送信部508は、第二端末装置2に、ステップS1005で得られた音声合成結果を送信する。なお、例えば、第二端末装置2を識別する第二端末装置識別子(例えば、第二端末装置2の電話番号やIPアドレスなど)は、音声翻訳制御情報に含まれる。ステップS1001に戻る。
 (ステップS1007)第五モデル選択手段5062は、第五話者属性格納部501に音声翻訳制御情報が格納されているか否かを判断する。音声翻訳制御情報が格納されていればステップS1008に行き、格納されていなければステップS1009に行く。
 (ステップS1010)第五モデル選択手段5062は、第五話者属性格納部501に格納されている音声翻訳制御情報を読み出す。ステップS1004に行く
 (ステップS1011)第五モデル選択手段5062は、音声合成モデル格納部502に格納されている任意の音声合成モデルを読み出す。ステップS1005に行く。
 なお、図10のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
 以下、本実施の形態における音声翻訳システムの具体的な動作について説明する。音声翻訳システムの概念図は図1である。
 今、第一端末装置1のユーザAは、日本語を話す、37歳の女性であり、日本語はネイティブである。また、第二端末装置2ユーザBは、英語を話す、38歳の男性であり、英語はネイティブである。
 そして、第一端末装置1の第一話者属性格納部11には、図11に示す第一話者属性管理表が格納されている。第一話者属性管理表は、性別「女性」、年齢「37歳」、使用言語「日本語」、およびNative「yes」が格納されている。
 また、第二端末装置2の第二話者属性格納部21には、図12に示す第二話者属性管理表が格納されている。
 また、第一端末装置1の第一サーバ選択情報格納手段151、および第二端末装置2の第二サーバ選択情報格納手段251には、図13に示す音声認識サーバ選択情報管理表が格納されている。音声認識サーバ選択情報管理表は、「ID」「言語」「話者属性」「音声認識サーバ装置識別子」の属性値を有するレコードを1以上格納している。「言語」は、音声認識の対象の言語である。「話者属性」は、「性別」「年齢(ここでは、年齢のカテゴリ)」などを有する。「音声認識サーバ装置識別子」は、音声認識サーバ装置3と通信するための情報であり、ここでは、IPアドレスである。なお、第一サーバ選択情報格納手段151には、音声認識サーバ選択情報管理表のうちの、言語「日本語」に対応するレコードが存在すれば良い。また、第二サーバ選択情報格納手段251には、音声認識サーバ選択情報管理表のうちの、言語「英語」に対応するレコードが存在すれば良い。
 また、音声認識サーバ装置3の第三モデル選択情報格納手段3071には、図14に示す音声認識モデル選択情報管理表が格納されている。音声認識モデル選択情報管理表は、「言語」「話者属性」「音声認識モデル識別子」の属性値を有するレコードを1以上格納している。「音声認識モデル識別子」は、音声認識モデルを識別する情報であり、例えば、音声認識モデルを読み出すために利用される。ここでは、例えば、「音声認識モデル識別子」は、音声認識モデルが格納されているファイル名などである。
 また、音声認識サーバ装置3の第三サーバ選択情報格納手段3091には、図15に示す翻訳サーバ選択情報管理表が格納されている。翻訳サーバ選択情報管理表は、「ID」「原言語」「目的言語」「話者属性」「翻訳サーバ装置識別子」の属性値を有するレコードを1以上格納している。「原言語」は翻訳の元の言語である。「目的言語」は翻訳の先の言語である。「話者属性」は、ここでは、「性別」「年齢」「第一話者クラス」などを有する。「第一話者クラス」は、使う単語の難しさから決定される、話者の知的レベルを推定した情報である。「第一話者クラス」が「A」である場合、話者は知的レベルが高いとする。「第一話者クラス」が「B」または「C」である場合、話者は知的レベルが中程度、または低いとする。知的レベルの推定方法の例は、後述する。「翻訳サーバ装置識別子」は、翻訳サーバ装置4と通信するための情報であり、ここでは、IPアドレスである。
 また、翻訳サーバ装置4の第四モデル選択情報格納手段4071は、図16に示す翻訳モデル選択情報管理表を保持している。翻訳モデル選択情報管理表は、「ID」「原言語」「話者属性」「翻訳モデル識別子」の属性値を有するレコードを1以上格納している。「話者属性」は、ここでは、「性別」「年齢」「第二話者クラス」などを有する。「第二話者クラス」は、使用言語について、ネイティブか否かを示す。ネイティブである場合は「Y」、ネイティブでない場合は「N」の属性値となる。「翻訳モデル識別子」は、翻訳モデルを識別する情報であり、例えば、翻訳モデルを読み出すために利用される。ここでは、例えば、「翻訳モデル識別子」は、翻訳モデルが格納されているファイル名などである。
 また、翻訳サーバ装置4の第四サーバ選択情報格納手段4091は、図17に示す音声合成サーバ選択情報管理表が格納されている。音声合成サーバ選択情報管理表は、「ID」「目的言語」「話者属性」「音声合成サーバ装置識別子」の属性値を有するレコードを1以上格納している。「話者属性」は、ここでは、「性別」「年齢」「話速」「第一話者クラス」「第二話者クラス」などを有する。「話速」は、話す速度であり、ここでは、「速い」「中程度」「遅い」の3つのいずれかの値をとり得る。「速い」は、例えば、話すスピードが「5音節/秒」以上である場合、「中程度」は、例えば、話すスピードが「5音節/秒」未満「3音節/秒」以上である場合、「遅い」は、例えば、話すスピードが「3音節/秒」未満である場合である。ただし、「話速」のカテゴライズの種類、カテゴライズの方法、アルゴリズムなどは問わない。「音声合成サーバ装置識別子」は、音声合成サーバ装置5と通信するための情報であり、ここでは、IPアドレスである。
 さらに、音声合成サーバ装置5の第五モデル選択情報格納手段5061は、図18に示す音声合成モデル選択情報管理表を保持している。音声合成モデル選択情報管理表は、「ID」「目的言語」「話者属性」「音声合成モデル識別子」の属性値を有するレコードを1以上格納している。「話者属性」は、ここでは、「性別」「年齢」「第二話者クラス」などを有する。「話者属性」として、「話速」や「第一話者クラス」を有することはさらに好適である。「音声合成モデル識別子」は、音声合成モデルを識別する情報であり、例えば、音声合成モデルを読み出すために利用される。ここでは、例えば、「音声合成モデル識別子」は、音声合成モデルが格納されているファイル名などである。
 かかる状況において、ユーザAは、ユーザBに電話をかけようとする。そして、ユーザAは、第一端末装置1から、相手(ユーザB)の電話番号などを入力する画面であり、図19の画面を呼び出した。そして、第一端末装置1は、第一話者属性格納部11に格納されている第一話者属性管理表(図11)を読み出し、図19の画面を表示する。そして、ユーザは、相手の使用言語と、相手の電話番号とを入力し、「発信」ボタンを押下した、とする。なお、図19において、自分の電話番号「080-1111-2256」は、図示しない記録媒体に格納されている、とする。
 次に、第一端末装置1の、図示しない発呼部は、第二端末装置2に対して、発呼する。そして、通話が開始される。
 次に、第一端末装置1の第一音声受付部14は、ユーザAの音声「おはようございます」を受け付ける。
 次に、第一サーバ選択手段152は、第一話者属性格納部11から、図11の話者属性を読み出す。
 次に、第一サーバ選択手段152は、読み出した1以上の話者属性「性別:女性,年齢:37歳,使用言語:日本語・・・」を、図13の音声認識サーバ選択情報管理表に適用し、「ID=7」のレコードを検索し、音声認識サーバ装置識別子「186.221.1.27」を取得する。
 次に、第一話者属性送信部19は、1以上の話者属性を用いて、音声翻訳制御情報を構成する。第一話者属性送信部19は、例えば、図20に示す音声翻訳制御情報を構成する。この音声翻訳制御情報は、1以上の話者属性、および図19の画面からユーザAにより入力された情報(相手の使用言語[目的言語])を含む。さらに、音声翻訳制御情報は、音声認識サーバ装置識別子「186.221.1.27」を含む。
 次に、第一音声送信部16は、受け付けた音声「おはようございます」をデジタル化し、「おはようございます」の音声情報を取得する。そして、第一音声送信部16は、当該音声情報を、「186.221.1.27」で識別される音声認識サーバ装置3に送信する。
 次に、第一話者属性送信部19は、図20の音声翻訳制御情報を、「186.221.1.27」で識別される音声認識サーバ装置3に送信する。
 次に、音声認識サーバ装置3の音声情報受信部306は、音声情報「おはようございます」を受信する。そして、第三話者属性受信部303は、図20の音声翻訳制御情報を受信する。
 次に、音声話者属性取得部304は、受信された音声情報「おはようございます」から、1以上の話者属性を取得する。つまり、第三話者属性受信部303は、音声情報「おはようございます」から1以上の特徴量を取得する。そして、第三話者属性受信部303は、1以上の特徴量を用いて、予め決められた情報を取得する。ここで、図20の音声翻訳制御情報に、性別や年齢などの話者属性を含むが、第三話者属性受信部303は、音声翻訳制御情報と重複する話者属性(性別や年齢など)を取得し、取得した話者属性を優先させて、音声認識や、後の翻訳や、音声合成に利用しても良い。
 次に、音声話者属性取得部304は、音声情報「おはようございます」から、話速を取得する。ここで、音声話者属性取得部304は、4音節/秒であると、判断し、話速「中程度」を取得した、とする。
 次に、第三モデル選択手段3072は、第三話者属性格納部301に格納されている音声翻訳制御情報が有する1以上の話者属性、および音声話者属性取得部304が取得した1以上の話者属性(ここでは、話速「中程度」)を用いて、音声認識モデル選択情報管理表(図14)から、「ID=18」のレコードを検索し、音声認識モデル識別子「JR6」を取得する。そして、第三モデル選択手段3072は、選択した音声認識モデル「JR6」を、音声認識モデル格納部302から読み出す。
 音声認識部308は、読み出された音声認識モデルを用いて、受信された音声情報に対して、音声認識処理を行い、音声認識結果「おはようございます」を得る。
 次に、音声話者属性取得部304は、音声認識部308に音声認識処理を依頼し、音声認識結果「おはようございます」を得る。
 音声話者属性取得部304は、得られた音声認識結果を自然言語処理し、丁寧語であるので、第一話者クラス「A」を取得する。音声話者属性取得部304は、例えば、丁寧語を構成する用語「ございます」「です」や、難易度の高い用語「齟齬」「誤謬」などを格納しており、かかる用語の出現頻度、出現割合などにより、第一話者クラスを決定しても良い。音声話者属性取得部304は、「おはようございます」を形態素解析し、「おはよう」「ございます」の2つの形態素に分割する。そして、音声話者属性取得部304は、「ございます」が管理されている用語に合致することを検知する。次に、音声話者属性取得部304は、管理用語である割合「50%」と算出する。次に、音声話者属性取得部304は、格納している判断条件「A:管理用語の出現割合が5%以上,B:管理用語の出現割合が1%以上かつ5%未満,C:管理用語の出現割合が1%未満」から、第一話者クラス「A」と決定する。なお、次々と会話がなされるごとに、音声話者属性取得部304は、管理用語の出現割合を、都度、算出し、第一話者クラスを決定、変更していくことは好適である。
 次に、第三話者属性蓄積部305は、受信した音声翻訳制御情報(図20)に、話者属性である話速「中程度」、および第一話者クラス「A」を加える。そして、第三話者属性蓄積部305は、図21の音声翻訳制御情報を、第三話者属性格納部301に、少なくとも一時的に蓄積する。
 次に、第三サーバ選択手段3092は、第三話者属性格納部301に格納されている音声翻訳制御情報(図21)が有する1以上の話者属性を用いて、翻訳サーバ選択情報管理表(図15)を検索し、1以上の話者属性に対応する「ID=25」のレコードの翻訳サーバ装置識別子「77.128.50.80」を取得する。そして、第三話者属性蓄積部305は、翻訳サーバ装置識別子「77.128.50.80」を音声翻訳制御情報に加えて、第三話者属性格納部301に蓄積する。かかる更新された音声翻訳制御情報を図22に示す。
 次に、音声認識結果送信部310は、取得された翻訳サーバ装置識別子「77.128.50.80」に対応する翻訳サーバ装置4に、音声認識結果「おはようございます」を送信する。
 そして、第三話者属性送信部311は、第三話者属性格納部301に格納されている音声翻訳制御情報(図22)を、取得された翻訳サーバ装置識別子「77.128.50.80」に対応する翻訳サーバ装置4に送信する。
 次に、翻訳サーバ装置4の音声認識結果受信部406は、音声認識結果「おはようございます」を受信する。そして、第四話者属性受信部403は、音声翻訳制御情報(図22)を受信する。
 次に、第四話者属性蓄積部405は、受信した音声翻訳制御情報(図22)を、第四話者属性格納部401に、少なくとも一時的に蓄積する。
 次に、第四モデル選択手段4072は、図22の音声翻訳制御情報が有する1以上の話者属性を用いて、翻訳モデル選択情報管理表(図16)から、「ID=18」のレコードを検索し、翻訳モデル識別子「JT4」を取得する。そして、第四モデル選択手段4072は、「JT4」の翻訳モデルを、翻訳モデル格納部402から読み出す。
 次に、翻訳部408は、読み出された翻訳モデル「JT4」を用いて、受信された音声認識結果「おはようございます」に対して、翻訳処理を行う。そして、翻訳部408は、翻訳結果「Good morning.」を得る。
 次に、第四サーバ選択手段4092は、図22の音声翻訳制御情報が有する1以上の話者属性を用いて、音声合成サーバ選択情報管理表(図17)から、1以上の話者属性に対応する「ID=33」のレコードを検索し、音声合成サーバ装置識別子「238.3.55.7」を取得する。
 そして、第四話者属性蓄積部405は、図22の音声翻訳制御情報に、音声合成サーバ装置識別子「238.3.55.7」を加えた音声翻訳制御情報(図23)を構成し、当該音声翻訳制御情報を第四話者属性格納部401に蓄積する。
 次に、翻訳結果送信部410は、音声合成サーバ装置識別子「238.3.55.7」に対応する音声合成サーバ装置5に、翻訳結果「Good morning.」を送信する。
 次に、第四話者属性送信部411は、図23の音声翻訳制御情報を、音声合成サーバ装置識別子「238.3.55.7」に対応する音声合成サーバ装置5に送信する。
 次に、音声合成サーバ装置5の翻訳結果受信部505は、翻訳結果を受信する。また、第五話者属性受信部503は、図23の音声翻訳制御情報を受信する。
 そして、第五話者属性蓄積部504は、受信した音声翻訳制御情報を、第五話者属性格納部501に、少なくとも一時的に蓄積する。
 次に、第五モデル選択手段5062は、第五話者属性格納部501に格納されている音声翻訳制御情報(図23)が有する1以上の話者属性を用いて、音声合成モデル選択情報管理表から、「ID=18」のレコードを検索し、音声合成モデル識別子「JC9」を取得する。そして、第五モデル選択手段5062は、選択した音声合成モデル「JC9」を、音声合成モデル格納部502から読み出す。
 次に、音声合成部507は、読み出された音声合成モデルを用いて、翻訳結果「Good morning.」に対して、音声合成処理を行う。そして、音声合成部507は、音声合成された音声情報(音声合成結果)を得る。
 次に、音声合成結果送信部508は、第二端末装置2に、得られた音声合成結果を送信する。
 次に、第二端末装置2の第二音声受信部27は、音声合成結果「Good morning」を受信する。そして、第二音声出力部28は、音声「Good morning」を出力する。
 以上の処理により、ユーザAが発生した「おはようございます」が、第二端末装置2に至るまでに「Good morning」の音声に変換され、第二端末装置2に「Good morning」が出力される。
 また、第二端末装置2のユーザBが、「Good morning」に答えて「Good morning」と発生した音声は、上記と同様の処理により、「おはよう」に変換され、第一端末装置1に音声「おはよう」が出力される。
 以上、本実施の形態によれば、音声認識、翻訳、音声合成の各処理において、話者属性に合致する適切な装置、または適切なモデルを選択できる。その結果、精度の高い、または話者の属性を引き継いだネットワーク型音声翻訳システムが提供できる。
 また、本実施の形態によれば、会話中に、話速や話者クラスなどの話者属性が変化した場合、当該変化に合わせた装置(音声認識、翻訳、音声合成の各装置)やモデル(音声認識、翻訳、音声合成の各モデル)が適用され、適切に音声認識、翻訳、音声合成等の処理が行える。
 なお、本実施の形態によれば、音声認識、翻訳、音声合成の各処理において、話者属性に合致する適切な装置、または適切なモデルを、すべて選択できた。しかし、音声認識を行う装置またはモデルのみが選択できても良いし、翻訳を行う装置またはモデルのみが選択できても良いし、音声合成を行う装置またはモデルのみが選択できても良い。
 また、本実施の形態によれば、例えば、ユーザが、翻訳サーバ装置または翻訳モデルを指定した場合は、指定された翻訳サーバ装置または翻訳モデルを使用して、翻訳処理を行うことは好適である。ユーザは、自分で使用したい表現を蓄積した翻訳サーバ装置または翻訳モデルを利用したい場合もあるからである。かかる場合、例えば、第一端末装置1に、利用したい翻訳サーバ装置を識別する翻訳サーバ装置識別子または翻訳モデルを識別する翻訳モデル識別子が格納されている。そして、かかる翻訳サーバ装置識別子または翻訳モデル識別子が音声翻訳制御情報に付加される。そして、かかる音声翻訳制御情報は、第一端末装置1から、音声認識サーバ装置3を経由して、翻訳サーバ装置4に送信される。
 また、同様に、本実施の形態において、例えば、ユーザが、音声合成サーバ装置または音声合成モデルを指定した場合は、指定された音声合成サーバ装置または音声合成モデルを使用して、音声合成処理を行うことは好適である。ユーザは、例えば、自分の音声を集めた音声合成モデル、または自分の音声を集めた音声合成モデルを格納した音声合成サーバ装置を利用して、目的言語の音声合成を行いたい場合もあるからである。かかる場合、例えば、第一端末装置1に、利用したい音声合成サーバ装置を識別する音声合成サーバ装置識別子または音声合成モデルを識別する音声合成モデル識別子が格納されている。そして、かかる音声合成サーバ装置識別子または音声合成モデル識別子が音声翻訳制御情報に付加される。そして、かかる音声翻訳制御情報は、第一端末装置1から、音声認識サーバ装置3、および翻訳サーバ装置4を経由して、音声合成サーバ装置5に送信される。
 ユーザが指定した翻訳サーバ装置を識別する情報、およびユーザが指定した音声合成サーバ装置を識別する情報が付加された音声翻訳制御情報の例は、図24である。
 また、本実施の形態によれば、第一端末装置1が音声認識サーバ装置3の選択処理を行った。また、音声認識サーバ装置3が、音声認識モデルの選択処理、および翻訳サーバ装置4の選択処理を行った。また、翻訳サーバ装置4が、翻訳モデルの選択処理、および音声合成サーバ装置5の選択処理を行った。さらに、音声合成サーバ装置5が、音声合成モデルの選択処理を行った。しかし、かかるモデルやサーバ装置の選択処理は、他の装置が行っても良い。例えば、一の制御装置が、かかるサーバ装置の選択処理を行う場合の、音声翻訳システム6の概念図は、図25である。図25において、音声翻訳システムは、1以上の第一端末装置251、1以上の第二端末装置252、1以上の音声認識サーバ装置253、1以上の翻訳サーバ装置254、1以上の音声合成サーバ装置5、および制御装置256を具備する。この音声翻訳システム6と、上述した音声翻訳システムとの差異は、サーバ装置の選択処理を行う装置が異なるために生じる差異である。なお、図25において、モデルの選択は、音声認識サーバ装置253、翻訳サーバ装置254、および音声合成サーバ装置5で、それぞれ行う。
 また、図25において、第一端末装置251、第二端末装置252、音声認識サーバ装置253、翻訳サーバ装置254、および音声合成サーバ装置5は、それぞれ、処理前の結果を制御装置256から受信し、処理後の結果を制御装置256に送信する。つまり、第一端末装置251は、ユーザAから受け付けた音声情報を制御装置256に送信する。そして、制御装置256は、音声認識を行う音声認識サーバ装置253を決定し、音声情報を音声認識サーバ装置253に送信する。次に、音声認識サーバ装置253は音声情報を受信し、必要に応じて、音声認識モデルを選択し、音声認識処理を行う。そして、音声認識サーバ装置253は、音声認識結果を制御装置256に送信する。次に、制御装置256は、音声認識結果を音声認識サーバ装置253から受信し、翻訳を行う翻訳サーバ装置254を選択する。そして、制御装置256は、選択した翻訳サーバ装置254に、音声認識結果を送信する。次に、翻訳サーバ装置254は、音声認識結果を受信し、必要に応じて、翻訳モデルを選択し、翻訳処理を行う。そして、翻訳サーバ装置254は、翻訳結果を制御装置256に送信する。次に、制御装置256は、翻訳結果を翻訳サーバ装置254から受信し、音声合成を行う音声合成サーバ装置5を選択する。そして、制御装置256は、選択した音声合成サーバ装置5に、翻訳結果を送信する。次に、音声合成サーバ装置5は、翻訳結果を受信し、必要に応じて、音声合成モデルを選択し、音声合成処理を行う。そして、音声合成サーバ装置5は、音声合成結果を制御装置256に送信する。次に、制御装置256は、音声合成結果を音声合成サーバ装置5から受信し、第二端末装置252に送信する。次に、第二端末装置252は、音声合成結果を受信し、出力する。
 図26は、音声翻訳システム6のブロック図である。図26において、第一端末装置251の第一音声送信部16、第一音声受信部17、および第一話者属性送信部19、第二端末装置252の第二音声送信部26、第二音声受信部27、および第二話者属性送信部29が情報の送受信を行う装置は、制御装置256である。
 図26において、第一端末装置251は、第一話者属性格納部11、第一話者属性受付部12、第一話者属性蓄積部13、第一音声受付部14、第一音声送信部16、第一音声受信部17、第一音声出力部18、第一話者属性送信部19を備える。第二端末装置252は、第二話者属性格納部21、第二話者属性受付部22、第二話者属性蓄積部23、第二音声受付部24、第二音声送信部26、第二音声受信部27、第二音声出力部28、第二話者属性送信部29を備える。
 図27は、制御装置256のブロック図である。制御装置256は、話者属性格納部2561、送受信部2562、話者属性蓄積部2563、第二音声認識サーバ選択部25、翻訳サーバ選択部309、音声合成サーバ選択部409を備える。話者属性格納部2561は、1以上の話者属性を格納し得る。話者属性格納部2561は、音声翻訳制御情報を格納していても良い。送受信部2562は、第一端末装置251、第二端末装置252、音声認識サーバ装置253、翻訳サーバ装置254、および音声合成サーバ装置5との間で、各種の情報を送受信する。各種の情報とは、音声情報、音声認識結果、翻訳結果、音声合成結果、および音声翻訳制御情報(一部の話者属性も含む)などである。送受信部2562は、通常、無線又は有線の通信手段により実現され得る。話者属性蓄積部2563は、送受信部2562が受信した1以上の話者属性(音声翻訳制御情報でも良い)を、話者属性格納部2561に蓄積する。
 また、図28は、音声認識サーバ装置253のブロック図である。音声認識サーバ装置253は、第三話者属性格納部301、音声認識モデル格納部302、第三話者属性受信部303、音声話者属性取得部304、第三話者属性蓄積部305、音声情報受信部306、音声認識モデル選択部307、音声認識部308、音声認識結果送信部310、第三話者属性送信部311を備える。
 また、図29は、翻訳サーバ装置254のブロック図である。翻訳サーバ装置254は、第四話者属性格納部401、翻訳モデル格納部402、第四話者属性受信部403、第四話者属性蓄積部405、音声認識結果受信部406、翻訳モデル選択部407、翻訳部408、翻訳結果送信部410、第四話者属性送信部411を備える。
 また、本実施の形態において、音声翻訳制御情報の例は、図20から図24を用いて説明した。ただし、音声翻訳制御情報のフォーマットは問わない。音声翻訳制御情報は、図30に示すようなXMLのフォーマットでも良いことは言うまでもない。図30に示す音声翻訳制御情報の記述言語を、音声翻訳用マークアップランゲージ STML(Speech Translation Markup Language)という。図30において、ユーザID(話者のユーザを特定する情報"Mike")、音声認識の出力結果のフォーマット、またはサイズ(MaxNBest="2")、原言語「英語」(language="en")、翻訳対象を特定する情報(ここでは、Task="Dictation"、会話のドメイン(ここでは、「Travel(旅行)」)、入力音声のフォーマットを示す情報(ここでは、"ADPCM")が記載されている。また、図30において、話者属性のうちの性別(ここでは、"male")、年齢(ここでは、"30")、およびネイティブか否か(ここでは、"no")が記載されている。また、図30において、出力テキストのフォーマットを示す情報(ここでは、"SurfaceForm")が記載されている。さらに、音声翻訳制御情報において、出力音声のフォーマットを示す情報、入出力音声の声質を指定する情報、入力テキストのフォーマットを示す情報を示す情報などが存在しても良い。また、上記の(MaxNBest="2")は、音声認識結果の上位2番目までの候補を出力し、送信することを示している。なお、Nbestは音声認識結果の上位N番目までの候補という意味である。
 また、本実施の形態において、音声認識サーバ装置3、および翻訳サーバ装置4は、それぞれ、音声認識モデルの選択や翻訳モデルの選択を行わなくても良い。また、音声認識処理を行う音声認識サーバ装置3や、翻訳処理を行う翻訳サーバ装置4の選択も行わなくても良い。かかる場合、話者属性に応じた音声合成サーバ装置5の選択や、音声合成モデルの選択が行われる。かかる音声合成サーバ装置5の選択処理、音声合成モデルの選択処理は、上述した通りである。また、音声合成サーバ装置5の音声合成部507は、話者属性(例えば、話速や音の高低や音質など)に応じて、音声を変換して、出力する音声情報を構成しても良い。つまり、音声合成部507は、翻訳結果受信部505が受信した翻訳結果を、第五話者属性受信部503が受信した1以上の話者属性が示す属性に合致するように、音声合成モデル格納部502の音声合成モデルを用いて音声合成し、音声合成結果を取得しても良い。また、音声合成部507は、翻訳結果受信部505が受信した翻訳結果を、音声翻訳制御情報の話者属性が示す属性に合致するように、音声合成モデル格納部52の音声合成モデルを用いて音声合成し、音声合成結果を取得しても良い。かかる場合も、音声合成モデルの選択と言っても良い。
 さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD-ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における第一端末装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、音声を受け付ける第一音声受付部と、記憶媒体に格納している1以上の話者属性に応じて、2以上の音声認識サーバ装置のうち一の音声認識サーバ装置を選択する第一音声認識サーバ選択部と、前記第一音声認識サーバ選択部が選択した音声認識サーバ装置に、前記第一音声受付部が受け付けた音声から構成される音声情報を送信する第一音声送信部として機能させるためのプログラム、である。
 また、本実施の形態における音声認識サーバ装置を実現するソフトウェアは、コンピュータを、音声情報を受信する音声情報受信部と、記憶媒体に格納している1以上の話者属性に応じて、記憶媒体に格納している2以上の音声認識モデルから、一の音声認識モデルを選択する音声認識モデル選択部と、前記音声情報受信部が受信した音声情報を、前記音声認識モデル選択部が選択した音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、前記音声認識結果を送信する音声認識結果送信部として機能させるためのプログラム、である。
 また、本実施の形態における音声認識サーバ装置を実現するソフトウェアは、コンピュータを、音声情報を受信する音声情報受信部と、前記音声情報受信部が受信した音声情報を、記憶媒体に格納している音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、記憶媒体に格納している1以上の話者属性に応じて、2以上の翻訳サーバ装置のうち一の翻訳サーバ装置を選択する翻訳サーバ選択部と、前記翻訳サーバ選択部が選択した翻訳サーバ装置に、前記音声認識結果を送信する音声認識結果送信部として機能させるためのプログラム、である。
 また、本実施の形態における音声認識サーバ装置を実現するソフトウェアは、コンピュータを、前記音声情報受信部が受信した音声情報から、1以上の音声に関する話者属性を取得する音声話者属性取得部と、前記音声話者属性取得部が取得した1以上の話者属性を、記憶媒体に蓄積する第三話者属性蓄積部として、さらに機能させるためのプログラム、である。
 また、本実施の形態における翻訳サーバ装置を実現するソフトウェアは、コンピュータを、1以上の話者属性を受信する第四話者属性受信部と、音声認識結果を受信する音声認識結果受信部と、前記第四話者属性受信部が受信した1以上の話者属性に応じて、記憶媒体に格納している2以上の翻訳モデルから、一の翻訳モデルを選択する翻訳モデル選択部と、前記音声認識結果受信部が受信した音声認識結果を、前記翻訳モデル選択部が選択した翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、前記翻訳結果を送信する翻訳結果送信部として機能させるためのプログラム、である。
 また、本実施の形態における翻訳サーバ装置を実現するソフトウェアは、コンピュータを、1以上の話者属性を受信する第四話者属性受信部と、音声認識結果を受信する音声認識結果受信部と、前記音声認識結果受信部が受信した音声認識結果を、記憶媒体に格納している翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、前記1以上の話者属性に応じて、2以上の音声合成サーバ装置のうち一の音声合成サーバ装置を選択する音声合成サーバ選択部と、前記音声合成サーバ選択部が選択した音声合成サーバ装置に、前記翻訳結果を送信する翻訳結果送信部として機能させるためのプログラム、である。
 また、本実施の形態における翻訳サーバ装置を実現するソフトウェアは、コンピュータを、前記音声認識結果受信部が受信した音声認識結果から、1以上の言語に関する話者属性を取得する言語話者属性取得部と、前記言語話者属性取得部が取得した1以上の話者属性を、記憶媒体に蓄積する第四話者属性蓄積部として機能させるためのプログラム、である。
 また、本実施の形態における音声合成サーバ装置を実現するソフトウェアは、コンピュータを、1以上の話者属性を受信する第五話者属性受信部と、翻訳結果を受信する翻訳結果受信部と、前記第五話者属性受信部が受信した1以上の話者属性に応じて、記憶媒体に格納している2以上の音声合成モデルから、一の音声合成モデルを選択する音声合成モデル選択部と、前記翻訳結果受信部が受信した翻訳結果を、前記音声合成モデル選択部が選択した音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、前記音声合成結果を第二端末装置に送信する音声合成結果送信部として機能させるためのプログラム、である。
 また、図31は、本明細書で述べたプログラムを実行して、上述した実施の形態の音声翻訳システム等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図31は、このコンピュータシステム340の概観図であり、図32は、コンピュータシステム340の内部構成を示す図である。
 図31において、コンピュータシステム340は、FDドライブ3411、CD-ROMドライブ3412を含むコンピュータ341と、キーボード342と、マウス343と、モニタ344とを含む。
 図32において、コンピュータ341は、FDドライブ3411、CD-ROMドライブ3412に加えて、MPU3413と、CD-ROMドライブ3412及びFDドライブ3411に接続されたバス3414と、ブートアッププログラム等のプログラムを記憶するためのROM3415に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM3416と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3417とを含む。ここでは、図示しないが、コンピュータ341は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
 コンピュータシステム340に、上述した実施の形態の音声翻訳システム等の機能を実行させるプログラムは、CD-ROM3501、またはFD3502に記憶されて、CD-ROMドライブ3412またはFDドライブ3411に挿入され、さらにハードディスク3417に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ341に送信され、ハードディスク3417に記憶されても良い。プログラムは実行の際にRAM3416にロードされる。プログラムは、CD-ROM3501、FD3502またはネットワークから直接、ロードされても良い。
 プログラムは、コンピュータ341に、上述した実施の形態の音声翻訳システム等の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム340がどのように動作するかは周知であり、詳細な説明は省略する。
 なお、上記プログラムにおいて、情報を送信するステップや、情報をする受信ステップなどでは、ハードウェアによって行われる処理、例えば、送信するステップにおけるモデムやインターフェースカードなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。
 また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
 また、上記各実施の形態において、一の装置に存在する2以上の通信手段(音声認識結果受信部、第四話者属性受信部など)は、物理的に一の媒体で実現されても良いことは言うまでもない。
 また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。なお、各処理(各機能)が単一の装置(システム)によって集中処理される場合、音声翻訳システムは、一つの装置であり、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置は、一つの装置内に含められる。かかる場合、上記の情報の送信および受信は、情報の受け渡しになる。つまり、上記の受信または送信は広く解する。
 さらに具体的には、音声翻訳システムが単一の装置によって集中処理される場合、当該音声翻訳システムは、例えば、図33に示す構成になる。
 つまり、音声翻訳システムは、音声受付部3301、第三話者属性格納部301、音声認識モデル格納部302、音声話者属性取得部304、音声認識モデル選択部307、音声認識部308、翻訳モデル格納部402、言語話者属性取得部404、翻訳モデル選択部407、翻訳部408、音声合成モデル格納部502、音声合成モデル選択部506、音声合成部507、音声合成結果出力部3302を備える。
 音声受付部3301は、ユーザから音声を受け付ける。この音声は、音声翻訳対象の音声である。音声受付部3301は、例えば、マイクとそのドライバーソフトウェア等から構成され得る。
 第三話者属性格納部301は、ここでは、通常、ユーザから受け付けた話者属性を格納している。ここでの話者属性は、通常、静的話者属性情報である。
 音声話者属性取得部304は、音声受付部3301が受け付けた音声から構成された音声情報から、1以上の音声話者属性を取得する。ここで取得する音声話者属性は、主として、動的話者属性情報であるが、静的話者属性情報でも良い。
 音声認識モデル選択部307は、第三話者属性格納部301の話者属性または音声話者属性取得部304が取得した話者属性のうちの、1以上の話者属性に応じて、2以上の音声認識モデルから、一の音声認識モデルを選択する。
 音声認識部308は、音声受付部3301が受け付けた音声から構成された音声情報を、音声認識モデル格納部302の音声認識モデルを用いて音声認識し、音声認識結果を取得する。また、音声認識部308は、音声情報を、音声認識モデル選択部307が選択した音声認識モデルを用いて音声認識し、音声認識結果を取得することは好適である。
 言語話者属性取得部404は、音声認識部308が取得した音声認識結果から1以上の言語話者属性を取得する。
 翻訳モデル選択部407は、1以上の話者属性に応じて、2以上の翻訳モデルから、一の翻訳モデルを選択する。ここでの話者属性は、第三話者属性格納部301の話者属性または音声話者属性取得部304が取得した話者属性または言語話者属性取得部404が取得した言語話者属性のうちの、1以上の話者属性である。
 翻訳部408は、音声認識結果を、翻訳モデル格納部402の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する。翻訳部408は、音声認識結果を、翻訳モデル選択部407が選択した翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得することは好適である。
 音声合成モデル選択部506は、1以上の話者属性に応じて、2以上の音声合成モデルから、一の音声合成モデルを選択する。ここでの話者属性は、第三話者属性格納部301の話者属性または音声話者属性取得部304が取得した話者属性または言語話者属性取得部404が取得した言語話者属性のうちの、1以上の話者属性である。
 音声合成部507は、翻訳結果を、音声合成モデル格納部502の音声合成モデルを用いて音声合成し、音声合成結果を取得する。音声合成部507は、翻訳結果を、音声合成モデル選択部506が選択した音声合成モデルを用いて音声合成し、音声合成結果を取得することは好適である。
 音声合成結果出力部3302は、音声合成部507が取得した音声合成結果を出力する。ここでの出力とは、スピーカー等を用いた音声出力、外部の装置(通常、音声出力装置)への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。音声合成結果出力部3302は、スピーカーとそのドライバーソフトウェア等から構成され得る。
 なお、音声翻訳システムは、第三話者属性格納部301、音声話者属性取得部304、音声認識モデル選択部307、言語話者属性取得部404、翻訳モデル選択部407、音声合成モデル選択部506は、必須の構成要素ではない。
 本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
 以上のように、本発明にかかる音声翻訳システムは、音声翻訳において、話者の属性に応じて音声認識や翻訳や音声合成を行う装置やモデルを変更でき、音声認識や翻訳や音声合成の各処理において、精度が向上し、適切な出力が行われる、という効果を有し、音声翻訳システム等として有用である。
実施の形態1における音声翻訳システムの概念図 同音声翻訳システムのブロック図 同音声認識サーバ装置のブロック図 同翻訳サーバ装置のブロック図 同音声合成サーバ装置のブロック図 同音声翻訳システムの動作について説明するフローチャート 同音声認識サーバ装置の動作について説明するフローチャート 同話者属性取得処理の動作について説明するフローチャート 同翻訳サーバ装置の動作について説明するフローチャート 同音声翻訳システムの動作について説明するフローチャート 同第一話者属性管理表を示す図 同第二話者属性管理表を示す図 同音声認識サーバ選択情報管理表を示す図 同音声認識モデル選択情報管理表を示す図 同翻訳サーバ選択情報管理表を示す図 同翻訳モデル選択情報管理表を示す図 同音声合成サーバ選択情報管理表を示す図 同音声合成モデル選択情報管理表を示す図 同第一端末装置の話者属性等の入力画面を示す図 同音声翻訳制御情報の例を示す図 同更新された音声翻訳制御情報の例を示す図 同更新された音声翻訳制御情報の例を示す図 同更新された音声翻訳制御情報の例を示す図 同更新された音声翻訳制御情報の例を示す図 同他の音声翻訳システムの概念図 同他の音声翻訳システムのブロック図 同制御装置のブロック図 同音声認識サーバ装置のブロック図 同翻訳サーバ装置のブロック図 同音声翻訳制御情報の例であるSTMLの例を示す図 同コンピュータシステムの概観図 同コンピュータシステムのブロック図 同音声翻訳システムの他のブロック図

Claims (14)

  1. 音声を入力する第一端末装置、2以上の音声認識サーバ装置、1以上の翻訳サーバ装置、1以上の音声合成サーバ装置とを有する音声翻訳システムであって、
    前記第一端末装置は、
    話者の属性値である話者属性を、1以上格納し得る第一話者属性格納部と、
    音声を受け付ける第一音声受付部と、
    前記1以上の話者属性に応じて、前記2以上の音声認識サーバ装置のうち一の音声認識サーバ装置を選択する第一音声認識サーバ選択部と、
    前記第一音声認識サーバ選択部が選択した音声認識サーバ装置に、前記第一音声受付部が受け付けた音声から構成される音声情報を送信する第一音声送信部とを具備し、
    前記音声認識サーバ装置は、
    前記2以上の言語のうちのすべての言語または2以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、
    前記音声情報を受信する音声情報受信部と、
    前記音声情報受信部が受信した音声情報を、前記音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、
    前記音声認識結果を送信する音声認識結果送信部とを具備し、
    前記翻訳サーバ装置は、
    前記2以上の言語のうちのすべての言語または2以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、
    前記音声認識結果を受信する音声認識結果受信部と、
    前記音声認識結果受信部が受信した音声認識結果を、前記翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、
    前記翻訳結果を送信する翻訳結果送信部とを具備し、
    前記音声合成サーバ装置は、
    前記2以上の言語のうちのすべての言語または2以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、
    前記翻訳結果を受信する翻訳結果受信部と、
    前記翻訳結果受信部が受信した翻訳結果を、前記音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、
    前記音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システム。
  2. 音声を入力する第一端末装置、1以上の音声認識サーバ装置、1以上の翻訳サーバ装置、1以上の音声合成サーバ装置とを有する音声翻訳システムであって、
    前記第一端末装置は、
    音声を受け付ける第一音声受付部と、
    前記第一音声受付部が受け付けた音声から構成される音声情報を、前記音声認識サーバ装置に送信する第一音声送信部とを具備し、
    前記音声認識サーバ装置は、
    話者の属性値である話者属性を、1以上格納し得る第三話者属性格納部と、
    前記2以上の言語のうちのすべての言語または2以上の一部の言語について、2以上の音声認識モデルを格納し得る音声認識モデル格納部と、
    前記音声情報を受信する音声情報受信部と、
    前記1以上の話者属性に応じて、前記2以上の音声認識モデルから、一の音声認識モデルを選択する音声認識モデル選択部と、
    前記音声情報受信部が受信した音声情報を、前記音声認識モデル選択部が選択した音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、
    前記音声認識結果を送信する音声認識結果送信部とを具備し、
    前記翻訳サーバ装置は、
    前記2以上の言語のうちのすべての言語または2以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、
    前記音声認識結果を受信する音声認識結果受信部と、
    前記音声認識結果受信部が受信した音声認識結果を、前記翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、
    前記翻訳結果を送信する翻訳結果送信部とを具備し、
    前記音声合成サーバ装置は、
    前記2以上の言語のうちのすべての言語または2以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、
    前記翻訳結果を受信する翻訳結果受信部と、
    前記翻訳結果受信部が受信した翻訳結果を、前記音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、
    前記音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システム。
  3. 1以上の音声認識サーバ装置、2以上の翻訳サーバ装置、1以上の音声合成サーバ装置とを有する音声翻訳システムであって、
    前記音声認識サーバ装置は、
    話者の属性値である話者属性を、1以上格納し得る第三話者属性格納部と、
    前記2以上の言語のうちのすべての言語または2以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、
    音声情報を受信する音声情報受信部と、
    前記音声情報受信部が受信した音声情報を、前記音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、
    前記1以上の話者属性に応じて、前記2以上の翻訳サーバ装置のうち一の翻訳サーバ装置を選択する翻訳サーバ選択部と、
    前記翻訳サーバ選択部が選択した翻訳サーバ装置に、前記音声認識結果を送信する音声認識結果送信部とを具備し、
    前記翻訳サーバ装置は、
    前記2以上の言語のうちのすべての言語または2以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、
    前記音声認識結果を受信する音声認識結果受信部と、
    前記音声認識結果受信部が受信した音声認識結果を、前記翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、
    前記翻訳結果を送信する翻訳結果送信部とを具備し、
    前記音声合成サーバ装置は、
    前記2以上の言語のうちのすべての言語または2以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、
    前記翻訳結果を受信する翻訳結果受信部と、
    前記翻訳結果受信部が受信した翻訳結果を、前記音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、
    前記音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システム。
  4. 1以上の音声認識サーバ装置、1以上の翻訳サーバ装置、1以上の音声合成サーバ装置とを有する音声翻訳システムであって、
    前記音声認識サーバ装置は、
    前記2以上の言語のうちのすべての言語または2以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、
    音声情報を受信する音声情報受信部と、
    前記音声情報受信部が受信した音声情報を、前記音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、
    前記翻訳サーバ装置に、前記音声認識結果を送信する音声認識結果送信部とを具備し、
    前記翻訳サーバ装置は、
    前記2以上の言語のうちのすべての言語または2以上の一部の言語について、2以上の翻訳モデルを格納し得る翻訳モデル格納部と、
    1以上の話者属性を格納し得る第四話者属性格納部と、
    前記音声認識結果を受信する音声認識結果受信部と、
    前記1以上の話者属性に応じて、前記2以上の翻訳モデルから、一の翻訳モデルを選択する翻訳モデル選択部と、
    前記音声認識結果受信部が受信した音声認識結果を、前記翻訳モデル選択部が選択した翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、
    前記翻訳結果を送信する翻訳結果送信部とを具備し、
    前記音声合成サーバ装置は、
    前記2以上の言語のうちのすべての言語または2以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、
    前記翻訳結果を受信する翻訳結果受信部と、
    前記翻訳結果受信部が受信した翻訳結果を、前記音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、
    前記音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システム。
  5. 1以上の音声認識サーバ装置、1以上の翻訳サーバ装置、2以上の音声合成サーバ装置とを有する音声翻訳システムであって、
    前記音声認識サーバ装置は、
    前記2以上の言語のうちのすべての言語または2以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、
    音声情報を受信する音声情報受信部と、
    前記音声情報受信部が受信した音声情報を、前記音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、
    前記翻訳サーバ装置に、前記音声認識結果を送信する音声認識結果送信部とを具備し、
    前記翻訳サーバ装置は、
    前記2以上の言語のうちのすべての言語または2以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、
    1以上の話者属性を格納し得る第四話者属性格納部と、
    前記音声認識結果を受信する音声認識結果受信部と、
    前記音声認識結果受信部が受信した音声認識結果を、前記翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、
    前記1以上の話者属性に応じて、前記2以上の音声合成サーバ装置のうち一の音声合成サーバ装置を選択する音声合成サーバ選択部と、
    前記音声合成サーバ選択部が選択した音声合成サーバ装置に、前記翻訳結果を送信する翻訳結果送信部とを具備し、
    前記音声合成サーバ装置は、
    前記2以上の言語のうちのすべての言語または2以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、
    前記翻訳結果を受信する翻訳結果受信部と、
    前記翻訳結果受信部が受信した翻訳結果を、前記音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、
    前記音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システム。
  6. 1以上の音声認識サーバ装置、1以上の翻訳サーバ装置、1以上の音声合成サーバ装置とを有する音声翻訳システムであって、
    前記音声認識サーバ装置は、
    前記2以上の言語のうちのすべての言語または2以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、
    音声情報を受信する音声情報受信部と、
    前記音声情報受信部が受信した音声情報を、前記音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、
    前記翻訳サーバ装置に、前記音声認識結果を送信する音声認識結果送信部とを具備し、
    前記翻訳サーバ装置は、
    前記2以上の言語のうちのすべての言語または2以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、
    前記音声認識結果を受信する音声認識結果受信部と、
    前記音声認識結果受信部が受信した音声認識結果を、前記翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、
    前記音声合成サーバ装置に、前記翻訳結果を送信する翻訳結果送信部とを具備し、
    前記音声合成サーバ装置は、
    前記2以上の言語のうちのすべての言語または2以上の一部の言語について、2以上の音声合成モデルを格納し得る音声合成モデル格納部と、
    1以上の話者属性を格納し得る第五話者属性格納部と、
    前記翻訳結果を受信する翻訳結果受信部と、
    前記1以上の話者属性に応じて、前記2以上の音声合成モデルから、一の音声合成モデルを選択する音声合成モデル選択部と、
    前記翻訳結果受信部が受信した翻訳結果を、前記音声合成モデル選択部が選択した音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、
    前記音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システム。
  7. 前記第一端末装置は、
    1以上の話者属性を受け付ける第一話者属性受付部と、
    前記1以上の話者属性を、前記第一話者属性格納部に蓄積する第一話者属性蓄積部とを具備する請求項1記載の音声翻訳システム。
  8. 前記音声認識サーバ装置は、
    前記音声情報受信部が受信した音声情報から、1以上の音声に関する話者属性を取得する音声話者属性取得部と、
    前記音声話者属性取得部が取得した1以上の話者属性を、第三話者属性格納部に蓄積する第三話者属性蓄積部とをさらに具備する請求項2または請求項3記載の音声翻訳システム。
  9. 前記翻訳サーバ装置は、
    前記音声認識結果受信部が受信した音声認識結果から、1以上の言語に関する話者属性を取得する言語話者属性取得部と、
    前記言語話者属性取得部が取得した1以上の話者属性を前記第四話者属性格納部に蓄積する第四話者属性蓄積部とをさらに具備する請求項4または請求項5記載の音声翻訳システム。
  10. 前記話者が使用する言語である原言語を特定する原言語識別子、および翻訳先の言語である目的言語を特定する目的言語識別子、および1以上の話者属性を含む音声翻訳制御情報が、前記音声認識サーバ装置から前記1以上の翻訳サーバ装置を経由して、前記音声合成サーバ装置に送信され、
    前記音声認識サーバ選択部、または前記音声認識部、または音声認識モデル選択部、または前記翻訳サーバ選択部、または前記翻訳部、または翻訳モデル選択部、前記音声合成サーバ選択部、または前記音声合成部、または音声合成モデル選択部は、
    前記音声翻訳制御情報を用いて、各々の処理を行う請求項1記載の音声翻訳システム。
  11. 請求項1記載の音声翻訳システムを構成する第一端末装置。
  12. 請求項2または請求項3記載の音声翻訳システムを構成する音声認識サーバ装置。
  13. 請求項4または請求項5記載の音声翻訳システムを構成する翻訳サーバ装置。
  14. 請求項6記載の音声翻訳システムを構成する音声合成サーバ装置。
PCT/JP2010/053419 2009-10-02 2010-03-03 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置 WO2011040056A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020127008314A KR101683943B1 (ko) 2009-10-02 2010-03-03 음성번역 시스템, 제1 단말장치, 음성인식 서버장치, 번역 서버장치, 및 음성합성 서버장치
EP10820177.3A EP2485212A4 (en) 2009-10-02 2010-03-03 LANGUAGE TRANSLATION SYSTEM, FIRST END DEVICE, VOICE RECOGNITION SERVER, TRANSLATION SERVER AND LANGUAGE SYNTHESIS SERV
CN201080043645.3A CN102549653B (zh) 2009-10-02 2010-03-03 语音翻译系统、第一终端装置、语音识别服务器装置、翻译服务器装置以及语音合成服务器装置
JP2011534094A JP5598998B2 (ja) 2009-10-02 2010-03-03 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置
US13/499,311 US8862478B2 (en) 2009-10-02 2010-03-03 Speech translation system, first terminal apparatus, speech recognition server, translation server, and speech synthesis server

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009230442 2009-10-02
JP2009-230442 2009-10-02

Publications (1)

Publication Number Publication Date
WO2011040056A1 true WO2011040056A1 (ja) 2011-04-07

Family

ID=43825894

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/053419 WO2011040056A1 (ja) 2009-10-02 2010-03-03 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置

Country Status (6)

Country Link
US (1) US8862478B2 (ja)
EP (1) EP2485212A4 (ja)
JP (1) JP5598998B2 (ja)
KR (1) KR101683943B1 (ja)
CN (2) CN102549653B (ja)
WO (1) WO2011040056A1 (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013202080A (ja) * 2012-03-27 2013-10-07 Advanced Telecommunication Research Institute International コミュニケーションシステム、コミュニケーション装置、プログラムおよびコミュニケーション制御方法
JP2014519627A (ja) * 2011-06-13 2014-08-14 エムモーダル アイピー エルエルシー 疎結合コンポーネントを使用した音声認識
WO2015004909A1 (ja) * 2013-07-10 2015-01-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 話者識別方法及び話者識別システム
CN105161112A (zh) * 2015-09-21 2015-12-16 百度在线网络技术(北京)有限公司 语音识别方法和装置
JP2015537258A (ja) * 2012-12-12 2015-12-24 アマゾン テクノロジーズ インコーポレーテッド 分散音声認識システムにおける音声モデル検索
JP2018060362A (ja) * 2016-10-05 2018-04-12 株式会社リコー 情報処理システム、情報処理装置、及び情報処理方法
US10216729B2 (en) 2013-08-28 2019-02-26 Electronics And Telecommunications Research Institute Terminal device and hands-free device for hands-free automatic interpretation service, and hands-free automatic interpretation service method
JP2019049742A (ja) * 2012-08-10 2019-03-28 エイディシーテクノロジー株式会社 音声応答装置
WO2019111346A1 (ja) * 2017-12-06 2019-06-13 ソースネクスト株式会社 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム
WO2019225028A1 (ja) * 2018-05-25 2019-11-28 パナソニックIpマネジメント株式会社 翻訳装置、システム、方法及びプログラム並びに学習方法
JP2020155944A (ja) * 2019-03-20 2020-09-24 株式会社リコー 発話者検出システム、発話者検出方法及びプログラム
USD897307S1 (en) 2018-05-25 2020-09-29 Sourcenext Corporation Translator
KR20220048578A (ko) * 2020-10-13 2022-04-20 주식회사 케이티 음성 합성 스케쥴을 조정하는 캐쉬 서버, 방법 및 음성 합성을 수행하는 음성 합성 서버

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130243207A1 (en) * 2010-11-25 2013-09-19 Telefonaktiebolaget L M Ericsson (Publ) Analysis system and method for audio data
US9053096B2 (en) * 2011-12-01 2015-06-09 Elwha Llc Language translation based on speaker-related information
US8811638B2 (en) 2011-12-01 2014-08-19 Elwha Llc Audible assistance
US9107012B2 (en) 2011-12-01 2015-08-11 Elwha Llc Vehicular threat detection based on audio signals
US9159236B2 (en) 2011-12-01 2015-10-13 Elwha Llc Presentation of shared threat information in a transportation-related context
US9245254B2 (en) 2011-12-01 2016-01-26 Elwha Llc Enhanced voice conferencing with history, language translation and identification
US8934652B2 (en) 2011-12-01 2015-01-13 Elwha Llc Visual presentation of speaker-related information
US10875525B2 (en) 2011-12-01 2020-12-29 Microsoft Technology Licensing Llc Ability enhancement
US9368028B2 (en) 2011-12-01 2016-06-14 Microsoft Technology Licensing, Llc Determining threats based on information from road-based devices in a transportation-related context
US9064152B2 (en) 2011-12-01 2015-06-23 Elwha Llc Vehicular threat detection based on image analysis
JP5727980B2 (ja) * 2012-09-28 2015-06-03 株式会社東芝 表現変換装置、方法およびプログラム
CN103811003B (zh) * 2012-11-13 2019-09-24 联想(北京)有限公司 一种语音识别方法以及电子设备
US9959865B2 (en) 2012-11-13 2018-05-01 Beijing Lenovo Software Ltd. Information processing method with voice recognition
US9135916B2 (en) * 2013-02-26 2015-09-15 Honeywell International Inc. System and method for correcting accent induced speech transmission problems
CN104700836B (zh) 2013-12-10 2019-01-29 阿里巴巴集团控股有限公司 一种语音识别方法和系统
US9230542B2 (en) * 2014-04-01 2016-01-05 Zoom International S.R.O. Language-independent, non-semantic speech analytics
US9412358B2 (en) 2014-05-13 2016-08-09 At&T Intellectual Property I, L.P. System and method for data-driven socially customized models for language generation
US9437189B2 (en) * 2014-05-29 2016-09-06 Google Inc. Generating language models
US9678954B1 (en) * 2015-10-29 2017-06-13 Google Inc. Techniques for providing lexicon data for translation of a single word speech input
WO2017187712A1 (ja) * 2016-04-26 2017-11-02 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置
EP3455853A2 (en) * 2016-05-13 2019-03-20 Bose Corporation Processing speech from distributed microphones
KR102596430B1 (ko) * 2016-08-31 2023-10-31 삼성전자주식회사 화자 인식에 기초한 음성 인식 방법 및 장치
KR101917648B1 (ko) 2016-09-08 2018-11-13 주식회사 하이퍼커넥트 단말 및 그 제어 방법
CN106550156A (zh) * 2017-01-23 2017-03-29 苏州咖啦魔哆信息技术有限公司 一种基于语音识别的人工智能客服系统及其实现方法
CN108364633A (zh) * 2017-01-25 2018-08-03 晨星半导体股份有限公司 文字转语音系统以及文字转语音方法
JP7197259B2 (ja) * 2017-08-25 2022-12-27 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理方法、情報処理装置およびプログラム
KR102450823B1 (ko) 2017-10-12 2022-10-05 한국전자통신연구원 사용자 맞춤형 통번역 장치 및 방법
US10665234B2 (en) * 2017-10-18 2020-05-26 Motorola Mobility Llc Detecting audio trigger phrases for a voice recognition session
CN110021290A (zh) * 2018-01-08 2019-07-16 上海西门子医疗器械有限公司 医疗系统和用于医疗系统的实时语言转换方法
US10691894B2 (en) * 2018-05-01 2020-06-23 Disney Enterprises, Inc. Natural polite language generation system
KR102107447B1 (ko) * 2018-07-03 2020-06-02 주식회사 한글과컴퓨터 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치 및 그 동작 방법
JP7143665B2 (ja) * 2018-07-27 2022-09-29 富士通株式会社 音声認識装置、音声認識プログラムおよび音声認識方法
CN109388699A (zh) 2018-10-24 2019-02-26 北京小米移动软件有限公司 输入方法、装置、设备及存储介质
CN109861904B (zh) * 2019-02-19 2021-01-05 天津字节跳动科技有限公司 姓名标签显示方法和装置
JPWO2021192719A1 (ja) * 2020-03-27 2021-09-30
US20230351123A1 (en) * 2022-04-29 2023-11-02 Zoom Video Communications, Inc. Providing multistream machine translation during virtual conferences

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148176A (ja) * 1998-11-18 2000-05-26 Sony Corp 情報処理装置および方法、提供媒体、音声認識システム、音声合成システム、翻訳装置および方法、並びに翻訳システム
JP2002311983A (ja) * 2001-04-11 2002-10-25 Atr Onsei Gengo Tsushin Kenkyusho:Kk 翻訳電話システム
JP2003058458A (ja) * 2001-08-14 2003-02-28 Nippon Telegr & Teleph Corp <Ntt> 多言語遠隔マルチユーザコミュニケーションシステム
JP2005031758A (ja) * 2003-07-07 2005-02-03 Canon Inc 音声処理装置及び方法
JP2005140988A (ja) * 2003-11-06 2005-06-02 Canon Inc 音声認識装置及び方法
JP2008243080A (ja) 2007-03-28 2008-10-09 Toshiba Corp 音声を翻訳する装置、方法およびプログラム
JP2009140503A (ja) 2007-12-10 2009-06-25 Toshiba Corp 音声翻訳方法及び装置
JP2009527818A (ja) * 2006-02-17 2009-07-30 グーグル・インコーポレーテッド 分散型モデルの符号化及び適応可能なスケーラブルアクセス処理

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6052657A (en) * 1997-09-09 2000-04-18 Dragon Systems, Inc. Text segmentation and identification of topic using language models
US6219638B1 (en) * 1998-11-03 2001-04-17 International Business Machines Corporation Telephone messaging and editing system
US7263489B2 (en) * 1998-12-01 2007-08-28 Nuance Communications, Inc. Detection of characteristics of human-machine interactions for dialog customization and analysis
US6278968B1 (en) * 1999-01-29 2001-08-21 Sony Corporation Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
US6266642B1 (en) * 1999-01-29 2001-07-24 Sony Corporation Method and portable apparatus for performing spoken language translation
JP4517260B2 (ja) * 2000-09-11 2010-08-04 日本電気株式会社 自動通訳システム、自動通訳方法、および自動通訳用プログラムを記録した記憶媒体
EP1217609A3 (en) * 2000-12-22 2004-02-25 Hewlett-Packard Company Speech recognition
JP2002245038A (ja) * 2001-02-21 2002-08-30 Ricoh Co Ltd 携帯端末装置による多国語翻訳システム
US6996525B2 (en) * 2001-06-15 2006-02-07 Intel Corporation Selecting one of multiple speech recognizers in a system based on performance predections resulting from experience
JP2004048277A (ja) * 2002-07-10 2004-02-12 Mitsubishi Electric Corp 通信システム
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
CN1221937C (zh) * 2002-12-31 2005-10-05 北京天朗语音科技有限公司 语速自适应的语音识别系统
US20050144012A1 (en) * 2003-11-06 2005-06-30 Alireza Afrashteh One button push to translate languages over a wireless cellular radio
JP2005202884A (ja) * 2004-01-19 2005-07-28 Toshiba Corp 送信装置、受信装置、中継装置、および送受信システム
US8036893B2 (en) * 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
US7624013B2 (en) * 2004-09-10 2009-11-24 Scientific Learning Corporation Word competition models in voice recognition
JP2006099296A (ja) * 2004-09-29 2006-04-13 Nec Corp 翻訳システム、翻訳通信システム、機械翻訳方法、および、プログラム
WO2006083690A2 (en) * 2005-02-01 2006-08-10 Embedded Technologies, Llc Language engine coordination and switching
JP4731174B2 (ja) * 2005-02-04 2011-07-20 Kddi株式会社 音声認識装置、音声認識システム及びコンピュータプログラム
CN1953052B (zh) * 2005-10-20 2010-09-08 株式会社东芝 训练时长预测模型、时长预测和语音合成的方法及装置
WO2007070558A2 (en) * 2005-12-12 2007-06-21 Meadan, Inc. Language translation using a hybrid network of human and machine translators
US7822606B2 (en) * 2006-07-14 2010-10-26 Qualcomm Incorporated Method and apparatus for generating audio information from received synthesis information
US7881928B2 (en) * 2006-09-01 2011-02-01 International Business Machines Corporation Enhanced linguistic transformation
US7702510B2 (en) * 2007-01-12 2010-04-20 Nuance Communications, Inc. System and method for dynamically selecting among TTS systems
CN101266600A (zh) * 2008-05-07 2008-09-17 陈光火 多媒体多语言互动同步翻译方法
US8868430B2 (en) * 2009-01-16 2014-10-21 Sony Corporation Methods, devices, and computer program products for providing real-time language translation capabilities between communication terminals
US8515749B2 (en) * 2009-05-20 2013-08-20 Raytheon Bbn Technologies Corp. Speech-to-speech translation
US8386235B2 (en) * 2010-05-20 2013-02-26 Acosys Limited Collaborative translation system and method

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148176A (ja) * 1998-11-18 2000-05-26 Sony Corp 情報処理装置および方法、提供媒体、音声認識システム、音声合成システム、翻訳装置および方法、並びに翻訳システム
JP2002311983A (ja) * 2001-04-11 2002-10-25 Atr Onsei Gengo Tsushin Kenkyusho:Kk 翻訳電話システム
JP2003058458A (ja) * 2001-08-14 2003-02-28 Nippon Telegr & Teleph Corp <Ntt> 多言語遠隔マルチユーザコミュニケーションシステム
JP2005031758A (ja) * 2003-07-07 2005-02-03 Canon Inc 音声処理装置及び方法
JP2005140988A (ja) * 2003-11-06 2005-06-02 Canon Inc 音声認識装置及び方法
JP2009527818A (ja) * 2006-02-17 2009-07-30 グーグル・インコーポレーテッド 分散型モデルの符号化及び適応可能なスケーラブルアクセス処理
JP2008243080A (ja) 2007-03-28 2008-10-09 Toshiba Corp 音声を翻訳する装置、方法およびプログラム
JP2009140503A (ja) 2007-12-10 2009-06-25 Toshiba Corp 音声翻訳方法及び装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2485212A4

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9454961B2 (en) 2011-06-13 2016-09-27 Mmodal Ip Llc Speech recognition using loosely coupled components
JP2014519627A (ja) * 2011-06-13 2014-08-14 エムモーダル アイピー エルエルシー 疎結合コンポーネントを使用した音声認識
US9666190B2 (en) 2011-06-13 2017-05-30 Mmodal Ip Llc Speech recognition using loosely coupled components
JP2013202080A (ja) * 2012-03-27 2013-10-07 Advanced Telecommunication Research Institute International コミュニケーションシステム、コミュニケーション装置、プログラムおよびコミュニケーション制御方法
JP2019049742A (ja) * 2012-08-10 2019-03-28 エイディシーテクノロジー株式会社 音声応答装置
JP2015537258A (ja) * 2012-12-12 2015-12-24 アマゾン テクノロジーズ インコーポレーテッド 分散音声認識システムにおける音声モデル検索
US10152973B2 (en) 2012-12-12 2018-12-11 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
WO2015004909A1 (ja) * 2013-07-10 2015-01-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 話者識別方法及び話者識別システム
JPWO2015004909A1 (ja) * 2013-07-10 2017-03-02 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 話者識別方法及び話者識別システム
US9349372B2 (en) 2013-07-10 2016-05-24 Panasonic Intellectual Property Corporation Of America Speaker identification method, and speaker identification system
US10216729B2 (en) 2013-08-28 2019-02-26 Electronics And Telecommunications Research Institute Terminal device and hands-free device for hands-free automatic interpretation service, and hands-free automatic interpretation service method
CN105161112A (zh) * 2015-09-21 2015-12-16 百度在线网络技术(北京)有限公司 语音识别方法和装置
JP2022046660A (ja) * 2016-10-05 2022-03-23 株式会社リコー 情報処理システム、情報処理装置、プログラム、及び情報処理方法
JP2018060362A (ja) * 2016-10-05 2018-04-12 株式会社リコー 情報処理システム、情報処理装置、及び情報処理方法
US12008335B2 (en) 2016-10-05 2024-06-11 Ricoh Company, Ltd. Information processing system, information processing apparatus, and information processing method
JP7338676B2 (ja) 2016-10-05 2023-09-05 株式会社リコー 情報処理システム、情報処理装置、プログラム、及び情報処理方法
US10956686B2 (en) 2016-10-05 2021-03-23 Ricoh Company, Ltd. Information processing system, information processing apparatus, and information processing method
JP7000671B2 (ja) 2016-10-05 2022-01-19 株式会社リコー 情報処理システム、情報処理装置、及び情報処理方法
WO2019111346A1 (ja) * 2017-12-06 2019-06-13 ソースネクスト株式会社 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム
JPWO2019111346A1 (ja) * 2017-12-06 2020-10-22 ソースネクスト株式会社 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム
USD897307S1 (en) 2018-05-25 2020-09-29 Sourcenext Corporation Translator
WO2019225028A1 (ja) * 2018-05-25 2019-11-28 パナソニックIpマネジメント株式会社 翻訳装置、システム、方法及びプログラム並びに学習方法
JP7259447B2 (ja) 2019-03-20 2023-04-18 株式会社リコー 発話者検出システム、発話者検出方法及びプログラム
JP2020155944A (ja) * 2019-03-20 2020-09-24 株式会社リコー 発話者検出システム、発話者検出方法及びプログラム
KR20220048578A (ko) * 2020-10-13 2022-04-20 주식회사 케이티 음성 합성 스케쥴을 조정하는 캐쉬 서버, 방법 및 음성 합성을 수행하는 음성 합성 서버
KR102428296B1 (ko) * 2020-10-13 2022-08-02 주식회사 케이티 음성 합성 스케쥴을 조정하는 캐쉬 서버, 방법 및 음성 합성을 수행하는 음성 합성 서버

Also Published As

Publication number Publication date
EP2485212A4 (en) 2016-12-07
CN102549653A (zh) 2012-07-04
US8862478B2 (en) 2014-10-14
JPWO2011040056A1 (ja) 2013-02-21
EP2485212A1 (en) 2012-08-08
CN102549653B (zh) 2014-04-30
KR20120086287A (ko) 2012-08-02
CN103345467B (zh) 2017-06-09
JP5598998B2 (ja) 2014-10-01
CN103345467A (zh) 2013-10-09
US20120197629A1 (en) 2012-08-02
KR101683943B1 (ko) 2016-12-07

Similar Documents

Publication Publication Date Title
JP5598998B2 (ja) 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置
JP5545467B2 (ja) 音声翻訳システム、制御装置、および情報処理方法
US7689417B2 (en) Method, system and apparatus for improved voice recognition
CN102792294B (zh) 自然语言语音服务环境中的混合处理的系统及方法
US9761241B2 (en) System and method for providing network coordinated conversational services
JP2023022150A (ja) 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム
WO2014010450A1 (ja) 音声処理システム及び端末装置
JP5062171B2 (ja) 音声認識システム、音声認識方法および音声認識用プログラム
JP2018017936A (ja) 音声対話装置、サーバ装置、音声対話方法、音声処理方法およびプログラム
EP1899955B1 (en) Speech dialog method and system
JP6580281B1 (ja) 翻訳装置、翻訳方法、および翻訳プログラム
JP5704686B2 (ja) 音声翻訳システム、音声翻訳装置、音声翻訳方法、およびプログラム
KR102376552B1 (ko) 음성 합성 장치 및 음성 합성 방법
US20170185587A1 (en) Machine translation method and machine translation system
Fischer et al. Towards multi-modal interfaces for embedded devices
JP2017009685A (ja) 情報処理装置、情報処理方法、及びプログラム
CN118101877A (zh) 用于实时通讯的字幕生成方法、系统、存储介质及电子设备
Di Fabbrizio et al. Speech Mashups
JP2018097201A (ja) 音声対話装置および対話方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201080043645.3

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10820177

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2011534094

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2010820177

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 20127008314

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 13499311

Country of ref document: US