WO2011040056A1

WO2011040056A1 - 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置

Info

Publication number: WO2011040056A1
Application number: PCT/JP2010/053419
Authority: WO
Inventors: 中村　哲; 隅田　英一郎; 葦苅　豊; 法幸木村; 堀　智織
Original assignee: 独立行政法人情報通信研究機構
Priority date: 2009-10-02
Filing date: 2010-03-03
Publication date: 2011-04-07
Also published as: EP2485212A4; CN102549653A; US8862478B2; JPWO2011040056A1; EP2485212A1; CN102549653B; KR20120086287A; CN103345467B; JP5598998B2; CN103345467A; US20120197629A1; KR101683943B1

Abstract

【課題】従来のネットワーク型の音声翻訳システムにおいて、話者の属性に応じて音声認識や翻訳や音声合成を行う装置やモデルを変更できなかったために、音声認識や翻訳や音声合成の各処理において、精度が低下したり、不適切な出力が生じたりしていた。【解決手段】ネットワーク型の音声翻訳システムにおいて、話者属性に基づいて、音声認識を行うサーバ装置や音声認識モデルを適切に変更したり、翻訳を行うサーバ装置や翻訳モデルを適切に変更したり、音声合成を行うサーバ装置や音声合成モデルを適切に変更したりすることにより、音声認識、または翻訳、または音声合成の各処理において、精度が向上し、適切な出力が行われる。

Description

音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置

　本発明は、音声翻訳を行う音声翻訳システム等に関するものである。

　従来の音声翻訳システムにおいて、音声認識の精度を向上させたり、翻訳処理の精度を向上させたり等、各部分処理の精度を向上させるための技術が存在した（例えば、特許文献１、特許文献２参照）。
特開２００８－２４３０８０号公報（第１頁、第１図等）特開２００９－１４０５０３号公報（第１頁、第１図等）

　しかしながら、従来の音声翻訳システムにおいては、音声翻訳において、話者の属性に応じて音声認識や翻訳や音声合成を行う装置やモデルを変更できなかったために、音声認識や翻訳や音声合成の各処理において、精度が低下したり、不適切な出力が生じたりしていた。

　本第一の発明の音声翻訳システムは、音声を入力する第一端末装置、２以上の音声認識サーバ装置、１以上の翻訳サーバ装置、１以上の音声合成サーバ装置とを有する音声翻訳システムであって、第一端末装置は、話者の属性値である話者属性を、１以上格納し得る第一話者属性格納部と、音声を受け付ける第一音声受付部と、１以上の話者属性に応じて、２以上の音声認識サーバ装置のうち一の音声認識サーバ装置を選択する第一音声認識サーバ選択部と、第一音声認識サーバ選択部が選択した音声認識サーバ装置に、第一音声受付部が受け付けた音声から構成される音声情報を送信する第一音声送信部とを具備し、音声認識サーバ装置は、２以上の言語のうちのすべての言語または２以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、音声情報を受信する音声情報受信部と、音声情報受信部が受信した音声情報を、音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、音声認識結果を送信する音声認識結果送信部とを具備し、翻訳サーバ装置は、２以上の言語のうちのすべての言語または２以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、音声認識結果を受信する音声認識結果受信部と、音声認識結果受信部が受信した音声認識結果を、翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、翻訳結果を送信する翻訳結果送信部とを具備し、音声合成サーバ装置は、２以上の言語のうちのすべての言語または２以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、翻訳結果を受信する翻訳結果受信部と、翻訳結果受信部が受信した翻訳結果を、音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムである。

　かかる構成により、音声翻訳において、話者の属性に応じて音声認識を行う装置を変更でき、音声認識処理において、精度が向上する。

　また、本第二の発明の音声翻訳システムは、音声を入力する第一端末装置、１以上の音声認識サーバ装置、１以上の翻訳サーバ装置、１以上の音声合成サーバ装置とを有する音声翻訳システムであって、第一端末装置は、音声を受け付ける第一音声受付部と、第一音声受付部が受け付けた音声から構成される音声情報を、音声認識サーバ装置に送信する第一音声送信部とを具備し、音声認識サーバ装置は、話者の属性値である話者属性を、１以上格納し得る第三話者属性格納部と、２以上の言語のうちのすべての言語または２以上の一部の言語について、２以上の音声認識モデルを格納し得る音声認識モデル格納部と、音声情報を受信する音声情報受信部と、１以上の話者属性に応じて、２以上の音声認識モデルから、一の音声認識モデルを選択する音声認識モデル選択部と、音声情報受信部が受信した音声情報を、音声認識モデル選択部が選択した音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、音声認識結果を送信する音声認識結果送信部とを具備し、翻訳サーバ装置は、２以上の言語のうちのすべての言語または２以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、音声認識結果を受信する音声認識結果受信部と、音声認識結果受信部が受信した音声認識結果を、翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、翻訳結果を送信する翻訳結果送信部とを具備し、音声合成サーバ装置は、２以上の言語のうちのすべての言語または２以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、翻訳結果を受信する翻訳結果受信部と、翻訳結果受信部が受信した翻訳結果を、音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムである。

　かかる構成により、音声翻訳において、話者の属性に応じて音声認識を行うモデルを変更でき、音声認識処理において、精度が向上する。

　また、本第三の発明の音声翻訳システムは、１以上の音声認識サーバ装置、２以上の翻訳サーバ装置、１以上の音声合成サーバ装置とを有する音声翻訳システムであって、音声認識サーバ装置は、話者の属性値である話者属性を、１以上格納し得る第三話者属性格納部と、２以上の言語のうちのすべての言語または２以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、音声情報を受信する音声情報受信部と、音声情報受信部が受信した音声情報を、音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、１以上の話者属性に応じて、２以上の翻訳サーバ装置のうち一の翻訳サーバ装置を選択する翻訳サーバ選択部と、翻訳サーバ選択部が選択した翻訳サーバ装置に、音声認識結果を送信する音声認識結果送信部とを具備し、翻訳サーバ装置は、２以上の言語のうちのすべての言語または２以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、音声認識結果を受信する音声認識結果受信部と、音声認識結果受信部が受信した音声認識結果を、翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、翻訳結果を送信する翻訳結果送信部とを具備し、音声合成サーバ装置は、２以上の言語のうちのすべての言語または２以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、翻訳結果を受信する翻訳結果受信部と、翻訳結果受信部が受信した翻訳結果を、音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムである。

　かかる構成により、音声翻訳において、話者の属性に応じて翻訳を行う装置を変更でき、翻訳処理において、精度が向上する。

　また、本第四の発明の音声翻訳システムは、１以上の音声認識サーバ装置、１以上の翻訳サーバ装置、１以上の音声合成サーバ装置とを有する音声翻訳システムであって、音声認識サーバ装置は、２以上の言語のうちのすべての言語または２以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、音声情報を受信する音声情報受信部と、音声情報受信部が受信した音声情報を、音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、翻訳サーバ装置に、音声認識結果を送信する音声認識結果送信部とを具備し、翻訳サーバ装置は、２以上の言語のうちのすべての言語または２以上の一部の言語について、２以上の翻訳モデルを格納し得る翻訳モデル格納部と、１以上の話者属性を格納し得る第四話者属性格納部と、音声認識結果を受信する音声認識結果受信部と、１以上の話者属性に応じて、２以上の翻訳モデルから、一の翻訳モデルを選択する翻訳モデル選択部と、音声認識結果受信部が受信した音声認識結果を、翻訳モデル選択部が選択した翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、翻訳結果を送信する翻訳結果送信部とを具備し、音声合成サーバ装置は、２以上の言語のうちのすべての言語または２以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、翻訳結果を受信する翻訳結果受信部と、翻訳結果受信部が受信した翻訳結果を、音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムである。

　かかる構成により、音声翻訳において、話者の属性に応じて翻訳行うモデルを変更でき、翻訳処理において、精度が向上する。

　また、本第五の発明の音声翻訳システムは、１以上の音声認識サーバ装置、１以上の翻訳サーバ装置、２以上の音声合成サーバ装置とを有する音声翻訳システムであって、音声認識サーバ装置は、２以上の言語のうちのすべての言語または２以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、音声情報を受信する音声情報受信部と、音声情報受信部が受信した音声情報を、音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、翻訳サーバ装置に、音声認識結果を送信する音声認識結果送信部とを具備し、翻訳サーバ装置は、２以上の言語のうちのすべての言語または２以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、１以上の話者属性を格納し得る第四話者属性格納部と、音声認識結果を受信する音声認識結果受信部と、音声認識結果受信部が受信した音声認識結果を、翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、１以上の話者属性に応じて、２以上の音声合成サーバ装置のうち一の音声合成サーバ装置を選択する音声合成サーバ選択部と、音声合成サーバ選択部が選択した音声合成サーバ装置に、翻訳結果を送信する翻訳結果送信部とを具備し、音声合成サーバ装置は、２以上の言語のうちのすべての言語または２以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、翻訳結果を受信する翻訳結果受信部と、翻訳結果受信部が受信した翻訳結果を、音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムである。

　かかる構成により、音声翻訳において、話者の属性に応じて音声合成を行う装置を変更でき、音声合成処理において、適切な出力が行われる。

　また、本第六の発明の音声翻訳システムは、１以上の音声認識サーバ装置、１以上の翻訳サーバ装置、１以上の音声合成サーバ装置とを有する音声翻訳システムであって、音声認識サーバ装置は、２以上の言語のうちのすべての言語または２以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、音声情報を受信する音声情報受信部と、音声情報受信部が受信した音声情報を、音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、翻訳サーバ装置に、音声認識結果を送信する音声認識結果送信部とを具備し、翻訳サーバ装置は、２以上の言語のうちのすべての言語または２以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、音声認識結果を受信する音声認識結果受信部と、音声認識結果受信部が受信した音声認識結果を、翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、音声合成サーバ装置に、翻訳結果を送信する翻訳結果送信部とを具備し、音声合成サーバ装置は、２以上の言語のうちのすべての言語または２以上の一部の言語について、２以上の音声合成モデルを格納し得る音声合成モデル格納部と、１以上の話者属性を格納し得る第五話者属性格納部と、翻訳結果を受信する翻訳結果受信部と、１以上の話者属性に応じて、２以上の音声合成モデルから、一の音声合成モデルを選択する音声合成モデル選択部と、翻訳結果受信部が受信した翻訳結果を、音声合成モデル選択部が選択した音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムである。

　かかる構成により、音声翻訳において、話者の属性に応じて音声合成を行うモデルを変更でき、音声合成処理において、適切な出力が行われる。

　また、本第七の発明の音声翻訳システムは、第一の発明に対して、第一端末装置は、１以上の話者属性を受け付ける第一話者属性受付部と、１以上の話者属性を、第一話者属性格納部に蓄積する第一話者属性蓄積部とを具備する音声翻訳システムである。

　かかる構成により、話者が用いる端末において、話者属性の設定ができるために、音声認識や翻訳や音声合成の各処理において話者属性が利用でき、音声認識や翻訳や音声合成の各処理において、精度が向上し、適切な出力が行われる。

　また、本第八の発明の音声翻訳システムは、第二から第六いずれかの発明に対して、音声認識サーバ装置は、音声情報受信部が受信した音声情報から、１以上の音声に関する話者属性を取得する音声話者属性取得部と、音声話者属性取得部が取得した１以上の話者属性を、第三話者属性格納部に蓄積する第三話者属性蓄積部とをさらに具備する音声翻訳システムである。

　かかる構成により、自動的に音声に関する話者属性が取得できるために、音声認識や翻訳や音声合成の各処理において話者属性が利用でき、音声認識や翻訳や音声合成の各処理において、精度が向上し、適切な出力が行われる。

　また、本第九の発明の音声翻訳システムは、第二から第六いずれかの発明に対して、翻訳サーバ装置は、音声認識結果受信部が受信した音声認識結果から、１以上の言語に関する話者属性を取得する言語話者属性取得部と、言語話者属性取得部が取得した１以上の話者属性を、第四話者属性格納部に蓄積する第四話者属性蓄積部とをさらに具備する音声翻訳システムである。

　かかる構成により、自動的に言語に関する話者属性が取得できるために、音声認識や翻訳や音声合成の各処理において話者属性が利用でき、音声認識や翻訳や音声合成の各処理において、精度が向上し、適切な出力が行われる。

　また、本第十の発明の音声翻訳システムは、第一から第九いずれかの発明に対して、話者が使用する言語である原言語を特定する原言語識別子、および翻訳先の言語である目的言語を特定する目的言語識別子、および１以上の話者属性を含む音声翻訳制御情報が、音声認識サーバ装置から１以上の翻訳サーバ装置を経由して、音声合成サーバ装置に送信され、音声認識サーバ選択部、または音声認識部、または音声認識モデル選択部、または翻訳サーバ選択部、または翻訳部、または翻訳モデル選択部、音声合成サーバ選択部、または音声合成部、または音声合成モデル選択部は、音声翻訳制御情報を用いて、各々の処理を行う音声翻訳システムである。

　かかる構成により、話者属性を含む音声翻訳制御情報が流通し、音声認識、翻訳、および音声合成において、同一の話者を想定した処理が行われ、音声認識や翻訳や音声合成の各処理において、精度が向上し、適切な出力が行われる。

　本発明による音声翻訳システムによれば、音声翻訳において、音声認識、または翻訳、または音声合成の各処理において、精度が向上し、適切な出力が行われる。

　以下、音声翻訳システム等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
（実施の形態１）

　本実施の形態において、ネットワーク型音声翻訳システムにおいて、話者属性に基づいて、音声認識を行うサーバ装置や音声認識モデルを適切に変更したり、翻訳を行うサーバ装置や翻訳モデルを適切に変更したり、音声合成を行うサーバ装置や音声合成モデルを適切に変更したりすることにより、精度の高い音声翻訳を行えるネットワーク型音声翻訳システムについて説明する。

　図１は、本実施の形態における音声翻訳システムの概念図である。音声翻訳システムは、１以上の第一端末装置１、１以上の第二端末装置２、１以上の音声認識サーバ装置３、１以上の翻訳サーバ装置４、１以上の音声合成サーバ装置５を具備する。

　音声翻訳システムにおいて、例えば、第一端末装置１のユーザ（ユーザＡ）である日本人が日本語で「おはようございます」と発話した場合、音声認識サーバ装置３は日本語「おはようございます」を音声認識する。そして、翻訳サーバ装置４は音声認識結果を、例えば、英語「Ｇｏｏｄ　ｍｏｒｎｉｎｇ」に翻訳する。次に、音声合成サーバ装置５は英文「Ｇｏｏｄ　ｍｏｒｎｉｎｇ」から「Ｇｏｏｄ　ｍｏｒｎｉｎｇ」の音声情報を作りだす。そして、英語のネイティブであるユーザＢの第二端末装置２から、音声「Ｇｏｏｄ　ｍｏｒｎｉｎｇ」が出力される。

　第一端末装置１および第二端末装置２は、例えば、通話する端末（電話、携帯電話を含む）である。ここでは、主として、第一端末装置１を発話する側の端末、第二端末装置２を発話される側の端末として説明するが、両者は入れ替われることは言うまでもない。また、通常、第一端末装置１と第二端末装置２とが、発話する側の端末、発話される側の端末として、順次、連続的に入れ替わりながら、第一端末装置１のユーザＡと第二端末装置２のユーザＢとが会話を進めていく。また、第一端末装置１および第二端末装置２は、同様の機能（下記の構成要素）を有するとして説明するが、それぞれ、一部に有しない機能があっても良いことは言うまでもない。また、第一端末装置１のユーザ（話者）をユーザＡ、第二端末装置２のユーザ（話者）をユーザＢとして、以下、説明する。

　図２は、本実施の形態における音声翻訳システムのブロック図である。また、図３は、音声認識サーバ装置３のブロック図である。図４は、翻訳サーバ装置４のブロック図である。図５は、音声合成サーバ装置５のブロック図である。

　音声翻訳システムは、１以上の第一端末装置１、１以上の第二端末装置２、１以上の音声認識サーバ装置３、１以上の翻訳サーバ装置４、１以上の音声合成サーバ装置５を備える。

　第一端末装置１は、第一話者属性格納部１１、第一話者属性受付部１２、第一話者属性蓄積部１３、第一音声受付部１４、第一音声認識サーバ選択部１５、第一音声送信部１６、第一音声受信部１７、第一音声出力部１８、第一話者属性送信部１９を備える。第一音声認識サーバ選択部１５は、第一サーバ選択情報格納手段１５１、第一サーバ選択手段１５２を備える。

　第二端末装置２は、第二話者属性格納部２１、第二話者属性受付部２２、第二話者属性蓄積部２３、第二音声受付部２４、第二音声認識サーバ選択部２５、第二音声送信部２６、第二音声受信部２７、第二音声出力部２８、第二話者属性送信部２９を備える。第二音声認識サーバ選択部２５は、第二サーバ選択情報格納手段２５１、第二サーバ選択手段２５２を備える。

　音声認識サーバ装置３は、第三話者属性格納部３０１、音声認識モデル格納部３０２、第三話者属性受信部３０３、音声話者属性取得部３０４、第三話者属性蓄積部３０５、音声情報受信部３０６、音声認識モデル選択部３０７、音声認識部３０８、翻訳サーバ選択部３０９、音声認識結果送信部３１０、第三話者属性送信部３１１を備える。音声認識モデル選択部３０７は、第三モデル選択情報格納手段３０７１、第三モデル選択手段３０７２を備える。また、翻訳サーバ選択部３０９は、第三サーバ選択情報格納手段３０９１、第三サーバ選択手段３０９２を備える。

　翻訳サーバ装置４は、第四話者属性格納部４０１、翻訳モデル格納部４０２、第四話者属性受信部４０３、言語話者属性取得部４０４、第四話者属性蓄積部４０５、音声認識結果受信部４０６、翻訳モデル選択部４０７、翻訳部４０８、音声合成サーバ選択部４０９、翻訳結果送信部４１０、第四話者属性送信部４１１を備える。翻訳モデル選択部４０７は、第四モデル選択情報格納手段４０７１、第四モデル選択手段４０７２を備える。音声合成サーバ選択部４０９は、第四サーバ選択情報格納手段４０９１、第四サーバ選択手段４０９２を備える。

　音声合成サーバ装置５は、第五話者属性格納部５０１、音声合成モデル格納部５０２、第五話者属性受信部５０３、第五話者属性蓄積部５０４、翻訳結果受信部５０５、音声合成モデル選択部５０６、音声合成部５０７、音声合成結果送信部５０８を備える。音声合成モデル選択部５０６は、第五モデル選択情報格納手段５０６１、第五モデル選択手段５０６２を備える。

　以下、各構成要素の機能、実現手段等について説明する。ただし、第一端末装置１の構成要素の機能と、対応する第二端末装置２の構成要素の機能とは同じ（例えば、第一話者属性受付部１２と第二話者属性受付部２２の機能は同じ）であるので、第一端末装置１の構成要素についてのみ説明する。

　第一端末装置１を構成する第一話者属性格納部１１は、１以上の話者属性を格納し得る。話者属性とは、話者の属性値である。話者属性とは、例えば、話者の性別、年齢、話速、話者クラス（話者が使用する言語に関して、使う単語の難しさ，文法の正しさなどを考慮した熟練度）などである。話者クラスは、使う単語の難しさの度合いを示す情報、使う用語の丁寧さの度合いを示す情報、文法の正しさの度合いを示す情報、およびこれらの複合的な度合いを示す情報、ネイティブか否かを示す情報などである。また、話者属性には、話者の感情（嬉しい、悲しいなど）なども含まれても良い。なお、話者属性の内容は問わないことは言うまでもない。また、話者属性には、話者が特定されれば、一時的には変化の無い属性である静的話者属性情報と、時々により変化し得る属性である動的話者属性情報とがある。静的話者属性情報には、例えば、上述した話者の性別、年齢、話者クラスなどがある。また、動的話者属性情報には、話速や感情などがある。
　第一話者属性格納部１１に格納されている話者属性は、通常、第一端末装置１のユーザが入力した情報である。また、第一話者属性格納部１１に格納されている話者属性は、通常、静的話者属性情報である。第一話者属性格納部１１は、１以上の話者属性を含む音声翻訳制御情報を格納していても良い。かかる場合、第一話者属性格納部１１は、第一音声翻訳制御情報格納部１１と呼んでも良い。

　第一話者属性受付部１２は、第一端末装置１のユーザから、１以上の話者属性を受け付ける。ここで、受け付けとは、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。話者属性の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。

　第一話者属性蓄積部１３は、第一話者属性受付部１２が受け付けた１以上の話者属性を、第一話者属性格納部１１に蓄積する。

　第一音声受付部１４は、第一端末装置１のユーザ（ユーザＡという）から音声を受け付ける。

　第一音声認識サーバ選択部１５は、１以上の話者属性に応じて、２以上の音声認識サーバ装置３のうち一の音声認識サーバ装置３を選択する。例えば、第一音声認識サーバ選択部１５は、音声認識サーバ選択情報管理表を用いて選択する。第一音声認識サーバ選択部１５は、図示しないサーバ装置（後述する制御装置２５６）にあっても良い。かかる場合、第一音声送信部１６も図示しないサーバ装置に存在しても良い。ここで、音声認識サーバ装置３の選択とは、例えば、一の音声認識サーバ装置３と通信するための情報（例えば、一の音声認識サーバ装置３のＩＰアドレス）などを取得する処理である。また、第一音声認識サーバ選択部１５は、１以上の話者属性を含む音声翻訳制御情報を用いて、２以上の音声認識サーバ装置３のうち一の音声認識サーバ装置３を選択することは好適である。音声翻訳制御情報とは、音声認識サーバ装置３、翻訳サーバ装置４、および音声合成サーバ装置５が、それぞれ音声認識、翻訳、および音声合成を行ったり、処理結果を送信したりするための情報を有する。音声翻訳制御情報は、例えば、処理結果を送信する先を特定する情報（ＩＰアドレスや電話番号など）、原言語や目的言語を特定する情報（日本語、英語、ドイツ語など）などを有する。第一端末装置１（第二端末装置２も同様である）の図示しない受付部（第一話者属性受付部１２でも良い）は、例えば、原言語と目的言語を、ユーザから受け付ける。また、第一音声認識サーバ選択部１５は、例えば、第二端末装置２の電話番号やＩＰアドレスなどから、自動的に原言語と目的言語を決定する。かかる場合、第一音声認識サーバ選択部１５は、電話番号やＩＰアドレスなどの情報と、言語を特定する情報を対応付けて保持していたり、電話番号やＩＰアドレスなどの情報をキーとして他の装置から言語を特定する情報を取得したりする。また、第一音声認識サーバ選択部１５は、原言語や目的言語から音声認識すべき音声認識サーバ装置３を特定する情報（ＩＰアドレスなど）や、翻訳サーバ装置４を特定する情報（ＩＰアドレスなど）や、音声合成サーバ装置５を特定する情報（ＩＰアドレスなど）を取得する。つまり、第一音声認識サーバ選択部１５は、原言語や目的言語と、各サーバ装置を特定する情報とを対応付けて有していたり、原言語や目的言語を用いて、他の装置から、各サーバ装置を特定する情報を取得したりする。また、音声翻訳制御情報は、通常、１以上の話者属性を有し、かつ、入力音声のフォーマットを示す情報、出力音声のフォーマットを示す情報、入出力音声の声質を指定する情報、入力テキストのフォーマットを示す情報、出力テキストのフォーマットを示す情報なども有しても良い。

　第一サーバ選択情報格納手段１５１は、音声認識サーバ装置３を識別する音声認識サーバ識別子と、１以上の話者属性とを対応付けて有する音声認識サーバ選択情報を、２以上有する音声認識サーバ選択情報管理表を格納している。音声認識サーバ識別子は、例えば、音声認識サーバ装置３と通信するための情報（例えば、一の音声認識サーバ装置３のＩＰアドレス）である。

　第一サーバ選択手段１５２は、第一話者属性格納部１１に格納されている１以上の話者属性に対応する音声認識サーバ識別子を、第一サーバ選択情報格納手段１５１から検索する。

　第一音声送信部１６は、第一音声受付部１４が受け付けた音声から構成した音声情報を送信する。音声の送信先は、１以上の音声認識サーバ装置３のうちのいずれかである。第一音声送信部１６は、第一音声認識サーバ選択部１５が選択した音声認識サーバ装置３に、第一音声受付部１４が受け付けた音声から構成される音声情報を送信することは好適である。なお、第一音声送信部１６は、２以上の音声認識サーバ装置３に音声情報を送信しても良い。また、ここで、音声情報は、音声から構成されるデジタル情報であることは好適である。さらに、第一音声送信部１６は、直接的に音声を１以上の音声認識サーバ装置３に送信しても良いし、他の装置経由で（間接的に）、音声を１以上の音声認識サーバ装置３に送信しても良い。

　第一音声受信部１７は、第二端末装置２のユーザＢから発声された音声から構成された音声情報を音声翻訳した結果である音声情報を受信する。この音声情報は、通常、第一端末装置１のユーザＡが理解できる言語に翻訳された音声の情報である。この音声情報は、通常、第二端末装置２から音声認識サーバ装置３、翻訳サーバ装置４、および音声合成サーバ装置５を経由して送信されてきた情報である。

　第一音声出力部１８は、第一音声受信部１７が受信した音声情報を出力する。ここで、出力とは、通常、スピーカへの音声出力である。

　第一話者属性送信部１９は、第一話者属性格納部１１に格納されている１以上の話者属性を、第一音声認識サーバ選択部１５が選択した音声認識サーバ装置３に送信する。第一話者属性送信部１９は、１以上の話者属性を含む音声翻訳制御情報を、第一音声認識サーバ選択部１５が選択した音声認識サーバ装置３に送信しても良い。かかる場合、第一話者属性送信部１９は、第一音声翻訳制御情報送信部１９と言い換えても良い。

　音声認識サーバ装置３を構成する第三話者属性格納部３０１は、話者の属性値である話者属性を、１以上格納し得る。ここでの話者属性は、音声認識サーバ装置３で取得した話者属性でも良いし、第一端末装置１や第二端末装置２からから送信された話者属性でも良いし、音声認識サーバ装置３で取得した話者属性および第一端末装置１や第二端末装置２からから送信された話者属性の両方を含むものでも良い。また、第三話者属性格納部３０１は、１以上の話者属性を含む音声翻訳制御情報を格納していても良い。第三話者属性格納部３０１は、第三音声翻訳制御情報格納部３０１と呼んでも良い。

　音声認識モデル格納部３０２は、２以上の言語のうちのすべての言語または２以上の一部の言語について、音声認識モデルを格納し得る。音声認識モデル格納部３０２は、２以上の音声認識モデルを格納しても良い。音声認識モデルとは、例えば、隠れマルコフモデル（ＨＭＭ）の音響モデルである。ただし、音声認識モデルは、必ずしも、ＨＭＭの音響モデルである必要はない。音声認識モデルは、単一ガウス分布モデルや、確率モデル（ＧＭＭ：ガウシャンミクスチャモデル）や、統計モデルなど、他のモデルに基づく音響モデルでも良い。

　第三話者属性受信部３０３は、第一端末装置１から、直接的または間接的に、１以上の話者属性を受信する。第三話者属性受信部３０３は、第一端末装置１から、音声翻訳制御情報を受信しても良い。かかる場合、第三話者属性受信部３０３は、第三音声翻訳制御情報受信部３０３と呼んでも良い。

　音声話者属性取得部３０４は、音声情報受信部３０６が受信した音声情報から、１以上の音声話者属性を取得する。音声話者属性とは、音声に関する話者属性であり、音声から取得できる話者属性である。音声話者属性取得部３０４は、動的話者属性情報を取得することは好適である。また、音声話者属性取得部３０４は、静的話者属性情報を取得しても良い。
　また、音声話者属性取得部３０４は、例えば、音声情報をスペクトル分析し、１以上の特徴量を取得する。そして、音声話者属性取得部３０４は、１以上の特徴量から、話者の年齢、性別、話速、感情などの話者属性を決定する。音声話者属性取得部３０４は、例えば、男性または／および女性であることを決定するための特徴量の情報（特徴量をパラメータとする条件）を保持しており、取得した１以上の特徴量から、話者が男性か女性かを決定して、性別の情報（例えば、男性「０」、女性「１」）を取得する。また、音声話者属性取得部３０４は、例えば、特定の年齢、または特定の年齢層（例えば、１０代、２０代など）を決定するための特徴量の情報を保持しており、取得した１以上の特徴量から、話者の年齢または年齢層を決定して、年齢または年齢層の情報（例えば、９歳まで「０」、１０代「１」など）を取得する。また、音声話者属性取得部３０４は、音声情報を解析し、話速（例えば、４．５音／秒）を取得する。話速を取得する技術は公知技術であるので、詳細な説明を省略する。また、音声話者属性取得部３０４は、例えば、取得した１以上の特徴量から感情（動的話者属性情報の一種）を取得しても良い。さらに具体的には、音声話者属性取得部３０４は、例えば、感情「普通」の場合のピッチとパワーの値を保持している。そして、音声話者属性取得部３０４は、抽出した有声部分のピッチとパワーの値から平均値・最大値・最小値を求める。そして、音声話者属性取得部３０４は、感情「普通」の場合のピッチとパワーの値と、抽出した有声部分のピッチとパワーの平均値・最大値・最小値とを用いて、平均ピッチが低く、平均パワーが高い場合は、感情「怒り」を取得する。また、音声話者属性取得部３０４は、感情「普通」の場合のピッチとパワーの値と比較して、最小ピッチが高く、最大パワーが低い場合、感情「悲しみ」を取得する。また、感情「普通」の場合のピッチとパワーの値と比較して、特徴量が大きい場合、音声話者属性取得部３０４は、感情「喜び」を取得する。
　音声話者属性取得部３０４は、取得した１以上の特徴量のうち、パワーおよび韻律を用いて感情を取得することは好適である。感情を取得する手法については、ＵＲＬ「http://www.kansei.soft.iwate-pu.ac.jp/abstract/2007/0312004126.pdf」の論文を参照のこと。
　なお、音声話者属性取得部３０４が、話速等の属性を取得する音声情報の単位は問わない。つまり、音声話者属性取得部３０４は、文の単位で話速等の属性を取得しても良いし、単語の単位で話速等の属性を取得しても良いし、認識結果の単位で話速等の属性を取得しても良いし、複数の文の単位で話速等の属性を取得しても良い。

　また、音声話者属性取得部３０４は、音声認識部３０８が音声認識した結果である音声認識結果から、話者クラス（この話者クラスは、言語話者属性の一種である）を決定しても良い。例えば、音声話者属性取得部３０４は、難解度を有する用語辞書（用語と難解度とを対応づけて有する２以上の用語情報の集合）を保持しており、音声認識結果に含まれる１以上の用語の難解度（ｎ１，ｎ２，・・・）を取得し、当該１以上の難解度から話者クラス（難解度が高「０」、難解度が中「１」、難解度が低「２」など）を決定する。また、音声話者属性取得部３０４は、１以上の用語の難解度（ｎ１，ｎ２，・・・）、および文法ミスの有無を用いて話者クラスを決定する。例えば、音声話者属性取得部３０４は、文法ミスが存在する場合には、１以上の難解度から取得される最終難解度（高「０」、難解度が中「１」、難解度が低「２」）に「１」を加えた値を話者クラスとして取得する。なお、文の中に文法ミスが存在するか否かの検査処理は、公知の自然言語処理であるので、詳細な説明は省略する。なお、音声話者属性取得部３０４は、上述した方法以外の方法により、話者属性を取得しても良いし、いかなる話者属性を取得しても良い。また、音声話者属性取得部３０４に関する技術は、例えば、「不特定話者の音声自動認識のための性別・年齢差による話者分類の考察」（中川聖一他，電子通信学会論文誌）に開示されている（http://www.slp.ics.tut.ac.jp/shiryou/number-1/J1980-06.pdf参照）。また、音声話者属性取得部３０４は、機械学習を用いて、性別や年齢などの話者属性を決定しても良い。つまり、音声話者属性取得部３０４は、性別（男性または女性）と１以上の特徴量とを有する情報の組を複数組格納しており、音声情報受信部３０６が受信した音声情報から得られた１以上の特徴量に対して、ＳＶＭや決定木などの機械学習のアルゴリズムにより、音声情報受信部３０６が受信した音声情報に対応する話者の性別を決定しても良い。

　第三話者属性蓄積部３０５は、音声話者属性取得部３０４が取得した１以上の話者属性を、第三話者属性格納部３０１に蓄積する。なお、ここでの蓄積は、一時的な蓄積でも良い。

　音声情報受信部３０６は、第一端末装置１から、直接的にまたは間接的に音声情報を受信する。

　音声認識モデル選択部３０７は、１以上の話者属性に応じて、２以上の音声認識モデルから、一の音声認識モデルを選択する。

　第三モデル選択情報格納手段３０７１は、音声認識モデル選択情報管理表を格納している。音声認識モデル選択情報管理表は、１以上の話者属性に関する条件（１以上の話者属性でも良い）と、音声認識モデルを識別する音声認識モデル識別子とを有するレコードを１以上含む表である。

　第三モデル選択手段３０７２は、第三話者属性格納部３０１に格納されている１以上の話者属性から音声認識モデル選択情報管理表を検索し、１以上の話者属性に対応する音声認識モデル識別子を取得する。なお、音声認識部３０８は、第三モデル選択手段３０７２が取得した音声認識モデル識別子で識別される音声認識モデルを、音声認識モデル格納部３０２から読み出し、当該音声認識モデルを用いて、音声認識処理を行う。

　音声認識部３０８は、音声情報受信部３０６が受信した音声情報を、音声認識モデル格納部３０２の音声認識モデルを用いて音声認識し、音声認識結果を取得する。また、音声認識部３０８は、音声情報受信部３０６が受信した音声情報を、音声認識モデル選択部３０７が選択した音声認識モデルを用いて音声認識し、音声認識結果を取得することは好適である。音声認識部３０８は、いかなる音声認識方法でも良い。音声認識部３０８は公知技術である。また、音声認識の対象の言語（原言語）の情報は、例えば、音声翻訳制御情報の中に含まれる。例えば、音声翻訳制御情報は、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、音声合成サーバ装置、および第二端末装置２の間を転送されていく。音声認識結果は、通常、原言語（第一端末装置１のユーザＡが発話した音声の言語）の文字列である。

　翻訳サーバ選択部３０９は、１以上の話者属性に応じて、２以上の翻訳サーバ装置４のうち一の翻訳サーバ装置４を選択する。なお、翻訳サーバ選択部３０９は、図示しないサーバ装置にあっても良い。かかる場合、通常、音声認識結果送信部３１０も図示しないサーバ装置に存在する。また、かかる場合、選択すべき翻訳サーバ装置４の情報が図示しないサーバ装置から送信されても良い。

　第三サーバ選択情報格納手段３０９１は、翻訳サーバ選択情報管理表を格納している。翻訳サーバ選択情報管理表は、１以上の話者属性に関する条件（１以上の話者属性でも良い）と、翻訳サーバ装置４を識別する翻訳サーバ装置識別子とを有するレコードを１以上含む表である。

　第三サーバ選択手段３０９２は、第三話者属性格納部３０１に格納されている１以上の話者属性から翻訳サーバ選択情報管理表を検索し、１以上の話者属性に対応する翻訳サーバ装置識別子を取得する。なお、音声認識結果送信部３１０は、第三サーバ選択手段３０９２が取得した翻訳サーバ装置識別子に対応する翻訳サーバ装置４に、音声認識結果を送信する。

　音声認識結果送信部３１０は、翻訳サーバ装置４に、直接的にまたは間接的に音声認識結果を送信する。音声認識結果送信部３１０は、翻訳サーバ選択部３０９が選択した一の翻訳サーバ装置４に、直接的にまたは間接的に音声認識結果を送信することは好適である。

　第三話者属性送信部３１１は、第三話者属性格納部３０１に格納されている１以上の話者属性を、直接的にまたは間接的に翻訳サーバ装置４に送信する。第三話者属性送信部３１１は、音声翻訳制御情報を翻訳サーバ装置４に送信しても良い。かかる場合、第三話者属性送信部３１１は、第三音声翻訳制御情報送信部３１１と呼んでも良い。

　翻訳サーバ装置４を構成する第四話者属性格納部４０１は、１以上の話者属性を格納し得る。第四話者属性格納部４０１は、音声翻訳制御情報を格納していても良い。かかる場合、第四話者属性格納部４０１は、第四音声翻訳制御情報格納部４０１と呼んでも良い。

　翻訳モデル格納部４０２は、２以上の言語のうちのすべての言語または２以上の一部の言語について、翻訳用情報を格納し得る。翻訳モデル格納部４０２は、２以上の翻訳用情報を格納していても良い。翻訳用情報は、例えば、翻訳モデルと言語モデルである。また、翻訳モデル格納部４０２は、言語モデルを有さず、１以上の翻訳モデルのみを格納していても良い。かかる場合、翻訳モデル格納部４０２は、１以上の翻訳モデルを格納し得る。なお、後述する翻訳モデルの選択は、翻訳用情報の選択と同意義である、とする。

　第四話者属性受信部４０３は、１以上の話者属性を、音声認識サーバ装置３から直接にまたは間接的に受信する。第四話者属性受信部４０３は、音声翻訳制御情報を音声認識サーバ装置３から受信しても良い。かかる場合、第四話者属性受信部４０３は、第四音声翻訳制御情報受信部４０３と呼んでも良い。

　言語話者属性取得部４０４は、音声認識結果受信部４０６が受信した音声認識結果から、１以上の言語話者属性を取得する。言語話者属性とは、言語処理によって取得され得る話者属性である。言語話者属性取得部４０４は、例えば、音声認識結果を自然言語処理に、話者クラスを特定する。話者クラスとは、例えば、使う単語の難しさ，文法の正しさなどを考慮した言語の熟練度により、話者をカテゴライズした情報である。言語話者属性取得部４０４は、例えば、音声認識結果の中で、難解な用語が使われている頻度や割合から、話者クラスを決定する。また、言語話者属性取得部４０４は、例えば、音声認識結果の中で、丁寧語が使われているか否か、丁寧語が使われている頻度や割合から、話者クラスを決定する。また、言語話者属性取得部４０４は、例えば、音声認識結果の中で、女子高生が多用する新語が使われているか否か、新語が使われている頻度や割合から、話者クラスを決定する。言語話者属性取得部４０４は、例えば、難解な用語や丁寧語を構成する形態素や女子高生が多用する新語などを格納しており、音声認識結果を形態素解析し、難解な用語や丁寧語を構成する形態素や女子高生が多用する新語などが存在する頻度や割合を取得し、予め決められた条件（ランクＡ：難解な用語が１０％以上、Ｂ：難解な用語が１％以上１０％未満、Ｃ：難解な用語が１％未満など）により、話者クラス（ランク）を決定する。言語話者属性取得部４０４は、その他のアルゴリズムにより、音声認識結果を自然言語処理し、１以上の言語話者属性を取得しても良い。なお、言語話者属性取得部４０４は、音声話者属性取得部３０４における言語話者属性の取得方法と同様の方法により、１以上の言語話者属性を取得しても良い。

　第四話者属性蓄積部４０５は、第四話者属性受信部４０３が受信した以上の話者属性を、第四話者属性格納部４０１に、少なくとも一時的に蓄積する。第四話者属性蓄積部４０５は、音声翻訳制御情報を第四話者属性格納部４０１に蓄積しても良い。かかる場合、第四話者属性蓄積部４０５は、第四音声翻訳制御情報蓄積部４０５と呼んでも良い。

　音声認識結果受信部４０６は、音声認識結果を、音声認識サーバ装置３から直接、または間接的に受信する。

　翻訳モデル選択部４０７は、第四話者属性受信部４０３が受信した１以上の話者属性に応じて、２以上の翻訳モデルから、一の翻訳モデルを選択する。

　第四モデル選択情報格納手段４０７１は、翻訳モデル選択情報管理表を格納している。翻訳モデル選択情報管理表は、１以上の話者属性に関する条件（１以上の話者属性でも良い）と、翻訳モデルを識別する翻訳モデル識別子とを有するレコードを１以上含む表である。

　第四モデル選択手段４０７２は、第四話者属性格納部４０１に格納されている１以上の話者属性から翻訳モデル選択情報管理表を検索し、１以上の話者属性に対応する翻訳モデル装置識別子を取得する。なお、翻訳部４０８は、第四モデル選択手段４０７２が取得した翻訳モデル識別子に対応する翻訳モデルを翻訳モデル格納部４０２から取得し、当該翻訳モデルを用いて翻訳処理を行う。

　翻訳部４０８は、音声認識結果受信部４０６が受信した音声認識結果を、翻訳モデル格納部４０２の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する。翻訳部４０８は、音声認識結果受信部４０６が受信した音声認識結果を、翻訳モデル選択部４０７が選択した翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得することは好適である。なお、原言語と目的言語を特定する情報は、例えば、音声翻訳制御情報の中に含まれる。また、翻訳部４０８における翻訳方法と問わない。翻訳部４０８は公知技術である。

　音声合成サーバ選択部４０９は、１以上の話者属性に応じて、２以上の音声合成サーバ装置５のうち一の音声合成サーバ装置５を選択する。

　第四サーバ選択情報格納手段４０９１は、音声合成サーバ選択情報管理表を格納している。音声合成サーバ選択情報管理表は、１以上の話者属性に関する条件（１以上の話者属性でも良い）と、音声合成サーバ装置５を識別する音声合成装置識別子とを有するレコードを１以上含む表である。

　第四サーバ選択手段４０９２は、第四話者属性格納部４０１に格納されている１以上の話者属性から音声合成サーバ選択情報管理表を検索し、１以上の話者属性に対応する音声合成サーバ装置識別子を取得する。なお、翻訳結果送信部４１０は、第四サーバ選択手段４０９２が取得した音声合成サーバ装置識別子に対応する音声合成サーバ装置５に、翻訳結果を送信する。

　翻訳結果送信部４１０は、翻訳部４０８が翻訳処理を行った結果である翻訳結果を、音声合成サーバ装置５に、直接または間接的に送信する。また、翻訳結果送信部４１０は、音声合成サーバ選択部４０９はが選択した音声合成サーバ装置５に、翻訳結果を、直接または間接的に送信することは好適である。

　第四話者属性送信部４１１は、音声合成サーバ装置５に、直接または間接的に、第四話者属性受信部４０３が受信した１以上の話者属性を送信する。第四話者属性送信部４１１は、音声翻訳制御情報を音声合成サーバ装置５に送信しても良い。かかる場合、第四話者属性送信部４１１は、第四音声翻訳制御情報送信部４１１と呼んでも良い。

　音声合成サーバ装置５を構成する第五話者属性格納部５０１は、１以上の話者属性を格納し得る。第五話者属性格納部５０１は、音声翻訳制御情報を格納していても良い。かかる場合、第五話者属性格納部５０１は、第五音声翻訳制御情報格納部５０１と呼んでも良い。

　音声合成モデル格納部５０２は、２以上の言語のうちのすべての言語または２以上の一部の言語について、音声合成モデルを格納し得る。音声合成モデル格納部５０２は、２以上の音声合成モデルを格納していても良い。

　第五話者属性受信部５０３は、１以上の話者属性を、音声認識サーバ装置３から直接にまたは間接的に受信する。第五話者属性受信部５０３は、音声翻訳制御情報を音声認識サーバ装置３から受信しても良い。かかる場合、第五話者属性受信部５０３は、第五音声翻訳制御情報受信部５０３と呼んでも良い。

　第五話者属性蓄積部５０４は、第五話者属性受信部５０３が受信した１以上の話者属性を、第五話者属性格納部５０１に、少なくとも一時的に蓄積する。第五話者属性蓄積部５０４は、音声翻訳制御情報を第五話者属性格納部５０１に蓄積しても良い。かかる場合、第五話者属性蓄積部５０４は、第五音声翻訳制御情報蓄積部５０４と呼んでも良い。

　翻訳結果受信部５０５は、翻訳サーバ装置４から直接または間接的に、翻訳結果を受信する。

　音声合成モデル選択部５０６は、第五話者属性受信部５０３が受信した１以上の話者属性に応じて、２以上の音声合成モデルから、一の音声合成モデルを選択する。

　第五モデル選択情報格納手段５０６１は、音声合成モデル選択情報管理表を格納している。音声合成モデル選択情報管理表は、１以上の話者属性に関する条件（１以上の話者属性でも良い）と、音声合成モデルを識別する音声合成モデル識別子とを有するレコードを１以上含む表である。

　第五モデル選択手段５０６２は、第五話者属性格納部５０１に格納されている１以上の話者属性から音声合成モデル選択情報管理表を検索し、１以上の話者属性に対応する音声合成モデル装置識別子を取得する。なお、音声合成部５０７は、第五モデル選択手段５０６２が取得した音声合成モデル識別子に対応する音声合成モデルを音声合成モデル格納部５０２から取得し、当該音声合成モデルを用いて音声合成処理を行う。

　音声合成部５０７は、翻訳結果受信部５０５が受信した翻訳結果を、音声合成モデル格納部５０２の音声合成モデルを用いて音声合成し、音声合成結果を取得する。音声合成部５０７は、翻訳結果受信部５０５が受信した翻訳結果を、音声合成モデル選択部５０６が選択した音声合成モデルを用いて音声合成し、音声合成結果を取得することは好適である。ここで、音声合成をする目的言語を特定する情報は、例えば、音声翻訳制御情報の中に含まれる。

　音声合成結果送信部５０８は、音声合成部５０７が取得した音声合成結果を、直接または間接的に第二端末装置２に送信する。

　第一話者属性格納部１１、第一サーバ選択情報格納手段１５１、第二話者属性格納部２１、第二サーバ選択情報格納手段２５１、第三話者属性格納部３０１、音声認識モデル格納部３０２、第三モデル選択情報格納手段３０７１、第三サーバ選択情報格納手段３０９１、第四話者属性格納部４０１、翻訳モデル格納部４０２、第四モデル選択情報格納手段４０７１、第四サーバ選択情報格納手段４０９１、第五話者属性格納部５０１、音声合成モデル格納部５０２、および第五モデル選択情報格納手段５０６１は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。第一話者属性格納部１１等に、上記の情報が記憶される過程は問わない。例えば、記録媒体を介して上記の情報が第一話者属性格納部１１等で記憶されるようになってもよく、通信回線等を介して送信された上記の情報が第一話者属性格納部１１等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された上記の情報が第一話者属性格納部１１等で記憶されるようになってもよい。

　第一話者属性受付部１２、および第二話者属性受付部２２は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。

　第一音声受付部１４、および第二音声受付部２４は、例えば、マイクとそのデバイスドライバーなどにより実現され得る。

　第一音声送信部１６、第一音声受信部１７、第一話者属性送信部１９、第二音声送信部２６、第二音声受信部２７、第二話者属性送信部２９、第三話者属性受信部３０３、音声情報受信部３０６、音声認識結果送信部３１０、第三話者属性送信部３１１、第四話者属性受信部４０３、音声認識結果受信部４０６、翻訳結果送信部４１０、第四話者属性送信部４１１、第五話者属性受信部５０３、翻訳結果受信部５０５、および音声合成結果送信部５０８は、通常、無線または有線の通信手段で実現されるが、放送手段または放送受信手段で実現されても良い。
　第一音声出力部１８、および第二音声出力部２８は、スピーカおよびそのドライバーソフト等で実現され得る。

　第一話者属性蓄積部１３、第一音声認識サーバ選択部１５、第一サーバ選択情報格納手段１５１、第二話者属性蓄積部２３、第二音声認識サーバ選択部２５、第二サーバ選択手段２５２、音声話者属性取得部３０４、第三話者属性蓄積部３０５、音声認識モデル選択部３０７、音声認識部３０８、翻訳サーバ選択部３０９、第三モデル選択手段３０７２、第三サーバ選択手段３０９２、言語話者属性取得部４０４、第四話者属性蓄積部４０５、翻訳モデル選択部４０７、翻訳部４０８、音声合成サーバ選択部４０９、第四モデル選択手段４０７２、第四サーバ選択手段４０９２、第五話者属性蓄積部５０４、音声合成モデル選択部５０６、音声合成部５０７、および第五モデル選択手段５０６２は、通常、ＭＰＵやメモリ等から実現され得る。第一話者属性蓄積部１３等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

　次に、音声翻訳システムの動作について図６から図１０のフローチャートを用いて説明する。まず、第一端末装置１の動作について図６のフローチャートを用いて説明する。

　（ステップＳ６０１）第一話者属性受付部１２等の受付部は、ユーザＡからの入力を受け付けたか否かを判断する。入力を受け付ければステップＳ６０２に行き、入力を受け付けなければステップＳ６０６に行く。

　（ステップＳ６０２）第一話者属性受付部１２は、ステップＳ６０１で受け付けた入力が話者属性であるか否かを判断する。話者属性であればステップＳ６０３に行き、話者属性でなければステップＳ６０４に行く。

　（ステップＳ６０３）第一話者属性蓄積部１３は、受け付けられた１以上の話者属性を、第一話者属性格納部１１に蓄積する。ステップＳ６０１に戻る。

　（ステップＳ６０４）図示しない受付部は、ステップＳ６０１で受け付けた入力が発呼要求であるか否かを判断する。発呼要求であればステップＳ６０５に行き、発呼要求でなければステップＳ６０１に戻る。なお、発呼要求は、第二端末装置２のユーザＢに対しての通話の依頼であり、通常、第二端末装置２の第二端末装置識別子（電話番号など）が含まれる。

　（ステップＳ６０５）図示しない発呼部は、第二端末装置２に対して、発呼する。そして、発呼の結果、通話が開始される。ステップＳ６０１に戻る。

　（ステップＳ６０６）第一音声受付部１４は、ユーザＡの音声を受け付けたか否かを判断する。音声を受け付ければステップＳ６０７に行き、音声を受け付けなければステップＳ６０１に戻る。

　（ステップＳ６０７）第一サーバ選択手段１５２は、第一話者属性格納部１１から、１以上の話者属性を読み出す。

　（ステップＳ６０８）第一サーバ選択手段１５２は、ステップＳ６０７で読み出した１以上の話者属性を、第一サーバ選択情報格納手段１５１の第一サーバ選択情報（音声認識サーバ選択情報管理表）に適用し、音声認識サーバ装置３を選択する。ここで、音声認識サーバ装置３の選択とは、例えば、一の音声認識サーバ装置識別子を取得することである。

　（ステップＳ６０９）第一話者属性送信部１９は、第一話者属性格納部１１に格納されている１以上の話者属性を用いて、音声翻訳制御情報を構成する。第一話者属性送信部１９は、例えば、入力された第二端末装置２の電話番号から決定した目的言語の識別子を取得する。また、第一話者属性送信部１９は、格納されている第一端末装置１の電話番号から決定した原言語の識別子を取得する。例えば、電話番号は国コードを含むので、第一話者属性送信部１９は、かかる国コードから目的言語を決定する。第一話者属性送信部１９は、国コードと目的言語識別子との対応表（例えば、「８１：日本語」「８２：韓国語」などのレコードを有する表）を保持している。そして、第一話者属性送信部１９は、第一話者属性格納部１１に格納されている１以上の話者属性と、原言語の識別子と目的言語の識別子等から、音声翻訳制御情報を構成する。

　（ステップＳ６１０）第一音声送信部１６は、ステップＳ６０６で受け付けた音声をデジタル化し、音声情報を取得する。そして、第一音声送信部１６は、当該音声情報を、ステップＳ６０８で選択された音声認識サーバ装置３に送信する。

　（ステップＳ６１１）第一話者属性送信部１９は、ステップＳ６０９で構成された音声翻訳制御情報を、ステップＳ６０８で選択された音声認識サーバ装置３に送信する。なお、ここで、第一話者属性送信部１９は、１以上の話者属性のみを、ステップＳ６０８で選択された音声認識サーバ装置３に送信しても良い。ステップＳ６０１に戻る。

　なお、図６のフローチャートにおいて、通話中に、再度、ステップＳ６０７、ステップＳ６０８、ステップＳ６０９、およびステップＳ６１１の処理を行わないことは好適である。つまり、一通話において、一度または、音声情報の送信より少ない回数、テップＳ６０７、ステップＳ６０８、ステップＳ６０９、およびステップＳ６１１の処理を行うことは好適である。

　さらに、図６のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

　また、第二端末装置２の動作は、第一端末装置１の動作と同様であるので、説明を省略する。

　次に、音声認識サーバ装置３の動作について図７のフローチャートを用いて説明する。

　（ステップＳ７０１）音声情報受信部３０６は、音声情報を受信したか否かを判断する。音声情報を受信すればステップＳ７０２に行き、音声情報を受信しなければステップＳ７０１に戻る。

　（ステップＳ７０２）第三話者属性受信部３０３は、音声翻訳制御情報を受信したか否かを判断する。音声翻訳制御情報を受信すればステップＳ７０３に行き、受信しなければステップＳ７１０に行く。

　（ステップＳ７０３）音声話者属性取得部３０４は、ステップＳ７０１で受信された音声情報から、１以上の話者属性を取得する。かかる処理を話者属性取得処理といい、図８のフローチャートを用いて説明する。

　（ステップＳ７０４）第三話者属性蓄積部３０５は、ステップＳ７０２で受信した音声翻訳制御情報に、ステップＳ７０３で取得した１以上の話者属性を加え、新たな音声翻訳制御情報を構成し、当該音声翻訳制御情報を第三話者属性格納部３０１に、少なくとも一時的に蓄積する。なお、第三話者属性蓄積部３０５は、ステップＳ７０３で取得したすべての話者属性をステップＳ７０２で受信した音声翻訳制御情報に加える必要はない。また、第三話者属性蓄積部３０５は、ステップＳ７０３で取得したすべての話者属性を優先し、ステップＳ７０２で受信した音声翻訳制御情報の一部の話者属性を修正しても良い。ステップＳ７０３で取得したすべての話者属性を優先させた場合、例えば、女性的な男性の音声に対しても、音声認識しやすくなるなどのメリットがある。

　（ステップＳ７０５）第三モデル選択手段３０７２は、第三話者属性格納部３０１に格納されている音声翻訳制御情報が有する１以上の話者属性を用いて、音声認識モデル選択情報管理表を検索し、音声認識モデル識別子を取得する。つまり、第三モデル選択手段３０７２は、音声認識モデルを選択する。そして、第三モデル選択手段３０７２は、選択した音声認識モデルを、音声認識モデル格納部３０２から読み出す。

　（ステップＳ７０６）音声認識部３０８は、読み出された音声認識モデルを用いて、ステップＳ７０１で受信された音声情報に対して、音声認識処理を行う。そして、音声認識部３０８は、音声認識結果を得る。

　（ステップＳ７０７）第三サーバ選択手段３０９２は、第三話者属性格納部３０１に格納されている音声翻訳制御情報が有する１以上の話者属性を用いて、翻訳サーバ選択情報管理表を検索し、１以上の話者属性に対応する翻訳サーバ装置識別子を取得する。

　（ステップＳ７０８）音声認識結果送信部３１０は、ステップＳ７０７で取得された翻訳サーバ装置識別子に対応する翻訳サーバ装置４に、ステップＳ７０６で得られた音声認識結果を送信する。

　（ステップＳ７０９）第三話者属性送信部３１１は、第三話者属性格納部３０１に格納されている音声翻訳制御情報を、ステップＳ７０７で取得された翻訳サーバ装置識別子に対応する翻訳サーバ装置４に送信し、ステップＳ７０１に戻る。

　（ステップＳ７１０）第三モデル選択手段３０７２は、第三話者属性格納部３０１に音声翻訳制御情報が格納されているか否かを判断する。音声翻訳制御情報が格納されていればステップＳ７１１に行き、格納されていなければステップＳ７１２に行く。

　（ステップＳ７１１）第三モデル選択手段３０７２は、第三話者属性格納部３０１に格納されている音声翻訳制御情報を読み出し、ステップＳ７０５に行く

　（ステップＳ７１２）第三モデル選択手段３０７２は、音声認識モデル格納部３０２に格納されている任意の音声認識モデルを読み出し、ステップＳ７０６に行く。

　なお、図７のフローチャートにおいて、話者属性取得処理で音声認識が行われている場合、再度の音声認識処理を行わなくても良い。ただし、話者属性取得処理で音声認識が行われている場合でも、音声認識モデルを選択し、精度の高い音声認識処理を行うことは好適である。

　また、図７のフローチャートにおいて、ステップＳ７０３の話者属性取得処理を、音声認識処理した結果に対して行っても良い。

　さらに、図７のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

　ステップＳ７０３の話者属性取得処理を、図８のフローチャートを用いて説明する。

　（ステップＳ８０１）音声話者属性取得部３０４は、音声情報から１以上の特徴量を取得する（音声分析する）。音声話者属性取得部３０４が取得した１以上の特徴量から構成されるベクトルである特徴ベクトルデータは、例えば、三角型フィルタを用いたチャネル数２４のフィルタバンク出力を離散コサイン変換したＭＦＣＣであり、その静的パラメータ、デルタパラメータおよびデルタデルタパラメータをそれぞれ１２次元、さらに正規化されたパワーとデルタパワーおよびデルタデルタパワー（３９次元）を有する。

　（ステップＳ８０２）音声話者属性取得部３０４は、ステップＳ８０１で取得した１以上の特徴量を用いて、話者の性別を決定する。

　（ステップＳ８０３）音声話者属性取得部３０４は、ステップＳ８０１で取得した１以上の特徴量を用いて、話者の年齢層を決定する。

　（ステップＳ８０４）音声話者属性取得部３０４は、音声情報から、話速を取得する。なお、話速を取得する処理は公知技術である。

　（ステップＳ８０５）音声話者属性取得部３０４は、音声認識部３０８に音声認識処理を依頼し、音声認識結果を得る。

　（ステップＳ８０６）音声話者属性取得部３０４は、ステップＳ８０５で得られた音声認識結果を自然言語処理し、話者クラスを決定する。上位処理にリターンする。

　なお、図８のフローチャートにおいて、受信された音声翻訳制御情報（話者属性）に含まれている話者属性（例えば、性別）について、取得する処理（例えば、ステップＳ８０２）を行わなくても良い。処理の高速化になる。また、会話によって不変の話者属性（性別、年齢層など）は、一度のみ取得し、会話中に変化する話者属性（話速など）は、都度、取得する、または、累積された情報をも用いて、変化させていくことは好適である。

　次に、翻訳サーバ装置４の動作について図９のフローチャートを用いて説明する。

　（ステップＳ９０１）音声認識結果受信部４０６は、音声認識結果を受信したか否かを判断する。音声認識結果を受信すればステップＳ９０２に行き、音声認識結果を受信しなければステップＳ９０１に戻る。

　（ステップＳ９０２）第四話者属性受信部４０３は、音声翻訳制御情報を受信したか否かを判断する。音声翻訳制御情報を受信すればステップＳ９０３に行き、受信しなければステップＳ９０９に行く。

　（ステップＳ９０３）言語話者属性取得部４０４は、ステップＳ９０１で受信された音声認識結果を自然言語処理し、１以上の言語話者属性を取得する。言語話者属性取得部４０４は、例えば、音声認識結果から、話者クラスを取得する。

　（ステップＳ９０４）第四話者属性蓄積部４０５は、ステップＳ９０２で受信した音声翻訳制御情報に、ステップＳ９０３で取得された１以上の言語話者属性を加えて、音声翻訳制御情報を構成し、当該音声翻訳制御情報を、第四話者属性格納部４０１に、少なくとも一時的に蓄積する。

　（ステップＳ９０５）第四モデル選択手段４０７２は、ステップＳ９０２で受信した音声翻訳制御情報が有する１以上の話者属性、または第四話者属性格納部４０１に格納されている音声翻訳制御情報が有する１以上の話者属性を用いて、翻訳モデル選択情報管理表を検索し、翻訳モデル識別子を取得する。つまり、第四モデル選択手段４０７２は、翻訳モデルを選択する。そして、第四モデル選択手段４０７２は、選択した翻訳モデルを、翻訳モデル格納部４０２から読み出す。

　（ステップＳ９０６）翻訳部４０８は、読み出された翻訳モデルを用いて、ステップＳ９０１で受信された音声認識結果に対して、翻訳処理を行う。そして、翻訳部４０８は、翻訳結果を得る。

　（ステップＳ９０７）第四サーバ選択手段４０９２は、第四話者属性格納部４０１に格納されている音声翻訳制御情報が有する１以上の話者属性を用いて、音声合成サーバ選択情報管理表を検索し、１以上の話者属性に対応する音声合成サーバ装置識別子を取得する。

　（ステップＳ９０８）翻訳結果送信部４１０は、ステップＳ９０７で取得された音声合成サーバ装置識別子に対応する音声合成サーバ装置５に、ステップＳ９０６で得られた翻訳結果を送信する。

　（ステップＳ９０９）第四話者属性送信部４１１は、第四話者属性格納部４０１に格納されている音声翻訳制御情報を、ステップＳ９０７で取得された音声合成サーバ装置識別子に対応する音声合成サーバ装置５に送信する。ステップＳ９０１に戻る。

　（ステップＳ９１０）第四モデル選択手段４０７２は、第四話者属性格納部４０１に音声翻訳制御情報が格納されているか否かを判断する。音声翻訳制御情報が格納されていればステップＳ９１１に行き、格納されていなければステップＳ９１２に行く。

　（ステップＳ９１１）第四モデル選択手段４０７２は、第四話者属性格納部４０１に格納されている音声翻訳制御情報を読み出す。ステップＳ９０５に行く

　（ステップＳ９１２）第四モデル選択手段４０７２は、翻訳モデル格納部４０２に格納されている任意の翻訳モデルを読み出す。ステップＳ９０６に行く。

　なお、図９のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

　次に、音声合成サーバ装置５の動作について図１０のフローチャートを用いて説明する。

　（ステップＳ１００１）翻訳結果受信部５０５は、翻訳結果を受信したか否かを判断する。翻訳結果を受信すればステップＳ１００２に行き、翻訳結果を受信しなければステップＳ１００１に戻る。

　（ステップＳ１００２）第五話者属性受信部５０３は、音声翻訳制御情報を受信したか否かを判断する。音声翻訳制御情報を受信すればステップＳ１００３に行き、受信しなければステップＳ１００７に行く。

　（ステップＳ１００３）第五話者属性蓄積部５０４は、ステップＳ１００２で受信した音声翻訳制御情報を、第五話者属性格納部５０１に、少なくとも一時的に蓄積する。

　（ステップＳ１００４）第五モデル選択手段５０６２は、第五話者属性格納部５０１に格納されている音声翻訳制御情報が有する１以上の話者属性を用いて、音声合成モデル選択情報管理表を検索し、音声合成モデル識別子を取得する。つまり、第五モデル選択手段５０６２は、音声合成モデルを選択する。そして、第五モデル選択手段５０６２は、選択した音声合成モデルを、音声合成モデル格納部５０２から読み出す。

　（ステップＳ１００５）音声合成部５０７は、読み出された音声合成モデルを用いて、ステップＳ１００１で受信された翻訳結果に対して、音声合成処理を行う。そして、音声合成部５０７は、音声合成された音声情報（音声合成結果）を得る。

　（ステップＳ１００６）音声合成結果送信部５０８は、第二端末装置２に、ステップＳ１００５で得られた音声合成結果を送信する。なお、例えば、第二端末装置２を識別する第二端末装置識別子（例えば、第二端末装置２の電話番号やＩＰアドレスなど）は、音声翻訳制御情報に含まれる。ステップＳ１００１に戻る。

　（ステップＳ１００７）第五モデル選択手段５０６２は、第五話者属性格納部５０１に音声翻訳制御情報が格納されているか否かを判断する。音声翻訳制御情報が格納されていればステップＳ１００８に行き、格納されていなければステップＳ１００９に行く。

　（ステップＳ１０１０）第五モデル選択手段５０６２は、第五話者属性格納部５０１に格納されている音声翻訳制御情報を読み出す。ステップＳ１００４に行く

　（ステップＳ１０１１）第五モデル選択手段５０６２は、音声合成モデル格納部５０２に格納されている任意の音声合成モデルを読み出す。ステップＳ１００５に行く。

　なお、図１０のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

　以下、本実施の形態における音声翻訳システムの具体的な動作について説明する。音声翻訳システムの概念図は図１である。

　今、第一端末装置１のユーザＡは、日本語を話す、３７歳の女性であり、日本語はネイティブである。また、第二端末装置２ユーザＢは、英語を話す、３８歳の男性であり、英語はネイティブである。

　そして、第一端末装置１の第一話者属性格納部１１には、図１１に示す第一話者属性管理表が格納されている。第一話者属性管理表は、性別「女性」、年齢「３７歳」、使用言語「日本語」、およびＮａｔｉｖｅ「ｙｅｓ」が格納されている。

　また、第二端末装置２の第二話者属性格納部２１には、図１２に示す第二話者属性管理表が格納されている。

　また、第一端末装置１の第一サーバ選択情報格納手段１５１、および第二端末装置２の第二サーバ選択情報格納手段２５１には、図１３に示す音声認識サーバ選択情報管理表が格納されている。音声認識サーバ選択情報管理表は、「ＩＤ」「言語」「話者属性」「音声認識サーバ装置識別子」の属性値を有するレコードを１以上格納している。「言語」は、音声認識の対象の言語である。「話者属性」は、「性別」「年齢（ここでは、年齢のカテゴリ）」などを有する。「音声認識サーバ装置識別子」は、音声認識サーバ装置３と通信するための情報であり、ここでは、ＩＰアドレスである。なお、第一サーバ選択情報格納手段１５１には、音声認識サーバ選択情報管理表のうちの、言語「日本語」に対応するレコードが存在すれば良い。また、第二サーバ選択情報格納手段２５１には、音声認識サーバ選択情報管理表のうちの、言語「英語」に対応するレコードが存在すれば良い。

　また、音声認識サーバ装置３の第三モデル選択情報格納手段３０７１には、図１４に示す音声認識モデル選択情報管理表が格納されている。音声認識モデル選択情報管理表は、「言語」「話者属性」「音声認識モデル識別子」の属性値を有するレコードを１以上格納している。「音声認識モデル識別子」は、音声認識モデルを識別する情報であり、例えば、音声認識モデルを読み出すために利用される。ここでは、例えば、「音声認識モデル識別子」は、音声認識モデルが格納されているファイル名などである。

　また、音声認識サーバ装置３の第三サーバ選択情報格納手段３０９１には、図１５に示す翻訳サーバ選択情報管理表が格納されている。翻訳サーバ選択情報管理表は、「ＩＤ」「原言語」「目的言語」「話者属性」「翻訳サーバ装置識別子」の属性値を有するレコードを１以上格納している。「原言語」は翻訳の元の言語である。「目的言語」は翻訳の先の言語である。「話者属性」は、ここでは、「性別」「年齢」「第一話者クラス」などを有する。「第一話者クラス」は、使う単語の難しさから決定される、話者の知的レベルを推定した情報である。「第一話者クラス」が「Ａ」である場合、話者は知的レベルが高いとする。「第一話者クラス」が「Ｂ」または「Ｃ」である場合、話者は知的レベルが中程度、または低いとする。知的レベルの推定方法の例は、後述する。「翻訳サーバ装置識別子」は、翻訳サーバ装置４と通信するための情報であり、ここでは、ＩＰアドレスである。

　また、翻訳サーバ装置４の第四モデル選択情報格納手段４０７１は、図１６に示す翻訳モデル選択情報管理表を保持している。翻訳モデル選択情報管理表は、「ＩＤ」「原言語」「話者属性」「翻訳モデル識別子」の属性値を有するレコードを１以上格納している。「話者属性」は、ここでは、「性別」「年齢」「第二話者クラス」などを有する。「第二話者クラス」は、使用言語について、ネイティブか否かを示す。ネイティブである場合は「Ｙ」、ネイティブでない場合は「Ｎ」の属性値となる。「翻訳モデル識別子」は、翻訳モデルを識別する情報であり、例えば、翻訳モデルを読み出すために利用される。ここでは、例えば、「翻訳モデル識別子」は、翻訳モデルが格納されているファイル名などである。

　また、翻訳サーバ装置４の第四サーバ選択情報格納手段４０９１は、図１７に示す音声合成サーバ選択情報管理表が格納されている。音声合成サーバ選択情報管理表は、「ＩＤ」「目的言語」「話者属性」「音声合成サーバ装置識別子」の属性値を有するレコードを１以上格納している。「話者属性」は、ここでは、「性別」「年齢」「話速」「第一話者クラス」「第二話者クラス」などを有する。「話速」は、話す速度であり、ここでは、「速い」「中程度」「遅い」の３つのいずれかの値をとり得る。「速い」は、例えば、話すスピードが「５音節／秒」以上である場合、「中程度」は、例えば、話すスピードが「５音節／秒」未満「３音節／秒」以上である場合、「遅い」は、例えば、話すスピードが「３音節／秒」未満である場合である。ただし、「話速」のカテゴライズの種類、カテゴライズの方法、アルゴリズムなどは問わない。「音声合成サーバ装置識別子」は、音声合成サーバ装置５と通信するための情報であり、ここでは、ＩＰアドレスである。

　さらに、音声合成サーバ装置５の第五モデル選択情報格納手段５０６１は、図１８に示す音声合成モデル選択情報管理表を保持している。音声合成モデル選択情報管理表は、「ＩＤ」「目的言語」「話者属性」「音声合成モデル識別子」の属性値を有するレコードを１以上格納している。「話者属性」は、ここでは、「性別」「年齢」「第二話者クラス」などを有する。「話者属性」として、「話速」や「第一話者クラス」を有することはさらに好適である。「音声合成モデル識別子」は、音声合成モデルを識別する情報であり、例えば、音声合成モデルを読み出すために利用される。ここでは、例えば、「音声合成モデル識別子」は、音声合成モデルが格納されているファイル名などである。

　かかる状況において、ユーザＡは、ユーザＢに電話をかけようとする。そして、ユーザＡは、第一端末装置１から、相手（ユーザＢ）の電話番号などを入力する画面であり、図１９の画面を呼び出した。そして、第一端末装置１は、第一話者属性格納部１１に格納されている第一話者属性管理表（図１１）を読み出し、図１９の画面を表示する。そして、ユーザは、相手の使用言語と、相手の電話番号とを入力し、「発信」ボタンを押下した、とする。なお、図１９において、自分の電話番号「０８０－１１１１－２２５６」は、図示しない記録媒体に格納されている、とする。

　次に、第一端末装置１の、図示しない発呼部は、第二端末装置２に対して、発呼する。そして、通話が開始される。

　次に、第一端末装置１の第一音声受付部１４は、ユーザＡの音声「おはようございます」を受け付ける。

　次に、第一サーバ選択手段１５２は、第一話者属性格納部１１から、図１１の話者属性を読み出す。

　次に、第一サーバ選択手段１５２は、読み出した１以上の話者属性「性別：女性，年齢：３７歳，使用言語：日本語・・・」を、図１３の音声認識サーバ選択情報管理表に適用し、「ＩＤ＝７」のレコードを検索し、音声認識サーバ装置識別子「１８６．２２１．１．２７」を取得する。

　次に、第一話者属性送信部１９は、１以上の話者属性を用いて、音声翻訳制御情報を構成する。第一話者属性送信部１９は、例えば、図２０に示す音声翻訳制御情報を構成する。この音声翻訳制御情報は、１以上の話者属性、および図１９の画面からユーザＡにより入力された情報（相手の使用言語［目的言語］）を含む。さらに、音声翻訳制御情報は、音声認識サーバ装置識別子「１８６．２２１．１．２７」を含む。

　次に、第一音声送信部１６は、受け付けた音声「おはようございます」をデジタル化し、「おはようございます」の音声情報を取得する。そして、第一音声送信部１６は、当該音声情報を、「１８６．２２１．１．２７」で識別される音声認識サーバ装置３に送信する。

　次に、第一話者属性送信部１９は、図２０の音声翻訳制御情報を、「１８６．２２１．１．２７」で識別される音声認識サーバ装置３に送信する。

　次に、音声認識サーバ装置３の音声情報受信部３０６は、音声情報「おはようございます」を受信する。そして、第三話者属性受信部３０３は、図２０の音声翻訳制御情報を受信する。

　次に、音声話者属性取得部３０４は、受信された音声情報「おはようございます」から、１以上の話者属性を取得する。つまり、第三話者属性受信部３０３は、音声情報「おはようございます」から１以上の特徴量を取得する。そして、第三話者属性受信部３０３は、１以上の特徴量を用いて、予め決められた情報を取得する。ここで、図２０の音声翻訳制御情報に、性別や年齢などの話者属性を含むが、第三話者属性受信部３０３は、音声翻訳制御情報と重複する話者属性（性別や年齢など）を取得し、取得した話者属性を優先させて、音声認識や、後の翻訳や、音声合成に利用しても良い。

　次に、音声話者属性取得部３０４は、音声情報「おはようございます」から、話速を取得する。ここで、音声話者属性取得部３０４は、４音節／秒であると、判断し、話速「中程度」を取得した、とする。

　次に、第三モデル選択手段３０７２は、第三話者属性格納部３０１に格納されている音声翻訳制御情報が有する１以上の話者属性、および音声話者属性取得部３０４が取得した１以上の話者属性（ここでは、話速「中程度」）を用いて、音声認識モデル選択情報管理表（図１４）から、「ＩＤ＝１８」のレコードを検索し、音声認識モデル識別子「ＪＲ６」を取得する。そして、第三モデル選択手段３０７２は、選択した音声認識モデル「ＪＲ６」を、音声認識モデル格納部３０２から読み出す。

　音声認識部３０８は、読み出された音声認識モデルを用いて、受信された音声情報に対して、音声認識処理を行い、音声認識結果「おはようございます」を得る。

　次に、音声話者属性取得部３０４は、音声認識部３０８に音声認識処理を依頼し、音声認識結果「おはようございます」を得る。

　音声話者属性取得部３０４は、得られた音声認識結果を自然言語処理し、丁寧語であるので、第一話者クラス「Ａ」を取得する。音声話者属性取得部３０４は、例えば、丁寧語を構成する用語「ございます」「です」や、難易度の高い用語「齟齬」「誤謬」などを格納しており、かかる用語の出現頻度、出現割合などにより、第一話者クラスを決定しても良い。音声話者属性取得部３０４は、「おはようございます」を形態素解析し、「おはよう」「ございます」の２つの形態素に分割する。そして、音声話者属性取得部３０４は、「ございます」が管理されている用語に合致することを検知する。次に、音声話者属性取得部３０４は、管理用語である割合「５０％」と算出する。次に、音声話者属性取得部３０４は、格納している判断条件「Ａ：管理用語の出現割合が５％以上，Ｂ：管理用語の出現割合が１％以上かつ５％未満，Ｃ：管理用語の出現割合が１％未満」から、第一話者クラス「Ａ」と決定する。なお、次々と会話がなされるごとに、音声話者属性取得部３０４は、管理用語の出現割合を、都度、算出し、第一話者クラスを決定、変更していくことは好適である。

　次に、第三話者属性蓄積部３０５は、受信した音声翻訳制御情報（図２０）に、話者属性である話速「中程度」、および第一話者クラス「Ａ」を加える。そして、第三話者属性蓄積部３０５は、図２１の音声翻訳制御情報を、第三話者属性格納部３０１に、少なくとも一時的に蓄積する。

　次に、第三サーバ選択手段３０９２は、第三話者属性格納部３０１に格納されている音声翻訳制御情報（図２１）が有する１以上の話者属性を用いて、翻訳サーバ選択情報管理表（図１５）を検索し、１以上の話者属性に対応する「ＩＤ＝２５」のレコードの翻訳サーバ装置識別子「７７．１２８．５０．８０」を取得する。そして、第三話者属性蓄積部３０５は、翻訳サーバ装置識別子「７７．１２８．５０．８０」を音声翻訳制御情報に加えて、第三話者属性格納部３０１に蓄積する。かかる更新された音声翻訳制御情報を図２２に示す。

　次に、音声認識結果送信部３１０は、取得された翻訳サーバ装置識別子「７７．１２８．５０．８０」に対応する翻訳サーバ装置４に、音声認識結果「おはようございます」を送信する。

　そして、第三話者属性送信部３１１は、第三話者属性格納部３０１に格納されている音声翻訳制御情報（図２２）を、取得された翻訳サーバ装置識別子「７７．１２８．５０．８０」に対応する翻訳サーバ装置４に送信する。

　次に、翻訳サーバ装置４の音声認識結果受信部４０６は、音声認識結果「おはようございます」を受信する。そして、第四話者属性受信部４０３は、音声翻訳制御情報（図２２）を受信する。

　次に、第四話者属性蓄積部４０５は、受信した音声翻訳制御情報（図２２）を、第四話者属性格納部４０１に、少なくとも一時的に蓄積する。

　次に、第四モデル選択手段４０７２は、図２２の音声翻訳制御情報が有する１以上の話者属性を用いて、翻訳モデル選択情報管理表（図１６）から、「ＩＤ＝１８」のレコードを検索し、翻訳モデル識別子「ＪＴ４」を取得する。そして、第四モデル選択手段４０７２は、「ＪＴ４」の翻訳モデルを、翻訳モデル格納部４０２から読み出す。

　次に、翻訳部４０８は、読み出された翻訳モデル「ＪＴ４」を用いて、受信された音声認識結果「おはようございます」に対して、翻訳処理を行う。そして、翻訳部４０８は、翻訳結果「Ｇｏｏｄ　ｍｏｒｎｉｎｇ．」を得る。

　次に、第四サーバ選択手段４０９２は、図２２の音声翻訳制御情報が有する１以上の話者属性を用いて、音声合成サーバ選択情報管理表（図１７）から、１以上の話者属性に対応する「ＩＤ＝３３」のレコードを検索し、音声合成サーバ装置識別子「２３８．３．５５．７」を取得する。

　そして、第四話者属性蓄積部４０５は、図２２の音声翻訳制御情報に、音声合成サーバ装置識別子「２３８．３．５５．７」を加えた音声翻訳制御情報（図２３）を構成し、当該音声翻訳制御情報を第四話者属性格納部４０１に蓄積する。

　次に、翻訳結果送信部４１０は、音声合成サーバ装置識別子「２３８．３．５５．７」に対応する音声合成サーバ装置５に、翻訳結果「Ｇｏｏｄ　ｍｏｒｎｉｎｇ．」を送信する。

　次に、第四話者属性送信部４１１は、図２３の音声翻訳制御情報を、音声合成サーバ装置識別子「２３８．３．５５．７」に対応する音声合成サーバ装置５に送信する。

　次に、音声合成サーバ装置５の翻訳結果受信部５０５は、翻訳結果を受信する。また、第五話者属性受信部５０３は、図２３の音声翻訳制御情報を受信する。

　そして、第五話者属性蓄積部５０４は、受信した音声翻訳制御情報を、第五話者属性格納部５０１に、少なくとも一時的に蓄積する。

　次に、第五モデル選択手段５０６２は、第五話者属性格納部５０１に格納されている音声翻訳制御情報（図２３）が有する１以上の話者属性を用いて、音声合成モデル選択情報管理表から、「ＩＤ＝１８」のレコードを検索し、音声合成モデル識別子「ＪＣ９」を取得する。そして、第五モデル選択手段５０６２は、選択した音声合成モデル「ＪＣ９」を、音声合成モデル格納部５０２から読み出す。

　次に、音声合成部５０７は、読み出された音声合成モデルを用いて、翻訳結果「Ｇｏｏｄ　ｍｏｒｎｉｎｇ．」に対して、音声合成処理を行う。そして、音声合成部５０７は、音声合成された音声情報（音声合成結果）を得る。

　次に、音声合成結果送信部５０８は、第二端末装置２に、得られた音声合成結果を送信する。

　次に、第二端末装置２の第二音声受信部２７は、音声合成結果「Ｇｏｏｄ　ｍｏｒｎｉｎｇ」を受信する。そして、第二音声出力部２８は、音声「Ｇｏｏｄ　ｍｏｒｎｉｎｇ」を出力する。

　以上の処理により、ユーザＡが発生した「おはようございます」が、第二端末装置２に至るまでに「Ｇｏｏｄ　ｍｏｒｎｉｎｇ」の音声に変換され、第二端末装置２に「Ｇｏｏｄ　ｍｏｒｎｉｎｇ」が出力される。

　また、第二端末装置２のユーザＢが、「Ｇｏｏｄ　ｍｏｒｎｉｎｇ」に答えて「Ｇｏｏｄ　ｍｏｒｎｉｎｇ」と発生した音声は、上記と同様の処理により、「おはよう」に変換され、第一端末装置１に音声「おはよう」が出力される。

　以上、本実施の形態によれば、音声認識、翻訳、音声合成の各処理において、話者属性に合致する適切な装置、または適切なモデルを選択できる。その結果、精度の高い、または話者の属性を引き継いだネットワーク型音声翻訳システムが提供できる。

　また、本実施の形態によれば、会話中に、話速や話者クラスなどの話者属性が変化した場合、当該変化に合わせた装置（音声認識、翻訳、音声合成の各装置）やモデル（音声認識、翻訳、音声合成の各モデル）が適用され、適切に音声認識、翻訳、音声合成等の処理が行える。

　なお、本実施の形態によれば、音声認識、翻訳、音声合成の各処理において、話者属性に合致する適切な装置、または適切なモデルを、すべて選択できた。しかし、音声認識を行う装置またはモデルのみが選択できても良いし、翻訳を行う装置またはモデルのみが選択できても良いし、音声合成を行う装置またはモデルのみが選択できても良い。

　また、本実施の形態によれば、例えば、ユーザが、翻訳サーバ装置または翻訳モデルを指定した場合は、指定された翻訳サーバ装置または翻訳モデルを使用して、翻訳処理を行うことは好適である。ユーザは、自分で使用したい表現を蓄積した翻訳サーバ装置または翻訳モデルを利用したい場合もあるからである。かかる場合、例えば、第一端末装置１に、利用したい翻訳サーバ装置を識別する翻訳サーバ装置識別子または翻訳モデルを識別する翻訳モデル識別子が格納されている。そして、かかる翻訳サーバ装置識別子または翻訳モデル識別子が音声翻訳制御情報に付加される。そして、かかる音声翻訳制御情報は、第一端末装置１から、音声認識サーバ装置３を経由して、翻訳サーバ装置４に送信される。

　また、同様に、本実施の形態において、例えば、ユーザが、音声合成サーバ装置または音声合成モデルを指定した場合は、指定された音声合成サーバ装置または音声合成モデルを使用して、音声合成処理を行うことは好適である。ユーザは、例えば、自分の音声を集めた音声合成モデル、または自分の音声を集めた音声合成モデルを格納した音声合成サーバ装置を利用して、目的言語の音声合成を行いたい場合もあるからである。かかる場合、例えば、第一端末装置１に、利用したい音声合成サーバ装置を識別する音声合成サーバ装置識別子または音声合成モデルを識別する音声合成モデル識別子が格納されている。そして、かかる音声合成サーバ装置識別子または音声合成モデル識別子が音声翻訳制御情報に付加される。そして、かかる音声翻訳制御情報は、第一端末装置１から、音声認識サーバ装置３、および翻訳サーバ装置４を経由して、音声合成サーバ装置５に送信される。

　ユーザが指定した翻訳サーバ装置を識別する情報、およびユーザが指定した音声合成サーバ装置を識別する情報が付加された音声翻訳制御情報の例は、図２４である。

　また、本実施の形態によれば、第一端末装置１が音声認識サーバ装置３の選択処理を行った。また、音声認識サーバ装置３が、音声認識モデルの選択処理、および翻訳サーバ装置４の選択処理を行った。また、翻訳サーバ装置４が、翻訳モデルの選択処理、および音声合成サーバ装置５の選択処理を行った。さらに、音声合成サーバ装置５が、音声合成モデルの選択処理を行った。しかし、かかるモデルやサーバ装置の選択処理は、他の装置が行っても良い。例えば、一の制御装置が、かかるサーバ装置の選択処理を行う場合の、音声翻訳システム６の概念図は、図２５である。図２５において、音声翻訳システムは、１以上の第一端末装置２５１、１以上の第二端末装置２５２、１以上の音声認識サーバ装置２５３、１以上の翻訳サーバ装置２５４、１以上の音声合成サーバ装置５、および制御装置２５６を具備する。この音声翻訳システム６と、上述した音声翻訳システムとの差異は、サーバ装置の選択処理を行う装置が異なるために生じる差異である。なお、図２５において、モデルの選択は、音声認識サーバ装置２５３、翻訳サーバ装置２５４、および音声合成サーバ装置５で、それぞれ行う。

　また、図２５において、第一端末装置２５１、第二端末装置２５２、音声認識サーバ装置２５３、翻訳サーバ装置２５４、および音声合成サーバ装置５は、それぞれ、処理前の結果を制御装置２５６から受信し、処理後の結果を制御装置２５６に送信する。つまり、第一端末装置２５１は、ユーザＡから受け付けた音声情報を制御装置２５６に送信する。そして、制御装置２５６は、音声認識を行う音声認識サーバ装置２５３を決定し、音声情報を音声認識サーバ装置２５３に送信する。次に、音声認識サーバ装置２５３は音声情報を受信し、必要に応じて、音声認識モデルを選択し、音声認識処理を行う。そして、音声認識サーバ装置２５３は、音声認識結果を制御装置２５６に送信する。次に、制御装置２５６は、音声認識結果を音声認識サーバ装置２５３から受信し、翻訳を行う翻訳サーバ装置２５４を選択する。そして、制御装置２５６は、選択した翻訳サーバ装置２５４に、音声認識結果を送信する。次に、翻訳サーバ装置２５４は、音声認識結果を受信し、必要に応じて、翻訳モデルを選択し、翻訳処理を行う。そして、翻訳サーバ装置２５４は、翻訳結果を制御装置２５６に送信する。次に、制御装置２５６は、翻訳結果を翻訳サーバ装置２５４から受信し、音声合成を行う音声合成サーバ装置５を選択する。そして、制御装置２５６は、選択した音声合成サーバ装置５に、翻訳結果を送信する。次に、音声合成サーバ装置５は、翻訳結果を受信し、必要に応じて、音声合成モデルを選択し、音声合成処理を行う。そして、音声合成サーバ装置５は、音声合成結果を制御装置２５６に送信する。次に、制御装置２５６は、音声合成結果を音声合成サーバ装置５から受信し、第二端末装置２５２に送信する。次に、第二端末装置２５２は、音声合成結果を受信し、出力する。

　図２６は、音声翻訳システム６のブロック図である。図２６において、第一端末装置２５１の第一音声送信部１６、第一音声受信部１７、および第一話者属性送信部１９、第二端末装置２５２の第二音声送信部２６、第二音声受信部２７、および第二話者属性送信部２９が情報の送受信を行う装置は、制御装置２５６である。

　図２６において、第一端末装置２５１は、第一話者属性格納部１１、第一話者属性受付部１２、第一話者属性蓄積部１３、第一音声受付部１４、第一音声送信部１６、第一音声受信部１７、第一音声出力部１８、第一話者属性送信部１９を備える。第二端末装置２５２は、第二話者属性格納部２１、第二話者属性受付部２２、第二話者属性蓄積部２３、第二音声受付部２４、第二音声送信部２６、第二音声受信部２７、第二音声出力部２８、第二話者属性送信部２９を備える。

　図２７は、制御装置２５６のブロック図である。制御装置２５６は、話者属性格納部２５６１、送受信部２５６２、話者属性蓄積部２５６３、第二音声認識サーバ選択部２５、翻訳サーバ選択部３０９、音声合成サーバ選択部４０９を備える。話者属性格納部２５６１は、１以上の話者属性を格納し得る。話者属性格納部２５６１は、音声翻訳制御情報を格納していても良い。送受信部２５６２は、第一端末装置２５１、第二端末装置２５２、音声認識サーバ装置２５３、翻訳サーバ装置２５４、および音声合成サーバ装置５との間で、各種の情報を送受信する。各種の情報とは、音声情報、音声認識結果、翻訳結果、音声合成結果、および音声翻訳制御情報（一部の話者属性も含む）などである。送受信部２５６２は、通常、無線又は有線の通信手段により実現され得る。話者属性蓄積部２５６３は、送受信部２５６２が受信した１以上の話者属性（音声翻訳制御情報でも良い）を、話者属性格納部２５６１に蓄積する。

　また、図２８は、音声認識サーバ装置２５３のブロック図である。音声認識サーバ装置２５３は、第三話者属性格納部３０１、音声認識モデル格納部３０２、第三話者属性受信部３０３、音声話者属性取得部３０４、第三話者属性蓄積部３０５、音声情報受信部３０６、音声認識モデル選択部３０７、音声認識部３０８、音声認識結果送信部３１０、第三話者属性送信部３１１を備える。

　また、図２９は、翻訳サーバ装置２５４のブロック図である。翻訳サーバ装置２５４は、第四話者属性格納部４０１、翻訳モデル格納部４０２、第四話者属性受信部４０３、第四話者属性蓄積部４０５、音声認識結果受信部４０６、翻訳モデル選択部４０７、翻訳部４０８、翻訳結果送信部４１０、第四話者属性送信部４１１を備える。

　また、本実施の形態において、音声翻訳制御情報の例は、図２０から図２４を用いて説明した。ただし、音声翻訳制御情報のフォーマットは問わない。音声翻訳制御情報は、図３０に示すようなＸＭＬのフォーマットでも良いことは言うまでもない。図３０に示す音声翻訳制御情報の記述言語を、音声翻訳用マークアップランゲージ　ＳＴＭＬ（Ｓｐｅｅｃｈ　Ｔｒａｎｓｌａｔｉｏｎ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）という。図３０において、ユーザＩＤ（話者のユーザを特定する情報"Ｍｉｋｅ"）、音声認識の出力結果のフォーマット、またはサイズ（ＭａｘＮＢｅｓｔ＝"２"）、原言語「英語」（ｌａｎｇｕａｇｅ＝"ｅｎ"）、翻訳対象を特定する情報（ここでは、Ｔａｓｋ＝"Ｄｉｃｔａｔｉｏｎ"、会話のドメイン（ここでは、「Ｔｒａｖｅｌ（旅行）」）、入力音声のフォーマットを示す情報（ここでは、"ＡＤＰＣＭ"）が記載されている。また、図３０において、話者属性のうちの性別（ここでは、"ｍａｌｅ"）、年齢（ここでは、"３０"）、およびネイティブか否か（ここでは、"ｎｏ"）が記載されている。また、図３０において、出力テキストのフォーマットを示す情報（ここでは、"ＳｕｒｆａｃｅＦｏｒｍ"）が記載されている。さらに、音声翻訳制御情報において、出力音声のフォーマットを示す情報、入出力音声の声質を指定する情報、入力テキストのフォーマットを示す情報を示す情報などが存在しても良い。また、上記の（ＭａｘＮＢｅｓｔ＝"２"）は、音声認識結果の上位２番目までの候補を出力し、送信することを示している。なお、Nbestは音声認識結果の上位N番目までの候補という意味である。

　また、本実施の形態において、音声認識サーバ装置３、および翻訳サーバ装置４は、それぞれ、音声認識モデルの選択や翻訳モデルの選択を行わなくても良い。また、音声認識処理を行う音声認識サーバ装置３や、翻訳処理を行う翻訳サーバ装置４の選択も行わなくても良い。かかる場合、話者属性に応じた音声合成サーバ装置５の選択や、音声合成モデルの選択が行われる。かかる音声合成サーバ装置５の選択処理、音声合成モデルの選択処理は、上述した通りである。また、音声合成サーバ装置５の音声合成部５０７は、話者属性（例えば、話速や音の高低や音質など）に応じて、音声を変換して、出力する音声情報を構成しても良い。つまり、音声合成部５０７は、翻訳結果受信部５０５が受信した翻訳結果を、第五話者属性受信部５０３が受信した１以上の話者属性が示す属性に合致するように、音声合成モデル格納部５０２の音声合成モデルを用いて音声合成し、音声合成結果を取得しても良い。また、音声合成部５０７は、翻訳結果受信部５０５が受信した翻訳結果を、音声翻訳制御情報の話者属性が示す属性に合致するように、音声合成モデル格納部５２の音声合成モデルを用いて音声合成し、音声合成結果を取得しても良い。かかる場合も、音声合成モデルの選択と言っても良い。

　さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ－ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における第一端末装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、音声を受け付ける第一音声受付部と、記憶媒体に格納している１以上の話者属性に応じて、２以上の音声認識サーバ装置のうち一の音声認識サーバ装置を選択する第一音声認識サーバ選択部と、前記第一音声認識サーバ選択部が選択した音声認識サーバ装置に、前記第一音声受付部が受け付けた音声から構成される音声情報を送信する第一音声送信部として機能させるためのプログラム、である。

　また、本実施の形態における音声認識サーバ装置を実現するソフトウェアは、コンピュータを、音声情報を受信する音声情報受信部と、記憶媒体に格納している１以上の話者属性に応じて、記憶媒体に格納している２以上の音声認識モデルから、一の音声認識モデルを選択する音声認識モデル選択部と、前記音声情報受信部が受信した音声情報を、前記音声認識モデル選択部が選択した音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、前記音声認識結果を送信する音声認識結果送信部として機能させるためのプログラム、である。

　また、本実施の形態における音声認識サーバ装置を実現するソフトウェアは、コンピュータを、音声情報を受信する音声情報受信部と、前記音声情報受信部が受信した音声情報を、記憶媒体に格納している音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、記憶媒体に格納している１以上の話者属性に応じて、２以上の翻訳サーバ装置のうち一の翻訳サーバ装置を選択する翻訳サーバ選択部と、前記翻訳サーバ選択部が選択した翻訳サーバ装置に、前記音声認識結果を送信する音声認識結果送信部として機能させるためのプログラム、である。

　また、本実施の形態における音声認識サーバ装置を実現するソフトウェアは、コンピュータを、前記音声情報受信部が受信した音声情報から、１以上の音声に関する話者属性を取得する音声話者属性取得部と、前記音声話者属性取得部が取得した１以上の話者属性を、記憶媒体に蓄積する第三話者属性蓄積部として、さらに機能させるためのプログラム、である。

　また、本実施の形態における翻訳サーバ装置を実現するソフトウェアは、コンピュータを、１以上の話者属性を受信する第四話者属性受信部と、音声認識結果を受信する音声認識結果受信部と、前記第四話者属性受信部が受信した１以上の話者属性に応じて、記憶媒体に格納している２以上の翻訳モデルから、一の翻訳モデルを選択する翻訳モデル選択部と、前記音声認識結果受信部が受信した音声認識結果を、前記翻訳モデル選択部が選択した翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、前記翻訳結果を送信する翻訳結果送信部として機能させるためのプログラム、である。

　また、本実施の形態における翻訳サーバ装置を実現するソフトウェアは、コンピュータを、１以上の話者属性を受信する第四話者属性受信部と、音声認識結果を受信する音声認識結果受信部と、前記音声認識結果受信部が受信した音声認識結果を、記憶媒体に格納している翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、前記１以上の話者属性に応じて、２以上の音声合成サーバ装置のうち一の音声合成サーバ装置を選択する音声合成サーバ選択部と、前記音声合成サーバ選択部が選択した音声合成サーバ装置に、前記翻訳結果を送信する翻訳結果送信部として機能させるためのプログラム、である。

　また、本実施の形態における翻訳サーバ装置を実現するソフトウェアは、コンピュータを、前記音声認識結果受信部が受信した音声認識結果から、１以上の言語に関する話者属性を取得する言語話者属性取得部と、前記言語話者属性取得部が取得した１以上の話者属性を、記憶媒体に蓄積する第四話者属性蓄積部として機能させるためのプログラム、である。

　また、本実施の形態における音声合成サーバ装置を実現するソフトウェアは、コンピュータを、１以上の話者属性を受信する第五話者属性受信部と、翻訳結果を受信する翻訳結果受信部と、前記第五話者属性受信部が受信した１以上の話者属性に応じて、記憶媒体に格納している２以上の音声合成モデルから、一の音声合成モデルを選択する音声合成モデル選択部と、前記翻訳結果受信部が受信した翻訳結果を、前記音声合成モデル選択部が選択した音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、前記音声合成結果を第二端末装置に送信する音声合成結果送信部として機能させるためのプログラム、である。

　また、図３１は、本明細書で述べたプログラムを実行して、上述した実施の形態の音声翻訳システム等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図３１は、このコンピュータシステム３４０の概観図であり、図３２は、コンピュータシステム３４０の内部構成を示す図である。

　図３１において、コンピュータシステム３４０は、ＦＤドライブ３４１１、ＣＤ－ＲＯＭドライブ３４１２を含むコンピュータ３４１と、キーボード３４２と、マウス３４３と、モニタ３４４とを含む。

　図３２において、コンピュータ３４１は、ＦＤドライブ３４１１、ＣＤ－ＲＯＭドライブ３４１２に加えて、ＭＰＵ３４１３と、ＣＤ－ＲＯＭドライブ３４１２及びＦＤドライブ３４１１に接続されたバス３４１４と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ３４１５に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのＲＡＭ３４１６と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク３４１７とを含む。ここでは、図示しないが、コンピュータ３４１は、さらに、ＬＡＮへの接続を提供するネットワークカードを含んでも良い。

　コンピュータシステム３４０に、上述した実施の形態の音声翻訳システム等の機能を実行させるプログラムは、ＣＤ－ＲＯＭ３５０１、またはＦＤ３５０２に記憶されて、ＣＤ－ＲＯＭドライブ３４１２またはＦＤドライブ３４１１に挿入され、さらにハードディスク３４１７に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ３４１に送信され、ハードディスク３４１７に記憶されても良い。プログラムは実行の際にＲＡＭ３４１６にロードされる。プログラムは、ＣＤ－ＲＯＭ３５０１、ＦＤ３５０２またはネットワークから直接、ロードされても良い。

　プログラムは、コンピュータ３４１に、上述した実施の形態の音声翻訳システム等の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム３４０がどのように動作するかは周知であり、詳細な説明は省略する。

　なお、上記プログラムにおいて、情報を送信するステップや、情報をする受信ステップなどでは、ハードウェアによって行われる処理、例えば、送信するステップにおけるモデムやインターフェースカードなどで行われる処理（ハードウェアでしか行われない処理）は含まれない。

　また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

　また、上記各実施の形態において、一の装置に存在する２以上の通信手段（音声認識結果受信部、第四話者属性受信部など）は、物理的に一の媒体で実現されても良いことは言うまでもない。

　また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。なお、各処理（各機能）が単一の装置（システム）によって集中処理される場合、音声翻訳システムは、一つの装置であり、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置は、一つの装置内に含められる。かかる場合、上記の情報の送信および受信は、情報の受け渡しになる。つまり、上記の受信または送信は広く解する。
　さらに具体的には、音声翻訳システムが単一の装置によって集中処理される場合、当該音声翻訳システムは、例えば、図３３に示す構成になる。
　つまり、音声翻訳システムは、音声受付部３３０１、第三話者属性格納部３０１、音声認識モデル格納部３０２、音声話者属性取得部３０４、音声認識モデル選択部３０７、音声認識部３０８、翻訳モデル格納部４０２、言語話者属性取得部４０４、翻訳モデル選択部４０７、翻訳部４０８、音声合成モデル格納部５０２、音声合成モデル選択部５０６、音声合成部５０７、音声合成結果出力部３３０２を備える。
　音声受付部３３０１は、ユーザから音声を受け付ける。この音声は、音声翻訳対象の音声である。音声受付部３３０１は、例えば、マイクとそのドライバーソフトウェア等から構成され得る。
　第三話者属性格納部３０１は、ここでは、通常、ユーザから受け付けた話者属性を格納している。ここでの話者属性は、通常、静的話者属性情報である。
　音声話者属性取得部３０４は、音声受付部３３０１が受け付けた音声から構成された音声情報から、１以上の音声話者属性を取得する。ここで取得する音声話者属性は、主として、動的話者属性情報であるが、静的話者属性情報でも良い。
　音声認識モデル選択部３０７は、第三話者属性格納部３０１の話者属性または音声話者属性取得部３０４が取得した話者属性のうちの、１以上の話者属性に応じて、２以上の音声認識モデルから、一の音声認識モデルを選択する。
　音声認識部３０８は、音声受付部３３０１が受け付けた音声から構成された音声情報を、音声認識モデル格納部３０２の音声認識モデルを用いて音声認識し、音声認識結果を取得する。また、音声認識部３０８は、音声情報を、音声認識モデル選択部３０７が選択した音声認識モデルを用いて音声認識し、音声認識結果を取得することは好適である。
　言語話者属性取得部４０４は、音声認識部３０８が取得した音声認識結果から１以上の言語話者属性を取得する。
　翻訳モデル選択部４０７は、１以上の話者属性に応じて、２以上の翻訳モデルから、一の翻訳モデルを選択する。ここでの話者属性は、第三話者属性格納部３０１の話者属性または音声話者属性取得部３０４が取得した話者属性または言語話者属性取得部４０４が取得した言語話者属性のうちの、１以上の話者属性である。
　翻訳部４０８は、音声認識結果を、翻訳モデル格納部４０２の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する。翻訳部４０８は、音声認識結果を、翻訳モデル選択部４０７が選択した翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得することは好適である。
　音声合成モデル選択部５０６は、１以上の話者属性に応じて、２以上の音声合成モデルから、一の音声合成モデルを選択する。ここでの話者属性は、第三話者属性格納部３０１の話者属性または音声話者属性取得部３０４が取得した話者属性または言語話者属性取得部４０４が取得した言語話者属性のうちの、１以上の話者属性である。
　音声合成部５０７は、翻訳結果を、音声合成モデル格納部５０２の音声合成モデルを用いて音声合成し、音声合成結果を取得する。音声合成部５０７は、翻訳結果を、音声合成モデル選択部５０６が選択した音声合成モデルを用いて音声合成し、音声合成結果を取得することは好適である。
　音声合成結果出力部３３０２は、音声合成部５０７が取得した音声合成結果を出力する。ここでの出力とは、スピーカー等を用いた音声出力、外部の装置（通常、音声出力装置）への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。音声合成結果出力部３３０２は、スピーカーとそのドライバーソフトウェア等から構成され得る。
　なお、音声翻訳システムは、第三話者属性格納部３０１、音声話者属性取得部３０４、音声認識モデル選択部３０７、言語話者属性取得部４０４、翻訳モデル選択部４０７、音声合成モデル選択部５０６は、必須の構成要素ではない。

　本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

　以上のように、本発明にかかる音声翻訳システムは、音声翻訳において、話者の属性に応じて音声認識や翻訳や音声合成を行う装置やモデルを変更でき、音声認識や翻訳や音声合成の各処理において、精度が向上し、適切な出力が行われる、という効果を有し、音声翻訳システム等として有用である。

実施の形態１における音声翻訳システムの概念図同音声翻訳システムのブロック図同音声認識サーバ装置のブロック図同翻訳サーバ装置のブロック図同音声合成サーバ装置のブロック図同音声翻訳システムの動作について説明するフローチャート同音声認識サーバ装置の動作について説明するフローチャート同話者属性取得処理の動作について説明するフローチャート同翻訳サーバ装置の動作について説明するフローチャート同音声翻訳システムの動作について説明するフローチャート同第一話者属性管理表を示す図同第二話者属性管理表を示す図同音声認識サーバ選択情報管理表を示す図同音声認識モデル選択情報管理表を示す図同翻訳サーバ選択情報管理表を示す図同翻訳モデル選択情報管理表を示す図同音声合成サーバ選択情報管理表を示す図同音声合成モデル選択情報管理表を示す図同第一端末装置の話者属性等の入力画面を示す図同音声翻訳制御情報の例を示す図同更新された音声翻訳制御情報の例を示す図同更新された音声翻訳制御情報の例を示す図同更新された音声翻訳制御情報の例を示す図同更新された音声翻訳制御情報の例を示す図同他の音声翻訳システムの概念図同他の音声翻訳システムのブロック図同制御装置のブロック図同音声認識サーバ装置のブロック図同翻訳サーバ装置のブロック図同音声翻訳制御情報の例であるＳＴＭＬの例を示す図同コンピュータシステムの概観図同コンピュータシステムのブロック図同音声翻訳システムの他のブロック図

Claims

音声を入力する第一端末装置、２以上の音声認識サーバ装置、１以上の翻訳サーバ装置、１以上の音声合成サーバ装置とを有する音声翻訳システムであって、
前記第一端末装置は、
話者の属性値である話者属性を、１以上格納し得る第一話者属性格納部と、
音声を受け付ける第一音声受付部と、
前記１以上の話者属性に応じて、前記２以上の音声認識サーバ装置のうち一の音声認識サーバ装置を選択する第一音声認識サーバ選択部と、
前記第一音声認識サーバ選択部が選択した音声認識サーバ装置に、前記第一音声受付部が受け付けた音声から構成される音声情報を送信する第一音声送信部とを具備し、
前記音声認識サーバ装置は、
前記２以上の言語のうちのすべての言語または２以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、
前記音声情報を受信する音声情報受信部と、
前記音声情報受信部が受信した音声情報を、前記音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、
前記音声認識結果を送信する音声認識結果送信部とを具備し、
前記翻訳サーバ装置は、
前記２以上の言語のうちのすべての言語または２以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、
前記音声認識結果を受信する音声認識結果受信部と、
前記音声認識結果受信部が受信した音声認識結果を、前記翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、
前記翻訳結果を送信する翻訳結果送信部とを具備し、
前記音声合成サーバ装置は、
前記２以上の言語のうちのすべての言語または２以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、
前記翻訳結果を受信する翻訳結果受信部と、
前記翻訳結果受信部が受信した翻訳結果を、前記音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、
前記音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システム。
音声を入力する第一端末装置、１以上の音声認識サーバ装置、１以上の翻訳サーバ装置、１以上の音声合成サーバ装置とを有する音声翻訳システムであって、
前記第一端末装置は、
音声を受け付ける第一音声受付部と、
前記第一音声受付部が受け付けた音声から構成される音声情報を、前記音声認識サーバ装置に送信する第一音声送信部とを具備し、
前記音声認識サーバ装置は、
話者の属性値である話者属性を、１以上格納し得る第三話者属性格納部と、
前記２以上の言語のうちのすべての言語または２以上の一部の言語について、２以上の音声認識モデルを格納し得る音声認識モデル格納部と、
前記音声情報を受信する音声情報受信部と、
前記１以上の話者属性に応じて、前記２以上の音声認識モデルから、一の音声認識モデルを選択する音声認識モデル選択部と、
前記音声情報受信部が受信した音声情報を、前記音声認識モデル選択部が選択した音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、
前記音声認識結果を送信する音声認識結果送信部とを具備し、
前記翻訳サーバ装置は、
前記２以上の言語のうちのすべての言語または２以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、
前記音声認識結果を受信する音声認識結果受信部と、
前記音声認識結果受信部が受信した音声認識結果を、前記翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、
前記翻訳結果を送信する翻訳結果送信部とを具備し、
前記音声合成サーバ装置は、
前記２以上の言語のうちのすべての言語または２以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、
前記翻訳結果を受信する翻訳結果受信部と、
前記翻訳結果受信部が受信した翻訳結果を、前記音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、
前記音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システム。
１以上の音声認識サーバ装置、２以上の翻訳サーバ装置、１以上の音声合成サーバ装置とを有する音声翻訳システムであって、
前記音声認識サーバ装置は、
話者の属性値である話者属性を、１以上格納し得る第三話者属性格納部と、
前記２以上の言語のうちのすべての言語または２以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、
音声情報を受信する音声情報受信部と、
前記音声情報受信部が受信した音声情報を、前記音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、
前記１以上の話者属性に応じて、前記２以上の翻訳サーバ装置のうち一の翻訳サーバ装置を選択する翻訳サーバ選択部と、
前記翻訳サーバ選択部が選択した翻訳サーバ装置に、前記音声認識結果を送信する音声認識結果送信部とを具備し、
前記翻訳サーバ装置は、
前記２以上の言語のうちのすべての言語または２以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、
前記音声認識結果を受信する音声認識結果受信部と、
前記音声認識結果受信部が受信した音声認識結果を、前記翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、
前記翻訳結果を送信する翻訳結果送信部とを具備し、
前記音声合成サーバ装置は、
前記２以上の言語のうちのすべての言語または２以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、
前記翻訳結果を受信する翻訳結果受信部と、
前記翻訳結果受信部が受信した翻訳結果を、前記音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、
前記音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システム。
１以上の音声認識サーバ装置、１以上の翻訳サーバ装置、１以上の音声合成サーバ装置とを有する音声翻訳システムであって、
前記音声認識サーバ装置は、
前記２以上の言語のうちのすべての言語または２以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、
音声情報を受信する音声情報受信部と、
前記音声情報受信部が受信した音声情報を、前記音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、
前記翻訳サーバ装置に、前記音声認識結果を送信する音声認識結果送信部とを具備し、
前記翻訳サーバ装置は、
前記２以上の言語のうちのすべての言語または２以上の一部の言語について、２以上の翻訳モデルを格納し得る翻訳モデル格納部と、
１以上の話者属性を格納し得る第四話者属性格納部と、
前記音声認識結果を受信する音声認識結果受信部と、
前記１以上の話者属性に応じて、前記２以上の翻訳モデルから、一の翻訳モデルを選択する翻訳モデル選択部と、
前記音声認識結果受信部が受信した音声認識結果を、前記翻訳モデル選択部が選択した翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、
前記翻訳結果を送信する翻訳結果送信部とを具備し、
前記音声合成サーバ装置は、
前記２以上の言語のうちのすべての言語または２以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、
前記翻訳結果を受信する翻訳結果受信部と、
前記翻訳結果受信部が受信した翻訳結果を、前記音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、
前記音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システム。
１以上の音声認識サーバ装置、１以上の翻訳サーバ装置、２以上の音声合成サーバ装置とを有する音声翻訳システムであって、
前記音声認識サーバ装置は、
前記２以上の言語のうちのすべての言語または２以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、
音声情報を受信する音声情報受信部と、
前記音声情報受信部が受信した音声情報を、前記音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、
前記翻訳サーバ装置に、前記音声認識結果を送信する音声認識結果送信部とを具備し、
前記翻訳サーバ装置は、
前記２以上の言語のうちのすべての言語または２以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、
１以上の話者属性を格納し得る第四話者属性格納部と、
前記音声認識結果を受信する音声認識結果受信部と、
前記音声認識結果受信部が受信した音声認識結果を、前記翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、
前記１以上の話者属性に応じて、前記２以上の音声合成サーバ装置のうち一の音声合成サーバ装置を選択する音声合成サーバ選択部と、
前記音声合成サーバ選択部が選択した音声合成サーバ装置に、前記翻訳結果を送信する翻訳結果送信部とを具備し、
前記音声合成サーバ装置は、
前記２以上の言語のうちのすべての言語または２以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、
前記翻訳結果を受信する翻訳結果受信部と、
前記翻訳結果受信部が受信した翻訳結果を、前記音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、
前記音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システム。
１以上の音声認識サーバ装置、１以上の翻訳サーバ装置、１以上の音声合成サーバ装置とを有する音声翻訳システムであって、
前記音声認識サーバ装置は、
前記２以上の言語のうちのすべての言語または２以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、
音声情報を受信する音声情報受信部と、
前記音声情報受信部が受信した音声情報を、前記音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、
前記翻訳サーバ装置に、前記音声認識結果を送信する音声認識結果送信部とを具備し、
前記翻訳サーバ装置は、
前記２以上の言語のうちのすべての言語または２以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、
前記音声認識結果を受信する音声認識結果受信部と、
前記音声認識結果受信部が受信した音声認識結果を、前記翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、
前記音声合成サーバ装置に、前記翻訳結果を送信する翻訳結果送信部とを具備し、
前記音声合成サーバ装置は、
前記２以上の言語のうちのすべての言語または２以上の一部の言語について、２以上の音声合成モデルを格納し得る音声合成モデル格納部と、
１以上の話者属性を格納し得る第五話者属性格納部と、
前記翻訳結果を受信する翻訳結果受信部と、
前記１以上の話者属性に応じて、前記２以上の音声合成モデルから、一の音声合成モデルを選択する音声合成モデル選択部と、
前記翻訳結果受信部が受信した翻訳結果を、前記音声合成モデル選択部が選択した音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、
前記音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システム。
前記第一端末装置は、
１以上の話者属性を受け付ける第一話者属性受付部と、
前記１以上の話者属性を、前記第一話者属性格納部に蓄積する第一話者属性蓄積部とを具備する請求項１記載の音声翻訳システム。
前記音声認識サーバ装置は、
前記音声情報受信部が受信した音声情報から、１以上の音声に関する話者属性を取得する音声話者属性取得部と、
前記音声話者属性取得部が取得した１以上の話者属性を、第三話者属性格納部に蓄積する第三話者属性蓄積部とをさらに具備する請求項２または請求項３記載の音声翻訳システム。
前記翻訳サーバ装置は、
前記音声認識結果受信部が受信した音声認識結果から、１以上の言語に関する話者属性を取得する言語話者属性取得部と、
前記言語話者属性取得部が取得した１以上の話者属性を前記第四話者属性格納部に蓄積する第四話者属性蓄積部とをさらに具備する請求項４または請求項５記載の音声翻訳システム。
前記話者が使用する言語である原言語を特定する原言語識別子、および翻訳先の言語である目的言語を特定する目的言語識別子、および１以上の話者属性を含む音声翻訳制御情報が、前記音声認識サーバ装置から前記１以上の翻訳サーバ装置を経由して、前記音声合成サーバ装置に送信され、
前記音声認識サーバ選択部、または前記音声認識部、または音声認識モデル選択部、または前記翻訳サーバ選択部、または前記翻訳部、または翻訳モデル選択部、前記音声合成サーバ選択部、または前記音声合成部、または音声合成モデル選択部は、
前記音声翻訳制御情報を用いて、各々の処理を行う請求項１記載の音声翻訳システム。
請求項１記載の音声翻訳システムを構成する第一端末装置。
請求項２または請求項３記載の音声翻訳システムを構成する音声認識サーバ装置。
請求項４または請求項５記載の音声翻訳システムを構成する翻訳サーバ装置。
請求項６記載の音声翻訳システムを構成する音声合成サーバ装置。