WO2022038928A1

WO2022038928A1 - コミュニケーションシステム

Info

Publication number: WO2022038928A1
Application number: PCT/JP2021/026570
Authority: WO
Inventors: 篤掛村; 涼太吉澤
Original assignee: 株式会社東芝; 東芝デジタルソリューションズ株式会社
Priority date: 2020-08-17
Filing date: 2021-07-15
Publication date: 2022-02-24
Also published as: JP2022033526A; US20230281401A1; CN116134803A

Abstract

【課題】異なる使用言語のユーザ同士の情報伝達の品質向上を支援する。【解決手段】実施形態のコミュニケーションシステムは、複数の各ユーザがそれぞれ携帯する移動通信端末を通じ、ユーザの発話音声を他のユーザの移動通信端末に同報配信すると共に、受信した発話音声データの発話音声認識結果を、各移動通信端末において同期して表示されるようにテキスト配信する。各ユーザ別に、言語設定情報を保持しておき、さらに、発話音声認識結果を異なる言語に翻訳した翻訳テキストを生成する。発話音声データの同報配信において、受信した発話音声データは翻訳せずに他の複数の移動通信端末それぞれに同報配信し、テキスト配信において、各ユーザの言語設定情報に基づいて、該当する言語の翻訳テキストを移動通信端末それぞれに配信する。

Description

コミュニケーションシステム

　本発明の実施形態は、音声及びテキストを使用したコミュニケーション（情報共有、意思疎通など）支援技術に関し、特に、使用言語の多言語対応技術に関する。

　音声コミュニケーションの一例として、トランシーバ(transceiver)がある。トランシーバは、無線電波の送信機能と受信機能を兼ね備えた無線機であり、１人のユーザが複数人のユーザと通話（一方向又は双方向の情報伝達）を行うことができる。トランシーバの活用例は、工事現場やイベント会場、ホテルや旅館などの施設等で目にすることができる。また、タクシー無線もトランシーバ活用の一例として挙げることができる。

特開２００５－２８６９７９号公報特開２０２０－１２０３５７号公報

　グループ通話を行う異なる使用言語のユーザ同士の情報伝達の品質向上を支援することを目的とする。

　実施形態のコミュニケーションシステムは、複数の各ユーザがそれぞれ携帯する移動通信端末を通じて、ユーザの発話音声を他のユーザの移動通信端末に同報配信する。本コミュニケーションシステムは、移動通信端末から受信した発話音声データを他の複数の移動通信端末それぞれに同報配信する第１制御部と、受信した発話音声データを音声認識処理して得られる発話音声認識結果を、前記各移動通信端末において同期して表示されるようにテキスト配信制御を行う第２制御部と、を有するコミュニケーション制御部と、各ユーザ別に、言語設定情報を記憶する記憶部と、発話音声認識結果を、異なる言語に翻訳した翻訳テキストを生成するテキスト翻訳部と、を備える。前記コミュニケーション制御部は、前記第１制御部において、受信した前記発話音声データを翻訳せずに他の複数の移動通信端末それぞれに同報配信する。また、前記第２制御部において、各ユーザの言語設定情報に基づいて、該当する言語の前記翻訳テキストを前記移動通信端末それぞれに配信する。

第１実施形態のコミュニケーションシステムのネットワーク構成図である。第１実施形態のコミュニケーション管理装置及びユーザ端末の各構成ブロック図である。第１実施形態のユーザ情報及びグループ情報の一例を示す図である。第１実施形態のユーザ端末に表示される画面例である。第１実施形態の多言語対応機能（翻訳テキスト配信）を説明するための図である。第１実施形態の第１多言語対応機能（発話音声の同報配信及びユーザ別翻訳変換テキスト配信の機能）を説明するための図である。第１実施形態の第１多言語対応機能の処理フローを示す図である。第１実施形態の事例に基づく第１多言語対応機能の説明図である。第１実施形態の第２多言語対応機能（入力テキストに基づく多言語対応合成音声の同報配信及びユーザ別翻訳変換テキスト配信の機能）を説明するための図である。第１実施形態の第２多言語対応機能の処理フローを示す図である。第１実施形態の事例に基づく第２多言語対応機能の説明図である。

（第１実施形態）
　図１から図１１は、第１実施形態を説明するための図である。図１は、本実施形態のコミュニケーションシステムのネットワーク構成図である。コミュニケーションシステムは、コミュニケーション管理装置（以下、管理装置と称する）１００を中心に、音声及びテキストを用いた情報伝達支援機能を提供する。以下では、宿泊施設などの施設運営管理を一例に、コミュニケーションシステムを適用した態様について説明する。

　図１に示すように、管理装置１００は、複数の各ユーザがそれぞれ携帯する各ユーザ端末（移動通信端末）５００と無線通信で接続される。管理装置１００は、一のユーザ端末５００から受信した発話音声データを、他のユーザ端末５００に同報配信する。

　ユーザ端末５００は、例えば、スマートフォンなどの多機能携帯電話機やＰＤＡ(Personal Digital Assistant)、タブレット型端末などの持ち運び可能な携帯端末（モバイル端末）である。ユーザ端末５００は、通信機能、演算機能及び入力機能を備え、ＩＰ（Internet protocol）網又は移動通信回線網（Mobile communication network）を通じて無線通信で管理装置１００と接続し、データ通信を行う。

　一のユーザの発話音声が他の複数のユーザ端末５００に同報配信される範囲（又は後述するコミュニケーション履歴が同期して表示される範囲）は、コミュニケーショングループとして設定され、対象ユーザ（現場ユーザ）のユーザ端末５００それぞれが登録される。

　本実施形態のコミュニケーションシステムは、複数の各ユーザがハンズフリーで対話を行うことができることを前提とした、情報共有や意思疎通のための情報伝達を支援する。特に、本コミュニケーションシステムは、使用言語が異なる各ユーザが情報共有や意思疎通のための多言語対応機能を備えており、グループ通話を行う異なる使用言語のユーザ同士の情報伝達の品質向上を支援する。

　昨今、日本国内において、グループ通話が必要な作業現場では、日本語のみ理解できる日本語ネイティブ話者（日本語話者）と、少し日本語が理解できる日本語の非ネイティブ話者（外国語話者）とを含むコミュニケーショングループが形成されるケースが増加している。このようなグループコミュニケーションでは、言語理解という観点で、意思疎通がスムーズにできない課題が生じている。なお、話者の国籍は問わない。

　このような課題に対し、翻訳技術を活用し、外国語話者には日本語以外の使用言語に翻訳してコミュニケーションを成立させる環境を実現することも考えられるが、単に翻訳すればよいというものではない。つまり、グループコミュニケーションは、グループ通話を前提とした業務の会話であり、日本語が苦手な外国語話者が、日々の業務を行う中で日本語でのコミュニケーション能力が向上するように仕向けることも重要である。

　また、発話音声データを他言語の発話音声データに翻訳する場合、精度及び処理速度の側面において課題がある。まず、発話音声データを音声認識処理してテキスト化し、音声認識結果を所望の言語に翻訳した翻訳変換テキストを生成する。そして、翻訳変換テキストを用いた合成音声処理を行い、翻訳合成音声データを生成する必要がある。したがって、多言語対応の音声認識処理に加え、音声認識処理結果を機械翻訳して翻訳変換テキストを生成する処理が連続して行われ、翻訳合成音声データを生成するまでの時間が長くなり（処理速度が遅くなり）、グループ通話のリアルタイム性を要するコミュニケーション自体が成立し難くなる。また、翻訳合成音声データの精度は、音声認識処理の精度と機械翻訳の精度とに依存するので、処理精度が低いと誤変換による間違った連絡または意思疎通が図り難い連絡となる。このため、処理精度が高い音声認識及び機械翻訳の技術導入が必要になるが、上述したように処理速度に加えて、コスト面においても現実的ではない。

　このように、発話音声データを多言語に変換して翻訳合成音声データを生成することは、高い技術及び費用が必要であり、グループ通話でのリアルタイムコミュニケーションを成立させるためのハードルが高い課題がある。特に、間違った翻訳合成音声データが提供されてしまうと、コミュニケーションの円滑性が損なわれ、現場の混乱を招き、業務効率が低下してしまう。円滑なコミュニケーションと業務効率のバランスを考慮した、日本語話者と外国語話者とが混在するコミュニケーショングループの意思疎通を図るための仕組みが必要である。

　そこで、本実施形態では、グループ通話におけるユーザ端末５００を通じて発話された発話音声データは、翻訳せずにそのままの発話言語で同報配信し、音声認識結果に対しては、各ユーザが設定する言語設定情報の各言語の翻訳変換テキストを生成し、使用言語別にユーザに提供する。このように構成することで、処理速度及び翻訳精度の低下を抑制してグループ通話のコミュニケーションの円滑化を図ることができる。

　なお、外国語話者の一例として、少し日本語が理解できる日本語の非ネイティブ話者を挙げたが、日本語がほとんど又は全く理解できない日本語の非ネイティブ話者が含まれていても、本コミュニケーションシステムにより、円滑なコミュニケーションの向上環境及び促進環境を実現することができる。

　図２は、管理装置１００及びユーザ端末５００の各構成ブロック図である。なお、以下の説明では、発話音声データを音声認識して得られた音声認識結果を翻訳した翻訳変換テキスト（音声認識結果を翻訳したテキスト）を第１翻訳テキストと称し、入力テキストを当該入力テキストの言語以外の他の言語に翻訳した翻訳変換テキスト（入力テキストを翻訳したテキスト）を第２翻訳テキストと称する。

　管理装置１００は、制御装置１１０、記憶装置１２０及び通信装置１３０を含む。通信装置１３０は、複数の各ユーザ端末５００との間の通信接続管理及びデータ通信制御を行い、一のユーザによる発話音声データ及びその発話内容のテキスト情報を複数の各ユーザ端末５００に一斉に送る同報配信通信制御を行い、グループ通話のコミュニケーション環境を提供する。

　制御装置１１０は、ユーザ管理部１１１、コミュニケーション制御部１１２、言語設定部１１２Ａ、多言語対応型音声認識部１１３、多言語対応型音声合成部１１４、及びテキスト翻訳部１１５を含んで構成されている。記憶装置１２０は、ユーザ情報１２１、グループ情報１２２、コミュニケーション履歴（コミュニケーションログ）情報１２３、多言語対応型音声認識辞書１２４、及び多言語対応型音声合成辞書１２５を含んで構成されている。

　多言語対応型音声認識部１１３及び多言語対応型音声認識辞書１２４は、日本語、英語、中国語、スペイン語、フランス語、ドイツ語などの各種言語に対応した音声認識処理機能を実現する。ユーザ端末５００から受信するユーザの発話音声データの言語に応じて音声認識辞書を適用し、発話音声データの言語と同じ言語の音声認識結果を生成する。

　多言語対応型音声合成部１１４及び多言語対応型音声合成辞書１２５も、各種言語に対応した音声合成機能を提供する。ユーザ端末５００からテキスト入力された文字情報や、ユーザ端末５００以外の情報入力装置（例えば、管理者や運営者、監督者が操作するモバイル端末やデスクトップＰＣ）からテキスト入力された文字情報を受信し、受信した文字の言語又は受信した文字の言語以外の言語（第２翻訳テキストの言語）の合成音声データを生成する。なお、音声合成データを構成する各言語の音声データの素材は、任意である。

　ユーザ端末５００は、通信・通話部５１０、コミュニケーションＡｐｐ制御部５２０、マイク５３０、スピーカー５４０、タッチパネル等の表示入力部５５０、及び記憶部５６０を含んで構成されている。なお、スピーカー５４０は、実際には、イヤホンやヘッドホン（有線又はワイヤレス）などで構成される。

　図３は、各種情報の一例を示す図であり、ユーザ情報１２１は、本コミュニケーションシステムを利用するユーザ登録情報である。ユーザ管理部１１１は、所定の管理画面を通じて、ユーザＩＤ、ユーザ名、属性、グループを設定することができるように制御する。また、ユーザ管理部１１１は、各ユーザ端末５００における本コミュニケーションシステムへのログイン履歴と、ログインしたユーザＩＤとそのユーザ端末５００の識別情報（ユーザ端末５００固有のＭＡＣアドレスや固体識別情報など）との対応リストと、を管理する。

　また、ユーザ情報１２１は、言語設定情報としてユーザ別に「設定言語」の項目を含むように構成され、後述するように、ユーザ端末５００を通じて各ユーザが言語を選択して設定することができる。

　グループ情報１２２は、コミュニケーショングループを識別するグループ識別情報である。コミュニケーショングループＩＤ別に伝達情報の送受信及び同報配信を制御し、異なるコミュニケーショングループ間で情報が混在しないように制御される。ユーザ情報１２１において、グループ情報１２２に登録されたコミュニケーショングループを、各ユーザに紐付けることができる。

　本実施形態のユーザ管理部１１１は、複数の各ユーザの登録制御を行い、後述する第１制御（発話音声データ、合成音声データの同報配信）及び第２制御（ユーザの発話音声認識結果、第１翻訳テキスト及び第２翻訳テキストのテキスト同報配信）の対象のコミュニケーショングループを設定する機能を提供する。

　なお、グループ分けについては、本実施形態のコミュニケーションシステムを導入する施設等に応じて施設を複数の部門に分割して管理することもできる。例えば、宿泊施設を一例に説明すると、ベルパーソン（荷物運び）、コンシェルジュ、ハウスキーピング（清掃）をそれぞれ異なるグループに設定し、客室管理をそれぞれのグループ毎に細分化したコミュニケーション環境を構築することもできる。他の観点として、役割的にコミュニケーションが不要なケースも考えられる。例えば、料理の配膳係と、ベルパーソン（荷物運び）は、直接コミュニケーションをとる必要がないのでグループを分けることができる。また、地理的にコミュニケーションが不要なケースも考えられ、例えば、Ａ支店、Ｂ支店などが地理的に離れており、かつ頻繁にコミュニケーションをする必要がない場合などは、グループを分けることができる。

　管理装置１００のコミュニケーション制御部１１２は、第１制御部と第２制御部の各制御部として機能する。第１制御部は、一のユーザ端末５００から受信した発話音声データ又は第１翻訳テキストに基づく合成音声データを他の複数のユーザ端末５００それぞれに同報配信制御（グループ通話制御）を行う。第２制御部は、受信した発話音声データを音声認識処理して得られる発話音声認識結果又は第２翻訳テキストを、ユーザ同士のコミュニケーション履歴１２３として時系列に蓄積するとともに、発話したユーザのユーザ端末５００を含む全てのユーザ端末５００においてコミュニケーション履歴１２３が同期して表示されるようにテキスト配信制御を行う。

　第１制御部としての機能は、グループ通話機能を提供する発話音声データと合成音声データの各同報配信である。発話音声データは、ユーザが発声した音声データである。また、合成音声データは、ユーザ端末５００から入力されたテキスト情報に基づいて生成された合成音声データである。合成音声データは、入力テキストの言語で生成された合成音声データ、入力テキストの言語を他の言語に翻訳した第２翻訳テキストの言語で生成された合成音声データを含む。

　第２制御部としての機能は、ユーザの発話音声認識結果、発話音声認識結果を他の言語に翻訳した第１翻訳テキスト、及び入力テキストの言語を他の言語に翻訳した第２翻訳テキストのテキスト同報配信である。ユーザ端末５００において入力された音声及びユーザ端末５００において再生される音声は、すべてテキスト化されてコミュニケーション履歴１２３に時系列に蓄積され、各ユーザ端末５００において同期して表示されるように制御される。多言語対応型音声認識部１１３は、多言語対応型音声認識辞書１２４を用いて音声認識処理を行い、発話音声認識結果としてテキストデータを出力する。音声認識処理については公知の技術を適用することができる。

　コミュニケーション履歴情報１２３は、各ユーザの発話内容が時間情報と共に、テキストベースで時系列に蓄積されたログ情報である。各テキストに対応する音声データは、音声ファイルとして所定の記憶領域に格納しておくことができ、例えば、コミュニケーション履歴１２３には、音声ファイルの格納場所を記録する。コミュニケーション履歴情報１２３は、コミュニケーショングループ別にそれぞれ生成され、蓄積される。

　なお、コミュニケーション履歴情報１２３は、音声認識結果、第１翻訳テキスト、第２翻訳テキストの全てのテキスト、言い換えれば、音声認識結果、入力テキスト、各言語に翻訳された翻訳テキストを全て、蓄積するように構成してもよい。また、翻訳テキストは蓄積しないようにして、音声認識結果と入力テキストを蓄積するように構成してもよい。

　図４は、各ユーザ端末５００で表示されるコミュニケーション履歴１２３の一例を示す図である。ユーザ端末５００それぞれは、管理装置１００からリアルタイムに又は所定のタイミングでコミュニケーション履歴１２３を受信し、複数のユーザ間で表示同期が取られる。各ユーザは、時系列に過去のコミュニケーションログを参照することができる。

　図４の例のように、各ユーザ端末５００は、自分の発話内容及び自分以外の他のユーザの発話内容が表示欄Ｄに時系列に表示され、管理装置１００に蓄積されるコミュニケーション履歴１２３がログ情報として共有される。なお、表示欄Ｄにおいて、ユーザ自身の発話音声に対応するテキストには、マイクマークＨを表示し、発話者以外の他のユーザに対しては、マイクマークＨの代わりに、表示欄ＤにおいてスピーカーマークＭを表示したりすることができる。

　本実施形態では、複数のユーザ間で表示同期が取られるテキスト配信の態様として、音声認識結果と同じ内容であるが、言語が違うテキストが表示同期される態様が含まれる。また、入力テキストについても同様であり、ユーザ端末５００から入力された入力テキストと同じ内容であるが、言語が違うテキストが表示同期される態様も含まれる。一方、後述するように、複数の異なる言語を使用言語として設定することもできる。この場合も同様に、音声認識結果又は入力テキストと、言語が違うテキストとを一緒に又は併記して表示する態様も含まれ、音声認識結果又は入力テキストの言語以外の他の複数の異なる言語それぞれのテキストが表示される態様も含まれる。

　図５は、本実施形態の多言語対応機能（翻訳テキスト配信）を説明するための図である。ユーザは、図５に示す言語設定画面で、使用言語を１つ又は複数設定することができる。複数設定するときは、設定する各言語間で優先順位を選択できるように構成してもよい（不図示）。

　言語設定画面は、言語設定部１１２Ａによって提供され、ユーザ端末５００のコミュニケーションＡｐｐ制御部５２０は、言語設定画面で選択された１つ又は複数の言語設定情報を、管理装置１００に送信する。ユーザ管理部１１１は、ユーザ情報１２１の設定言語として、受信した言語設定情報をユーザ別に格納する。

　テキスト翻訳部１１５は、複数言語に対応した機械翻訳機能を提供する処理部であり、図５の例において、日本語で「こんにちは」と発話されると、音声認識結果のテキスト「こんにちは」を、ユーザ情報１２１に登録される各設定言語それぞれに対する第１翻訳テキストを生成する機械翻訳する。例えば、中国語「『ニー』好」（『ニー』：イ（にんべん（人偏））に旁（つくり）が爾の簡体字）、ベトナム語「xin　chao」（aは、アキュート・アクセントを付した文字）の各翻訳テキストを生成することができる。生成された各翻訳テキストは、コミュニケーション制御部１１２の第２制御部によって、図５に示すようにユーザ別に選択された言語設定情報に該当する言語の翻訳テキストが、ユーザ端末５００に配信される。図５の例では、複数の言語を設定したユーザなので、日本語の音声認識結果と共に、中国語及びベトナム語の各翻訳テキストが配信されている。なお、１つの言語のみを選択した場合は、一つの音声認識結果又は１つの翻訳テキストが表示されることになる。

　一方、配信されたテキスト表示方法は、図５に示すように、複数の各言語の翻訳テキストを、個別に表示したり、点線で囲った吹き出しのように、日本語とセットにして１つの吹き出し（表示ブロック）に他の言語の翻訳テキストを併記するように表示したりすることができる。

　図６は、本実施形態の第１多言語対応機能（発話音声の同報配信及びユーザ別翻訳変換テキスト配信の機能）を説明するための図である。

　図６に示すように、日本語話者のユーザが発話すると、日本語の発話音声データが管理装置１００に送信され、多言語対応音声認識部１１３において、音声認識処理が実行される。音声認識結果は、日本語のテキスト情報である。そして、音声認識結果は、テキスト翻訳部１１５に出力され、テキスト翻訳部１１５は、コミュニケーショングループ内の各ユーザの設定言語に該当する１つ又は複数の各言語に基づいて、音声認識結果を機械翻訳して音声認識結果の言語以外の他の言語の第１翻訳テキスト（異なる言語が複数ある場合は、各言語に応じた複数の第１翻訳テキスト）を生成する。

　コミュニケーション制御部１１２は、第１制御部において、受信した日本語の発話音声データを翻訳せずにそのまま、他の複数のユーザ端末５００それぞれに同報配信し、日本語話者以外の英語話者や中国語話者などの外国語話者であっても、日本語話者の日本語音声を聞くことになる。一方、コミュニケーション制御部１１２は、第２制御部において、各ユーザの言語設定情報に基づいて、該当する１つ又は複数の言語の翻訳テキストをユーザ端末５００それぞれに配信する。各外国語話者は、ユーザ端末５００では、ユーザ別に設定した各言語の翻訳テキストが表示される。

　図７は、第１多言語対応機能を備えた本システムの処理フローを示す図である。

　各ユーザは、ユーザ端末５００において、コミュニケーションＡｐｐ制御部５２０を起動し、コミュニケーションＡｐｐ制御部５２０が管理装置１００との接続処理を行う。そして、所定のログイン画面から自分のユーザＩＤ及びパスワードを入力して管理装置１００にログインする。ログイン認証処理は、ユーザ管理部１１１によって遂行される。なお、初回ログイン後は、ユーザＩＤ及びパスワードの入力操作を省略して、コミュニケーションＡｐｐ制御部５２０が起動に伴い、初回ログイン時に入力されたユーザＩＤ及びパスワードを用いて自動的にログイン処理を行うことができる。

　ログイン後、管理装置１００は、複数の各ユーザ端末５００に対し、自動的にグループ通話モードでの通信チャネル確立処理を行い、管理装置１００を中心としたグループ通話チャネルを開通させる。

　また、各ユーザは、ユーザ端末５００から管理装置１００にアクセスして、使用言語設定を行う（Ｓ５０１ａ，Ｓ５０１ｂ，Ｓ５０１ｃ）。管理装置１００は、言語設定画面をユーザ端末５００に送信し、ユーザ端末５００から言語設定情報（言語選択情報）を受信して、ユーザ情報１２１に登録する。

　ログイン後の各ユーザ端末５００は、任意のタイミングで又は所定の時間間隔で、管理装置１００との間で情報取得処理を行う。

　例えば、日本語発話のユーザＡが発話すると、コミュニケーションＡｐｐ制御部５２０は、発話音声を集音し、発話音声データを管理装置１００に送信する（Ｓ５０２ａ）。管理装置１００の多言語対応型音声認識部１１３は、受信した発話音声データを音声認識処理し（Ｓ１０１）、発話内容の音声認識結果を日本語テキストで出力する。コミュニケーション制御部１１２は、音声認識結果をコミュニケーション履歴１２３に記憶し、発話音声データを記憶装置１２０に記憶する（Ｓ１０２）。

　テキスト翻訳部１１５は、日本語の音声認識結果の機械翻訳処理を行い、コミュニケーショングループ内の各ユーザが設定した言語設定情報に基づいて、該当する各言語の翻訳テキスト（第１翻訳テキスト）を１つ又は複数生成する（Ｓ１０３）。

　コミュニケーション制御部１１２は、発話したユーザＡ以外の他のユーザ端末５００それぞれにユーザＡの発話音声データ（日本語）を同報送信する。また、コミュニケーション履歴１２３に記憶したユーザＡの発話内容（日本語）は、表示同期のために、ユーザＡ自身を含むコミュニケーショングループ内の各ユーザ端末５００に送信する（Ｓ１０４）。このとき、コミュニケーション制御部１１２は、各ユーザの言語設定情報を参照し、該当する各言語の翻訳テキストを、ユーザ端末５００それぞれに送信する。

　ユーザＡ以外の各ユーザ端末５００のコミュニケーションＡｐｐ制御部５２０は、受信した発話音声データ（発話）の自動再生処理を行い、発話音声出力を行いつつ（Ｓ５０２ｂ，Ｓ５０２ｃ）、ユーザＡを含む全てのユーザ端末５００は、音声出力された発話音声に対応するテキスト形式の発話内容を表示欄Ｄに表示させる（Ｓ５０２ａ、Ｓ５０３ｂ、Ｓ５０３ｃ）。

　図８は、事例に基づく第１多言語対応機能の説明図である。なお、図７と同様の処理については同符号を付して説明を省略する。

　図８の例では、ユーザＡが日本語話者で、言語設定情報は、日本語のみを設定している。ユーザＢは中国語話者であり、言語設定情報は、日本語と中国語を設定している。ユーザＣは、英語話者であり、言語設定情報は、英語、中国語、スペイン語を設定している。

　日本語で発話したユーザＡは（Ｓ５１０ａ）、発話音声データが配信されず、音声認識結果のみが配信されて表示同期が行われる（Ｓ５１１ａ）。中国語話者のユーザＢは、ユーザＡの発話音声データがそのまま配信され、日本語の発話音声データの再生処理が行われ（Ｓ５１０ｂ）、かつ設定していた言語「中国語」に対応する翻訳テキストと、設定言語「日本語」に対応する音声認識結果とが配信され、表示同期が行われる（Ｓ５１１ｂ）。英語話者のユーザＣは、ユーザＡの発話音声データがそのまま配信され、日本語の発話音声データの再生処理が行われ（Ｓ５１０ｃ）、かつ設定言語「英語」に対応する翻訳テキストと、設定言語「中国語」に対応する翻訳テキスト、及び設定言語「スペイン語」に対応する翻訳テキストが配信され、表示同期が行われる（Ｓ５１１ｃ）。

　図９は、第２多言語対応機能（入力テキストに基づく多言語対応合成音声の同報配信及びユーザ別翻訳変換テキスト配信の機能）を説明するための図である。

　図９の例は、ユーザ端末５００において入力されたテキストを受信した管理装置１００は、入力テキストに基づく合成音声データを各ユーザが設定した（理解し易い）言語で提供する。中国語話者のユーザが、中国語でテキスト入力すると、中国語の入力テキストが管理装置１００に送信され、テキスト翻訳部１１５に出力される。テキスト翻訳部１１５は、コミュニケーショングループ内の各ユーザの設定言語に該当する１つ又は複数の各言語に基づいて、中国語の入力テキストを機械翻訳して中国語以外の他の言語の第２翻訳テキスト（異なる言語が複数ある場合は、各言語に応じた複数の第２翻訳テキスト）を生成する。

　次に、上述した第１多言語対応機能と異なるのは、コミュニケーション制御部１１２が、テキスト入力のときだけ、テキストベースから合成音声データを各言語で生成するように制御する。多言語対応音声合成部１１４は、入力テキストに基づいて生成された翻訳テキストを用い、各言語の合成音声データを生成する。そして、第１制御部において、各ユーザの言語設定情報に基づき、ユーザ別に該当する言語の合成音声データを、他の複数のユーザ端末５００それぞれに配信する。この場合、各ユーザは、日本語話者であれば、日本語の合成音声データを、英語話者であれば、英語の合成音声データを聞くことができ、ユーザが設定した言語で構成される合成音声データが提供される。

　一方、コミュニケーション制御部１１２は、第２制御部において、各ユーザの言語設定情報に基づいて、該当する１つ又は複数の言語の翻訳テキストをユーザ端末５００それぞれに配信する。各外国語話者は、ユーザ端末５００では、ユーザ別に設定した各言語の翻訳テキストが表示される。

　図１０は、第２多言語対応機能を備えた本システムの処理フローを示す図である。上述した図８の通信チャネル確立処理及び使用言語設定処理に相当する処理は、説明が重複するので省略している。

　例えば、中国語話者のユーザＢがグループ通話のためのテキスト入力を行うと、コミュニケーションＡｐｐ制御部５２０は、入力されたテキストを管理装置１００に送信する（Ｓ５２０ｂ）。管理装置１００のテキスト翻訳部１１５は、コミュニケーショングループ内の各ユーザが設定した言語設定情報に基づいて、該当する各言語の翻訳テキスト（第２翻訳テキスト）を１つ又は複数生成する（Ｓ１１０１）。

　コミュニケーション制御部１１２の多言語対応音声合成部１１４は、テキスト翻訳部１１５から出力される第２翻訳テキストを用い、各言語の合成音声データを生成する（Ｓ１１０２）。コミュニケーション制御部１１２は、入力テキスト等をコミュニケーション履歴１２３に記憶し、合成音声データを記憶装置１２０に記憶する（Ｓ１１０３）。

　コミュニケーション制御部１１２は、テキストを入力したユーザＢ以外の他のユーザ端末５００それぞれに、ユーザ別設定言語に該当する言語の合成音声データを選択して同報送信する。また、入力テキストの発話内容（中国語）は、表示同期のために、ユーザＢ自身を含むコミュニケーショングループ内の各ユーザ端末５００に送信する（Ｓ１１０４）。このとき、コミュニケーション制御部１１２は、各ユーザの言語設定情報を参照し、該当する各言語の翻訳テキストを、ユーザ端末５００それぞれに送信する。

　ユーザＢ以外の各ユーザ端末５００のコミュニケーションＡｐｐ制御部５２０は、受信した発話音声データ（発話）の自動再生処理を行い、発話音声出力を行いつつ（Ｓ５２０ａ，Ｓ５２０ｃ）、ユーザＢを含む全てのユーザ端末５００は、設定言語に該当するテキスト形式の発話内容を、表示欄Ｄに表示させる（Ｓ５２１ａ、Ｓ５２１ｂ、Ｓ５２１ｃ）。

　図１１は、事例に基づく第２多言語対応機能の説明図である。なお、図１０と同様の処理については同符号を付して説明を省略する。

　図１１の例でも同様に、ユーザＡが日本語話者で、言語設定情報は、日本語のみを設定している。ユーザＢは中国語話者であり、言語設定情報は、日本語と中国語を設定している。ユーザＣは、英語話者であり、言語設定情報は、英語、中国語、スペイン語を設定している。

　日本語の非ネイティブ話者であるユーザＢは、主な使用言語として、中国語でグループ通話のための連絡事項をテキスト入力する（Ｓ５３０ｂ）。テキスト入力したユーザＢには、合成音声データが配信されず、ユーザＢの設定言語に応じた言語のテキストが配信されて表示同期が行われる（Ｓ５３１ｂ）。図１１の例では、自身が入力した中国語のテキストと翻訳された日本語のテキストが表示される。

　日本語話者のユーザＡは、日本語に翻訳された合成音声データが配信され、日本語で音声データの再生処理が行われ（Ｓ５３０ａ）、かつ設定していた言語「日本語」に対応する翻訳テキストが配信され、表示同期が行われる（Ｓ５３１ｂ）。英語話者のユーザＣは、英語に翻訳された合成音声データが配信され、英語の音声データの再生処理が行われ（Ｓ５３０ｃ）、かつ設定言語「英語」に対応する翻訳テキストと、設定言語「中国語」に対応する入力テキスト、及び設定言語「スペイン語」に対応する翻訳テキストが配信され、表示同期が行われる（Ｓ５３１ｃ）。

　このように本コミュニケーションシステムは、第１多言語対応機能及び第２多言語対応機能を備え、処理速度及び翻訳精度の低下を抑制してグループ通話のコミュニケーションの円滑化を図ることができる環境を実現する。

　例えば、日本語の非ネイティブ話者にとって日本語が理解できていても、日本語の発音は難しいことがある。この場合、第１多言語対応機能により、非ネイティブ話者が理解し易い言語の翻訳テキストが提供されるので、意思疎通を支援することができる。また、第２多言語対応機能により、発話ではなく、テキスト入力によってグループ通話を円滑に行うことができる。図９～図１１の例では、非ネイティブ話者が日本語以外の言語でテキスト入力を行う態様を一例に説明したが、日本語の非ネイティブ話者が日本語でテキスト入力するようにすることも可能である。すなわち、日本語の非ネイティブの話者には、日本語の発音は苦手であるが、テキストはある程度理解できる場合もあり、その場合は、非ネイティブ話者が日本語でテキスト入力を行うことで、日本語の発音が苦手でもグループ通話によるコミュニケーションを円滑に行うことができる。

　また、日本語の非ネイティブ話者にとって日本語が理解できていても、日本語の聞き取りは難しい場合や日本語の非ネイティブ話者にとって日本語テキストの方が理解しやすい場合がある。このようなケースにおいても、本コミュニケーションシステムの第１多言語対応機能及び第２多言語対応機能によって、円滑のグループ通話のコミュニケーション環境を提供することができる。

　なお、本コミュニケーションシステムの第１多言語対応機能及び第２多言語対応機能は、上述のようにそれぞれ単独でも、円滑のグループ通話のコミュニケーション環境を提供することができる。

　つまり、第１多言語対応機能を備えるシステムとして、
　複数の各ユーザがそれぞれ携帯するユーザ端末５００を通じて、ユーザの発話音声を他のユーザのユーザ端末５００に同報配信するコミュニケーションシステムであり、
　コミュニケーション制御部１１２が、ユーザ端末５００から受信した発話音声データを他の複数のユーザ端末５００それぞれに同報配信する第１制御部と、受信した発話音声データを音声認識処理して得られる発話音声認識結果を、各ユーザ端末５００において同期して表示されるようにテキスト配信制御を行う第２制御部と、を有する。
　さらに、各ユーザ別に、言語設定情報を記憶する記憶部と、発話音声認識結果を異なる言語に翻訳した翻訳テキストを生成するテキスト翻訳部１１５と、を備えるように構成される。
　そして、コミュニケーション制御部１１２は、第１制御部において、受信した発話音声データを翻訳せずに他の複数の移動通信端末それぞれに同報配信するとともに、第２制御部において、各ユーザの言語設定情報に基づいて、該当する言語の翻訳テキストを移動通信端末それぞれに配信する、システム構成とすることができる。

　また、第２多言語対応機能を備えるシステムとして、
　複数の各ユーザがそれぞれ携帯するユーザ端末５００を通じて、ユーザの発話音声を他のユーザのユーザ端末５００に同報配信するコミュニケーションシステムであり、
　コミュニケーション制御部１１２が、ユーザ端末５００から受信した発話音声データを他の複数のユーザ端末５００それぞれに同報配信する第１制御部と、受信した発話音声データを音声認識処理して得られる発話音声認識結果を、各ユーザ端末５００において同期して表示されるようにテキスト配信制御を行う第２制御部と、を有する。
　さらに、各ユーザ別に、言語設定情報を記憶する記憶部と、発話音声認識結果を異なる言語に翻訳した翻訳テキストを生成するテキスト翻訳部１１５と、を備えるように構成される。
　そして、テキスト翻訳部１１５は、各ユーザの言語設定情報に基づいて、ユーザ端末５００から受信した入力テキストを、異なる言語に翻訳した翻訳テキストを生成するように構成し、多言語対応型音声合成部１１４が、入力テキストに基づいて生成された翻訳テキストを用い、各言語の合成音声データを生成するように構成することができる。
　コミュニケーション制御部１１２は、第１制御部において、各ユーザの言語設定情報に基づいて、該当する言語の合成音声データを、他の複数のユーザ端末５００それぞれに配信するとともに、第２制御部において、各ユーザの言語設定情報に基づいて、入力テキストが該当する言語に翻訳された翻訳テキストを、ユーザ端末５００それぞれに配信する、システム構成とすることができる。

　以上、本実施形態について説明したが、コミュニケーション管理装置１００及びユーザ端末５００の各機能は、プログラムによって実現可能であり、各機能を実現するために予め用意されたコンピュータプログラムが補助記憶装置に格納され、ＣＰＵ等の制御部が補助記憶装置に格納されたプログラムを主記憶装置に読み出し、主記憶装置に読み出された該プログラムを制御部が実行することで、各部の機能を動作させることができる。

　また、上記プログラムは、コンピュータ読取可能な記録媒体に記録された状態で、コンピュータに提供することも可能である。コンピュータ読取可能な記録媒体としては、ＣＤ－ＲＯＭ等の光ディスク、ＤＶＤ－ＲＯＭ等の相変化型光ディスク、ＭＯ（Magnet Optical）やＭＤ(Mini Disk)などの光磁気ディスク、フロッピー（登録商標）ディスクやリムーバブルハードディスクなどの磁気ディスク、コンパクトフラッシュ（登録商標）、スマートメディア、SDメモリカード、メモリスティック等のメモリカードが挙げられる。また、本発明の目的のために特別に設計されて構成された集積回路（ICチップ等）等のハードウェア装置も記録媒体として含まれる。

　なお、本発明の実施形態を説明したが、当該実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００　コミュニケーション管理装置
１１０　制御装置
１１１　ユーザ管理部
１１２　コミュニケーション制御部（第１制御部，第２制御部）
１１２Ａ　言語設定部
１１３　多言語対応型音声認識部
１１４　多言語対応型音声合成部
１１５　テキスト翻訳部
１２０　記憶装置
１２１　ユーザ情報
１２２　グループ情報
１２３　コミュニケーション履歴情報
１２４　多言語対応型音声認識辞書
１２５　多言語対応型音声合成辞書
１３０　通信装置
５００　ユーザ端末（移動通信端末）
５１０　通信・通話部
５２０　コミュニケーションＡｐｐ制御部
５３０　マイク（集音部）
５４０　スピーカー（音声出力部）
５５０　表示・入力部
５６０　記憶部
Ｄ　表示欄

Claims

　複数の各ユーザがそれぞれ携帯する移動通信端末を通じて、ユーザの発話音声を他のユーザの移動通信端末に同報配信するコミュニケーションシステムであって、
　移動通信端末から受信した発話音声データを他の複数の移動通信端末それぞれに同報配信する第１制御部と、受信した発話音声データを音声認識処理して得られる発話音声認識結果を、前記各移動通信端末において同期して表示されるようにテキスト配信制御を行う第２制御部と、を有するコミュニケーション制御部と、
　各ユーザ別に、言語設定情報を記憶する記憶部と、
　発話音声認識結果を、異なる言語に翻訳した翻訳テキストを生成するテキスト翻訳部と、を備え、
　前記コミュニケーション制御部は、
　前記第１制御部において、受信した前記発話音声データを翻訳せずに他の複数の移動通信端末それぞれに同報配信するとともに、
　前記第２制御部において、各ユーザの言語設定情報に基づいて、該当する言語の前記翻訳テキストを前記移動通信端末それぞれに配信する、
　ことを特徴とするコミュニケーションシステム。
　前記テキスト翻訳部は、各ユーザの言語設定情報に基づいて、前記移動通信端末から受信した入力テキストを、異なる言語に翻訳した前記翻訳テキストを生成し、
　前記入力テキストに基づいて生成された前記翻訳テキストを用い、各言語の合成音声データを生成する音声合成部、をさらに備え、
　前記コミュニケーション制御部は、
　前記第１制御部において、各ユーザの言語設定情報に基づいて、該当する言語の前記合成音声データを、他の複数の移動通信端末それぞれに配信するとともに、
　前記第２制御部において、各ユーザの言語設定情報に基づいて、前記入力テキストが該当する言語に翻訳された前記翻訳テキストを、前記移動通信端末それぞれに配信する、
　ことを特徴とする請求項１に記載のコミュニケーションシステム。
　前記コミュニケーション制御部は、前記移動通信端末を介して入力された各ユーザの前記言語設定情報を受け付ける言語設定部、を備え、
　前記言語設定部は、１ユーザに対して１又は複数の言語を設定可能に制御し、
　前記コミュニケーション制御部は、前記第２制御部において、前記言語設定情報において複数の言語が設定されている場合に、複数の各言語の前記翻訳テキストを前記移動通信端末に配信することを特徴とする請求項１又は２に記載のコミュニケーションシステム。
　前記コミュニケーション制御部は、
　前記第２制御部において、各ユーザの言語設定情報に基づく該当言語の前記翻訳テキストと、前記音声認識結果とを含む発話テキストを前記移動通信端末それぞれに配信し、同報配信される発話音声データの言語の前記音声認識結果と前記翻訳テキストとが併記されて表示されるように制御することを特徴とする請求項１から３のいずれか１つに記載のコミュニケーションシステム。
　複数の各ユーザがそれぞれ携帯する移動通信端末を通じて、ユーザの発話音声を他のユーザの移動通信端末に同報配信する管理装置によって実行されるプログラムであって、
　移動通信端末から受信した発話音声データを他の複数の移動通信端末それぞれに同報配信する第１機能と、
　受信した発話音声データを音声認識処理して得られる発話音声認識結果を、前記各移動通信端末において同期して表示されるようにテキスト配信制御を行う第２機能と、
　各ユーザ別に、言語設定情報を記憶する第３機能と、
　発話音声認識結果を、異なる言語に翻訳した翻訳テキストを生成する第４機能と、を前記管理装置に実現させ、
　前記第１機能は、受信した前記発話音声データを翻訳せずに他の複数の移動通信端末それぞれに同報配信するとともに、
　前記第２機能は、各ユーザの言語設定情報に基づいて、該当する言語の前記翻訳テキストを前記移動通信端末それぞれに配信する、
　ことを特徴とするプログラム。