WO2017086434A1

WO2017086434A1 - 音声翻訳プログラム、音声翻訳装置、及びその制御方法

Info

Publication number: WO2017086434A1
Application number: PCT/JP2016/084250
Authority: WO
Inventors: 知高大越; 諒俊武藤
Original assignee: 株式会社リクルートライフスタイル
Priority date: 2015-11-18
Filing date: 2016-11-18
Publication date: 2017-05-26

Abstract

本開示による音声翻訳プログラムは、情報端末等のコンピュータを、少なくとも２種類の言語による音声を入力可能な音声入力部、音声入力部に入力された内容を認識する音声認識部、音声認識部で認識された内容を異なる言語の内容に翻訳する翻訳部、翻訳部で翻訳された内容を音声で出力する音声出力部、及び、入力された内容のテキスト及び翻訳された内容のテキストを当該コンピュータの画面において互いに異なる向きに表示するテキスト表示部として機能させるものである。

Description

音声翻訳プログラム、音声翻訳装置、及びその制御方法

関連出願の相互参照

　本出願は、２０１５年１１月１８日に出願された日本特許出願番号２０１５－２２５８４６に基づくもので、ここにその記載内容を援用する。

　本開示は、音声翻訳プログラム、音声翻訳装置、及びその制御方法に関する。

　互いの言語を理解できない人同士の会話、例えば店員（飲食店等の店舗の販売員）と顧客（海外からの観光客等）との会話を可能ならしめるべく、話者の発話音声をテキスト化し、そのテキストの内容を相手の言語に機械翻訳した上で画面に表示したり、或いは、音声合成技術を用いてそのテキストの内容を音声再生したりする音声翻訳技術が提案されている（例えば特許文献１参照）。また、かかる音声翻訳技術を具現化したスマートフォン等の情報端末で動作する音声翻訳アプリケーションも実用化されている（例えば非特許文献１参照）。

特開平９－３４８９５号公報

Ｕ－ＳＴＡＲコンソーシアムホームページ［平成２７年１１月１６日検索］、インターネット＜ＵＲＬ：http://www.ustar-consortium.com/app_ja/app.html＞

　ここで、上記従来の音声翻訳アプリケーションソフトにおける処理の概略を、図９（Ａ）乃至（Ｄ）を参照して以下に説明する。なお、図９（Ａ）乃至（Ｄ）は、上記非特許文献１に記載された内容に基づいて、情報端末における表示画面の遷移の一例を再構成した平面図である。

　まず、情報端末９０にインストールされている当該アプリケーションを起動すると、例えば日本語と英語の音声入力の待機画面が表示される（図９（Ａ））。なお、この画面において、選択ボタン９１をタップすると複数の言語が表示され、適宜の２種類の言語を選択することができ、また、国旗を表す言語切替ボタン９２，９２の何れかをタップすることにより入力言語を切り替えることができる。この図９（Ａ）では、入力言語が日本語であり、翻訳言語が英語である状態を示す。この待機画面において、マイクボタン９３をタップすると、マイクの図案と入力音量のレベル表示が表示され、発話内容を受け付ける音声入力画面となる（図９（Ｂ））。この状態で、ユーザ（質問者）が質問事項等を日本語で発話した後、終了ボタン９４をタップすると、入力された発話内容の認識及び翻訳が行われるとともに、認識中の表示を含む待機画面が表示される（図９（Ｃ））。

　翻訳が完了すると、音声入力及びそれに対応する日本語の会話コーパスのテキスト９５，９６、及びその翻訳文である英語の会話コーパスのテキスト９７の表示を含む会話画面が表示され、同時にテキスト９７を読み上げる英語音声が出力される（図９（Ｄ））。なお、ここではテキスト９５，９６が同一の場合について例示したが、両者が異なる場合もあり得る。

　そして、英語の音声を聞いた回答者がその内容を理解することができた場合、或いは、音声が理解しづらくてもテキスト９７を見て理解することができた場合、今度は、国旗ボタン９２で英語入力に切り替え、図９（Ａ）～（Ｄ）と同様のステップにより、会話の相手（回答者）が英語で発話した回答内容を日本語で質問者へ伝えることができる。また、会話画面（図９（Ｄ））には、音声入力の内容に対応するテキスト９５，９６が意図した内容と違う場合に、ユーザ（質問者）が発話をやり直すための再入力ボタン９８、会話の相手（回答者）が翻訳された内容を理解できずユーザに内容を言い換えてもらうための要請ボタン９９、及び、ユーザ又は会話の相手が音声を再度再生するためのリピート再生ボタン１００も表示される。

　このとおり、従来の音声翻訳アプリケーションソフトによれば、ユーザ（質問者）による音声入力とその翻訳結果の音声出力と、相手（回答者）による音声入力とその翻訳結果の音声出力により、両者の会話を行うことができる。また、翻訳結果がテキストでも出力されるので、会話の相手（回答者）はそのテキストを確認することによっても、ユーザ（質問者）の質問事項を理解することができる。

　ここで、会話の状況によっては、話者が互いに対面している場面（例えば上述した店員と顧客との会話の場面等）が多々想定される。ところが、図９（Ｄ）に示すとおり、従来の音声翻訳アプリケーションソフトでは、音声入力及びその会話コーパスのテキスト９５，９６が画面上段に、翻訳結果の会話コーパスのテキスト９７が画面下段に、同じ向きに表示される。そのため、会話の相手（回答者）がその翻訳結果のテキストを確認する場合、図９（Ｄ）に示す画面を逆さに見るよりも、自分の方に向けて見た方が確認し易い。また、相手（回答者）が発話する場合にも、図９（Ｄ）に示す画面を自分の方に向けた方が、感覚的に操作を行い易い。しかし、そうすると、会話の最中に情報端末の向きを頻繁に変える手間が生じてしまうので、円滑な会話を阻害してしまうおそれがある。

　そこで、本開示は、かかる事情に鑑みてなされたものであり、互いの言語を理解できない人同士の会話であっても、両者の円滑な会話を実現することができる音声翻訳プログラム、音声翻訳装置、及びその制御方法を提供することを目的とする。

　上記課題を解決するため、本開示の一態様による音声翻訳プログラムは、コンピュータを、少なくとも２種類の言語による音声を入力可能な音声入力部、音声入力部に入力された内容を認識する音声認識部、音声認識部で認識された内容を異なる言語の内容に翻訳する翻訳部、翻訳部で翻訳された内容を音声で出力する音声出力部、及び、入力された内容のテキスト及び翻訳された内容のテキストを当該コンピュータの画面において互いに異なる向きに表示するテキスト表示部として機能させるものである。

　換言すれば、本開示の一態様による音声翻訳プログラムは、ユーザが使用する情報端末（のコンピュータ）を、第１言語及び第２言語による音声を入力可能な音声入力部、入力された第１言語の内容を認識する音声認識部、第１言語の内容を第２言語の内容に翻訳する翻訳部、第２言語の内容を音声で出力する音声出力部、及び、入力された第１言語の内容のテキスト及び翻訳された第２言語の内容のテキストを当該コンピュータの画面において互いに異なる向きに表示するテキスト表示部として機能させるものである。

　より具体的には、テキスト表示部は、入力された（第１言語の）内容のテキストと翻訳された（第２言語の）内容のテキストを当該コンピュータの画面において互いに逆向きに表示するように構成してもよい。

　また、コンピュータ（ユーザが使用する情報端末等）を、画面の方向を検知する検知部として更に機能させ、テキスト表示部は、画面が鉛直上方の所定範囲内に向いたことを検知部が検知したときに、入力された（第１言語の）内容のテキスト及び翻訳された（第２言語の）内容のテキストを画面において互いに異なる向きに表示してもよい。

　ここで、互いの言語を理解できない人同士の会話として、質問者であるコンピュータ（情報端末）のユーザが第１言語を話し、会話の相手である回答者が第２言語を話す場合を想定すると、より具体的な構成として、以下を例示することができる。すなわち、ユーザが情報端末を手に持って、その画面を自分（ユーザ）側に向けた状態にして第１言語の音声を入力し、その状態のまま情報端末を前方（会話の相手側）に倒して画面を鉛直上方に向けたとき、入力された第１言語の内容のテキスト（音声入力）がユーザ側に向くように、翻訳された第２言語の内容のテキスト（翻訳結果）が相手側に向くように、音声翻訳プログラムが表示画面（ユーザインターフェイス）を構成する。

　さらに、テキスト表示部が、画面において、入力された（第１言語の）内容をテキスト表示する領域と翻訳された（第２言語の）内容をテキスト表示する領域とを区分けする構成例を挙げることができる。

　また、本開示の一態様による音声翻訳装置は、少なくとも２種類の言語による音声を入力可能な音声入力部と、音声入力部に入力された内容を認識する音声認識部と、音声認識部で認識された内容を異なる言語の内容に翻訳する翻訳部と、翻訳部で翻訳された内容を音声で出力する音声出力部と、入力された内容のテキスト及び翻訳された内容のテキストを画面において互いに異なる向きに表示するテキスト表示部とを備える。

　また、本開示の一態様による少なくとも２種類の言語による音声を入力可能な音声入力部、音声認識部、翻訳部、音声出力部、及びテキスト表示部を備える音声翻訳装置の制御方法は、音声認識部により、音声入力部に入力された内容を認識し、翻訳部により、音声認識部で認識された内容を異なる言語の内容に翻訳し、音声出力部により、翻訳部で翻訳された内容を音声で出力し、テキスト表示部により、入力された内容のテキスト及び翻訳された内容のテキストを画面において互いに異なる向きに表示する。

　本開示によれば、互いの言語を理解できない人同士が会話をする際に、質問者が入力した音声の内容を翻訳し、音声で出力して回答者に伝えることができる。また、それだけでなく、入力された内容のテキスト及び翻訳された内容のテキストをコンピュータ（情報端末）の画面において互いに異なる向きに表示するので、その確認の都度コンピュータの画面の向きを変える必要がなく、両者の円滑な会話を実現することが可能となる。また、その結果、翻訳処理の信頼性が高まり、翻訳処理の集中的な処理を行い易く、省電力化を図ることができる。

本開示による音声翻訳装置の好適な一実施形態を概略的に示すシステムブロック図である。本開示による音声翻訳装置を含むネットワーク構成の一例を概略的に示すシステムブロック図である。本開示による音声翻訳装置における処理の流れ（一部）の一例を示すフローチャートである。（Ａ）乃至（Ｄ）は、本開示による音声翻訳装置における表示画面の遷移の一例を示す平面図である。（Ａ）乃至（Ｄ）は、本開示による音声翻訳装置における表示画面の遷移の一例を示す平面図である。（Ａ）乃至（Ｃ）は、本開示による音声翻訳装置における表示画面の遷移の他の一例を示す平面図である。（Ａ）乃至（Ｃ）は、本開示による音声翻訳装置における表示画面の遷移の他の一例を示す平面図である。（Ａ）及び（Ｂ）は、会話における情報端末１０の使用状態の一例を示す模式図である。（Ａ）乃至（Ｄ）は、従来の音声翻訳装置における表示画面の遷移の一例を示す平面図である。

　以下、本開示の実施の形態について詳細に説明する。なお、以下の実施の形態は、本開示を説明するための例示であり、本開示をその実施の形態のみに限定する趣旨ではない。また、本開示は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本開示の範囲に含まれる。またさらに、必要に応じて示す上下左右等の位置関係は、特に断らない限り、図示の表示に基づくものとする。さらにまた、図面における各種の寸法比率は、その図示の比率に限定されるものではない。

図１は、本開示による音声翻訳装置の好適な一実施形態を概略的に示すシステムブロック図である。本実施形態における情報端末１０は、例えば、タッチパネル等のユーザインターフェイス及び視認性が高いディスプレイを採用する。また、ここでの情報端末１０は、ネットワークとの通信機能を有するスマートフォンに代表される携帯電話を含む可搬型のタブレット型端末装置である。さらに、情報端末１０は、プロセッサ１１、記憶資源１２、音声入出力デバイス１３、通信インターフェイス１４、入力デバイス１５、表示デバイス１６、及びカメラ１７を備えている。また、情報端末１０は、インストールされた音声翻訳アプリケーションソフト（本開示の一実施形態による音声翻訳プログラム）が動作することにより、本開示の一実施形態による音声翻訳装置として機能するものである。

　プロセッサ１１は、算術論理演算ユニット及び各種レジスタ（プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等）から構成される。また、プロセッサ１１は、記憶資源１２に格納されているプログラムＰ１０である音声翻訳アプリケーションソフトを解釈及び実行し、各種処理を行う。

　なお、情報端末１０は、図２に示す如く、ネットワークＮを介してサーバ装置Ｓに接続されてもよく、音声翻訳アプリケーションソフトは、例えばそのサーバ装置ＳからネットワークＮを通じて配信可能なものであり、手動的に又は自動的にインストール及びアップデートされてもよい。また、ネットワークＮは、例えば、有線ネットワーク（近距離通信網（ＬＡＮ）、広域通信網（ＷＡＮ）、又は付加価値通信網（ＶＡＮ）等）と無線ネットワーク（移動通信網、衛星通信網、ブルートゥース（Bluetooth：登録商標）、ＷｉＦｉ(Wireless Fidelity)、ＨＳＤＰＡ(High Speed Downlink Packet Access)等）が混在して構成される通信網である。

　記憶資源１２は、物理デバイス（例えば、半導体メモリ等のコンピュータ読み取り可能な記録媒体）の記憶領域が提供する論理デバイスであり、情報端末１０の処理に用いられるオペレーティングシステムプログラム、ドライバプログラム、各種データ等を格納する。ドライバプログラムとしては、例えば、音声入出力デバイス１３を制御するための入出力デバイスドライバプログラム、入力デバイス１５を制御するための入力デバイスドライバプログラム、表示デバイス１６を制御するための出力デバイスドライバプログラム等が挙げられる。また、記憶資源１２には、後述するユーザや会話の相手の発話内容に対応する会話コーパスが記憶されていてもよい。さらに、音声入出力デバイス１３は、例えば、一般的なマイクロフォン、及びサウンドデータを再生可能なサウンドプレイヤである。

　通信インターフェイス１４は、例えばサーバ装置Ｓとの接続インターフェイスを提供するものであり、無線通信インターフェイス及び／又は有線通信インターフェイスから構成される。また、入力デバイス１５は、例えば、表示デバイス１６に表示されるアイコン、ボタン、仮想キーボード等のタップ動作による入力操作を受け付けるインターフェイスを提供するものであり、タッチパネルの他、情報端末１０に外付けされる各種入力装置を例示することができる。

　表示デバイス１６は、画像表示インターフェイスとして各種の情報をユーザ及びその会話の相手方に提供するものであり、例えば、有機ＥＬディスプレイ、液晶ディスプレイ、ＣＲＴディスプレイ等が挙げられる。また、カメラ１７は、種々の被写体の静止画や動画を撮像するためのものである。

　以上のとおり構成された情報端末１０において、音声翻訳アプリケーションソフトを実行したときの操作及び動作手順の一例について、以下に更に説明する。

（第１実施形態）
　図３は、第１実施形態の情報端末１０における処理の流れ（一部）の一例を示すフローチャートである。また、図４（Ａ）乃至（Ｄ）及び図５（Ａ）乃至（Ｄ）は、情報端末１０における表示画面の遷移の一例を示す平面図である。ここでは、情報端末１０のユーザが日本語を話す飲食店の店員であり、会話の相手が英語を話す顧客である場合の会話、すなわち、入力言語が日本語であり、翻訳言語が英語である会話を想定する（但し、これに限定されない）。このとおり、日本語及び英語の一方が「第１言語」に相当し、それらの他方が「第２言語」に相当する。

　まず、ユーザ（店員）が、情報端末１０の表示デバイス１６に表示されている音声翻訳アプリケーションソフトのアイコン（図示せず）をタップして当該アプリケーションを起動する（ステップＳＵ１）と、表示デバイス１６に、顧客の言語選択画面が表示される（図４（Ａ）；ステップＳＪ１）。この言語選択画面には、顧客の言語を選択する旨の説明を記した日本語と英語のテキストＴ１、及び、想定される複数の代表的な言語（ここでは、英語、中国語（例えば書体により２種類）、ハングル語）を示す言語ボタン４１が表示される。

　ユーザは、その言語選択画面のテキストＴ１の表示を顧客に提示し、顧客に英語（Ｅｎｇｌｉｓｈ）のボタンをタップしてもらい顧客の言語を選択する（ステップＳＫ１）と、ホーム画面として、日本語と英語の音声入力の待機画面が表示される（図４（Ｂ）；ステップＳＪ２）。この待機画面には、ユーザの音声入力を促すテキストＴ２、並びに、日本語の音声入力を行うための日本語入力ボタン４２ａ及び英語の音声入力を行うための英語入力ボタン４２ｂが表示される。また、この待機画面には、言語選択画面に戻って顧客の言語を切り替える（言語選択をやり直す）ための戻りボタン４３、入力内容の履歴を表示するための履歴表示ボタン４４、及び当該アプリケーションソフトの各種設定を行うための設定ボタン４５も表示される。

　次に、この待機画面において、ユーザ（店員）が日本語入力ボタン４２ａをタップして日本語の音声入力を選択する（ステップＳＵ２）と、ユーザの日本語による発話内容を受け付ける音声入力画面となる（図４（Ｃ）；ステップＳＪ３）。この音声入力画面が表示されると、音声入出力デバイス１３（音声入力部及び音声出力部）からの音声入力が可能な状態となる。

　この状態で、ユーザが顧客への質問事項等を日本語で音声入力する（ステップＳＵ３）と、その声量の大小を模式的に且つ動的に表す波形図案４６が表示され、音声入力レベルが発話者であるユーザへ視覚的にフィードバックされる（ステップＳＪ４）。なお、この音声入力画面には、停止ボタン４７も表示され、これをタップすることにより、ホーム画面である音声入力の待機画面（図４（Ｂ））へ戻って音声入力をやり直すことができる。

　このとき、情報端末１０のプロセッサ１１は、ユーザによる音声入力の経過とともに、その入力された日本語の発話内容を順次認識し、その認識結果を、タイピングするように日本語のテキストＴ３として表示する（ステップＳＪ５）。このとき、発話内容をそのままタイピングするようにしてもよいし、予め記憶資源１２に記憶されている日本語の会話コーパスのなかから、実際の発話内容に対応するものを呼び出し、それを日本語のテキストＴ３としてタイピングするように表示してもよい。その際、日本語のテキストＴ３の全体が表示されるまでの間、プロセッサ１１がそれを認識中であること、及び、ユーザが音声入力中、又は、入力された内容がタイピング中であることを示す英語のテキストＴ４も音声入力画面に表示される。このように、プロセッサ１１は、「音声認識部」として機能する。

　また、図４（Ｃ）に示す如く、日本語のテキストＴ３及び英語のテキストＴ４は、プロセッサ１１及び表示デバイス１６により、情報端末１０の表示デバイス１６の画面において、波形図案４６によって区分けされ、且つ、互いに逆向き（互いに異なる向き；図示において上下逆向き）に表示される。これにより、ユーザと顧客が対面している状態で会話を行う場合、両者が表示デバイス１６の画面を視認できる状態であれば、ユーザは日本語のテキストＴ３（入力された内容のテキスト）を確認し易い一方、顧客は、英語のテキストＴ４（ユーザが音声入力中、又は、入力された内容がタイピング中であることを示すテキスト）を確認し易くなる。また、それらのテキストＴ３，Ｔ４が区分けして表示されるので、両者を明別して更に確認し易くなる利点がある。このとおり、プロセッサ１１及び表示デバイス１６は、「テキスト表示部」として機能する。

　それから、ユーザによる発話が終了し、例えば音声入力が一定期間ないことをプロセッサ１１が検知すると、プロセッサ１１は、ユーザによる発話内容の受け付けを終了する。そして、プロセッサ１１は、ユーザによって入力された発話内容（日本語）の認識結果に基づいて、それを英語に翻訳する。このとおり、プロセッサ１１は、「翻訳部」としても機能する。このとき、表示デバイス１６には、翻訳中であることを示す日本語のテキストＴ５及び英語のテキストＴ６を含む待機画面が表示される（図４（Ｄ）；ステップＳＪ６）。なお、この待機画面においても、停止ボタン４７が表示され、それをタップすることにより、ホーム画面である音声入力の待機画面（図４（Ｂ））へ戻って音声入力をやり直すことができる。

　また、図４（Ｃ）に示すテキストＴ３，Ｔ４と同様に、図４（Ｄ）の如く、日本語のテキストＴ５及び英語のテキストＴ６も、情報端末１０の表示デバイス１６の画面において、互いに逆向き（互いに異なる向き；図示において上下逆向き）に区分けして表示される。これにより、ユーザと顧客が対面している状態で会話を行う場合、両者が表示デバイス１６の画面を視認できる状態であれば、ユーザが日本語のテキストＴ５（翻訳中の表示）を確認し易い一方、顧客は、英語のテキストＴ４（翻訳中の表示）を確認し易くなる。

　翻訳が完了すると、ユーザによって入力された日本語の内容のテキストＴ７、それに対応する日本語の会話コーパスのテキストＴ８、及びその翻訳結果である英語の会話コーパスのテキストＴ９を含む会話画面が表示される（図５（Ａ））。また、同時に、音声入出力デバイス１３によって、翻訳結果である英語のテキストＴ９の内容（翻訳された内容）が音声出力される（読み上げられる）（ステップＳＪ７）。さらに、この会話画面には、図４（Ｃ）で表示された日本語入力ボタン４２ａ及び英語入力ボタン４２ｂが再び表示され、加えて、その時点で翻訳を終了する旨のテキストＴ１０も表示される。なお、このテキストＴ１０はボタンとして機能し、これをタップすることにより、翻訳処理を終了してホーム画面である待機画面（図４（Ｂ））に戻ることができる。

　また、図４（Ｃ）に示すテキストＴ３，Ｔ４、及び、図４（Ｄ）に示すテキストＴ５，Ｔ６と同様に、図５（Ａ）の如く、日本語のテキストＴ７，Ｔ８と英語のテキストＴ９も、情報端末１０の表示デバイス１６の画面において、線分図案４８によって区分けされ、互いに逆向き（互いに異なる向き；図示において上下逆向き）に表示される。これにより、ユーザと顧客が対面している状態で会話を行う場合、両者が表示デバイス１６の画面を視認できる状態であれば、ユーザが日本語のテキストＴ７，Ｔ８（入力された内容）を確認し易い一方、顧客は、英語のテキストＴ４（翻訳された内容）を確認し易くなる。また、テキストＴ７，Ｔ８とテキストＴ９が区分けして表示されるので、両者を明別して更に確認し易くなる利点がある。

　このとき、音声出力された翻訳結果の内容、及び／又は、翻訳された英語のテキストＴ４の内容が芳しくなかった場合（例えば顧客がその内容を理解することができなかった場合）、もう一度、日本語入力ボタン４２ａをタップすることにより、図５（Ａ）の会話画面を再び図４（Ｃ）の音声入力画面に切り替えて、音声入力を再度行うことができる。

　次に、顧客がユーザの質問事項を理解することができた場合、ユーザ又は顧客が図５（Ａ）の会話画面において英語入力ボタン４２ｂをタップして英語の音声入力を選択する（ステップＳＵ４，ＳＫ２；図４には両方図示した）と、今度は、顧客による英語の発話内容を受け付ける音声入力画面が表示される（図５（Ｂ）；ステップＳＪ８）。この後の処理は、発話者がユーザから顧客に代わり、日本語の音声入力が英語の音声入力に切り替わり、且つ、英語の音声及びテキスト出力が日本語による音声及びテキスト出力に代わること以外は、図４（Ｃ）で説明した処理と基本的に同等である。

　すなわち、顧客がユーザの質問事項等に対する回答事項等を英語で音声入力する（ステップＳＫ３）と、波形図案４６が表示され、音声入力レベルが発話者である顧客へ視覚的にフィードバックされる（ステップＳＪ９）。また、情報端末１０のプロセッサ１１は、顧客による音声入力の経過とともに、その入力された英語の発話内容を順次認識し、その認識結果を、タイピングするように英語のテキストＴ１０として表示する（ステップＳＪ１０）。このとき、発話内容をそのままタイピングするようにしてもよいし、予め記憶資源１２に記憶されている英語の会話コーパスのなかから、実際の発話内容に対応するものを呼び出し、それを英語のテキストＴ１０としてタイピングするように表示してもよい。その際、英語のテキストＴ１０の全体が表示されるまでの間、プロセッサ１１がそれを認識中であること、及び、顧客が音声入力中、又は、入力された内容がタイピング中であることを示す日本語のテキストＴ１１も音声入力画面に表示される。

　さらに、図４（Ｃ）に示すテキストＴ３，Ｔ４と同様に、図５（Ｂ）の如く、英語のテキストＴ１０及び日本語のテキストＴ１１は、情報端末１０の表示デバイス１６の画面において、波形図案４６によって区分けされ、且つ、互いに逆向き（互いに異なる向き；図示において上下逆向き）に表示される。これにより、ユーザと顧客が対面している状態で会話を行う場合、両者が表示デバイス１６の画面を視認できる状態であれば、ユーザは英語のテキストＴ１０（入力された内容のテキスト）を確認し易い一方、ユーザは、日本語のテキストＴ１１（顧客が音声入力中、又は、入力された内容がタイピング中であることを示すテキスト）を確認し易くなる。

　それから、顧客による発話が終了し、例えば音声入力が一定期間ないことをプロセッサ１１が検知すると、プロセッサ１１は、顧客による発話内容の受け付けを終了する。そして、プロセッサ１１は、顧客によって入力された発話内容（英語）の認識結果に基づいて、それを日本語に翻訳する。このとき、表示デバイス１６には、翻訳中であることを示す日本語のテキストＴ５及び英語のテキストＴ６を含む待機画面が表示される（図５（Ｃ）；ステップＳＪ１１）。なお、画面表示として、図５（Ｃ）は図４（Ｄ）と同じであり、停止ボタン４７をタップすることにより、ホーム画面（図４（Ｂ））に戻ることができ、また、日本語のテキストＴ５及び英語のテキストＴ６が、互いに逆向き（互いに異なる向き；図示において上下逆向き）に表示される。

　翻訳が完了すると、顧客によって入力された英語の内容又はそれに対応する会話コーパスのテキストＴ１２、及びその翻訳結果である日本語の会話コーパスのテキストＴ１３を含む会話画面が表示される（図５（Ｄ））。また、同時に、音声入出力デバイス１３によって、翻訳結果である日本語のテキストＴ１３の内容（翻訳された内容）が音声出力される（読み上げられる）（ステップＳＪ１２）。さらに、この会話画面には、日本語入力ボタン４２ａ及び英語入力ボタン４２ｂが再び表示され、加えて、その時点で翻訳を終了する旨のテキストＴ１０も表示される。

　このようにして、ユーザと顧客は、図４（Ａ）から図５（Ｄ）に示す手順で会話を繰り返すことができ、両者の会話が終了した後、例えば、ユーザが図５（Ｄ）に示す画面において、ボタンとして機能するテキストＴ１０をタップすることにより、翻訳処理を終了して（ステップＳＵ５）、ホーム画面である待機画面（図４（Ｂ））に戻ることができる。

（第２実施形態）
　図６（Ａ）乃至（Ｃ）及び図７（Ａ）乃至（Ｃ）は、第２実施形態の情報端末１０における表示画面の遷移の一例を示す平面図である。

　まず、ユーザ（店員）が当該アプリケーションを起動する（ステップＳＵ１）と、表示デバイス１６に、顧客の言語選択画面が表示される（図６（Ａ）；ステップＳＪ１）。この言語選択画面には、顧客に言語を尋ねる旨の日本語のテキストＴ２１、その旨の英語のテキストＴ２２、及び、想定される複数の代表的な言語（ここでも、英語、中国語（例えば書体により２種類）、ハングル語）を示す言語ボタン６１が表示される。

　このとき、第１実施形態（図４（Ａ））とは異なり、図５（Ａ）に示す如く、日本語のテキストＴ２１及び英語のテキストＴ２２は、プロセッサ１１及び表示デバイス１６により、情報端末１０の表示デバイス１６の画面において、異なる色の領域によって区分けされ、且つ、互いに逆向き（互いに異なる向き；図示において上下逆向き）に表示される。これにより、ユーザと顧客が対面している状態で会話を行う場合、ユーザは日本語のテキストＴ２１を確認し易い一方、顧客は、英語のテキストＴ２２を確認し易くなる。また、テキストＴ２１とテキストＴ２２が区分けして表示されるので、両者を明別して更に確認し易くなる利点がある。

　ユーザは、その言語選択画面のテキストＴ１の表示を顧客に提示し、顧客に英語（Ｅｎｇｌｉｓｈ）のボタンをタップしてもらい顧客の言語を選択する（ステップＳＫ１）と、ホーム画面として、日本語と英語の音声入力の待機画面が表示される（図６（Ｂ）；ステップＳＪ２）。この待機画面には、ユーザと顧客の言語の何れを発話するかを問うテキストＴ２３、並びに、日本語の音声入力を行うための日本語入力ボタン６２ａ及び英語の音声入力を行うための英語入力ボタン６２ｂが表示される。また、この待機画面には、入力内容の履歴を表示するための履歴表示ボタン６３、言語選択画面に戻って顧客の言語を切り替える（言語選択をやり直す）ための言語選択ボタン６４、及び当該アプリケーションソフトの各種設定を行うための設定ボタン６５も表示される。

　次に、この待機画面において、ユーザ（店員）が日本語入力ボタン４２ａをタップして日本語の音声入力を選択する（ステップＳＵ２）と、ユーザの日本語による発話内容を受け付ける音声入力画面となる（図６（Ｃ）；ステップＳＪ３）。この音声入力画面が表示されると、音声入出力デバイス１３（音声入力部及び音声出力部）からの音声入力が可能な状態となる。また、この音声入力画面には、ユーザの音声入力を促すテキストＴ２４、及び、音声入力の待機状態であることを示すマイク図案６６が表示される。なお、その前の画面である図５（Ｂ）において日本語音声入力が選択されたことを示すため、図６（Ｃ）の音声入力画面には、日本語入力ボタン４２ａが表示されない一方、英語入力ボタン４２ｂがマイク図案６６の背面に一部が隠れるように淡い色彩で表示される（後記の図７（Ａ）及び図７（Ｂ）において同様）。

　また、この音声入力画面には、キャンセルボタン６７も表示され、これをタップすることにより、ホーム画面である音声入力の待機画面（図６（Ｂ））へ戻って音声入力をやり直すことができる（後記の図７（Ａ）及び図７（Ｂ）において同様）。この状態で、ユーザが顧客への伝達事項等を日本語で音声入力する（ステップＳＵ３）と、テキスト２４とともに、その声量の大小を模式的に且つ動的に表す多重円形図案６８が表示され、音声入力レベルが発話者であるユーザへ視覚的にフィードバックされる（ステップＳＪ４）。

　それから、ユーザによる発話が終了し、例えば音声入力が一定期間ないことをプロセッサ１１が検知すると、プロセッサ１１は、ユーザによる発話内容の受け付けを終了する。そして、プロセッサ１１は、ユーザによって入力された日本語の発話内容の認識結果を、日本語のテキストＴ２５として表示する（ステップＳＪ５）。このとき、発話内容をそのまま表示してもよいし、予め記憶資源１２に記憶されている日本語の会話コーパスのなかから、実際の発話内容に対応するものを呼び出し、それを日本語のテキストＴ２５として表示してもよい。さらに、プロセッサ１１は、その発話内容（日本語）の認識結果に基づいて、それを英語に翻訳する。このとき、表示デバイス１６には、翻訳中であることを示す日本語のテキストＴ２６、及び、翻訳中であることを示す円形図案６９が表示される。

　翻訳が完了すると、ユーザによって入力された日本語の内容のテキストＴ２５に加え、それに対応する日本語の会話コーパスのテキストＴ２７（ここではテキストＴ２５と同じであるが、これに限定されない）、及びその翻訳結果である英語の会話コーパスのテキストＴ２８を含む会話画面が表示される（図５（Ｆ））。また、同時に、音声入出力デバイス１３によって、翻訳結果である英語のテキストＴ２８の内容（翻訳された内容）が音声出力される（読み上げられる）（ステップＳＪ７）。なお、同時に表示される音声出力ボタン７０をタップすることにより、音声出力を繰り返すことができる。さらに、この会話画面には、その時点で翻訳を終了する旨のチェックボタン７１が表示され、これをタップすることにより、翻訳処理を終了してホーム画面である待機画面（図６（Ｂ））に戻ることができる。

　また、図６（Ａ）に示すテキストＴ２１，Ｔ２４と同様に、図７（Ｃ）の如く、日本語のテキストＴ２５，Ｔ２７と英語のテキストＴ２８も、情報端末１０の表示デバイス１６の画面において、異なる色の領域によって区分けされ、且つ、互いに逆向き（互いに異なる向き；図示において上下逆向き）に表示される。これにより、ユーザと顧客が対面している状態で会話を行う場合、両者が表示デバイス１６の画面を視認できる状態であれば、ユーザが日本語のテキストＴ２５，Ｔ２７（入力された内容）を確認し易い一方、顧客は、英語のテキストＴ２８（翻訳された内容）を確認し易くなる。また、それらのテキストＴ２５，Ｔ２７とテキストＴ２８が区分けして表示されるので、両者を明別して更に確認し易くなる利点がある。

　このように構成された音声翻訳プログラム、音声翻訳装置（情報端末１０）及びその制御方法によれば、互いの言語を理解できないユーザと顧客が会話をする際に、質問者であるユーザが入力した日本語音声の内容を英語に翻訳し、その翻訳結果を音声で出力して回答者である顧客に伝えることができる。また、逆に、顧客が入力した英語音声の内容を日本語に翻訳し、その翻訳結果を音声で出力してユーザに伝えることができる。これらの音声翻訳処理により、両者の会話が可能となる。

　さらに、音声出力のみならず、互いの音声入力した内容とそれらの翻訳結果をテキストＴ８，Ｔ９，Ｔ１２，Ｔ１３（第１実施形態）やテキストＴ２５，Ｔ２７，Ｔ２８（第２実施形態）でも表示することにより、相手の発話内容を確認することができる。さらに、その際、入力された内容のテキストＴ８，Ｔ１２及び翻訳された内容のテキストＴ９，Ｔ１３（第１実施形態）、並びに、入力された内容のテキストＴ２５，Ｔ２７及び翻訳された内容のテキストＴ２８（第２実施形態）を、情報端末１０の表示デバイス１６の画面において互いに異なる向きに表示するので、その確認の都度、情報端末１０の画面の向きを変える必要がなく、両者の円滑な会話を実現することが可能となる。

　ここで、図８（Ａ）及び（Ｂ）は、上述した各実施形態におけるユーザと顧客の会話における情報端末１０の使用状態の一例を示す模式図である。このとき、音声翻訳アプリケーションソフトは、ユーザが使用する情報端末１０を、その表示デバイス１６の画面の方向を検知する検知部として更に機能させる。

　この例では、図８（Ａ）に示す如く、ユーザＭ１が音声入力をするときには、ユーザＭ１は情報端末１０の画面を自分側に向けて発話する。このとき、例えば図４（Ｃ）及び（Ｄ）に示す英語のテキストＴ４，Ｔ６は、日本語のテキストＴ３，Ｔ５と同じ向きに表示されていてもよい。ユーザＭ１が音声入力を完了し、さらに、その認識及び翻訳処理が終了した後、図８（Ｂ）に示す如く、ユーザＭ１が情報端末１０を手にしたまま、情報端末１０の表示デバイス１６の画面が顧客Ｍ２の方を向くように前方へ倒す。

　そうすると、情報端末１０のプロセッサ１１は、その画面が鉛直上方の所定範囲内に向いたことを検知し、それから、例えば図５（Ａ）に示す入力された内容のテキストＴ８に対し、翻訳された内容のテキストＴ９を逆向き（互いに異なる向き）に表示し、また、図７（Ｃ）に示す入力された内容のテキストＴ２５，Ｔ２７に対し、翻訳された内容のテキストＴ２８を逆向き（互いに異なる向き）に表示する。このように構成した場合でも、ユーザＭ１及び顧客Ｍ２が、テキストを確認する都度、情報端末１０の画面の向きを変える必要がないので、両者の円滑な会話を実現することができる。

　なお、上述したとおり、上記の各実施形態は、本開示を説明するための一例であり、本開示をその実施形態に限定する趣旨ではない。また、本開示は、その要旨を逸脱しない限り、様々な変形が可能である。例えば、当業者であれば、実施形態で述べたリソース（ハードウェア資源又はソフトウェア資源）を均等物に置換することが可能であり、そのような置換も本開示の範囲に含まれる。

　また、音声入力レベルのフィードバックはなくてもよく、この場合、入力音声レベルを確認することができる他の適宜の表示を採用してもよい。さらに、ユーザ及び／又は顧客が音声入力した内容を、音声出力して確認することができるようにしてもよい。またさらに、テキストのタイピング処理に代えて、音声入力が完了した後に、それを認識したテキストを一括で全体表示してもよい。

　また、音声入力した内容に対応する会話コーパスは、情報端末１０の記憶資源１２に記憶されていなくてもよく、例えば、音声入力された内容の認識の都度、及び／又は、翻訳の都度、ネットワークＮを介して、適宜のデータベースを検索してもよく、その結果を、ネットワークＮを介して情報端末１０に送信してもよい。さらに、情報端末１０とネットワークＮとの間には、両者間の通信プロトコルを変換するゲートウェイサーバ等が介在してももちろんよい。また、情報端末１０は、携帯型装置に限らず、例えば、デスクトップ型パソコン、ノート型パソコン、タブレット型パソコン、ラップトップ型パソコン等でもよい。

　また、本開示による音声翻訳プログラムは、コンピュータを、少なくとも２種類の言語による音声を入力可能な音声入力部、前記音声入力部に入力された内容を認識する音声認識部、前記音声認識部で認識された内容を異なる言語の内容に翻訳する翻訳部、前記翻訳部で翻訳された内容を音声で出力する音声出力部、及び、前記入力された内容のテキスト及び前記翻訳された内容のテキストを当該コンピュータの画面において互いに逆向きに表示するテキスト表示部、として機能させ、前記テキスト表示部は、前記入力された内容のテキストを、前記画面における上方領域に且つ前記音声を入力したユーザが正視可能な向きに表示し、及び、前記翻訳された内容のテキストを、前記画面における下方領域に表示してもよい。

　また、前記音声入力部は、前記音声が入力される前に、該音声の入力の待機状態であることを示す図案を前記画面に表示し、且つ、前記音声が入力された際に、該音声の入力レベルを表す図案を前記画面に表示し、前記翻訳部は、前記認識された内容を異なる言語の内容に翻訳中であることを示す図案を前記画面に表示するようにしてもよい。

　さらに、前記音声入力部は、前記音声の入力の待機状態であることを示す図案、及び、前記音声の入力レベルを表す図案とともに、前記音声の入力を促すテキストを前記画面に表示し、前記翻訳部は、前記認識された内容を異なる言語の内容に翻訳中であることを示す図案とともに、翻訳中であることを示すテキストを前記画面に表示してもよい。

　本開示によれば、音声翻訳とともに、テキストの確認の都度コンピュータ（情報端末）の画面の向きを変える必要がなく、円滑な会話を実現することが可能となるので、互いの言語を理解できない人同士の会話に関連するサービスを提供する分野における、プログラム、システム、及び方法の設計、製造、提供、販売等の活動に広く利用することができる。

１０　情報端末（コンピュータ、音声翻訳装置）
１１　プロセッサ（音声認識部、翻訳部、テキスト表示部）
１２　記憶資源
１３　音声入出力デバイス（音声入力部、音声出力部）
１４　通信インターフェイス
１５　入力デバイス
１６　表示デバイス（テキスト表示部）
１７　カメラ
４１　言語ボタン
４２ａ日本語入力ボタン
４２ｂ英語入力ボタン
４３　戻りボタン
４４　履歴表示ボタン
４５　設定ボタン
４６　波形図案
４７　停止ボタン
４８　線分図案
６１　言語ボタン
６２ａ　日本語入力ボタン
６２ｂ　英語入力ボタン
６３　履歴表示ボタン
６４　言語選択ボタン
６５　設定ボタン
６６　マイク図案
６７　キャンセルボタン
６８　多重円形図案
６９　円形図案
７０　音声出力ボタン
７１　チェックボタン
９０　情報端末（従来）
９１　選択ボタン
９２　国旗ボタン
９２，９２　言語切替ボタン
９３　マイクボタン
９４　終了ボタン
９５，９６，９７　テキスト
９８　再入力ボタン
９９　要請ボタン
１００　リピート再生ボタン
Ｍ１　ユーザ
Ｍ２　顧客
Ｎ　ネットワーク
Ｐ１０プログラム
Ｔ１～Ｔ１３，Ｔ２１～Ｔ２８　テキスト

Claims

　コンピュータを、
　少なくとも２種類の言語による音声を入力可能な音声入力部、
　前記音声入力部に入力された内容を認識する音声認識部、
　前記音声認識部で認識された内容を異なる言語の内容に翻訳する翻訳部、
　前記翻訳部で翻訳された内容を音声で出力する音声出力部、及び、
　前記入力された内容のテキスト及び前記翻訳された内容のテキストを当該コンピュータの画面において互いに異なる向きに表示するテキスト表示部、
として機能させる音声翻訳プログラム。
　前記テキスト表示部は、前記入力された内容のテキストと前記翻訳された内容のテキストを当該コンピュータの画面において互いに逆向きに表示する、
請求項１記載の音声翻訳プログラム。
　前記コンピュータを、前記画面の方向を検知する検知部として更に機能させ、
　前記テキスト表示部は、前記画面が鉛直上方の所定範囲内に向いたことを前記検知部が検知したときに、前記入力された内容のテキスト及び前記翻訳された内容のテキストを前記画面において互いに異なる向きに表示する、
請求項１記載の音声翻訳プログラム。
　前記テキスト表示部は、前記画面において、前記入力された内容のテキストを表示する領域と前記翻訳された内容のテキストを表示する領域とを区分する、
請求項１記載の音声翻訳プログラム。
　コンピュータを、
　少なくとも２種類の言語による音声を入力可能な音声入力部、
　前記音声入力部に入力された内容を認識する音声認識部、
　前記音声認識部で認識された内容を異なる言語の内容に翻訳する翻訳部、
　前記翻訳部で翻訳された内容を音声で出力する音声出力部、及び、
　前記入力された内容のテキスト及び前記翻訳された内容のテキストを当該コンピュータの画面において互いに逆向きに表示するテキスト表示部、
として機能させ、
　前記テキスト表示部は、前記入力された内容のテキストを、前記画面における上方領域に且つ前記音声を入力したユーザが正視可能な向きに表示し、及び、前記翻訳された内容のテキストを、前記画面における下方領域に表示する、
音声翻訳プログラム。
　前記音声入力部は、前記音声が入力される前に、該音声の入力の待機状態であることを示す図案を前記画面に表示し、且つ、前記音声が入力された際に、該音声の入力レベルを表す図案を前記画面に表示し、
　前記翻訳部は、前記認識された内容を異なる言語の内容に翻訳中であることを示す図案を前記画面に表示する、
請求項５記載の音声翻訳プログラム。
　前記音声入力部は、前記音声の入力の待機状態であることを示す図案、及び、前記音声の入力レベルを表す図案とともに、前記音声の入力を促すテキストを前記画面に表示し、
　前記翻訳部は、前記認識された内容を異なる言語の内容に翻訳中であることを示す図案とともに、翻訳中であることを示すテキストを前記画面に表示する、
請求項５記載の音声翻訳プログラム。
　少なくとも２種類の言語による音声を入力可能な音声入力部と、
　前記音声入力部に入力された内容を認識する音声認識部と、
　前記音声認識部で認識された内容を異なる言語の内容に翻訳する翻訳部と、
　前記翻訳部で翻訳された内容を音声で出力する音声出力部と、
　前記入力された内容のテキスト及び前記翻訳された内容のテキストを画面において互いに異なる向きに表示するテキスト表示部と、
を備える音声翻訳装置。
　少なくとも２種類の言語による音声を入力可能な音声入力部、音声認識部、翻訳部、音声出力部、及びテキスト表示部を備える音声翻訳装置の制御方法であって、
　前記音声認識部により、前記音声入力部に入力された内容を認識し、
　前記翻訳部により、前記音声認識部で認識された内容を異なる言語の内容に翻訳し、
　前記音声出力部により、前記翻訳部で翻訳された内容を音声で出力し、
　前記テキスト表示部により、前記入力された内容のテキスト及び前記翻訳された内容のテキストを画面において互いに異なる向きに表示する、
音声翻訳システムの制御方法。