WO2024075179A1

WO2024075179A1 - 情報処理方法、プログラム、端末装置、情報処理方法及び情報処理方法

Info

Publication number: WO2024075179A1
Application number: PCT/JP2022/037142
Authority: WO
Inventors: 一川竹
Original assignee: ポケトーク株式会社
Priority date: 2022-10-04
Filing date: 2022-10-04
Publication date: 2024-04-11

Abstract

正確性が高く、且つ、待ち時間が短い翻訳を可能とする。　端末装置１による情報処理方法であって、翻訳元言語の音声を取得することと、音声を認識して、音声に対応するテキストを生成することと、テキストのうち先頭の所定秒数分又は先頭の所定単語数分をバッファに溜めることと、バッファに溜められたテキストの分割点を検出して、テキストの先頭の一文を検出することと、先頭の一文に対応する、翻訳先言語のテキストを取得することと、翻訳先言語のテキストを表示することと、翻訳先言語のテキストに対応する音声を生成して出力することと、の少なくとも一方を実行することと、を含む情報処理方法。

Description

情報処理方法、プログラム、端末装置、情報処理方法及び情報処理方法

　本開示は、情報処理方法、プログラム、端末装置、情報処理方法及び情報処理方法に関する。

　従来、言語の翻訳を行うにあたり、認識結果文字列に対し構文解析手法を用いて、一定の構文構造が蓄積されるごとに訳出を行う技術が知られている（例えば特許文献１）。

特開2015-201215号公報

　上記背景技術における文の分割方法の場合、リアルタイムで分割対象の文章が更新され続けるため、分割箇所もリアルタイムで変わる。このため、分割箇所をいつ確定するかの判断が容易ではない。

　かかる事情に鑑みてなされた本開示の目的は、正確性が高く、且つ、待ち時間が短い翻訳を可能とすることにある。

　本開示の一実施形態に係る情報処理方法は、
　端末装置による情報処理方法であって、
　翻訳元言語の音声を取得することと、
　前記音声を認識して、前記音声に対応するテキストを生成することと、
　前記テキストのうち先頭の所定秒数分又は先頭の所定単語数分をバッファに溜めることと、
　前記バッファに溜められたテキストの分割点を検出して、前記テキストの先頭の一文を検出することと、
　前記先頭の一文に対応する、翻訳先言語のテキストを取得することと、
　前記翻訳先言語のテキストを表示することと、前記翻訳先言語のテキストに対応する音声を生成して出力することと、の少なくとも一方を実行することと、
　を含む。

　本開示の一実施形態に係るプログラムは、
　コンピュータに、
　翻訳元言語の音声を取得することと、
　前記音声を認識して、前記音声に対応するテキストを生成することと、
　前記テキストのうち先頭の所定秒数分又は先頭の所定単語数分をバッファに溜めることと、
　前記バッファに溜められたテキストの分割点を検出して、前記テキストの先頭の一文を検出することと、
　前記先頭の一文に対応する、翻訳先言語のテキストを取得することと、
　前記翻訳先言語のテキストを表示することと、前記翻訳先言語のテキストに対応する音声を生成して出力することと、の少なくとも一方を実行することと、
　を含む動作を実行させる。

　本開示の一実施形態に係る端末装置は、
　制御部を含む端末装置であって、前記制御部は、
　翻訳元言語の音声を取得することと、
　前記音声を認識して、前記音声に対応するテキストを生成することと、
　前記テキストのうち先頭の所定秒数分又は先頭の所定単語数分をバッファに溜めることと、
　前記バッファに溜められたテキストの分割点を検出して、前記テキストの先頭の一文を検出することと、
　前記先頭の一文に対応する、翻訳先言語のテキストを取得することと、
　前記翻訳先言語のテキストを表示することと、前記翻訳先言語のテキストに対応する音声を生成して出力することと、の少なくとも一方を実行することと、
　を含む動作を実行する。

　本開示の一実施形態に係る情報処理方法は、
　端末装置と、前記端末装置と通信可能な情報処理装置と、を含む情報処理システムによる情報処理方法であって、
　翻訳元言語の音声を取得することと、
　前記音声を認識して、前記音声に対応するテキストを生成することと、
　前記テキストのうち先頭の所定秒数分又は先頭の所定単語数分をバッファに溜めることと、
　前記バッファに溜められたテキストの分割点を検出して、前記テキストの先頭の一文を検出することと、
　前記先頭の一文に対応する、翻訳先言語のテキストを取得することと、
　前記翻訳先言語のテキストを表示することと、前記翻訳先言語のテキストに対応する音声を生成して出力することと、の少なくとも一方を実行することと、
　を含む。

　本開示の一実施形態に係る情報処理システムは、
　端末装置と、前記端末装置と通信可能な情報処理装置と、を含む情報処理システムであって、
　翻訳元言語の音声を取得することと、
　前記音声を認識して、前記音声に対応するテキストを生成することと、
　前記テキストのうち先頭の所定秒数分又は先頭の所定単語数分をバッファに溜めることと、
　前記バッファに溜められたテキストの分割点を検出して、前記テキストの先頭の一文を検出することと、
　前記先頭の一文に対応する、翻訳先言語のテキストを取得することと、
　前記翻訳先言語のテキストを表示することと、前記翻訳先言語のテキストに対応する音声を生成して出力することと、の少なくとも一方を実行することと、
　を含む動作を実行する。

　本開示の一実施形態によれば、正確性が高く、且つ、待ち時間が短い翻訳を可能とすることができる。

情報処理システムの概略図である。第１端末装置の構成を示すブロック図である。第２端末装置の構成を示すブロック図である。情報処理装置の構成を示すブロック図である。第１端末装置を用いた対話を示す図である。音声に対応するテキストを示す図である。翻訳の表示画面を示す図である。情報処理システムにて実行される動作を示すシーケンス図である。他の実施形態による表示画面を示す図である。

　図１は、本実施形態の情報処理システムＳの概略図である。情報処理システムＳは、ネットワークＮＷを介して互いに通信可能な第１端末装置１、第２端末装置２、及び情報処理装置３を含む。ネットワークＮＷは、例えば、移動体通信網、固定通信網、又はインターネットを含む。第１端末装置１は第１ユーザＰ１によって使用される。第２端末装置２は第２ユーザＰ２によって使用される。

　図１では説明の簡便のため、端末装置は２つ図示される。しかし、端末装置の数はこれに限られない。

　図２を参照して第１端末装置１の内部構成が詳細に説明される。

　第１端末装置１は、ＰＣなどの汎用機器、又は専用機器であってよい。「ＰＣ」は、personal computerの略語である。代替例として第１端末装置１は、携帯電話機、スマートフォン、ウェアラブル機器、若しくはタブレットなどのモバイル機器であってよい。

　第１端末装置１は、制御部１１と通信部１２と記憶部１３と表示部１４と入力部１５と撮像部１６と出力部１７とを含む。第１端末装置１の各構成要素は、例えば専用線を介して互いに通信可能に接続される。

　制御部１１は例えば、ＣＰＵ（Central Processing Unit）又はＭＰＵ（Micro Processing Unit）を含む１つ以上の汎用プロセッサを含む。制御部１１は、特定の処理に特化した１つ以上の専用プロセッサを含んでよい。制御部１１は、プロセッサを含む代わりに、１つ以上の専用回路を含んでもよい。専用回路は例えば、ＦＰＧＡ（Field-Programmable Gate Array）、又はＡＳＩＣ（Application Specific Integrated Circuit）であってよい。制御部１１は、ＥＣＵ（Electronic Control Unit）を含んでもよい。制御部１１は通信部１２を介して、任意の情報を送信及び受信する。

　通信部１２は、ネットワークＮＷに接続するための、１つ以上の有線又は無線ＬＡＮ（Local Area Network）規格に対応する通信モジュールを含む。通信部１２は、ＬＴＥ（Long Term Evolution）、４Ｇ（4th Generation）、又は５Ｇ（5th Generation）を含む１つ以上の移動体通信規格に対応するモジュールを含んでよい。通信部１２は、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＡｉｒＤｒｏｐ（登録商標）、ＩｒＤＡ、ＺｉｇＢｅｅ（登録商標）、Ｆｅｌｉｃａ（登録商標）、又はＲＦＩＤを含む１つ以上の近距離通信の規格又は仕様に対応する通信モジュール等を含んでよい。通信部１２は、ネットワークＮＷを介して任意の情報を送信及び受信する。

　記憶部１３は、例えば半導体メモリ、磁気メモリ、光メモリ、又はこれらのうち少なくとも２種類の組み合わせが含まれるが、これらに限られない。半導体メモリは、例えば、ＲＡＭ又はＲＯＭである。ＲＡＭは、例えば、ＳＲＡＭ又はＤＲＡＭである。ＲＯＭは、例えば、ＥＥＰＲＯＭである。記憶部１３は、例えば主記憶装置、補助記憶装置、又はキャッシュメモリとして機能してもよい。記憶部１３は、制御部１１によって分析又は処理された結果の情報を記憶してよい。記憶部１３は、第１端末装置１の動作又は制御に関する各種情報等を記憶してよい。記憶部１３は、システムプログラム、アプリケーションプログラム、及び組み込みソフトウェア等を記憶してよい。記憶部１３は第１端末装置１の外部に設けられて、第１端末装置１からアクセスされてよい。

　表示部１４は例えば、ディスプレイである。ディスプレイは、例えば、ＬＣＤ又は有機ＥＬディスプレイである。「ＬＣＤ」は、liquid crystal displayの略語である。「ＥＬ」は、electro luminescenceの略語である。表示部１４は、第１端末装置１に備えられる代わりに、外部の出力機器として第１端末装置１に接続されてもよい。接続方式としては、例えば、ＵＳＢ、ＨＤＭＩ（登録商標）、又はBluetooth（登録商標）等の任意の方式を用いることができる。

　入力部１５は例えば、物理キー、静電容量キー、ポインティングデバイス、ディスプレイと一体的に設けられたタッチスクリーン、又はマイクである。入力部１５は、第１端末装置１の動作に用いられる情報を入力する操作を受け付ける。入力部１５は、第１端末装置１に備えられる代わりに、外部の入力機器として第１端末装置１に接続されてもよい。接続方式としては、例えば、ＵＳＢ、ＨＤＭＩ（登録商標）、又はBluetooth（登録商標）等の任意の方式を用いることができる。「ＵＳＢ」は、Universal Serial Busの略語である。「ＨＤＭＩ（登録商標）」は、High-Definition Multimedia Interfaceの略語である。

　撮像部１６はカメラを含む。撮像部１６は周囲を撮像することができる。撮像部１６は画像解析のために、撮像した画像を記憶部１３に記録し又は制御部１１に送信してよい。画像は静止画又は動画を含む。

　出力部１７は、音声を出力するスピーカを含む。

　図３を参照して第２端末装置２の内部構成が詳細に説明される。

　第２端末装置２は、制御部２１と通信部２２と記憶部２３と表示部２４と入力部２５と撮像部２６と出力部２７とを含む。第２端末装置２のハードウェア構成についての説明は、第１端末装置１のハードウェア構成についての説明と同一であってよい。ここでの説明は省略される。

　情報処理装置３は、事業者によるサービスの提供を支援するサーバであってよい。情報処理装置３は、例えば、事業者専用の施設、又はデータセンタを含む共用の施設に設置されてよい。

　図４を参照して情報処理装置３の内部構成が詳細に説明される。

　情報処理装置３は、制御部３１と通信部３２と記憶部３３とを含む。情報処理装置３の制御部３１と通信部３２と記憶部３３とのハードウェア構成についての説明は、第１端末装置１の制御部１１と通信部１２と記憶部１３とのハードウェア構成についての説明と同一であってよい。ここでの説明は省略される。

　以下、情報処理システムＳにおいて実行される情報処理方法が詳細に説明される。ここでは一例として、それぞれ異なる場所に位置する第１ユーザＰ１と第２ユーザＰ２とが、情報処理システムＳを用いて、異なる言語で遠隔対話（例えばリモート会議）を行う。ここでは第１ユーザＰ１は日本語を話す。第２ユーザＰ２は英語を話す。対話を行う人数は複数であれば何人でもよい。

　第１端末装置１及び第２端末装置２のそれぞれは、撮像部１６又は撮像部２６により、端末装置を使用するユーザの画像を撮像し、撮像画像を他方の端末装置に逐次送信する。

　図５に示されるように、第１端末装置１の表示部１４は、対話相手である第２ユーザＰ２の撮像画像を表示する。第１端末装置１の制御部１１は、後述の方法で、第２ユーザＰ２が話した英語テキスト５１を日本語テキスト５２に翻訳して表示部１４に表示する。

　第２端末装置２の制御部２１は、第２ユーザＰ２が発した翻訳元言語の音声を入力部２５のマイクを介して取得し、音声データとして、通信部２２を介して第１端末装置１に送信する。翻訳元言語は任意のものであってよく、ここでは一例として英語である。

　第１端末装置１の制御部１１は、第２端末装置２から、第２ユーザＰ２の音声を取得する。代替例として制御部１１は、第１ユーザＰ１の近傍の位置にいる第２ユーザＰ２の音声を、入力部１５を介して取得してよい。別の代替例として、制御部１１は、第１端末装置１で視聴される動画の音声を取得してよい。

　制御部１１は、取得された音声を、出力部１７を介して出力してもよい。

　制御部１１は、取得された音声を認識して、音声に対応するテキストをテキストデータとして生成する。テキスト生成方法は任意のものを利用可能である。制御部１１は音声を、情報処理装置３を経由して取得してよい。音声に対応するテキストは、第２ユーザＰ２が話し続ける間、増加する。制御部１１は、音声認識エンジンとして、例えば次のウェブサイトで提供されるＡＩ（人工知能）を利用してよい。
　　　https://github.com/alphacep/vosk-api

　制御部１１は、生成されたテキストのうち、先頭１０秒分のテキストを記憶部１３のバッファに溜める。図６に、先頭１０秒分のテキスト６１が示される。先頭の何秒分を記憶部１３に溜めるかは任意に設定可能である。代替例として、制御部１１は、先頭の所定単語数分（例えば１００語）を記憶部１３のバッファに溜めてよい。

　制御部１１は、先頭１０秒分が溜まったことを検出すると、溜められたテキストの分割点６２を評価（検出）する。分割点は、ある文とその次の文とを分割するための点であってよい。分割点の評価方法は、任意のものを利用可能である。代替例として、分割点を検出できない場合、制御部１１は、分割点を検出できるまでバッファ内のテキストを増加させて、分割点の検出を続けてよい。制御部１１は、文の分割エンジンとして、例えば次のウェブサイトで提供されるＡＩを利用してよい。
　　　https://bminixhofer.github.io/nnsplit/

　制御部１１は、先頭の一文のテキスト６３を検出すると、テキスト６３を情報処理装置３に送信する。情報処理装置３は、先頭の一文のテキスト６３を翻訳先言語に翻訳する。翻訳先言語は任意であり、ここでは一例として日本語である。情報処理装置３の制御部３１は、日本語のテキストを第１端末装置１に送信する。代替例として、情報処理装置３ではなく第１端末装置１が翻訳を行ってもよい。別の代替例として、情報処理装置３又は第１端末装置１は、テキストの先頭の所定秒数分又は所定単語数分をバッファに溜める途中で、翻訳元言語の音声において所定秒数（例えば０．３秒）以上の無音部分を検出すると、バッファ内のテキストを全て翻訳してよい。情報処理装置３の制御部３１は、翻訳エンジンとして、例えば次のウェブサイトで提供されるＡＩを利用してよい。
　　　https://cloud.google.com/translate?hl=ja

　制御部１１は、先頭の一文に対応する翻訳先言語のテキストを情報処理装置３から取得すると、テキストに対応する音声を音声合成によって生成する。制御部１１は、音声合成方法として、例えば次のウェブサイトで提供されるＡＩを利用してよい。
　　　https://www.global.toshiba/jp/products-solutions/ai-iot/recaius/lineup/tospeak.html?utm_source=www&utm_medium=web&utm_campaign=since2022tdsl

　制御部１１は、生成された音声を、出力部１７のスピーカから出力する。図７に示されるように制御部１１は、翻訳元言語のテキストの先頭の一文の英語テキスト７１と、対応する翻訳先言語の日本語テキスト７２とを、対にして表示部１４に表示してよい。制御部１１は、英語テキスト７１と日本語テキスト７２とを関連付けて記憶部１３に記憶する。記憶されたデータは、後にコピー又はダウンロードが可能である。制御部１１は、翻訳先言語のテキスト７２を表示することと、翻訳先言語のテキスト７２に対応する音声の出力することと、の少なくとも一方を実行する。追加例として制御部１１は、翻訳元言語の音声の出力（再生）に対して、翻訳先言語のテキストに対応する音声の出力が所定時間以上遅れることを検出すると、翻訳先言語のテキストに対応する音声の再生速度を早めてよい。

　制御部１１は、先頭の一文の秒数又は単語数と同一の秒数分又は単語数分のテキストを記憶部１３のバッファに補充する。例えば、出力済みのテキストの先頭の一文の秒数が２秒である場合、バッファに残るテキストは８秒分である。制御部１１は、テキスト６１に続く後続テキストのうち先頭２秒分のテキストを記憶部１３に溜める。このため、バッファ内のテキストは、８秒分と２秒分との合計で１０秒分である。

　制御部１１は、１０秒分のテキストが溜まったことを検出すると、溜められたテキストの分割点を評価する。一例として、次の分割点６４が図６に示される。よって次に翻訳されるテキストは「A restaurant owners We provide our own drivers and we manage the logistics of delivery」である。分割点の評価方法は上述の通りである。その後に行われる処理（すなわち翻訳、音声出力、テキスト表示、補充等）も上述の通りであるため、ここでの説明は省略される。

　第１端末装置１にて表示される日本語テキスト７２は、第２ユーザＰ２の発話が続く間、更新される。

　追加例として、制御部１１は、近距離無線通信（例えばBluetooth）を利用したマイク付きイヤホンが第１端末装置１に接続されたことを検出すると、第１端末装置１から所定範囲内（例えば所定距離内）で対話の翻訳を行っている１以上の対話グループの一覧を検出して、一覧を表示部１４に表示する。制御部１１は、一覧のうち１つの対話グループに対する選択を第１ユーザＰ１から受け付けると、選択された対話グループ内で発話された音声を取得し、言葉を指定言語のテキストに翻訳してよい。指定言語は、第１ユーザＰ１によって指定される。制御部１１は、指定言語のテキストに対応する音声を生成して、出力部１７を介して出力する。

　図８を参照して、情報処理システムＳにより任意の時点で実行される情報処理方法が説明される。

　ステップＳ１にて第２端末装置２は、第２ユーザＰ２によって発された翻訳元言語の音声を第１端末装置１に送信する。

　ステップＳ２にて第１端末装置１の制御部１１は、音声を認識して、音声に対応するテキストを生成する。ステップＳ３にて制御部１１は、生成されたテキストのうち、先頭１０秒分を記憶部１３のバッファに溜める。ステップＳ４にて制御部１１は、溜められたテキストの分割点を評価して、先頭の一文を検出する。

　ステップＳ５にて制御部１１は、翻訳元言語のテキストを情報処理装置３に送信する。情報処理装置３の制御部３１は、翻訳元言語のテキストを、指定された翻訳先言語のテキストに翻訳する。情報処理装置３の制御部３１は、翻訳先言語のテキストを第１端末装置１に送信する。

　ステップＳ８にて制御部１１は、情報処理装置３から取得したテキストに対応する音声を出力する。ステップＳ９にて制御部３１は、ステップＳ４で検出された先頭の一文の秒数と同じ秒数分のテキストを記憶部１３のバッファに補充する。

　制御部１１は、ステップＳ３以降を再度実行する。

［他の実施形態］
　上記実施形態では、第２ユーザＰ２の発話が日本語に翻訳されて第１端末装置１から出力される。しかし第１端末装置１の制御部１１が実行する処理は、第２端末装置２の制御部２１によっても実行可能である。すなわち、第１ユーザＰ１の発話が英語に翻訳されて、第２端末装置２から出力されることも可能である。この構成により、異なる言語を話す第１ユーザＰ１と第２ユーザＰ２とは対話することができる。

　上記実施形態では、図８のステップＳ２からステップＳ４までとステップＳ９との処理は第１端末装置１において実行される。代替例としてステップＳ２からステップＳ４までとステップＳ９との処理は情報処理装置３によって実行されてよい。どの処理をどの装置で実行させるかは、コスト、言語、プラットフォーム等に応じて任意に変更可能である。

　上記実施形態では、図５に示されるように表示部１４には、英語テキスト５１と、対応する日本語テキスト５２とが表示される。追加例として、図９に示されるように制御部１１は表示部１４において、上記実施形態によって生成された対訳９２に加えて、従来の方法によって生成された対訳９１を表示してよい。従来の方法とは、従来の音声認識エンジンが、第２ユーザＰ２の音声を認識し、認識されたテキストにおける一文の終了を検知し、認識されたテキストを翻訳する方法である。

［効果］
　以上述べたように本実施形態によれば、第１端末装置１の制御部１１は、翻訳元言語の音声を取得することと、音声を認識して、音声に対応するテキストを生成することと、テキストのうち先頭の所定秒数分又は先頭の所定単語数分をバッファに溜めることと、バッファに溜められたテキストの分割点を検出して、テキストの先頭の一文を検出することと、先頭の一文に対応する、翻訳先言語のテキストを取得することと、翻訳先言語のテキストを表示することと、翻訳先言語のテキストに対応する音声を生成して出力することと、の少なくとも一方を実行することと、を含む動作を実行する。この構成により制御部１１は、文章として成立する確率が高い正確な翻訳を実行することができる。更に制御部１１は、翻訳元言語の音声が翻訳されるまでの待ち時間又は間隔を従来よりも短縮することができるので、同時通訳等への利用可能性を高めることができる。

　また本実施形態によれば、制御部１１の動作は、検出された先頭の一文の秒数又は単語数と同一の秒数分又は単語数分のテキストを、バッファに補充することと、補充後のバッファに溜められたテキストの分割点を評価して、テキストの先頭の一文を検出することと、を含む。この構成により第１端末装置１は、正確な翻訳を持続することができる。

　また本実施形態によれば、制御部１１の動作は、分割点を検出できない場合、分割点を検出できるまで、バッファ内のテキストを増加させることを含む。この構成により第１端末装置１は、正確な翻訳の実現性を高めることができる。

　また本実施形態によれば、制御部１１の動作は、テキストのうち先頭の所定秒数分又は先頭の所定単語数分をバッファに溜める途中で、翻訳元言語の音声において所定秒数以上の無音を検出すると、バッファ内の全てのテキストに対応する翻訳先言語のテキストを取得すること、を含む。この構成により第１端末装置１は、正確な翻訳の実現性を高めることができる。

　また本実施形態によれば、制御部１１の動作は、翻訳元言語のテキストの先頭の一文のテキストと、先頭の一文に対応する翻訳先言語のテキストとを、対にして表示することを含む。この構成により第１端末装置１は、具体的な翻訳状況をユーザに通知することができる。

　また本実施形態によれば、制御部１１の動作は、翻訳元言語の音声の出力に対して、翻訳先言語のテキストに対応する音声の出力が所定時間以上遅れることを検出すると、翻訳先言語のテキストに対応する音声の再生速度を早めることを含む。この構成により第１端末装置１は、翻訳元言語の音声が翻訳されるまでの待ち時間又は間隔が長くなることを低減することができる。

　また本実施形態によれば、制御部１１の動作は、近距離無線通信を利用したマイク付きイヤホンが第１端末装置に接続されたことを検出すると、第１端末装置１から所定範囲内で対話の翻訳を行っている１以上の対話グループの一覧を表示することと、一覧のうち１つの対話グループに対する選択を受け付けると、選択された対話グループ内で発話された音声を取得し、音声を指定言語のテキストに翻訳することと、指定言語のテキストに対応する音声を生成して出力することと、を含む。この構成により第１端末装置１は、ユーザが、言語の壁を意識することなく、ハンズフリーで、他のグループの対話に参加することを可能にすることができる。

　本開示が諸図面及び実施例に基づき説明されるが、当業者であれば本開示に基づき種々の変形及び改変を行ってもよいことに注意されたい。その他、本開示の趣旨を逸脱しない範囲での変更が可能である。例えば、各手段又は各ステップに含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の手段又はステップを１つに組み合わせたり、或いは分割したりすることが可能である。

　例えば、上記の実施形態において、第１端末装置１、第２端末装置２、又は情報処理装置３の機能又は処理の全部又は一部を実行するプログラムは、コンピュータで読取り可能な記録媒体に記録しておくことができる。コンピュータで読取り可能な記録媒体は、非一時的なコンピュータ読取可能な媒体を含み、例えば、磁気記録装置、光ディスク、光磁気記録媒体、又は半導体メモリである。プログラムの流通は、例えば、プログラムを記録したＤＶＤ（Digital Versatile Disc）又はＣＤ－ＲＯＭ（Compact Disc Read Only Memory）などの可搬型記録媒体を販売、譲渡、又は貸与することによって行う。またプログラムの流通は、プログラムを任意のサーバのストレージに格納しておき、任意のサーバから他のコンピュータにプログラムを送信することにより行ってもよい。またプログラムはプログラムプロダクトとして提供されてもよい。本開示は、プロセッサが実行可能なプログラムとしても実現可能である。

　コンピュータは、例えば、可搬型記録媒体に記録されたプログラム又はサーバから転送されたプログラムを、一旦、主記憶装置に格納する。そして、コンピュータは、主記憶装置に格納されたプログラムをプロセッサで読み取り、読み取ったプログラムに従った処理をプロセッサで実行する。コンピュータは、可搬型記録媒体から直接プログラムを読み取り、プログラムに従った処理を実行してもよい。コンピュータは、コンピュータにサーバからプログラムが転送される度に、逐次、受け取ったプログラムに従った処理を実行してもよい。サーバからコンピュータへのプログラムの転送は行わず、実行指示及び結果取得のみによって機能を実現する、いわゆるＡＳＰ型のサービスによって処理を実行してもよい。「ＡＳＰ」は、application service providerの略語である。プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるものが含まれる。例えば、コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータは、「プログラムに準ずるもの」に該当する。

Ｓ　　情報処理システム

Claims

　端末装置による情報処理方法であって、
　翻訳元言語の音声を取得することと、
　前記音声を認識して、前記音声に対応するテキストを生成することと、
　前記テキストのうち先頭の所定秒数分又は先頭の所定単語数分をバッファに溜めることと、
　前記バッファに溜められたテキストの分割点を検出して、前記テキストの先頭の一文を検出することと、
　前記先頭の一文に対応する、翻訳先言語のテキストを取得することと、
　前記翻訳先言語のテキストを表示することと、前記翻訳先言語のテキストに対応する音声を生成して出力することと、の少なくとも一方を実行することと、
　を含む、情報処理方法。
　請求項１に記載の情報処理方法において、
　検出された前記先頭の一文の秒数又は単語数と同一の秒数分又は単語数分のテキストを、前記バッファに補充することと、
　補充後のバッファに溜められたテキストの分割点を評価して、前記テキストの先頭の一文を検出することと、
　を含む、情報処理方法。
　請求項１に記載の情報処理方法において、
　前記分割点を検出できない場合、前記分割点を検出できるまで、前記バッファ内のテキストを増加させることを含む、情報処理方法。
　請求項１に記載の情報処理方法において、
　前記テキストのうち先頭の所定秒数分又は先頭の所定単語数分を前記バッファに溜める途中で、前記翻訳元言語の音声において所定秒数以上の無音を検出すると、前記バッファ内の全てのテキストに対応する翻訳先言語のテキストを取得すること、
　を含む情報処理方法。
　請求項１に記載の情報処理方法において、
　前記翻訳元言語のテキストの前記先頭の一文のテキストと、前記先頭の一文に対応する翻訳先言語のテキストとを、対にして表示することを含む、情報処理方法。
　請求項１に記載の情報処理方法において、
　前記翻訳元言語の音声の出力に対して、前記翻訳先言語のテキストに対応する音声の出力が所定時間以上遅れることを検出すると、前記翻訳先言語のテキストに対応する音声の再生速度を早めることを含む、情報処理方法。
　請求項１に記載の情報処理方法において、
　近距離無線通信を利用したマイク付きイヤホンが前記端末装置に接続されたことを検出すると、前記端末装置から所定範囲内で対話の翻訳を行っている１以上の対話グループの一覧を表示することと、
　前記一覧のうち１つの対話グループに対する選択を受け付けると、選択された対話グループ内で発話された音声を取得し、前記音声を指定言語のテキストに翻訳することと、
　前記指定言語のテキストに対応する音声を生成して出力することと、
　を含む情報処理方法。
　コンピュータに、
　翻訳元言語の音声を取得することと、
　前記音声を認識して、前記音声に対応するテキストを生成することと、
　前記テキストのうち先頭の所定秒数分又は先頭の所定単語数分をバッファに溜めることと、
　前記バッファに溜められたテキストの分割点を検出して、前記テキストの先頭の一文を検出することと、
　前記先頭の一文に対応する、翻訳先言語のテキストを取得することと、
　前記翻訳先言語のテキストを表示することと、前記翻訳先言語のテキストに対応する音声を生成して出力することと、の少なくとも一方を実行することと、
　を含む動作を実行させる、プログラム。
　制御部を含む端末装置であって、前記制御部は、
　翻訳元言語の音声を取得することと、
　前記音声を認識して、前記音声に対応するテキストを生成することと、
　前記テキストのうち先頭の所定秒数分又は先頭の所定単語数分をバッファに溜めることと、
　前記バッファに溜められたテキストの分割点を検出して、前記テキストの先頭の一文を検出することと、
　前記先頭の一文に対応する、翻訳先言語のテキストを取得することと、
　前記翻訳先言語のテキストを表示することと、前記翻訳先言語のテキストに対応する音声を生成して出力することと、の少なくとも一方を実行することと、
　を含む動作を実行する、端末装置。
　端末装置と、前記端末装置と通信可能な情報処理装置と、を含む情報処理システムによる情報処理方法であって、
　翻訳元言語の音声を取得することと、
　前記音声を認識して、前記音声に対応するテキストを生成することと、
　前記テキストのうち先頭の所定秒数分又は先頭の所定単語数分をバッファに溜めることと、
　前記バッファに溜められたテキストの分割点を検出して、前記テキストの先頭の一文を検出することと、
　前記先頭の一文に対応する、翻訳先言語のテキストを取得することと、
　前記翻訳先言語のテキストを表示することと、前記翻訳先言語のテキストに対応する音声を生成して出力することと、の少なくとも一方を実行することと、
　を含む、情報処理方法。
　端末装置と、前記端末装置と通信可能な情報処理装置と、を含む情報処理システムであって、
　翻訳元言語の音声を取得することと、
　前記音声を認識して、前記音声に対応するテキストを生成することと、
　前記テキストのうち先頭の所定秒数分又は先頭の所定単語数分をバッファに溜めることと、
　前記バッファに溜められたテキストの分割点を検出して、前記テキストの先頭の一文を検出することと、
　前記先頭の一文に対応する、翻訳先言語のテキストを取得することと、
　前記翻訳先言語のテキストを表示することと、前記翻訳先言語のテキストに対応する音声を生成して出力することと、の少なくとも一方を実行することと、
　を含む動作を実行する、情報処理システム。