WO2021199654A1

WO2021199654A1 - 分割装置

Info

Publication number: WO2021199654A1
Application number: PCT/JP2021/003764
Authority: WO
Inventors: 松岡　保静
Original assignee: 株式会社Ｎｔｔドコモ
Priority date: 2020-04-02
Filing date: 2021-02-02
Publication date: 2021-10-07
Also published as: JPWO2021199654A1; US20230141191A1

Abstract

分割装置は、文字列を処理単位であるチャンクに分割する装置であって、文字列を構成する複数の単語を、文字列の先頭から１単語ずつ取得する取得部と、取得部によって取得された第１単語の手前で文字列を分割することの尤もらしさを示す前方分割尤度、及び第１単語の直後で文字列を分割することの尤もらしさを示す後方分割尤度を算出する第１算出部と、前方分割尤度及び後方分割尤度に基づいて、文字列を分割する位置である分割点を検出する検出部と、分割点において文字列を分割することによって、チャンクを生成する生成部と、チャンクを出力する出力部と、を備える。

Description

分割装置

　本開示は、分割装置に関する。

　発話を音声認識することによって得られる文字列のような順次入力される文字列を機械翻訳するために、文字列を適切な処理単位に分割することが求められる。例えば、特許文献１には、音声認識処理によって得られた確定文字列と、音声認識の処理途中の音声区間に対応する候補文字列と、を連結した文字列に対し、自然言語処理の処理単位の開始位置となり得る形態素の位置を示す分割点で、文字列を処理単位の文字列に分割する処理装置が開示されている。この処理装置は、確定文字列を複数の候補文字列のそれぞれと連結した複数の文字列に対して分割点をそれぞれ検出し、分割点で各文字列を分割することで得られる部分文字列に共通の文字列が含まれる場合、その文字列を処理単位の文字列としている。

特開２０１５－６０１２７号公報

　特許文献１に記載の処理装置においては、複数の文字列が処理されるので、処理に多くの時間を要する可能性がある。したがって、リアルタイムに入力される文字列を同時翻訳しようとした場合、遅延が生じるおそれがある。

　本開示は、処理速度を向上可能な分割装置を説明する。

　本開示の一側面に係る分割装置は、文字列を処理単位であるチャンクに分割する装置である。この分割装置は、文字列を構成する複数の単語を文字列の先頭から１単語ずつ取得する取得部と、取得部によって取得された第１単語の手前で文字列を分割することの尤もらしさを示す前方分割尤度、及び第１単語の直後で文字列を分割することの尤もらしさを示す後方分割尤度を算出する第１算出部と、前方分割尤度及び後方分割尤度に基づいて、文字列を分割する位置である分割点を検出する検出部と、分割点において文字列を分割することによって、チャンクを生成する生成部と、チャンクを出力する出力部と、を備える。

　この分割装置においては、文字列を構成する単語が文字列の先頭から順に取得され、取得された第１単語の手前で文字列を分割することの尤もらしさを示す前方分割尤度、及び第１単語の直後で文字列を分割することの尤もらしさを示す後方分割尤度が算出される。そして、前方分割尤度及び後方分割尤度に基づいて、分割点が検出され、分割点において文字列を分割することによって、チャンクが生成される。１つの第１単語を用いて前方分割尤度及び後方分割尤度が算出されて分割点が検出されるので、複数の文字列を処理する必要が無い。その結果、チャンクを生成するのに要する時間を短縮することができ、処理速度を向上させることが可能となる。

　本開示によれば、処理速度を向上させることができる。

図１は、一実施形態に係る分割装置を含む翻訳システムの概略構成図である。図２は、図１に示される分割装置の機能構成を示すブロック図である。図３は、図１に示される翻訳システムが行う翻訳方法の一連の処理を示すフローチャートである。図４は、図１に示される分割装置が行う分割方法の一連の処理を示すフローチャートである。図５は、図４の分割点検出処理の一例を詳細に示すフローチャートである。図６は、前方分割尤度及び後方分割尤度を算出する処理を説明するための図である。図７は、チャンクを生成する処理を説明するための図である。図８は、図４の分割点検出処理の別の例を詳細に示すフローチャートである。図９は、図１に示される分割装置のハードウェア構成を示す図である。

　以下、添付図面を参照しながら本開示の実施形態を詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。

　図１を参照して、一実施形態に係る分割装置を含む翻訳システムの構成を説明する。図１は、一実施形態に係る分割装置を含む翻訳システムの概略構成図である。図１に示される翻訳システム１は、発話された内容をリアルタイムに翻訳するシステムである。翻訳システム１は、音声認識装置１０と、分割装置２０と、翻訳装置３０と、を備えている。

　音声認識装置１０は、音声信号を文字列（テキストデータ）に変換する装置である。例えば、ユーザがマイクロフォンを用いて発話することによって、マイクロフォンが発話に応じた音声信号を生成する。音声認識装置１０は、音声信号に対して公知の音声認識処理を実施することによって文字列を生成する。音声認識装置１０は、例えば、音響モデル及び言語モデルを用いて、音声認識処理を行う。なお、言語モデルは形態素解析した単位で学習されているので、音声認識装置１０は、単語単位に区切られた文字列を音声認識結果として生成する。音声認識装置１０は、１単語分の音声認識結果を生成するごとに、単語を分割装置２０に順次出力する。

　分割装置２０は、音声認識装置１０から入力される文字列をチャンクに分割する装置である。チャンクとは、後段の処理部において処理される処理単位である。ここでは、後段の処理部は翻訳装置３０であるので、チャンクは、翻訳装置３０が行う翻訳処理に適した処理単位である。分割装置２０の例としては、サーバ装置等の情報処理装置が挙げられる。分割装置２０の詳細については後述する。

　翻訳装置３０は、文字列をチャンク単位で翻訳する装置である。翻訳装置３０は、例えば、同時翻訳（リアルタイム翻訳）装置である。翻訳装置３０は、同時翻訳用の対訳データを用いて、チャンクを翻訳する。翻訳装置３０は、チャンクを入力として受け取り、翻訳結果を出力するように、コンピュータを機能させるための機械翻訳モデルであってもよい。機械翻訳モデルの例としては、ＮＭＴ（Neural　Machine　Translation）モデルが挙げられる。この場合、翻訳装置３０は、同時翻訳用の対訳コーパスに含まれる複数の対訳データのそれぞれを学習データとして用いた機械学習を実行することによって生成される。翻訳装置３０は、チャンクを翻訳した翻訳結果を順次出力する。翻訳装置３０は、例えば、不図示のディスプレイ及びスピーカー等の出力装置に翻訳結果を出力する。

　図２を参照して、分割装置２０の機能構成を説明する。図２は、図１に示される分割装置の機能構成を示すブロック図である。図２に示されるように、分割装置２０は、機能的には、計時部２１と、取得部２２と、算出部２３（第１算出部）と、算出部２４（第２算出部）と、検出部２５と、生成部２６と、出力部２７と、を備えている。後述の分割方法の説明において、各機能部の機能（動作）を詳細に説明するので、ここでは各機能部の機能を簡単に説明する。

　計時部２１は、前回の分割が行われてからの経過時間を計測する機能部である。具体的には、計時部２１は、前回の分割点（後述）が検出されてからの経過時間を計測する。なお、文字列の先頭は、分割点としてみなされ得る。つまり、計時部２１は、文字列において１つも分割点が検出されていない場合には、文字列の先頭からの経過時間を計測する。計時部２１は、検出部２５からリセット指令を受けると、経過時間を０にリセットする。

　取得部２２は、文字列を構成する複数の単語を文字列の先頭から１単語ずつ取得する機能部である。取得部２２は、音声認識装置１０から単語を１つずつ取得する。

　算出部２３は、取得部２２によって取得された単語の前方分割尤度及び後方分割尤度を算出する機能部である。前方分割尤度は、単語の手前で文字列が分割されることの尤もらしさを示す値である。前方分割尤度は、例えば、シグモイド関数値であり、０～１の値を取り得る。前方分割尤度が大きいほど、単語の手前で文字列が分割される可能性が高いことを意味する。後方分割尤度は、単語の直後で文字列が分割されることの尤もらしさを示す値である。後方分割尤度は、例えば、シグモイド関数値であり、０～１の値を取り得る。後方分割尤度が大きいほど、単語の直後で文字列が分割される可能性が高いことを意味する。算出部２３は、例えば、ＤＮＮ（Deep　Neural　Network）を用いて前方分割尤度及び後方分割尤度を算出する。

　算出部２４は、経過時間に基づいてスコアを算出する機能部である。算出部２４は、経過時間が大きくなるにつれてスコアが大きくなるように、スコアを算出する。スコアは、例えば、０～１の値を取る。

　検出部２５は、前方分割尤度及び後方分割尤度に基づいて分割点を検出する機能部である。本実施形態では、検出部２５は、さらにスコアに基づいて分割点を検出する。分割点は、文字列を分割する位置である。検出部２５は、例えば、前方分割尤度のための閾値Ｓｔｈ１（第１閾値）と、後方分割尤度のための閾値Ｓｔｈ２（第２閾値）と、を用いて、分割点を検出する。閾値Ｓｔｈ１及び閾値Ｓｔｈ２は予め定められている。閾値Ｓｔｈ２は、閾値Ｓｔｈ１と同じであってもよく、異なっていてもよい。検出部２５は、分割点を検出すると、計時部２１にリセット指令を出力する。

　生成部２６は、分割点において文字列を分割することによって、チャンクを生成する機能部である。生成部２６は、例えば、文字列の分割点に区切りタグを挿入することによって、文字列を分割し、チャンクを生成する。

　出力部２７は、チャンクを出力する機能部である。出力部２７は、チャンクを翻訳装置３０に送信（出力）する。

　次に、図３～図７を参照して、翻訳システム１が行う翻訳方法を説明する。図３は、図１に示される翻訳システムが行う翻訳方法の一連の処理を示すフローチャートである。図４は、図１に示される分割装置が行う分割方法の一連の処理を示すフローチャートである。図５は、図４の分割点検出処理の一例を詳細に示すフローチャートである。図６は、前方分割尤度及び後方分割尤度を算出する処理を説明するための図である。図７は、チャンクを生成する処理を説明するための図である。図３に示される一連の処理は、例えば、ユーザがマイクロフォンを用いて発話することによって開始される。

　図３に示されるように、まず、音声認識装置１０は、音声信号を取得する（ステップＳ０１）。例えば、音声信号は、マイクロフォンを介してユーザによって入力される。

　続いて、音声認識装置１０は、音声信号に対して音声認識処理を実施する（ステップＳ０２）。音声認識装置１０は、例えば、音響モデル及び言語モデルを用いて、音声認識処理を行う。本実施形態では、言語モデルは形態素解析した単位で学習されているので、音声認識装置１０は、単語単位に区切られた文字列を音声認識結果として生成する。そして、音声認識装置１０は、１単語分の音声認識結果を生成するごとに、単語を分割装置２０に順次送信（出力）する。

　続いて、分割装置２０は、分割処理を行う（ステップＳ０３）。ステップＳ０３では、図４に示されるように、まず計時部２１が経過時間の計測を開始する（ステップＳ３１）。計時部２１は、例えば、分割装置２０が音声認識装置１０から文字列の先頭の単語を受信することによって、経過時間の計測を開始する。そして、取得部２２は、音声認識装置１０によって送信された単語（対象単語）を取得する（ステップＳ３２）。そして、取得部２２は、対象単語（第１単語）を算出部２３及び生成部２６に出力する。

　続いて、算出部２３は、取得部２２から対象単語を受け取ると、対象単語の前方分割尤度及び後方分割尤度を算出する（ステップＳ３３）。例えば、算出部２３は、ＤＮＮを用いて対象単語の前方分割尤度及び後方分割尤度を算出する。図６に示されるように、本実施形態では、算出部２３は、ＤＮＮのアーキテクチャとして、ＬＳＴＭ（Long　Short-Term　Memory）を用いる。ＬＳＴＭは、ＲＮＮ（Recurrent　Neural　Network）の一種である。ＬＳＴＭは、複数の要素が配列された時系列データの各要素を順に入力として受け取り、既に入力された要素の影響を出力に及ぼすように構成されているニューラルネットワークである。

　図６に示されるように、ＬＳＴＭには当該ＬＳＴＭの出力が再帰的に入力されるので、ＬＳＴＭは、一列に並べられた複数のブロックＢとして模式的に表現され得る。各ブロックＢは、１つの単語を入力として受け取り、その単語の前方分割尤度及び後方分割尤度を出力するＬＳＴＭ層である。各ブロックＢは、そのブロックＢ以前のブロックＢに入力された単語の影響を及ぼすための値を後段のブロックＢに出力する。後段のブロックＢには、ブロックＢに入力された単語の次に続く単語が入力される。ＬＳＴＭは、チャンクに分割された複数の文字列を用いて、事前に学習されている。例えば、文字列の各単語を入力とし、文字列に含まれる分割点の直前に位置する単語の後方分割尤度を１とし、分割点の直後に位置する単語の前方分割尤度を１とし、それ以外の分割尤度を０とした教師データを用いて、ＬＳＴＭが学習される。

　算出部２３は、対象単語をＬＳＴＭのブロックＢの先頭から逐次入力する。そして、対象単語が入力されたブロックＢは、対象単語の前方分割尤度及び後方分割尤度を出力する。そして、算出部２３は、対象単語の前方分割尤度及び後方分割尤度を検出部２５に出力する。

　続いて、算出部２４は、計時部２１から経過時間を示す情報を受け取り、経過時間に基づいてスコアを算出する（ステップＳ３４）。具体的には、算出部２４は、経過時間が大きくなるにつれてスコアが大きくなるように、スコアを算出する。ここでは、算出部２４は、経過時間が大きくなるにつれてスコアを線形に増加するスコアリング手法を用いて、スコアを算出する。例えば、少なくとも５秒当たりに１回の頻度でチャンクを生成することを目的とする場合には、算出部２４は、経過時間が０秒から５秒まで増加するにつれて、スコアを０から１まで線形に増加させる。そして、算出部２４は、スコアを検出部２５に出力する。

　続いて、検出部２５は、算出部２３から対象単語の前方分割尤度及び後方分割尤度を受け取り、算出部２４からスコアを受け取ると、文字列における分割点を検出する（ステップＳ３５）。ステップＳ３５では、検出部２５は、まず対象単語の前方分割尤度を閾値Ｓｔｈ１と比較し、前方分割尤度が閾値Ｓｔｈ１以上であるか閾値Ｓｔｈ１未満であるかを判定する（ステップＳ５１）。検出部２５は、前方分割尤度が閾値Ｓｔｈ１以上であると判定した場合（ステップＳ５１；ＹＥＳ）、当該対象単語の手前を分割点として検出する（ステップＳ５２）。対象単語の手前とは、対象単語と当該対象単語の１つ前の単語（第２単語）との間を意味する。そして、検出部２５は、ステップＳ５２において検出された分割点の位置を示す情報を生成部２６に出力するとともに計時部２１にリセット指令を出力し、ステップＳ３５の分割点検出処理が終了する。

　一方、検出部２５は、前方分割尤度が閾値Ｓｔｈ１未満であると判定した場合（ステップＳ５１；ＮＯ）、対象単語の後方分割尤度とスコアとに基づいて、修正後方分割尤度を算出する。ここでは、検出部２５は、対象単語の後方分割尤度にスコアを加えることによって修正後方分割尤度を算出する。そして、検出部２５は、修正後方分割尤度を閾値Ｓｔｈ２と比較し、修正後方分割尤度が閾値Ｓｔｈ２以上であるか閾値Ｓｔｈ２未満であるかを判定する（ステップＳ５３）。

　検出部２５は、修正後方分割尤度が閾値Ｓｔｈ２以上であると判定した場合（ステップＳ５３；ＹＥＳ）、当該対象単語の直後を分割点として検出する（ステップＳ５４）。対象単語の直後とは、対象単語と当該対象単語の１つ後の単語（第３単語）との間を意味する。そして、検出部２５は、ステップＳ５４において検出された分割点の位置を示す情報を生成部２６に出力するとともに計時部２１にリセット指令を出力し、ステップＳ３５の分割点検出処理が終了する。

　一方、検出部２５は、修正後方分割尤度が閾値Ｓｔｈ２未満であると判定した場合（ステップＳ５３；ＮＯ）、対象単語の前後には分割点は無いと判定する。そして、取得部２２は、次の対象単語を取得する（ステップＳ３２）。以降、ステップＳ３３～Ｓ３５が再び行われる。

　例えば、図６に示される例において、閾値Ｓｔｈ１及び閾値Ｓｔｈ２がいずれも０．８５に設定されているとする。この場合、単語「ｆｒｏｍ」の前方分割尤度が０．９であるので、単語「ｍｉｎｕｔｅｓ」と単語「ｆｒｏｍ」との間が分割点として検出される。

　続いて、生成部２６は、検出部２５から分割点の位置を示す情報を受け取ると、チャンクを生成する（ステップＳ３６）。具体的に説明すると、図７に示されるように、生成部２６は、取得部２２によって順に取得された単語を取得順に配列し、分割点の位置に分割点を示す区切りタグＳｔａｇを挿入する。図７の例では、区切りタグＳｔａｇとして、文字列＜ｓｅｐ＞が用いられている。この構成によって、文字列の先頭と１つ目の区切りタグＳｔａｇとの間の文字列、及び２つの区切りタグＳｔａｇに挟まれた文字列がそれぞれチャンクとして生成される。そして、生成部２６は、チャンクを生成するごとに（区切りタグＳｔａｇを挿入するごとに）、チャンクを出力部２７に出力する。

　続いて、出力部２７は、生成部２６によって生成されたチャンク（区切りタグＳｔａｇを含む文字列）を受け取ると、チャンク（区切りタグＳｔａｇを含む文字列）を翻訳装置３０に送信（出力）する（ステップＳ３７）。出力部２７は、文字列に含まれるチャンクだけを１つずつ翻訳装置３０に送信してもよい。以上により、ステップＳ０３の分割処理が終了する。

　続いて、翻訳装置３０は、分割装置２０からチャンクを受信すると、チャンクを翻訳する（ステップＳ０４）。そして、翻訳装置３０は、翻訳結果を順次出力する（ステップＳ０５）。翻訳装置３０は、例えば、不図示のディスプレイ及びスピーカー等の出力装置に翻訳結果を出力する。

　以上により、翻訳方法の一連の処理が終了する。なお、ステップＳ５１では、検出部２５は、前方分割尤度が閾値Ｓｔｈ１以上であるか否かを判定しているが、前方分割尤度が閾値Ｓｔｈ１よりも大きいか否かを判定してもよい。同様に、ステップＳ５３において、検出部２５は、修正後方分割尤度が閾値Ｓｔｈ２以上であるか否かを判定しているが、修正後方分割尤度が閾値Ｓｔｈ２よりも大きいか否かを判定してもよい。

　つまり、検出部２５は、前方分割尤度が閾値Ｓｔｈ１よりも大きいという条件が少なくとも満たされている場合には、対象単語と対象単語の１つ前の単語との間を分割点として検出する。検出部２５は、前方分割尤度が閾値Ｓｔｈ１よりも小さく、かつ、後方分割尤度にスコアを加えることによって得られる修正後方分割尤度が閾値Ｓｔｈ２よりも大きいという条件が少なくとも満たされている場合には、対象単語と対象単語の１つ後の単語との間を分割点として検出する。

　スコアはステップＳ５３において用いられるので、ステップＳ３４は、ステップＳ３２において対象単語が取得された後、ステップＳ５３の判定が行われる前であれば、どのタイミングで行われてもよい。ステップＳ５１において前方分割尤度が閾値Ｓｔｈ１以上であると判定された場合には、ステップＳ３４は省略されてもよい。

　以上説明した分割装置２０においては、文字列を構成する単語が文字列の先頭から順に取得され、取得された対象単語の手前で文字列を分割することの尤もらしさを示す前方分割尤度、及び対象単語の直後で文字列を分割することの尤もらしさを示す後方分割尤度が算出される。そして、前方分割尤度及び後方分割尤度に基づいて、分割点が検出され、分割点において文字列を分割することによって、チャンクが生成される。ストリーミングのような順次（リアルタイムに）入力される文字列をチャンクに分割する場合、文章（文字列）全体を見てチャンクに分割することができない。分割装置２０においては、１つの対象単語を用いて前方分割尤度及び後方分割尤度が算出されて分割点が検出されるので、文字列全体を取得する必要が無く、また複数の文字列を処理する必要も無い。その結果、チャンクを生成するのに要する時間を短縮することができ、処理速度を向上させることが可能となる。

　一般に、対象単語の次の単語が取得されていない状況においては、後方分割尤度の算出精度よりも前方分割尤度の算出精度の方が高い。したがって、前方分割尤度を用いることによって、分割点の検出精度を向上させることができる。一方、意味のまとまりがある単位で話者が発話を休止することがあるので、文字列の途中で後続の単語がすぐに入力されない場合がある。このような場合、対象単語の直後に分割点があったとしても、次の単語が入力されるまで前方分割尤度が算出されない。これに対して、後方分割尤度を用いることによって、分割点を即座に検出することが可能となる。その結果、翻訳装置３０の翻訳処理に適したチャンクを生成するとともに、チャンクを生成するのに要する時間を短縮することが可能となる。

　検出部２５は、前方分割尤度が閾値Ｓｔｈ１よりも大きい場合に、対象単語と対象単語の１つ前の単語との間を分割点として検出する。上述のように、対象単語の次の単語が取得されていない状況においては、後方分割尤度の算出精度よりも前方分割尤度の算出精度の方が高い。したがって、上記構成によれば、前方分割尤度を用いて、対象単語と対象単語の１つ前の単語との間の分割点が検出されるので、分割点の検出精度を向上させることができる。その結果、翻訳装置３０の翻訳処理に一層適したチャンクを生成することが可能となる。

　上述のように、文字列の途中で後続の単語がすぐに入力されない場合がある。このような場合、対象単語の直後に分割点があったとしても、次の単語が入力されるまで前方分割尤度が算出されない。検出部２５は、後方分割尤度にスコアを加えることによって得られる修正後方分割尤度が閾値Ｓｔｈ２よりも大きい場合には、対象単語と対象単語の１つ後の単語との間を分割点として検出する。この構成によれば、リアルタイムに入力される文字列に対して、経過時間を考慮しながら分割点が検出される。したがって、チャンクを生成するのに要する時間を短縮することが可能となる。その結果、途切れなく訳出するための同時翻訳（同時通訳）に適したチャンクを生成することが可能となる。

　算出部２３は、ＬＳＴＭを用いて、前方分割尤度及び後方分割尤度を算出する。この構成によれば、対象単語よりも前に出現する単語を考慮して、対象単語の前方分割尤度及び後方分割尤度が算出される。したがって、前方分割尤度及び後方分割尤度の精度を向上させることができるので、翻訳装置３０の翻訳処理に一層適したチャンクを生成することが可能となる。

　以上、本開示の実施形態について説明したが、本開示は上記実施形態に限定されない。

　分割装置２０は、物理的又は論理的に結合した１つの装置によって構成されてもよく、互いに物理的又は論理的に分離している複数の装置によって構成されてもよい。例えば、分割装置２０は、クラウドコンピューティングのようにネットワーク上に分散された複数のコンピュータによって実現されてもよい。以上のように、分割装置２０の構成は、分割装置２０の機能を実現し得るいかなる構成をも含み得る。

　検出部２５は、対象単語の後方分割尤度にスコアを加えることによって修正後方分割尤度を算出しているが、対象単語の後方分割尤度にスコアを乗じることによって修正後方分割尤度を算出してもよい。

　検出部２５は、対象単語の前方分割尤度とスコアとに基づいて修正前方分割尤度を算出してもよい。例えば、検出部２５は、対象単語の前方分割尤度にスコアを加えることによって修正前方分割尤度を算出してもよい。この場合、検出部２５は、修正前方分割尤度を用いてステップＳ５１の判定を行ってもよい。

　分割装置２０は、計時部２１及び算出部２４を備えていなくてもよい。この場合、検出部２５は、経過時間を考慮することなく、対象単語の前方分割尤度及び後方分割尤度に基づいて、分割点を検出する。この構成においては、検出部２５は、対象単語の前方分割尤度が閾値Ｓｔｈ１よりも大きい（又は閾値Ｓｔｈ１以上である）場合、対象単語と対象単語の１つ前の単語との間を分割点として検出する。検出部２５は、前方分割尤度が閾値Ｓｔｈ１以下であり（又は閾値Ｓｔｈ１よりも小さく）、かつ、後方分割尤度が閾値Ｓｔｈ２よりも大きい（又は閾値Ｓｔｈ２以上である）場合に、対象単語と対象単語の１つ後の単語との間を分割点として検出する。上述のように、文字列の途中で後続の単語がすぐに入力されない場合でも、後方分割尤度を用いることによって、分割点を即座に検出することができる。したがって、チャンクを生成するのに要する時間を短縮することが可能となる。その結果、途切れなく訳出するための同時翻訳に適したチャンクを生成することが可能となる。

　同時翻訳では、訳出を途切れさせないために適切な長さごとに文字列を分割する必要がある。したがって、所定の経過時間が過ぎても、文字列の先頭又は前回の分割点以降で分割点が検出されていない場合には、検出部２５は、分割点を検出してもよい。

　図８は、図４の分割点検出処理の別の例を詳細に示すフローチャートである。図８に示される分割点検出処理は、ステップＳ５５及びステップＳ５６をさらに含む点において、図５に示される分割点検出処理と主に相違する。具体的に説明すると、ステップＳ５３において、検出部２５は、修正後方分割尤度が閾値Ｓｔｈ２未満であると判定した場合（ステップＳ５３；ＮＯ）、さらに経過時間を閾値Ｔｔｈと比較し、経過時間が閾値Ｔｔｈ（第３閾値）以上であるか閾値Ｔｔｈ未満であるかを判定する（ステップＳ５５）。閾値Ｔｔｈは、後段の処理部（翻訳装置３０）が許容できる最大の待ち時間であって、予め定められている。

　検出部２５は、経過時間が閾値Ｔｔｈ以上であると判定した場合には（ステップＳ５５；ＹＥＳ）、前回の分割点以降の各単語の前方分割尤度、及び最後に取得された単語の後方分割尤度のうちで最も大きい分割尤度に対応した位置を分割点として検出する（ステップＳ５６）。文字列の先頭から１つの分割点も検出されていない場合には、文字列の先頭が前回の分割点とみなされる。つまり、検出部２５は、文字列の先頭以降の各単語の前方分割尤度、及び最後に取得された単語の後方分割尤度のうちで最も大きい分割尤度に対応した位置を分割点として検出する。

　ある単語の前方分割尤度が最も大きい場合、検出部２５は、その単語とその単語の１つ前の単語との間を分割点として検出する。検出部２５は、最後に取得された単語の後方分割尤度が最も大きい場合、最後の単語とその単語の１つ後の単語との間を分割点として検出する。そして、検出部２５は、ステップＳ５６において検出された分割点の位置を示す情報を生成部２６に出力するとともに計時部２１にリセット指令を出力し、ステップＳ３５の分割点検出処理が終了する。

　一方、ステップＳ５５において、検出部２５は、経過時間が閾値Ｔｔｈ未満であると判定した場合（ステップＳ５５；ＮＯ）、対象単語の前後には分割点は無いと判定する。そして、取得部２２は、次の対象単語を取得する（ステップＳ３２）。以降、ステップＳ３３～Ｓ３５が再び行われる。

　なお、ステップＳ５５では、検出部２５は、経過時間が閾値Ｔｔｈ以上であるか否かを判定しているが、経過時間が閾値Ｔｔｈよりも大きいか否かを判定してもよい。つまり、検出部２５は、経過時間が閾値Ｔｔｈよりも大きいという条件が少なくとも満たされている場合には、ステップＳ５６の処理を行う。

　この構成によれば、経過時間が閾値Ｔｔｈに達すると、分割点が必ず検出される。したがって、後段の処理部（翻訳装置３０）が処理待ちになることを回避することができる。その結果、途切れなく訳出するための同時翻訳に適したチャンクを生成することが可能となる。

　翻訳装置３０から出力された翻訳結果が音声によって再生される場合、算出部２４は、１つ前のチャンクの翻訳結果の再生が終了した時点で、スコアを０から１に変更してもよい。この構成によれば、１つ前のチャンクの翻訳結果の再生が終了するまでに、分割点が検出されなかったとしても、再生終了時の対象単語とその対象単語の１つ後の単語との間が分割点として検出される。したがって、後段の処理部（翻訳装置３０）が処理待ちになることを回避することができる。その結果、途切れなく訳出するための同時翻訳に適したチャンクを生成することが可能となる。

　なお、上記実施形態の説明に用いられたブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した１つの装置を用いて実現されてもよいし、物理的又は論理的に分離した２つ以上の装置を直接的又は間接的に（例えば、有線、無線などを用いて）接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記１つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。

　機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知（broadcasting）、通知（notifying）、通信（communicating）、転送（forwarding）、構成（configuring）、再構成（reconfiguring）、割り当て（allocating、mapping）、及び割り振り（assigning）などがあるが、これらの機能に限られない。たとえば、送信を機能させる機能ブロック（構成部）は、送信部（transmitting　unit）又は送信機（transmitter）と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。

　例えば、本開示の一実施形態における分割装置２０は、本開示の処理を行うコンピュータとして機能してもよい。図９は、本開示の一実施形態に係る分割装置２０のハードウェア構成の一例を示す図である。上述の分割装置２０は、物理的には、プロセッサ１００１、メモリ１００２、ストレージ１００３、通信装置１００４、入力装置１００５、出力装置１００６、及びバス１００７などを含むコンピュータ装置として構成されてもよい。

　なお、以下の説明では、「装置」という文言は、回路、デバイス、及びユニットなどに読み替えることができる。分割装置２０のハードウェア構成は、図に示された各装置を１つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。

　分割装置２０における各機能は、プロセッサ１００１及びメモリ１００２などのハードウェア上に所定のソフトウェア（プログラム）を読み込ませることによって、プロセッサ１００１が演算を行い、通信装置１００４による通信を制御したり、メモリ１００２及びストレージ１００３におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。

　プロセッサ１００１は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ１００１は、周辺装置とのインターフェース、制御装置、演算装置、及びレジスタなどを含む中央処理装置（ＣＰＵ：Central　Processing　Unit）によって構成されてもよい。例えば、上述の分割装置２０の各機能は、プロセッサ１００１によって実現されてもよい。

　プロセッサ１００１は、プログラム（プログラムコード）、ソフトウェアモジュール、及びデータなどを、ストレージ１００３及び通信装置１００４の少なくとも一方からメモリ１００２に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態において説明された動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、分割装置２０の各機能は、メモリ１００２に格納され、プロセッサ１００１において動作する制御プログラムによって実現されてもよい。上述の各種処理は、１つのプロセッサ１００１によって実行される旨を説明してきたが、２以上のプロセッサ１００１により同時又は逐次に実行されてもよい。プロセッサ１００１は、１以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されてもよい。

　メモリ１００２は、コンピュータ読み取り可能な記録媒体であり、例えば、ＲＯＭ（Read　Only　Memory）、ＥＰＲＯＭ（Erasable　Programmable　ＲＯＭ）、ＥＥＰＲＯＭ（Electrically　Erasable　Programmable　ＲＯＭ）、及びＲＡＭ（Random　Access　Memory）などの少なくとも１つによって構成されてもよい。メモリ１００２は、レジスタ、キャッシュ、又はメインメモリ（主記憶装置）などと呼ばれてもよい。メモリ１００２は、本開示の一実施形態に係る分割方法を実施するために実行可能なプログラム（プログラムコード）、ソフトウェアモジュールなどを保存することができる。

　ストレージ１００３は、コンピュータ読み取り可能な記録媒体であり、例えば、ＣＤ－ＲＯＭ（Compact　Disc　ＲＯＭ）などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク（例えば、コンパクトディスク、デジタル多用途ディスク、Ｂｌｕ－ｒａｙ（登録商標）ディスク）、スマートカード、フラッシュメモリ（例えば、カード、スティック、キードライブ）、フロッピー（登録商標）ディスク、及び磁気ストリップなどの少なくとも１つによって構成されてもよい。ストレージ１００３は、補助記憶装置と呼ばれてもよい。上述の記録媒体は、例えば、メモリ１００２及びストレージ１００３の少なくとも一方を含むデータベース、サーバ、その他の適切な媒体であってもよい。

　通信装置１００４は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。通信装置１００４は、例えば周波数分割複信（ＦＤＤ：Frequency　Division　Duplex）及び時分割複信（ＴＤＤ：Time　Division　Duplex）の少なくとも一方を実現するために、高周波スイッチ、デュプレクサ、フィルタ、及び周波数シンセサイザなどを含んで構成されてもよい。例えば、上述の取得部２２、及び出力部２７などは、通信装置１００４によって実現されてもよい。

　入力装置１００５は、外部からの入力を受け付ける入力デバイス（例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど）である。出力装置１００６は、外部への出力を実施する出力デバイス（例えば、ディスプレイ、スピーカー、ＬＥＤランプなど）である。なお、入力装置１００５及び出力装置１００６は、一体となった構成（例えば、タッチパネル）であってもよい。

　プロセッサ１００１及びメモリ１００２などの各装置は、情報を通信するためのバス１００７によって接続される。バス１００７は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。

　分割装置２０は、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ：Digital　Signal　Processor）、ＡＳＩＣ（Application　Specific　Integrated　Circuit）、ＰＬＤ（Programmable　Logic　Device）、ＦＰＧＡ（Field　Programmable　Gate　Array）などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ１００１は、これらのハードウェアの少なくとも１つを用いて実装されてもよい。

　情報の通知は、本開示において説明された態様／実施形態に限られず、他の方法を用いて行われてもよい。

　本開示において説明された各態様／実施形態の処理手順、シーケンス、及びフローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明された方法については、例示的な順序を用いて様々なステップの要素が提示されており、提示された特定の順序に限定されない。

　情報等は、上位レイヤから下位レイヤへ、又は、下位レイヤから上位レイヤへ出力され得る。情報等は、複数のネットワークノードを介して入出力されてもよい。

　入出力された情報等は特定の場所（例えば、メモリ）に保存されてもよいし、管理テーブルを用いて管理されてもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。

　判定は、１ビットで表される値（０か１か）によって行われてもよいし、真偽値（Boolean：true又はfalse）によって行われてもよいし、数値の比較（例えば、所定の値との比較）によって行われてもよい。

　本開示において説明された各態様／実施形態は単独で用いられてもよいし、組み合わせて用いられてもよいし、実行に伴って切り替えて用いられてもよい。所定の情報の通知（例えば、「Ｘであること」の通知）は、明示的な通知に限られず、暗黙的に（例えば、当該所定の情報の通知を行わないことによって）行われてもよい。

　以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明された実施形態に限定されないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施されることができる。したがって、本開示の記載は、例示説明を目的とし、本開示に対して何ら制限的な意味を有しない。

　ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

　ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術（同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ：Digital　Subscriber　Line）など）及び無線技術（赤外線、マイクロ波など）の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。

　本開示において説明された情報、及び信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、及びチップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。

　なお、本開示において説明された用語及び本開示の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えられてもよい。

　本開示において使用される「システム」及び「ネットワーク」という用語は、互換的に使用される。

　本開示において説明された情報、及びパラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。

　上述されたパラメータに使用される名称はいかなる点においても限定的な名称ではない。さらに、これらのパラメータを使用する数式等は、本開示で明示的に開示された内容と異なる場合もある。

　本開示で使用される「判断（determining）」、及び「決定（determining）」という用語は、多種多様な動作を包含する場合がある。「判断」、及び「決定」は、例えば、判定（judging）、計算（calculating）、算出（computing）、処理（processing）、導出（deriving）、調査（investigating）、探索（looking　up、search、inquiry）（例えば、テーブル、データベース又は別のデータ構造での探索）、確認（ascertaining）した事を「判断」「決定」したとみなす事などを含み得る。「判断」、及び「決定」は、受信（receiving）（例えば、情報を受信すること）、送信（transmitting）（例えば、情報を送信すること）、入力（input）、出力（output）、アクセス（accessing）（例えば、メモリ中のデータにアクセスすること）した事を「判断」「決定」したとみなす事などを含み得る。「判断」、及び「決定」は、解決（resolving）、選択（selecting）、選定（choosing）、確立（establishing）、比較（comparing）などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。「判断（決定）」は、「想定する（assuming）」、「期待する（expecting）」、又は「みなす（considering）」などで読み替えられてもよい。

　「接続された（connected）」、「結合された（coupled）」という用語、又はこれらのあらゆる変形は、２又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された２つの要素間に１又はそれ以上の中間要素が存在することを含んでもよい。要素間の結合又は接続は、物理的に行われてもよく、論理的に行われてもよく、或いはこれらの組み合わせで実現されてもよい。例えば、「接続」は「アクセス」で読み替えられてもよい。本開示で「接続」又は「結合」が使用される場合、接続又は結合される２つの要素は、１又はそれ以上の電線、ケーブル及びプリント電気接続の少なくとも一つを用いて、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光（可視及び不可視の両方）領域の波長を有する電磁エネルギーなどを用いて、互いに「接続」又は「結合」されると考えることができる。

　本開示において使用される「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

　本開示において使用される「第１の」、及び「第２の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定しない。これらの呼称は、２つ以上の要素間を区別する便利な方法として本開示において使用され得る。したがって、第１及び第２の要素への参照は、２つの要素のみが採用され得ること、又は何らかの形で第１の要素が第２の要素に先行しなければならないことを意味しない。

　上記の各装置の構成における「部」は、「回路」、又は「デバイス」等に置き換えられてもよい。

　本開示において、「含む（include）」、「含んでいる（including）」及びそれらの変形が使用されている場合、これらの用語は、用語「備える（comprising）」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は（or）」は、排他的論理和ではないことが意図される。

　本開示において、例えば、英語での「a」,「an」及び「the」のように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。

　本開示において、「ＡとＢが異なる」という用語は、「ＡとＢが互いに異なる」ことを意味してもよい。なお、当該用語は、「ＡとＢがそれぞれＣと異なる」ことを意味してもよい。「離れる」、及び「結合される」などの用語も、「異なる」と同様に解釈されてもよい。

　１…翻訳システム、１０…音声認識装置、２０…分割装置、２１…計時部、２２…取得部、２３…算出部（第１算出部）、２４…算出部（第２算出部）、２５…検出部、２６…生成部、２７…出力部、３０…翻訳装置、１００１…プロセッサ、１００２…メモリ、１００３…ストレージ、１００４…通信装置、１００５…入力装置、１００６…出力装置、１００７…バス。

Claims

　文字列を処理単位であるチャンクに分割する分割装置であって、
　前記文字列を構成する複数の単語を、前記文字列の先頭から１単語ずつ取得する取得部と、
　前記取得部によって取得された第１単語の手前で前記文字列を分割することの尤もらしさを示す前方分割尤度、及び前記第１単語の直後で前記文字列を分割することの尤もらしさを示す後方分割尤度を算出する第１算出部と、
　前記前方分割尤度及び前記後方分割尤度に基づいて、前記文字列を分割する位置である分割点を検出する検出部と、
　前記分割点において前記文字列を分割することによって、前記チャンクを生成する生成部と、
　前記チャンクを出力する出力部と、
を備える、分割装置。
　前記検出部は、前記前方分割尤度が予め定められた第１閾値よりも大きい場合に、前記第１単語と前記第１単語の１つ前の第２単語との間を前記分割点として検出する、請求項１に記載の分割装置。
　前記検出部は、前記前方分割尤度が前記第１閾値よりも小さく、かつ、前記後方分割尤度が予め定められた第２閾値よりも大きい場合に、前記第１単語と前記第１単語の１つ後の第３単語との間を前記分割点として検出する、請求項２に記載の分割装置。
　前回の分割点が検出されてからの経過時間を計測する計時部と、
　前記経過時間に基づいて、スコアを算出する第２算出部と、
をさらに備え、
　前記検出部は、前記前方分割尤度が前記第１閾値よりも小さく、かつ、前記後方分割尤度及び前記スコアに基づいて得られる値が予め定められた第２閾値よりも大きい場合に、前記第１単語と前記第１単語の１つ後の第３単語との間を前記分割点として検出する、請求項２に記載の分割装置。
　前記検出部は、前記経過時間が予め定められた第３閾値よりも大きい場合、前回の分割点以降の各単語の前記前方分割尤度、及び最後に取得された単語の前記後方分割尤度のうちで最も大きい分割尤度に対応した位置を前記分割点として検出する、請求項４に記載の分割装置。
　前記第１算出部は、ＬＳＴＭ（Long　Short-Term　Memory）を用いて、前記前方分割尤度及び前記後方分割尤度を算出する、請求項１～請求項５のいずれか一項に記載の分割装置。