WO2016151761A1

WO2016151761A1 - 音訳支援装置、音訳支援方法及び音訳支援プログラム

Info

Publication number: WO2016151761A1
Application number: PCT/JP2015/058924
Authority: WO
Inventors: 平芦川; 布目　光生; 由加黒田; 良彰水岡
Original assignee: 株式会社東芝
Priority date: 2015-03-24
Filing date: 2015-03-24
Publication date: 2016-09-29
Also published as: US10373606B2; JPWO2016151761A1; US20170140749A1; JP6392445B2

Abstract

　取得部が、音訳するテキストを取得すると、付与部が、テキストの音訳設定を示す音訳タグをテキストに付与する。抽出部は、音訳タグで示される音訳設定のうち、頻出する頻出音訳設定と、頻出音訳設定をテキストに適応する際の適応条件とを関連付けた音訳パターンを抽出する。そして、作成部が、音訳パターンを用いて合成音声を作成し、再生部が、作成された合成音声を再生する。これにより、音訳作業の効率化を図ることができる。

Description

音訳支援装置、音訳支援方法及び音訳支援プログラム

　本発明の実施の形態は、音訳支援装置、音訳支援方法及び音訳支援プログラムに関する。

　従来、テキストを音声化する際、音訳支援装置を用いることで、音訳作業の効率化が図られている。具体的には、従来の音訳支援装置は、音声合成の対象となるテキストを編集した際に、まず、編集前後の各テキストに対して、形態素解析及び表音文字列生成を行う。次に、従来の音訳支援装置は、形態素解析の結果から、テキストの編集が、合成音声の読み又はアクセントを修正するための編集か否かを判定する。

　そして、従来の音訳支援装置は、テキストの編集が、合成音声の読み又はアクセントを修正するための編集であると判定した場合に、編集内容を示す編集履歴データを作成して記憶部に記憶する。次に、従来の音訳支援装置は、作業者から音声の誤りが指摘された場合、修正するために実施すべきテキスト編集の編集内容を編集履歴データから検索し、検索できた場合にテキストを自動的に再編集する。

特許第５４２３４６６号公報

　しかし、従来の音訳支援技術は、記憶部に記憶された編集履歴データで示される、過去に修正されたテキストと同じテキストが修正の対象となる。このため、従来の音訳支援装置は、似たような読み、アクセント、ポーズ位置又は音声合成パラメタの修正を繰り返し行う必用があり、音訳作業を効率良く行うことが困難な問題があった。

　実施の形態の音訳支援装置は、取得部が、音訳するテキストを取得すると、付与部が、テキストの音訳設定を示す音訳タグをテキストに付与する。抽出部は、音訳タグで示される音訳設定のうち、頻出する頻出音訳設定と、頻出音訳設定をテキストに適応する際の適応条件とを関連付けた音訳パターンを抽出する。そして、作成部が、音訳パターンを用いて合成音声を作成し、再生部が、作成された合成音声を再生する。

図１は、第１の実施の形態の音訳支援装置のハードウェア構成図である。図２は、第１の実施の形態の音訳支援装置の機能ブロック図である。図３は、第１の実施の形態の音訳支援装置の音訳支援動作の流れを示すフローチャートである。図４は、第１の実施の形態の音訳支援装置における音訳パターンの選択画面を示す図である。図５は、第１の実施の形態の音訳支援装置で取得されるテキストの一例を示す図である。図６は、第１の実施の形態の音訳支援装置において、音訳タグが付与されたテキストの一例を示す図である。図７は、第１の実施の形態の音訳支援装置により表示される、音訳設定を行うための音訳作業画面の一例を示す図である。図８は、音訳タグを非表示とした音訳作業画面を示す図である。図９は、各音訳パターンの適応条件及び音訳設定の組み合わせの一例を示す図である。図１０は、第２の実施の形態の音訳支援装置のハードウェア構成図である。図１１は、第２の実施の形態の音訳支援装置の音訳支援動作の流れを示すフローチャートである。図１２は、第２の実施の形態の音訳支援装置で用いられる音訳履歴データの例を示す図である。図１３は、第３の実施の形態の音訳支援装置のハードウェア構成図である。図１４は、第３の実施の形態の音訳支援装置で表示される外部データ選択画面の例を示す図である。図１５は、第３の実施の形態の音訳支援装置で表示される外部データ作成画面の例を示す図である。

　以下、実施の形態の音訳支援装置を、図面を参照しながら詳細に説明する。

　（第１の実施の形態）
　第１の実施の形態の音訳支援装置は、例えばテキストとテキストに対応する合成音声が含まれる電子書籍（オーディオブック又はＤＡＩＳＹ規格データ等）の作成作業に用いられる。ＤＡＩＳＹは、「Digital　Accessible　Information　System」の略記である。また、以下に説明する音訳作業とは、入力されたテキストに対応する合成音声を作成し、また、作成された合成音声の読み、アクセント、ポーズ等の修正を行う作業を意味する。

　（第１の実施の形態の構成）
　図１は、第１の実施の形態の音訳支援装置のブロック図である。一例ではあるが、実施の形態の音訳支援装置は、いわゆるパーソナルコンピュータ装置で実現できる。なお、これに限定されず、他の装置で実施の形態の音訳支援装置を実現してもよい。この例においては、音訳支援装置は、図１に示すように、ＣＰＵ１、ＲＯＭ２、ＲＡＭ３、通信部４、ＨＤＤ５、表示部６及び操作部７を備えている。ＣＰＵ１～操作部７は、それぞれバスライン８を介して相互に接続されている。

　ＣＰＵは、「Central　Processing　Unit」の略記である。ＲＯＭは、「Read　Only　Memory」の略記である。ＲＡＭは、「Random　Access　Memory」の略記である。ＨＤＤは、「Hard　Disk　Drive」の略記である。

　ＨＤＤ５には、音訳支援プログラムが記憶されている。ＣＰＵ１は、図２を用いて説明する音訳支援プログラムによる各部をＲＡＭ３上に展開し、音訳支援動作を実行する。なお、この例の場合、音訳支援プログラムは、ＨＤＤ５に記憶されていることとした。しかし、ＲＯＭ２又はＲＡＭ３等の他の記憶部に記憶されていてもよい。

　図２に、ＣＰＵ１がＨＤＤ５に記憶されている音訳支援プログラムを実行することで実現される各機能の機能ブロック図を示す。この図２に示すように、ＣＰＵ１は、音訳支援プログラムを実行することで、テキスト取得部１１、音訳タグ付与部１２、音声再生部１３、音訳パターン抽出部１４及び合成音声作成部１５として機能する。

　テキスト取得部１１は、取得部の一例である。音訳タグ付与部１２は、付与部の一例である。音声再生部１３は、再生部の一例である。音訳パターン抽出部１４は、抽出部の一例である。合成音声作成部１５は、作成部の一例である。

　テキスト取得部１１は、テキストを取得する。音声再生部１３は、作業者の指示に対応して合成音声作成部１５に合成音声の作成指示を行う。音声再生部１３は、合成音声作成部１５に作成された合成音声（音声データ）を再生する。音訳タグ付与部１２は、取得されたテキストに対して音訳タグを付与した音訳タグ付きテキストを生成し、ＨＤＤ５（ＲＡＭ３でもよい）等の記憶部に記憶する。

　音訳パターン抽出部１４は、音訳タグを用いて後述する音訳パターンを抽出し、ＨＤＤ５（ＲＡＭ３でもよい）等の記憶部に記憶する。合成音声作成部１５は、テキスト、音訳タグ及び音訳パターンを用いて、テキストに対応した合成音声を作成する。

　なお、この例では、テキスト取得部１１～合成音声作成部１５は、ソフトウェアで実現することとして説明を進める。しかし、テキスト取得部１１～合成音声作成部１５のうち、一部又は全部をハードウェアで実現してもよい。

　また、音訳支援プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ、フレキシブルディスク（ＦＤ）等のコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。また、音訳支援プログラムは、ＣＤ－Ｒ、ＤＶＤ、ブルーレイディスク（登録商標）、半導体メモリ等のコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。ＤＶＤは、「Digital　Versatile　Disk」の略記である。また、音訳支援プログラムを、インターネット等のネットワーク経由で提供してもよい。また、音訳支援装置は、ネットワークを介して音訳支援プログラムをダウンロードし、ＨＤＤ５等の記憶部にインストールして実行してもよい。また、音訳支援プログラムを、音訳支援装置のＲＯＭ２等の記憶部に予め組み込んで提供してもよい。

　（音訳支援動作）
　図３は、音訳支援装置の音訳支援動作の流れを示すフローチャートである。音訳支援装置が起動され、作業者の操作に対応して、ＣＰＵ１がＨＤＤ５に記憶されている音訳支援プログラムを読み込む。ＣＰＵ１は、音訳支援プログラムに対応するテキスト取得部１１～合成音声作成部１５を、ＲＡＭ３に展開する。これにより、図３のフローチャートの処理が開始される。

　ステップＳ１では、テキスト取得部１１が、作業者により指定されたテキストを取得する。テキストは、例えばＨＴＭＬ方式で記述された構造化文書となっている。ＨＴＭＬは、「Hypertext　Markup　Language」の略記である。テキスト取得部１１は、取得されたテキストを、編集作業用の音訳作業画面に表示する。音訳作業画面は、図７を用いて後述する。作業者は、部分的なテキスト毎に、例えば話者、音量、ピッチ、一時停止（ポーズ）等の所望の音訳設定を、音訳作業画面を介して指定する。ステップＳ２では、音訳タグ付与部１２が、作業者の操作で指示される合成音声が生成されるように、テキストのＨＴＭＬタグを拡張して記述する。このようにＨＴＭＬタグ等の構造化文書タグを拡張して記述したタグを、「音訳タグ」という。そして、テキストの構造化文書タグが拡張されて記述されることで、作業者が指示する音訳設定に対応する音訳タグが、テキストに対して付与される。

　次に、ステップＳ３では、音声再生部１３が、作業者により操作部７を介して合成音声の再生が指示されたか否かを判別する。合成音声の再生が指示されるまでの間は（ステップＳ３：Ｎｏ）、音訳タグ付与部１２が、ステップＳ２において、作業者の操作に対応する音訳タグをテキストに付与する動作を行う。

　作業者により合成音声の再生が指示されると（ステップＳ３：Ｙｅｓ）、音声再生部１３が、ステップＳ４において、再生するテキストの音訳設定を示す音訳タグ、又は後述する音訳パターンの有無を判別する。音訳タグ又は音訳パターンが存在しない場合（ステップＳ４：Ｎｏ）、音訳タグ付与部１２が、ステップＳ２において、作業者の操作に対応する音訳タグをテキストに付与する動作を行う。

　これに対して、音訳タグ又は音訳パターンが存在する場合（ステップＳ４：Ｙｅｓ）、合成音声作成部１５が、ステップＳ５において、音訳タグ又は音訳パターンを用いて、再生が指示されたテキストに対応する合成音声を作成する。音声再生部１３は、作成された合成音声を、ステップＳ６において再生する。これにより、作業者により指定された話者、音量、ピッチ等で、テキストに対応する合成音声が再生される。

　次に、作業者は、再生された合成音声を聞き、修正が必要であると判断したテキストの、話者、音量、ピッチ、ポーズの挿入位置等の修正（変更）を、操作部７を操作し音訳作業画面を介して指定する。修正作業が行われた場合、音訳タグ付与部１２は、ステップＳ７において、テキストに付与されている音訳タグの音訳設定を、作業者の指示に応じて修正する。これにより、修正された音訳設定に対応する音訳タグがテキストに付与される。

　次に、実施の形態の音訳支援装置の場合、所定の適応条件及び所定の音訳設定を関連付けた音訳パターンを抽出することで、所定の適応条件を満足する各テキストに対して、一律的に所定の音訳設定を反映させることが可能となっている。作業者は、操作部７を操作して、このような音訳パターンの抽出を指定する。ステップＳ８では、ＣＰＵ１が、音訳パターンの抽出を指定する操作の有無を判別する。

　音訳パターンの抽出を指定する操作を検出しない場合、処理は、ステップＳ３に戻る。作業者により合成音声の再生が指示された際に（ステップＳ３：Ｙｅｓ）、ステップＳ４において、合成音声の再生が指示されたテキストに対する音訳タグ又は音訳パターンの有無が判別される。合成音声の再生が指示されたテキストに音訳タグのみが存在する場合、合成音声作成部１５は、ステップＳ５において、音訳タグに従って合成音声を作成する。これにより、ステップＳ７で修正された音訳設定に対応する合成音声が生成され、ステップＳ６において、音声再生部１３により再生される。

　これに対して、音訳パターンの抽出を指定する操作を検出した場合、ステップＳ９に処理が進む。詳しくは後述するが、ステップＳ９では、音訳パターン抽出部１４が、音訳タグの要素又はテキスト形式を適応条件とし、各適応条件と各適応条件に対応する音訳設定を関連付けた音訳パターンを抽出する。そして、音訳パターン抽出部１４は、抽出した音訳パターンの一覧を、例えば図４に示す音訳パターンの選択画面に表示する。図４の例の場合、音訳パターン抽出部１４は、音訳パターンの選択画面に、各音訳パターンの適応条件及び音訳設定を表示している。また、音訳パターン抽出部１４は、音訳パターンの選択画面に、登録を希望する音訳パターンを選択するためのチェックボックス１８及び選択した音訳パターンの登録を指定するための登録ボタン１９を表示している。

　作業者は、所望の適応条件及び音訳設定の音訳パターンのチェックボックス１８に対してチェックマークを付す操作を行い、登録ボタン１９を操作する。登録ボタン１９が操作されると、音訳パターン抽出部１４は、ステップＳ１０において、チェックボックス１８にチェックマークが入れられた音訳パターンを、ＨＤＤ５の音訳パターン用の記憶領域であるパターン辞書に記憶制御（登録）する。

　次に、抽出された音訳パターンがパターン辞書に記憶されると、処理がステップＳ３に戻る。そして、作業者により合成音声の再生が指示された際に（ステップＳ３：Ｙｅｓ）、ステップＳ４において、合成音声の再生が指示されたテキストに対する音訳タグ又は音訳パターンの有無が判別される。合成音声の再生が指示されたテキストに音訳タグのみが存在する場合、合成音声作成部１５は、音訳タグに従って合成音声を作成する。これに対して、合成音声の再生が指示されたテキストに対応する音訳パターンが存在する場合、合成音声作成部１５は、音訳パターンに対応する合成音声を作成する。

　これにより、抽出した音訳パターンに対応するテキストと同一又は類似のテキストは、一律に、抽出した音訳パターンの音訳設定の合成音声とすることができる。このため、作業者が過去の音訳設定の修正と同じ修正を繰り返し行うという、面倒な作業を防止でき、効率的な音訳作業を可能とすることができる。

　（音訳支援装置の各部の詳細な動作）
　次に、テキスト取得部１１～合成音声作成部１５の動作を詳細に説明する。まず、図５に、テキスト取得部１１により取得されたテキストの一例を示す。実施の形態の音訳支援装置の場合、一例として、ＨＴＭＬ方式等で構造化文書とされたテキストを取得する。ＨＴＭＬは、「Hypertext　Markup　Language」の略記である。

　テキストは、ＨＴＭＬ等のタグ構造を持つデータの他、タグ構造を含まない、いわゆるプレーン形式のデータでもよい。また、例えばルビが付与されている場合は、対象文字列の後方に、括弧で括ったルビ文字列を挿入する等の、一定のルールに従ったテキストでもよい。

　図５の例の場合、「＜ｈ１＞」及び「＜／ｈ１＞」のＨＴＭＬタグが付された「１．ご案内」、「２．連絡先」、「３．議題」及び「４．スケジュール」等の見出しのテキストが記述されている。また、図５の例の場合、「＜ｓｐａｎ＞」及び「＜／ｓｐａｎ＞」のＨＴＭＬタグが付された「＊重要：欠席する場合は、以下へ連絡ください」等のインライン要素が記述されている。

　また、図５の例の場合、「＜ｄｉｖ＞」及び「＜／ｄｉｖ＞」のＨＴＭＬタグが付された「電話番号は、０１２－３４５－○○○○」、「携帯は、０９０－１２３４－○○○○」、「ＵＲＬは、http://www.○○○.co.jp」等のブロック要素が記述されている。また、図５の例の場合、「＜ｄｉｖ＞」及び「＜／ｄｉｖ＞」のＨＴＭＬタグが付された「２０１４（平成２６）年８月４日」等のブロック要素が記述されている。

　次に、音訳タグ付与部１２により音訳タグが付与されたテキストの一例を、図６に示す。実施の形態の音訳支援装置の場合、音訳タグ付与部１２は、一例として、ＨＴＭＬタグ等の既存の構造化文書タグを、上述の音訳タグに拡張して各テキストに付与する。

　一例として、音訳タグの種類としては、テキストの話者、音量及びピッチを指定するための合成音声パラメタ情報（x-audio-param）、合成音声出力の一時停止を指定するためのポーズ情報（x-audio-pause）がある。また、音訳タグの種類としては、テキストの読みを示す読み情報（x-audio-ruby="○○○"）がある。なお、読み情報中の「○」の記号は、テキストの読みである。また、音訳タグの種類としては、テキストに対応する合成音声の非出力を指定するための非読み情報（x-audio-ruby=""）がある。読み情報の場合、「"」と「"」との間に入力された読み（上述の○の記号）の合成音声が出力される。しかし、非読み情報の場合、「"」と「"」との間にテキストの読みが入力されていない。この場合、指定されたテキストに対する合成音声は非出力となる。また、音訳タグの種類としては、テキストの合成音声の音量を指定するためのアクセント情報（strong）がある。

　作業者により、図５に示す「１．ご案内」の見出しのテキストに対して、「話者：Ｂさん」、「音量：＋１０」、「ピッチ：＋３」の合成音声の生成が指定されたとする。この場合、音訳タグ付与部１２は、「１．ご案内」の見出しのテキストの「＜ｈ１＞」及び「＜／ｈ１＞」のＨＴＭＬタグを、例えば図６に示すように「＜ｈ１ x-audio-param="B,+10,+3"＞１．ご案内＜／ｈ１＞」等のように拡張して記述する。これにより、「１．ご案内」の見出しのテキストに対して、合成音声パラメタ情報（x-audio-param）の音訳タグが付与される。

　作業者により、図５に示す「ＵＲＬ」のテキストに対して、「ユーアルエル」の読みが指定されたとする。この場合、音訳タグ付与部１２は、「ＵＲＬ」のＨＴＭＬタグを、例えば図６に示すように「＜span x-audio-ruby="ユーアルエル"＞ＵＲＬ＜／span＞」とのように拡張して記述する。これにより、ＵＲＬのテキストに対して、「ユーアルエル」の合成音声を出力する読み情報（x-audio-ruby="○○○"）の音訳タグが付与される。

　作業者により、図５に示す「０１２－３４５－○○○○」の電話番号のテキストに対して、「２」の後、及び、「５」の後に、合成音声の出力を一時停止するポーズの挿入が指定されたとする。この場合、音訳タグ付与部１２は、「０１２－３４５－○○○○」の電話番号のＨＴＭＬタグを、例えば図６に示すように「０１２＜span x-audio-pause＞＜／span＞－３４５＜span x-audio-pause＞＜／span＞－○○○○」とのように拡張して記述する。これにより、「０１２－３４５－○○○○」の電話番号に対して、「２」と「３」との間、及び、「５」と「○」との間に、合成音声の出力を一時的に停止するポーズ情報の音訳タグが付与される。

　作業者により、図５に示す日付のテキストの「（平成２６）」の合成音声の非出力が指定されたとする。この場合、音訳タグ付与部１２は、「（平成２６）」のＨＴＭＬタグを、例えば図６に示すように「＜span x-audio-ruby=""＞（平成２６）＜／span＞」とのように拡張して記述する。これにより、「（平成２６）」のテキストに対応する合成音声を非出力とする非読み情報（x-audio-ruby=""）の音訳タグが付与される。

　次に、図７に、上述の音訳タグが付与されたテキストの音訳作業画面を示す。ＣＰＵ１は、ＨＤＤ５に記憶されている音訳支援プログラムに従って、この音訳作業画面を表示部６に表示する。図７の例で説明すると、ＣＰＵ１は、例えば「音訳支援ソフト」等の、音訳支援プログラムに付されているソフトウェアの名称２０を音訳作業画面に表示する。また、ＣＰＵ１は、「１．ご案内」及び「２．連絡先」等のＨＴＭＬ方式等で構造化文書とされたテキスト２１を音訳作業画面に表示する。

　また、ＣＰＵ１は、テキスト２１に付与されている、例えば合成音声パラメタ情報、ポーズ情報、読み情報及び非読み情報等の音訳タグ及び編集用のフォームを音訳作業画面に表示する。具体的には、図７の例の場合、「話者：Ｂさん」、「音量：＋１０」、「ピッチ：＋３」等の音訳タグが、合成音声パラメタ情報２２である。また、［Ｌ］の表示形態で示される音訳タグが、テキストに設定されたポーズ情報２３である。また、ＵＲＬの上付き文字として表示される「ユーアルエル」の音訳タグが読み情報２４である。また、図７の最下段の日付の「（平成２６）」のテキストに対して上付きのかたちで表示されている帯状のマークは、「（平成２６）」のテキストの合成音声は非出力とすること（読まないこと）を示す非読み情報２５である。

　また、ＣＰＵ１は、テキストに対応する合成音声の再生及び再生の一時停止を指定するための操作ボタン２６を音訳作業画面に表示する。また、ＣＰＵ１は、表示されているテキストに対して、太文字（Ｂｏｌｄ）、斜体（Ｉｔａｌｉｃ）、文字色（ｃｏｌｏｒ）等の文字装飾を行うための文字装飾フォーム２７を音訳作業画面に表示する。

　合成音声パラメタ情報２２は、合成音声パラメタ情報２２のセレクトボックス又はスライドバー等を作業者が操作することで指定及び修正が可能となっている。音訳タグ付与部１２は、作業者によるセレクトボックス又はスライドバー等の操作に対応する合成音声パラメタ情報２２を、テキストに付与する。また、作業者は、操作部７のキー操作等で、テキストの任意の位置を指定してポーズ情報２３の挿入を指定する。音訳タグ付与部１２は、作業者により指定されたテキストの位置に、ポーズ情報２３を挿入（付与）する。また、作業者が、操作部７のキー操作等で選択したテキストの読みを入力すると、音訳タグ付与部１２は、入力された読みに対応する読み情報２４を、選択されたテキストに付与する。

　作業者は、このような音訳タグの表示又は非表示の選択が可能となっている。すなわち、ＣＰＵ１は、音訳タグの表示又は非表示を選択するためのチェックボックス２８を音訳作業画面に表示する。作業者は、音訳タグの表示を希望する場合、図７の例に示すようにチェックボックス２８にチェックを入れる操作を行う。チェックボックス２８にチェックを入れる操作が行われると、ＣＰＵ１は、図７の例に示すように各テキストに付加されている音訳タグを表示制御する。これに対して、ＣＰＵ１は、チェックボックス２８にチェックを入れる操作が行われるまでの間（チェックが入っていない間）は、図８に示すように各テキストに付加されている音訳タグを非表示とする。

　（音訳パターン抽出部の動作）
　次に、音訳パターン抽出部１４は、音訳タグの要素又はテキスト形式を適応条件とし、各適応条件と各適応条件に対応する音訳設定を関連付けた音訳パターンを抽出し、ＨＤＤ５のパターン辞書に記憶制御（登録）する。

　例えば、ポーズ情報の音訳パターンを登録する場合、音訳パターン抽出部１４は、上述のように音訳タグ付与部１２によりポーズ情報の音訳タグ（＜span x-audio-pause＞＜／span＞）が付与された各テキストを検出する。次に、音訳パターン抽出部１４は、検出したテキストに、以下の条件を満たす文字列が存在するか否かを、テンプレートマッチングを用いて判定する。一例ではあるが、テンプレートマッチングとしては、正規表現を用いることができる。

　すなわち、音訳パターン抽出部１４は、数字と記号（ハイフン又は括弧）の文字列のみからなる電話番号形式の文字列が、検出したテキストに存在するか否かを判定する。また、音訳パターン抽出部１４は、「http://」から始まり、英数字と記号（ドット）の文字列のみからなるＵＲＬ形式の文字列が、検出したテキストに存在するか否かを判定する。また、音訳パターン抽出部１４は、数値及び「年」、「月」、「日」の文字列のみからなる日時形式の文字列が、検出したテキストに存在するか否かを判定する。

　音訳パターン抽出部１４は、このような条件を満たす文字列が存在すると判定した場合、各文字列に対応する「適応条件」及び「音訳設定」を関連付けした「音訳パターン」を登録する。

　具体的には、検出したテキストが電話番号形式の場合、音訳パターン抽出部１４は、図９に示すように、電話番号形式を適応条件とする。また、この場合、音訳パターン抽出部１４は、音訳設定を、「ハイフン（－）の前にポーズ情報のタグ（ポーズタグ）を付与し、ハイフンの読みが「ノ（の）」の読み情報のタグ（読みタグ）を付与する」とする。そして、音訳パターン抽出部１４は、電話番号形式の適応条件と上述の音訳設定とを関連付けした音訳パターンを、パターン辞書に登録する。

　これにより、電話番号形式のテキストの場合、上述の音訳パターンにより、例えば「０１２＜ruby＞－＜rt＞ノ＜／rt＞＜Ｌ／＞＜／ruby＞３４５＜ruby＞－＜rt＞ノ＜／rt＞＜Ｌ／＞＜／ruby＞○○○○＜ruby＞－＜rt＞ノ＜／rt＞＜Ｌ／＞＜／ruby＞」との音訳タグに対応する合成音声が生成される。

　検出したテキストがＵＲＬ形式の場合、音訳パターン抽出部１４は、図９に示すように、ＵＲＬ形式を適応条件とする。また、この場合、音訳パターン抽出部１４は、音訳設定を、「「http://」と「co.jp」との間の英数字の間に、ポーズタグを付与する」とする。そして、音訳パターン抽出部１４は、ＵＲＬ形式の適応条件と上述の音訳設定とを関連付けした音訳パターンを、パターン辞書に登録する。

　これにより、ＵＲＬ形式のテキストの場合、上述の音訳パターンにより、例えば「http://.＜Ｌ／＞○＜Ｌ／＞○＜Ｌ／＞○.co.jp」との音訳タグに対応する合成音声が生成される。

　検出したテキストが「２０１４（平成２６）年」等のように、「数値（平成（数値））年」の日付形式の場合、音訳パターン抽出部１４は、図９に示すように、日付形式を適応条件とする。また、この場合、音訳パターン抽出部１４は、「（平成（数値））」は、読みが空文字列（読まない）の読みタグを付与する」との音訳設定とする。そして、音訳パターン抽出部１４は、日付形式の適応条件と上述の音訳設定とを関連付けした音訳パターンを、パターン辞書に登録する。

　これにより、日付形式のテキストの場合、上述の音訳パターンにより、例えば「２０１４＜ruby＞（平成２６）＜rt＞＜／rt＞＜／ruby＞」との音訳タグに対応する合成音声が生成される。

　検出したテキストが「２０１４年８月４日」等のように、「（平成（数値））」を含まない日付形式の場合、音訳パターン抽出部１４は、日付形式を適応条件とする。また、この場合、音訳パターン抽出部１４は、「「年」、「月」、「日」の特殊文字の前にポーズタグを付与する」との音訳設定とする。そして、音訳パターン抽出部１４は、日付形式の適応条件と上述の音訳設定とを関連付けした音訳パターンを、パターン辞書に登録する。

　これにより、「（平成（数値））」の記載の無い日付形式のテキストの場合、上述の音訳パターンにより、例えば「２０１４＜ruby＞（平成２６）＜rt＞＜／rt＞＜／ruby＞」との音訳タグに対応する合成音声が生成される。

　なお、音訳パターン抽出部１４は、以下のように音訳パターンの登録を行ってもよい。上述の電話形式、ＵＲＬ形式及び日付形式の文字列を検出した際に、検出した文字列内のポーズ位置を取得する。次に、ポーズ位置の間隔が一定の文字間隔か否かを判定する。そして、間隔が一定文字数であれば、上述の電話形式等の適応条件と、「一定数文字間隔でポーズを挿入」という音訳設定とを関連付けた音訳パターンを、パターン辞書に登録する。

　または、音訳パターン抽出部１４は、全てのポーズ位置の一つ前及び一つ後ろの各文字を取得する。取得した文字が、記号文字又は「年」、「月」、「日」等の特殊文字の場合、音訳パターン抽出部１４は、各文字の出現回数を検出する。出現回数が一定回数以上の文字を検出した場合、音訳パターン抽出部１４は、上述の電話形式等の適応条件と、「記号文字又は特殊文字の前にポーズを挿入」という音訳設定とを関連付けた音訳パターンを、パターン辞書に登録する。

　この他、音訳パターン抽出部１４は、形態素解析によりテキストを品詞分類した後、品詞列及びポーズ位置のパターンを、音訳パターンとして登録してもよい。または、音訳パターン抽出部１４は、テキストにおける、句読点とポーズ位置のパターンを、音訳パターンとして登録してもよい。

　次に、合成音声パラメタ情報の音訳パターンを登録する場合、音訳パターン抽出部１４は、音訳タグ付与部１２が付与した合成音声パラメタ情報の音訳タグを、全テキストから取得する。すなわち、音訳パターン抽出部１４は、「x-audio-param」の合成音声パラメタ情報を含む音訳タグを、全テキストから検出する。次に、音訳パターン抽出部１４は、取得した各音訳タグの要素を検出する。また、音訳パターン抽出部１４は、要素と合成音声パラメタ情報の組み合わせ回数を検出する。組み合わせ回数が、一定回数以上の場合、音訳パターン抽出部１４は、要素名を適応条件とし、合成音声パラメタ情報の値を音訳設定として関連付けた音訳パターンを、パターン辞書に登録する。

　例えば、一定回数以上の組み合わせ回数が検出された要素名がｈ１要素の場合、音訳パターン抽出部１４は、図９に示すようにｈ１要素を適応条件とする。また、音訳パターン抽出部１４は、一定回数以上の組み合わせ回数が検出された、例えば「話者をＢさん、音量を＋５、ピッチを－２」とする合成音声パラメタ情報を音訳設定とする。そして、このような適応条件と合成音声パラメタ情報を関連付けた音訳パターンを、パターン辞書に登録する。

　また、一定回数以上の組み合わせ回数が検出された要素がｓｔｒｏｎｇ要素の場合、音訳パターン抽出部１４は、図９に示すようにｓｔｒｏｎｇ要素を適応条件とする。また、音訳パターン抽出部１４は、一定回数以上の組み合わせ回数が検出された、例えば「音量を＋５」とする合成音声パラメタ情報を音訳設定とする。すなわち、音訳パターン抽出部１４は、話者、音量及びピッチの合成音声パラメタ情報のうち、話者及びピッチは変更せず、音量のみを「＋５」に変更した合成音声パラメタ情報を音訳設定とする。そして、音訳パターン抽出部１４は、このような適応条件と合成音声パラメタ情報を関連付けた音訳パターンを、パターン辞書に登録する。

　次に、読み情報の音訳パターンを登録する場合、音訳パターン抽出部１４は、音訳タグ付与部１２が付与した読み情報の音訳タグを、全テキストから取得する。すなわち、音訳パターン抽出部１４は、「x-audio-ruby」の合成音声パラメタ情報を含む音訳タグを、全テキストから検出する。次に、音訳パターン抽出部１４は、取得した各音訳タグの要素を検出する。また、音訳パターン抽出部１４は、要素と読み情報の組み合わせ回数を検出する。組み合わせ回数が、一定回数以上の場合、音訳パターン抽出部１４は、要素名を適応条件とし、読み情報を音訳設定として関連付けた音訳パターンを、パターン辞書に登録する。

　例えば、一定回数以上の組み合わせ回数が検出された要素名がｓｐａｎ要素の場合、音訳パターン抽出部１４は、ｓｐａｎ要素を適応条件とする。また、音訳パターン抽出部１４は、一定回数以上の組み合わせ回数が検出された読み情報を音訳設定とする。そして、このような適応条件と読み情報を関連付けた音訳パターンを、パターン辞書に登録する。なお、ｓｐａｎ要素を含むテキストを取得し、形態素解析でテキストを品詞分類した後、品詞列、表記及び読み情報を音訳パターンとして登録してもよい。

　次に、取得した音訳タグの読みが空文字列（＝非読み情報：x-audio-ruby=""）の場合、音訳パターン抽出部１４は、取得したテキストに対して、正規表現等を用いて抽出した非読パターンを、音訳パターンとしてパターン辞書に登録する。

　すなわち、音訳パターン抽出部１４は、数字、記号、及び、「年」、「月」、「日」、「平成」等の特殊文字のみからなる日時形式の文字列のテキストを検出する。これにより、例えば「２０１４（平成２６）年」等の文字列が検出される。検出したテキスト内に、非読み情報の音訳タグが含まれる場合、音訳パターン抽出部１４は、日時形式の文字列を適応条件とし、「括弧内の文字列は読まない」という音訳設定を関連付けた音訳パターンを、パターン辞書に登録する。

　（合成音声作成部の動作）
　合成音声作成部１５は、音声再生部１３から合成音声の作成要求を受信すると、音声合成対象となるブロックのテキストを取得する。次に、取得したブロックのテキストに含まれる音訳タグと、音訳パターン抽出部１４により抽出された音訳パターンを用いて、音声合成エンジンが認識可能な形式の言語に、テキストを変換する。一例ではあるが、合成音声作成部１５は、テキストをＳＳＭＬ形式の言語に変換する。ＳＳＭＬは、「Speech　Synthesis　Markup　Language」の略記である。次に、合成音声作成部１５は、変換後の言語を音声合成エンジンに供給し、テキストに対応する合成音声を作成し、作成された合成音を音声再生部１３に供給する。

　（音声再生部の動作）
　次に、作業者により、図７に示す操作ボタン２６が操作され、音声再生が指示されると、音声再生部１３は、合成音声作成部１５に合成音声の作成要求を行う。音声再生部１３は、合成音声作成部１５により作成された合成音声を取得して再生する。

　（第１の実施の形態の効果）
　以上の説明から明らかなように、第１の実施の形態の音訳支援装置は、入力されたテキストに対して、読み、アクセント、ポーズ等の音訳設定情報となる音訳タグを付与する。また、テキストに付された音訳タグで示される音訳設定のうち、頻出する音訳設定と、頻出する音訳設定の適応条件とを関連付けた音訳パターンを抽出する。または、適応条件となるテキスト形式と、適応条件となるテキスト形式に対応する音訳設定とを関連付けた音訳パターンを抽出する。そして、音訳支援装置は、テキストに付与された音訳タグ又は上述の抽出した音訳パターンで示される音訳設定に対応する合成音声を作成して再生する。

　これにより、適応条件に対応する各テキスト（＝音訳パターンを抽出したテキストと同一又は類似のテキスト）の合成音声を、一律的に、抽出した音訳パターンの音訳設定の合成音声とすることができる。このため、作業者が同一又は類似のテキストに対して、それぞれ音訳設定の修正を繰り返し行う不都合を防止でき、効率的な音訳作業を可能とすることができる。

　（第２の実施の形態）
　次に、第２の実施の形態の音訳支援装置を説明する。第２の実施の形態の音訳支援装置は、作業者の音訳作業の履歴情報（音訳履歴データ）を記憶する。また、音訳履歴データから音訳の信頼度（音訳信頼度）を算出する。そして、算出した音訳信頼度に応じて、合成音声の作成に用いる音訳パターンを決定する。以下、このような差異の部分の説明のみ行い、上述の第１の実施の形態の説明と重複する説明は省略する。

　（第２の実施の形態の構成）
　図１０に、第２の実施の形態の音訳支援装置のブロック図を示す。図１０において、図２に示したブロックと同じ動作を示すブロックには、同じ符号を付してある。図１０に示すように、第２の実施の形態の音訳支援装置は、作業者の音訳作業に対応して音訳タグ付与部１２で生成された履歴情報（音訳履歴データ）を、例えばＨＤＤ５等の記憶部に記憶する構成となっている。また、第２の実施の形態の音訳支援装置は、ＨＤＤ５に記憶された音訳履歴データを用いて、音訳信頼度を算出する音訳信頼度算出部１７を有している。

　（第２の実施の形態の動作）
　音訳履歴データは、音訳タグ付与部１２が付与した音訳タグを一意に識別する音訳タグ識別子、音訳タグの音訳設定及び音訳タグの更新時刻を含んでいる。音訳タグ付与部１２は、作業者の指示に従って音訳タグを更新した際に、ＨＤＤ５に記憶されている音訳履歴データのうち、該当する音訳タグ識別子の音訳タグ更新時刻を更新する。

　音訳信頼度算出部１７は、音訳履歴データから音訳信頼度を算出する。例えば、短時間であるにもかかわらず音訳タグの更新回数が多い場合、作業者により、不確かな音訳設定が繰り返し行われていることを意味する。この場合、該当する音訳タグの音訳信頼度として、低い音訳信頼度が、音訳信頼度算出部１７により算出される。

　具体的には、音訳信頼度算出部１７は、以下の数１式を用いて、音訳タグの音訳信頼度を算出する。数１式において、「α」及び「β」は、定数を示す。

　音訳タグiの音訳信頼度＝(現在の音訳タグiの音訳信頼度)－α×(タグiの更新回数)／（タグiの前回更新時間の差）・・・（数１式）

　音訳パターン抽出部１４は、音訳信頼度算出部１７で算出された音訳信頼度を用いて、例えば以下の数２式の演算を行うことで、各音訳パターンの信頼度を算出する。

　信頼度＝（対象となる音訳タグの音訳信頼度の総和）／（対象となる音訳タグの数）・・・（数２式）

　音訳パターン抽出部１４は、数２式で算出した信頼度が、一定値以上の音訳パターンのみをパターン辞書に登録する。このような処理の流れを、図１１のフローチャートに示す。図１１のフローチャートにおいて、図３を用いて説明した第１の実施の形態の動作と同様の動作となるステップには、同じステップ番号を付してある。図１１のフローチャートにおいて、図３のフローチャートとは異なる処理は、ステップＳ１１～ステップＳ１４の処理である。

　すなわち、第２の実施の形態の音訳支援装置の場合、ステップＳ２及びステップＳ７において、作業者により音訳設定又は音訳設定の修正がされると、音訳タグ付与部１２は、ステップＳ１１又はステップＳ１２において、ＨＤＤ５に記憶されている音訳作業履歴データのうち、該当する音訳タグの「音訳タグ更新時刻」を更新する。

　次に、ステップＳ８で、作業者からの音訳パターンの抽出指示を検出すると、音訳信頼度算出部１７は、ステップＳ１３において、上述の数１式を用いて、ＨＤＤ５に記憶されている各音訳タグの音訳信頼度を算出する。

　次に、ステップＳ１４において、音訳パターン抽出部１４が、音訳信頼度算出部１７で算出された音訳信頼度を用いて上述の数２式の演算を行い、各音訳パターンの信頼度を算出する。そして、音訳パターン抽出部１４は、信頼度が一定値以上の音訳パターンを抽出し、図４を用いて説明したように適応条件及び音訳設定の一覧を表示部６に表示する。ステップＳ１０では、音訳パターン抽出部１４が、作業者により選択された音訳パターンをパターン辞書に登録する。

　以下、図５に示したテキストを例として、音訳履歴データの更新動作及び音訳信頼度の算出動作を、さらに詳細に説明する。なお、音訳タグの更新時刻は、音訳作業を開始してから経過した時間（図７に示した音訳作業画面の表示開始時刻から経過した時間）とする。また、音訳信頼度の初期値は１００とする。また、上述の数１式の定数αは１０とする。

　まず、作業者が、作業開始から５秒後に、図４に示す「１．ご案内」のテキストに対して、話者を「Ｂさん」、音量を「＋１０」、ピッチを「＋３」に指定したとする。この場合、音訳タグ付与部１２は、「１．ご案内」のテキストのＨＴＭＬタグを、「<h1 id=“1” x-audio-param=“B,+10,+3”>1.ご案内</h1>」とのように、音訳設定及び音訳タグ識別子を持つ音訳タグに拡張して記述する。

　また、音訳タグ付与部１２は、図１２に示すように「１」の音訳タグ識別子、「x-audio-param=“B,+10,+3”」の音訳設定、及び、「００：００：０５」の音訳タグ更新時刻情報を、音訳履歴データとして、ＨＤＤ５の音訳履歴データの記憶領域に記憶する。なお、「００：００：０５」の音訳タグ更新時刻における、「１」の音訳タグ識別子の音訳タグの音訳信頼度は「１００」となる。

　次に、作業者が、１５秒後にピッチを「＋１」に更新したとする。この場合、音訳タグ付与部１２は、「１．ご案内」のテキストのＨＴＭＬタグを、「<h1 id=“1” x-audio-param=“B,+10,+1”>1.ご案内</h1>」とのように変更して記述する。また、音訳タグ付与部１２は、図１２に示すように、「１」の音訳タグ識別子の音訳タグの音訳設定を、「x-audio-param=“B,+10,+1”」とし、音訳タグ更新時刻を「００：００：１５」とした音訳履歴データをＨＤＤ５に記憶する。「００：００：１５」の音訳タグ更新時刻における、「１」の音訳タグ識別子の音訳タグの音訳信頼度は「１００－１０×２／１０＝９８」となる。

　次に、作業者が、３０秒後にピッチを「＋３」に更新したとする。この場合、音訳タグ付与部１２は、「１．ご案内」のテキストのＨＴＭＬタグを、「<h1 id=“1”x-audio-param=“B,+10,+3”>1.ご案内</h1>」とのように変更して記述する。また、音訳タグ付与部１２は、図１２に示すように、「１」の音訳タグ識別子の音訳タグの音訳設定を、「x-audio-param=“B,+10,+3”」とし、音訳タグ更新時刻を「００：００：３０」とした音訳履歴データをＨＤＤ５に記憶する。「００：００：３０」の音訳タグ更新時刻における、「１」の音訳タグ識別子の音訳タグの音訳信頼度は「９８－１０×３／１５＝９６」となる。

　図１２には、図５に示す「２．連絡先」のテキストの音訳履歴データ、及び、「３．議題」のテキストの音訳履歴データの例も図示されている。図１２に示す「２」の音訳タグ識別子の音訳設定及び音訳タグ更新時刻情報が、図５に示す「２．連絡先」のテキストの音訳履歴データである。また、図１２に示す「３」の音訳タグ識別子の音訳設定及び音訳タグ更新時刻情報が、図５に示す「３．議題」のテキストの音訳履歴データである。

　「２．連絡先」のテキストの音訳履歴データは、「００：００：４０」に、作業者により設定された、話者を「Ｂさん」、音量を「＋１０」、ピッチを「＋３」とする音訳設定の例である。また、「２．連絡先」のテキストの音訳履歴データは、「００：００：４５」にピッチが「＋２」に更新され、「００：００：５０」にピッチが「＋１」に更新された例を示している。

　このような「２」の音訳タグ識別子の音訳タグの音訳信頼度は、「００：００：４０」の時点で「１００」、「００：００：４５」の時点で「１００－１０×２／５＝９６」、「００：００：５０」の時点で「９６－１０×３／５＝９０」となる。

　「３．議題」のテキストの音訳履歴データは、「００：０１：００」に、作業者により設定された、話者を「Ｂさん」、音量を「＋１０」、ピッチを「＋１」とする音訳設定の例である。また、「３．議題」のテキストの音訳履歴データは、「００：０１：１０」にピッチが「＋３」に更新された例を示している。このような「３」の音訳タグ識別子の音訳タグの音訳信頼度は、「００：０１：００」の時点で「１００」、「００：０１：１０」の時点で「１００－１０×２／１０＝９８」となる。

　音訳パターン抽出部１４は、このように算出された信頼度が、一定値以上の音訳パターンを抽出し、図４を用いて説明したように適応条件及び音訳設定の一覧を表示部６に表示する。そして、音訳パターン抽出部１４は、作業者により選択された音訳パターンをパターン辞書に登録する。

　なお、「３」の音訳タグ識別子の音訳タグの更新時刻である「００：０１：１０」の時点において、音訳パターン抽出部１４が抽出する音訳パターンの候補として、以下の３つの音訳パターンが存在する。すなわち、「１」の音訳タグ識別子の「話者をＢ，音量を＋１０，ピッチを＋３」とする音訳タグが存在する。また、「３」の音訳タグ識別子の「話者をＢ，音量を＋１０，ピッチを＋３」とする音訳タグが存在する。また、「２」の音訳タグ識別子の「話者をＢ，音量を＋１０，ピッチを＋１」とする音訳タグが存在する。

　この場合、「１」及び「３」の各音訳タグ識別子の音訳タグは、それぞれ「話者がＢ，音量が＋１０，ピッチが＋３」の音訳パターンとなっている。このため、音訳パターン抽出部１４は、「１」及び「３」の各音訳タグ識別子の音訳タグに対応する、最終的な更新時刻の信頼度の平均値を検出する。上述の例の場合、「１」の音訳タグ識別子の音訳パターンの信頼度は「９６」である。また、「３」の音訳タグ識別子の音訳パターンの信頼度は「９８」である。このため、音訳パターン抽出部１４は、「話者がＢ，音量が＋１０，ピッチが＋３」の音訳パターンの信頼度を、「（９６＋９８）／２＝９７」として算出する。

　そして、音訳パターン抽出部１４は、この例の場合において、一つのみ存在する他の音訳タグの音訳パターンである、「２」の音訳タグ識別子の音訳パターンの信頼度の「９０」と、算出した上述の平均値の「９７」とを比較する。この場合、「話者がＢ，音量が＋１０，ピッチが＋３」の音訳パターンの方が、信頼度が高い。このため、音訳パターン抽出部１４は、「話者がＢ，音量が＋１０，ピッチが＋３」の音訳パターンを抽出してパターン辞書に登録する。

　すなわち、同じ音訳パターンが複数存在する場合、音訳パターン抽出部１４は、最終的な更新時刻の信頼度の平均値を算出する。そして、音訳パターン抽出部１４は、算出した平均値の信頼度と、一つのみ存在する他の信頼度とを比較し、信頼度が高い方の音訳パターンを抽出してパターン辞書に登録する。これにより、信頼度が高い音訳パターンのみを利用可能とすることができる。

　（第２の実施の形態の効果）
　このように、第２の実施の形態の音訳支援装置は、信頼度が高い音訳パターンのみを登録して用いることができる。このため、精度の高い音訳支援を行うことができる他、上述の第１の実施の形態と同様の効果を得ることができる。

　（第３の実施の形態）
　次に、第３の実施の形態の音訳支援装置を説明する。音訳を行う作業者は、テキストの音訳設定を、より多くの人が好む音訳設定とすることが好ましい。この第３の実施の形態の音訳支援装置は、クラウドソーシングサービス等の外部サービスを用いて、第三者（参加者）に、候補となる各音訳設定の音声を聞かせる。そして、第３の実施の形態の音訳支援装置は、参加者の指示が一番多い音訳設定を選択する。これにより、テキストの音訳設定を、より多くの人が好む音訳設定とすることができる。以下、このような差異の部分の説明のみ行い、上述の各実施の形態の説明と重複する説明は省略する。なお、以下の説明において、外部サービスは、ＷｅｂＡＰＩ等でＸＭＬデータ及び音声データを含む一つのファイル（例えば、ｚｉｐ形式等の圧縮ファイル）を受け付けることが可能なサービスとする。

　（第３の実施の形態の構成）
　図１３に、第３の実施の形態の音訳支援装置のブロック図を示す。図１３において、図１０に示したブロックと同じ動作を示すブロックには、同じ符号を付してある。図１３に示すように、第３の実施の形態の音訳支援装置は、ＨＤＤ５に記憶された上述の音訳履歴データ及び上述のように算出された音訳信頼度から、外部サービスへ送信するための外部データを作成する外部データ作成部３２を有している。また、第３の実施の形態の音訳支援装置は、後述する外部データ選択画面及び外部データ作成画面を表示部６に表示制御する表示制御部３３を有している。

　（第３の実施の形態の動作）
　第３の実施の形態の音訳支援装置は、以下の流れで作成した外部データを、ネットワーク上のサーバ装置で行われている外部サービスに送信する（クラウドソーシング）。すなわち、まず、作業者は、操作部７を操作して、外部データ選択画面の表示を指示する。表示制御部３３は、各テキストに対して現在設定されている各音訳タグ及び音訳タグの音訳信頼度をＨＤＤ５から読み出して外部データ選択画面を生成し、表示部６に表示する。

　図１４は、外部データ選択画面の表示例である。この図１４に示すように、表示制御部３３は、図５を用いて説明した「１．ご案内」、「２．ご連絡」等のテキストを、ＨＤＤ５から読み出して外部データ選択画面に表示する。また、表示制御部３３は、各テキストに付与されている「x-audio-param=“B,+10,+3”」等の音訳タグを、ＨＤＤ５から読み出して外部データ選択画面に表示する。また、表示制御部３３は、各音訳タグの更新履歴を用いて算出された、「９６」、「９０」等の音訳信頼度をＨＤＤ５から読み出して、外部データ選択画面に表示する。また、表示制御部３３は、送信する外部データの表示画面の表示を指定するための作成ボタン３５を、外部データ選択画面に表示する。なお、このような外部データ選択画面は、図７を用いて説明した音訳作業画面の各音訳タグの周辺に表示してもよい。

　次に、作業者は、外部データ選択画面に表示されたテキストのうち、第三者が多く指示する音訳設定の付与を希望するテキストを、操作部７を介して選択操作し、作成ボタン３５を操作する。図１４の例では、テキスト毎にチェックボックスが表示されている。作業者は、操作部７を介して、チェックボックスにチェックを入れることで所望のテキストを選択し、作成ボタン３５を操作する。

　作成ボタン３５が操作されると、外部データ作成部３２は、ＨＤＤ５から読み出した音訳履歴データから、作業者により選択された音訳タグの音訳設定を抽出する。この際、重複する音訳設定は除いてもよい。音訳設定を抽出すると、外部データ作成部３２は、作業者により選択された各テキスト及び抽出した音訳設定を合成音声作成部１５に供給する。合成音声作成部１５は、供給されたテキスト及び音訳設定を、音声合成エンジンが認識可能な形式（例えば、ＳＳＭＬ形式言語）に変換する。また、合成音声作成部１５は、変換した言語を音声合成エンジンに入力し、合成音声を作成する。

　次に、合成音声が作成されると、表示制御部３３は、図１５に示す外部データ作成画面を表示部６に表示する。図１５の例において、表示制御部３３は、外部データ作成画面に、作業者がメッセージ等を入力するためのメッセージ入力部４１を表示する。また、表示制御部３３は、外部データ作成画面に、第三者が希望する音訳設定を選択するための設問部４２、４３を表示する。また、表示制御部３３は、所定のネットワーク上のサーバ装置に対する、外部データ作成画面で作成された外部データの送信を指示するための送信ボタン４４を、外部データ作成画面に表示する。

　表示制御部３３は、各設問部４２、４３に対して、対応するテキスト４５を表示すると共に、テキスト４５に対して設定されている複数の音訳設定４７を表示する。また、表示制御部３３は、各設問部４２、４３に対して、各テキストの音訳設定に対応する合成音声の再生を指定するための再生ボタン４５を表示する。再生ボタン４５で再生される合成音声は、合成音声作成部１５により作成された合成音声である。

　作業者は、このような外部データ作成画面を確認し、必要であれば、メッセージ入力部４１にメッセージを入力し、また、所望のテキストの音訳設定を修正する。そして、作業者は、操作部７を介して送信ボタン４４を送信操作する。外部データ作成部３２は、外部データ作成画面に入力されたメッセージ、各テキスト及び各テキストの音訳設定のＸＭＬデータと、各テキストの音訳設定に対応する合成音声をまとめた圧縮ファイルを作成する。ＸＭＬは、「Extensible　Markup　Language」の略記である。

　図１に示す通信部４は、送信ボタン４４が送信操作されると、外部データ作成部３２により作成された圧縮ファイルを、外部サービスのＷｅｂＡＰＩを利用して、所定のネットワーク上のサーバ装置に送信する。

　第三者は、所定のネットワーク上のサーバ装置にアクセスし、テキストに対して付された複数の音訳設定のうち、所望の音訳設定を選択する。サーバ装置は、第三者から最も多く選択された音訳設定を示す選択結果情報を、ネットワークを介して音訳支援装置に送信する（クラウドソーシング）。選択結果情報は、通信部４により受信される。受信された選択結果情報は、表示制御部３３により、表示部６に表示される。

　これにより、作業者は、各テキストに対して、第三者が多く指示する音訳設定を認識できる。また、選択結果情報は、音訳タグ付与部１２に供給される。音訳タグ付与部１２は、対応するテキストに、選択結果情報で示される音訳設定を行う。これにより、作業者が希望するテキストの音訳設定を、多くの第三者により指示された音訳設定とすることができる。

　（第３の実施の形態の効果）
　以上の説明から明らかなように、第３の実施の形態の音訳支援装置は、クラウドソーシングを用いて、多くの第三者により指示された音訳設定を、テキストに付与できる。このため、音訳の質の向上を図ることができる他、上述の各実施の形態と同様の効果を得ることができる。

　以上、各実施の形態を説明したが、各実施の形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な各実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。各実施の形態およびその変形は、発明の範囲や要旨に含まれると共に、請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims

　音訳するテキストを取得する取得部と、
　前記テキストの音訳設定を示す音訳タグを前記テキストに付与する付与部と、
　前記音訳タグで示される音訳設定のうち、頻出する頻出音訳設定と、前記頻出音訳設定を前記テキストに適応する際の適応条件とを関連付けた音訳パターンを抽出する抽出部と、
　前記音訳パターンを用いて合成音声を作成する作成部と、
　作成された前記合成音声を再生する再生部と
　を備える音訳支援装置。
　前記抽出部は、前記音訳タグの所定の要素又は所定のテキスト形式を前記適応条件として、前記頻出音訳設定に関連付けた音訳パターンを抽出すること
　を特徴とする請求項１に記載の音訳支援装置。
　前記付与部は、構造化文書タグを拡張して記述した前記音訳タグを前記テキストに付与すること
　を特徴とする請求項１に記載の音訳支援装置。
　前記付与部は、前記音訳タグとして、前記合成音声の非出力を指示するポーズ情報を付与し、
　前記抽出部は、所定の前記テキスト形式と、前記ポーズ情報の音訳設定を関連付けた前記音訳パターンを抽出すること
　を特徴とする請求項２に記載の音訳支援装置。
　前記付与部は、前記音訳タグとして、話者、音量及びピッチを含む合成音声パラメタ情報を付与し、
　前記抽出部は、前記テキストの頻出する要素と、頻出する前記要素に付与されている前記合成音声パラメタ情報とを関連付けた音訳パターンを抽出すること
　を特徴とする請求項１に記載の音訳支援装置。
　前記付与部は、前記音訳タグとして、テキストの読みを示す読み情報を付与し、
　前記抽出部は、前記テキストの頻出する要素と、頻出する前記要素に付与されている前記読み情報とを関連付けた音訳パターンを抽出すること
　を特徴とする請求項１に記載の音訳支援装置。
　前記各音訳タグの更新時刻を含む音訳履歴データを記憶する記憶部と、
　前記音訳履歴データから前記各音訳タグの音訳信頼度を算出する算出部と、をさらに備え、
　前記抽出部は、算出された前記各音訳タグの音訳信頼度を用いて、前記各音訳パターンの信頼度を算出し、所定の信頼度以上の音訳パターンのみを抽出すること
　を特徴とする請求項１に記載の音訳支援装置。
　前記各音訳タグの更新時刻を含む音訳履歴データを記憶する記憶部と、
　前記音訳履歴データから前記各音訳タグの音訳信頼度を算出する算出部と、
　前記音訳履歴データ及び前記音訳信頼度から、前記作業者が指定するテキストに対する複数の音訳設定のうち、第三者が所望の音訳設定を選択するための外部データを作成する外部データ作成部と、
　前記第三者がアクセスして所望の前記音訳設定の選択を行う、所定のネットワーク上のサーバ装置に対して、前記外部データを送信すると共に、前記サーバ装置から送信される、前記第三者による前記音訳設定の選択結果を受信する通信部と、をさらに備え、
　前記付与部は、前記第三者の選択結果に対応する音訳設定の音訳タグを、対応するテキストに付与すること
　を特徴とする請求項１に記載の音訳支援装置。
　取得部が、音訳するテキストを取得する取得ステップと、
　付与部が、前記テキストの音訳設定を示す音訳タグを前記テキストに付与する付与ステップと、
　抽出部が、前記音訳タグで示される音訳設定のうち、頻出する頻出音訳設定と、前記頻出音訳設定を前記テキストに適応する際の適応条件とを関連付けた音訳パターンを抽出する抽出ステップと、
　作成部が、前記音訳パターンを用いて合成音声を作成する作成ステップと、
　再生部が、作成された前記合成音声を再生する再生ステップと
　を備える音訳支援方法。
　コンピュータを、
　音訳するテキストを取得する取得部と、
　前記テキストの音訳設定を示す音訳タグを前記テキストに付与する付与部と、
　前記音訳タグで示される音訳設定のうち、頻出する頻出音訳設定と、前記頻出音訳設定を前記テキストに適応する際の適応条件とを関連付けた音訳パターンを抽出する抽出部と、
　前記音訳パターンを用いて合成音声を作成する作成部と、
　作成された前記合成音声を再生する再生部として機能させること
　を特徴とする音訳支援プログラム。