WO2023047623A1

WO2023047623A1 - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: WO2023047623A1
Application number: PCT/JP2022/006808
Authority: WO
Inventors: 礼夢肥田; 将樹濱田; 衣未留角尾
Original assignee: ソニーグループ株式会社
Priority date: 2021-09-27
Filing date: 2022-02-21
Publication date: 2023-03-30

Abstract

情報処理装置（１００）は、文章として記述されたテキストデータを取得する取得部（１３１）と、前記取得部によって取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力する第１のモデルを用いて出力された特徴量を抽出する前処理部（１３２）と、前記前処理部によって抽出された特徴量を、系列データを取り扱う第２のモデルに入力することで、前記文章に含まれる要素ごとの読み方を推定する推定部（１３３）と、を備える。

Description

情報処理装置、情報処理方法及び情報処理プログラム

　本開示は、言語処理に係る情報処理装置、情報処理方法及び情報処理プログラムに関する。

　技術の発展に伴い、コンピュータ等で言語を適切に取り扱うための自然言語処理の重要性が増している。例えば日本語や中国語など、同音異義語や同形異音語が多く存在する言語では、その読み方やアクセントが正確かつ自然でないと、聞き取りやすさや正確性の観点で問題となる。

　この点に関して、言語変換において複数の読み方の曖昧性を除去する技術が知られている（例えば、特許文献１）。また、読み曖昧性の解消のために、読みと単語の共起を用いた共起スコアを定義して、より高いスコアの読みを出力する技術が知られている（例えば、特許文献２）。また、アクセントや読み方に関して、ユーザが容易に修正可能な発音記号列を生成する技術が知られている（例えば、特許文献３）。また、単語の表記と読みや品詞等の情報に基づいてアクセントの高低を推定するモデルを提供する技術が知られている（例えば、特許文献４）。

特開２０１５－０３８７３１号公報特開２０１２－００３３１７号公報特開２０１６－１２２０３３号公報特開２０２１－０９６３２７号公報

　従来技術によれば、個々の単語の読み方やアクセントを比較的正確に出力することができる。しかしながら、現実的には、個々の単語のみで何かを表現する機会は少なく、文章の形式で記述されることが比較的多い。文章形式では、個々の単語の読み方やアクセントは、その文脈に合わせて変化する場合がある。

　このため、個々の単語の読み方やアクセントが正確であっても、まとまった量の文章の読み方を機械に推定させたり、音声合成によって機械に発音させたりすると、ユーザに不自然な印象を与えることがある。また、個々の単語の読み方やアクセントは一応正確であることから、ユーザは、これら不自然な読み方や発音について、なぜこのような結果が出力されるのかといった情報処理の根拠を理解しにくく、改善につなげることが難しい。

　そこで、本開示では、文脈に沿った自然な読み方もしくはアクセントを提供することのできる情報処理装置、情報処理方法及び情報処理プログラムを提案する。

　上記の課題を解決するために、本開示に係る一形態の情報処理装置は、文章として記述されたテキストデータを取得する取得部と、前記取得部によって取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力する第１のモデルを用いて出力された特徴量を抽出する前処理部と、前記前処理部によって抽出された特徴量を、系列データを取り扱う第２のモデルに入力することで、前記文章に含まれる要素ごとの読み方を推定する推定部と、を備える。

実施形態に係る情報処理の概要を示す図である。実施形態に係る情報処理を概念的に示すブロック図である。実施形態に係る読み曖昧性解消処理を説明するための図である。読み曖昧性解消処理に係るモデルを説明するための図である。実施形態に係るアクセント推定処理を説明するための図である。アクセント推定処理に係るモデルを説明するための図である。実施形態に係るユーザーインターフェイスを説明するための図（１）である。実施形態に係るユーザーインターフェイスを説明するための図（２）である。実施形態に係るユーザーインターフェイスを説明するための図（３）である。実施形態に係るユーザーインターフェイスを説明するための図（４）である。実施形態に係るユーザーインターフェイスを説明するための図（５）である。実施形態に係る情報処理装置の構成例を示す図である。実施形態に係る追加情報記憶部の一例を示す図である。実施形態に係るユーザ端末の構成例を示す図である。実施形態に係る処理の流れを示すフローチャートである。情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

　以下に、実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　以下に示す項目順序に従って本開示を説明する。
　　１．実施形態
　　　１－１．実施形態に係る情報処理の概要
　　　１－２．実施形態に係る情報処理装置の構成
　　　１－３．実施形態に係るユーザ端末の構成
　　　１－４．実施形態に係る処理の手順
　　　１－５．実施形態に係る変形例
　　２．その他の実施形態
　　３．本開示に係る情報処理装置の効果
　　４．ハードウェア構成

（１．実施形態）
（１－１．実施形態に係る情報処理の概要）
　図１を用いて、本開示の実施形態に係る情報処理の一例を説明する。図１は、実施形態に係る情報処理の概要を示す図である。実施形態に係る情報処理は、図１に示す情報処理システム１によって実行される。

　図１に示すように、情報処理システム１は、情報処理装置１００と、ユーザ端末２００とを含む。情報処理装置１００は、本開示に係る情報処理を実行する情報処理装置の一例であり、例えばサーバである。

　ユーザ端末２００は、ユーザ１０によって利用される情報通信機器であり、例えばスマートフォンやタブレット端末である。なお、以下では、ユーザ１０とユーザ端末２００とを相互に読み替える場合がある。例えば、「ユーザ１０にデータを送信する」とは、実際には、「ユーザ１０が利用するユーザ端末２００にデータを送信する」ということを意味する場合がある。

　図１における各々の装置は、情報処理システム１における機能を概念的に示すものであり、実施形態によって様々な態様をとりうる。例えば、ユーザ端末２００は、１台または２台以上の端末装置であってもよい。また、情報処理装置１００とユーザ端末２００とは、同一の装置であってもよい。

　図１に示す例において、情報処理装置１００は、ユーザから任意のテキストデータを取得し、取得したテキストの読み方やアクセントを推定する処理を実行する。また、情報処理装置１００は、推定した読み方やアクセントに沿って機械的に音声を合成し、ユーザ端末２００において、その音声を出力するよう制御する。

　ところで、このようなテキストの読み上げを行う音声合成処理では、個々の単語等の読み方やアクセントが正確であったとしても、文章全体としては不自然な読み方やアクセントとなることが多い。これは、文脈によって個々の単語の意味（読み方）が変化したり、その意味の変化に伴ってアクセントが変化したりするからである。そして、従来のルールベースの言語モデルやＮ－ｇｒａｍ言語モデル等では、文脈を考慮しないか、あるいは前後の数単語を考慮するのみであり、文章全体を自然に読み上げることは困難であった。

　また、仮にユーザが出力された発音等を修正できる機会が与えられたとしても、読みやアクセントの位置を指定することは言語や音声の知識を必要とする。また、ユーザによってなされた修正が、異なる文に対して反映されるとは限らない。すなわち、機械的に出力された結果に対して、ユーザが介入することが難しく、ユーザにとって自然な読み方やアクセントの実現に近づけることが困難であった。このように、現状の自然言語処理には、個々の単語等について正確な読み方やアクセントを提供するのみならず、文章全体において、文脈に沿った自然な読み方もしくはアクセントを提供するという課題が存在する。

　そこで、本開示に係る情報処理装置１００は、以下に説明する処理によって上記課題を解決する。具体的には、情報処理装置１００は、文章として記述されたテキストデータを取得し、テキストデータを形態素等の要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力する事前学習済み言語モデルを用いて出力された特徴量を抽出する。さらに、情報処理装置１００は、抽出された特徴量を、任意の長さの系列を取り扱うことのできる学習済み読み方推定モデルに入力することで、文章に含まれる要素ごとの読み方を推定する。また、情報処理装置１００は、学習済みアクセント推定モデルを用いて、文章に含まれる要素ごとのアクセントを推定する。なお、「文章」とは、文が連なった一連の複数の文を意味することもあるが、本開示では、一文のみで構成されるものも含めて文章と総称する。

　このように、情報処理装置１００は、文脈を考慮した要素ごとの特徴量を文章全体について導出し、導出した特徴量を読み方もしくはアクセントの推定モデルに入力することで、読み方もしくはアクセントを推定する。これにより、情報処理装置１００は、文脈に沿った適切な読み方もしくはアクセントを推定することができる。かかる処理について、図以下を用いて説明する。

　図１には、実施形態に係る情報処理が実行される際の流れの概要を示す。まず、ユーザ１０は、情報処理装置１００に処理を実行させたいテキストデータを送信する（ステップＳ１）。例えば、ユーザ１０は、ユーザ端末２００の画面上に表示されているユーザインターフェイスにおいて、任意のテキストデータを入力する。図１の例では、ユーザ１０は、「昔は北の方に通っていた。」という文章２０を入力する。なお、ユーザ１０は、文章２０の前後に、文章２０と接続される他の文章を入力してもよい。すなわち、ユーザ１０は、複数の文章を含むテキストデータを入力してもよい。

　情報処理装置１００は、ユーザ１０から文章２０を受信すると、文章２０について読み方およびアクセントの推定処理を実行する（ステップＳ２）。詳細は図２以下を用いて説明するが、情報処理装置１００は、文章２０に含まれる形態素のうち、読み方が曖昧なものについて、読み曖昧性解消処理を実行する。また、情報処理装置１００は、読み方の曖昧性が解消されたのち、文章２０全体のアクセントを推定する。

　図１の例では、情報処理装置１００は、「昔は北の方に通っていた」という文章２０の入力を受け付けると、読み曖昧性解消を実行し、文章２０のうち、「方に」や、「通って」という読みが曖昧な形態素の読みを推定する。そして、情報処理装置１００は、文章２０が、「むかしはきたのほうにかよっていた」という読み方であると推定する。

　さらに、情報処理装置１００は、文章２０についてアクセント推定処理を行う。かかる処理は、日本語等の読み曖昧性解消処理が重要である言語については、読み曖昧性解消処理のあとに実行される。一方、読み曖昧性解消処理が重要でない言語や、処理を高速化する場合、情報処理装置１００は、読み曖昧性解消処理を行わずに、アクセント推定処理を行ってもよい。

　情報処理装置１００は、推定したアクセントに基づいて、文章２０に対して音声を合成する。そして、情報処理装置１００は、推定した読み方およびアクセントをユーザ１０に送信する（ステップＳ３）。具体的には、情報処理装置１００は、ユーザ端末２００のユーザインターフェイス上に推定した読み方の結果を表示するよう制御する。また、情報処理装置１００は、ユーザ端末２００のユーザインターフェイスにおいて、推定したアクセントに基づく音声を出力するよう制御する。

　ユーザ１０は、推定結果を確認したのち、フィードバックを情報処理装置１００に送信する。詳細は後述するが、ユーザ１０は、例えば、複数提示された推定結果のうち最も自然である読み方やアクセントの音声を選択し、選択した結果を情報処理装置１００に送信する。情報処理装置１００は、受信したフィードバックを教師ありデータとしてモデルを再学習することで、さらに推定の精度を高めることができる。

　続いて、図２以下を用いて、図１で示した情報処理の詳細について説明する。図２は、実施形態に係る情報処理を概念的に示すブロック図である。図２は、ユーザ端末２００と情報処理装置１００との間で送受信されるデータの流れと、データに対して実行されるお各々の処理をブロック図として示している。

　まず、ユーザ端末２００は、ユーザ１０からテキストデータの入力を受け付ける（ステップＳ１１）。ユーザ１０は、ユーザ端末２００上でテキストを入力してもよいし、音声による入力等を行ってもよい。また、ユーザ１０は、テキストが含まれるファイルをユーザインターフェイス上にアップロードすること等により、テキストデータの入力を行ってもよい。

　テキストデータが入力されると、情報処理装置１００は、まず取得したテキストデータを前処理部１３２で処理する。前処理部１３２は、ユーザ端末２００から取得したテキストデータが複数の文章を含む場合、一文ごとのデータとなるよう、テキストデータを文章単位に分割する（ステップＳ１２）。前処理部１３２は、句読点などの記号を区切り文字として文章に分割しても良いし、機械学習モデル等を用いて分割してもよい。また、前処理部１３２は、句読点等が明確でない会話文等を取得した場合、話者単位で文章を分割してもよい。このように、前処理部１３２は、任意の手法を用いて、取得したテキストデータを文章単位に分割する。

　続いて、前処理部１３２は、一文単位に分割を行ったテキストデータに対して、それぞれの文章を形態素解析し、文章を形態素に分解する（ステップＳ１３）。言い換えれば、前処理部１３２は、処理対象となる文章を、構成する要素である複数の単語に分解する。さらに、前処理部１３２は、形態素解析によって分割された単語について、任意の辞書データに基づいて、各単語に言語的な情報（品詞、発音（読み方）、語彙素、アクセント情報など）を付与する。なお、前処理部１３２は、この際に、言語的情報が記述されたユーザ独自の辞書を用いてもよい。

　続けて、前処理部１３２は、各単語の特徴量を抽出する（ステップＳ１４）。例えば、前処理部１３２は、形態素解析によって得られた、各単語の言語的情報をそのまま特徴量の一つとして取り扱う。さらに、前処理部１３２は、ＢＥＲＴ（Bidirectional　Encoder　Representations　from　Transformers）等、大規模な事前学習済み言語モデルから特徴量を抽出し、単語ごとにその特徴量を割り当てることも可能である。

　また、前処理部１３２は、追加情報記憶部１２１にアクセスして取得した追加情報を用いて、追加情報処理を行うこともできる（ステップＳ１５）。追加情報とは、文章の読み方およびアクセントを推定する処理において、追加的に利用される情報をいう。

　一例として、「三田」という単語に関する追加情報とは、「みた」という読み方と、それが「東京（関東）の地名」であるという組み合わせからなる情報である。この場合、追加情報記憶部１２１は、「三田」という単語に関する他の追加情報として、「さんだ」という読み方と、それが「兵庫（関西）の地名」であるという組み合わせからなる情報を記憶していてもよい。このような情報を推定処理に用いることで、例えば、処理対象とする文章が東京に関連するものである場合に、前処理部１３２は、「三田」という単語が出現すると、その読み方は「みた」であると推定する蓋然性が高まる。

　なお、追加情報とは、上記のような一般的知識情報のみならず、後述するような、文章固有の知識に関するものであってもよい。また、追加情報記憶部１２１は、必ずしも情報処理装置１００が保持するものでなく、複数のウェブサーバやクラウドサーバが保持していてもよい。この場合、前処理部１３２は、処理に用いる際に、関連する追加情報を各々のデータベースから適宜取得してもよい。

　上記の例では、追加情報は、(三田、みた、located、東京)という４つのデータが組み合わされた構造となる。この場合、追加情報処理では、「東京」という単語を含む文中では、「三田」の読みを「みた」と推定するという、ルールベースでの処理をすることができる。

　また、他の例として、追加情報がノードとエッジからなるグラフ形式で格納されていれば、追加情報処理では、グラフ埋め込みの手法を用いてグラフをベクトルに変換し、読みやアクセントを推定する機械学習モデルへの追加入力とすることもできる。

　以上が、ユーザ端末２００から入力が行われた際に処理を実行する前処理部の動作である。前処理部で文章が処理されると、情報処理は、推定部１３３での処理に移行する。

　すなわち、推定部１３３は、文脈情報に基づいて、読み方およびアクセントを推定する処理系である。具体的には、推定部１３３は、処理対象とする１文章ごとに、前処理部で生成された単語単位の情報を推定モデルに渡し、読み曖昧性解消処理を実行する（ステップＳ１２）。また、推定部１３３は、読み曖昧性解消処理によって推定された読み方に基づいて、文章全体のアクセントを推定する（ステップＳ１７）。この際、推定部１３３は、形態素解析の結果として得られた特徴量と、ＢＥＲＴなどの事前学習済み言語モデルから得られた特徴量を併用することで、文脈を考慮した推定処理を行うことができる。

　なお、推定部１３３は、推定モデルへの入力を一文に限る必要はない。例えば、推定部１３３は、追加情報として、前後の文や文全体のトピック、文章のうちどの部分を注視するかの情報、注視したものに関する外部の情報などを処理に利用してもよい。前後の文や文全体のトピックとは、例えば、ニュース記事であればスポーツや芸能、政治や経済等の各種トピックに含まれる用語等である。また、文全体のどの部分を注視するかの情報とは、例えば、ある特定の地名や指示語が指す先などを意味する。また、注視したものに関する外部の情報とは、例えば、注視された固有名詞で示される登場人物のプロフィール等である。

　一例として、「私は兵庫に住んでいた。高校は三田の方に通っていた。」といった２文章について読み方を推定する場合、文章ごとに処理を行うと、「三田」の読み方に曖昧性が生ずる。しかしながら、推定部１３３は、「三田」という単語を処理する際に直前の文章（「私は兵庫に住んでいた」）を考慮することで、「三田」という単語の読み方は「さんだ」の可能性が高い、と推定することが可能となる。

　上記の例では、推定部１３３は、「三田」が登場する直前の文章全体ではなく、「兵庫」という単語を注視することで、「さんだ」を推定することも可能である。また、他の例として、「Ａさんは三田出身だ。」といった文章を処理する際に、推定部１３３は、「Ａさん：関西出身」であるというプロフィールを追加情報として利用することで、「三田」を「さんだ」と推定してもよい。追加情報は、上記の例のように（Ａ、出身地、関西）といった組み合わせ構造の情報として保持されていてもよいし、自然文の形式で保持されていてもよい。

　推定部１３３によって読み方およびアクセントが推定されると、情報処理装置１００は、推定結果をユーザ端末２００に送信する。

　ユーザ端末２００は、受信した推定結果をユーザインターフェイス上に出力する（ステップＳ１８）。また、ユーザ端末２００は、推定された読み方およびアクセントに基づき、テキストデータを音声合成し、出力する（ステップＳ１９）。ユーザ１０は、必要に応じて、推定結果に関するフィードバックを情報処理装置１００に送信する（ステップＳ２０）。

　推定部１３３の処理について、図３以下を用いて詳細に説明する。図３は、実施形態に係る読み曖昧性解消処理を説明するための図である。

　図２で説明した読み曖昧性解消処理（ステップＳ１６）は、単語特定処理（ステップＳ２１）および読み曖昧性解消処理（ステップＳ２３）を含む。また、読み曖昧性解消処理は、読み方に関する事前学習として、読み曖昧性解消学習処理（ステップＳ２２）を含む。すなわち、推定部１３３は、事前学習として、読み方とテキストが組み合わされた教師ありデータである読み付きテキストデータ３５を用いて、読み曖昧性を解消するためのモデルを事前学習しておく。なお、かかる学習は情報処理装置１００が実行するのではなく、外部装置において学習を済ませてもよい。この場合、情報処理装置１００は、処理に要する学習済みモデルを適宜取得する。

　単語特定処理では、前段の特徴量抽出処理（ステップＳ１４）において抽出された特徴量を用いて、予めルールによって、読み曖昧性解消を行うべき単語を特定する。

　図３に示す例文は、「昔は北の方に通っていた」という文章を、「昔」「は」「北」「の」「方」「に」「通っ」「て」「い」「た」という形態素に解析した結果を示す。例えば、推定部１３３は、「表記が『方』かつ品詞が名詞」といった、予め定められたルールに従い、形態素のうち、読み曖昧性を解消する単語を特定する。なお、ルールには、表記、品詞、その他の言語情報、または前後の単語の情報など任意の情報が含まれてもよい。

　図３の例では、推定部１３３は、ルールに従い、「方」と、「通っ」と、を読み曖昧性処理で解消する単語として特定したものとする。なお、後述するように、推定部１３３は、必ずしも読み曖昧性を解消する単語を特定することを要さず、全ての単語を処理対象としてもよい。

　読み曖昧性解消処理では、ステップＳ２１において特定された単語の読みの曖昧性を解消し、テキスト中の前後の単語の情報を用いて正しい読みを推定する。図３の例では、推定部１３３は、「昔は北の方に通っていた」という文章に対し、「方」と「通っ」の読みがそれぞれ「ほう」「かよっ」であると推定する。その後、情報処理は、アクセント推定処理（ステップＳ１７）に移行する。

　読み曖昧性解消処理について、図４を用いて詳細に説明する。図４は、読み曖昧性解消処理に係るモデルを説明するための図である。

　図４は、読み方曖昧性解消処理を実行する推定モデル４０の構成を示すものである。図４に示すように、推定モデル４０は、一文の各要素について、読み曖昧性解消フラグベクトルとして表される特徴量４１と、品詞埋め込みベクトルとして表される特徴量４２と、ＢＥＲＴ埋め込みベクトルとして表される特徴量４３とを、系列を扱うことのできるＬＳＴＭ（Long　Short-Term　Memory）モデル４４に入力するという構造を有する。

　読み曖昧性解消フラグベクトルとは、読み曖昧性を解消する単語とそれ以外の単語を区別するための、２通りの値を取るベクトルである。例えば、読み曖昧性解消フラグベクトルが「１」である単語は、前段の単語特定処理によって特定された単語である。また、読み曖昧性解消フラグベクトルが「０」である単語は、前段の単語特定処理によって特定されなかった単語である。

　品詞埋め込みベクトルとは、各単語の品詞をベクトル（特徴量）に変換したものである。品詞埋め込みベクトルでは、品詞に限らず、発音などの他の言語情報が用いられてもよい。

　ＢＥＲＴ埋め込みベクトルは、各単語を文章における前後の単語に依存したベクトル（特徴量）に変換したものである。なお、変換に用いるモデルはＢＥＲＴに限らず、任意の事前学習済み言語モデルであってもよい。

　推定部１３３は、上記３つのベクトルを単語ごとに結合したものをＬＳＴＭモデル４４への入力とし、単語特定処理において特定された単語の正しい読みを推定する。なお、推定に用いられるモデルは、ＬＳＴＭモデル４４に限らず、系列を入出力とする任意の機械学習モデルであってもよい。系列を扱うモデルによれば、任意の長さの系列を処理対象として扱えるため、遠い過去の単語も参照して読み推定が可能である。特に双方向ＬＳＴＭモデルを用いることで、過去だけでなく未来の単語も参照することができる。

　なお、推定部１３３は、読み方として、一つの読み方のみを出力するのではなく、可能性の高い上位ｎ件（ｎは自然数）の読み方を出力してもよい。

　また、図３での図示は省略しているが、推定部１３３は、適宜、読み方推定の根拠となりうる追加情報を取得し、処理に利用してもよい。

　また、推定部１３３によって推定された読み方およびテキストデータは、新たな学習データである読み付きテキストデータ３５として保持され、上述の読み曖昧性解消処理のための機械学習に利用されてもよい。

　続いて、図５を用いて、アクセント推定処理について説明する。図５は、実施形態に係るアクセント推定処理を説明するための図である。

　図５に示すように、推定部１３３は、読み方曖昧性が解消されたテキストを取得するとともに、追加情報記憶部１２１から追加情報を取得し、取得したテキストのアクセント推定処理を行う（ステップＳ１７）。推定部１３３は、推定したアクセントの結果として、韻律情報記号列（テキストのいずれの位置にアクセント核等が置かれるかを示す情報）と、そのアクセントに推定した根拠となる情報とを出力する。

　アクセント推定に係るモデルの構成について、図６を用いて詳細に説明する。図６は、アクセント推定処理に係るモデルを説明するための図である。図５に示すように、推定モデル５０は、一文の各要素について、追加情報埋め込みベクトルとして表される特徴量５２１と、言語特徴量埋め込みベクトルとして表される特徴量５２２と、ＢＥＲＴ埋め込みベクトルとして表される特徴量５２３とをＢｉＬＳＴＭモデルに入力する構造を有する。また、推定モデル５０は、ＢｉＬＳＴＭモデルから出力された結果を、さらにＣＲＦ（Conditional　Random　Field）５３０およびＣＲＦ５３１を通すことで、アクセント句およびアクセント核の推定結果を出力する構造を有する。なお、ＣＲＦ５３０およびＣＲＦ５３１は、条件付き確率場という識別モデルであり、本開示では、アクセント句およびアクセント核の推定結果（認識結果）を出力するよう機能する。なお、推定モデル５０のうち、Ｌｉｎｅａｒやｃｏｎｃａｔは、出力された数値を整えるための関数を示す。

　アクセント推定処理では、読み曖昧性が解消された形態素列および発音列に対して、アクセント句の区切り位置とアクセント核位置を推定する。処理に用いる特徴量は、単語毎の言語的な情報（品詞、発音、語彙素、アクセント情報等）や、アクセント核の推定に対してはアクセント句の区切りの情報やルールによるアクセント核位置の変更（高低のルール等）である。

　一般に、アクセント句やアクセント核は、単語単体のアクセントや簡単なルールだけでは網羅しきれないという問題がある。具体的には、各単語が連なることにより、それぞれの単語のアクセント核が変更されることがある。一例として、「内閣官房長官」という単語は、「内閣」「官房」「長官」といった３つの形態素から構成される。この場合、アクセント句としては、「内閣／官房長官」のように、「内閣」と「官房長官」との間で切れることを推定しなくてはならないが、実際には、「内閣」と「官房」、「官房」と「長官」の、いずれも名詞の連続部分になっており、単純なルールで推定することはできない。なお、「／」は、アクセント句の区切り位置を示す。

　さらに、「内閣／官房長官」と区切れた際に、元の単語のアクセント核を考慮すると、「な’いかく/かんぼーちょーかん」となるが、正しくは「な’いかく/かんぼーちょ’ーかん」が正しい。なお、「’」はアクセント核位置を示す。

　このように、各単語のみのアクセントと、文章全体のアクセントは異なることが多い。このため、推定部１３３は、図６に示すような、文章全体の連なりを系として推定処理を行うことで、文章全体について自然な表現となるアクセントを推定する。

　具体的には、推定部１３３は、図６に示すように、「昔は北の方に通っていた」という例文において、「昔は／北の方に／通っていた」という、自然に区切られたアクセント句を出力する。また、推定部１３３は、「昔は北の方に通っていた」という例文において、「むかしは／きたのほ’ーに／かよっていた」という、自然な高低を示すアクセント核を出力する。

　なお、図６に示した処理において、推定部１３３は、アクセント核の推定の入力として、アクセント句で区切った形態素列を入力しても良い。また、推定部１３３は、アクセント句およびアクセント核の推定について、別々のモデルで行ってもよいし、まとめて扱ってもよい。

　また、推定部１３３は、推定した結果として、確率が最も高いものを１つだけ出力してもよいし、確率が高い上位ｎ件を出力してもよい。この際に、推定部１３３は、アクセント句の推定は最も確率の高いものとし、アクセント核は確率が高い条件でｎ件を組み合わせて出力したり、アクセント句およびアクセント核の組み合わせを考慮した上位ｎ件を出力したりするなど、様々な態様で結果を出力してもよい。

　また、推定部１３３は、推定結果とともに、その推定の根拠となった情報を出力する。例えば、推定部１３３は、根拠として、追加情報として利用した情報を参照するような形式で出力してもよいし、文内のどの単語や範囲が推定に寄与したか、を示す形式で出力してもよい。

　続いて、図７乃至図１１を用いて、テキストデータが入力される際や、推定結果が出力される際に利用されるユーザインターフェイスについて説明する。図７は、実施形態に係るユーザーインターフェイスを説明するための図（１）である。

　図７に示すユーザインターフェイス５１は、ユーザ１０がテキストデータの入力を実行する際に利用されるユーザ端末２００の画面表示例を示す。ユーザインターフェイス５１は、追加情報欄５２と、対象文入力欄５３と、出力数指定欄５４と、推定実行ボタン５６を含む。

　追加情報欄５２は、ユーザ１０が追加情報としてテキストを入力する欄を示す。追加情報欄５２に入力されるテキストは、例えば、対象文の前後の文章等である。なお、追加情報は、ユーザ１０が指定するのではなく、追加情報記憶部１２１に記憶された追加情報が適宜利用されてもよい。

　対象文入力欄５３は、処理対象とするテキストを入力する欄である。出力数指定欄５４は、推定結果として出力する数を指定する欄である。推定実行ボタン５６は、推定処理を実行させたい場合にユーザ１０が押下するボタンである。

　ユーザ１０が推定実行ボタン５６を押下すると、ユーザインターフェイス５１は、表示を図８に遷移する。図８は、実施形態に係るユーザーインターフェイスを説明するための図（２）である。

　ユーザインターフェイス６０は、ユーザインターフェイス５１に表示されていた情報に加え、推定結果の表示をさらに含む。具体的には、ユーザインターフェイス６０は、出力結果６１と、根拠６２と、根拠数指定欄６３と、音声合成開始ボタン６４を含む。ユーザインターフェイス６０を参照することで、ユーザ１０は、推定結果を確認することができる。

　出力結果６１は、対象文における読み方およびアクセントの推定結果を示す。例えば、ユーザ１０が出力数指定欄５４において「３」を指定した場合、出力結果６１には、上位３つの推定結果が示される。

　根拠６２には、推定結果の根拠が示される。例えば、根拠６２には、読みが曖昧であると特定された単語について、その推定結果の根拠となった情報（推定結果における読み方およびアクセントに対して、どの部分が寄与したか）が示される。図８に示す例では、１番目の推定結果において、「三田」を「さんだ」と読む根拠となった情報が「兵庫」であることが示されている。ユーザ１０は、根拠数指定欄６３の数値を変更することで、３つ提示された推定結果のうち、どの推定結果を表示させるかを選択できる。

　ユーザ１０は、音声合成開始ボタン６４を押下することで、推定結果を音声としてユーザ端末２００に発話させることができる。ユーザ１０が音声合成開始ボタン６４を押下すると、ユーザインターフェイス６０は、表示を図９に遷移する。図９は、実施形態に係るユーザーインターフェイスを説明するための図（３）である。

　ユーザインターフェイス７０は、ユーザインターフェイス６０に表示されていた情報に加え、音声アイコン７１と、音声アイコン７２と、音声アイコン７３と、ボックス７４とを含む。

　ユーザ１０が音声アイコン７１、音声アイコン７２、もしくは音声アイコン７３に対応するボックスを選択すると、ユーザ端末２００は、音声アイコン７１、音声アイコン７２、もしくは音声アイコン７３に対応する推定結果を音声合成し、発話する。図９の例では、ユーザ１０が音声アイコン７１に対応するボックス７４にチェックしているので、ユーザ端末２００は、音声アイコン７１に対応する推定結果である「こーこーは／さ’んだの／ほ’ーに／かよっていた。」というテキストを音声合成した結果を発話する。なお、ユーザ端末２００は、読み方やアクセントが反映できるものであれば、いずれの音声合成器を利用して音声合成を行ってもよい。例えば、ユーザ端末２００は、Ｔａｃｏｔｒｏｎ２とＷａｖｅｎｅｔを組み合わせた深層学習ベースの手法でもよいし、ＨＭＭ（Hidden　Markov　Model）を利用して音声合成を行ってもよい。

　また、ユーザ端末２００は、図８までの情報に加え、ユーザ１０からフィードバックを受け付けるための表示を行ってもよい。フィードバックに関して、図１０を用いて説明する。図１０は、実施形態に係るユーザーインターフェイスを説明するための図（４）である。

　ユーザインターフェイス８０は、ユーザインターフェイス７０に表示されていた情報に加え、判定ボックス８１と判定ボックス８２を含む。

　判定ボックス８１と判定ボックス８２は、読み方の根拠が正確であるか否かをユーザ１０が判定した結果を入力するためのボックスである。ユーザ１０は、図１０の例では、「三田」を「さんだ」と推定した読み方の根拠として、「兵庫」が適切であれば、判定ボックス８１に「〇」を入力する。一方、ユーザ１０は、「三田」を「さんだ」と推定した読み方の根拠として「兵庫」が適切でない場合、判定ボックス８１に「×」を入力する。

　また、ユーザ１０は、「通って」を「かよって」と推定した読み方の根拠として、「高校は」が適切であれば、判定ボックス８２に「〇」を入力する。一方、ユーザ１０は、「通って」を「かよって」と推定した読み方の根拠として、「高校は」が適切でない場合、判定ボックス８２に「×」を入力する。かかる結果は、ユーザ端末２００から情報処理装置１００に送信され、読み方の学習に利用される。

　また、他の例として、ユーザ１０が修正例を情報処理装置１００に送信することもできる。この点について、図１１を用いて説明する。図１１は、実施形態に係るユーザーインターフェイスを説明するための図（５）である。

　ユーザインターフェイス８５は、ユーザインターフェイス８０に表示されていた情報に代えて、修正欄８６を含む。

　例えば、図１０において判定ボックス８２に「×」が入力された場合、ユーザ端末２００は、ユーザインターフェイス８５において修正欄８６を表示し、ユーザ１０からの入力を待つ。ユーザ１０は、「通って」を「かよって」と推定した読み方の根拠として「高校は」ではなく、「方に」を根拠とするのが適切であると考える場合、「方に」を指定した内容を修正欄８６に入力する。かかる結果は、ユーザ端末２００から情報処理装置１００に送信され、読み方の学習に利用される。

　なお、図１０および図１１では、ユーザ１０が根拠に関してフィードバックを実行する例を示したが、フィードバックは、推定結果に対して実行されてもよい。例えば、ユーザ１０は、３つ提示された推定結果のうち、最も適切と考える推定結果を選択したり、最も不適切と考える推定結果を選択し、その結果を情報処理装置１００に送信してもよい。例えば、ユーザ１０は、推定結果として示された３つの候補の読み方およびアクセント系列を音声合成器で音声化し、それらを聴き比べ、最も好ましいと思える自然なものを選択する。これにより、ユーザ１０にとって自然な音声が再生されるとともに、情報処理装置１００は、フィードバック結果を学習データとして再学習することで、より精度の高いモデルを構築することができる。

　なお、ユーザ１０は、推定結果の良し悪しといった２値情報のみならず、自ら読み方やアクセント句およびアクセント核を編集し、その結果をフィードバックとして送信してもよい。また、ユーザ１０は、根拠が示されていない読み方に対して根拠を新たに追加するなど、多様な情報をフィードバックとして送信することができる。

（１－２．実施形態に係る情報処理装置の構成）
　次に、情報処理装置１００の構成について説明する。図１２は、実施形態に係る情報処理装置１００の構成例を示す図である。

　図１２に示すように、情報処理装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。なお、情報処理装置１００は、情報処理装置１００を管理する管理者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）や、各種情報を表示するための表示部（例えば、液晶ディスプレイ等）を有してもよい。

　通信部１１０は、例えば、ＮＩＣ（Network　Interface　Card）やネットワークインタフェイスコントローラ（Network　Interface　Controller）等によって実現される。通信部１１０は、ネットワークＮと有線又は無線で接続され、ネットワークＮを介して、ユーザ端末２００等と情報の送受信を行う。ネットワークＮは、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）、インターネット、Ｗｉ－Ｆｉ（登録商標）、ＵＷＢ（Ultra　Wide　Band）、ＬＰＷＡ（Low　Power　Wide　Area）、ＥＬＴＲＥＳ（登録商標）等の無線通信規格もしくは方式で実現される。

　記憶部１２０は、例えば、ＲＡＭ（Random　Access　Memory)、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１２０は、追加情報記憶部１２１と、モデル記憶部１２２とを有する。以下、各記憶部について順に説明する。

　図１３は、実施形態に係る追加情報記憶部１２１の一例を示す図である。図１３に示すように、追加情報記憶部１２１は、情報処理に用いられる追加情報を記憶する。図１３に示す例では、追加情報記憶部１２１は、「追加情報ＩＤ」、「構造」といった項目を有する。「追加情報ＩＤ」は、追加情報を識別するための識別情報である。「構造」は、追加情報が保持されている構造を示す。図１３の例では、追加情報記憶部１２１は、（テキスト、読み方、属性、名称）という構造のもと、（三田、みた、located、東京）といった情報や、（三田、さんだ、located、兵庫）といった追加情報を記憶している。

　モデル記憶部１２２は、特徴量を抽出したり、読み方およびアクセントを推定したりするために利用されるモデルを記憶する。なお、モデル記憶部１２２には、図３に示した読み付きテキストデータ３５など、各種学習データが記憶されてもよい。

　図１２に戻って説明を続ける。制御部１３０は、例えば、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）、ＧＰＵ（Graphics　Processing　Unit）等によって、情報処理装置１００内部に記憶されたプログラム（例えば、本開示に係る情報処理プログラム）がＲＡＭ（Random　Access　Memory）等を作業領域として実行されることにより実現される。また、制御部１３０は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実現されてもよい。

　図１２に示すように、制御部１３０は、取得部１３１と、前処理部１３２と、推定部１３３と、送信部１３４とを含む。

　取得部１３１は、ユーザ１０による入力に基づき、文章として記述されたテキストデータを取得する。また、取得部１３１は、必要に応じて、ユーザ端末２００や外部装置から追加情報を取得してもよい。

　また、取得部１３１は、ユーザ１０からのフィードバックとして、推定結果および根拠が正確か否かをユーザが判定した結果をユーザ端末２００から取得する。例えば、取得部１３１は、ユーザインターフェイスを介して、推定結果および根拠が正確か否かを示した２値データをユーザ端末２００から取得する。

　なお、取得部１３１は、推定結果および根拠に対してユーザ１０が修正した修正結果をユーザ端末２００から取得してもよい。すなわち、取得部１３１は、ユーザ１０が修正した読み方やアクセント句、アクセント核等の情報を取得する。また、取得部１３１は、ユーザ１０が修正した根拠となる単語や、２以上の単語を含む文中の範囲に関する情報を取得してもよい。

　前処理部１３２は、取得部１３１によって取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力する第１のモデルを用いて出力された特徴量を抽出する。第１のモデルとは、例えばＢＥＲＴのような、文脈を考慮した特徴量を出力可能な事前学習済み言語モデルである。また、前処理部１３２は、図３および図４で示したように、形態素解析して得られた各単語ごとの特徴量を、各種のベクトル形式で抽出する。後段の推定処理では、かかる特徴量を入力とすることで、文脈を考慮した推定を実行することが可能となる。

　また、前処理部１３２は、アクセントを推定する際には、読み方が推定された要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力する第１のモデルを用いて出力された特徴量を抽出してもよい。すなわち、前処理部１３２は、図５および図６で示したように、読み方が推定された各単語ごとの特徴量を、各種のベクトル形式で抽出する。この場合の第１のモデルとは、上記と同様ＢＥＲＴのような事前学習済み言語モデルが想定されるが、読み方推定とアクセント推定との特徴量抽出においてはそれぞれ異なるモデルが用いられてもよい。

　推定部１３３は、前処理部１３２によって抽出された特徴量を系列データを取り扱う第２のモデルに入力することで、文章に含まれる要素ごとの読み方を推定する。第２のモデルとは、例えばＬＳＴＭモデル４４のような、系列データを取り扱うことのできる学習済みモデルである。

　このとき、推定部１３３は、予め規定されたルールに基づき、読み方を推定する対象となる要素を特定し、特定した要素について読み方を推定する。特定した結果は、例えば、読み曖昧性解消フラグベクトルにおける２値データとなり、特徴量の一つとして扱われる。

　具体的には、推定部１３３は、ルールとして、要素における表記および品詞に基づいて、読み方を推定する対象となる要素を特定する。このように、推定部１３３は、一般に読み方が曖昧となりそうな単語をルールベースで保持することで、読みの曖昧性を解消すべき単語を正確に特定することができる。

　また、推定部１３３は、読み方を推定する対象となる要素について、正解可能性の高い順に複数の読み方を推定してもよい。これにより、推定部１３３は、ユーザ１０にいくつかの読みの可能性があることを示唆できる。

　また、推定部１３３は、文章に含まれる要素、もしくは、文章の前後の文章に含まれる要素に関連する情報である追加情報を用いて、読み方を推定してもよい。

　すなわち、推定部１３３は、追加情報として、文章に含まれる要素、もしくは、文章の前後の文章に含まれる要素に該当する語句と、語句に紐づけられた読みもしくは語義を用いて、読み方を推定する。例えば、推定部１３３は、ある単語の読み方と地名とに関連性があることを示す情報等を追加情報として保持し、かかる情報を推定に利用することで、より正確な推定を行うことができる。

　また、推定部１３３は、追加情報として、文章、もしくは、当該文章の前後の文章における意図を解析した結果と、結果に紐づけられた語句の読みもしくは語義を用いて、読み方を推定してもよい。例えば、推定部１３３は、図７に示したように、処理対象とする文章の前段もしくは後段となる文章等を追加情報として利用する。具体的には、推定部１３３は、一文を学習済みモデルに入力して当該文に含まれる意図を解析し、その意図に含まれる内容や語句等を追加情報として利用する。例えば、推定部１３３は、文中に「東京」と明示されていない文章であっても、文の内容を解析することにより、その文が示す内容が東京に関することであると判定できれば、「東京」に関連する追加情報を処理に利用することができる。「東京」に関連する情報とは、例えば、追加情報記憶部１２１に記憶されている、東京と読み方とが組み合わされた情報である。これにより、推定部１３３は、複数の文を含む文章全体において、自然な読み方となる推定処理を行うことができる。

　また、推定部１３３は、文章に含まれる要素ごとの読み方を推定したのちに、文章に含まれる要素ごとのアクセントを推定する。具体的には、推定部１３３は、前処理部１３２によって抽出された特徴量を系列データを取り扱う第３のモデルに入力することで、文章に含まれる要素ごとのアクセントを推定する。第３のモデルとは、例えば、図６に示した推定モデル５０のような構造を有するモデルである。

　例えば、推定部１３３は、文章におけるアクセント句やアクセント核を特定することで、ユーザ１０が視聴した際に、より自然に聞こえるような韻律情報を文章に付与する。

　送信部１３４は、各種情報を送信する。例えば、送信部１３４は、推定部１３３によって推定された推定結果と、推定結果を出力した根拠となった情報とを組み合わせてユーザ端末２００に送信する。

　また、送信部１３４は、推定部１３３によって推定された結果が複数ある場合、複数の結果をユーザ端末２００に送信し、ユーザ端末２００において一覧表示させるよう制御する。すなわち、送信部１３４は、図８に示したように、ユーザ１０の指定した数の推定結果をユーザ端末２００に送信し、ユーザ端末２００において一覧表示させる。これにより、ユーザ１０は、推定結果を一目で把握することができる。

　また、送信部１３４は、ユーザ端末２００において一覧表示させた結果のうち、ユーザ１０が音声合成を要求した推定結果について、推定結果を音声合成したデータをユーザ端末２００に送信する。例えば、送信部１３４は、図９で示したように、推定結果をユーザ１０が選択した場合に、選択された推定結果に対応する音声をユーザ端末２００に送信する。なお、音声合成自体は、ユーザ端末２００によって行われてもよい。また、送信部１３４は、推定結果が複数ある場合、それらを順番に音声合成し、すべての音声を順にユーザ端末２００で出力させてもよい。

（１－３．実施形態に係るユーザ端末の構成）
　次に、ユーザ端末２００の構成について説明する。図１４は、実施形態に係るユーザ端末２００の構成例を示す図である。

　図１４に示すように、ユーザ端末２００は、通信部２１０と、記憶部２２０と、制御部２３０とを有する。なお、ユーザ端末２００は、ユーザ端末２００を操作するユーザ１０等から各種操作を受け付ける入力部（例えば、タッチディスプレイ等）や、各種情報を表示するための表示部（例えば、液晶ディスプレイ等）を有してもよい。

　通信部２１０は、例えば、ＮＩＣやネットワークインタフェイスコントローラ等によって実現される。通信部２１０は、ネットワークＮと有線又は無線で接続され、ネットワークＮを介して、情報処理装置１００等と情報の送受信を行う。

　記憶部２２０は、例えば、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部２２０は、ユーザ１０から入力されたテキストや、情報処理装置１００から受信した推定結果など、適宜、各種情報を記憶する。

　制御部２３０は、例えば、ＣＰＵやＭＰＵ、ＧＰＵ等によって、ユーザ端末２００内部に記憶されたプログラムがＲＡＭ等を作業領域として実行されることにより実現される。また、制御部２３０は、コントローラであり、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現されてもよい。

　図１４に示すように、制御部２３０は、入力部２３１と、受信部２３２と、出力部２３３と、表示制御部２３４と、送信部２３５とを含む。

　入力部２３１は、ユーザ１０からの操作に従い、テキストデータをユーザインターフェイスを介して、情報処理装置１００に入力する。

　受信部２３２は、情報処理装置１００による推定結果を受信する。出力部２３３は、受信部２３２によって受信された推定結果をユーザインターフェイス上に出力する。

　表示制御部２３４は、例えば情報処理装置１００による制御に従い、推定結果をユーザインターフェイス上に表示するよう制御する。

　送信部２３５は、ユーザ１０からフィードバックを受け付けた場合に、フィードバックを情報処理装置１００に送信する。

（１－４．実施形態に係る処理の手順）
　次に、図１５を用いて、実施形態に係る処理の手順について説明する。図１５は、実施形態に係る処理の流れを示すフローチャートある。

　図１５に示すように、情報処理装置１００は、ユーザ１０からテキスト入力を受け付ける（ステップＳ１０１）。情報処理装置１００は、受け付けたテキストに前処理を実行する（ステップＳ１０２）。また、情報処理装置１００は、受け付けたテキストに関する追加情報を取得するなど、追加情報に関する処理を行う（ステップＳ１０３）。

　その後、情報処理装置１００は、図４で示した構造からなる推定モデル４０を利用し、読み曖昧性を解消し、受け付けたテキストの読みを推定する（ステップＳ１０４）。さらに、情報処理装置１００は、図６で示した構造からなる推定モデル５０を利用し、受け付けたテキストのアクセントを推定する（ステップＳ１０５）。

　そして、情報処理装置１００は、推定結果をユーザ端末２００に送信する（ステップＳ１０６）。その後、情報処理装置１００は、ユーザ端末２００からフィードバックを受信したか否かを判定する（ステップＳ１０７）。フィードバックを受信していない場合（ステップＳ１０７；Ｎｏ）、情報処理装置１００は、受信するまで待機する。

　一方、フィードバックを受信した場合（ステップＳ１０７；Ｙｅｓ）、情報処理装置１００は、フィードバックされた内容を学習し、さらなるモデルの向上を図る（ステップＳ１０８）。

（１－５．実施形態に係る変形例）
　上記で説明した実施形態に係る情報処理は、様々な変形を伴ってもよい。以下に、実施形態の変形例について説明する。

　上記実施形態では、情報処理装置１００が、読み方を推定したのちに、その結果を用いてアクセントを推定する処理を例示した。しかし、情報処理装置１００は、読み方を推定せずに、アクセントを推定してもよい。例えば、言語によっては、読み方の推定が必須でない場合もある。このため、情報処理装置１００は、処理対象によっては、読み方の推定を行わずにアクセントを推定したり、あるいは、読み方の推定とアクセントの推定とを並行して行ったりしてもよい。

　また、実施形態では、情報処理装置１００が韻律情報として読み方およびアクセントを推定する処理を説明したが、処理対象はこの限りではない。例えば、情報処理装置１００は、文章における発話時のポーズ（音声的な空白や息継ぎ場所）の箇所の推定や、文中における強調箇所などの推定も同じ枠組みで行うことが可能である。

　すなわち、情報処理装置１００は、実施形態で説明したように、文章における文脈、もしくは、文章の前後の文章に基づいて、文章に含まれる各要素のうち強調される要素を特定する。強調される要素とは、例えば、質問された内容に対して答えとなる箇所等である。すなわち、前段が質問であり、処理対象とする文章に答えが含まれている場合、その文章では答えの単語が強調されて発話されることが自然である。情報処理装置１００は、かかる場合、当該単語を質問の答えとして特定するとともに、例えば音声合成の際に、当該箇所が強調されて発話されるような出力を行う。具体的には、情報処理装置１００は、特定された要素を強調して音声合成されたデータをユーザ端末２００に送信する。これにより、情報処理装置１００は、より自然な音声をユーザ１０に提供することができる。

　なお、実施形態で示した処理は、日本語のみならず、他言語に広く適用できる。例えば、英語であっても、現在形の「ｒｅａｄ」と、過去形の「ｒｅａｄ（red）」では発音が異なる。また、中国語にも、「的」を「di（purposeの意)）と発音するか、「de（ofの意）」で発音するか、読み曖昧性が問題となる。情報処理装置１００は、上記のような読み曖昧性についても、実施形態に係る処理を用いることで、解消が可能である。なお、実施形態に係る処理では、推定対象を「読み方」と称したが、読み方を推定するとは、上記の例のように「語義（意味）」を推定することでもある。すなわち、実施形態に係る処理は、読み方曖昧性解消のみならず、語義曖昧性解消にも適用可能である。

　また、上記のポーズや強調箇所については、日本語のみならず、他の言語にも応用可能である。ポーズや強調箇所の音声合成は、それらの情報を反映可能な音声合成モデルによって実現される。例えば、ポーズは、ポーズの長さによって細分化することも可能である。また、強調箇所については、音量を上げて強く発音するのみならず、時間をかけてゆっくり読んだり、前後にポーズを置いたり、声を高くして読んだりするなど、複数通りの表現が考えられる。また、音声合成について、会話文が処理対象であれば、話者毎にモデルを分けることも可能である。

　また、上記の読み曖昧性解消処理において、「読み曖昧性解消フラグベクトル」は、入力として外部から与えることも可能である。すなわち、情報処理装置１００は、読み曖昧性を解消させる単語を特定する際、ルールベースによらず、読み曖昧性を解消したい単語についてユーザ１０等から任意に指定を受けることができる。例えば、情報処理装置１００は、ユーザインターフェイス上に、読み曖昧性を解消したい単語を指定する欄を設けるなどして、ユーザ１０から指定を受け付けてもよい。

（２．その他の実施形態）
　上述した各実施形態に係る処理は、上記各実施形態以外にも種々の異なる形態にて実施されてよい。

　上記実施形態では、ユーザ端末２００がユーザインターフェイスを提供し、情報処理装置１００がユーザインターフェイスで入力されたテキストに対して情報処理を実行する例を示した。しかし、両者は一体であってもよい。この場合、ユーザ端末２００は、実施形態に係る情報処理装置１００と同様の構成を有し、実施形態に係る情報処理を実行する。すなわち、ユーザ端末２００は、ユーザ１０からテキストの入力を受け付けると、自装置において、読み方およびアクセントの推定処理を行い、結果を出力してもよい。

　また、上記各実施形態では、ユーザ端末２００がスマートフォン等である例を示した。しかし、ユーザ端末２００は、スマートフォンに限らず、スマートスピーカー（smart　speaker）など、ユーザ１０の発話を認識したり、所定の応答をおこなったりする機能を有するデバイスであってもよい。この場合、ユーザ１０による入力は、ユーザインターフェイスではなく、音声入力により行われてもよい。また、ユーザ端末２００は、時計型端末や眼鏡型端末などのウェアラブルデバイス（wearable　device）であってもよい。また、ユーザ端末２００は、情報処理機能を有する種々のスマート機器により実現されてもよい。例えば、ユーザ端末２００は、テレビやエアコン、冷蔵庫等のスマート家電や、自動車などのスマートビークル（Smart　vehicle）や、ドローン（drone）、家庭用ロボット等であってもよい。

　また、上記各実施形態では、自然言語モデルをＬＳＴＭ（ＲＮＮ）やＢＥＲＴ（Transformer）等の手法で学習して作成する例を示したが、学習手法はこれに限られず、種々の既知の手法が用いられてもよい。

　また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

　また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

　また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。

（３．本開示に係る情報処理装置の効果）
　上述のように、本開示に係る情報処理装置（実施形態では情報処理装置１００）は、取得部（実施形態では取得部１３１）と、前処理部（実施形態では前処理部１３２）と、推定部（実施形態では推定部１３３）と、を備える。取得部は、文章として記述されたテキストデータを取得する。前処理部は、取得部によって取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力する第１のモデル（実施形態ではＢＥＲＴ等の大規模な事前学習済み言語モデル）を用いて出力された特徴量を抽出する。推定部は、前処理部によって抽出された特徴量を、系列データを取り扱う第２のモデル（実施形態ではＬＳＴＭモデル４４等の系列データを取り扱うモデル）に入力することで、文章に含まれる要素ごとの読み方を推定する。

　このように、本開示に係る情報処理装置は、文脈を考慮した特徴量を予め抽出し、その特徴量を系列データを扱うモデルに入力することによって、読み方の推定を行う。これにより、情報処理装置は、単語等の要素だけでなく、前後の単語のつながりや前後の文章のつながりも考慮された読み方を推定できるので、文脈に沿った自然な読み方をユーザに提供することができる。

　また、推定部は、予め規定されたルールに基づき、読み方を推定する対象となる要素を特定し、特定した要素について読み方を推定する。

　このように、情報処理装置は、ルールベースで処理対象を特定することで、正確に処理対象を特定することができる。

　また、推定部は、ルールとして要素における表記および品詞に基づいて、読み方を推定する対象となる要素を特定する。

　このように、情報処理装置は、表記や品詞をもとに構築されたルールに従うことで、読み方に曖昧性が生じやすい単語を確実に特定することができる。

　また、推定部は、読み方を推定する対象となる要素について、正解可能性の高い順に複数の読み方を推定する。

　このように、情報処理装置は、複数の読み方を推定することで、正解となる読み方をユーザに提示することのできる可能性を高めることができる。

　また、推定部は、文章に含まれる要素、もしくは、文章の前後の文章に含まれる要素に関連する情報である追加情報を用いて、読み方を推定する。

　このように、情報処理装置は、通常の言語情報に加えて、知識ベース等の外部資源を追加情報として活用することで、推定精度を向上させることができる。

　また、推定部は、追加情報として、文章に含まれる要素、もしくは、文章の前後の文章に含まれる要素に該当する語句と、語句に紐づけられた読みもしくは語義を用いて、読み方を推定する。

　このように、情報処理装置は、前後の文章を追加情報として利用することで、より文脈に沿った読み方を推定することのできる可能性を高めることができるので、推定精度を向上させることができる。

　また、推定部は、追加情報として、文章もしくは文章の前後の文章における意図を解析した結果と、結果に紐づけられた語句の読みもしくは語義を用いて、読み方を推定する。

　このように、情報処理装置は、文章の意図を解析して追加情報を得ることで、明示的に追加情報として用いる語句が文中にない場合であっても、文脈に沿った読み方を推定することができる。

　また、推定部は、文章に含まれる要素ごとの読み方を推定したのちに、文章に含まれる要素ごとのアクセントを推定する。

　このように、情報処理装置は、読み方を推定したのちに、文章のアクセントを推定する。これにより、情報処理装置は、文脈に沿った自然なアクセントをユーザに提供することができる。

　また、前処理部は、読み方が推定された要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力する第１のモデルを用いて出力された特徴量を抽出する。推定部は、前処理部によって抽出された特徴量を系列データを取り扱う第３のモデルに入力することで、文章に含まれる要素ごとのアクセントを推定する。

　このように、情報処理装置は、文脈を考慮した特徴量を用いてアクセントを推定することで、文脈に沿った適切なアクセントを推定することができる。

　また、情報処理装置は、推定部によって推定された推定結果と、推定結果を出力した根拠となった情報とを組み合わせてユーザ端末に送信する送信部をさらに備える。

　このように、情報処理装置は、モデルの出力の際に、文脈を考慮した読み方やアクセントに関してその根拠を示すことで、なぜその結果になったのかという情報をユーザに提供することができる。

　また、送信部は、推定部によって推定された結果が複数ある場合、複数の結果をユーザ端末に送信し、ユーザ端末において一覧表示させるよう制御する。

　このように、情報処理装置は、推定結果を一覧表示させることで、読み方もしくはアクセントの候補を複数提示でき、ユーザが正確な読み方もしくはアクセントを享受できる可能性を高めることができる。

　また、送信部は、ユーザ端末において一覧表示させた結果のうち、ユーザが音声合成を要求した推定結果について、推定結果を音声合成したデータをユーザ端末に送信する。

　このように、情報処理装置は、推定した結果を音声合成することで、ユーザに自然な発話からなる音声を提供することができる。

　また、推定部は、文章における文脈、もしくは、文章の前後の文章に基づいて、文章に含まれる各要素のうち強調される要素を特定する。送信部は、特定された要素を強調して音声合成されたデータをユーザ端末に送信する。

　このように、情報処理装置は、質問の回答に該当する箇所など、文中において強調される箇所を特定してもよい。これにより、情報処理装置は、より人間に近い、自然な発話を実現することができる。

　また、取得部は、推定部によって推定された推定結果および根拠が正確か否かをユーザが判定した結果をユーザ端末から取得する。

　このように、情報処理装置は、推定結果のうちユーザにとって好ましい結果を選択してもらう形でのフィードバックを得ることで、よりユーザにとって自然な推定処理を行うよう学習することができる。

　また、取得部は、推定部によって推定された推定結果および根拠に対してユーザが修正した修正結果をユーザ端末から取得する。

　このように、情報処理装置は、ユーザにとってより好ましい結果としてユーザが修正した結果をフィードバックとして得ることで、より正確な学習データに基づく再学習を行うことができる。

　また、情報処理装置は、以下の構成であってもよい。すなわち、情報処理装置は、取得部と、前処理部と、推定部を備える。取得部は、文章として記述されたテキストデータを取得する。前処理部は、取得部によって取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力するモデルを用いて出力された特徴量を抽出する。推定部は、前処理部によって抽出された特徴量を、系列データを取り扱うモデルに入力することで、文章に含まれる要素ごとのアクセントを推定する。

　このように、本開示に係る情報処理装置は、読み方のみならず、アクセントを推定する処理を行ってもよい。これにより、情報処理装置は、例えばアクセントが意味や理解において重視される言語において、文脈に沿った、より自然なアクセントを推定することができる。

（４．ハードウェア構成）
　上述してきた各実施形態に係る情報処理装置１００ユーザ端末２００等の情報機器は、例えば図１６に示すような構成のコンピュータ１０００によって実現される。以下、本開示に係る情報処理装置１００を例に挙げて説明する。図１６は、情報処理装置１００の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Read　Only　Memory）１３００、ＨＤＤ（Hard　Disk　Drive）１４００、通信インターフェイス１５００、及び入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係る情報処理プログラムを記録する記録媒体である。

　通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばＤＶＤ（Digital　Versatile　Disc）、ＰＤ（Phase　change　rewritable　Disk）等の光学記録媒体、ＭＯ（Magneto-Optical　disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　例えば、コンピュータ１０００が実施形態に係る情報処理装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされた情報処理プログラムを実行することにより、制御部１３０等の機能を実現する。また、ＨＤＤ１４００には、本開示に係る情報処理プログラムや、記憶部１２０内のデータが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

　なお、本技術は以下のような構成も取ることができる。
（１）
　文章として記述されたテキストデータを取得する取得部と、
　前記取得部によって取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力する第１のモデルを用いて出力された特徴量を抽出する前処理部と、
　前記前処理部によって抽出された特徴量を、系列データを取り扱う第２のモデルに入力することで、前記文章に含まれる要素ごとの読み方を推定する推定部と、
　を備える情報処理装置。
（２）
　前記推定部は、
　予め規定されたルールに基づき、読み方を推定する対象となる前記要素を特定し、特定した要素について読み方を推定する、
　前記（１）に記載の情報処理装置。
（３）
　前記推定部は、
　前記ルールとして前記要素における表記および品詞に基づいて、読み方を推定する対象となる前記要素を特定する、
　前記（２）に記載の情報処理装置。
（４）
　前記推定部は、
　前記読み方を推定する対象となる前記要素について、正解可能性の高い順に複数の読み方を推定する、
　前記（２）または（３）に記載の情報処理装置。
（５）
　前記推定部は、
　前記文章に含まれる要素、もしくは、当該文章の前後の文章に含まれる要素に関連する情報である追加情報を用いて、前記読み方を推定する、
　前記（１）～（４）のいずれかに記載の情報処理装置。
（６）
　前記推定部は、
　前記追加情報として、前記文章に含まれる要素、もしくは、当該文章の前後の文章に含まれる要素に該当する語句と、当該語句に紐づけられた読みもしくは語義を用いて、前記読み方を推定する、
　前記（５）に記載の情報処理装置。
（７）
　前記推定部は、
　前記追加情報として、前記文章もしくは当該文章の前後の文章における意図を解析した結果と、当該結果に紐づけられた語句の読みもしくは語義を用いて、前記読み方を推定する、
　前記（５）または（６）に記載の情報処理装置。
（８）
　前記推定部は、
　前記文章に含まれる要素ごとの読み方を推定したのちに、当該文章に含まれる要素ごとのアクセントを推定する、
　前記（１）～（７）のいずれかに記載の情報処理装置。
（９）
　前記前処理部は、
　前記読み方が推定された要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力する前記第１のモデルを用いて出力された特徴量を抽出し、
　前記推定部は、
　前記前処理部によって抽出された特徴量を系列データを取り扱う第３のモデルに入力することで、前記文章に含まれる要素ごとのアクセントを推定する、
　前記（８）に記載の情報処理装置。
（１０）
　前記推定部によって推定された推定結果と、当該推定結果を出力した根拠となった情報とを組み合わせてユーザ端末に送信する送信部、
　をさらに備える前記（１）～（９）のいずれかに記載の情報処理装置。
（１１）
　前記送信部は、
　前記推定部によって推定された結果が複数ある場合、当該複数の結果を前記ユーザ端末に送信し、当該ユーザ端末において一覧表示させるよう制御する、
　前記（１０）に記載の情報処理装置。
（１２）
　前記送信部は、
　前記ユーザ端末において一覧表示させた結果のうち、ユーザが音声合成を要求した推定結果について、当該推定結果を音声合成したデータを前記ユーザ端末に送信する、
　前記（１１）に記載の情報処理装置。
（１３）
　前記推定部は、
　前記文章における文脈、もしくは、前記文章の前後の文章に基づいて、当該文章に含まれる各要素のうち強調される要素を特定し、
　前記送信部は、
　前記特定された要素を強調して音声合成されたデータを前記ユーザ端末に送信する、
　前記（１２）に記載の情報処理装置。
（１４）
　前記取得部は、
　前記推定部によって推定された推定結果および前記根拠が正確か否かをユーザが判定した結果を前記ユーザ端末から取得する、
　前記（１０）～（１３）のいずれかに記載の情報処理装置。
（１５）
　前記取得部は、
　前記推定部によって推定された推定結果および前記根拠に対して前記ユーザが修正した修正結果を前記ユーザ端末から取得する、
　前記（１０）～（１４）のいずれかに記載の情報処理装置。
（１６）
　コンピュータが、
　文章として記述されたテキストデータを取得し、
　前記取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力する第１のモデルを用いて出力された特徴量を抽出し、
　前記抽出された特徴量を、系列データを取り扱う第２のモデルに入力することで、前記文章に含まれる要素ごとの読み方を推定する、
　ことを含む情報処理方法。
（１７）
　コンピュータを、
　文章として記述されたテキストデータを取得する取得部と、
　前記取得部によって取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力する第１のモデルを用いて出力された特徴量を抽出する前処理部と、
　前記前処理部によって抽出された特徴量を、系列データを取り扱う第２のモデルに入力することで、前記文章に含まれる要素ごとの読み方を推定する推定部と、
　として機能させるための情報処理プログラム。
（１８）
　文章として記述されたテキストデータを取得する取得部と、
　前記取得部によって取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力するモデルを用いて出力された特徴量を抽出する前処理部と、
　前記前処理部によって抽出された特徴量を、系列データを取り扱うモデルに入力することで、前記文章に含まれる要素ごとのアクセントを推定する推定部と、
　を備える情報処理装置。
（１９）
　コンピュータが、
　文章として記述されたテキストデータを取得し、
　前記取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力するモデルを用いて出力された特徴量を抽出し、
　前記抽出された特徴量を、系列データを取り扱うモデルに入力することで、前記文章に含まれる要素ごとのアクセントを推定する、
　ことを含む情報処理方法。
（２０）
　コンピュータを、
　文章として記述されたテキストデータを取得する取得部と、
　前記取得部によって取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力するモデルを用いて出力された特徴量を抽出する前処理部と、
　前記前処理部によって抽出された特徴量を、系列データを取り扱うモデルに入力することで、前記文章に含まれる要素ごとのアクセントを推定する推定部と、
　として機能させるための情報処理プログラム。

　１　　　情報処理システム
　１０　　ユーザ
　１００　情報処理装置
　１１０　通信部
　１２０　記憶部
　１２１　追加情報記憶部
　１２２　モデル記憶部
　１３０　制御部
　１３１　取得部
　１３２　前処理部
　１３３　推定部
　１３４　送信部
　２００　ユーザ端末

Claims

　文章として記述されたテキストデータを取得する取得部と、
　前記取得部によって取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力する第１のモデルを用いて出力された特徴量を抽出する前処理部と、
　前記前処理部によって抽出された特徴量を、系列データを取り扱う第２のモデルに入力することで、前記文章に含まれる要素ごとの読み方を推定する推定部と、
　を備える情報処理装置。
　前記推定部は、
　予め規定されたルールに基づき、読み方を推定する対象となる前記要素を特定し、特定した要素について読み方を推定する、
　請求項１に記載の情報処理装置。
　前記推定部は、
　前記ルールとして前記要素における表記および品詞に基づいて、読み方を推定する対象となる前記要素を特定する、
　請求項２に記載の情報処理装置。
　前記推定部は、
　前記読み方を推定する対象となる前記要素について、正解可能性の高い順に複数の読み方を推定する、
　請求項２に記載の情報処理装置。
　前記推定部は、
　前記文章に含まれる要素、もしくは、当該文章の前後の文章に含まれる要素に関連する情報である追加情報を用いて、前記読み方を推定する、
　請求項１に記載の情報処理装置。
　前記推定部は、
　前記追加情報として、前記文章に含まれる要素、もしくは、当該文章の前後の文章に含まれる要素に該当する語句と、当該語句に紐づけられた読みもしくは語義を用いて、前記読み方を推定する、
　請求項５に記載の情報処理装置。
　前記推定部は、
　前記追加情報として、前記文章もしくは当該文章の前後の文章における意図を解析した結果と、当該結果に紐づけられた語句の読みもしくは語義を用いて、前記読み方を推定する、
　請求項５に記載の情報処理装置。
　前記推定部は、
　前記文章に含まれる要素ごとの読み方を推定したのちに、当該文章に含まれる要素ごとのアクセントを推定する、
　請求項１に記載の情報処理装置。
　前記前処理部は、
　前記読み方が推定された要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力する前記第１のモデルを用いて出力された特徴量を抽出し、
　前記推定部は、
　前記前処理部によって抽出された特徴量を系列データを取り扱う第３のモデルに入力することで、前記文章に含まれる要素ごとのアクセントを推定する、
　請求項８に記載の情報処理装置。
　前記推定部によって推定された推定結果と、当該推定結果を出力した根拠となった情報とを組み合わせてユーザ端末に送信する送信部、
　をさらに備える請求項８に記載の情報処理装置。
　前記送信部は、
　前記推定部によって推定された結果が複数ある場合、当該複数の結果を前記ユーザ端末に送信し、当該ユーザ端末において一覧表示させるよう制御する、
　請求項１０に記載の情報処理装置。
　前記送信部は、
　前記ユーザ端末において一覧表示させた結果のうち、ユーザが音声合成を要求した推定結果について、当該推定結果を音声合成したデータを前記ユーザ端末に送信する、
　請求項１１に記載の情報処理装置。
　前記推定部は、
　前記文章における文脈、もしくは、前記文章の前後の文章に基づいて、当該文章に含まれる各要素のうち強調される要素を特定し、
　前記送信部は、
　前記特定された要素を強調して音声合成されたデータを前記ユーザ端末に送信する、
　請求項１２に記載の情報処理装置。
　前記取得部は、
　前記推定部によって推定された推定結果および前記根拠が正確か否かをユーザが判定した結果を前記ユーザ端末から取得する、
　請求項１１に記載の情報処理装置。
　前記取得部は、
　前記推定部によって推定された推定結果および前記根拠に対して前記ユーザが修正した修正結果を前記ユーザ端末から取得する、
　請求項１４に記載の情報処理装置。
　コンピュータが、
　文章として記述されたテキストデータを取得し、
　前記取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力する第１のモデルを用いて出力された特徴量を抽出し、
　前記抽出された特徴量を、系列データを取り扱う第２のモデルに入力することで、前記文章に含まれる要素ごとの読み方を推定する、
　ことを含む情報処理方法。
　コンピュータを、
　文章として記述されたテキストデータを取得する取得部と、
　前記取得部によって取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力する第１のモデルを用いて出力された特徴量を抽出する前処理部と、
　前記前処理部によって抽出された特徴量を、系列データを取り扱う第２のモデルに入力することで、前記文章に含まれる要素ごとの読み方を推定する推定部と、
　として機能させるための情報処理プログラム。
　文章として記述されたテキストデータを取得する取得部と、
　前記取得部によって取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力するモデルを用いて出力された特徴量を抽出する前処理部と、
　前記前処理部によって抽出された特徴量を、系列データを取り扱うモデルに入力することで、前記文章に含まれる要素ごとのアクセントを推定する推定部と、
　を備える情報処理装置。
　コンピュータが、
　文章として記述されたテキストデータを取得し、
　前記取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力するモデルを用いて出力された特徴量を抽出し、
　前記抽出された特徴量を、系列データを取り扱うモデルに入力することで、前記文章に含まれる要素ごとのアクセントを推定する、
　ことを含む情報処理方法。
　コンピュータを、
　文章として記述されたテキストデータを取得する取得部と、
　前記取得部によって取得されたテキストデータを要素に分割するとともに、要素ごとの特徴量であって、前後の文脈を考慮して特徴量を出力するモデルを用いて出力された特徴量を抽出する前処理部と、
　前記前処理部によって抽出された特徴量を、系列データを取り扱うモデルに入力することで、前記文章に含まれる要素ごとのアクセントを推定する推定部と、
　として機能させるための情報処理プログラム。