WO2021117483A1

WO2021117483A1 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: WO2021117483A1
Application number: PCT/JP2020/043736
Authority: WO
Inventors: 将樹濱田
Original assignee: ソニーグループ株式会社
Priority date: 2019-12-09
Filing date: 2020-11-25
Publication date: 2021-06-17

Abstract

本技術は、文書の内容を柔軟に構造化することができるようにする情報処理装置、情報処理方法、およびプログラムに関する。本技術の一側面の情報処理装置は、文書を構成する部分のうちの、予め決められた規則に当てはまる第１の部分に対して、第１の部分の内容を表すタグを規則に従って付与し、規則に当てはまらない第２の部分に対して、第２の部分の内容を表すタグを統計的手法に従って付与する情報処理部を備える。本技術は、文書の内容を構造化する情報処理装置に適用することができる。

Description

情報処理装置、情報処理方法、およびプログラム

　本技術は、特に、文書の内容を柔軟に構造化することができるようにした情報処理装置、情報処理方法、およびプログラムに関する。

　日常的に触れる多くの文書の内容を短時間で理解することは難しい。特に、先行研究や既存手法の調査のために参照されることが多い技術的資料のような文書は、専門的であるために、内容の理解に時間がかかってしまう。

　そこで、文書の内容の論理構造を解析する技術が各種提案されている。自動的に解析された論理構造を参考にすることにより、ユーザは、文書の理解のための時間を削減することができる。

　例えば特許文献１には、マークアップ言語のタグを手掛かりにして論理構造を特定したり、改行、コロン、ハイフンなどの区切り文字を手掛かりにして論理構造を特定したりする技術が開示されている。また、特許文献２には、設問と回答の形でデータ入力を受け付け、入力されたデータを構造化する技術が開示されている。

特開２０１９－１０５９５７号公報特開２０１３－２２８８０７号公報

　特許文献１に記載の技術は、一定のルールに当てはまらない文書に対しては適用することができない。特許文献２に記載の技術は、入力されるデータが、設問と回答という形であらかじめ構造化されたデータであり、そのような構造化されたデータ以外の一般の文書に適用することができない。

　本技術はこのような状況に鑑みてなされたものであり、文書の内容を柔軟に構造化することができるようにするものである。

　本技術の一側面の情報処理装置は、文書を構成する部分のうちの、予め決められた規則に当てはまる第１の部分に対して、前記第１の部分の内容を表すタグを前記規則に従って付与し、前記規則に当てはまらない第２の部分に対して、前記第２の部分の内容を表すタグを統計的手法に従って付与する情報処理部を備える。

　本技術の一側面においては、文書を構成する部分のうちの、予め決められた規則に当てはまる第１の部分に対して、第１の部分の内容を表すタグが規則に従って付与され、規則に当てはまらない第２の部分に対して、第２の部分の内容を表すタグが統計的手法に従って付与される。

本技術の一実施形態に係るタグ付与機能を示す図である。タグ付与の例を示す図である。タグ付与処理について説明するフローチャートである。タグ付与処理部の機能構成例を示すブロック図である。タグ付与ルールの例を示す図である。情報処理装置の機能構成例を示すブロック図である。要約文書の生成の例を示す図である。スライド間の関係の抽出の例を示す図である。要約文書の生成の例を示す図である。文章の具体例を示す図である。レビューの例を示す図である。スニペットの生成の例を示す図である。スニペットに関連する写真の選択の例を示す図である。レビューの視覚化の例を示す図である。情報処理システムの構成例を示す図である。コンピュータの構成例を示すブロック図である。

　以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
　１．タグ付与機能について
　２．タグの適用例
　３．変形例

＜タグ付与機能について＞
・文書タグ付与アプリケーション
　図１は、本技術の一実施形態に係るタグ付与機能を示す図である。

　図１に示すように、PCなどの情報処理装置１には文書タグ付与アプリケーション１１がインストールされる。文書タグ付与アプリケーション１１により、対象とする文書に対して、内容を表す属性情報としてのタグを付与するタグ付与機能が実現される。文書タグ付与アプリケーション１１が処理の対象とする文書には複数の文章が含まれる。

　段落毎に区切られた文章を含む文書が対象の文書として入力された場合、図１の矢印の先に示すように、各段落に対して、各段落の内容を表すタグが付与される。段落の内容として、例えば、文書における各段落の論理構造（論理の流れにおける位置付け）を表すタグが付与される。文書タグ付与アプリケーション１１からは、タグ付きの文書、または、各段落にどの種類のタグが付与されたのかなどのタグに関する情報が出力される。

　文書タグ付与アプリケーション１１により付与されたタグは、例えば文書を読む際にユーザに提示される。ユーザは、タグを参照し、各段落にどのような内容が記載されているのかを確認しながら文書を読むことにより、文書の内容を素早く理解することが可能となる。

　このように、文書タグ付与アプリケーション１１は、文章を含む文書の論理の流れを明確にし、文書を読む際の理解の助けとなるシステムを実現するものである。

　図２は、タグ付与の例を示す図である。

　図２の左側に示すように複数のスライド（ページ）からなる資料が対象の文書として入力された場合、それぞれのスライドに対して、各スライドの内容を表すタグが付与される。図２の例においては、１ページ目のスライドには「タイトル」のタグが付与され、２ページ目のスライドには「課題」のタグが付与されている。同様に、３ページ目乃至７ページ目のそれぞれのスライドに対して、「課題」、「課題」、「解決策」、「結果」、「まとめ」のタグが付与されている。

　このように、作成者によってスライド単位で内容がまとめられる資料を、タグを付与する対象の文書として用いることが可能である。このような資料には、例えば、Microsoft（商標）社が提供する「Power Point」の資料（pptファイル）などがある。文章を含む各種のデータに対してタグを付与することが可能である。

　例えば、対象となる文書の種類に応じて、付与するタグの種類が予め設定されている。文書のカテゴリ毎、作成者毎、作成日毎、読み手となるユーザ毎に異なる種類のタグが付与されるようにしてもよい。

　また、タグを付与する単位として、段落単位だけでなく、スライド単位など、様々な単位を採用することが可能である。

　さらに、同じ種類のタグが複数の単位に対して付与されるようにすることが可能である。図２の例においては、同じ「解決策」のタグが、３ページ目のスライドと４ページ目のスライドに対して付与されている。

　各スライドのタグが提示されることにより、ユーザは、各スライドに書かれている内容を参照しながら文書を読むことができる。書かれている内容を把握した上で各スライドを読み進めることにより、ユーザは、理解にかかる時間を削減することが可能となる。

・タグ付与処理の流れ
　文書タグ付与アプリケーション１１によるタグ付与処理においては、予め決められた規則であるタグ付与ルールによるタグ付与と、統計的手法によるタグ付与とが行われる。

　図３のフローチャートを参照して、文書タグ付与アプリケーション１１によるタグ付与処理について説明する。

　ステップＳ１において、文書タグ付与アプリケーション１１は、対象となる文章を分割する。分割された部分毎にタグが付与される。

　ステップＳ２において、文書タグ付与アプリケーション１１は、タグを付与するそれぞれの部分に注目し、タグ付与ルールに当てはまるか否かを判定する。タグ付与ルールに当てはまると判定した場合、処理はステップＳ３に進み、タグ付与ルールに当てはまらないと判定した場合、処理はステップＳ４に進む。

　ステップＳ３において、文書タグ付与アプリケーション１１は、タグ付与ルールに当てはまる部分については、タグ付与ルールに従ってタグを付与する。

　一方、ステップＳ４において、文書タグ付与アプリケーション１１は、タグ付与ルールに当てはまらない部分については、統計的手法によってタグを付与する。例えば、機械学習によって予め生成されたニューラルネットワークの推論モデルを用いてタグが付与される（推論される）。

　このように、論理構造のタグをルールによって付与できない場合には統計的手法を用いてタグを付与することにより、様々な形態の文書に柔軟に対応することが可能となる。

・機能構成
　図４は、タグ付与処理部２１の機能構成例を示すブロック図である。図４に示す機能部のうちの少なくとも一部は、情報処理装置１のCPUにより文書タグ付与アプリケーション１１が実行されることによって実現される。

　図４に示すように、情報処理部としてのタグ付与処理部２１は、テキスト分割部３１、ルールベースタグ付与部３２、単語分割部３３、ベクトル化処理部３４、推論部３５、およびモデル学習部３６により構成される。対象となる文書は、テキスト分割部３１に入力される。

　テキスト分割部３１は、入力された文書を、タグ付与の単位となる部分毎に区切りに従って分割する。対象となる文書には、段落、改ページ、空行などの区切りが設定されている。図３のステップＳ１の処理が、テキスト分割部３１により行われる処理となる。

　テキスト分割部３１により分割された、段落単位、スライド単位などの文章から構成される分割済み文章は、ルールベースタグ付与部３２に供給される。後段の処理は、それぞれの分割済み文章を対象として並列に行われる。各分割済み文章を対象とした処理が並列に、独立して行われるため、ある分割済み文章にどのタグが付与されるのかは、他の分割済み文章とは関係がない。

　ルールベースタグ付与部３２は、分割済み文章がタグ付与ルールに当てはまるか否かを判定する。図３のステップＳ２の処理が、ルールベースタグ付与部３２により行われる処理となる。

　図５は、タグ付与ルールの例を示す図である。

　図５の例においては、タグの種類として、「タイトル」、「課題」、「解決策」、「結果」、「その他」、「まとめ」のタグが示されている。「その他」のタグには、「自己紹介」、「目次」、「スケジュール」、「補足資料」、「その他」が含まれている。図５に示すタグ付与ルールは、複数のスライドから構成される資料を対象とした場合に用いられるルールである。

　「タイトル」タグは、スライドの１ページ目に付与されるタグである。

　「課題」タグは、「課題」の文字を含むタイトルのスライドに付与されるタグである。

　「解決策」タグは、「解決策」または「アプローチ」の文字を含むタイトルのスライドに付与されるタグである。

　「結果」タグは、「結果」の文字を含むタイトルのスライドに付与されるタグである。

　「その他」タグに含まれる「自己紹介」タグは、「自己紹介」、「経歴」、または「略歴」の文字を含むタイトルのスライドに付与されるタグである。

　「その他」タグに含まれる「目次」タグは、「目次」、「もくじ」、「アジェンダ」、または「agenda」の文字を含むタイトルのスライドに付与されるタグである。タイトルが「発表の流れ」、「内容」、「概要」、「contents」、「アウトライン」、または「outline」と一致するスライドに対しても「目次」タグが付与される。

　「その他」タグに含まれる「スケジュール」タグは、「スケジュール」、または「schedule」の文字を含むタイトルのスライドに付与されるタグである。

　「その他」タグに含まれる「補足資料」タグは、「まとめ」タグが付与されたページ以降のすべてのページに付与されるタグである。

　「まとめ」タグは、「まとめ」の文字を含むタイトルのスライドに付与されるタグである。

　このようなタグ付与ルールが、対象となる文書の種類毎に予め設定される。

　図４の説明に戻り、ルールベースタグ付与部３２は、入力された分割済み文章がタグ付与ルールに当てはまる場合、タグ付与ルールに従ってタグを付与し、出力する。図４の例においては、矢印Ａ１の先に示すように「課題」タグが付与されている。図３のステップＳ３の処理が、ルールベースタグ付与部３２により行われる処理となる。

　また、ルールベースタグ付与部３２は、入力された分割済み文章がタグ付与ルールに当てはまらない場合、その分割済み文章を単語分割部３３に出力する。単語分割部３３に出力された、タグ付与ルールに当てはまらない分割済み文章が、統計的手法を用いてタグを付与する部分となる。

　単語分割部３３は、ルールベースタグ付与部３２から供給された分割済み文章を構成する文章を単語に分割する。単語分割には様々なツールを使用することが可能である。単語分割部３３により単語に分割された分割済み文章はベクトル化処理部３４に供給される。

　ベクトル化処理部３４は、単語分割部３３から供給された分割済み文章をベクトル化する。分割済み文章のベクトル化には、例えば、単語の頻度を用いる方法、word2vecなどの方法が用いられる。分割済み文章の特徴を表すベクトルデータは、推論部３５に供給される。なお、ベクトル化処理部３４による分割済み文章のベクトル化は、推論部３５において用いられる推論モデルの入力がベクトル化された文章である場合に行われる。

　推論部３５は、ベクトル化処理部３４から供給されたベクトルデータを推論モデルに入力し、分割済み文章に付与するタグを出力する。図４の例においては、矢印Ａ２の先に示すように「解決策」タグが付与されている。図３のステップＳ４の処理が、推論部３５により行われる処理となる。

　モデル学習部３６は、学習用のデータとして用意された文章データを用いて機械学習を行い、推論部３５により用いられる推論モデルを生成する。モデル学習部３６による推論モデルの学習は、例えば、正解となるタグが付与された学習用の文章データを用いて行われる。タグ出力用の推論モデルは、文章を表すベクトルを入力とし、タグを出力とする分類問題を解くニューラルネットワークなどのモデルとして構成される。

　このように、タグ付与処理部２１においては、内容的な区切りのある箇所では文章にも区切りが存在すると仮定し、区切られたひとまとまりの文章である分割済み文章毎にタグが付与される。段落毎に分かれている文章を含む文書であればよいため、タグ付与処理部２１によるタグ付与は、各種の文書に広く適用することが可能となる。

　また、特にタグ付与については、分割済み文章がタグ付与ルールに当てはまる場合にはルールに従ってタグが付与され、タグ付与ルールに当てはまらない場合には統計的手法によりタグが付与される。

　このように、ルールによるタグ付与の手法と統計的手法とを組み合わせることにより、ルールだけでは論理構造をとらえきれない文書に対しても、適切にタグを付与することが可能となる。

＜タグの適用例＞
　タグ付与処理部２１により付与されたタグを用いた処理について説明する。

　図６は、情報処理装置１の機能構成例を示すブロック図である。

　図６に示すように、情報処理装置１においては、タグ付与処理部２１の他にコンテンツ生成部２２が実現される。タグ付与処理部２１により付与されたタグの情報は、タグ付与の対象とされた文書とともにコンテンツ生成部２２に供給される。

　コンテンツ生成部２２は、タグ付与処理部２１により付与されたタグに基づいて文書を加工し、コンテンツを生成する。例えば、タグ付与の対象とされた文書の要約などのコンテンツがコンテンツ生成部２２により生成される。

・タグを用いた要約の生成
　図７は、要約文書の生成の例を示す図である。

　図７に示す要約文書は、複数のスライドから構成される文書の要約である。要約文書の生成は、スライド全体の中から所定のスライドを抽出し、抽出したスライドをまとめることによって行われる。スライド毎に付与されたタグを用いて、スライドの抽出が行われる。

　図７の例においては、１ページ目乃至１１ページ目のスライドのそれぞれに対してタグが付与されている。「タイトル」、「目次」、「まとめ」タグについては１枚のスライドに付与され、「課題」、「解決策」、「結果」タグについては複数のスライドに付与されている。このように、同じ種類のタグが複数の分割済み文章に対して付与されることもある。

　要約文書の生成は、例えば、タグの種類毎に、代表スライドとなる１枚のスライドを抽出するようにして行われる。

　図７の右側に示すように、「タイトル」タグが付与された１ページ目、「目次」タグが付与された２ページ目、「まとめ」タグが付与された１１ページ目のスライドについては、それらのタグが付与されたスライドが１枚だけであるから、そのまま、要約文書に用いられる。

　「課題」タグが付与された３ページ目と８ページ目のスライドについては、先頭に近いスライドである３ページ目のスライドが代表スライドとして抽出され、要約文書に用いられる。

　「解決策」タグが付与された４ページ目、６ページ目、７ページ目のスライドのうち、重要度が最大のスライドである６ページ目のスライドが代表スライドとして抽出され、要約文書に用いられる。このように、同じタグが複数のスライドに付与されている場合、スライド毎の重要度が求められる。重要度の計算手法として、文書中の多くの文章と類似する文章を重要な文章と見なして、それぞれの文章の重要度を計算する手法を採用することが可能である。

　「結果」タグが付与された５ページ目、９ページ目、１０ページ目のスライドのうち、最後のスライドである１０ページ目のスライドが代表スライドとして抽出され、要約文書に用いられる。

　このように、代表ページの選び方は、タグの種類毎に設定される。

　コンテンツ生成部２２による要約文書の生成が以上のようにして行われることにより、ユーザは、重要ではないスライドを間引いて文書を読むことができる。これにより文書を読むのにかかる時間を削減することが可能となる。

・タグを用いた談話構造解析
　談話構造解析は、文章において、意味を構成する最小要素(談話単位)どうしの論理的な関係や書き手の意図を自動的に推定する自然言語処理である。コンテンツ生成部２２は、タグ付与が行われた文書を対象として談話構造解析を行い、スライド間の関係を抽出する。スライド間の関係を抽出するための補助情報として、タグ付与処理部２１により付与されたタグが用いられる。

　図８は、スライド間の関係の抽出の例を示す図である。

　図８に示す文書は、図７を参照して説明したタグが各スライドに付与された文書である。コンテンツ生成部２２は、談話構造解析の補助情報としてタグを用い、矢印Ａ１１に示すように、４ページ目のスライドに記載されている解決策が、３ページ目のスライドに記載されている課題に対応する解決策であるといった関係を抽出する。図８に示すように、３ページ目のスライドには「課題」タグが付与され、４ページ目のスライドには「解決策」タグが付与されている。

　同様に、コンテンツ生成部２２は、矢印Ａ１２に示すように、５ページ目のスライドに記載されている結果が、４ページ目のスライドに記載されている解決策に対応する実験結果であるといった関係を抽出する。４ページ目のスライドには「解決策」タグが付与され、５ページ目のスライドには「結果」タグが付与されている。

　コンテンツ生成部２２は、矢印Ａ１３に示すように、８ページ目のスライドに記載されている結果が、６ページ目のスライドに記載されている解決策に対応する実験結果であるといった関係を抽出する。６ページ目のスライドには「解決策」タグが付与され、８ページ目のスライドには「結果」タグが付与されている。

　コンテンツ生成部２２は、矢印Ａ１４に示すように、９ページ目のスライドに記載されている結果が、７ページ目のスライドに記載されている解決策に対応する実験結果であるといった関係を抽出する。７ページ目のスライドには「解決策」タグが付与され、９ページ目のスライドには「結果」タグが付与されている。

　コンテンツ生成部２２は、矢印Ａ１５に示すように、１０ページ目のスライドに記載されている課題が、６ページ目および７ページ目のスライドに記載されている解決策に対応する提案法の課題であるといった関係を抽出する。６ページ目および７ページ目のスライドには「解決策」タグが付与され、１０ページ目のスライドには「課題」タグが付与されている。

　このように、コンテンツ生成部２２は、タグ付与処理部２１により付与されたタグを補助情報として用いることにより、スライド間の関係性の抽出の性能を向上させることできる。

　コンテンツ生成部２２により抽出された関係性は、文書を読むときにタグとともにユーザに提示される。スライド間の関係性に関する情報が付加された文書が、コンテンツ生成部２２によりコンテンツとして生成される。スライド間の関係性をタグとともに参照することにより、ユーザは、内容をより深く理解することが可能となる。

・談話構造解析の結果を用いた要約の生成
　要約文書を構成する代表ページの抽出が、タグと談話構造解析の結果とを用いて行われるようにすることも可能である。

　談話構造解析の結果を考慮することにより、論理的な整合性が保たれた要約文書を生成することが可能になる。要約文書の生成に考慮される談話構造解析の結果は、図８に示すようにして抽出されたスライド間の関係性である。

　図９は、要約文書の生成の例を示す図である。

　図９の例においては、タグ付与処理が行われることにより、１ページ目乃至９ページ目のそれぞれのスライドに対して、「タイトル」、「課題」、「解決策」、「結果」、「課題」、「解決策」、「結果」、「課題」、「まとめ」のそれぞれのタグが付与されている。

　コンテンツ生成部２２により談話構造解析が行われることにより、矢印Ａ２１に示すように、３ページ目に記載されている解決策が、２ページ目に記載されている課題に対応する解決策であることが抽出されている。また、矢印Ａ２２に示すように、４ページ目に記載されている結果が、３ページ目に記載されている解決策に対応する結果であることが抽出されている。

　同様に、矢印Ａ２３に示すように、６ページ目に記載されている解決策が、５ページ目に記載されている課題に対応する解決策であることが抽出されている。矢印Ａ２４に示すように、７ページ目に記載されている結果が、６ページ目に記載されている解決策に対応する結果であることが抽出されている。矢印Ａ２５に示すように、８ページ目に記載されている課題が、６ページ目に記載されている解決策に対応する課題であることが抽出されている。

　図９の左側に示す文書は、４ページ目までと、それ以降とで話題に区切りがある文書である。

　このような場合において、タグのみを考慮して代表ページの抽出が行われた場合、図９の中央に示すように、「タイトル」タグが付与された１ページ目と「まとめ」タグが付与された９ページ目とともに、話題の区切りを跨いで、「課題」タグが付与された２ページ目、「解決策」タグが付与された６ページ目、「結果」タグが付与された７ページ目が抽出されることがある。話題の区切りを跨いでいるから、要約文書は、論理的な整合性が保たれてない可能性がある。

　コンテンツ生成部２２は、タグと談話構造解析の結果の両方を考慮し、図９の右側に示すように、話題の区切りを跨がないように代表ページの抽出を行う。

　図９の右側の例においては、「タイトル」タグが付与された１ページ目と「まとめ」タグが付与された９ページ目とともに、話題の区切りを跨がないように、「課題」タグが付与された２ページ目、「解決策」タグが付与された３ページ目、「結果」タグが付与された４ページ目が抽出されている。

　これにより、コンテンツ生成部２２は、論理的な整合性が保たれた要約文書を生成することが可能になる。

　このようにして論理的な整合性が保たれた要約文書を読むことにより、論理的な整合性が保たれていない要約文書を読む場合と比べて、ユーザは、内容を誤解してしまうことを防ぐことが可能となる。

　図１０は、文章の具体例を示す図である。

　図１０に示す文章は、図９に示す２ページ目乃至７ページ目の文書である。

　このような文章のタグのみを考慮し、「課題」タグが付与された２ページ目、「解決策」タグが付与された６ページ目、「結果」タグが付与された７ページ目が代表ページとして抽出された場合、２ページ目の課題は、６ページ目の解決策や７ページ目の結果とは関係のない課題であり、整合性が保たれていない要約文書となる。図１０の例においては、２ページ目の課題は「ディープラーニングにおいて、実行時間が長いという問題がある。」というものであり、例えば６ページ目の解決策は「メモリ使用量削減のために〇〇という技術を開発した。」というものである。

　タグと談話構造解析の結果の両方を考慮し、話題の区切りを跨がないように代表ページを抽出することにより、このような整合性が保たれていない要約文書が生成されてしまうことを防ぐことが可能となる。

　タグと談話構造解析の結果の両方を考慮して抽出された２ページ目の課題は、３ページ目の「実行時間削減のための〇〇という技術を開発した。」という解決策に対応するものであり、４ページ目の「実験の結果、〇〇%の実行時間削減ができた。」という結果は、３ページ目の解決策に対応するものである。２ページ目、３ページ目、および４ページ目を含む要約文書は、内容に一貫性があり、整合的が保たれたものとなる。

・レビューの重要箇所抽出
　レビューサイトに書き込まれたレビューを対象としてタグ付与処理が行われるようにすることも可能である。この場合、１つのレビューを１つの文書として、レビューを構成するそれぞれの部分に対してタグが付与される。この例においては、レビューを対象としたタグ付与処理によって「重要」と「関係なし」のタグが付与される。

　図１１は、レビューの例を示す図である。

　図１１に示すレビューは、ある飲食店のレビューである。図１１の例においては、「早速注文したパフェ(500円)は非常においしかった。また行きたいと思う。」の文章ｓ２には「重要」タグが付与され、文章ｓ１，ｓ３には「関係なし」タグが付与されている。各文章の間には空行が挿入されている。

　タグ付与処理部２１においては、１つのレビューを空行の位置で分割し、それぞれの分割済み文章に対してタグを付与する処理が行われる。レビューにおいては、内容の区切りとなる位置に空行が挿入されていると仮定される。

　このようなタグが付与されている場合、コンテンツ生成部２２は、「重要」タグが付与された文章ｓ２のみを用いて後段の処理を行う。

　例えば、コンテンツ生成部２２においては、タグ付与後の後段の処理として、ポジティブな内容のレビューであるか、ネガティブな内容のレビューであるかが文章ｓ２に基づいて判定される。また、文章ｓ２からキーワードが抽出される。

　タグ付与後の後段の処理として、ポジティブ／ネガティブ判定、キーワード抽出以外の処理が行われるようにすることも可能である。例えば、「重要」タグが付与された文章をまとめることによってレビューの要約が生成されるようにしてもよい。

　「重要」と「関係なし」のタグを用いて後段の処理を行うことにより、コンテンツ生成部２２は、不要な情報をレビューから取り除くことができる。

　レビューを対象として検索を行う場合に、「重要」タグが付与された文章のみを用いることによって、ユーザが期待する情報の検索精度を向上させることが可能となる。

・レビューのスニペット（要約）の生成
　図１２は、スニペットの生成の例を示す図である。

　図１２の例においては、図１１を参照して説明した文章と同じ文章ｓ１と文章ｓ２に加えて、「店はきれいめで落ち着いた感じだった」の文章ｓ３からなるレビューが、スニペットの生成の対象とされている。図１２の例においては、文章ｓ１には「関係なし」タグが付与され、文章ｓ２には「食べ物」タグが付与されている。また、文章ｓ３には「店の雰囲気」タグが付与されている。

　例えば、レビューを構成する文章の内容を表すタグとして「食べ物」、「店の雰囲気」、「店員」、「関係なし」のタグが用意される。

　コンテンツ生成部２２においては、例えば飲食店のメニューに関する情報をユーザに提示する場合、「食べ物」タグが付与された文章ｓ２のみを抽出することによってスニペットが生成される。同様に、飲食店の雰囲気に関する情報をユーザに提示する場合、「店の雰囲気」タグが付与された文章ｓ３のみを抽出することによってスニペットが生成される。どのタグが付与された文章を抽出してスニペットを生成するのかは、用途に応じて、コンテンツ生成部２２により選択される。

　図１３は、スニペットに関連する写真（画像）の選択の例を示す図である。

　複数の写真がレビューに添付されていることがある。スニペットに関連する写真として、スニペットの内容と関連のある写真が選択され、スニペットとともにユーザに提示される。

　図１３の例においては、写真Ｐ１乃至Ｐ３の３枚の写真がレビューに添付されている。この場合、コンテンツ生成部２２は、双方向の矢印で示すように、スニペットとしての文章ｓ２と、写真Ｐ１乃至Ｐ３のそれぞれの写真との関連度を計算し、関連度に応じて写真を選択する。図１３の例においては、関連度が最も高い写真Ｐ３が、スニペットとともに提示する写真として選択されている。

　レビューの一覧画面においては、スニペットの一覧が表示され、詳細を表示させるための操作が行われることに応じて、レビューの全文が表示されるようになっていることが多い。タグに基づいて生成したスニペットを一覧画面に表示することにより、レビューの最初の数行の文章をスニペットとして表示する場合に比べて、情報量の多いスニペットを提示することが可能となる。

・レビューの視覚化
　レビューの内容を視覚的に示すチャート画像がタグに基づいて生成され、ユーザに提示されるようにしてもよい。

　図１４は、レビューの視覚化の例を示す図である。

　図１４の例においては、ユーザ＃１により投稿されたレビューＲ１、ユーザ＃２により投稿されたレビューＲ２、および、ユーザ＃３により投稿されたレビューＲ３が示されている。レビューＲ１乃至Ｒ３には、それぞれ、「食べ物」、「店の雰囲気」、「店員」のタグが付与された文章が含まれる。

　例えば、レビューＲ１を構成する「店員さんは優しかった。」の文章ｓ１１は「店員」タグが付与された文章であり、「早速注文したパフェ(500円)は非常においしかった。また行きたいと思う。」の文章ｓ１２は「食べ物」タグが付与された文章である。「店はきれいめで落ち着いた感じだった。」の文章ｓ１３は「店の雰囲気」タグが付与された文章である。

　コンテンツ生成部２２においては、感情分析の手法などによって、各タグが付与された文章が解析され、ユーザの満足度が推定される。例えば、文章ｓ１１を解析することによってユーザ＃１の「店員」に関する満足度が推定され、文章ｓ１２を解析することによってユーザ＃１の「食べ物」に関する満足度が推定される。文章ｓ１３を解析することによってユーザ＃１の「店の雰囲気」に関する満足度が推定される。

　また、コンテンツ生成部２２においては、各タグの内容に関する満足度の推定結果を表すチャート画像が生成される。チャート画像は、各タグに対応する軸の値として、満足度の推定結果に応じた値が設定されることによって構成される。図１３の例においては、レビューＲ１乃至Ｒ３に基づいて、チャート画像Ｃ１乃至Ｃ３が生成されている。

　各レビューを視覚化して表すチャート画像Ｃ１乃至Ｃ３がユーザに提示されるようにしてもよいし、図１４の右端に示すように、複数のチャート画像の内容をまとめた１つのチャート画像が、総合的な満足度を表す画像としてユーザに提示されるようにしてもよい。総合的な満足度は各ユーザの満足度の平均などにより求められる。

　通常のレビューサイトにおいては、満足度を表す星などがユーザ（レビュワー）により手入力される。ユーザが意図していない星が誤入力されることもある。ユーザが投稿した文章に基づいて満足度を推定し、視覚化することにより、誤入力がそのまま表示されるのを防ぐことが可能となる。

　また、タグに応じた軸を有するチャート画像を表示することにより、星の数などの一次元的な指標を用いる場合よりも、総合的な評判を可視化することができる。

　レビューの対象となった店にとっても、どの点の評判がよく、どの点が改善すべき点なのかを一目で確認することが可能となる。

＜変形例＞
・システム構成の例
　文書タグ付与アプリケーション１１によるタグ付与処理が情報処理装置１により行われるものとしたが、以上のようなタグ付与処理と、タグ付与処理後のコンテンツ生成が、サーバ－クライアントシステムにおいて実現されるようにしてもよい。

　図１５は、情報処理システムの構成例を示す図である。

　図１５に示す情報処理システムは、情報処理装置１と情報処理サーバ１０１とがネットワーク１０２を介して接続されることによって構成される。

　情報処理サーバ１０１は、タグ付与処理の機能を有するサーバである。情報処理サーバ１０１には、文書タグ付与アプリケーション１１と同様の機能を有するアプリケーションソフトウェアがインストールされている。タグ付与処理等の機能が、情報処理サーバ１０１を含む複数のサーバにより実現されるようにしてもよい。

　情報処理サーバ１０１は、情報処理装置１から送信されてきた文書、または、所定のサーバ上で管理される文書を受信し、上述したようなタグ付与処理を行う。情報処理サーバ１０１は、タグ付与処理後の文書に基づいて、要約などの各種のコンテンツを生成し、情報処理装置１に対して送信する。

　情報処理装置１においては、情報処理サーバ１０１から送信されてきた情報に基づいて、タグ付与処理の結果や、タグ付与処理の結果に基づいて生成されたコンテンツがユーザに提示される。

　このように、ローカルの装置にインストールされた文書タグ付与アプリケーション１１によりタグ付与処理が行われるのではなく、ネットワーク上の情報処理サーバ１０１により行われるようにしてもよい。

　文書タグ付与アプリケーション１１がインストールされるローカルの装置として、タブレット端末、スマートフォンなどの携帯端末が用いられるようにしてもよい。

・コンピュータの構成例
　上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

　図１６は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　情報処理装置１、および情報処理サーバ１０１も、図１６に示す構成と同じ構成を有する。

　CPU(Central Processing Unit)２０１、ROM(Read Only Memory)２０２、RAM(Random Access Memory)２０３は、バス２０４により相互に接続されている。

　バス２０４には、さらに、入出力インタフェース２０５が接続されている。入出力インタフェース２０５には、キーボード、マウスなどよりなる入力部２０６、ディスプレイ、スピーカなどよりなる出力部２０７が接続される。また、入出力インタフェース２０５には、ハードディスクや不揮発性のメモリなどよりなる記憶部２０８、ネットワークインタフェースなどよりなる通信部２０９、リムーバブルメディア２１１を駆動するドライブ２１０が接続される。

　以上のように構成されるコンピュータでは、CPU２０１が、例えば、記憶部２０８に記憶されているプログラムを入出力インタフェース２０５及びバス２０４を介してRAM２０３にロードして実行することにより、上述した一連の処理が行われる。

　CPU２０１が実行するプログラムは、例えばリムーバブルメディア２１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部２０８にインストールされる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

　本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

・構成の組み合わせ例
　本技術は、以下のような構成をとることもできる。

（１）
　文書を構成する部分のうちの、予め決められた規則に当てはまる第１の部分に対して、前記第１の部分の内容を表すタグを前記規則に従って付与し、前記規則に当てはまらない第２の部分に対して、前記第２の部分の内容を表すタグを統計的手法に従って付与する情報処理部を備える
　情報処理装置。
（２）
　前記統計的手法は、機械学習によって生成された推論モデルを用いた手法である
　前記（１）に記載の情報処理装置。
（３）
　前記文書を、前記タグを付与する対象となる部分単位に分割する分割部をさらに備える
　前記（１）に記載の情報処理装置。
（４）
　前記分割部は、前記文書に含まれる文章を区切り毎に分割することによって、前記文書を前記部分単位に分割する
　前記（１）乃至（３）のいずれかに記載の情報処理装置。
（５）
　前記文書の要約を前記タグに基づいて生成する生成部をさらに備える
　前記（１）乃至（４）のいずれかに記載の情報処理装置。
（６）
　前記生成部は、前記文書を構成するページを前記タグに基づいてページ単位で抽出し、抽出した前記ページから構成される前記要約を生成する
　前記（５）に記載の情報処理装置。
（７）
　前記生成部は、前記タグの種類毎に１ページを抽出する
　前記（５）または（６）に記載の情報処理装置。
（８）
　前記生成部は、複数の前記ページ間の内容の関係の解析を前記タグに基づいて行う
　前記（６）または（７）に記載の情報処理装置。
（９）
　前記生成部は、前記文書に含まれる文章のうちの重要部分を、前記タグに基づいて段落単位で抽出し、抽出した前記重要部分を前記要約として生成する
　前記（５）に記載の情報処理装置。
（１０）
　前記生成部は、前記重要部分と前記文書に添付されたそれぞれの写真との関連度を算出し、前記重要部分と、前記関連度に基づいて選択した前記写真とから構成される前記要約を生成する
　前記（９）に記載の情報処理装置。
（１１）
　前記文章の内容に応じた点数を前記タグの種類毎に可視化して表すチャート画像を生成する生成部をさらに備える
　前記（１）に記載の情報処理装置。
（１２）
　情報処理装置が、
　文書を構成する部分のうちの、予め決められた規則に当てはまる第１の部分に対して、前記第１の部分の内容を表すタグを前記規則に従って付与し、
　前記規則に当てはまらない第２の部分に対して、前記第２の部分の内容を表すタグを統計的手法に従って付与する
　情報処理方法。
（１３）
　コンピュータに、
　文書を構成する部分のうちの、予め決められた規則に当てはまる第１の部分に対して、前記第１の部分の内容を表すタグを前記規則に従って付与し、
　前記規則に当てはまらない第２の部分に対して、前記第２の部分の内容を表すタグを統計的手法に従って付与する
　処理を実行させるためのプログラム。

　１　情報処理装置，　１１　文書タグ付与アプリケーション，　２１　タグ付与処理部，　２２　コンテンツ生成部，　３１　テキスト分割部，　３２　ルールベースタグ付与部，　３３　単語分割部，　３４　ベクトル化処理部，　３５　推論部，　３６　モデル学習部，　１０１　情報処理サーバ

Claims

　文書を構成する部分のうちの、予め決められた規則に当てはまる第１の部分に対して、前記第１の部分の内容を表すタグを前記規則に従って付与し、前記規則に当てはまらない第２の部分に対して、前記第２の部分の内容を表すタグを統計的手法に従って付与する情報処理部を備える
　情報処理装置。
　前記統計的手法は、機械学習によって生成された推論モデルを用いた手法である
　請求項１に記載の情報処理装置。
　前記文書を、前記タグを付与する対象となる部分単位に分割する分割部をさらに備える
　請求項１に記載の情報処理装置。
　前記分割部は、前記文書に含まれる文章を区切り毎に分割することによって、前記文書を前記部分単位に分割する
　請求項３に記載の情報処理装置。
　前記文書の要約を前記タグに基づいて生成する生成部をさらに備える
　請求項１に記載の情報処理装置。
　前記生成部は、前記文書を構成するページを前記タグに基づいてページ単位で抽出し、抽出した前記ページから構成される前記要約を生成する
　請求項５に記載の情報処理装置。
　前記生成部は、前記タグの種類毎に１ページを抽出する
　請求項６に記載の情報処理装置。
　前記生成部は、複数の前記ページ間の内容の関係の解析を前記タグに基づいて行う
　請求項６に記載の情報処理装置。
　前記生成部は、前記文書に含まれる文章のうちの重要部分を、前記タグに基づいて段落単位で抽出し、抽出した前記重要部分を前記要約として生成する
　請求項５に記載の情報処理装置。
　前記生成部は、前記重要部分と前記文書に添付されたそれぞれの写真との関連度を算出し、前記重要部分と、前記関連度に基づいて選択した前記写真とから構成される前記要約を生成する
　請求項９に記載の情報処理装置。
　前記文章の内容に応じた点数を前記タグの種類毎に可視化して表すチャート画像を生成する生成部をさらに備える
　請求項４に記載の情報処理装置。
　情報処理装置が、
　文書を構成する部分のうちの、予め決められた規則に当てはまる第１の部分に対して、前記第１の部分の内容を表すタグを前記規則に従って付与し、
　前記規則に当てはまらない第２の部分に対して、前記第２の部分の内容を表すタグを統計的手法に従って付与する
　情報処理方法。
　コンピュータに、
　文書を構成する部分のうちの、予め決められた規則に当てはまる第１の部分に対して、前記第１の部分の内容を表すタグを前記規則に従って付与し、
　前記規則に当てはまらない第２の部分に対して、前記第２の部分の内容を表すタグを統計的手法に従って付与する
　処理を実行させるためのプログラム。