WO2023238650A1

WO2023238650A1 - 変換装置および変換方法

Info

Publication number: WO2023238650A1
Application number: PCT/JP2023/019072
Authority: WO
Inventors: 礼夢肥田
Original assignee: ソニーグループ株式会社
Priority date: 2022-06-06
Filing date: 2023-05-23
Publication date: 2023-12-14

Abstract

本開示に係る変換装置は、コンテンツと、当該コンテンツを視聴するユーザに関する情報であるユーザ情報とを取得する取得部と、前記取得部によって取得されたコンテンツの内容と、前記ユーザ情報とに基づいて、当該コンテンツの区間ごとの重要度を推定する推定部と、前記推定部によって推定された重要度に基づいて、前記コンテンツを再生する再生速度を前記区間ごとに変換する変換部と、を備える。

Description

変換装置および変換方法

　本開示は、コンテンツの再生態様をユーザに合わせて変換する変換装置および変換方法に関する。

　音声データや映像データの符号化技術の発展、記憶装置の大容量化および小型化、ネットワークを利用した入手経路の多様化等の技術的背景により、映像コンテンツや音楽コンテンツをユーザが利用する機会が増加している。

　このような状況下において、ユーザの利便性を向上させるため、話速が途中で変化する音声データに対して、聞き取りやすい話速に変化させることのできる話速変換装置が提案されている（例えば、特許文献１）。

特開２００５－１４１１４７号公報

　従来技術によれば、例えば複数話者に対応する各々の音声ついて異なる話速を設定することが可能になるので、ユーザの聞き取りやすさを向上することができる。

　しかし、音声や映像等のコンテンツに対する聞き取りやすさや好みとする速度は人それぞれであり、一律にどのような速度が適切であるかを決定することは難しい。また、ユーザとしても、視聴するコンテンツのジャンルや内容によっては視聴速度を変化させることを好まない場合もある。また、大量のコンテンツがネット経由で配信されるような状況下では、ユーザ自身が再生態様をコンテンツごとに事前設定することも現実的には困難である。

　そこで、本開示では、コンテンツごとの事前設定の手間を要せずに、ユーザの視聴効率や視聴体験を向上させることのできる変換装置および変換方法を提案する。

　上記の課題を解決するために、本開示に係る一形態の変換装置は、コンテンツと、当該コンテンツを視聴するユーザに関する情報であるユーザ情報とを取得する取得部と、前記取得部によって取得されたコンテンツの内容と、前記ユーザ情報とに基づいて、当該コンテンツの区間ごとの重要度を推定する推定部と、前記推定部によって推定された重要度に基づいて、前記コンテンツを再生する再生速度を前記区間ごとに変換する変換部と、を備える。

実施形態に係る変換処理の概要を示す図である。実施形態に係る変換処理の手順を示すブロック図である。実施形態に係る変換装置の構成例を示す図である。実施形態に係るユーザ情報記憶部の一例を示す図（１）である。実施形態に係るユーザ情報記憶部の一例を示す図（２）である。実施形態に係るユーザ情報記憶部の一例を示す図（３）である。実施形態に係る推定処理を説明するための図である。実施形態に係る出力制御処理を説明するための図（１）である。実施形態に係る出力制御処理を説明するための図（２）である。実施形態に係る出力制御処理を説明するための図（３）である。実施形態に係る出力制御処理を説明するための図（４）である。実施形態に係るコンテンツの表示例を示す図（１）である。実施形態に係るコンテンツの表示例を示す図（２）である。変換装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　以下に示す項目順序に従って本開示を説明する。
　　１．実施形態
　　　１－１．実施形態に係る変換処理の概要
　　　１－２．実施形態に係る変換処理の手順
　　　１－３．実施形態に係る変換装置の構成
　　　１－４．実施形態に係る変形例
　　　　１－４－１．区間の設定
　　　　１－４－２．音声変換の例
　　　　１－４－３．その他の出力例
　　２．その他の実施形態
　　３．本開示に係る変換装置の効果
　　４．ハードウェア構成

（１．実施形態）
（１－１．実施形態に係る変換処理の概要）
　まず、図１を用いて、実施形態に係る変換処理の概要を説明する。図１は、実施形態に係る変換処理の概要を示す図（１）である。

　実施形態に係る変換処理は、図１に図示する変換装置１００によって実行される。変換装置１００は、例えば、サーバ装置やＰＣ（personal　computer）等の情報処理端末である。変換装置１００は、実施形態に係る変換処理を施した動画等のコンテンツを聴取者（以下、「ユーザ」と称する）に提供する。なお、変換装置１００は、自装置からコンテンツを出力してもよいし、有線又は無線通信を介して、ユーザがコンテンツの視聴に利用する表示機器（ディスプレイやスピーカ等）にコンテンツを出力してもよい。

　図１に示すユーザ１０は、コンテンツを視聴するユーザの一例である。ユーザ１０は、ユーザ端末２００を用いて、変換装置１００から配信されるコンテンツを視聴する。ユーザ端末２００は、スマートフォンやタブレット端末等の情報処理端末である。なお、ユーザ端末２００は、変換装置１００から配信されたコンテンツを視聴するためのディスプレイやスピーカ等であってもよい。

　本開示に係る変換処理は、音楽や映像、ネットワーク配信動画等のメディアコンテンツ（以下、「コンテンツ」と総称する）において、ユーザの視聴効率を向上させたり、ユーザの視聴に係る満足度を向上させたりする目的で利用される。

　かかる技術の背景として、動画配信プラットフォームの発展や、オンラインを利用した講演や授業の利用等に伴い、ユーザが触れることのできるコンテンツやアーカイブの数が増加しているということが挙げられる。すなわち、コンテンツの重要度やコンテンツを視聴する観点はユーザによって様々に異なるにも関わらず、すべてのユーザが一様な態様でコンテンツを視聴することは、効率性を低下させる可能性がある。例えば、多くのコンテンツを視聴するために倍速視聴をするユーザや、関心のある箇所だけ視聴するためスキップ操作を多用するユーザがいる一方で、好きなコンテンツをなるべく加工せず熱心に視聴するユーザもいる。また、ユーザによっては、内容をよく理解するために、通常設定よりも遅い速度でコンテンツを視聴することを所望する場合もある。

　このため、コンテンツは、ユーザごとに視聴態様が異なることが望ましい。また、視聴態様も一律ではなく、ユーザが、例えば視聴するジャンルや内容、登場人物等によって態様を分けることを望む場合もある。しかし、視聴するコンテンツの数が増加すると、それらのコンテンツに対してユーザが視聴態様を一つ一つ設定することは負担が大きい。

　そこで、変換装置１００は、ユーザ１０がコンテンツを視聴する際に、ユーザ１０がそのコンテンツをどのように視聴したいかという好みに関する情報に基づいて、コンテンツの再生態様を変換する。

　例えば、変換装置１００は、コンテンツと、当該コンテンツを視聴するユーザに関する情報であるユーザ情報とを取得し、取得したコンテンツの内容とユーザ情報とに基づいて、コンテンツの区間ごとの重要度を推定する。そして、変換装置１００は、推定した重要度に基づいて、コンテンツを再生する再生速度を区間ごとに変換する。より具体的には、変換装置１００は、コンテンツから得られるメタデータ（コンテンツに映っているもの、コンテンツの台本（トランスクリプション）、音声の有無等の時系列情報）と、ユーザの嗜好情報や視聴履歴等に基づいて、コンテンツに対して、ユーザごとに好ましい変換を行う。例えば、変換装置１００は、コンテンツが再生される際に再生速度や再生場所が変換されるフィルタ処理を施す。これにより、変換装置１００は、コンテンツの視聴効率をあげる。また、変換装置１００は、個人ごとの視聴態様でコンテンツを享受させることができるので、ユーザの満足度を向上させることができる。

　上記の処理について、図１を用いて概要を説明する。図１において、変換装置１００は、動画配信プラットフォームをユーザ１０に提供するサーバ装置であるものとする。すなわち、変換装置１００は、ユーザ１０の日常的な視聴履歴等のユーザ情報６０を取得することができる。なお、変換装置１００は、ユーザ１０から、ユーザ１０が好むコンテンツのジャンルや視聴を避けたいジャンル、好みの俳優等の種々の設定情報を取得していてもよい。すなわち、ユーザ情報６０とは、ユーザのコンテンツ視聴に関する様々な情報を含みうる。

　また、変換装置１００は、配信対象とするコンテンツ５０を保持する。変換装置１００は、コンテンツ５０について様々な情報を取得可能である。例えば、変換装置１００は、コンテンツ５０にジャンルや内容、コンテンツ５０に出演している俳優名や登場シーンや登場時間、コンテンツ５０の台本（発話される音声のテキストデータ）等を取得可能である。これらは、コンテンツ５０のメタデータ（内部データ）として、例えば、コンテンツ５０に紐づくタグ情報として記憶されてもよいし、任意の事業者等によって付与された情報であってもよい。

　図１において、ユーザ１０がユーザ端末２００を操作し、コンテンツ５０の視聴を所望したとする。この場合、変換装置１００は、コンテンツ５０の情報、および、ユーザ１０に対応するユーザ情報６０の情報に基づいて、コンテンツ５０の区間ごとの重要度を推定する。例えば、変換装置１００は、所定の機械学習モデルを用いて、コンテンツ５０の区間ごとの重要度（スコア）を算出する。なお、これらの詳細な処理については後述する。

　そして、変換装置１００は、重要度に応じて再生態様が変換されたコンテンツ５０をユーザ１０に配信する。なお、実施形態において、再生態様の変換は、例えば、ユーザ端末２００での再生の際に再生アプリケーション上でフィルタを適用することにより実現される。すなわち、ユーザ１０は、フィルタを適用するか否かを任意に選択可能である。例えば、配信直後の状態、もしくはユーザがフィルタを適用することを明示的に選択した場合に、変換装置１００による変換が施された態様でコンテンツ５０が再生される。

　図１には、変換後のコンテンツ５０の再生態様を概念的に示している。図１に示す例では、ユーザ１０は、コンテンツ５０に出演する俳優５１を好んでいるものとする。例えば、ユーザ１０は、俳優５１が出演する他のコンテンツを頻繁に視聴しており、俳優５１を視聴した履歴を多く有する。また、ユーザ１０は、俳優同士の発話等がないシーンはスキップする傾向にあるものとする。

　このとき、変換装置１００は、コンテンツ５０の再生態様として、俳優５１が発話する場面については通常通りの速度で再生し、特に変換を行わないことを決定する。

　また、変換装置１００は、俳優５２が発話する場面については、俳優５１が発話するシーンと比較して重要度が低いと推定する。この場合、変換装置１００は、重要度に即して、俳優５１が発話する区間がやや早い速度（例えば１．３倍速）で再生されるよう、コンテンツを変換する。

　また、変換装置１００は、俳優５１や俳優５２等が発話しない場面、すなわち俳優による発話や会話がないシーンは、他のシーンと比較して、ユーザ１０にとって極めて重要度が低いと推定する。この場合、変換装置１００は、重要度に即して、当該シーンをスキップするようコンテンツを変換する。

　このように、変換装置１００は、ユーザ１０がコンテンツ５０を視聴する際に、コンテンツ５０の区間ごとに重要度を推定し、推定した重要度に基づいて、コンテンツ５０を変換する。具体的には、変換装置１００は、再生態様を変換するフィルタをユーザ１０の視聴環境に適用することで、コンテンツ５０の再生態様を変換する。これにより、ユーザ１０は、自身が好む俳優５１の出演シーンを通常通り視聴することができる。また、ユーザ１０は、俳優５１以外の俳優の登場シーンをやや速い速度で視聴したり、対話のないシーンをスキップして視聴できるので、視聴効率を向上することができる。

　なお、図１では、コンテンツ変換の例として、俳優５２が出演する区間の速度（言い換えれば、俳優５１の話速）の変換を示した。しかし、変換態様はこれに限られない。例えば、変換装置１００は、俳優５２の声質を変換してもよい。例えば、変換装置１００は、既知の音声フィルタ処理により、俳優５２の声を高く、もしくは、低く変換してもよい。一例として、変換装置１００は、男性である俳優５２の声を女声に変換してもよい。これにより、変換装置１００は、ユーザ１０にとってより聞き取りやすい発話を提供することができる。なお、これらの変換についても、変換装置１００は、ユーザ１０の視聴履歴や、ユーザ１０がコンテンツの再生時に施したフィルタの履歴等を利用して、ユーザ１０の好みに合わせて適用することができる。

（１－２．実施形態に係る変換処理の手順）
　次に、図２を用いて、実施形態に係る変換処理の手順の一例を説明する。図２は、実施形態に係る変換処理の手順を示すブロック図である。

　図２に示すように、変換装置１００は、コンテンツ５０およびユーザ情報６０を取得する。変換装置１００は、取得したコンテンツ５０のメタ情報を抽出する（ステップＳ１０）。

　メタ情報とは、コンテンツ５０の内容を示す内部データである。例えば、メタ情報は、コンテンツ５０が全体としてどのようなコンテンツであるかを示すジャンルを含む。また、メタ情報は、コンテンツ５０に出演している人物名や、発話している人物名や、発話の内容を示すキャプション情報（スクリプト）等を含んでもよい。

　変換装置１００は、既知の技術を用いて、時系列に沿ってメタ情報を抽出する。例えば、変換装置１００は、コンテンツ５０が「インタビュー動画」に該当するか、「料理動画」に該当するか、などのジャンルを推定する。一例として、変換装置１００は、コンテンツ５０のキャプション情報や、出演俳優の情報や声質、コンテンツ５０の画像認識等に基づいて、コンテンツ５０のジャンルを推定する。なお、ネットワーク配信コンテンツ等は、配信業者によってジャンル等のメタ情報が与えられている場合があるため、変換装置１００は、かかる情報をメタ情報として取得してもよい。

　すなわち、変換装置１００は、画像認識や音声認識や話者識別等の各種認識モジュールを用いてメタ情報を抽出してもよいし、別途、動画や音声プラットフォーム上のＡＰＩ（Application　Programming　Interface）から取得できる情報を用いてもよい。

　その後、変換装置１００は、「俳優５１の出演および発話；００：３０～００４５」のように、コンテンツに登場する人物名とその発話が行われた時間を時系列に沿って抽出する。かかる抽出は、例えば、キャプション情報や画像認識等によって実現される。なお、変換装置１００は、「俳優５１の発話「私はそうは思いません」；００：３０～００：３５」のように、コンテンツ５０を区切るきっかけとなりそうなセリフ（キャプション情報）とともに、メタ情報を抽出してもよい。これにより、変換装置１００は、コンテンツ５０を意味のある区間に区切ることができる。なお、どのようなセリフが区間を区切る要素となりえるかは、例えば、変換装置１００が、言語の重要度を図る自然言語学習済みモデル等にキャプション情報を入力することで、出力されたスコア（重要度）に基づいて決定することができる。

　上記処理により、変換装置１００は、コンテンツ５０を内容に沿って、ある程度の時間ごとの区間に区切ることができる。このあと、変換装置１００は、コンテンツ５０の区間ごとの重要度を推定する（ステップＳ１２）。

　すなわち、変換装置１００は、抽出されたメタ情報とユーザ情報６０とを入力として、コンテンツ５０全体およびコンテンツ５０の区間ごとの、ユーザ１０にとっての重要度を推定する。

　上述のように、変換装置１００は、ユーザ情報６０として、ユーザ１０がどのようなジャンルの動画が好きか、どの俳優やアーティストが好きか、といった嗜好情報を取得する。また、変換装置１００は、ユーザ１０が過去にどのような内容の動画を見ているかという視聴履歴や、過去に視聴した動画に対して倍速やスキップ等の操作をどのくらい行ったかという操作履歴を取得する。

　変換装置１００は、これらユーザ情報６０を用いて、コンテンツ５０全体およびコンテンツ５０の区間ごとの内容について、ユーザ１０がどれくらい視聴を望んでいるかという重要度を総合的に推定する。

　例えば、重要度が高く推定されやすい区間としては、ユーザ１０が好きな出演者が発話しているシーンや、ユーザ１０が興味関心の高いと推定される区間が該当する。一方、重要度が低く推定されやすい区間としては、ユーザ１０にとって苦手な内容が発話されているシーンや、発話が行われない無音区間等が挙げられる。

　上記の基準は、視聴するユーザに依拠するため、例えばユーザ１０にとって重要であっても、他のユーザにとっては重要ではないということもありうる。変換装置１００は、各々のユーザ情報を用いて重要度を推定することで、各々のユーザごとの重要度を適切に推定する。なお、推定処理の詳細は後述する。

　続いて、変換装置１００は、ユーザ１０にコンテンツ５０を配信するにあたり、フィルタを適用するか否かを判定する（ステップＳ１４）。

　例えば、変換装置１００は、重要度推定処理の結果を受けて、特にコンテンツ５０を変換する必要がないと判定すると、フィルタを適用しないと判定する。一例として、変換装置１００は、コンテンツ５０全体がユーザ１０にとって重要度が高く、話速を早くしたりシーンを削除したりする必要がないと判定した場合、フィルタを適用しない。

　一方で、変換装置１００は、コンテンツ５０の区間ごとに重要度の差が大きく、コンテンツ５０の再生態様を区間ごとに変換したほうがユーザ１０にとって好適と推定される場合、フィルタを適用する。なお、変換装置１００は、ユーザ１０による初期設定がフィルタを適用しないとされている場合等、別途、設定がある場合、かかる設定にしたがってもよい。

　変換装置１００は、ステップＳ１４においてフィルタ適用有りと判定した場合、フィルタを適用する（ステップＳ１６）。

　例えば、変換装置１００は、コンテンツ５０について動画変換を行う（ステップＳ１８）。一例として、変換装置１００は、コンテンツ５０の再生速度を変換する。具体的には、変換装置１００は、コンテンツ５０のうち、俳優５２が出演する区間であり、ユーザ１０にとって重要度が低いと推定された区間について、再生速度が速くなるよう、コンテンツ５０を変換する。

　また、変換装置１００は、動画変換として、特定の区間を削除する処理を行ってもよい。すなわち、変換装置１００は、動画および音声の尺を短くするため、重要度の低い区間を削除したり、きわめて早い速度で再生したりするよう、コンテンツ５０を変換する。一例として、変換装置１００は、ユーザ１０にとって好きな出演者が発話していないシーンや、内容として冗長なシーンや、センシティブな内容でユーザ１０が視聴を好まないシーン等を削除する。これらの削除判定は、コンテンツ５０を視聴するユーザに依拠して決定される。

　また、変換装置１００は、コンテンツ５０について音声変換を行ってもよい（ステップＳ２０）。一例として、変換装置１００は、コンテンツ５０に出演する俳優の声質を変換する。具体的には、変換装置１００は、コンテンツ５０のうち、きわめて低い周波数帯域で発話する俳優５２に対して、俳優５２の音声を話者認識処理で特定したのち、かかる音声を女声に変換する等の処理を行う。

　なお、変換装置１００は、話者認識について、事前にコンテンツ５０に設定されたメタ情報から話者数を認識しておいてもよいし、コンテンツ５０の音声を解析することにより、話者数を推定してもよい。また、変換装置１００は、コンテンツ５０が動画である場合、発話しているシーンを画像認識することにより、話者特性や話者数推定を行うことができる。

　そして、変換装置１００は、話者ごとに、発話しているシーンの時系列を決定する。変換装置１００は、話者の発話ごとに、コンテンツ５０を区間に区切ってもよい。そして、変換装置１００は、話者ごとに、その話速や声質、韻律情報等を抽出する。すなわち、変換装置１００は、区間ごとに、その区間に含まれる音声の話速や声質を推定する。

　話速は、例えば、音声認識を用いて、各区間に発話の単位（音素）がいくつ含まれているかを認識することで算出される。あるいは、変換装置１００は、直接分類器を構築し、話速を推定してもよい。

　声質について、変換装置１００は、例えば、既知の話者識別用アルゴリズムを用いて判定してもよいし、事前学習済みモデルを使って特徴量として出力してもよい。

　韻律について、変換装置１００は、例えば、既知の音声認識モデル等を用いて、発話のピッチ（周波数）や、発音の音の高低の特徴等を抽出してもよい。

　なお、ステップＳ１６で適用されるフィルタの有無や、フィルタのかかり具合は、例えば変換装置１００が提供するユーザインターフェイスを介して、ユーザ１０が任意に調整可能である。かかる処理の詳細については後述する。

　変換装置１００は、コンテンツ５０を変換すると、変換後のコンテンツ５０を出力する（ステップＳ２２）。例えば、変換装置１００は、ユーザ１０が利用するユーザ端末２００にコンテンツ５０を配信する。ユーザ１０は、ユーザ端末２００で動作する再生アプリケーションを利用して、変換されたコンテンツ５０を視聴する。

　変換装置１００は、再生アプリケーション上において、変換の根拠を表示してもよい（ステップＳ２４）。例えば、変換装置１００は、コンテンツ５０において、ある区間が削除されることを示すとともに、かかる区間が「無音区間」であるといった、削除の根拠となる情報を表示する。これにより、ユーザ１０は、コンテンツ５０が変換された理由を容易に確認することができる。

　なお、ユーザ１０は、再生アプリケーションのユーザインターフェイス上において、かかる根拠情報を修正してもよい（ステップＳ２６）。例えば、ユーザ１０は、自身が所望しない変換が行われていた場合、かかる変換を取り消したり、変換の根拠となった情報を修正することができる。

　この場合、変換装置１００は、ユーザ１０の修正（すなわち、ユーザ１０によるフィードバック）を取得し、取得した情報に基づいて、重要度推定モデルを再学習する等の処理を行ってもよい。これにより、変換装置１００は、ユーザ１０が視聴および修正を行うたびに、ユーザ１０に最適化された変換処理を行うことができるよう学習を進めることができる。

　以上のように、変換装置１００は、コンテンツおよびユーザ情報を用いて、ユーザに即した変換を自動的に行うので、コンテンツごとの事前設定の手間等を要せずに、ユーザの視聴効率や視聴体験を向上させることができる。

（１－３．実施形態に係る変換装置の構成）
　次に、図３を用いて、実施形態に係る変換装置１００の構成について説明する。図３は、実施形態に係る変換装置１００の構成例を示す図である。

　図３に示すように、変換装置１００は、通信部１１０と、記憶部１２０と、制御部１３０と、出力部１４０とを有する。なお、変換装置１００は、変換装置１００を操作するユーザ等から各種操作を受け付ける入力部（例えばタッチパネル）や、各種情報を表示するための表示部（例えば液晶ディスプレイ）を有してもよい。

　通信部１１０は、例えば、ＮＩＣ（Network　Interface　Card）等によって実現される。通信部１１０は、ネットワークＮ（インターネット、ＮＦＣ（Near　field　communication）、Ｂｌｕｅｔｏｏｔｈ等）と有線又は無線で接続され、ネットワークＮを介して、再生機器等との間で情報の送受信を行う。

　記憶部１２０は、例えば、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。図３に示すように、記憶部１２０は、ユーザ情報記憶部１２１を有する。

　ユーザ情報記憶部１２１は、変換装置１００を利用するユーザのユーザ情報を記憶する。ユーザ情報は、例えば、ユーザの視聴履歴や、操作履歴や、予めユーザから設定される嗜好情報等を含む。以下、図４から図６を用いて、各ユーザ情報を例示する。

　図４は、実施形態に係るユーザ情報記憶部１２１の一例（１）を示す図である。図４では、ユーザ情報のうち視聴履歴テーブル１２１１の一例を示す。

　図４に示すように、視聴履歴テーブル１２１１は、「視聴コンテンツＩＤ」、「視聴日時」、「ジャンル」、「メタ情報」といった項目を有する。

　「視聴コンテンツＩＤ」は、コンテンツを識別する識別情報を示す。「視聴日時」は、ユーザがコンテンツを視聴した日時を示す。「ジャンル」は、コンテンツのジャンルを示す。「メタ情報」は、コンテンツのメタ情報を示す。なお、図４から図６では、項目のデータを「Ａ０１」や「Ｂ０１」のように概念的に記載する場合があるが、実際には、各項目のデータには、各項目に対応した具体的なデータが記憶される。

　次に、操作履歴について説明する。図５は、実施形態に係るユーザ情報記憶部１２１の一例（２）を示す図である。図５では、ユーザ情報のうち操作履歴テーブル１２１２の一例を示す。

　図５に示すように、操作履歴テーブル１２１２は、「操作履歴ＩＤ」、「コンテンツ情報」、「操作」、「タイムスタンプ」といった項目を有する。

　「操作履歴ＩＤ」は、ユーザが実行した操作履歴を識別する識別情報を示す。「コンテンツ情報」は、ユーザが操作したコンテンツの名称や内容等、コンテンツに関する種々の情報を示す。「操作」は、実際にユーザが操作した具体的な操作の内容を示す。「タイムスタンプ」は、コンテンツにおいてユーザが操作を行った際のコンテンツの尺（時間情報）を示す。

　次に、ユーザが設定した嗜好情報について説明する。例えば、ユーザは、変換装置１００が変換するコンテンツを視聴することのできるサービスを利用するにあたり、視聴したいジャンルや、視聴したくない内容等を設定することができる。変換装置１００は、かかる設定情報をユーザ情報記憶部１２１に記憶し、かかる情報を利用して、ユーザに配信するコンテンツを変換してもよい。

　図６は、実施形態に係るユーザ情報記憶部１２１の一例（３）を示す図である。図６では、ユーザ情報のうち嗜好情報テーブル１２１３の一例を示す。

　図６に示すように、嗜好情報テーブル１２１３は、「設定ＩＤ」、「項目」、「設定内容」といった項目を有する。

　「設定ＩＤ」は、ユーザが設定した嗜好情報を識別する識別情報を示す。「項目」は、ユーザが自身の情報を設定する際の項目を示す。「設定内容」は、項目においてユーザが設定した具体的な内容を示す。

　なお、嗜好情報は、必ずしもユーザが設定することを要さず、視聴履歴や操作履歴に基づいて変換装置１００がユーザの嗜好を推定し、推定した情報を嗜好情報テーブル１２１３に記憶してもよい。

　なお、図４から図６で示した各情報はあくまで一例であり、変換装置１００は、ユーザに関する情報であれば、様々な内容やあらゆる形式の情報をユーザ情報として記憶しておいてもよい。

　図３に戻り、説明を続ける。制御部１３０は、例えば、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）等によって、変換装置１００内部に記憶されたプログラム（例えば、本開示に係る変換プログラム）がＲＡＭ（Random　Access　Memory）等を作業領域として実行されることにより実現される。また、制御部１３０は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実現されてもよい。

　図３に示すように、制御部１３０は、取得部１３１と、推定部１３２と、変換部１３３と、出力制御部１３４と、修正部１３５とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図３に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

　取得部１３１は、各種情報を取得する。例えば、取得部１３１は、コンテンツと、当該コンテンツを視聴するユーザに関する情報であるユーザ情報とを取得する。

　例えば、取得部１３１は、ユーザ情報として、ユーザによるコンテンツの視聴履歴およびユーザがコンテンツを視聴する際の操作履歴を取得する。

　また、取得部１３１は、ユーザによるコンテンツの視聴履歴および操作履歴に基づいて、ユーザの嗜好情報を取得する。例えば、取得部１３１は、ユーザの嗜好情報として、コンテンツに出演する話者、コンテンツのジャンル、当該ユーザが任意に設定するシーンの種別（センシティブなシーン等）の少なくとも一つの情報を取得する。なお、取得部１３１は、ユーザによる指定（ユーザによる事前設定）に基づき、ユーザの嗜好情報を取得してもよい。

　また、取得部１３１は、コンテンツに関する情報として、コンテンツのメタ情報を取得する。一例として、取得部１３１は、コンテンツに出演する話者ごとの音声情報を取得する。音声情報には、どの話者が発話したものであるかといった話者情報や、発話の内容や、発話速度や韻律等、種々の情報を含む。

　推定部１３２は、取得部１３１によって取得されたコンテンツの内容と、ユーザ情報とに基づいて、コンテンツの区間ごとの重要度を推定する。

　例えば、推定部１３２は、ユーザによるコンテンツの視聴履歴および操作履歴に基づいて、コンテンツの区間ごとの重要度を推定する。また、推定部１３２は、ユーザの嗜好情報に基づいて、コンテンツの区間ごとの重要度を推定する。

　例えば、推定部１３２は、コンテンツの内容およびユーザ情報とを入力とし、区間ごとの重要度を出力とする機械学習モデルを用いて、コンテンツの区間ごとの重要度を推定する。この点について、図７を用いて説明する。

　図７は、実施形態に係る推定処理を説明するための図である。図７には、コンテンツの内容およびユーザ情報を入力とし、コンテンツの区間ごとの重要度を出力とする機械学習モデル７６の一例を示す。

　変換装置１００は、ユーザ情報６０として、視聴履歴６１や操作履歴６２や嗜好情報６３を取得する。そして、変換装置１００は、取得したユーザ情報６０をユーザ特徴量ベクトル７０に変換する。

　ユーザ特徴量ベクトル７０は、任意の形式で表現される。例えば、ユーザ特徴量ベクトル７０は、ユーザが視聴したコンテンツのジャンルを一つの次元とし、ユーザの視聴傾向（視聴数や視聴頻度等）に基づいて算出した０から１までの数値を、かかる次元の値としてもよい。あるいは、ユーザ特徴量ベクトル７０は、ユーザが好むコンテンツを一つの次元とし、ユーザが好むのであれば「１」を入力し、ユーザが好まないのであれば「０」とするような２値ベクトルであってもよい。

　また、変換装置１００は、コンテンツの内容７２を、時系列に沿って機械学習モデル７６に入力可能な形式である、区間ごとの動画特徴量７４に変換する。例えば、変換装置１００は、コンテンツにおいて俳優ＸＸＸＸの登場シーンや、無音の区間や、粗暴な表現等を、既知の技術に基づいて、それぞれのシーンを表現する特徴量（ベクトル等）に変換する。

　そして、変換装置１００は、ユーザ特徴量ベクトル７０および区間ごとの動画特徴量７４を機械学習モデル７６に入力する。なお、機械学習モデル７６は、これらを入力とし、その区間ごとの重要度を出力するよう事前学習されたモデルであり、例えば時系列データを扱うことのできる深層学習モデルである。

　機械学習モデル７６は、区間ごとの重要度７８を出力する。これにより、変換装置１００は、例えば、ユーザ情報６０に対応するユーザにとって、俳優ＸＸＸＸの登場シーンが比較的重要度が高く、無音の区間は比較的重要度が低く、粗暴な表現がある区間は極めて重要度が低い、といった数値を得ることができる。

　図３に戻り、説明を続ける。変換部１３３は、推定部１３２によって推定された重要度に基づいて、コンテンツの再生態様を変換する。一例として、変換部１３３は、推定部１３２によって推定された重要度に基づいて、コンテンツを再生する再生速度を区間ごとに変換する。例えば、変換部１３３は、重要度が低い区間の再生速度を早く変換することで、ユーザの視聴効率を向上させることができる。

　また、変換部１３３は、推定部１３２によって推定された重要度に基づいて、音声情報の再生態様を話者ごとに変換してもよい。

　例えば、変換部１３３は、話者ごとに話速を細かく調節してもよいし、出演者全員の音声について、まとめて話速を変換してもよい。

　また、変換部１３３は、話者ごとの声質を変換してもよい。このとき、変換部１３３は、各話者の声質を解析し、できるかぎり話者同士の声質が異なるように変換をしてもよい。

　さらに、変換部１３３は、発話の抑揚がはっきりするよう、韻律情報を変換してもよい。また、変換部１３３は、発話の内容に応じて音声情報を変換してもよい。例えば、発話の内容がコンテンツにおいて重要なものであれば、機械学習モデル７６の出力により、その区間の重要度は高く算出されると想定される。しかし、変換部１３３は、この場合であっても、出演者情報に基づいて、ユーザの好みでない出演者が発話していると判定すると、かかる出演者の話速を速くするなど、所定の調整を行ってもよい。

　なお、変換部１３３は、音声情報を解析し、発話者のフィラーを削除したり、発話の間隔が狭い箇所にポーズをいれたり、発話の間隔が広い箇所を一部削除したり、音声の大きさを変更したりするなど、種々の変換を行ってもよい。

　すなわち、変換部１３３は、重要度に基づいて、コンテンツの区間のうち一部の区間を再生しないよう（スキップするよう）コンテンツの再生態様を変換してもよい。また、変換部１３３は、区間のうち発話が含まれない区間を再生しないようコンテンツの再生態様を変換してもよい。

　以下に、コンテンツの変換の具体例を示す。例えば、出演者やコンテンツに関する嗜好の異なる３人のユーザ（ユーザ１１、ユーザ１２、ユーザ１３とする）がいるとする。この場合に、変換部１３３が適用するフィルタ（変換処理）の例を以下に示す。なお、コンテンツのジャンルはドラマであるものとする。

　例えば、ユーザ１１は、ドラマジャンルのファンであり、細部まで楽しむ視聴スタイルを有する。この場合、変換部１３３は、ユーザ１１の視聴履歴や操作履歴に基づいて、ドラマのコンテンツにフィルタを適用せず、オリジナルの映像を配信する。

　また、ユーザ１２は、特に俳優ＸＸＸＸのファンであり、ドラマを楽しみつつも、俳優ＸＸＸＸが出演する他のコンテンツも多く視聴しているものとする。この場合、変換部１３３は、ユーザ１２の視聴履歴や操作履歴に基づいて、俳優ＸＸＸＸの出演シーンは何も変換をせず、その他のところは再生速度を上げて再生を行う。これにより、変換部１３３は、俳優ＸＸＸＸの出演シーンを確実に提供するとともに、他のコンテンツを視聴する時間をユーザ１２が設けられるような、効率のより視聴を可能とさせる。

　また、ユーザ１３は、ドラマの内容のみを追うため、頻繁に速度を上げながら視聴するユーザであるものとする。この場合、変換部１３３は、ドラマにおいて動きが少ない部分や発話が少ない部分等はカットし、さらに残りの部分も話速をあげたり、話者の弁別性を高めるために声質を変換したりしたコンテンツを提供する。これにより、変換部１３３は、ユーザ１３の視聴効率を飛躍的に向上させることができる。

　続いて、コンテンツが授業録画である場合を例に挙げ、実施形態に係る変換処理を説明する。

　例えば、ユーザ１１は、授業を隅々まで理解する傾向にあり、また、難解な部分も視聴する傾向にあるとする。この場合、変換部１３３は、ユーザ１１の視聴履歴や操作履歴に基づいて、なるべくコンテンツにフィルタをかけないようにする。また、変換部１３３は、発話が聞き取りにくい区間や難解な区間に関しては声質や話速、韻律を調整して、発話を遅くしたり、弁別性を高める変換処理を行ったりする。

　また、ユーザ１２は、なるべく短時間で授業を受けたいユーザであるとする。この場合、変換部１３３は、ユーザ１２の視聴履歴や操作履歴、事前設定情報に基づいて、聞き取れる範囲で話速をあげるよう変換する。また、変換部１３３は、コンテンツのキャプション情報に基づいて、講師が教科書やシラバスから逸れた内容や、講師のフィラーや咳等をカットするよう変換してもよい。

　また、ユーザ１３は、テストに出る重要な部分のみを視聴したいユーザであるとする。この場合、変換部１３３は、講師が重点を入れて説明している部分のみ（例えば、講師の声量が大きい箇所や、重要な箇所であることを示す発話が抽出された箇所など）を切り取り、可能な範囲で話速をあげるよう変換する。

　出力制御部１３４は、変換部１３３によって再生態様が変換されたコンテンツを出力するよう制御する。例えば、出力制御部１３４は、コンテンツをネットワークＮを介して、ユーザ端末２００に配信し、ユーザ端末２００で出力されるよう制御する。あるいは、出力制御部１３４は、変換装置１００と接続されたディスプレイやスピーカにコンテンツを出力するよう制御する。

　このとき、出力制御部１３４は、変換部１３３による再生態様の変換を適用するか否かをユーザが任意に選択可能な態様でコンテンツを出力してもよい。

　この点について、図８を用いて説明する。図８は、実施形態に係る出力制御処理を説明するための図（１）である。

　図８では、変換装置１００によって再生態様が変換されたコンテンツ５０がユーザ端末２００で出力されている状況を示す。このとき、再生アプリケーションにおいて、ユーザがフィルタの適用を指示可能なユーザインターフェイスが表示される。

　例えば、図８に示すユーザインターフェイス８０は、コンテンツ５０にフィルタが適用されていることを示す表示である。ユーザは、ユーザインターフェイス８０を押下すること等により、かかる表示をユーザインターフェイス８１に変化させることができる。

　図８に示すユーザインターフェイス８１は、コンテンツ５０にフィルタが適用されていないことを示す表示である。このように、ユーザは、変換装置１００によって再生態様が変換されたコンテンツ５０を視聴する際には、任意にその変換を適用するか否かを選択できる。

　なお、図８に示したユーザインターフェイス８０やユーザインターフェイス８１は、画面の右下に限らず、画面上のどこに表示されてもよい。また、ユーザインターフェイス８０やユーザインターフェイス８１は、常に表示されておくことを要さず、ユーザの操作等に反応して表示されてもよい。

　また、出力制御部１３４は、適用しているフィルタの情報をユーザに提供してもよい。この点について、図９を用いて説明する。図９は、実施形態に係る出力制御処理を説明するための図（２）である。

　図９に示すユーザインターフェイス８２は、ユーザ端末２００の画面上において、フィルタの詳細情報を表示する領域である。

　図９に示すように、出力制御部１３４は、コンテンツにおいてダイジェスト生成した時間情報、すなわち、コンテンツのうち削除した区間を示した情報を表示する。また、出力制御部１３４は、話速を変換した話者の情報を示す。また、出力制御部１３４は、声質を変換した話者の情報や、どのように声質を変換したかを示す情報を表示する。

　このように、出力制御部１３４は、フィルタの適用のみならず、変換の詳細情報を表示することで、ユーザに変換内容を伝達することができる。図９の例では、ユーザは、変換内容とともにコンテンツを視聴できるので、例えば、コンテンツにおいて自動削除された区間を容易に把握できる。

　なお、変換部１３３は、コンテンツの変換の際、変換の根拠となった情報を付与することもできる。例えば、変換部１３３は、コンテンツを再生する再生速度を区間ごとに変換した場合、変換した根拠となる情報である根拠情報をコンテンツに付与する。この場合、出力制御部１３４は、変換部１３３によって付与された根拠情報とともにコンテンツを出力する。

　この点について、図１０を用いて説明する。図１０は、実施形態に係る出力制御処理を説明するための図（３）である。

　図１０に示すユーザインターフェイス８４は、ユーザ端末２００の画面上において、フィルタの詳細情報とともに、フィルタの根拠情報を表示する領域である。

　図１０に示すように、出力制御部１３４は、ダイジェスト生成した区間が「無音区間」であったり、ユーザから「苦手シーン」の設定があった箇所であることを示す根拠情報を表示する。また、出力制御部１３４は、話速を変換した話者の情報とともに、かかる話者が「ユーザの好みでない」という、話速変換の根拠とした情報を表示する。また、出力制御部１３４は、声質を変換した話者の情報とともに、「聞きやすさ向上」のために変換を行ったことを示す根拠情報を表示する。

　このように、出力制御部１３４は、根拠情報をユーザに示すことで、なぜ変換が行われたかという理由をユーザに伝達できる。なお、根拠情報は、既知の種々の手法で求められる。例えば、変換部１３３は、機械学習モデル７６において、出力値に対して最も貢献度の高い要素（入力）であった情報を根拠情報として取り扱ってもよいし、ルール処理で根拠情報を求めてもよい。

　また、出力制御部１３４が表示した根拠情報について、ユーザから修正を受け付けてもよい。すなわち、変換装置１００は、出力制御部１３４によって出力された根拠情報に対する修正をユーザから受け付ける修正部１３５をさらに備える。この場合、推定部１３２は、修正部１３５によって修正が受け付けられた場合、修正を重要度を推定する処理に反映させてもよい。例えば、推定部１３２は、修正部１３５が受け付けた情報を機械学習モデル７６の再学習に利用することで、ユーザによる修正を推定処理に反映できる。

　この点について、図１１を用いて説明する。図１１は、実施形態に係る出力制御処理を説明するための図（４）である。

　図１１に示すユーザインターフェイス８６は、ユーザ端末２００の画面上において、フィルタの詳細情報とともに、フィルタの根拠情報を表示する領域である。また、ユーザインターフェイス８８は、ユーザからフィードバックを受け付けるためのボタンである。

　例えば、ユーザは、図１１に示された画面上において、変換処理の根拠として示された根拠情報が正しい場合には、ユーザインターフェイス８８において、正しいことを示す表示を押下する。あるいは、ユーザは、変換処理の根拠として示された根拠情報が誤っている場合には、ユーザインターフェイス８８において、誤っていることを示す表示を押下する。

　すなわち、ユーザは、変換装置１００による変換が、自身の想定や期待どおりであるかをフィードバックすることができる。なお、フィードバックは、図１１に示すような２値情報であってもよいし、別途カテゴリからユーザが選択する態様であってもよいし、自然文を用いたフィードバックであってもよい。また、ユーザは、フィルタの適用を解除したい場合、別途手動でフィルタを解除することができ、かかる解除をフィードバックとして変換装置１００に送信することも可能である。

　なお、出力制御部１３４は、より発話者を明確にするため、どの話者が発話しているか、また、どの話者にどのようなフィルタが適用されているかを明確に示すユーザインターフェイスを出力してもよい。すなわち、変換部１３３は、推定部１３２によって推定された重要度に基づいて、音声情報の再生態様を話者ごとに変換してもよい。このとき、出力制御部１３４は、変換部１３３によって再生態様が変換された話者ごとの音声情報を出力するとともに、話者ごとに設定された再生態様をユーザが確認可能な態様で出力する。

　この点について、図１２および図１３を用いて説明する。図１２は、実施形態に係るコンテンツ５０の表示例を示す図（１）である。

　図１２に示すユーザインターフェイス９０は、ユーザ端末２００の画面上において、コンテンツ５０で発話している話者をアイコン表示するとともに、話者ごとに適用されているフィルタを示す表示９２を示すものである。

　このように、出力制御部１３４は、話者ごとに、声質や話速をどのように変換したかを示すパラメータや、そのフィルタを解除するためのボタン等を出力してもよい。これにより、出力制御部１３４は、フィルタ処理が行われることによって、ユーザにとって話者を区別しにくい状態が発生することを抑制する。

　例えば、声質変換を適用することで話者の弁別性を上げることが見込まれるが、一方で、元の声質から声質が変化するため、発話しているのがどの話者か、ユーザにとってわかりにくくなる可能性がある。このとき、出力制御部１３４は、図１２に示すような、話者ごとの表示を行ったり、再生時点で発話を行っていることを示す表示（吹き出し等）を示したりして、発話情報をユーザに伝達することができる。なお、話者情報は、メタ情報の抽出において得られた時系列ごとの出演者や話者情報を元に表示されてもよい。

　なお、ユーザ端末２００がスマートフォン等の縦長画面である場合、出力制御部１３４は、図１２とは異なる表示を出力してもよい。この点について、図１３を用いて説明する。図１３は、実施形態に係るコンテンツ５０の表示例を示す図（１）である。

　図１３では、スマートフォン９５において再生アプリケーションが動作している例を示す。例えば、再生アプリケーションは、操作パネル９６とともに、図１２と同様のユーザインターフェイス９０を備える。ユーザインターフェイス９０は、スマートフォン９５の画面上において、コンテンツ５０で発話している話者をアイコン表示するとともに、話者ごとに適用されているフィルタを示す表示９２を示すものである。このように、出力制御部１３４は、コンテンツが出力される出力先に応じて、表示態様を適宜、調整することが可能である。

（１－４．実施形態に係る変形例）
　上記で説明した実施形態に係る情報処理は、様々な変形を伴ってもよい。以下に、実施形態の変形例について説明する。

（１－４－１．区間の設定）
　実施形態では、コンテンツの区間の設定について、話者の発話ごとに区間を区切ったり、重要な発話を起点として区間を区切ったりする例を示した。しかし、区間は、かかる手法に限らず、任意の手法で設定されてもよい。

　例えば、コンテンツが授業動画等の場合、出演している講師によって画像やスライドが提示されることがありうる。この場合、変換装置１００は、１枚のスライドが写っている時間帯を１つの区間としてもよい。この場合、変換装置１００は、１枚のスライドが写っている時間帯の話速や、スライドの文字数などを勘案して、再生速度等を変換してもよい。また、変換装置１００は、写っているスライドの文字数や図の多さなどから、ユーザがかかるスライドを理解するのにかかる時間を推定し、推定した結果を勘案して、再生速度等を変換してもよい。

（１－４－２．音声変換の例）
　上記のように、変換装置１００は、コンテンツ内の音声をキャプション情報として取得したり、音声認識処理等によって発話をテキストデータとして取得可能である。

　このとき、変換装置１００は、テキストの内容を変換したコンテンツを出力してもよい。例えば、一般ユーザにとって難解な用語が頻発するニュースや講義のコンテンツにおいて、変換装置１００は、難解な用語を簡易な言葉に置き換えた上でキャプションとして重畳表示したり、その簡易な言葉を音声合成して重畳して再生したりしてもよい。

（１－４－３．その他の出力例）
　例えば、変換装置１００は、コンテンツにおいて笑いが起きているシーン等について、振動など触覚に訴えるような情報（ハプティクス信号）を出力する方式を併用してコンテンツを出力してもよい。これにより、変換装置１００は、ユーザが画面を直接見ていない状態や、音声を出力できない状況においても、コンテンツの利用を促進できる。

　また、変換装置１００は、音声の変換のみならず、重要度の高い区間では画素を明るくし、重要度の低いシーンでは画素を暗くするなど、映像信号を変換してもよい。

（２．その他の実施形態）
　上述した各実施形態に係る処理は、上記各実施形態以外にも種々の異なる形態にて実施されてよい。

　また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

　また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

　また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。

（３．本開示に係る変換装置の効果）
　上述のように、本開示に係る変換装置（実施形態では変換装置１００）は、推定部（実施形態では推定部１３２）と、変換部（実施形態では変換部１３３）とを備える。取得部は、コンテンツと、コンテンツを視聴するユーザに関する情報であるユーザ情報とを取得する。推定部は、取得部によって取得されたコンテンツの内容と、ユーザ情報とに基づいて、コンテンツの区間ごとの重要度を推定する。変換部は、推定部によって推定された重要度に基づいて、コンテンツを再生する再生速度を区間ごとに変換する。

　このように、本開示に係る変換装置は、コンテンツ情報のみならず、ユーザ情報を用いて、ユーザごとにコンテンツの自動変換を行うことにより、コンテンツごとの事前設定の手間を要せずに、ユーザの視聴効率や視聴体験を向上させることができる。

　また、取得部は、ユーザ情報として、ユーザによるコンテンツの視聴履歴およびユーザがコンテンツを視聴する際の操作履歴を取得する。推定部は、ユーザによるコンテンツの視聴履歴およびユーザがコンテンツを視聴する際の操作履歴に基づいて、コンテンツの区間ごとの重要度を推定する。

　このように、変換装置は、ユーザの視聴履歴や操作履歴に基いた変換を行うことで、当該ユーザに最適化された変換処理を行うことができる。

　また、取得部は、ユーザによるコンテンツの視聴履歴およびユーザがコンテンツを視聴する際の操作履歴に基づいて、ユーザの嗜好情報を取得する。推定部は、ユーザの嗜好情報に基づいて、コンテンツの区間ごとの重要度を推定する。例えば、取得部は、ユーザの嗜好情報として、コンテンツに出演する話者、コンテンツのジャンル、ユーザが任意に設定するシーンの種別の少なくとも一つの情報を取得する。なお、取得部は、ユーザによる指定に基づき、ユーザの嗜好情報を取得してもよい。

　このように、変換装置は、ユーザの嗜好情報に基づいた変換を行うことで、ユーザがより視聴したい態様でコンテンツを提供できるので、ユーザの満足度を向上させることができる。

　また、推定部は、コンテンツの内容およびユーザ情報とを入力とし、区間ごとの重要度を出力とする機械学習モデルを用いて、コンテンツの区間ごとの重要度を推定する。

　このように、変換装置は、機械学習モデルを用いることで、ユーザ情報やコンテンツ情報が考慮された、精度高く算出された重要度を推定することができる。

　また、取得部は、コンテンツに出演する話者ごとの音声情報を取得する。変換部は、推定部によって推定された重要度に基づいて、音声情報の再生態様を話者ごとに変換する。

　このように、変換装置は、話者を認識したうえで、話者ごとに再生態様を変換するので、ユーザにとって好みでない話者の話速を速めたり、聞き取りにくい声質を有する話者の発話のみを声質変換したりするなど、多様な対応を行うことができる。

　また、変換部は、重要度に基づいて、区間のうち一部の区間を再生しないようコンテンツの再生態様を変換する。例えば、変換部は、区間のうち発話が含まれない区間を再生しないようコンテンツの再生態様を変換する。

　このように、変換装置は、発話のないシーンをスキップするなどの処理を行うことで、ユーザの視聴効率を向上させることができる。

　また、変換装置は、変換部によって再生態様が変換されたコンテンツを出力するよう制御する出力制御部（実施形態では出力制御部１３４）をさらに備える。

　このように、変換装置は、ユーザごとに再生態様が変換されたコンテンツをユーザに提供することで、ユーザの視聴体験を向上させることができる。

　また、出力制御部は、変換部による再生態様の変換を適用するか否かをユーザが任意に選択可能な態様でコンテンツを出力する。この場合、変換部は、コンテンツを再生する再生速度を区間ごとに変換した場合、変換した根拠となる情報である根拠情報をコンテンツに付与してもよい。出力制御部は、変換部によって付与された根拠情報とともにコンテンツを出力する。

　このように、変換装置は、変換の根拠を示した情報を表示することで、なぜそのような変換が行われたかをユーザに正確に伝達することができる。

　また、変換装置は、出力された根拠情報に対する修正をユーザから受け付ける修正部（実施形態では修正部１３５）をさらに備える。推定部は、修正部によって修正が受け付けられた場合、修正を重要度を推定する処理に反映させる。

　このように、変換装置は、ユーザのフィードバックを取り入れることができるので、よりユーザに最適化された変換処理を行うことができる。

　また、取得部は、コンテンツに出演する話者ごとの音声情報を取得する。変換部は、推定部によって推定された重要度に基づいて、音声情報の再生態様を話者ごとに変換する。出力制御部は、変換部によって再生態様が変換された話者ごとの音声情報を出力するとともに、話者ごとに設定された再生態様をユーザが確認可能な態様で出力する。

　このように、変換装置は、話者ごとに施された変換態様を表示することで、ユーザが話者や変換内容を把握しやすい、ユーザビリティに優れた視聴環境をユーザに提供することができる。

（４．ハードウェア構成）
　上述してきた各実施形態に係る変換装置１００等の情報機器は、例えば図１４に示すような構成のコンピュータ１０００によって実現される。以下、実施形態に係る変換装置１００を例に挙げて説明する。図１４は、変換装置１００の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Read　Only　Memory）１３００、ＨＤＤ（Hard　Disk　Drive）１４００、通信インターフェイス１５００、及び入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係る変換プログラムを記録する記録媒体である。

　通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばＤＶＤ（Digital　Versatile　Disc）、ＰＤ（Phase　change　rewritable　Disk）等の光学記録媒体、ＭＯ（Magneto-Optical　disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　例えば、コンピュータ１０００が実施形態に係る変換装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされた変換プログラムを実行することにより、制御部１３０等の機能を実現する。また、ＨＤＤ１４００には、本開示に係る変換プログラムや、記憶部１２０内のデータが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

　なお、本技術は以下のような構成も取ることができる。
（１）
　コンテンツと、当該コンテンツを視聴するユーザに関する情報であるユーザ情報とを取得する取得部と、
　前記取得部によって取得されたコンテンツの内容と、前記ユーザ情報とに基づいて、当該コンテンツの区間ごとの重要度を推定する推定部と、
　前記推定部によって推定された重要度に基づいて、前記コンテンツを再生する再生速度を前記区間ごとに変換する変換部と、
　を備える変換装置。
（２）
　前記取得部は、
　前記ユーザ情報として、前記ユーザによるコンテンツの視聴履歴および当該ユーザがコンテンツを視聴する際の操作履歴を取得し、
　前記推定部は、
　前記ユーザによるコンテンツの視聴履歴および当該ユーザがコンテンツを視聴する際の操作履歴に基づいて、前記コンテンツの区間ごとの重要度を推定する、
　前記（１）に記載の変換装置。
（３）
　前記取得部は、
　前記ユーザによるコンテンツの視聴履歴および当該ユーザがコンテンツを視聴する際の操作履歴に基づいて、前記ユーザの嗜好情報を取得し、
　前記推定部は、
　前記ユーザの嗜好情報に基づいて、前記コンテンツの区間ごとの重要度を推定する、
　前記（２）に記載の変換装置。
（４）
　前記取得部は、
　前記ユーザの嗜好情報として、コンテンツに出演する話者、コンテンツのジャンル、当該ユーザが任意に設定するシーンの種別の少なくとも一つの情報を取得する、
　前記（３）に記載の変換装置。
（５）
　前記取得部は、
　前記ユーザによる指定に基づき、前記ユーザの嗜好情報を取得し、
　前記推定部は、
　前記ユーザの嗜好情報に基づいて、前記コンテンツの区間ごとの重要度を推定する、
　前記（１）～（４）のいずれか一つに記載の変換装置。
（６）
　前記推定部は、
　前記コンテンツの内容および前記ユーザ情報とを入力とし、区間ごとの重要度を出力とする機械学習モデルを用いて、当該コンテンツの区間ごとの重要度を推定する、
　前記（１）～（５）のいずれか一つに記載の変換装置。
（７）
　前記取得部は、
　前記コンテンツに出演する話者ごとの音声情報を取得し、
　前記変換部は、
　前記推定部によって推定された重要度に基づいて、前記音声情報の再生態様を前記話者ごとに変換する、
　前記（１）～（６）のいずれか一つに記載の変換装置。
（８）
　前記変換部は、
　前記重要度に基づいて、前記区間のうち一部の区間を再生しないよう前記コンテンツの再生態様を変換する、
　前記（１）～（７）のいずれか一つに記載の変換装置。
（９）
　前記変換部は、
　前記区間のうち発話が含まれない区間を再生しないよう前記コンテンツの再生態様を変換する、
　前記（８）に記載の変換装置。
（１０）
　前記変換部によって再生態様が変換されたコンテンツを出力するよう制御する出力制御部、
　をさらに備える前記（１）～（９）のいずれか一つに記載の変換装置。
（１１）
　前記出力制御部は、
　前記変換部による再生態様の変換を適用するか否かを前記ユーザが任意に選択可能な態様で前記コンテンツを出力する、
　前記（１０）に記載の変換装置。
（１２）
　前記変換部は、
　前記コンテンツを再生する再生速度を前記区間ごとに変換した場合、変換した根拠となる情報である根拠情報を当該コンテンツに付与し、
　前記出力制御部は、
　前記変換部によって付与された前記根拠情報とともに前記コンテンツを出力する、
　前記（１１）に記載の変換装置。
（１３）
　前記出力された前記根拠情報に対する修正を前記ユーザから受け付ける修正部をさらに備え、
　前記推定部は、
　前記修正部によって修正が受け付けられた場合、当該修正を前記重要度を推定する処理に反映させる、
　前記（１２）に記載の変換装置。
（１４）
　前記取得部は、
　前記コンテンツに出演する話者ごとの音声情報を取得し、
　前記変換部は、
　前記推定部によって推定された重要度に基づいて、前記音声情報の再生態様を前記話者ごとに変換し、
　前記出力制御部は、
　前記変換部によって再生態様が変換された話者ごとの音声情報を出力するとともに、当該話者ごとに設定された再生態様を前記ユーザが確認可能な態様で出力する、
　前記（１０）～（１３）のいずれか一つに記載の変換装置。
（１５）
　コンピュータが、
　コンテンツと、当該コンテンツを視聴するユーザに関する情報であるユーザ情報とを取得し、
　前記取得されたコンテンツの内容と、前記ユーザ情報とに基づいて、当該コンテンツの区間ごとの重要度を推定し、
　前記推定された重要度に基づいて、前記コンテンツを再生する再生速度を前記区間ごとに変換する、
　ことを含む変換方法。

　１０　　ユーザ
　５０　　コンテンツ
　１００　変換装置
　１１０　通信部
　１２０　記憶部
　１２１　ユーザ情報記憶部
　１３０　制御部
　１３１　取得部
　１３２　推定部
　１３３　変換部
　１３４　出力制御部
　１３５　修正部

Claims

　コンテンツと、当該コンテンツを視聴するユーザに関する情報であるユーザ情報とを取得する取得部と、
　前記取得部によって取得されたコンテンツの内容と、前記ユーザ情報とに基づいて、当該コンテンツの区間ごとの重要度を推定する推定部と、
　前記推定部によって推定された重要度に基づいて、前記コンテンツを再生する再生速度を前記区間ごとに変換する変換部と、
　を備える変換装置。
　前記取得部は、
　前記ユーザ情報として、前記ユーザによるコンテンツの視聴履歴および当該ユーザがコンテンツを視聴する際の操作履歴を取得し、
　前記推定部は、
　前記ユーザによるコンテンツの視聴履歴および当該ユーザがコンテンツを視聴する際の操作履歴に基づいて、前記コンテンツの区間ごとの重要度を推定する、
　請求項１に記載の変換装置。
　前記取得部は、
　前記ユーザによるコンテンツの視聴履歴および当該ユーザがコンテンツを視聴する際の操作履歴に基づいて、前記ユーザの嗜好情報を取得し、
　前記推定部は、
　前記ユーザの嗜好情報に基づいて、前記コンテンツの区間ごとの重要度を推定する、
　請求項２に記載の変換装置。
　前記取得部は、
　前記ユーザの嗜好情報として、コンテンツに出演する話者、コンテンツのジャンル、当該ユーザが任意に設定するシーンの種別の少なくとも一つの情報を取得する、
　請求項３に記載の変換装置。
　前記取得部は、
　前記ユーザによる指定に基づき、前記ユーザの嗜好情報を取得し、
　前記推定部は、
　前記ユーザの嗜好情報に基づいて、前記コンテンツの区間ごとの重要度を推定する、
　請求項１に記載の変換装置。
　前記推定部は、
　前記コンテンツの内容および前記ユーザ情報とを入力とし、区間ごとの重要度を出力とする機械学習モデルを用いて、当該コンテンツの区間ごとの重要度を推定する、
　請求項１に記載の変換装置。
　前記取得部は、
　前記コンテンツに出演する話者ごとの音声情報を取得し、
　前記変換部は、
　前記推定部によって推定された重要度に基づいて、前記音声情報の再生態様を前記話者ごとに変換する、
　請求項１に記載の変換装置。
　前記変換部は、
　前記重要度に基づいて、前記区間のうち一部の区間を再生しないよう前記コンテンツの再生態様を変換する、
　請求項１に記載の変換装置。
　前記変換部は、
　前記区間のうち発話が含まれない区間を再生しないよう前記コンテンツの再生態様を変換する、
　請求項８に記載の変換装置。
　前記変換部によって再生態様が変換されたコンテンツを出力するよう制御する出力制御部、
　をさらに備える請求項１に記載の変換装置。
　前記出力制御部は、
　前記変換部による再生態様の変換を適用するか否かを前記ユーザが任意に選択可能な態様で前記コンテンツを出力する、
　請求項１０に記載の変換装置。
　前記変換部は、
　前記コンテンツを再生する再生速度を前記区間ごとに変換した場合、変換した根拠となる情報である根拠情報を当該コンテンツに付与し、
　前記出力制御部は、
　前記変換部によって付与された前記根拠情報とともに前記コンテンツを出力する、
　請求項１１に記載の変換装置。
　前記出力された前記根拠情報に対する修正を前記ユーザから受け付ける修正部をさらに備え、
　前記推定部は、
　前記修正部によって修正が受け付けられた場合、当該修正を前記重要度を推定する処理に反映させる、
　請求項１２に記載の変換装置。
　前記取得部は、
　前記コンテンツに出演する話者ごとの音声情報を取得し、
　前記変換部は、
　前記推定部によって推定された重要度に基づいて、前記音声情報の再生態様を前記話者ごとに変換し、
　前記出力制御部は、
　前記変換部によって再生態様が変換された話者ごとの音声情報を出力するとともに、当該話者ごとに設定された再生態様を前記ユーザが確認可能な態様で出力する、
　請求項１０に記載の変換装置。
　コンピュータが、
　コンテンツと、当該コンテンツを視聴するユーザに関する情報であるユーザ情報とを取得し、
　前記取得されたコンテンツの内容と、前記ユーザ情報とに基づいて、当該コンテンツの区間ごとの重要度を推定し、
　前記推定された重要度に基づいて、前記コンテンツを再生する再生速度を前記区間ごとに変換する、
　ことを含む変換方法。