WO2024135221A1

WO2024135221A1 - 情報処理装置およびゲーム動画生成方法

Info

Publication number: WO2024135221A1
Application number: PCT/JP2023/042127
Authority: WO
Inventors: 陽徳永; 利彦長澤; 圭史松永; 雅宏藤原
Original assignee: 株式会社ソニー・インタラクティブエンタテインメント
Priority date: 2022-12-20
Filing date: 2023-11-24
Publication date: 2024-06-27

Abstract

記録制御部１１４は、ユーザの操作にもとづいて生成されたゲーム画像を記録部１３０に記録する。動画生成部１３２は、ユーザ音声により指定されるゲーム動画の終了点にもとづいて、記録部１３０に記録されたゲーム画像から、ユーザ音声を含まないゲーム動画を生成する。

Description

情報処理装置およびゲーム動画生成方法

　本開示は、ユーザ生成コンテンツであるゲーム動画を生成する技術に関する。

　特許文献１は、ユーザの操作にもとづいてゲーム画像を生成して、生成したゲーム画像を出力装置に表示するとともに、当該ゲーム画像をバックグランドでリングバッファに記録する情報処理装置を開示する。ユーザは編集画面において、記録したゲーム動画を切り出す開始点と終了点を指定し、切り出したゲーム動画をコンテンツ共有サーバにアップロードできる。

特開２０２０－８７０号公報

　従来、ユーザは、切り出したゲーム動画をコンテンツ共有サーバにアップロードする前に、ゲーム動画に含まれている余計なユーザ音声や、ゲーム画像に重畳表示されたグラフィカルユーザインタフェース（ＧＵＩ）などをトリミングする編集作業を行う。このような編集作業はユーザにとって面倒であるため、ユーザがゲーム動画を編集する手間を軽減する仕組みを実現することが望まれている。

　そこで本開示は、ユーザ生成コンテンツであるゲーム動画を効率的に生成する仕組みを実現することを目的とする。

　上記課題を解決するために、本開示のある態様の情報処理装置は、ハードウェアを有する１つ以上のプロセッサを備え、１つ以上のプロセッサは、ユーザの操作にもとづいて生成されたゲーム画像を記録部に記録し、ユーザ音声または表示されたユーザインタフェースにおけるユーザ操作により指定されるゲーム動画の終了点にもとづいて、記録部に記録されたゲーム画像から、ユーザ音声またはユーザインタフェースを含まないゲーム動画を生成する。

　本開示の別の態様のゲーム動画生成方法は、ユーザの操作にもとづいて生成されたゲーム画像を記録部に記録し、ユーザ音声または表示されたユーザインタフェースにおけるユーザ操作により指定されるゲーム動画の終了点にもとづいて、記録部に記録されたゲーム画像から、ユーザ音声またはユーザインタフェースを含まないゲーム動画を生成する。

　本開示のさらに別の態様の情報処理装置は、ハードウェアを有する１つ以上のプロセッサを備え、１つ以上のプロセッサは、ユーザの操作にもとづいて生成されたゲーム画像を第１記録部に記録し、ユーザ音声を取得し、ユーザ音声を第２記録部に記録し、第１記録部に記録したゲーム画像と、第２記録部に記録したユーザ音声を合成したゲーム動画を生成する。

　本開示のさらに別の態様のゲーム動画生成方法は、ユーザの操作にもとづいて生成されたゲーム画像を第１記録部に記録し、ユーザ音声を取得し、ユーザ音声を第２記録部に記録し、第１記録部に記録したゲーム画像と、第２記録部に記録したユーザ音声を合成したゲーム動画を生成する。

　なお、以上の構成要素の任意の組合せ、本開示の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本開示の態様として有効である。

実施例にかかる情報処理システムを示す図である。情報処理装置のハードウェア構成を示す図である。情報処理装置の機能ブロックを示す図である。ゲーム画面の例を示す図である。ゲーム画面に重畳表示される文字列を示す図である。ユーザが指定するコンテンツの開始点および終了点を示す図である。コンテンツの開始点および終了点を示す図である。ユーザが指定するコンテンツの開始点および終了点を示す図である。コンテンツの開始点および終了点を示す図である。情報処理装置の機能ブロックの別の例を示す図である。ユーザが指定する開始点と終了点を示す図である。情報処理装置の機能ブロックの変形例を示す図である。ゲーム画面に重畳表示されるＧＵＩの例を示す図である。ゲーム画面に重畳表示されるＧＵＩの例を示す図である。コンテンツの開始点および終了点を示す図である。

　実施例の情報処理システムでは、情報処理装置がユーザの操作にもとづいてゲームプログラムを実行し、ゲーム画像を出力装置に表示するとともに、ゲーム画像をリングバッファなどのバッファ（記録部）に時間情報とともに記録する。ゲームプレイ中、ユーザが、バッファに記録したゲーム画像を切り出すための開始点および終了点を指定すると、情報処理装置は、ユーザが指定した開始点および終了点にもとづいてバッファからゲーム動画を切り出し、ユーザ生成コンテンツ（ＵＧＣ：User Generated Content）として、記憶装置に記録する。

　図１は、本開示の実施例にかかる情報処理システム１を示す。情報処理システム１は、ユーザ端末装置である情報処理装置１０、補助記憶装置２および出力装置４を備える。アクセスポイント（以下、「ＡＰ」とよぶ）８は、無線アクセスポイントおよびルータの機能を有し、情報処理装置１０は、無線または有線経由でＡＰ８に接続して、ネットワーク上のコンテンツ共有サーバ（図示せず）と通信可能に接続する。

　情報処理装置１０は、ユーザＡ（以下、単に「ユーザ」とも呼ぶ）が操作する入力装置６と無線または有線で接続し、入力装置６はユーザが操作した情報を情報処理装置１０に送信する。情報処理装置１０は入力装置６から操作情報を受け付けると、システムソフトウェアやゲームソフトウェアの処理に反映し、出力装置４から処理結果を出力させる。

　実施例において、情報処理装置１０はゲームプログラムを実行するゲーム装置（ゲームコンソール）であり、入力装置６はゲームコントローラなど情報処理装置１０に対してユーザの操作情報を供給する機器であってよい。なお入力装置６は、キーボードやマウスなどの入力インタフェースであってもよい。

　変形例で情報処理システム１は、ユーザの操作にもとづいてゲームプログラムを実行するクラウドゲームサーバを備えてよい。この変形例において情報処理装置１０は、ゲームサーバに対してユーザのゲーム操作情報を送信する。ゲームサーバは、ユーザの操作にもとづいてゲーム画像およびゲーム音を生成し、ゲーム画像およびゲーム音を情報処理装置１０にストリーミングする。この変形例で情報処理装置１０はゲームプログラムの実行機能を有しなくてよく、ゲーム画像およびゲーム音を出力装置４から出力する端末装置であってよい。

　補助記憶装置２は、ＨＤＤ（ハードディスクドライブ）やＳＳＤ（ソリッドステートドライブ）などの大容量記憶装置であり、内蔵型記憶装置であってよく、またＵＳＢ（Universal Serial Bus）などによって情報処理装置１０と接続する外部記憶装置であってもよい。出力装置４は画像を出力する表示装置および音声を出力するスピーカを有するテレビであってよい。出力装置４は、情報処理装置１０に有線ケーブルで接続されてよく、また無線接続されてもよい。

　撮像装置であるカメラ７は出力装置４の近傍に設けられ、出力装置４周辺の空間を撮像する。図１ではカメラ７が出力装置４の上部に取り付けられている例を示しているが、出力装置４の側部または下部に配置されてもよく、いずれにしても出力装置４の前方に位置するユーザを撮像できる位置に配置される。カメラ７はステレオカメラであってもよい。

　マイク５は、ユーザの近傍に配置され、ユーザが発する音声を取得する。ユーザは、プレイしているゲームを実況し、その実況音声を、ゲーム画像およびゲーム音とともにバッファ（記録部）に記録することで、ゲームの実況動画をコンテンツ共有サーバにアップロードできる。クリアなユーザ音声を取得するために、マイク５は、ユーザに近い距離に位置する入力装置６に内蔵されてもよい。なおユーザは、マイク５およびイヤホン（ヘッドホン）を備えるヘッドセットを使用して、ゲーム実況を行ってもよい。

　図２は、情報処理装置１０のハードウェア構成を示す。情報処理装置１０は、メイン電源ボタン２０、電源ＯＮ用ＬＥＤ２１、スタンバイ用ＬＥＤ２２、システムコントローラ２４、クロック２６、デバイスコントローラ３０、メディアドライブ３２、ＵＳＢモジュール３４、フラッシュメモリ３６、無線通信モジュール３８、有線通信モジュール４０、サブシステム５０およびメインシステム６０を有して構成される。

　メインシステム６０は、メインＣＰＵ（Central Processing Unit）、主記憶装置であるメモリおよびメモリコントローラ、ＧＰＵ（Graphics Processing Unit）などを備える。ＧＰＵはゲームプログラムの演算処理に主として利用される。メインＣＰＵはシステムソフトウェアを起動し、システムソフトウェアが提供する環境下において、補助記憶装置２にインストールされたゲームプログラムを実行する機能をもつ。サブシステム５０は、サブＣＰＵ、主記憶装置であるメモリおよびメモリコントローラなどを備え、ＧＰＵを備えない。

　メインＣＰＵは補助記憶装置２やＲＯＭ媒体４４にインストールされているゲームプログラムを実行する機能をもつ一方で、サブＣＰＵはそのような機能をもたない。しかしながらサブＣＰＵは補助記憶装置２にアクセスする機能を有している。サブＣＰＵは、このような制限された処理機能のみを有して構成されており、したがってメインＣＰＵと比較して小さい消費電力で動作できる。これらのサブＣＰＵの機能は、メインＣＰＵがスタンバイ状態にある際に実行される。

　メイン電源ボタン２０は、ユーザからの操作入力が行われる入力部であって、情報処理装置１０の筐体の前面に設けられ、情報処理装置１０のメインシステム６０への電源供給をオンまたはオフするために操作される。電源ＯＮ用ＬＥＤ２１は、メイン電源ボタン２０がオンされたときに点灯し、スタンバイ用ＬＥＤ２２は、メイン電源ボタン２０がオフされたときに点灯する。システムコントローラ２４は、ユーザによるメイン電源ボタン２０の押下を検出する。

　クロック２６はリアルタイムクロックであって、現在の日時情報を生成し、システムコントローラ２４やサブシステム５０およびメインシステム６０に供給する。

　デバイスコントローラ３０は、サウスブリッジのようにデバイス間の情報の受け渡しを実行するＬＳＩ（Large-Scale Integrated Circuit）として構成される。図示のように、デバイスコントローラ３０には、システムコントローラ２４、メディアドライブ３２、ＵＳＢモジュール３４、フラッシュメモリ３６、無線通信モジュール３８、有線通信モジュール４０、サブシステム５０およびメインシステム６０などのデバイスが接続される。デバイスコントローラ３０は、それぞれのデバイスの電気特性の違いやデータ転送速度の差を吸収し、データ転送のタイミングを制御する。

　メディアドライブ３２は、ゲームなどのアプリケーションソフトウェア、およびライセンス情報を記録したＲＯＭ媒体４４を装着して駆動し、ＲＯＭ媒体４４からプログラムやデータなどを読み出すドライブ装置である。ＲＯＭ媒体４４は、光ディスクや光磁気ディスク、ブルーレイディスクなどの読出専用の記録メディアである。

　ＵＳＢモジュール３４は、外部機器とＵＳＢケーブルで接続するモジュールである。ＵＳＢモジュール３４は補助記憶装置２およびカメラ７とＵＳＢケーブルで接続してもよい。フラッシュメモリ３６は、内部ストレージを構成する補助記憶装置である。無線通信モジュール３８は、Bluetooth（登録商標）プロトコルやIEEE802.11プロトコルなどの通信プロトコルで、たとえば入力装置６と無線通信する。入力装置６がマイク５を内蔵している場合、マイク５で取得されたユーザ音声は、無線通信モジュール３８に送信される。有線通信モジュール４０は、外部機器と有線通信し、たとえばＡＰ８を介して外部のネットワークに接続する。

　図３は、情報処理装置１０の機能ブロックを示す。実施例の情報処理装置１０は、処理部１００および通信部１０２を備え、ユーザの操作にもとづいて生成されたゲーム画像をバックグランドで一時的に記録し、記録したゲーム画像を用いて、ユーザ生成コンテンツ（以下、単に「コンテンツ」とも呼ぶ）であるゲーム動画を生成する機能を有する。処理部１００は、ゲームソフトウェア１１０、出力処理部１１２、記録制御部１１４、ユーザ音声取得部１２０、音声供給部１２２、音声認識部１２４、指示部１２６、記録部１３０および動画生成部１３２を備える。

　図３に示す情報処理装置１０はコンピュータを備え、コンピュータがプログラムを実行することによって、図３に示す様々な機能が実現される。コンピュータは、プログラムをロードするメモリ、ロードされたプログラムを実行する１つ以上のプロセッサ、補助記憶装置、その他のＬＳＩなどをハードウェアとして備える。プロセッサは、半導体集積回路やＬＳＩを含む複数の電子回路により構成され、複数の電子回路は、１つのチップ上に搭載されてよく、または複数のチップ上に搭載されてもよい。図３に示す機能ブロックは、ハードウェアとソフトウェアとの連携によって実現され、したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。

　通信部１０２は、無線通信モジュール３８および有線通信モジュール４０の機能を併せ持つ。ユーザのゲームプレイ中、通信部１０２は、ユーザが入力装置６を操作した情報（ゲーム操作情報）を受信して、ゲームソフトウェア１１０に提供する。

　ゲームソフトウェア１１０は、少なくともゲームプログラム、画像データおよび音声データを含んで構成される。ゲームプログラムは、ユーザによるゲーム操作情報を受けると、仮想空間においてプレイヤキャラクタを動かす演算処理を行う。出力処理部１１２は、ゲームソフトウェア１１０による演算結果にもとづいてゲーム画像およびゲーム音（ゲーム画音）を生成し、出力装置４から出力させる。出力処理部１１２は、レンダリング処理などを実行するＧＰＵ（Graphics Processing Unit）を含んでよい。

　図４は、出力装置４に表示されるゲーム画面の例を示す。ユーザは、ゲーム画像を見ながら入力装置６を操作して、ゲームを進行させる。
　情報処理装置１０では、出力処理部１１２が、ゲーム画像およびゲーム音を出力装置４から出力させるとともに、ゲーム画像およびゲーム音を記録制御部１１４に供給する。情報処理装置１０は、出力処理部１１２が生成したゲーム画像およびゲーム音をバックグランド記録する機能を有し、記録制御部１１４は、ユーザの操作にもとづいて生成されたゲーム画像およびゲーム音を記録部１３０に記録する。以下、ゲーム画像およびゲーム音を、説明の便宜上、単に「ゲーム画像」と呼ぶこともある。

　記録部１３０は、ゲーム画像を一時的に保持するためのバッファであり、補助記憶装置２の記憶領域に設けられてよい。記録部１３０はリングバッファであってよく、リングバッファは、補助記憶装置２の記憶領域に開始アドレスおよび終了アドレスを設定することで構成されてよい。リングバッファ領域の開始アドレスおよび終了アドレスは、情報処理装置１０の出荷前に設定されてよいが、ユーザが自由に設定できてもよい。記録制御部１１４は、ゲーム画像を時間情報（タイムスタンプ）とともに記録部１３０に一時記録する。

　記録制御部１１４は、ユーザの操作にもとづいて生成されたゲーム画像を、開始アドレスから予め定められたアドレス順にリアルタイムで記録していき、終了アドレスまで記録すると、開始アドレスに戻って上書き記録し、それを繰り返す。たとえば記録部１３０の容量は、最大で６０分間（１時間）分のゲーム画像を記録できるように設定され、したがって記録部１３０には、ユーザが直近の６０分間にプレイしたゲーム画像が記録されることになる。

　実施例では、ユーザがゲームをプレイしながら、ゲームの実況を行う。ユーザが発した音声がマイク５に入力されると、ユーザ音声取得部１２０は、マイク５に入力されたユーザ音声を取得し、音声供給部１２２は、ユーザ音声を記録制御部１１４に供給する。記録制御部１１４は、出力処理部１１２から供給されるゲーム画像と、音声供給部１２２から供給されるユーザ音声とを合成して、記録部１３０に記録する。つまり記録部１３０には、ユーザの実況音声を含んだゲーム動画が記録される。

　実施例において、ユーザはゲームプレイ中に、記録部１３０に記録されたゲーム画像から所望のシーンを切り出してユーザ生成コンテンツを生成し、補助記憶装置２に保存できる。たとえばユーザがゲームプレイ中に、コンテンツの終了点と、当該終了点から任意の時間だけ遡ったタイミングを指定すると、動画生成部１３２は、記録部１３０からゲーム動画を切り出し、切り出したゲーム動画をユーザ生成コンテンツとして補助記憶装置２に保存できる。またユーザがゲームプレイ中に、コンテンツの開始点をリアルタイムで指定し、その後、コンテンツの終了点をリアルタイムで指定すると、動画生成部１３２は、記録部１３０からゲーム動画を切り出し、切り出したゲーム動画をユーザ生成コンテンツとして補助記憶装置２に保存できる。

　実施例においてユーザは、ゲームプレイ中に、所定のコマンドを発声することで、コンテンツの生成指示を情報処理装置１０に入力できる。ゲームプレイ中、ユーザは、入力装置６をゲームの操作に使用しているため、コンテンツの生成指示を入力装置６を用いずに、音声コマンドにより入力可能とすることは、ユーザの円滑なゲームプレイを支援する。音声認識部１２４は、ユーザ音声取得部１２０が取得した音声を音声認識して、ユーザが発した音声を文字列に変換する。なお図３においては、音声認識部１２４と音声供給部１２２とを別個の機能ブロックとして示しているが、音声認識部１２４と音声供給部１２２は一体の機能モジュールとして構成されてもよい。

＜音声コマンド１＞
　以下、音声コマンド１の例を示す。
・「Hey Game Console, Capture the last 5 minutes（ヘイゲームコンソール　直近の５分を保存してください）」
　ユーザは、音声コマンド１を発声することで、コンテンツの終了点と、当該終了点から任意の時間だけ遡ったコンテンツの開始点を指定できる。
　この音声コマンド１は、第１音声コマンドと、第１音声コマンドに続く第２音声コマンドから構成される。

（ａ）第１音声コマンド　　「Hey Game Console（ヘイゲームコンソール）」
　第１音声コマンドは、ユーザ音声によるコンテンツ生成機能を起動するための音声コマンドである。音声認識部１２４は、マイク５に入力された音声を音声認識処理して、ユーザ音声を文字列に変換し、変換した文字列に「Hey Game Console」が含まれていると、ユーザ音声によるコンテンツ生成機能を起動する。ユーザ音声によるコンテンツ生成機能が起動されると、指示部１２６が、音声認識部１２４から供給される文字列にもとづいて、コンテンツの生成を動画生成部１３２に指示可能な状態となる。

　ユーザ音声によるコンテンツ生成機能が起動されると、記録制御部１１４は、ユーザ音声をゲーム画像に合成する処理を一時停止し、ゲーム画像のみを記録部１３０に記録する。このとき記録制御部１１４は、音声供給部１２２から供給されるユーザ音声を破棄することで、ユーザ音声の合成処理を一時停止してよいが、音声供給部１２２が、記録制御部１１４にユーザ音声を供給することを一時停止してもよい。したがって記録制御部１１４は、ユーザが「Hey Game Console」と発した後にユーザが発した音声を、記録部１３０に記録しない。なおユーザ音声がゲーム画像に合成されなくなるのは、ユーザ音声を変換した文字列に第１音声コマンド「Hey Game Console」が含まれていることが音声認識部１２４により確認された後であるため、ユーザ音声「Hey Game Console」は、記録部１３０に記録されることになる。

（ｂ）第２音声コマンド　　「Capture the last 5 minutes（直近の５分を保存してください）」
　第２音声コマンドは、コンテンツを切り出す開始点および終了点を指定するための音声コマンドである。音声認識部１２４は、マイク５に入力された音声を音声認識処理して、「Hey Game Console」に続けてユーザが発した音声を文字列に変換する。この例で音声認識部１２４は、ユーザ音声を文字列「Capture the last 5 minutes」に変換して、変換した文字列を指示部１２６に供給する。

　図５は、ゲーム画面に重畳表示される文字列を示す。ユーザ音声によるコンテンツ生成機能の起動後に音声認識された文字列は、出力装置４に表示されているゲーム画面に重畳表示されてよい。ユーザは、ゲーム画面に重畳表示される文字列１４０を見ることで、ユーザ音声によるコンテンツ生成指示が情報処理装置１０に受け付けられたことを確認できる。

　指示部１２６は、文字列「Capture the last 5 minutes」を受け取ると、ユーザが直近の５分のゲーム動画を切り出すことを要求していることを認識する。音声コマンドの認識率を高めるために、第２音声コマンドは定型化されていることが好ましい。具体的には、「Capture the last」が定型文であり、ユーザが「Capture the last」を発声した後に、ゲーム動画の切出時間を発声することで、第２音声コマンドが成立してよい。実施例では「Capture the last」に限らず、「Save the last」や、「Record gameplay for the last」なども定型文として用意されて、ユーザは、様々な種類の第２音声コマンドを利用できてよい。なお指示部１２６は自然言語理解機能を備え、文字列の意味を理解して、ユーザが指定するコンテンツの開始点および終了点を特定できてもよい。

　指示部１２６は、第２音声コマンドを受け取ると、生成するコンテンツの終了点と、当該終了点から５分だけ遡ったコンテンツの開始点を特定する。以下の図６においては、指示部１２６が、第２音声コマンドを受け取ったタイミング、つまりユーザが第２音声コマンド「Capture the last 5 minutes」を発声し終えたタイミングを、コンテンツの終了点として特定した場合について説明する。

　図６は、ユーザが指定するコンテンツの開始点および終了点を示す。時間ｔ_１は、ユーザが第１音声コマンドの発声を開始したタイミング、時間ｔ_２は、ユーザが第１音声コマンドの発声を終了したタイミング、時間ｔ_３は、ユーザが第２音声コマンドの発声を終了したタイミングを示す。第２音声コマンドの発声が終了したタイミングは、ユーザが指定するコンテンツの終了点とみなすことができる。したがって時間ｔ_３は、ユーザが指定したコンテンツの終了点であり、時間ｔ_３から５分前の時間ｔ_０は、ユーザが指定したコンテンツの開始点となる。

　上記したように、記録制御部１１４は、第１音声コマンド「Hey Game Console」の発声が終了したタイミング（時間ｔ_２）より後にユーザが発した音声を記録部１３０に記録しないが、第１音声コマンドの発声は記録部１３０に記録している。そのため図６に示すタイムラインでは、時間ｔ_１から時間ｔ_２までの間にユーザ音声「Hey Game Console」が記録されており、ユーザが指定する時間ｔ_０から時間ｔ_３までのゲーム動画を切り出すと、切り出したゲーム動画に、ユーザ音声「Hey Game Console」が含まれることになる。

　そこで実施例の情報処理装置１０は、ユーザ音声により指定されるコンテンツの開始点および終了点にもとづいて、記録部１３０に記録されたゲーム画像から、ユーザ音声を含まないコンテンツ（ゲーム動画）を生成する機能を備える。情報処理装置１０は、ユーザ音声を含まないコンテンツを生成することで、ユーザによるコンテンツの編集作業を支援する。

（実施例１）
　図７は、実施例１において設定するコンテンツの開始点および終了点を示す。時間ｔ_１は、ユーザが第１音声コマンドの発声を開始したタイミング、時間ｔ_２は、ユーザが第１音声コマンドの発声を終了したタイミング、時間ｔ_３は、ユーザが第２音声コマンドの発声を終了したタイミングを示す。時間ｔ_３は、ユーザが指定したコンテンツの終了点である。なお参考のために、ユーザが指定した開始点である時間ｔ_０（図６参照）も示している。

　実施例１において、音声認識部１２４は、音声認識した文字列を指示部１２６に伝える際に、あわせて時間ｔ_１、時間ｔ_２、時間ｔ_３の時間情報も伝える。したがって指示部１２６は、ユーザが指定したコンテンツの終了点（時間ｔ_３）を認識するとともに、ユーザによる音声コマンド１の発声時間（時間ｔ_３－時間ｔ_１）を取得する。なお指示部１２６は、音声認識部１２４から音声認識した文字を単語単位で伝えられるため、各単語を伝えられたタイミングで、時間ｔ_１、時間ｔ_２、時間ｔ_３の時間情報を特定してもよい。

　指示部１２６は、コンテンツを切り出す開始点および終了点を定めたコンテンツ生成指示を生成して、動画生成部１３２に提供する。動画生成部１３２は、コンテンツ生成指示にもとづいて、ユーザ音声により指定されるゲーム動画の終了点（時間ｔ_３）より時間的に前となるタイミングを終了点とするゲーム動画を記録部１３０から切り出し、ユーザ生成コンテンツとして補助記憶装置２に保存する。

　具体的に、指示部１２６は、ユーザ音声により指定されるゲーム動画の終了点（時間ｔ_３）から発声時間（時間ｔ_３－時間ｔ_１）以上遡ったタイミングを終了点に設定し、当該終了点から５分だけ遡ったコンテンツの開始点を設定する。図７に示す例では、指示部１２６は、ユーザが指定した終了点（時間ｔ_３）から発声時間（時間ｔ_３－時間ｔ_１）だけ遡ったタイミング（時間ｔ_１）を終了点とし、当該終了点から５分だけ遡ったコンテンツの開始点（Ｔ_０）を設定している。そこで指示部１２６は、開始点（時間Ｔ_０）および終了点（時間ｔ_１）を定めたコンテンツ生成指示を生成して、動画生成部１３２に提供する。動画生成部１３２は、コンテンツ生成指示にもとづいて、ユーザが指定した終了点（時間ｔ_３）から発声時間（時間ｔ_３－時間ｔ_１）だけ遡ったタイミング（時間ｔ_１）を終了点とし、当該終了点から５分だけ遡ったタイミング（時間Ｔ_０）を開始点とするゲーム動画を記録部１３０から切り出して、ユーザ生成コンテンツとして補助記憶装置２に保存する。

　このように実施例１によれば、音声認識部１２４が変換した文字列に音声コマンド１が含まれている場合に、動画生成部１３２は、音声コマンド１に対応するユーザ音声を含まないゲーム動画（コンテンツ）を生成できる。つまり動画生成部１３２は、音声コマンド１が発声される前に記録部１３０に記録されたゲーム画像を用いることで、音声コマンドを発したユーザ音声を含まないコンテンツを生成することが可能となる。

　なお図７に示す例では、指示部１２６が、ユーザが第１音声コマンドの発声を開始したタイミング（時間ｔ_１）を終了点としているが、ユーザ音声がコンテンツに確実に含まれないようにするために、時間ｔ_１の所定時間（たとえば数秒）前を終了点としてもよい。

＜音声コマンド２＞
　次に、音声コマンド１とは異なる音声コマンド２の例を示す。
　音声コマンド２は、コンテンツの開始点を指定する開始コマンドと、コンテンツの終了点を指定する終了コマンドを含む。
・開始コマンド
　「Hey Game Console, Start recording（ヘイゲームコンソール　録画を開始してください）」
・終了コマンド
　「Hey Game Console, Stop recording（ヘイゲームコンソール　録画を終了してください）」
　なお、音声コマンド２における“Start recording”、“Stop recording”は、記録部１３０への録画に関する指示ではなく、記録部１３０に録画されたゲーム画像からコンテンツを生成することに関する指示であることに留意されたい。記録制御部１１４は、ゲーム画像を常に記録部１３０に記録しており、音声コマンド２は、記録部１３０へのゲーム画像の記録に影響を与えるものではない。

　ユーザは、開始コマンドを発声することで、コンテンツの開始点を指定し、終了コマンドを発声することで、コンテンツの終了点を指定する。なお開始コマンドと終了コマンドはセットであり、ユーザが開始コマンドを発声しても、終了コマンドを発声しなければ、記録部１３０からゲーム動画の切り出しは行われない。

　音声コマンド１と同様に、音声コマンド２は、第１音声コマンドと、第１音声コマンドに続く第２音声コマンドから構成される。
（ａ）第１音声コマンド　　「Hey Game Console（ヘイゲームコンソール）」
　上記したように第１音声コマンドは、ユーザ音声によるコンテンツ生成機能を起動するための音声コマンドである。ユーザが第１音声コマンドを発声すると、ユーザ音声によるコンテンツ生成機能が起動され、指示部１２６が、音声認識部１２４から供給される文字列にもとづいて、コンテンツの生成に関する処理を実行可能な状態となり、記録制御部１１４は、ユーザ音声をゲーム画像に合成する処理を一時停止する。

（ｂ）第２音声コマンド
（ｂ１）　開始コマンド　「Start recording（録画を開始してください）」
　この第２音声コマンドは、コンテンツを切り出す開始点を指定するための音声コマンドである。音声認識部１２４は、マイク５に入力された音声から文字列「Start recording」を取得すると、文字列「Start recording」を、取得した時間を示す時間情報とともに指示部１２６に供給する。なおユーザが第２音声コマンド「Start recording」を発声して、指示部１２６が文字列「Start recording」を受け取ると、記録制御部１１４は、ユーザ音声をゲーム画像に合成する処理を再開する。
（ｂ２）　終了コマンド　「Stop recording（録画を終了してください）」
　この第２音声コマンドは、コンテンツを切り出す終了点を指定するための音声コマンドである。音声認識部１２４は、マイク５に入力された音声から文字列「Stop recording」を取得すると、文字列「Stop recording」を、取得した時間を示す時間情報とともに指示部１２６に供給する。

　指示部１２６は、音声認識部１２４から文字列「Start recording」を受け取った後に、文字列「Stop recording」を受け取ると、ユーザが、「Start recording」を発声したタイミングから、「Stop recording」を発声したタイミングの間のゲーム動画を切り出すことを要求していることを認識する。指示部１２６は、一対の開始コマンドと終了コマンドを受け取ると、生成するコンテンツの開始点と終了点を特定する。以下の図８においては、指示部１２６が、文字列「Start recording」を受け取ったタイミングをコンテンツの開始点、文字列「Stop recording」を受け取ったタイミングをコンテンツの終了点として特定した場合について説明する。

　図８は、ユーザが指定するコンテンツの開始点および終了点を示す。時間ｔ_１は、ユーザが第１音声コマンドの発声を開始したタイミング、時間ｔ_２は、ユーザが第１音声コマンドの発声を終了したタイミング、時間ｔ_３は、ユーザが第２音声コマンド（開始コマンド）の発声を終了したタイミングを示す。第２音声コマンド（開始コマンド）の発声が終了したタイミングは、ユーザが指定するコンテンツの開始点とみなすことができる。したがって時間ｔ_３は、ユーザが指定したコンテンツの開始点である。

　時間ｔ_４は、ユーザが第１音声コマンドの発声を開始したタイミング、時間ｔ_５は、ユーザが第１音声コマンドの発声を終了したタイミング、時間ｔ_６は、ユーザが第２音声コマンド（終了コマンド）の発声を終了したタイミングを示す。第２音声コマンド（終了コマンド）の発声が終了したタイミングは、ユーザが指定するコンテンツの終了点とみなすことができる。したがって時間ｔ_６は、ユーザが指定したコンテンツの終了点である。

　上記したように、ユーザが「Start recording」を発声したタイミング（時間ｔ_３）の後、記録制御部１１４は、ゲーム画像にユーザ音声を合成する処理を再開している。図８に示すタイムラインにおいては、時間ｔ_４から時間ｔ_５までの間にユーザ音声「Hey Game Console」が記録部１３０に記録されており、ユーザが指定する時間ｔ_３から時間ｔ_６までのゲーム動画を切り出すと、切り出したゲーム動画に、ユーザ音声「Hey Game Console」が含まれることになる。

　図９は、実施例１において設定するコンテンツの開始点および終了点を示す。時間ｔ_１は、ユーザが第１音声コマンドの発声を開始したタイミング、時間ｔ_２は、ユーザが第１音声コマンドの発声を終了したタイミング、時間ｔ_３は、ユーザが第２音声コマンド（開始コマンド）の発声を終了したタイミングを示す。時間ｔ_３は、ユーザが指定したコンテンツの開始点である。

　時間ｔ_４は、ユーザが第１音声コマンドの発声を開始したタイミング、時間ｔ_５は、ユーザが第１音声コマンドの発声を終了したタイミング、時間ｔ_６は、ユーザが第２音声コマンド（終了コマンド）の発声を終了したタイミングを示す。時間ｔ_６は、ユーザが指定したコンテンツの終了点である。

　実施例１において、音声認識部１２４は、音声認識した文字列を指示部１２６に伝える際に、あわせて時間ｔ_１、時間ｔ_２、時間ｔ_３、時間ｔ_４、時間ｔ_５、時間ｔ_６の時間情報も伝える。したがって指示部１２６は、ユーザが指定したコンテンツの終了点（時間ｔ_６）を認識するとともに、ユーザによる終了コマンド「Hey Game Console, Stop recording」の発声時間（時間ｔ_６－時間ｔ_４）を取得する。なお指示部１２６は、音声認識部１２４から音声認識した文字を単語単位で伝えられるため、各単語を伝えられたタイミングで、時間ｔ_１、時間ｔ_２、時間ｔ_３、時間ｔ_４、時間ｔ_５、時間ｔ_６の時間情報を特定してもよい。

　指示部１２６は、コンテンツを切り出す開始点および終了点を定めたコンテンツ生成指示を生成して、動画生成部１３２に提供する。動画生成部１３２は、コンテンツ生成指示にもとづいて、ユーザ音声により指定されるゲーム動画の終了点（時間ｔ_６）より時間的に前となるタイミングを終了点とするゲーム動画を記録部１３０から切り出し、ユーザ生成コンテンツとして補助記憶装置２に保存する。

　具体的に、指示部１２６は、ユーザ音声により指定されるゲーム動画の終了点（時間ｔ_６）から終了コマンドの発声時間（時間ｔ_６－時間ｔ_４）以上遡ったタイミングを終了点として設定する。指示部１２６は、ユーザ音声により指定されるゲーム動画の開始点（ｔ_３）を、そのまま開始点として設定してよい。図９に示す例では、指示部１２６は、ユーザが指定した終了点（時間ｔ_６）から終了コマンドの発声時間（時間ｔ_６－時間ｔ_４）だけ遡ったタイミング（時間ｔ_４）を終了点としている。そこで指示部１２６は、開始点（時間ｔ_３）および終了点（時間ｔ_４）を定めたコンテンツ生成指示を生成して、動画生成部１３２に提供する。動画生成部１３２は、コンテンツ生成指示にもとづいて、ユーザが指定した終了点（時間ｔ_６）から発声時間（時間ｔ_６－時間ｔ_４）だけ遡ったタイミング（時間ｔ_４）を終了点とし、ユーザが指定したタイミング（時間ｔ_３）を開始点とするゲーム動画を記録部１３０から切り出して、ユーザ生成コンテンツとして補助記憶装置２に保存する。

　このように実施例１によれば、音声認識部１２４が変換した文字列に音声コマンド２が含まれている場合に、動画生成部１３２は、音声コマンド２に対応するユーザ音声を含まないゲーム動画（コンテンツ）を生成できる。つまり動画生成部１３２は、終了コマンドが発声される前に記録部１３０に記録されたゲーム画像を用いることで、音声コマンドを発したユーザ音声を含まないコンテンツを生成することが可能となる。

　なお図９に示す例では、指示部１２６が、ユーザが第１音声コマンドの発声を開始したタイミング（時間ｔ_４）を終了点としているが、ユーザ音声がコンテンツに確実に含まれないようにするために、時間ｔ_４の所定時間（たとえば数秒）前を終了点としてもよい。また図９に示す例では、指示部１２６が、ユーザが第２音声コマンド（開始コマンド）の発声を終了したタイミング（時間ｔ_３）を開始点としているが、ユーザ音声がコンテンツに確実に含まれないようにするために、時間ｔ_３の所定時間（たとえば数秒）後を開始点としてもよい。

（実施例２）
　実施例１では、ユーザが指定したコンテンツの終了点より前のタイミングを終了点に設定して、設定した終了点でゲーム動画を記録部１３０から切り出している。実施例２では、ユーザ音声により指定されたコンテンツの開始点から終了点までのゲーム動画を記録部１３０から切り出し、切り出したゲーム動画から、音声コマンドに対応するユーザ音声を除去する。

　図６を参照すると、時間ｔ_０が、ユーザが指定したコンテンツの開始点であり、時間ｔ_３が、ユーザが指定したコンテンツの終了点である。図６に示すタイムラインにおいて、実施例２では、指示部１２６が、開始点（時間ｔ_０）および終了点（時間ｔ_３）を定めたコンテンツ生成指示を生成して、動画生成部１３２に提供する。動画生成部１３２は、コンテンツ生成指示にもとづいて、開始点を時間ｔ_０、終了点を時間ｔ_３とするゲーム動画を記録部１３０から切り出し、時間ｔ_１から時間ｔ_２までの間に記録されているユーザ音声「Hey Game Console」を、切り出したゲーム動画から除去する。

　実施例２において、音声認識部１２４は、ユーザ音声をバッファリングする機能を有し、ユーザが時間ｔ_１から時間ｔ_２までの間に発声したユーザ音声「Hey Game Console」を、指示部１２６に供給する。音声認識部１２４は、音声認識処理により時間ｔ_１から時間ｔ_２までの間に「Hey Game Console」のユーザ音声が含まれていることを検出すると、バッファから時間ｔ_１から時間ｔ_２までの間のユーザ音声「Hey Game Console」を読み出して、ユーザが発声した時間情報（時間ｔ_１から時間ｔ_２までの区間）とともに、ユーザ音声データを指示部１２６に供給する。指示部１２６は、開始点（時間ｔ_０）および終了点（時間ｔ_３）を定めたコンテンツ生成指示に、ユーザ音声「Hey Game Console」および時間情報を含めて、動画生成部１３２に提供する。

　動画生成部１３２は、コンテンツ生成指示にもとづいて、開始点を時間ｔ_０、終了点を時間ｔ_３とするゲーム動画を記録部１３０から切り出した後、時間ｔ_１と時間ｔ_２の間に記録されているユーザ音声「Hey Game Console」を、提供されたユーザ音声データを用いて除去する。具体的に、動画生成部１３２は、ゲーム動画に含まれるユーザ音声に、提供されたユーザ音声の逆位相を重ねることで、ゲーム動画に含まれるユーザ音声をキャンセルして、ゲーム動画からユーザ音声「Hey Game Console」を消してよい。なお実施例においては、ユーザ音声「Hey Game Console」の後に続くユーザ音声「Capture the last 5 minutes」は記録部１３０に記録されない仕様を前提としているが、ユーザ音声「Capture the last 5 minutes」も記録部１３０に記録される場合には、指示部１２６が、ユーザ音声「Hey Game Console, Capture the last 5 minutes」を動画生成部１３２に提供して、動画生成部１３２が、ゲーム動画からユーザ音声「Hey Game Console, Capture the last 5 minutes」をキャンセルする。

　ユーザ音声がゲーム画像に合成されて記録部１３０に記録される際に、符号化処理などの非線形処理が施されている場合、動画生成部１３２は、その非線形処理を加味して、ゲーム動画に含まれるユーザ音声を消すことが好ましい。

　この例では、動画生成部１３２が、コンテンツ生成のための音声コマンドの発声をキャンセルする例を説明したが、情報処理装置１０が、他の機能を起動するための音声コマンドを許容している場合、音声認識部１２４が、ユーザによる音声コマンドの発声を検出すると、そのコマンドのユーザ音声を指示部１２６に提供することで、動画生成部１３２が、切り出したゲーム動画から、各種コマンドのユーザ音声をキャンセルすることが可能となる。

　なお上記例では、動画生成部１３２が、ユーザが実際に発した音声を用いて、ゲーム動画に含まれるユーザ音声をキャンセルしたが、たとえば音声コマンドの発声を学習した学習済みモデルを用いて、ゲーム動画に含まれる音声コマンドの発声をキャンセルしてもよい。学習済みモデルは、多数のユーザが発声した音声コマンドを学習することで作成されてよい。上記したように、情報処理装置１０が、各種機能を起動するための様々な音声コマンドの受け付けを許容している場合、学習済みモデルは、各種コマンドの発声を学習しておくことで、動画生成部１３２が、ゲーム動画から、様々な音声コマンドの発声を除去することが可能となる。

（実施例３）
　図１０は、情報処理装置１０の機能ブロックの別の例を示す。実施例３の情報処理装置１０は、処理部１００および通信部１０２を備え、ユーザの操作にもとづいて生成されたゲーム画像をバックグランドで一時的に記録し、記録したゲーム画像を用いて、ユーザ生成コンテンツであるゲーム動画を生成する機能を有する。処理部１００は、ゲームソフトウェア１１０、出力処理部１１２、ユーザ音声取得部１２０、音声供給部１２２、音声認識部１２４、指示部１２６、第１記録制御部１５０、第１記録部１５２、第２記録制御部１５４、第２記録部１５６および動画生成部１３２を備える。図１０に示す機能ブロックで、図３に示す機能ブロックと同じ符号を付した機能ブロックは、図３に示す機能ブロックと同じまたは同様の機能を有してよい。

　図１０に示す情報処理装置１０はコンピュータを備え、コンピュータがプログラムを実行することによって、図１０に示す様々な機能が実現される。コンピュータは、プログラムをロードするメモリ、ロードされたプログラムを実行する１つ以上のプロセッサ、補助記憶装置、その他のＬＳＩなどをハードウェアとして備える。プロセッサは、半導体集積回路やＬＳＩを含む複数の電子回路により構成され、複数の電子回路は、１つのチップ上に搭載されてよく、または複数のチップ上に搭載されてもよい。図１０に示す機能ブロックは、ハードウェアとソフトウェアとの連携によって実現され、したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。

　ゲームソフトウェア１１０は、少なくともゲームプログラム、画像データおよび音声データを含んで構成される。ゲームプログラムは、ユーザによるゲーム操作情報を受けると、仮想空間においてプレイヤキャラクタを動かす演算処理を行う。出力処理部１１２は、ゲームソフトウェア１１０による演算結果にもとづいてゲーム画像およびゲーム音を生成し、出力装置４から出力させる。

　情報処理装置１０では、出力処理部１１２が、ゲーム画像およびゲーム音を出力装置４から出力させるとともに、ゲーム画像およびゲーム音を第１記録制御部１５０に供給する。第１記録制御部１５０は、ユーザの操作にもとづいて生成されたゲーム画像およびゲーム音を第１記録部１５２に記録する。以下、ゲーム画像およびゲーム音を、説明の便宜上、単に「ゲーム画像」と呼ぶこともある。

　第１記録部１５２は、ゲーム画像を一時的に保持するためのバッファであり、補助記憶装置２の記憶領域に設けられてよい。第１記録部１５２はリングバッファであってよく、リングバッファは、補助記憶装置２の記憶領域に開始アドレスおよび終了アドレスを設定することで構成されてよい。リングバッファ領域の開始アドレスおよび終了アドレスは、情報処理装置１０の出荷前に設定されてよいが、ユーザが自由に設定できてもよい。第１記録制御部１５０は、ゲーム画像を時間情報（タイムスタンプ）とともに第１記録部１５２に一時記録する。

　第１記録制御部１５０は、ユーザの操作にもとづいて生成されたゲーム画像を、開始アドレスから予め定められたアドレス順にリアルタイムで記録していき、終了アドレスまで記録すると、開始アドレスに戻って上書き記録し、それを繰り返す。たとえば第１記録部１５２の容量は、最大で６０分間（１時間）分のゲーム画像を記録できるように設定され、したがって第１記録部１５２には、ユーザが直近の６０分間にプレイしたゲーム画像が記録されることになる。

　ユーザ音声取得部１２０は、マイク５に入力されたユーザ音声を取得し、音声供給部１２２は、ユーザ音声を第２記録制御部１５４に供給する。第２記録制御部１５４は、音声供給部１２２から供給されるユーザ音声を、第２記録部１５６に記録する。実施例３では、実施例１，２と異なり、ユーザ音声がゲーム動画と合成されることなく、第２記録部１５６に記録される。

　第２記録部１５６は、ユーザ音声を一時的に保持するためのバッファであり、補助記憶装置２の記憶領域に設けられてよい。第２記録部１５６の記憶領域は、第１記録部１５２の記憶領域とは別に設けられる。第２記録部１５６はリングバッファであってよく、リングバッファは、補助記憶装置２の記憶領域に開始アドレスおよび終了アドレスを設定することで構成されてよい。リングバッファ領域の開始アドレスおよび終了アドレスは、情報処理装置１０の出荷前に設定されてよいが、ユーザが自由に設定できてもよい。第２記録制御部１５４は、ユーザ音声を時間情報（タイムスタンプ）とともに第２記録部１５６に一時記録する。

　第２記録制御部１５４は、マイク５に入力されたユーザ音声を、開始アドレスから予め定められたアドレス順にリアルタイムで記録していき、終了アドレスまで記録すると、開始アドレスに戻って上書き記録し、それを繰り返す。たとえば第２記録部１５６の容量は、最大で６０分間（１時間）分のユーザ音声を記録できるように設定されてよい。

　実施例３において、第１記録制御部１５０は、ゲーム画像を常に第１記録部１５２に記録し、第２記録制御部１５４は、ユーザ音声を常に第２記録部１５６に記録してよい。

　実施例３において、ユーザは、第１記録部１５２に記録されたゲーム画像と、第２記録部１５６に記録されたユーザ音声を合成してユーザ生成コンテンツを生成し、補助記憶装置２に保存できる。たとえばユーザがゲームプレイ中に、音声コマンドによりコンテンツの開始点と終了点を指定すると、動画生成部１３２は、指定された開始点から終了点までのゲーム画像を第１記録部１５２から切り出し、また指定された開始点から終了点までのユーザ音声を第２記録部１５６から切り出して、タイムスタンプが揃うようにゲーム画像とユーザ音声を合成してゲーム動画を生成し、ユーザ生成コンテンツとして補助記憶装置２に保存できる。

　以下、ユーザが、ゲームプレイ中に、音声コマンド１である「Hey Game Console, Capture the last 5 minutes」を発声したときの処理について説明する。実施例３において音声認識部１２４は、ユーザ音声を文字列に変換し、変換した文字列に音声コマンドが含まれているか否かを検出する。変換した文字列に音声コマンドが含まれている場合、動画生成部１３２は、当該音声コマンドに対応するユーザ音声を含まないゲーム動画を生成する。

　図１１は、実施例３において、音声コマンド１によりユーザが指定する開始点と終了点を示す。
　音声認識部１２４は、マイク５に入力された音声を音声認識処理して、ユーザ音声を文字列に変換し、変換した文字列に「Hey Game Console」が含まれていると、ユーザ音声によるコンテンツ生成機能を起動する。ユーザ音声によるコンテンツ生成機能が起動されると、指示部１２６が、音声認識部１２４から供給される文字列にもとづいて、コンテンツの生成を動画生成部１３２に指示可能な状態となる。

　音声認識部１２４は、マイク５に入力された音声を音声認識処理して、「Hey Game Console」に続けてユーザが発した音声を文字列に変換する。この例で音声認識部１２４は、ユーザ音声を文字列「Capture the last 5 minutes」に変換して、変換した文字列を指示部１２６に供給する。

　指示部１２６は、文字列「Capture the last 5 minutes」を受け取ると、ユーザが直近の５分のゲーム動画を切り出すことを要求していることを認識する。指示部１２６は、第２音声コマンドを受け取ると、生成するコンテンツの終了点と、当該終了点から５分だけ遡ったコンテンツの開始点を特定する。図１１に示すタイムラインでは、指示部１２６が第２音声コマンドを受け取ったタイミング、つまりユーザが第２音声コマンド「Capture the last 5 minutes」を発声し終えたタイミングを、コンテンツの終了点として特定している。

　図１１において、時間ｔ_１は、ユーザが第１音声コマンドの発声を開始したタイミング、時間ｔ_２は、ユーザが第１音声コマンドの発声を終了したタイミング、時間ｔ_３は、ユーザが第２音声コマンドの発声を終了したタイミングを示す。第２音声コマンドの発声が終了したタイミングは、ユーザが指定するコンテンツの終了点とみなすことができ、したがって時間ｔ_３は、ユーザが指定したコンテンツの終了点であり、時間ｔ_３から５分前の時間ｔ_０は、ユーザが指定したコンテンツの開始点となる。

　実施例３において、音声認識部１２４は、音声認識した文字列を指示部１２６に伝える際に、あわせて時間ｔ_１、時間ｔ_２、時間ｔ_３の時間情報も伝える。したがって指示部１２６は、ユーザが指定したコンテンツの終了点（時間ｔ_３）と、開始点（時間ｔ_０）を認識する。なお指示部１２６は、音声認識部１２４から音声認識した文字を単語単位で伝えられるため、各単語を伝えられたタイミングで、時間ｔ_１、時間ｔ_２、時間ｔ_３の時間情報を特定してもよい。指示部１２６は、コンテンツを切り出す開始点（時間ｔ_０）および終了点（時間ｔ_３）を定めたコンテンツ生成指示を生成する。実施例３において指示部１２６は、ユーザが音声コマンドを発した時間を示す時間情報（時間ｔ_１から時間ｔ_３までの区間）を含めたコンテンツ生成指示を、動画生成部１３２に提供する。

　動画生成部１３２は、コンテンツ生成指示にもとづいて、開始点（時間ｔ_０）から終了点（時間ｔ_３）までのゲーム画像を第１記録部１５２から抽出する。また動画生成部１３２は、開始点（時間ｔ_０）から終了点（時間ｔ_３）のうち、コマンド発声区間である時間ｔ_１から時間ｔ_３までの区間を除いた、時間ｔ_０から時間ｔ_１までのユーザ音声を第２記録部１５６から抽出する。動画生成部１３２は、抽出したゲーム画像のタイムスタンプと、抽出したユーザ音声のタイムスタンプとが揃うようにゲーム画像とユーザ音声を合成して、ゲーム動画を生成し、補助記憶装置２に保存する。この場合、生成されるゲーム動画には、時間ｔ_１から時間ｔ_３の間のユーザ音声は含まれない。

　実施例３においては、ゲーム画像とユーザ音声とを別個にバッファリングしておき、ゲーム画像とユーザ音声の合成処理において、音声コマンドに対応するユーザ音声をゲーム画像に合成しないことで、生成するゲーム動画に、音声コマンドの発声を含ませないことが可能となる。

　なお実施例３では、生成するゲーム動画に、音声コマンドの発声を含ませないことを説明したが、たとえば不適切な発声などをゲーム動画に含ませないことも可能である。つまり実施例３では、音声認識部１２４がユーザ音声を文字列に変換し、変換した文字列に、音声コマンドや適切でない所定の文字列が含まれている場合に、動画生成部１３２は、当該所定の文字列に対応するユーザ音声をゲーム画像に合成しないことで、ユーザが当該ユーザ音声をトリミングする手間を軽減することが可能となる。

　以上、本開示を実施例をもとに説明した。この実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本開示の範囲にあることは当業者に理解されるところである。

　実施例では、情報処理装置１０が、音声コマンドにもとづいてゲーム動画を生成するが、変形例では、情報処理装置１０が、システムソフトウェアが生成するグラフィカルユーザインタフェース（ＧＵＩ）におけるユーザ操作にもとづいて、ゲーム動画を生成する。

　図１２は、情報処理装置１０の機能ブロックの変形例を示す。変形例の情報処理装置１０は、処理部１００および通信部１０２を備え、ユーザの操作にもとづいて生成されたゲーム画像をバックグランドで一時的に記録し、記録したゲーム画像を用いて、ユーザ生成コンテンツであるゲーム動画を生成する機能を有する。処理部１００は、ゲームソフトウェア１１０、出力処理部１１２、記録制御部１６０、記録部１６２、入力受付部１７０、ＧＵＩ生成部１７２、指示部１７４および動画生成部１８０を備える。図１２に示す機能ブロックで、図３に示す機能ブロックと同じ符号を付した機能ブロックは、図３に示す機能ブロックと同じまたは同様の機能を有してよい。

　図１２に示す情報処理装置１０はコンピュータを備え、コンピュータがプログラムを実行することによって、図１２に示す様々な機能が実現される。コンピュータは、プログラムをロードするメモリ、ロードされたプログラムを実行する１つ以上のプロセッサ、補助記憶装置、その他のＬＳＩなどをハードウェアとして備える。プロセッサは、半導体集積回路やＬＳＩを含む複数の電子回路により構成され、複数の電子回路は、１つのチップ上に搭載されてよく、または複数のチップ上に搭載されてもよい。図１２に示す機能ブロックは、ハードウェアとソフトウェアとの連携によって実現され、したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。

　ゲームソフトウェア１１０は、少なくともゲームプログラム、画像データおよび音声データを含んで構成される。ゲームプログラムは、ユーザによるゲーム操作情報を受けると、仮想空間においてプレイヤキャラクタを動かす演算処理を行う。出力処理部１１２は、ゲームソフトウェア１１０による演算結果にもとづいてゲーム画像およびゲーム音（ゲーム画音）を生成し、出力装置４から出力させる。

　出力処理部１１２は、ゲーム画像およびゲーム音を出力装置４から出力させるとともに、ゲーム画像およびゲーム音を記録制御部１６０に供給する。記録制御部１６０は、ユーザの操作にもとづいて生成されたゲーム画像およびゲーム音を記録部１６２に記録する。以下、ゲーム画像およびゲーム音を、説明の便宜上、単に「ゲーム画像」と呼ぶこともある。

　記録部１６２は、ゲーム画像を一時的に保持するためのバッファであり、補助記憶装置２の記憶領域に設けられたリングバッファであってよい。記録制御部１６０は、ゲーム画像を時間情報（タイムスタンプ）とともに記録部１６２に一時記録する。記録部１６２は、図３に示す記録部１３０と同様の構成を備えてよい。

　変形例では、ユーザがゲームプレイ中に、入力装置６の所定のボタン（たとえばクリエイトボタン）を操作して、ユーザ生成コンテンツ（ビデオクリップ）を生成するためのグラフィカルユーザインタフェース（ＧＵＩ）を出力装置４に表示させる。入力受付部１７０が、所定のボタンの操作を受け付けると、ＧＵＩ生成部１７２が、ＧＵＩを生成して、出力処理部１１２が、ゲーム画面にＧＵＩを重畳表示する。

　図１３は、ゲーム画面に重畳表示されるＧＵＩ１９０の例を示す。ＧＵＩ１９０は、ゲーム画像のキャプチャおよび共有に関する複数のメニュー項目を含む。ユーザは入力装置６を操作して、選択枠１９４を所望のメニュー項目の位置に動かすことで、メニュー項目を選択する。図１３に示す例では、選択枠１９４が「直近のゲームプレイを保存」するためのメニュー項目に配置されている。この状態で、ユーザが入力装置６の決定ボタンを操作すると、ＧＵＩ生成部１７２が、キャプチャ時間を選択するためのＧＵＩを生成し、出力処理部１１２が、ゲーム画面にＧＵＩを重畳表示する。

　図１４は、ゲーム画面に重畳表示されるＧＵＩ１９２の例を示す。ＧＵＩ１９２は、保存するビデオクリップ（ユーザ生成コンテンツ）の時間に関する複数のメニュー項目を含む。ユーザは入力装置６を操作して、選択枠１９４を所望のメニュー項目の位置に動かすことで、ゲーム動画のキャプチャ時間を選択する。図１４に示す例では、選択枠１９４が「直近の５分」のゲーム画像を保存するためのメニュー項目に配置されている。この状態で、ユーザが入力装置６の決定ボタンを操作すると、入力受付部１７０は、「直近の５分」が選択されたことを受け付け、ＧＵＩ生成部１７２は、ＧＵＩの表示を終了する。

　入力受付部１７０は、ゲームプレイ中に所定のボタン（クリエイトボタン）の操作を受け付けると、指示部１７４に、ＧＵＩの表示が開始された時間を示す時間情報を提供する。また入力受付部１７０は、ＧＵＩ１９２においてゲーム動画のキャプチャ時間の選択操作を受け付けると、指示部１７４に、選択されたキャプチャ時間（この例では直近の５分）と、ＧＵＩの表示が終了された時間を示す時間情報を提供する。

　図１５は、変形例におけるコンテンツの開始点および終了点を示す。時間ｔ_１は、ＧＵＩの表示が開始したタイミング、時間ｔ_２は、ゲーム動画のキャプチャ時間が選択されて、ＧＵＩの表示が終了したタイミングを示す。ゲーム動画のキャプチャ時間が選択されたタイミングは、ユーザが指定するコンテンツの終了点とみなすことができ、したがって時間ｔ_２は、ユーザが指定したコンテンツの終了点となる。

　変形例において、指示部１７４は、ＧＵＩにおけるユーザ操作により指定されるゲーム動画の終了点（時間ｔ_２）からＧＵＩの表示時間（時間ｔ_２－時間ｔ_１）以上遡ったタイミングを終了点とし、当該終了点から５分だけ遡ったコンテンツの開始点を設定する。図１５に示す例では、指示部１７４は、ユーザが指定した終了点（時間ｔ_２）からＧＵＩ表示時間（時間ｔ_２－時間ｔ_１）だけ遡ったタイミング（時間ｔ_１）を終了点とし、当該終了点から５分だけ遡ったコンテンツの開始点（時間Ｔ_０）を設定している。そこで指示部１７４は、開始点（時間Ｔ_０）および終了点（時間ｔ_１）を定めたコンテンツ生成指示を生成して、動画生成部１８０に提供する。動画生成部１８０は、コンテンツ生成指示にもとづいて、ユーザが指定した終了点（時間ｔ_２）からＧＵＩ表示時間（時間ｔ_２－時間ｔ_１）だけ遡ったタイミング（時間ｔ_１）を終了点とし、当該終了点から５分だけ遡ったタイミング（Ｔ_０）を開始点とするゲーム動画を記録部１６２から切り出して、ユーザ生成コンテンツとして補助記憶装置２に保存する。

　このように変形例によれば、記録部１６２に記録したゲーム画像に、システムソフトウェアが生成したＧＵＩが含まれている場合に、動画生成部１８０は、当該ＧＵＩを含まないゲーム動画（コンテンツ）を生成できる。つまり動画生成部１８０は、ＧＵＩが表示される前に記録部１６２に記録されたゲーム画像を用いることで、ＧＵＩを含まないコンテンツを生成することが可能となる。

　なお図１５に示す例では、指示部１７４が、ＧＵＩの表示が開始したタイミング（時間ｔ_１）を終了点としているが、ＧＵＩがコンテンツに確実に含まれないようにするために、時間ｔ_１の所定時間（たとえば数秒）前を終了点としてもよい。

　実施例および変形例において、情報処理装置における構成要素の機能は、本明細書にて記載された機能を実現するように構成され又はプログラムされた、汎用プロセッサ、特定用途プロセッサ、集積回路、ASICs (Application Specific Integrated Circuits)、CPU (a Central Processing Unit)、従来型の回路、および／又はそれらの組合せを含む、回路（circuitry）又は処理回路（processing circuitry）において実現されてもよい。プロセッサは、トランジスタやその他の回路を含み、回路（circuitry）又は処理回路（processing circuitry）とみなされる。プロセッサは、メモリに格納されたプログラムを実行する、プログラムプロセッサ（programmed processor）であってもよい。

　本明細書において、回路（circuitry）、ユニット、手段は、記載された機能を実現するようにプログラムされたハードウェア、又は実行するハードウェアである。当該ハードウェアは、本明細書に開示されているあらゆるハードウェア、又は、当該記載された機能を実現するようにプログラムされた、又は、実行するものとして知られているあらゆるハードウェアであってもよい。

　当該ハードウェアが回路（circuitry）のタイプであるとみなされるプロセッサである場合、当該回路（circuitry）、手段、又はユニットは、ハードウェアと、当該ハードウェア及び又はプロセッサを構成する為に用いられるソフトウェアとの組合せである。

　本開示は、ゲーム動画を生成する技術に利用できる。

１・・・情報処理システム、５・・・マイク、６・・・入力装置、１０・・・情報処理装置、１００・・・処理部、１０２・・・通信部、１１０・・・ゲームソフトウェア、１１２・・・出力処理部、１１４・・・記録制御部、１２０・・・ユーザ音声取得部、１２２・・・音声供給部、１２４・・・音声認識部、１２６・・・指示部、１３０・・・記録部、１３２・・・動画生成部、１４０・・・文字列、１５０・・・第１記録制御部、１５２・・・第１記録部、１５４・・・第２記録制御部、１５６・・・第２記録部、１６０・・・記録制御部、１６２・・・記録部、１７０・・・入力受付部、１７２・・・ＧＵＩ生成部、１７４・・・指示部、１８０・・・動画生成部。

Claims

　情報処理装置であって、ハードウェアを有する１つ以上のプロセッサを備え、
　前記１つ以上のプロセッサは、
　ユーザの操作にもとづいて生成されたゲーム画像を記録部に記録し、
　ユーザ音声または表示されたユーザインタフェースにおけるユーザ操作により指定されるゲーム動画の終了点にもとづいて、前記記録部に記録されたゲーム画像から、ユーザ音声またはユーザインタフェースを含まないゲーム動画を生成する、
　情報処理装置。
　前記１つ以上のプロセッサは、
　ユーザ音声を取得し、
　ゲーム画像とユーザ音声とを合成して前記記録部に記録し、
　ユーザ音声を文字列に変換し、
　変換した文字列に音声コマンドが含まれている場合に、音声コマンドに対応するユーザ音声を含まないゲーム動画を生成する、
　請求項１に記載の情報処理装置。
　前記１つ以上のプロセッサは、
　ユーザ音声により指定されるゲーム動画の終了点より前のタイミングを終了点とするゲーム動画を、前記記録部から切り出す、
　請求項２に記載の情報処理装置。
　前記１つ以上のプロセッサは、
　ユーザによる音声コマンドの発声時間を取得し、
　ユーザ音声により指定されるゲーム動画の終了点から発声時間以上遡ったタイミングを終了点とするゲーム動画を、前記記録部から切り出す、
　請求項３に記載の情報処理装置。
　前記１つ以上のプロセッサは、
　ユーザ音声により指定される終了点までのゲーム動画を、前記記録部から切り出し、
　音声コマンドに対応するユーザ音声を、切り出したゲーム動画から除去する、
　請求項２に記載の情報処理装置。
　前記１つ以上のプロセッサは、
　表示されたユーザインタフェースにおけるユーザ操作により指定されるゲーム動画の終了点より前のタイミングを終了点とするゲーム動画を、前記記録部から切り出す、
　請求項１に記載の情報処理装置。
　前記１つ以上のプロセッサは、
　ユーザインタフェースが表示されていた表示時間を取得し、
　ユーザ操作により指定されるゲーム動画の終了点から表示時間以上遡ったタイミングを終了点とするゲーム動画を、前記記録部から切り出す、
　請求項６に記載の情報処理装置。
　ゲーム動画を生成する方法であって、
　ユーザの操作にもとづいて生成されたゲーム画像を記録部に記録し、
　ユーザ音声または表示されたユーザインタフェースにおけるユーザ操作により指定されるゲーム動画の終了点にもとづいて、前記記録部に記録されたゲーム画像から、ユーザ音声またはユーザインタフェースを含まないゲーム動画を生成する、
　ゲーム動画生成方法。
　情報処理装置であって、ハードウェアを有する１つ以上のプロセッサを備え、
　前記１つ以上のプロセッサは、
　ユーザの操作にもとづいて生成されたゲーム画像を第１記録部に記録し、
　ユーザ音声を取得し、
　ユーザ音声を第２記録部に記録し、
　前記第１記録部に記録したゲーム画像と、前記第２記録部に記録したユーザ音声を合成したゲーム動画を生成する、
　情報処理装置。
　前記１つ以上のプロセッサは、
　ユーザ音声を文字列に変換し、
　変換した文字列に所定の文字列が含まれている場合に、所定の文字列に対応するユーザ音声を含まないゲーム動画を生成する、
　請求項９に記載の情報処理装置。
　前記１つ以上のプロセッサは、
　変換した文字列に所定の文字列が含まれている場合に、所定の文字列に対応するユーザ音声を、ゲーム画像に合成しない、
　請求項１０に記載の情報処理装置。
　ゲーム動画を生成する方法であって、
　ユーザの操作にもとづいて生成されたゲーム画像を第１記録部に記録し、
　ユーザ音声を取得し、
　ユーザ音声を第２記録部に記録し、
　前記第１記録部に記録したゲーム画像と、前記第２記録部に記録したユーザ音声を合成したゲーム動画を生成する、
　ゲーム動画生成方法。