WO2023249034A1

WO2023249034A1 - 画像処理方法、コンピュータプログラム及び画像処理装置

Info

Publication number: WO2023249034A1
Application number: PCT/JP2023/022855
Authority: WO
Inventors: ウィラフパトラワラ; アニシュラムセナティ; ワンシュバティア
Original assignee: ダイキン工業株式会社; ＦａｉｒｙＤｅｖｉｃｅｓ株式会社
Priority date: 2022-06-23
Filing date: 2023-06-21
Publication date: 2023-12-28
Also published as: JP7429016B2; CN119404224A; JP2024002193A; EP4546265A1

Abstract

動画像から場面の変化を精度よく検出することが期待できる画像処理方法、コンピュータプログラム及び画像処理装置を提供する。　本実施の形態に係る画像処理方法は、画像処理装置が、動画像から場面変化位置の候補を検出し、前記動画像を構成するフレームの中から、場面の主要フレームとなり得る候補フレームを検出し、前記候補フレームの中から主要フレームを決定し、場面変化位置の候補及び主要フレームの時系列的な順序に基づいて、場面変化位置の候補の中から場面変化位置を決定する。時系列的に並ぶ２つの場面変化位置の候補の間に主要フレームが存在しない場合、前記２つの場面変化位置を候補からいずれか一方を除外することで、場面変化位置を決定してもよい。

Description

画像処理方法、コンピュータプログラム及び画像処理装置

　本発明は、動画像に対する画像処理を行う画像処理方法、コンピュータプログラム及び画像処理装置に関する。

　動画像における場面（シーン又はショット等）の変化を検出する画像処理の技術が広く用いられている。これらの技術では、例えば動画像を構成する複数のフレームに対し、時系列的に連続するフレーム間での画素値を比較し、この比較結果に基づいて場面の変化の有無が判断される。また近年では、場面変化を検出するよう予め機械学習がなされた学習モデルを用いる方法も開発されている。

　特許文献１においては、ビデオ内からシーン変化を検出し、連続したシーンの変化の数をカウントすることによって速い動きのシーンを検出し、シーンからキーフレームを選択する方法が提案されている。

特表２００３－５１９９４６号公報

　フレーム間の画素値を比較して場面検出を行う方法では、例えば動画像を撮影しているカメラが撮影中に揺れた箇所などを誤って場面の変化と判断する虞がある。また機械学習がなされた学習モデルを用いる方法では、機械学習に用いられた動画像とは異なる状況が撮影された動画像に対して場面変化の検出精度が低下する虞があると共に、導入のために必要なコストの上昇が懸念される。

　本発明は、斯かる事情に鑑みてなされたものであって、その目的とするところは、動画像から場面の変化を精度よく検出することが期待できる画像処理方法、コンピュータプログラム及び画像処理装置を提供することにある。

　第１の態様に係る画像処理方法は、画像処理装置が、動画像から場面変化位置の候補を検出し、前記動画像を構成するフレームの中から、場面の主要フレームとなり得る候補フレームを検出し、前記候補フレームの中から主要フレームを決定し、場面変化位置の候補及び主要フレームの時系列的な順序に基づいて、場面変化位置の候補の中から場面変化位置を決定する。

　第２の態様に係る画像処理方法は、第１の態様に係る画像処理方法であって、時系列的に並ぶ２つの場面変化位置の候補の間に主要フレームが存在しない場合、前記２つの場面変化位置を候補からいずれか一方を除外することで、場面変化位置を決定する。

　第３の態様に係る画像処理方法は、第１の態様又は第２の態様に係る画像処理方法であって、時系列的に並び且つ類似する２つの主要フレームの間に場面変化位置の候補が存在する場合、当該場面変化位置を候補から除外することで、場面変化位置を決定する。

　第４の態様に係る画像処理方法は、第１の態様から第３の態様までのいずれか１つに係る画像処理方法であって、各フレームの統計値を算出し、２つのフレームの統計値の差異に基づいて、場面変化位置の候補を検出する。

　第５の態様に係る画像処理方法は、第１の態様から第４の態様までのいずれか１つに係る画像処理方法であって、各フレームのハッシュ値を算出し、２つのフレームのハッシュ値の差異に基づいて、場面変化位置の候補を検出する。

　第６の態様に係る画像処理方法は、第１の態様から第５の態様までのいずれか１つに係る画像処理方法であって、各フレームからエッジを抽出し、２つのフレームの間のエッジの変化に基づいて、候補フレームを検出する。

　第７の態様に係る画像処理方法は、第１の態様から第６の態様までのいずれか１つに係る画像処理方法であって、候補フレームから特徴点を抽出し、複数の候補フレームの間での特徴点の比較結果に基づいて、候補フレームを除外することで、候補フレームの中から主要フレームを決定する。

　第８の態様に係る画像処理方法は、第１の態様から第７の態様までのいずれか１つに係る画像処理方法であって、決定した場面変化位置及び主要フレームに関する情報を前記動画像に対応付けて記憶し、場面変化位置又は主要フレームの選択を受け付け、選択された場面変化位置又は主要フレームに基づく前記動画像の再生を行う。

　第９の態様に係る画像処理方法は、第８の態様に係る画像処理方法であって、決定した場面変化位置及び主要フレームに関する情報と、前記動画像に関する文字情報とを対応付けて記憶する。

　第１０の態様に係る画像処理方法は、第９の態様に係る画像処理方法であって、空調関連機器の施工又は修理の作業を撮影した動画像を取得し、取得した動画像について場面変化位置及び主要フレームを決定し、決定した場面変化位置及び主要フレームに関する情報と、空調関連機器に関する文字情報とを対応付けて記憶する。

　第１１の態様に係る画像処理方法は、第１の態様から第１０の態様までのいずれか１つに係る画像処理方法であって、決定した場面変化位置及び主要フレームに基づいて前記動画像から部分動画像を抽出し、抽出した部分動画像を結合して要約動画像を生成する。

　第１２の態様に係る画像処理方法は、第１の態様から第１１の態様までのいずれか１つに係る画像処理方法であって、決定した主要フレームを、空調関連機器の施工又は修理の作業を撮影した動画像の主要フレームの入力に対して施工又は修理の種別を分類する学習モデルへ入力し、当該学習モデルが出力する分類結果を取得し、取得した分類結果に基づいて、前記動画像又は前記動画像に含まれる場面の表題を決定する。

　第１３の態様に係るコンピュータプログラムは、コンピュータに、動画像から場面変化位置の候補を検出し、前記動画像を構成するフレームの中から、場面の主要フレームとなり得る候補フレームを検出し、前記候補フレームの中から主要フレームを決定し、場面変化位置の候補及び主要フレームの時系列的な順序に基づいて、場面変化位置の候補の中から場面変化位置を決定する処理を実行させる。

　第１４の態様に係る画像処理装置は、動画像から場面変化位置の候補を検出する場面変化位置候補検出部と、前記動画像を構成するフレームの中から、場面の主要フレームとなり得る候補フレームを検出する候補フレーム検出部と、前記候補フレームの中から主要フレームを決定する主要フレーム決定部と、場面変化位置の候補及び主要フレームの時系列的な順序に基づいて、場面変化位置の候補の中から場面変化位置を決定する場面変化位置決定部とを備える。

　一実施形態による場合は、動画像から場面の変化を精度よく検出することが期待できる。

本実施の形態に係る情報処理システムの概要を説明するための模式図である。本実施の形態に係るサーバ装置の構成を示すブロック図である。本実施の形態に係る端末装置の構成を示すブロック図である。本実施の形態に係る情報処理システムが行う場面変化位置及びキーフレームの検出処理を説明するための模式図である。ＨＳＬヒストグラムの一例を示す模式図である。動画像におけるフレーム間の相違度の算出結果の一例を示す模式図である。エッジ抽出の一例を示す模式図である。動画像におけるフレーム間のエッジ変化率の算出結果の一例を示す模式図である。候補フレームから抽出したキーポイントの一例を示す模式図である。キーポイントのマッチング結果の一例を示す模式図である。サーバ装置による場面変化位置の決定方法を説明するための模式図である。本実施の形態においてサーバ装置が行う処理の手順を示すフローチャートである。本実施の形態においてサーバ装置が行う処理の手順を示すフローチャートである。端末装置による再生画面の一例を示す模式図である。本実施の形態に係るサーバ装置が用いる学習モデルを説明するための模式図である。

　本発明の実施形態に係る情報処理システムの具体例を、以下に図面を参照しつつ説明する。なお、本発明はこれらの例示に限定されるものではなく、請求の範囲によって示され、請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

＜システム構成＞
　図１は、本実施の形態に係る情報処理システムの概要を説明するための模式図である。本実施の形態に係る情報処理システムでは、空調設備１０１の施行又は修理等の作業を行う作業者１０２は、自身の頭部に装着したヘッドセット等に備えられたカメラ１０３にて作業の様子を撮影する。なお本実施の形態においては、作業者１０２が装着したヘッドセット等のウェアラブルデバイスに搭載されたカメラ１０３を用いて撮影が行われるものとするが、これに限るものではなく、空調設備１０１及び作業者１０２の周辺にカメラ１０３を設置して作業を撮影してもよい。また、図１に示した空調設備１０１はエアコン（エアーコンディショナー）の室内機であるが、これに限るものではなく、空調設備１０１は例えばエアコンの室外機、換気装置、サーキュレータ、空気清浄機、暖房器具又は除湿乾燥機等の種々の空調関連機器であってよい。またカメラ１０３により、空調関連機器以外の様々な機器の施工又は修理等の作業を撮影してよく、これらの機器について施工又は修理等以外の様々な作業を撮影してよい。

　カメラ１０３により撮影された動画像は、サーバ装置１へ与えられる。サーバ装置１は、一又は複数の作業者により撮影された動画像を取得して、取得した動画像をデータベースに蓄積する。カメラ１０３からサーバ装置１への動画像の提供方法は、例えばカメラ１０３に通信機能が備えられている場合には、有線又は無線の通信によりカメラ１０３からサーバ装置１へ直接的に動画像を送信する方法が採用され得る。また、カメラ１０３が通信機能を備えていない場合、例えばカメラ１０３がメモリカード又は光ディスク等の記録媒体に動画像を記録し、記録媒体を介してカメラ１０３からサーバ装置１へ動画像を提供することができる。また例えばカメラ１０３及びサーバ装置１の間にＰＣ（パーソナルコンピュータ）又はスマートフォン等の端末装置を介在させて、端末装置がカメラ１０３から動画像を取得してサーバ装置１へ送信してもよい。カメラ１０３からサーバ装置１への動画像の提供方法は、どのような方法が採用されてもよい。

　サーバ装置１は、ＬＡＮ（Local Area Network）又はインターネット等のネットワークを介して一又は複数の端末装置３との通信を行うことができる。端末装置３は、例えばＰＣ又はスマートフォン等の汎用的な情報処理装置であり、本実施の形態においては例えば空調設備１０１の施工又は修理等の作業を学ぶ非熟練のユーザが、熟練の作業者が行う作業を撮影した動画像を視聴するために用いられる。サーバ装置１は、端末装置３からの要求に基づいて、データベースに記憶した複数の動画像の中から所望の動画像を取得して端末装置３へ送信する。端末装置３は、サーバ装置１から受信した動画像を表示（再生）する。

　本実施の形態に係るサーバ装置１は、カメラ１０３から取得した動画像から場面（シーン又はショット等）の検出及びキーフレーム（主要フレーム）の検出を行い、これらの検出結果に関する情報を動画像と共にデータベースに記憶する。カメラ１０３の撮影により得られる動画像は、１秒間に数十枚程度のフレーム（静止画像）を連ねて構成されており、キーフレームはこれら複数のフレームの中で場面に関する重要な情報を保持するフレームである。サーバ装置１は、動画像と共に場面及びキーフレームに関する情報を端末装置３へ送信する。端末装置３は、動画像と共に場面及びキーフレームに関する情報をサーバ装置１から受信し、例えば動画像を再生する際にユーザから場面又はキーフレームの選択を受け付けて、選択された場面又はキーフレームから動画像の再生を開始することができる。

　本実施の形態に係るサーバ装置１は、カメラ１０３が撮影した動画像から、まず場面変化位置の候補を検出する処理を行う。またサーバ装置１は、カメラ１０３が撮影した動画像から、キーフレームとなり得る候補フレームを検出する処理を行う。次いでサーバ装置１は、動画像から検出された複数の候補フレームの中から、例えば類似する候補フレームを除外することにより、キーフレームを決定する処理を行う。次いでサーバ装置１は、動画像から検出された複数の場面変化位置の候補の中から、例えば連続する２つの場面変化位置の候補の間にキーフレームが存在するか否かに基づいて、この動画像における場面変化位置を決定する処理を行う。これらの手順で動画像から場面変化位置及びキーフレームを検出することによって、サーバ装置１は、動画像に適した場面変化位置及びキーフレームを精度よく検出することが期待できる。

＜装置構成＞
　図２は、本実施の形態に係るサーバ装置１の構成を示すブロック図である。本実施の形態に係るサーバ装置１は、処理部１１、記憶部（ストレージ）１２及び通信部（トランシーバ）１３等を備えて構成されている。なお本実施の形態においては、１つのサーバ装置にて処理が行われるものとして説明を行うが、複数のサーバ装置が分散して処理を行ってもよい。

　処理部１１は、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro-Processing Unit）、ＧＰＵ（Graphics Processing Unit）又は量子プロセッサ等の演算処理装置、ＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）等を用いて構成されている。処理部１１は、記憶部１２に記憶されたサーバプログラム１２ａを読み出して実行することにより、カメラ１０３が撮影した動画像から場面変化位置及びキーフレームを検出する処理、及び、データベースに記憶した動画像を端末装置３へ提供する処理等の種々の処理を行う。

　記憶部１２は、例えばハードディスク等の大容量の記憶装置を用いて構成されている。記憶部１２は、処理部１１が実行する各種のプログラム、及び、処理部１１の処理に必要な各種のデータを記憶する。本実施の形態において記憶部１２は、処理部１１が実行するサーバプログラム１２ａを記憶する。また記憶部１２には、カメラ１０３が撮影した動画像を蓄積する動画像ＤＢ（データベース）１２ｂが設けられている。

　本実施の形態においてサーバプログラム（プログラム製品）１２ａは、メモリカード又は光ディスク等の記録媒体９９に記録された態様で提供され、サーバ装置１は記録媒体９９からサーバプログラム１２ａを読み出して記憶部１２に記憶する。ただし、サーバプログラム１２ａは、例えばサーバ装置１の製造段階において記憶部１２に書き込まれてもよい。また例えばサーバプログラム１２ａは、遠隔の他のサーバ装置等が配信するものをサーバ装置１が通信にて取得してもよい。例えばサーバプログラム１２ａは、記録媒体９９に記録されたものを書込装置が読み出してサーバ装置１の記憶部１２に書き込んでもよい。サーバプログラム１２ａは、ネットワークを介した配信の態様で提供されてもよく、記録媒体９９に記録された態様で提供されてもよい。

　動画像ＤＢ１２ｂは、カメラ１０３が撮影した動画像を記憶して蓄積するデータベースである。また動画像ＤＢ１２ｂは、これらの動画像に対応付けて、動画像から検出された場面変化位置及びキーフレームに関する情報を記憶する。

　通信部１３は、携帯電話通信網、無線ＬＡＮ（Local Area Network）及びインターネット等を含むネットワークＮを介して、種々の装置との間で通信を行う。本実施の形態において通信部１３は、ネットワークＮを介して、一又は複数の端末装置３及びカメラ１０３との間で通信を行う。通信部１３は、処理部１１から与えられたデータを他の装置へ送信すると共に、他の装置から受信したデータを処理部１１へ与える。

　なお記憶部１２は、サーバ装置１に接続された外部記憶装置であってよい。またサーバ装置１は、複数のコンピュータを含んで構成されるマルチコンピュータであってよく、ソフトウェアによって仮想的に構築された仮想マシンであってもよい。またサーバ装置１は、上記の構成に限定されず、例えば可搬型の記憶媒体に記憶された情報を読み取る読取部、操作入力を受け付ける入力部、又は、画像を表示する表示部等を含んでもよい。

　また本実施の形態に係るサーバ装置１には、記憶部１２に記憶されたサーバプログラム１２ａを処理部１１が読み出して実行することにより、場面変化位置候補検出部１１ａ、候補フレーム検出部１１ｂ、キーフレーム決定部１１ｃ、場面変化位置決定部１１ｄ及びＤＢ処理部１１ｅ等が、ソフトウェア的な機能部として処理部１１に実現される。なお本図においては、処理部１１の機能部として、動画像に関連する機能部を図示し、これ以外の処理に関する機能部は図示を省略している。

　場面変化位置候補検出部１１ａは、カメラ１０３が撮影した動画像から場面（シーン又はショット等）が変化する位置の候補を検出する処理を行う。場面変化位置候補検出部１１ａは、動画像を構成する各フレームについて、時系列的に連続する２つのフレームの比較を行い、２つのフレームの差異を示す値を算出する。場面変化位置候補検出部１１ａは、算出したこの値が所定の閾値を超えた場合に、動画像における場面の変化が生じたと判定し、この２つのフレームのうち先のフレームを場面の最後とし、後のフレームを次の場面の最初とする。場面変化位置候補検出部１１ａは、場面の最初（又は最後）のフレームの位置を、動画像の場面変化位置の候補とし、この位置を示す情報（動画像の最初からこの位置までの時間又はフレーム数等）を記憶する。

　また本実施の形態において場面変化位置候補検出部１１ａは、２つのフレームの差異を示す値として、２種類の値を算出する。２つのフレームの差異を示す１つ目の値は、「バタチャリヤ距離（Bhattacharyya Distance）」である。バタチャリヤ距離は、２つの確率分布の距離を求めるための尺度の１つである。場面変化位置候補検出部１１ａは、フレームに含まれる複数の画素値についてＨＳＬ（色相、彩度、輝度）のヒストグラムを、比較する２つのフレームについてそれぞれ作成する。場面変化位置候補検出部１１ａは、２つのフレームについて作成した２つのＨＳＬヒストグラムから、この２つのヒストグラムの差異を示すバタチャリヤ距離を算出する。場面変化位置候補検出部１１ａは、算出したバタチャリヤ距離が予め定められた閾値を超える場合に、この２つのフレームの位置を場面変化位置の候補とすることができる。

　２つのフレームの差異を示す２つ目の値は、「ｐＨａｓｈ（Perseptual Hash）の距離」である。入力情報に対して所定の演算処理を行うことで所定長（例えば６４ビット、２５６ビット等）の値を算出したものがハッシュ値であり、ｐＨａｓｈは入力画像の特徴を有するハッシュ値である。場面変化位置候補検出部１１ａは、２つのフレームからそれぞれｐＨａｓｈを算出し、算出した２つのｐＨａｓｈの距離（例えばハミング距離）を算出する。場面変化位置候補検出部１１ａは、算出したｐＨａｓｈの距離が予め定められた閾値を超える場合に、この２つのフレームの位置を場面変化位置の候補とすることができる。

　場面変化位置候補検出部１１ａは、バタチャリヤ距離に基づく場面変化位置の候補の検出と、ｐＨａｓｈの距離に基づく場面変化位置の候補の検出とを行い、少なくとも一方の方法で場面変化位置の候補として検出された場面変化位置の候補を、最終的な場面変化位置の候補とすることができる。なお場面変化位置候補検出部１１ａは、両方の方法で場面変化位置の候補として検出された場面変化位置の候補を、最終的な場面変化位置の候補としてもよい。また場面変化位置候補検出部１１ａは、バタチャリヤ距離に基づく場面変化位置の候補の検出と、ｐＨａｓｈの距離に基づく場面変化位置の候補の検出とのいずれか一方のみを行ってもよく、この２つ以外の方法で場面変化位置の候補を検出してもよい。また場面変化位置候補検出部１１ａは、算出したバタチャリヤ距離及びｐＨａｓｈの距離の平均値又は合計値等を相違度として算出し、算出した相違度が閾値を超える場合に、２つのフレームの位置を場面変化位置の候補としてもよい。

　候補フレーム検出部１１ｂは、カメラ１０３が撮影した動画像からキーフレームとなり得る候補フレームを検出する処理を行う。候補フレーム検出部１１ｂは、動画像を構成する各フレームについてエッジを抽出する処理を行って、時系列的に連続する２つのフレームのエッジの比較を行い、２つのフレームのエッジの変化率を算出する。候補フレーム検出部１１ｂは、算出したエッジ変化率が所定の閾値より小さい（即ちエッジの変化が小さい）場合、この２つのフレームのうち時系列的に先のフレーム（後のフレームでもよい）をキーフレームとなり得る候補フレームとする。

　キーフレーム決定部１１ｃは、候補フレーム検出部１１ｂが検出した候補フレームの候補の中から、動画像のキーフレームを決定する処理を行う。キーフレーム決定部１１ｃは、動画像から検出された複数の候補フレームについて特徴量を抽出し、特徴を比較することで複数の候補フレームの中から類似する候補フレームを探索する。キーフレーム決定部１１ｃは、類似する複数の候補フレームの中から、いずれか１つの候補フレームを最終的なキーフレームとして残し、これ以外の候補フレームを除外する。キーフレーム決定部１１ｃは、例えば類似する２つの候補フレームが存在する場合、時系列的に先の候補フレームを残し、後の候補フレームを除外することができる。キーフレーム決定部１１ｃは、例えば類似する３つの候補フレームが存在する場合、時系列的に真ん中の候補フレームを残し、前後の候補フレームを除外することができる。

　また本実施の形態においてキーフレーム決定部１１ｃは、各候補フレームからの特徴量の抽出として、ＯＲＢ（Oriented FAST and Rotated BRIEF）によるキーポイントの抽出を行う。キーフレーム決定部１１ｃは、例えば２つの候補フレームからそれぞれ抽出したキーポイントのマッチングを行い、２つの候補フレームの間で一致するキーポイントの数又は割合等の値を算出し、この値が閾値を超えるか否かに基づいて２つの候補フレームが類似するか否かを判定することができる。なおキーフレーム決定部１１ｃは、ＯＲＢのキーフレーム以外の特徴量を抽出して候補フレームが類似するか否かを判定してよい。

　場面変化位置決定部１１ｄは、キーフレーム決定部１１ｃが決定したキーフレームに基づいて、場面変化位置候補検出部１１ａが検出した場面変化位置の候補の中から、最終的な場面変化位置を決定する処理を行う。場面変化位置決定部１１ｄは、場面変化位置の候補とキーフレームとの時系列的な順序関係を調べ、時系列的に前後する２つの場面変化位置の候補の間に、キーフレームが存在するか否かを判定する。本実施の形態においては、場面変化位置により定まる場面（即ち、先の場面変化位置から後の場面変化位置までの時間の動画像に写された場面）には少なくとも１つのキーフレームが含まれていることを条件とする。場面変化位置決定部１１ｄは、前後する２つの場面変化位置の候補の間にキーフレームが存在しない場合、少なくとも一方の場面変化位置の候補が適切ではないと判断し、これを除外する。場面変化位置決定部１１ｄは、動画像から検出されたすべての場面変化位置の候補について上記の処理を繰り返し行って不適切な候補を除外し、最終的に残った場面変化位置の候補を最終的な場面変化位置と決定する。

　又は、場面変化位置決定部１１ｄは、場面変化位置候補検出部１１ａが検出した場面変化位置の候補について、最終的な場面変化位置と決定してもよい。この場合、場面変化位置決定部１１ｄは、２つの場面変化位置の間にキーフレームが存在しない場合、この２つの場面変化位置の間の動画像（即ち場面）を、動画像全体から除外する。なお場面の除外は、例えば動画像のデータからこの場面のデータを取り除いて再生時間が短縮された動画像のデータを生成することにより行われてもよく、また例えば動画像のデータ自体は変化させずに、この動画像に関して保持される場面の構成情報から該当する場面に関する情報を取り除くことにより行われてもよい。

　ＤＢ処理部１１ｅは、カメラ１０３が撮影した動画像と、この動画像について場面変化位置決定部１１ｄが決定した場面変化位置及びキーフレーム決定部１１ｃが決定したキーフレームに関する情報とを対応付けて記憶部１２の動画像ＤＢ１２ｂに記憶する。またＤＢ処理部１１ｅは、端末装置３から動画像の再生要求を受け付け、再生を要求された動画像のデータを動画像ＤＢ１２ｂから読み出し、読み出した動画像と、この動画像に対応付けられた場面変化位置及びキーフレームに関する情報とを要求元の端末装置３へ送信する。

　図３は、本実施の形態に係る端末装置３の構成を示すブロック図である。本実施の形態に係る端末装置３は、処理部３１、記憶部（ストレージ）３２、通信部（トランシーバ）３３、表示部（ディスプレイ）３４及び操作部３５等を備えて構成されている。端末装置３は、例えば空調設備１０１の施工又は修理等の技術を学ぶ非熟練者のユーザなどが使用する装置であり、例えばスマートフォン、タブレット型端末装置又はパーソナルコンピュータ等の情報処理装置を用いて構成され得る。

　処理部３１は、ＣＰＵ又はＭＰＵ等の演算処理装置、ＲＯＭ及びＲＡＭ等を用いて構成されている。処理部３１は、記憶部３２に記憶されたプログラム３２ａを読み出して実行することにより、サーバ装置１の動画像ＤＢ１２ｂに蓄積された動画像の検索処理、及び、これらの動画像の表示（再生）処理等の処理を行う。

　記憶部３２は、例えばフラッシュメモリ等の不揮発性のメモリ素子又はハードディスク等の記憶装置等を用いて構成されている。記憶部３２は、処理部３１が実行する各種のプログラム、及び、処理部３１の処理に必要な各種のデータを記憶する。本実施の形態において記憶部３２は、処理部３１が実行するプログラム３２ａを記憶している。本実施の形態においてプログラム３２ａは遠隔のサーバ装置等により配信され、これを端末装置３が通信にて取得し、記憶部３２に記憶する。ただしプログラム３２ａは、例えば端末装置３の製造段階において記憶部３２に書き込まれてもよい。例えばプログラム３２ａは、メモリカード又は光ディスク等の記録媒体９８に記録されたプログラム３２ａを端末装置３が読み出して記憶部３２に記憶してもよい。例えばプログラム３２ａは、記録媒体９８に記録されたものを書込装置が読み出して端末装置３の記憶部３２に書き込んでもよい。プログラム３２ａは、ネットワークを介した配信の態様で提供されてもよく、記録媒体９８に記録された態様で提供されてもよい。

　通信部３３は、携帯電話通信網、無線ＬＡＮ及びインターネット等を含むネットワークＮを介して、種々の装置との間で通信を行う。本実施の形態において通信部３３は、ネットワークＮを介して、サーバ装置１との間で通信を行う。通信部３３は、処理部３１から与えられたデータを他の装置へ送信すると共に、他の装置から受信したデータを処理部３１へ与える。

　表示部３４は、液晶ディスプレイ等を用いて構成されており、処理部３１の処理に基づいて種々の画像及び文字等を表示する。操作部３５は、ユーザの操作を受け付け、受け付けた操作を処理部３１へ通知する。例えば操作部３５は、機械式のボタン又は表示部３４の表面に設けられたタッチパネル等の入力デバイスによりユーザの操作を受け付ける。また例えば操作部３５は、マウス及びキーボード等の入力デバイスであってよく、これらの入力デバイスは端末装置３に対して取り外すことが可能な構成であってもよい。

　また本実施の形態に係る端末装置３は、記憶部３２に記憶されたプログラム３２ａを処理部３１が読み出して実行することにより、検索処理部３１ａ及び表示処理部３１ｂ等がソフトウェア的な機能部として処理部３１に実現される。なおプログラム３２ａは、本実施の形態に係る情報処理システムに専用のプログラムであってもよく、インターネットブラウザ又はウェブブラウザ等の汎用のプログラムであってもよい。

　検索処理部３１ａは、サーバ装置１の動画像ＤＢ１２ｂに記憶された多数の動画像に対する検索処理を行う。検索処理部３１ａは、ユーザから様々な検索条件の入力を受け付け、受け付けた検索条件をサーバ装置１へ送信する。端末装置３から検索条件を受信したサーバ装置１は、検索条件に該当する動画像を動画像ＤＢ１２ｂから抽出し、抽出した動画像の一覧情報などを検索結果として端末装置３へ送信する。端末装置３はサーバ装置１から検索結果を受信して表示し、検索処理部３１ａは、検索結果に基づいて再生する動画像の選択をユーザから受け付け、選択された動画像の送信をサーバ装置１に要求する。

　表示処理部３１ｂは、検索条件の入力を受け付ける画面の表示、サーバ装置１から検索結果として送信される情報の表示、及び、動画像の再生（表示）等の表示処理を行う。検索処理部３１ａによる動画像の送信要求に応じて、サーバ装置１は要求された動画像を動画像ＤＢ１２ｂから読み出し、この動画像に関連する種々の情報（例えば場面変化位置及びキーフレームの情報）と共に、動画像を要求元の端末装置３へ送信する。サーバ装置１から動画像を受信した端末装置３の表示処理部３１ｂは、受信した動画像を再生して表示部３４に表示する。また表示処理部３１ｂは、動画像と共に送信される情報を受信し、受信した情報に含まれる場面変化位置及びキーフレームの情報に基づいて、例えば動画像の再生位置をユーザが指定した場面変化位置又はキーフレームまでスキップするなどの処理を行ってよい。

＜場面変化位置及びキーフレームの検出処理＞
　図４は、本実施の形態に係る情報処理システムが行う場面変化位置及びキーフレームの検出処理を説明するための模式図である。本実施の形態に係る情報処理システムが扱う動画像は、図４の上段に示すように、例えば１秒間に数十枚程度のフレーム（静止画像）を連ねたものである。また動画像は、複数の場面に分割され得る。本実施の形態において場面は、例えば映像制作においてシーン又はショット等と呼ばれ得るものであり、動画像に写された人又は物等の動作が一区切りする単位である。また本実施の形態において１つの場面は、図４の下段に示すように、少なくとも１つのキーフレームを含む複数のフレームを連ねたものであり、最初のフレーム及び最後のフレームが場面変化位置として扱われる。

　本実施の形態に係る情報処理システムのサーバ装置１は、空調設備１０１の施工又は修理等の作業をカメラ１０３で撮影した動画像を通信又は記録媒体等を介して取得し、取得した動画像を動画像ＤＢ１２ｂに記憶する。このときにサーバ装置１は、取得した動画像の場面変化位置及びキーフレームの検出処理を行い、検出した場面変化位置及びキーフレームに関する情報を動画像に対応付けて動画像ＤＢ１２ｂに記憶する。

（１）場面変化位置の候補の検出
　カメラ１０３から取得した動画像に対して、サーバ装置１は、まず動画像に含まれる場面変化位置の候補を検出する処理を行う。本実施の形態に係るサーバ装置１は、動画像を構成する複数のフレームについて、時系列的に連続する２つのフレームの差異を示す値を算出し、算出した値が所定の閾値を超えるか否かを判定する。サーバ装置１は、フレームの差異を示す値が閾値を超える場合に、連続する２つのフレームの位置を場面変化位置の候補とする。本実施の形態においてサーバ装置１は、フレームの差異を示す値として、ＨＳＬヒストグラムのバタチャリヤ距離と、ハッシュ値の距離との２つの値を算出する。

　図５は、ＨＳＬヒストグラムの一例を示す模式図であり、サンプルとなる１つのフレームについてＨ（色相）、Ｓ（彩度）及びＬ（輝度）の値に対する画素数の分布を示したグラフである。図５のグラフは、横軸をＨＳＬの値とし、縦軸を画素数としている。図５のグラフには、Ｈの分布を実線で示し、Ｓの分布を破線で示し、Ｌの分布を一点鎖線で示している。サーバ装置１は、動画像を構成する各フレームについてＨＳＬヒストグラムを算出する。サーバ装置１は、例えばＲＧＢの値で与えられるフレームの画素値をＨＳＬの値に変換し、ＨＳＬの値毎にフレームに含まれる画素数をカウントすることでＨＳＬヒストグラムを算出することができる。

　サーバ装置１は、動画像に含まれる全てのフレームについてＨＳＬヒストグラムの算出を行い、各フレームについて時系列的に連続する１つ前のフレームとの間でＨＳＬヒストグラムの差異を示す値を算出する。本実施の形態においてサーバ装置１は、ＨＳＬヒストグラムの差異を示す値としてバタチャリヤ距離を算出する。なおバタチャリヤ距離の算出方法は、既存の技術であるため、詳細な説明は省略する。また本実施の形態においてサーバ装置１は、各フレームのＨＳＬヒストグラムを算出し、フレーム間のバタチャリヤ距離を算出しているが、これに限るものではなく、サーバ装置１はＨＳＬヒストグラム以外の統計値を算出してもよく、バタチャリヤ距離以外の値をフレーム間の差異を示す値として算出してよい。

　またサーバ装置１は、動画像に含まれる全てのフレームについてハッシュ値、例えばｐＨａｓｈを算出する。ｐＨａｓｈは、画像を離散コサイン変換等により周波数変換し、低周波成分を抽出してハッシュ値を算出したものである。更にサーバ装置１は、各フレームについて時系列的に連続する１つ前のフレームとの間でｐＨａｓｈのハミング距離を、フレームの差異を示す値として算出する。ｐＨａｓｈには、２つの画像が類似するほど、この２つの画像のｐＨａｓｈのハミング距離が小さくなるという特性がある。なおｐＨａｓｈ及びハミング距離の算出方法は、既存の技術であるため、詳細な説明は省略する。また本実施の形態においてサーバ装置１は、各フレームのｐＨａｓｈを算出し、フレーム間のｐＨａｓｈのハミング距離を算出しているが、これに限るものではなく、サーバ装置１はｐＨａｓｈ以外のハッシュ値（例えばａＨａｓｈ（Average Hash）など）を算出してもよく、ハミング距離以外の値をフレーム間の差異を示す値として算出してよい。

　このように本実施の形態に係るサーバ装置１は、各フレームについて時系列的に連続する１つ前のフレームとの間で、ＨＳＬヒストグラムのバタチャリヤ距離と、ｐＨａｓｈのハミング距離との２つの値を、２つのフレームの差異を示す値として算出する。本実施の形態においては、サーバ装置１が算出したバタチャリヤ距離及びハミング距離の２つの値の平均値（重み付き平均値）を算出し、算出した平均値をフレーム間の相違度とする。

　図６は、動画像におけるフレーム間の相違度の算出結果の一例を示す模式図であり、動画像の再生時間における相違度の変化を示したグラフである。図６のグラフの横軸は時間（動画像の再生時間）であり、縦軸はフレーム間の相違度である。サーバ装置１は、動画像に含まれる全てのフレームについて１つ前のフレームとの相違度を算出し、この相違度が所定の閾値を超えるか否かを判定する。図６において実線で示す波形が相違度の変化であり、破線の水平線が閾値を示している。

　サーバ装置１は、算出した相違度が所定の閾値を超える時点を、場面変化位置の候補とする。図６において一点鎖線の垂直線がサーバ装置１により動画変化位置の候補とされた時点である。なお図６において場面変化位置の候補とされた時点は３つであり、この時点以外にも相違度が閾値を超える時点が存在している。これは、本実施の形態においてサーバ装置１が、場面変化位置の候補の時点を検出した後、所定時間は場面変化位置の候補を検出しないよう制限しているためである。このような制限を設けることで、類似した場面変化位置の候補が大量に検出されることを抑制することが期待できる。

（２）候補フレームの検出
　サーバ装置１は、カメラ１０３が撮影した動画像に含まれる全てのフレームから、キーフレームの候補となる候補フレームを検出する処理を行う。なお候補フレームの検出処理は、上記の場面変化位置の検出処理より先に行われてもよく、後に行われてもよく、同時に行われてもよい。本実施の形態に係るサーバ装置１は、動画像を構成する複数のフレームについて、エッジを抽出する画像処理を行う。

　図７は、エッジ抽出の一例を示す模式図である。図７の左側には、動画像に含まれる１つのフレームに相当する画像（フレーム画像）の一例が示されている。図７の右側には、このフレームの画像から抽出したエッジについて、エッジに相当する画素を白色とし、エッジ以外の画素を黒色とした２値の画像（エッジ画像）が示されている。サーバ装置１は、動画像に含まれる各フレームに対して例えばキャニー法によるエッジ検出処理（Canny Edge Detection）を行うことで、各フレームの画像からエッジを抽出することができる。画像からエッジを抽出する画像処理は、既存の技術であるため、詳細な説明を省略する。なおサーバ装置１によるフレーム画像からのエッジの抽出は、どのような画像処理により行われてもよい。

　動画像に含まれる各フレームのエッジを抽出したサーバ装置１は、時系列的に連続する２つのフレームについて、この２つのフレームのエッジを比較してエッジ変化率を算出する。サーバ装置１は、２つのフレーム画像から抽出された２つのエッジ画像を比較し、例えばエッジの画素が非エッジの画素に変化した数、及び、非エッジの画素がエッジの画素に変化した数の合計数を算出し、１つのフレームの全画素数に対するこの合計数の割合を算出し、算出した割合をエッジ変化率とすることができる。なお、エッジの変化率はフレーム間でエッジがどの程度変化するかを示す指標であればどのような値であってもよく、上記のエッジ変化率の算出方法は一例であってこれに限るものではなく、サーバ装置１は、どのような方法でエッジ変化率を算出してもよい。

　図８は、動画像におけるフレーム間のエッジ変化率の算出結果の一例を示す模式図であり、動画像の再生時間におけるエッジ変化率の変化を示したグラフである。図８のグラフの横軸は時間（動画像の再生時間）であり、縦軸はフレーム間のエッジ変化率である。サーバ装置１は、動画像に含まれる全てのフレームについて１つ前のフレームとの比較を行ってエッジ変化率を算出し、このエッジ変化率が所定の閾値を超えるか否かを判定する。図８において水平方向の直線が閾値を示している。

　サーバ装置１は、算出したエッジ変化率が所定の閾値を下回る時点（閾値未満の時点）のフレームを、キーフレームの候補となる候補フレームとする。図８において垂直方向の直線が、サーバ装置１により候補フレームとされたフレームの時点を示している。図８においては、動画の前半に３つの候補フレームが検出され、動画の後半に１つの候補フレームが検出されていることが示されている。なお図８にはこれら４つの候補フレームの他にも、エッジ変化率が閾値を下回る時点が存在しており、サーバ装置１はこれらの時点についても候補フレームを検出してよい。

（３）キーフレームの決定
　サーバ装置１は、動画像に含まれる全フレームから検出した候補フレームについて、例えば所定時間内に複数の候補フレームが存在する場合、これら複数の候補フレームの中から類似する候補フレームを除去することによって、最終的なキーフレームを決定する処理を行う。なおサーバ装置１は、キーフレームを決定する処理を候補フレームを検出する処理の後に行うが、キーフレームを決定する処理を場面変化位置の候補を検出する処理の前に行ってもよく、後に行ってもよく、並列的に行ってもよい。

　本実施の形態に係るサーバ装置１は、例えば各候補フレームの特徴量を抽出する処理を行い、２つの候補フレームについて特徴量を比較して類似度を算出し、算出した類似度が閾値を超える場合に、この２つの候補フレームが類似していると判定する。本実施の形態においてサーバ装置１は、各候補フレームの特徴量として、ＯＲＢによるキーポイントを抽出する。ＯＲＢは、ＦＡＳＴ（Features from Accelerated Segment Test）によるキーポイントの検出と、ＢＲＩＥＦ（Binary Robust Independent Elementary Features）による特徴量記述子とを組み合わせる手法である。これらのＯＲＢ、ＦＡＳＴ及びＢＲＩＥＦ等の技術は既存のものであるため、詳細な説明は省略する。なおサーバ装置１によるキーポイントの抽出は、例えばＳＩＦＴ（Scale Invariant Feature Transform）又はＳＵＲＦ（Speeded-Up Robust Features）等のＯＲＢ以外の方法で行われてもよい。またサーバ装置１は、キーポイント以外の特徴量をフレームから抽出してもよい。図９は、候補フレームから抽出したキーポイントの一例を示す模式図である。図９に示す２つの画像は、類似する２つの候補フレーム（候補フレーム１及び候補フレーム２）についてキーポイントを抽出したものであり、抽出されたキーポイントが画像上に円形の点で示されている。

　次いでサーバ装置１は、２つの候補フレームから抽出されたキーポイントを比較して、一致するキーポイントを探索する処理、いわゆるキーポイントのマッチング処理を行う。ＯＲＢ等の方法で抽出されたキーポイントのマッチング処理は、既存の技術であるため、本実施の形態においては詳細な説明は省略する。図１０は、キーポイントのマッチング結果の一例を示す模式図である。図１０に示す例は、図９に示した２つの候補フレームのキーポイントについて、対応する（マッチする）キーポイント同士を直線で結ぶことで、キーポイントのマッチング結果を示している。

　サーバ装置１は、例えば２つの候補フレームから抽出されたキーポイントの総数と、２つの候補フレームの間でのキーポイントのマッチ数とをカウントし、キーポイントの総数に対するマッチ数の割合を類似度として算出する。サーバ装置１は、算出した類似度が所定の閾値を超えるか否かを判定し、類似度が閾値を超える場合にこの２つの候補フレームが類似していると判断することができる。

　サーバ装置１は、類似する他の候補フレームが存在しない候補フレームを、動画像に含まれるキーフレームと決定する。またサーバ装置１は、動画像中に類似する複数の候補フレームが含まれている場合、これら複数の候補フレームの中から適宜に１つの候補フレームを選択してキーフレームと決定し、選択しなかった一又は複数の候補フレームをキーフレームの候補から除外する。このときにサーバ装置１は、類似する候補フレームを２つ存在する場合、例えば時系列的に先の候補フレームをキーフレームとし、後の候補フレームをキーフレームの候補から除外する。またサーバ装置１は、類似する候補フレームが３つ存在する場合、例えば時系列的に２番目の候補フレームをキーフレームとし、１番目及び３番目の候補フレームをキーフレームの候補から除外する。なお類似する複数の候補フレームから１つの候補フレームをキーフレームとして選択する方法は、上記の方法に限らず、サーバ装置１はどのような方法で類似する複数の候補フレームから１つのキーフレームを選択してもよい。

（４）場面変化位置の決定
　動画像から場面変化位置の候補を検出し、且つ、キーフレームを検出した後、サーバ装置１は、場面変化位置の候補の中から、場面変化位置を決定する処理を行う。本実施の形態においてサーバ装置１は、場面変化位置の候補とキーフレームとの時系列的な順序関係に基づいて、場面変化位置の候補から最終的な場面変化位置を決定することにより、動画像に含まれる場面を決定する。本実施の形態において動画像の場面は、図４の下段に示したように、少なくとも１つのキーフレームを含むことを条件としている。

　図１１は、サーバ装置１による場面変化位置の決定方法を説明するための模式図である。図示の例は、サーバ装置１が動画像に対して上述の処理を行うことによって、３つの場面変化位置の候補１～３と、２つのキーフレーム１，２とを検出した状態が示されている。時系列的に、場面変化位置の候補１、場面変化位置の候補２、場面変化位置の候補３の順で並び、場面変化位置の候補２，３の間にキーフレーム１及びキーフレーム２がこの順で並んでいる。場面変化位置の候補１，２の間にキーフレームは存在していない。場面変化位置の候補１、２の間に存在する複数のフレームで構成される動画像を場面候補１とし、場面変化位置の候補２，３の間に存在する複数のフレーム（２つのキーフレーム１，２を含む）で構成される動画像を場面候補２とする。

　本実施の形態において動画像には一又は複数の場面を含み、１つの場面には一又は複数のキーフレームを含む。図１１に示した場面変化位置候補１，２を前後の場面変化位置とする場面候補１には、キーフレームが含まれておらず、本実施の形態における場面に相当しない。サーバ装置１は、時系列的に連続する２つの場面変化位置の候補の間にキーフレームが含まれていない場合、２つの場面変化位置の候補のいずれか一方を除外することにより、キーフレームが含まれていない場面候補をキーフレームが含まれる場面候補に連結する。図１１に示す例の場合にサーバ装置１は、例えば場面変化位置の候補２を除外することで、場面変化位置の候補２の前後に存在する場面候補１，２を連結して１つの場面とし、場面変化位置の候補１，３を最終的な場面変化位置とする。

　なお上記の例においてサーバ装置１は、キーフレームを含まない場面候補１について時系列的に後ろの場面変化位置の候補２を除外して、場面候補１を時系列的に後ろの場面候補２と連結したが、これに限るものではない。サーバ装置１は、例えば時系列的に前の場面変化位置の候補１を除外して、場面候補１をそれ以前の場面候補に連結してもよい。サーバ装置１は、キーフレームを含まない場面候補について、時系列的に前側の場面変化位置の候補を除外してもよく、後ろ側の場面変化位置の候補を除外してもよい。サーバ装置１がいずれの場面変化位置の候補を除外するかは、例えば予め定められていてもよく、また例えば前後の場面候補の長さ又はキーフレームの数等に応じていずれか一方を選択してもよい。

　また更にサーバ装置１は、時系列的に連続し且つ類似する２つのキーフレームの間に場面変化位置の候補が存在する場合、この場面変化位置の候補を除外してもよい。サーバ装置１は、２つのキーフレームが類似するか否かを、候補フレームの中からキーフレームを決定した際に算出した類似度を用いて判断することができる。サーバ装置１は、時系列的に連続する２つのキーフレームについて、キーポイントのマッチング結果に基づく類似度を算出し、算出した類似度が所定の閾値（ただし候補フレームが類似するか否かを判定した際の閾値より小さい値）を超える場合に、２つのキーフレームが類似すると判断する。サーバ装置１は、類似する２つのキーフレームの間に存在する場面変化位置の候補を除外し、この場面変化位置の候補の前後の場面候補を連結して１つの場面とすることができる。

　またサーバ装置１は、２つの場面変化位置の間にキーフレームが存在しない場合、この２つの場面変化位置の間の場面を、動画像全体から除外してもよい。図１１に示した例において、場面変化位置の候補１，２の間にキーフレームが存在していない場合、サーバ装置１は、この間の動画像に重要な情報を含んでいないと推定し、場面変化位置の候補１，２の間の場面候補１を動画像から除外してもよい。またこのときにサーバ装置１は、場面候補１と共に、場面変化位置の候補１又は２のいずれか一方を除外してよい。

　サーバ装置１は、動画像に含まれる全ての場面変化位置及びキーフレームを決定した後、決定した場面変化位置及びキーフレームに関する情報をこの動画像に対応付けて動画像ＤＢ１２ｂに記憶する。またサーバ装置１は、端末装置３から動画像ＤＢ１２ｂに記憶された動画像の送信要求が与えられた場合、要求された動画像とこれに対応付けられた場面変化位置及びキーフレームに関する情報とを動画像ＤＢ１２ｂから読み出して、要求元の端末装置３へ送信する。端末装置３は、動画像と共にサーバ装置１から受信した場面変化位置及びキーフレームに関する情報を用いて、例えばユーザから場面選択を受け付け、受け付けた場面から動画像を再生して表示することができる。

　図１２及び図１３は、本実施の形態においてサーバ装置１が行う処理の手順を示すフローチャートである。本実施の形態に係るサーバ装置１の処理部１１は、例えば通信部１３にてカメラ１０３との通信を行うことにより、カメラ１０３により撮影された空調設備１０１の施工又は修理の動画像を取得する（ステップＳ１）。処理部１１の場面変化位置候補検出部１１ａは、ステップＳ１にて取得した動画像に含まれる各フレームのＨＳＬヒストグラムを算出する（ステップＳ２）。場面変化位置候補検出部１１ａは、ステップＳ２にて算出した各フレームのＨＳＬヒストグラムに基づいて、時系列的に連続する２つのフレームのＨＳＬヒストグラム間のバタチャリヤ距離を算出する（ステップＳ３）。

　次いで場面変化位置候補検出部１１ａは、ステップＳ１にて取得した動画像に含まれる各フレームのｐＨａｓｈを算出する（ステップＳ４）。場面変化位置候補検出部１１ａは、ステップＳ４にて算出した各フレームのｐＨａｓｈに基づいて、時系列的に連続する２つのフレームのｐＨａｓｈ間のハミング距離を算出する（ステップＳ５）。場面変化位置候補検出部１１ａは、ステップＳ３にて算出したバタチャリヤ距離とステップＳ５にて算出したハミング距離とに基づいて、時系列的に連続する２つのフレームの相違度を算出する（ステップＳ６）。相違度は、例えばバタチャリヤ距離及びハミング距離の合計値又は平均値等が用いられ得る。場面変化位置候補検出部１１ａは、ステップＳ６にて算出した相違度と所定の閾値とを比較し、相違度が閾値を超える２つのフレーム（又はこの２つのフレーム間）を、場面変化位置の候補として検出する（ステップＳ７）。

　また処理部１１の候補フレーム検出部１１ｂは、ステップＳ１にて取得した動画像に含まれる各フレームのエッジを抽出する（ステップＳ８）。候補フレーム検出部１１ｂは、ステップＳ８にて抽出したエッジに基づいて、各フレームと時系列的にこのフレームの１つ前のフレームとの間のエッジの変化率を算出する（ステップＳ９）。候補フレーム検出部１１ｂは、ステップＳ９にて算出したエッジの変化率と所定の閾値とを比較し、エッジの変化率が閾値を超えないフレームを、キーフレームの候補となる候補フレームとして検出する（ステップＳ１０）。

　処理部１１のキーフレーム決定部１１ｃは、ステップＳ１０にて検出した各候補フレームについて、ＯＲＢのキーポイントを抽出する（ステップＳ１１）。キーフレーム決定部１１ｃは、ステップＳ１１にて抽出した各候補フレームのキーポイントに基づいて、候補フレームの間でのキーポイントのマッチングを行う（ステップＳ１２）。キーフレーム決定部１１ｃは、ステップＳ１２のキーポイントのマッチング結果に基づいて、候補フレーム間の類似度を算出する（ステップＳ１３）。キーフレーム決定部１１ｃは、類似度が閾値を超える複数の候補フレームについて、複数の候補フレームから１つのフレームを選択してキーフレームとし、これ以外の候補フレームを除外することによって、キーフレームを決定する（ステップＳ１４）。

　処理部１１の場面変化位置決定部１１ｄは、ステップＳ７にて検出した場面変化位置の候補と、ステップＳ１４にて決定したキーフレームとに基づき、時系列的に連続する２つの場面変化位置の候補の間に存在する場面候補の中から、キーフレームを含まない場面候補を検索する（ステップＳ１５）。場面変化位置決定部１１ｄは、ステップＳ１５にて検索したキーフレームを含まない場面候補を規定する前後２つの場面変化位置の候補のうち、いずれか一方の場面変化位置の候補を取り除く（ステップＳ１６）。場面変化位置決定部１１ｄは、ステップＳ１６にて取り除かれなかった場面変化位置の候補を、最終的な場面変化位置として決定する（ステップＳ１７）。処理部１１のＤＢ処理部１１ｅは、ステップＳ１にて取得した動画像、ステップＳ１７にて決定した場面変化位置及びステップＳ１４にて決定したキーフレームに関する情報を対応付けて動画像ＤＢ１２ｂに記憶し（ステップＳ１９）、処理を終了する。

＜動画像の再生処理＞
　本実施の形態に係る情報処理システムでは、サーバ装置１が上述の処理により決定した動画像の場面変化位置及びキーフレームに関する情報を、この動画像に対応付けて動画像ＤＢ１２ｂに記憶している。また動画像ＤＢ１２ｂには、例えば動画像の撮影者が付与した動画像のタイトル（表題）又は説明等の文字列、動画像の撮影日時、並びに、動画像の撮影場所等の様々な情報が対応付けて記憶される。また本実施の形態において動画像ＤＢ１２ｂには、空調設備１０１の施工又は修理等の作業を撮影した動画像が記憶され、動画像には施工又は修理等の作業の対象となった空調設備１０１の名称又は商品番号等の文字情報が対応付けて記憶される。

　端末装置３は、例えばユーザからキーワードとなる文字列の入力を受け付け、受け付けた文字列をサーバ装置１へ送信して動画像の検索を要求する。端末装置３からの要求に応じてサーバ装置１は、与えられたキーワードの文字列をタイトル、説明分、空調設備１０１の名称又は商品番号等に含む動画像を動画像ＤＢ１２ｂから検索し、該当する動画像に関する情報を検索結果として要求元の端末装置３へ送信する。サーバ装置１から検索結果を受信した端末装置３は、入力されたキーワードに該当する動画像のタイトル及び撮影日時等の情報を一覧表示する。

　また端末装置３は、検索結果として一覧表示した動画像の中から、再生する動画像の選択をユーザから受け付け、選択された動画像の送信をサーバ装置１に要求する。端末装置３からの要求に応じてサーバ装置１は、選択された動画像と、この動画像に対応付けられた場面変化位置及びキーフレームに関する情報とを動画像ＤＢ１２ｂから読み出して要求元の端末装置３へ送信する。サーバ装置１から動画像と場面変化位置及びキーフレームに関する情報とを受信した端末装置３は、表示部３４に動画像の再生画面を表示し、この画面において動画像を再生して表示する。

　図１４は、端末装置３による再生画面の一例を示す模式図である。図示の再生画面には、画面の上側中央に動画像を表示するための動画像表示領域が設けられ、この領域の下方に４つの操作ボタンが横方向に並べて設けられている。４つの操作ボタンは、左側から、シーン（場面）の最初へ戻すためのボタン（戻すボタン）、動画像を再生するためのボタン（再生ボタン）、１つ後のシーンへスキップするためのボタン（スキップボタン）、動画像の再生を停止するためのボタン（停止ボタン）である。端末装置３は、これらの操作ボタンに対するユーザの操作を受け付けて、動画像の再生及び停止等の処理を行う。また端末装置３は、戻すボタン及びスキップボタンによる動画像のシーンチェンジを、サーバ装置１から受信した場面変化位置に基づいて行う。例えば端末装置３は、戻すボタンに対する操作がなされた場合、動画像の現在の再生時点より前の最も近い場面変化位置から再生を開始する。また例えば端末装置３は、スキップボタンに対する操作がなされた場合、動画像の現在の再生時点より後の最も近い場面変化位置から再生を開始する。

　また再生画面において端末装置３は、４つの操作ボタンの下方に、再生時間を示すプログレスバーを表示し、プログレスバーに動画像の場面変化位置を示す区切りを示す。図示の例は、動画像に３つの場面が含まれている場合のものであり、動画変化位置を示す太垂直線の２つの区切りがプログレスバーに示されている。また端末装置３は、プログレスバーの下方に、この動画像に含まれる一又は複数のキーフレームの縮小画像を適宜の配置で表示する。端末装置３は、これらのキーフレームが動画像中に登場する時間的なタイミングを、キーフレームの画像とプログレスバーとを結ぶ矢印で示す。この矢印は、プログレスバーが示す動画像の再生時間において、対応するキーフレームが登場する時間的な位置を指し示している。端末装置３は、再生画面に表示したキーフレームに対するクリック又はタップ等の操作を受け付けた場合に、操作を受け付けたキーフレームに対応する時点から動画像を再生する。

　なお、図１４に示す動画像の表示方法は一例であってこれに限るものではなく、端末装置３はどのような方法で動画像の表示を行ってもよい。

＜要約動画像の生成処理＞
　本実施の形態に係る情報処理システムでは、上述の処理により決定した動画像の場面変化位置及びキーフレームに基づいて、動画像のダイジェスト動画像（要約動画像）を生成する処理をサーバ装置１が行う。サーバ装置１は、動画像から一又は複数の部分動画像を抽出して（切り出して）連結することによって、元の動画像よりも再生時間が短いダイジェスト動画像を生成する。

　本実施の形態に係るサーバ装置１は、動画像全体から、場面変化位置から所定時間（例えば数秒～数十秒）の部分動画像と、キーフレームの前後の所定時間の部分動画像とを抽出する。サーバ装置１は、動画像から抽出したこれら複数の部分動画像を時系列順に連結することによって、ダイジェスト動画像を生成する。サーバ装置１は、生成したダイジェスト動画像を、元の動画像に対応付けて動画像ＤＢ１２ｂに記憶する。

　サーバ装置１は、例えばカメラ１０３から動画像を取得した際にダイジェスト動画像を生成してもよく、また例えば端末装置３からの要求に応じてダイジェスト動画像を生成してもよく、これら以外のタイミングでダイジェスト動画像を生成してもよい。またサーバ装置１は、例えば端末装置３からの動画像の検索要求に対して検索結果を送信する際に、検索結果として該当する動画像のダイジェスト動画像を動画像ＤＢ１２ｂから読み出して端末装置３へ送信してもよい。端末装置３は、動画像の検索結果として、検索条件に合致した複数の動画像のタイトル等の情報と共に、ダイジェスト動画像を一覧表示してもよい。

＜タイトル生成処理＞
　本実施の形態に係る情報処理システムでは、動画像のタイトル、動画像に含まれる場面のタイトル、又は、動画像に含まれるキーフレームのタイトル等を、機械学習がなされた学習モデル、いわゆるＡＩ（Artificial Intelligence）を用いてサーバ装置１が自動生成することができる。図１５は、本実施の形態に係るサーバ装置１が用いる学習モデルを説明するための模式図である。本実施の形態に係るサーバ装置１が用いる学習モデルは、動画像に含まれるキーフレームを入力として受け付け、このキーフレームに写されている空調設備１０１の施工又は修理の種別を分類結果として出力するよう予め機械学習がなされた学習モデルである。

　本実施の形態に係る学習モデルは、例えばＣＮＮ（Convolutional Neural Network）又はＤＮＮ（Deep Neural Network）等の構成の学習モデルが採用され得る。学習モデルは、例えば画像と、この画像に写された施工又は修理の種別とが対応付けられた学習用のデータを用いて、いわゆる教師ありの機械学習を行うことによって生成され得る。学習モデルの教師あり学習の処理は、既存の技術であるため詳細な説明は省略するが、サーバ装置１は、例えば勾配降下法、確率的勾配降下法又は誤差逆伝播法等の手法により学習モデルの学習を行うことができる。

　サーバ装置１は、機械学習により生成した学習モデルを記憶部１２に記憶している。サーバ装置１は、動画像に含まれるキーフレームの検出を行った後、検出された一又は複数のキーフレームをそれぞれ学習モデルへ入力し、学習モデルが出力する分類結果を取得する。学習モデルが出力する空調設備１０１の施工又は修理の種別は、例えばエアコン（エアコンディショナー）の室外機の施工又はエアコンの室内機の修理等である。サーバ装置１は、例えば動画像に含まれる各キーフレームについて、学習モデルを用いた施工又は修理の種別の分類をそれぞれ行い、全てのキーフレームについて分類結果を取得し、取得した分類結果に基づいて動画像のタイトル及び場面のタイトルを生成する。

　サーバ装置１は、動画像に含まれる複数のキーフレームの分類結果から、例えば最も多い分類結果など、１つの分類結果を適宜に選択する。サーバ装置１は、例えば選択した分類結果と、この動画像が撮影された日時とを組み合わせた「ＸＸＸＸ年ＹＹ月ＺＺ日：エアコンの室外機の施工」等の文字列を、この動画像のタイトルとすることができる。またサーバ装置１は、動画像に含まれる各場面について、この場面に含まれるキーフレームの分類結果を適宜に１つ選択し、選択した分類結果を相当する「エアコンの室内機の修理」等の文字列を場面のタイトルとすることができる。なおサーバ装置１による、施工又は修理の種別の分類結果に基づいてタイトルを生成する方法は、上記のものに限らず、どのような方法が採用されてもよい。

　またサーバ装置１は、キーフレームに写されている空調設備１０１の施工又は修理の種別を分類する学習モデルに代えて、キーフレームの入力を受け付けて、このキーフレームのタイトルの文字列を生成する学習モデルを用いてもよい。このような学習モデルは、例えば画像を特徴量に変換するＣＮＮ等の学習モデルと、特徴量を基にタイトルの文字列を生成するＲＮＮ（Recurrent Neural Network）、ＬＳＴＭ（Long Short Term Memory）、ＢＥＲＴ（Bidirectional Encoder Representations from Transformers）又はＧＰＴ－３（Generative Pre-trained Transformer - 3）等の学習モデルとを組み合わせて構成され得る。

　サーバ装置１は、キーフレームに基づいて生成した動画像のタイトル及び動画像に含まれる場面のタイトルを、この動画像に対応付けて動画像ＤＢ１２ｂに記憶する。なお、例えば動画像の撮影者等がこの動画像又は場面のタイトルを入力した場合には、サーバ装置１は、入力されたタイトルを動画像ＤＢ１２ｂに記憶し、学習モデルを用いたタイトルの生成を行わなくてもよい。また端末装置３は、例えば図１４に示した再生画面において、動画像のタイトルを最上部等に表示し、一又は複数のキーフレームの画像に対応付けて場面のタイトルを表示することができる。

＜まとめ＞
　以上の構成の本実施の形態に係る情報処理システムでは、カメラ１０３が撮影した動画像からサーバ装置１が場面変化位置の候補を検出し、動画像を構成する複数のフレームの中から場面のキーフレーム（主要フレーム）となり得る候補フレームを検出し、候補フレームの中からキーフレームを決定し、場面変化位置の候補及びキーフレームの時系列的な順序に基づいて、場面変化位置の候補の中から場面変化位置を決定する。これにより本実施の形態に係る情報処理システムは、動画像から場面の変化を精度よく検出することが期待できる。

　また本実施の形態に係る情報処理システムでは、時系列的に並ぶ２つの場面変化位置の候補の間にキーフレームが存在しない場合、サーバ装置１は、この２つの場面変化位置の候補からいずれか一方を除外することで、場面変化位置を決定する。また本実施の形態に係る情報処理システムでは、時系列的に連続し且つ類似する２つのキーフレームの間に場面変化位置の候補が存在する場合、サーバ装置１は、この場面変化位置の候補を除外することで、場面変化位置を決定してもよい。これらにより本実施の形態に係る情報処理システムは、動画像から検出した場面変化位置の候補の中から精度よく場面変化位置を決定することが期待できる。

　また本実施の形態に係る情報処理システムでは、動画像に含まれる各フレームの統計値（ＨＳＬヒストグラム）をサーバ装置１が算出し、時系列的に連続する２つのフレームの統計値の差異（相違度）に基づいて、場面変化位置の候補を検出する。また本実施の形態に係る情報処理システムでは、動画像に含まれる各フレームのハッシュ値（ｐＨａｓｈ）をサーバ装置１が算出し、時系列的に連続する２つのフレームのハッシュ値の差異に基づいて、場面変化位置の候補を検出する。これにより本実施の形態に係る情報処理システムは、動画像から場面変化位置の候補を精度よく検出することが期待できる。

　また本実施の形態に係る情報処理システムでは、動画像に含まれる各フレームからエッジをサーバ装置１が抽出し、時系列的に連続する２つのフレームの間のエッジの変化（変化率）に基づいて候補フレームを検出する。また本実施の形態に係る情報処理システムでは、候補フレームから特徴点（キーポイント）をサーバ装置１が抽出し、複数の候補フレーム間での特徴点の比較結果に基づいて類似する候補フレームを除外することで、候補フレームの中からキーフレームを決定する。これらにより本実施の形態に係る情報処理システムは、動画像から候補フレームを精度よく検出し、候補フレームの中からキーフレームを精度よく決定することが期待できる。

　また本実施の形態に係る情報処理システムでは、決定した場面変化位置及びキーフレームに関する情報を、サーバ装置１が動画像に対応付けて動画像ＤＢ１２ｂに記憶する。端末装置３は、場面変化位置又はキーフレームの選択をユーザから受け付け、受け付けた場面変化位置又はキーフレームに基づく動画像の再生を行う。これにより本実施の形態に係る情報処理システムは、ユーザが必要とする場面等から動画像を再生することが期待できる。

　また本実施の形態に係る情報処理システムでは、決定した場面変化位置及びキーフレームに関する情報と、動画像のタイトル、説明、撮影日時、撮影場所、施工又は修理の対象となった空調設備（空調関連機器）１０１の名称又は商品番号等の文字情報とを対応付けて、サーバ装置１が動画像ＤＢ１２ｂに記憶する。これによりユーザは、動画像に対応付けられた文字情報に基づいて、キーワード等を入力して動画像を検索することができる。

　また本実施の形態に係る情報処理システムでは、決定した場面変化位置及びキーフレームに基づいて動画像から部分動画像を抽出し、抽出した部分動画像を結合して要約動画像（ダイジェスト動画像）を生成する。これにより本実施の形態に係る情報処理はユーザに要約動画像を提供することができ、ユーザは要約動画像を利用して再生時間が長い動画像であってもその概要を容易に把握することが期待できる。

　また本実施の形態に係る情報処理システムでは、決定したキーフレームをサーバ装置１が予め機械学習がなされた学習モデルへ入力し、学習モデルが出力する情報に基づいて動画像又は動画像に含まれる場面の表題（タイトル）を決定する。これにより本実施の形態に係る情報処理システムは、動画像の撮影者が表題を入力しない場合であっても、動画像に対して自動的に表題を付与することができる。

　今回開示された実施形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、請求の範囲によって示され、請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

　１　サーバ装置（画像処理装置）
　３　端末装置
　１１　処理部
　１１ａ　場面変化位置候補検出部
　１１ｂ　候補フレーム検出部
　１１ｃ　キーフレーム決定部（主要フレーム決定部）
　１１ｄ　場面変化位置決定部
　１１ｅ　ＤＢ処理部
　１２　記憶部
　１２ａ　サーバプログラム（コンピュータプログラム）
　１２ｂ　動画像ＤＢ
　１３　通信部
　３１　処理部
　３１ａ　検索処理部
　３１ｂ　表示処理部
　３２　記憶部
　３２ａ　プログラム
　３３　通信部
　３４　表示部
　３５　操作部
　１０１　空調設備（空調関連機器）
　１０２　作業者
　１０３　カメラ
　Ｎ　ネットワーク

Claims

　画像処理装置が、
　動画像から場面変化位置の候補を検出し、
　前記動画像を構成するフレームの中から、場面の主要フレームとなり得る候補フレームを検出し、
　前記候補フレームの中から主要フレームを決定し、
　場面変化位置の候補及び主要フレームの時系列的な順序に基づいて、場面変化位置の候補の中から場面変化位置を決定する、
　画像処理方法。
　時系列的に並ぶ２つの場面変化位置の候補の間に主要フレームが存在しない場合、前記２つの場面変化位置を候補からいずれか一方を除外することで、場面変化位置を決定する、
　請求項１に記載の画像処理方法。
　時系列的に並び且つ類似する２つの主要フレームの間に場面変化位置の候補が存在する場合、当該場面変化位置を候補から除外することで、場面変化位置を決定する、
　請求項１又は請求項２に記載の画像処理方法。
　各フレームの統計値を算出し、
　２つのフレームの統計値の差異に基づいて、場面変化位置の候補を検出する、
　請求項１から請求項３までのいずれか１つに記載の画像処理方法。
　各フレームのハッシュ値を算出し、
　２つのフレームのハッシュ値の差異に基づいて、場面変化位置の候補を検出する、
　請求項１から請求項４までのいずれか１つに記載の画像処理方法。
　各フレームからエッジを抽出し、
　２つのフレームの間のエッジの変化に基づいて、候補フレームを検出する、
　請求項１から請求項５までのいずれか１つに記載の画像処理方法。
　候補フレームから特徴点を抽出し、
　複数の候補フレームの間での特徴点の比較結果に基づいて、候補フレームを除外することで、候補フレームの中から主要フレームを決定する、
　請求項１から請求項６までのいずれか１つに記載の画像処理方法。
　決定した場面変化位置及び主要フレームに関する情報を前記動画像に対応付けて記憶し、
　場面変化位置又は主要フレームの選択を受け付け、
　選択された場面変化位置又は主要フレームに基づく前記動画像の再生を行う、
　請求項１から請求項７までのいずれか１つに記載の画像処理方法。
　決定した場面変化位置及び主要フレームに関する情報と、前記動画像に関する文字情報とを対応付けて記憶する、
　請求項８に記載の画像処理方法。
　空調関連機器の施工又は修理の作業を撮影した動画像を取得し、
　取得した動画像について場面変化位置及び主要フレームを決定し、
　決定した場面変化位置及び主要フレームに関する情報と、空調関連機器に関する文字情報とを対応付けて記憶する、
　請求項９に記載の画像処理方法。
　決定した場面変化位置及び主要フレームに基づいて前記動画像から部分動画像を抽出し、
　抽出した部分動画像を結合して要約動画像を生成する、
　請求項１から請求項１０までのいずれか１つに記載の画像処理方法。
　決定した主要フレームを、空調関連機器の施工又は修理の作業を撮影した動画像の主要フレームの入力に対して施工又は修理の種別を分類する学習モデルへ入力し、
　当該学習モデルが出力する分類結果を取得し、
　取得した分類結果に基づいて、前記動画像又は前記動画像に含まれる場面の表題を決定する、
　請求項１から請求項１１までのいずれか１つに記載の画像処理方法。
　コンピュータに、
　動画像から場面変化位置の候補を検出し、
　前記動画像を構成するフレームの中から、場面の主要フレームとなり得る候補フレームを検出し、
　前記候補フレームの中から主要フレームを決定し、
　場面変化位置の候補及び主要フレームの時系列的な順序に基づいて、場面変化位置の候補の中から場面変化位置を決定する
　処理を実行させる、コンピュータプログラム。
　動画像から場面変化位置の候補を検出する場面変化位置候補検出部と、
　前記動画像を構成するフレームの中から、場面の主要フレームとなり得る候補フレームを検出する候補フレーム検出部と、
　前記候補フレームの中から主要フレームを決定する主要フレーム決定部と、
　場面変化位置の候補及び主要フレームの時系列的な順序に基づいて、場面変化位置の候補の中から場面変化位置を決定する場面変化位置決定部と
　を備える、画像処理装置。