WO2023188606A1 - 記録方法、記録装置、及びプログラム - Google Patents

記録方法、記録装置、及びプログラム Download PDF

Info

Publication number
WO2023188606A1
WO2023188606A1 PCT/JP2022/046895 JP2022046895W WO2023188606A1 WO 2023188606 A1 WO2023188606 A1 WO 2023188606A1 JP 2022046895 W JP2022046895 W JP 2022046895W WO 2023188606 A1 WO2023188606 A1 WO 2023188606A1
Authority
WO
WIPO (PCT)
Prior art keywords
frame
recording
frames
subject
search
Prior art date
Application number
PCT/JP2022/046895
Other languages
English (en)
French (fr)
Inventor
啓 山路
俊輝 小林
潤 小林
Original Assignee
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士フイルム株式会社 filed Critical 富士フイルム株式会社
Publication of WO2023188606A1 publication Critical patent/WO2023188606A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

動画像データ中のフレームに対して付帯情報を効率よく記録するための記録方法、記録装置、及びプログラムを提供する。 複数のフレームにより構成される動画像データ中のフレームに対して付帯情報を記録する記録方法であって、フレーム内の被写体を、フレーム毎に認識する認識工程と、付帯情報のうち、認識された被写体に対して記録可能な付帯情報を検索する検索工程と、検索工程の結果に基づいて、フレームに対して付帯情報を記録する記録工程と、を備え、動画像データを構成するフレームの数を第1数とし、検索工程が実行されるフレームの数を第2数とした場合に、第2数が第1数より小さい。

Description

記録方法、記録装置、及びプログラム
 本発明は、記録方法、記録装置、及びプログラムに関する。
 動画像データ中のフレーム(フレーム画像)に対して、そのフレーム内の被写体に関する付帯情報を記録することがある。そのような付帯情報が記録されることで、フレーム内の被写体を特定した上で動画像データを利用することができる。
 例えば、特許文献1に記載の発明では、ユーザの操作に基づいて、動画像の各シーン対して少なくとも1つのキーワードを付与し、各シーンに付与されたキーワードを、動画像データとともに記録する。
特開平6-309381号公報
 一方、動画像データを構成する複数のフレームのそれぞれに対してキーワード等の付帯情報を記録しようとすると、その処理に係る負荷が大きくなり、また付帯情報の記録容量が大きくなる。
 本発明の一つの実施形態は、上記の事情に鑑みてなされたものであり、前述した従来技術の問題点を解決し、動画像データ中のフレームに対して付帯情報を効率よく記録するための記録方法、記録装置、及びプログラムを提供することを目的とする。
 上記の目的を達成するために、本発明の記録方法は、複数のフレームにより構成される動画像データ中のフレームに対して付帯情報を記録する記録方法であって、フレーム内の被写体を、フレーム毎に認識する認識工程と、付帯情報のうち、認識された被写体に対して記録可能な付帯情報を検索する検索工程と、検索工程の結果に基づいて、フレームに対して付帯情報を記録する記録工程と、を備え、動画像データを構成するフレームの数を第1数とし、検索工程が実行されるフレームの数を第2数とした場合に、第2数が第1数より小さい記録方法である。
 また、検索工程は、被写体又は画角のブレが検出されたフレームに対して実行されなくてもよい。
 また、上記の記録方法は、複数のフレームのうち、第1フレームに対して実行された認識工程の結果と、第1フレームと異なる第2フレームに対して実行された認識工程の結果と、の類似度合いを判定する第1判定工程をさらに備えてもよい。この場合、第1判定工程にて判定された類似度合いが、検索工程の実行に関する第1制限条件を満たす場合に、第1フレームに対する検索工程の実行が制限されるとよい。
 また、第1フレーム及び第2フレームに対して、認識工程で複数の被写体が認識された場合、第1判定工程では、複数の被写体に対して優先度を設定し、複数の被写体の優先度に基づいて類似度合いを判定してもよい。
 また、記録工程にて付帯情報が記録されるフレームの数を第3数とした場合に、第3数が第2数より小さくてもよい。
 また、上記の記録方法は、複数のフレームのうち、第1フレームに対して実行された検索工程の結果と、第1フレームと異なる第2フレームに対して実行された検索工程の結果と、の類似度合いを判定する第2判定工程をさらに備えてもよい。この場合、第2判定工程にて判定された類似度合いが、記録工程の実行に関する第2制限条件を満たす場合に、第1フレームに対する記録工程の実行が制限されるとよい。
 また、第1フレーム及び第2フレームに対する検索工程において、複数の被写体に対して、記録可能な付帯情報が検索された場合、第2判定工程では、複数の被写体に対して優先度を設定し、複数の被写体の優先度に基づいて類似度合いを判定してもよい。
 また、上記の記録方法は、付帯情報の記録指示に関するユーザの入力を受け付ける受付け工程をさらに備えてもよい。この場合、複数のフレームのうち、ユーザの入力に対応する入力フレームに対して、記録工程が実行されて付帯情報が記録されるとよい。
 また、入力フレームに対する記録工程では、記録指示に関する情報が付帯情報として記録されてもよい。
 また、複数のフレームのうち、入力フレーム、及び、入力フレームの前又は後の補完フレームに対して記録工程が実行されて付帯情報が記録されてもよい。
 また、付帯情報は、動画像データとは異なるデータファイルに保存されてもよい。
 また、本発明の一つの実施形態に係る記録装置は、プロセッサを備え、複数のフレームにより構成される動画像データ中のフレームに対して付帯情報を記録する記録装置である。また、上記のプロセッサは、フレーム内の被写体を、フレーム毎に認識する認識処理と、付帯情報のうち、認識された被写体に対して記録可能な付帯情報を検索する検索処理と、検索処理の結果に基づいて、フレームに対して付帯情報を記録する記録処理と、を実行する。そして、本発明の一つの実施形態では、動画像データを構成するフレームの数を第1数とし、検索処理が実行されるフレームの数を第2数とした場合に、第2数が第1数より小さい。
 また、本発明の一つの実施形態に係るプログラムは、前述した本発明の一つの実施形態に係る記録方法に含まれる認識工程、検索工程及び記録工程のそれぞれを、コンピュータに実施させるためのプログラムである。
動画像データの説明図である。 フレーム内の被写体に関する付帯情報を示す図である。 階層構造の付帯情報の例を示す図である。 円形状の被写体領域の位置を特定する手順に関する図である。 フレームに対して付帯情報を記録する手順に関する図である。 動画像データ中のすべてのフレームに対して付帯情報を記録するケースを示す図である。 本発明の一つの実施形態に係る記録装置のハードウェア構成を示す図である。 本発明の一つの実施形態に係る記録装置の機能についての説明図である。 互いに類似する第1フレーム及び第2フレームの各々に対する検索工程の実行の有無を示す図である。 検索工程の実行レートについての説明図である。 検索工程の実行レートについての説明図であり、シーン変更によりフレーム内の被写体が変わった場合の図である。 付帯情報の補完についての説明図である。 検索工程の実行レートについての説明図であり、付帯情報の記録指示に関するユーザの入力がなされた場合の図である。 検索工程での結果が類似する第1フレーム及び第2フレームの各々に対する記録工程の実行の有無を示す図である。 記録工程の実行レートについての説明図である。 記録工程の実行レートについての説明図であり、付帯情報の記録指示に関するユーザの入力がなされた場合の図である。 本発明の一つの実施形態に係る記録フローを示す図である(その1)。 本発明の一つの実施形態に係る記録フローを示す図である(その2)。 検索工程及び記録工程のそれぞれの実行レートについての変動を示す図である。 検索工程の実行レートに関する変更例を示す図である。 付帯情報が動画像データとは異なるデータファイルに保存されている例を示す図である。
 本発明の具体的な実施形態について説明する。ただし、以下に説明する実施形態は、本発明の理解を容易にするための一例に過ぎず、本発明を限定するものではない。本発明は、その趣旨を逸脱しない限り、以下に説明する実施形態から変更又は改良され得る。また、本発明には、その等価物が含まれる。
 また、本明細書において、「装置」という概念には、特定の機能を発揮する単一の装置が含まれるとともに、分散して互いに独立して存在しつつ協働(連携)して特定の機能を発揮する複数の装置の組み合わせも含まれることとする。
 また、本明細書において、「者」は、特定の行為を行う主体を意味し、その概念には、個人、グループ、企業等の法人、及び団体等が含まれる。さらに、人工知能(AI:Artificial Intelligence)を構成するコンピュータ及びデバイスも、「者」に含まれ得る。人工知能は、推論、予測及び判断等の知的な機能をハードウェア資源及びソフトウェア資源を使って実現されるものである。人工知能のアルゴリズムは任意であり、例えば、エキスパートシステム、事例ベース推論(CBR:Case-Based Reasoning)、ベイジアンネットワーク又は包摂アーキテクチャ等である。
 <<本発明の一つの実施形態について>>
 本発明の一つの実施形態は、動画像データ中のフレームに対して付帯情報を記録する記録方法、記録装置及びプログラムに関する。
 [動画像データ及びフレームについて]
 動画像データは、ビデオカメラ及びデジタルカメラ等のような公知の動画撮影機器(以下、撮影機器という)によって作成される。撮影機器は、一定のフレームレート(単位時間に撮影されるフレーム画像の数)にて、画角内の被写体を、予め設定された露光条件で撮影してアナログ画像データ(RAW画像データ)を生成する。その後、撮影機器は、アナログ画像データから変換されるデジタル画像データに対してγ補正等の補正処理を実施することで、フレーム(詳しくは、フレーム画像のデータ)を作成する。
 そして、撮影機器がフレーム画像のデータを一定のレート(間隔)で記録することで、図1に示すように、複数のフレームによって構成される動画像データが作成される。なお、以下では、動画像データを構成するフレームの数を、第1数N1と呼ぶこととする。
 動画中データ中の各フレーム内には、1つ以上の被写体が含まれ、つまり、各フレームの画角内には1つ以上の被写体が存在する。被写体は、画角内に存在する人、物及び背景等である。また、本明細書において、被写体は、広義に解釈され、特定の有形物に限られず、景色(風景)、明け方及び夜間等のようなシーン、旅行及び結婚式等のようなイベント、料理及び趣味等のようなテーマ、並びにパターン及び模様等を含み得る。
 動画像データは、そのデータ構造に応じたファイル形式を有する。ファイル形式は、動画像データのコーデック(圧縮技術)と対応するファイルフォーマット、及びバージョン情報を有する。ファイル形式には、MPEG(Moving Picture Experts Group)-4、H.264、MJPEG(Motion JPEG)、HEIF(High Efficiency Image File Format)、AVI(Audio Video Interleave)、MOV(QuickTime file format)、WMV(Windows Media Video)、及び、FLV(Flash Video)等が挙げられる。MJPEGは、動画を構成するフレーム画像がJPEG(Joint Photographic Experts Group)形式の画像からなるファイルフォーマットである。
 ファイルフォーマットは、各フレームのデータ構造に反映される。本発明の一つの実施形態では、各フレームのデータ構造における先頭のデータが、SOI(Start of Image)のマーカセグメント、又はヘッダ情報であるBITMAP FILE HEADERから始まる。これらの情報には、例えば、フレーム番号(撮影開始時点のフレームから順に付与される通し番号)を示す情報が含まれる。
 また、各フレームのデータ構造には、フレーム画像のデータが含まれる。フレーム画像のデータは、撮影時の画角にて記録されたフレーム画像の解像度、及び、画素毎に規定された白黒2色又はRGB(Red Green Blue)3色の階調値等を示す。画角は、画像が表示又は描画されるデータ処理上の範囲であり、その範囲は、互いに直交する2つの軸を座標軸とする二次元座標空間にて規定される。
 また、各フレームのデータ構造には、付帯情報が記録(書き込み)可能な領域が含まれ得る。付帯情報は、各フレーム及び各フレーム内の被写体に関するタグ情報である。
 動画ファイルフォーマットが例えばHEIFである場合、各フレームに対応するExif(Exchangeable image file format)形式の付帯情報、具体的には、撮影日時、撮影場所及び撮影条件等に関する情報が格納できる。撮影条件には、使用された撮影機器の種類、ISO感度、f値及びシャッタスピード等の露光条件、合焦位置(例えば、オートフォーカス時のフォーカスポイント)、並びに画像処理の内容等が含まれる。画像処理の内容は、フレームの画像データに対して実行された画像処理の名称、特徴、処理を実行した機器、並びに画角の中で画像処理が実行された領域等を含む。
 [付帯情報について]
 動画像データ中の各フレームには、付帯情報が記録可能なボックス領域が設けられており、フレーム内の被写体に関する付帯情報が記録可能である。具体的には、被写体に該当する項目が、その被写体に関する付帯情報として記録可能である。項目は、被写体を各観点で分類した場合に、その被写体が該当する事項及びカテゴリであり、分かり易くは、被写体の種類、状態、性質、構造、属性及びその他の特徴を表す語句(ワード)である。例えば、図2に示すケースでは、「人」、「女性」、「日本人」、「鞄を所持」及び「高級バッグを所持」が項目に該当する。
 また、一つの被写体に対して、2つ以上の項目の付帯情報が付加されてもよく、また、抽象度が異なる複数の項目の付帯情報が付加されてもよい。そして、一つの被写体に対して付加される付帯情報の項目が多いほど、あるいは、付帯情報が具体的(詳細)であるほど、その被写体に対する付帯情報の項目の精度が高くなる。ここで、精度とは、付帯情報によって記述される被写体の内容についての詳しさの度合い(精細度)を表す概念である。
 また、ある項目の付帯情報が付加された被写体に対して、その項目よりも精度が高い項目の付帯情報を付加してもよい。例えば、図3に示すケースでは、例えば、「人」という項目の付帯情報が付加された被写体に対して、より精度が高い「女性」という項目の付帯情報が付加されている。また、「鞄を所持」という項目の付帯情報が付加された被写体に対して、より精度が高い「高級バッグを所持」という項目の付帯情報が付加されている。
 なお、付帯情報は、図3に示すように階層ごとに規定されているのが好ましい。
 また、被写体の項目には、被写体の外観からは識別できない項目、例えば、農作物における病気等のような異常の有無、若しくは、果物の糖度等のような品質等が含まれてもよい。上記のように外観から識別不能な項目は、画像データにおける被写体の特徴量から判定できる。具体的には、被写体の特徴量と被写体の属性との対応関係を予め学習しておき、その対応関係に基づいて、画像内の被写体の特徴量から当該被写体の属性を判定(推定)できる。
 なお、被写体の特徴量は、例えば、フレームにおける被写体の解像度、データ量、ボケの度合い、ブレの度合い、フレームの画角に対するサイズ比、画角における位置、色味、又はこれらを複数組み合わせたものである。特徴量は、公知の画像解析技術を適用し、画角中の被写体領域を解析することで算出できる。また、特徴量は、機械学習によって構築される数理モデルにフレーム(画像)が入力されることで出力される値でもよく、例えば、1次元又は多次元のベクトル値でもよい。その他、少なくとも、一つの画像を入力したときに一意に出力されるような値であれば、特徴量として用いることができる。
 また、上記のボックス領域には、画角における被写体の位置(座標位置)を示す付帯情報、奥行方向における被写体までの距離(深度)を示す付帯情報が記録されてもよい。被写体の座標は、図2に示すように、フレームの画角を規定する二次元座標空間において、被写体の一部又は全部を囲む領域(以下、被写体領域)の縁上に存在する点の座標である。被写体領域の形状は、特に限定されないが、例えば略円形状又は矩形形状でもよい。被写体領域は、ユーザが画角内の一定範囲を指定することで抽出されてもよく、あるいは、公知の被写体検出アルゴリズム等を利用して自動的に抽出されてもよい。
 被写体領域が、図2にて破線にて示す矩形状の領域である場合、被写体領域の縁において対角線の両端に位置する2つの交点(図2にて白丸及び黒丸で示す点)の座標により被写体の位置が特定される。このように複数の点の座標により、画角における被写体の位置を的確に特定することができる。
 また、被写体領域は、被写体領域内における基点の座標、及び当該基点からの距離によって特定される領域でもよい。例えば、図4に示すように被写体領域が円形状である場合には、被写体領域の中心(基点)の座標、及び、基点から被写体領域の縁までの距離(つまり、半径r)によって被写体領域が特定される。この場合、基点である中心の座標と、基点からの距離である半径とが被写体領域の位置情報となる。このように被写体領域内の基点と、基点からの距離を用いることで、被写体の位置を的確に表すことができる。
 なお、矩形状である被写体領域の位置は、その領域の中心の座標、及び各座標軸方向における中心からの距離によって表されてもよい。
 さらに、上記のボックス領域には、図2に示すように、被写体の画質を表す付帯情報を記録してもよい。画質は、フレーム画像のデータが示す被写体の画質であり、例えば、被写体の解像感、ノイズ、及び明るさ等である。解像感は、ボケ又はブレ等の有無及び程度、解像度、又は、これらに応じた等級若しくはランク等を含む。ノイズは、S/N値、ホワイトノイズの有無、又は、これらに応じた等級若しくはランク等を含む。明るさは、輝度値、明るさを示すスコア、又は、これらに応じた等級若しくはランク等を含む。また、明るさには、白飛び又は黒つぶれのような露光異常の有無(階調値により表現可能な範囲を超えているか)が含まれ得る。また、画質を表す情報には、解像感、ノイズ及び明るさ等を人の感性に基づいて評価した場合の評価結果(官能評価結果)が含まれてもよい。
 さらにまた、付帯情報の記録指示に関するユーザの入力がなされたフレームのボックス領域には、図2に示すように、記録指示に関する付帯情報が記録されてもよい。記録指示に関する情報は、記録指示がなされた旨を明記する情報、あるいは、記録指示がなされたフレームであることを示す識別コード(符号情報)である。付帯情報の記録指示については、後に説明することとする。
 以上までに説明した付帯情報がフレームに記録された動画像データは、様々な用途に利用され、例えば、機械学習の教師データを作成する目的で用いられ得る。詳しく説明すると、動画像データは、フレーム内の被写体を付帯情報(詳しくは、付帯情報の項目)から特定できるため、フレームに対して記録された付帯情報に基づいてアノテーション(選別)される。アノテーション後の動画像データ及びそのフレーム画像のデータは、教師データの作成に供され、機械学習に必要な分の教師データを集めて機械学習が実施される。
 [付帯情報を記録する基本的な流れについて]
 以下、図5を参照しながら、動画像データ中のフレームに対して付帯情報を記録する基本的な流れについて説明する。なお、以下では、動画像データを構成する複数のフレームのうち、付帯情報が記録されるフレーム(特に、被写体に関する付帯情報が記録されるフレーム)を、「対象フレーム」とも呼ぶこととする。
 対象フレームに対して付帯情報を記録する場合には、図5に示すように、先ず、対象フレーム内の被写体を認識する。具体的には、対象フレームの画角内にて被写体領域を抽出し、抽出された領域内の被写体を認識する。なお、対象フレーム内で複数の被写体領域が抽出された場合には、抽出された領域と同数の被写体を認識する。
 次に、認識された被写体に対して記録可能な付帯情報を、検索項目に基づいて検索する。検索項目は、付帯情報の候補として設定された複数の項目(項目群)である。例えば、被写体が人である場合には、検索項目の中から「人」という項目を検索する。
 また、検索項目には、ある観点について精度(詳しくは、精細度)が段階的に変わった複数の項目が含まれている。例えば、検索項目には、「人」という項目が含まれており、「人」に関連するより詳細な項目として、性別、年齢、国籍及び職業等を表す項目がさらに含まれている。そして、上記の検索項目から、認識された被写体に該当する項目を、その被写体に対して記録可能な付帯情報として検索する。この際、検索される項目の数が多いほど、あるいは検索される項目が具体的(詳細)であるほど、検索の精度が高くなる。
 また、検索項目の精度、つまり、検索項目に含まれる項目の数及び精細度は、可変であり、また、一度設定された後に変更可能である。例えば、あるフレーム内の被写体(第1被写体)に応じて検索項目の精度を設定した後に、別のフレーム内の被写体(第2被写体)に対する検索項目の精度を、第2被写体に応じて変更することができる。
 検索項目の精度は、前のフレーム内の被写体に応じて高く設定してもよい。例えば、あるフレーム内の被写体(第1被写体)に対して、人であるか否かを検索し、その後のフレーム内の被写体(上記の第1被写体と同じ被写体)に対して、性別、国籍及び年齢等のような精度をより高くした検索項目を設定してもよい。
 なお、被写体に対して記録可能な付帯情報を検索する方法は、特に限定されない。例えば、被写体の特徴量から被写体の種類、性質及び状態等を推定し、推定結果と一致又は対応する項目を検索項目の中から見つけてもよい。また、対象フレーム内で複数の被写体を認識した場合には、複数の被写体のうち、少なくとも一部の被写体について、その被写体に対して記録可能な付帯情報を検索項目の中から検索してもよい。
 次に、上述の検索結果に基づき、検索された項目(つまり、検索項目の一部)を付帯情報として対象フレームに対して記録する。付帯情報を対象フレームに対して記録するとは、例えば、対象フレームの画像データに設けられたボックス領域(詳しくは、JUMBFに準拠するボックス領域)に付帯情報を書き込むことである。なお、対象フレーム内の被写体に該当する項目が検索項目中に存在しない場合には、「該当項目なし」という付帯情報を、対象フレームに対して記録してもよい。
 また、対象フレーム内で複数の被写体が認識された場合、図5に示すように、付帯情報(項目)を被写体毎に検索し、検索された付帯情報(項目)を、対応する一つの被写体と関連付けて対象フレームに対して記録する。なお、付帯情報(項目)の検索は、フレーム内の複数の被写体の全てに対して実行しなくてもよい。
 ところで、上述の手順により、動画像データ中のフレームに対して付帯情報を記録する場合、効率よく付帯情報を記録できるのが好ましい。一方、図6に示すように、動画像データを構成するフレームの各々に対して付帯情報を記録しようとすると、上述の処理に係る負荷が大きくなる。また、付帯情報の記録量が膨大となり、動画像データの記録容量が大きくなる。この結果、動画像データの収録時間(換言すると、動画データを構成するフレームの第1数N1)が小さくなってしまう。
 一方、動画像データ中、前後のフレーム間では、被写体が同一又は類似している場合(例えば、共通の被写体を撮影している場合)があり得る。その場合、フレーム内の被写体に対して記録可能な付帯情報がフレーム間で共通し、前後のフレームにおいて、付帯情報(項目)の検索結果がフレーム間で類似する(重複する)可能性がある。
 本発明の一つの実施形態では、動画データ中のフレームに対して付帯情報を効率よく記録する目的のために、以下に説明する記録装置及び記録方法を用いている。以下では、本発明の一つの実施形態に係る記録装置の構成、及び本発明の一つの実施形態に係る記録方法の流れについて説明する。
 [本発明の一つの実施形態に係る記録装置の構成]
 本発明の一つの実施形態に記録装置(以下、記録装置10)は、図7に示すように、プロセッサ11及びメモリ12を備えるコンピュータである。プロセッサ11は、例えば、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)、又はTPU(Tensor Processing Unit)等によって構成される。メモリ12は、例えば、ROM(Read Only Memory)及びRAM(Random Access Memory)等の半導体メモリ等によって構成される。
 また、記録装置10は、タッチパネル及びカーソルボタン等のようなユーザ操作を受け付ける入力機器13、並びに、ディスプレイ及びスピーカ等のような出力機器14を備える。入力機器13には、ユーザの音声入力を受け付ける機器が含まれてもよい。この場合、記録装置10は、ユーザの音声を認識し、形態素解析等によって音声を解析し、その解析結果を入力情報として取得してもよい。
 また、メモリ12には、動画像データ中のフレームに対して付帯情報を記録するためのプログラム(以下、記録用プログラム)が格納されている。記録用プログラムは、コンピュータに本発明の記録方法に含まれる各工程(具体的には、図17A及び17Bに示す記録フロー中の各ステップ)を実施させるためのプログラムである。記録用プログラムは、コンピュータが読み取り可能な記録媒体から読み込むことで取得されてもよいし、インターネット又はイントラネット等の通信網を通じてダウンロードすることで取得されてもよい。
 また、記録装置10は、ストレージ15内に記憶された各種のデータに自由にアクセス可能である。ストレージ15に記憶されたデータには、記録装置10が付帯情報を記録するために必要なデータ、具体的には、上述した検索項目のデータが含まれる。
 なお、ストレージ15は、記録装置10に内蔵又は外付けされてもよく、若しくはNAS(Network Attached Storage)等によって構成されてもよい。あるいは、ストレージ15が、記録装置10とインターネット又はモバイル通信網を通じて通信可能な外部機器、例えばオンラインストレージでもよい。
 上述の記録装置10は、例えば、動画の撮影機器によって構成される。記録装置10を構成する撮影機器の構成(特に、メカ構成)は、動画撮影の機能を有する公知の機器のものと略共通する。また、上記の撮影機器は、画角内の所定位置に自動的に合焦するオートフォーカス(AF)機能を有してもよい。さらに、上記の撮影機器は、AF機能を利用して動画像データを記録している間の合焦位置、すなわちAFポイントを特定する機能を有してもよい。
 また、上記の撮影機器は、手振れ等によって発生する画角のブレ、及び、被写体の動きに起因して発生する被写体のブレを検出する機能を有する。ここで、「ブレ」は、不規則で且つ遅い揺れ(ブレ)であり、例えば、意図的な画角変更、具体的には、撮影機器の向きを所定方向に沿って素早く変更させる操作(具体的には、パン操作)とは相違する。なお、被写体のブレは、例えば、公知の画像解析技術によって検出可能である。画角のブレは、例えば、ジャイロセンサ等の公知のブレ検出機器によって検出可能である。
 また、上記の撮影機器は、動画像データの記録中にユーザ(すなわち、動画の撮影者)が覗き込むファインダ、詳しくは電子ビューファインダ又は光学ビューファインダを備えてもよい。この場合、上記の撮影機器は、動画像データの記録中、ユーザの視線及び瞳のそれぞれの位置を検出して、ユーザの視線位置を特定する機能を有してもよい。ユーザの視線位置は、ファインダ内を覗き込んでいるユーザの視線と、ファインダ内の表示画面(不図示)との交点位置に相当する。
 また、上記の撮影機器は、赤外センサ等の公知の距離センサを搭載してもよい。この場合、上記の撮影機器は、画角内の各被写体について、奥行方向の距離(深度)を測定可能である。
 記録装置10の機能、特に、フレームへの付帯情報の記録に関連する機能について、図8を参照しながら説明する。記録装置10は、図8に示すように、取得部21、入力受付部22、検出部23、認識部24、第1判定部25、検索部26、第2判定部27、記録部28、及び補完部29を有する。これらの機能部は、記録装置10が備えるハードウェア機器(プロセッサ11、メモリ12、入力機器13及び出力機器14)と、前述の記録用プログラムを含むソフトウェアとの協働によって実現される。
 以下、上述した各機能部について説明する。
 (取得部)
 取得部21は、複数のフレームにより構成される動画像データを取得する。具体的には、取得部21は、記録装置10を構成する撮影機器の画角にて、一定のフレームレートでフレーム(フレーム画像)を記録することで動画像データを取得する。
 (入力受付部)
 入力受付部22は、受付け工程を実行し、受付け工程において、フレームへの付帯情報の記録に関連して行われるユーザ操作を受け付ける。入力受付部22が受け付けるユーザ操作には、付帯情報の記録指示に関するユーザの入力(以下、記録指示の入力)が含まれる。記録指示の入力は、動画像データを構成する複数のフレームのうち、付帯情報が記録される対象フレームを指示するために行われる入力操作である。具体的に説明すると、動画像データの記録中、ユーザは、付帯情報の記録を希望するタイミングで所定の動作(例えば、所定のボタンを押す操作又は音声を発する操作等)を行う。入力受付部22は、その操作を記録指示の入力として受け付ける。
 (検出部)
 検出部23は、動画像データの記録中、被写体又は画角のブレが発生した場合に、公知のブレ検出手段により、発生したブレを検出する。また、検出部23は、ブレを検出した場合に、動画像データのうち、そのブレが検出されたフレームを特定する。
 (認識部)
 認識部24は、認識工程を実行し、認識工程において、動画像データにおけるフレーム内の被写体を、フレーム毎に認識する。具体的に説明すると、認識工程では、各フレームの画角において被写体領域を抽出し、抽出された被写体領域内の被写体を特定する。また、フレーム内に複数の被写体が存在する場合(つまり、フレームの画角内で複数の被写体領域が抽出される場合)、認識部24は、複数の被写体を認識する。
 なお、フレーム内の被写体をフレーム毎に認識する態様には、動画像データを構成する複数のフレームの中に、フレーム内の被写体が認識されないフレームが存在する態様が含まれてもよい。
 (第1判定部)
 第1判定部25は、第1判定工程を実行し、動画像データにおける第1フレームと第2フレームとの間の類似度合いを判定する。第1フレーム及び第2フレームは、動画像データを構成する複数のフレームのうち、互いに異なるフレームである。第2フレームは、第1フレームよりも前のフレーム、又は、第1フレームよりも後のフレームである。
 以下では、動画像データの記録中、現時点(リアルタイム)に相当するフレームが第1フレームであり、過去(例えば、第1フレームの数フレーム前)のフレームが第2フレームであるケースを例に挙げて説明する。
 第1判定工程では、第1フレーム内の被写体についての認識結果と、第2フレーム内の被写体についての認識結果と、の類似度合いを判定する。つまり、第1判定部25は、認識部24が認識した第1フレーム内の被写体と、第2フレーム内の被写体との間の類似度合いを判定する。
 なお、類似度合いを判定する際には、類似度合いを評価(算出)する公知の技術が利用可能である。例えば、比較される2つの被写体の特徴量(厳密には、フレーム内の画角における被写体領域の特徴量)の各々を特徴量空間内で規定する。そして、特徴量空間における特徴量間の距離によって、被写体同士の類似度合いを判定してもよい。この場合、距離が小さいほど、被写体同士が類似している(類似度合いが高い)ことになる。
 さらに、第1判定部25は、第1判定工程において、上記の類似度合いが第1制限条件を満たすか否かを判定する。第1制限条件とは、検索部26による検索工程の実行に関して予め設定された条件である。ここで、「予め設定する」とは、検索工程の実行までに設定することを意味する。また、本発明の一つの実施形態では、第1制限条件が、類似度合いが所定のレベルを超えるという条件である。所定のレベルは、比較される2つの被写体同士が類似していると判定し得る程度の類似度合いを規定している。
 なお、第1制限条件については、上記の条件に限定されず、例えば、類似度合いが所定のレベルを超えた状態が数フレーム以上継続するという条件でもよい。
 そして、上記の類似度合いが所定のレベルを超えると判定された場合、第1判定部25は、上記の類似度合いが第1制限条件を満たし、つまり、第1フレームと第2フレームとが類似していると判定する。
 また、第1フレーム及び第2フレームに対して認識部24が複数の被写体を認識した場合、第1判定部25は、複数の被写体に対して優先度を設定する。この際、複数の被写体のうち、主要な被写体、例えば画角の中央により近い被写体、あるいはAFポイントにより近い被写体等に対しては、より高い優先度が設定される。または、ユーザが各被写体に対する優先度を指定してもよい。
 なお、各被写体に対して優先度を設定する態様には、複数の被写体の中に、優先度が設定されない被写体が存在する態様が含まれてもよい。
 そして、第1判定部25は、複数の被写体の優先度に基づいて上記の類似度合いを判定し、詳しくは、優先度がより高い被写体について判定された類似度合いを重視する。例えば、優先度が最も高い被写体(すなわち、主要被写体)について判定された類似度合いが所定のレベルを超える場合、第1判定部25は、第1フレームと第2フレームとが類似していると判定してもよい。
 なお、各被写体の優先度に基づいて類似度合いを判定する態様には、複数の被写体の優先度の中に、類似度合いを判定する際に参照されない優先度が存在する態様が含まれてもよい。
 (検索部)
 検索部26は、対象フレームに対して検索工程を実行する。検索工程において、検索部26は、検索項目に含まれる付帯情報のうち、認識部24によって認識された対象フレーム内の被写体に対して記録可能な付帯情報を検索する。
 また、本発明の一つの実施形態では、検索部26による検索工程が実行される対象フレームの数を第2数N2とした場合に、第2数N2が第1数N1よりも小さい。つまり、動画像データを構成する複数のフレームのうち、対象フレーム以外のフレーム(以下、非対象フレームという)に対しては、検索工程の実行が制限される。
 ここで、非対象フレームに対して検索工程の実行を制限するとは、例えば、非対象フレームに対する検索工程を実行しないことである。具体的に説明すると、第1判定部25による第1判定工程にて判定された類似度合いが前述の第1制限条件を満たしているとする。つまり、図9に示すように、第1フレームと第2フレームとが類似しているとする。この場合、検索部26は、第1フレームを非対象フレームとして設定し、非対象フレームに対する検索工程の実行を制限する。詳しくは、図9に示すように、第1フレームに対する検索工程が実行されずに省略される。
 そして、第1フレームに対する検索工程が実行されないので、検索工程が実行されるフレーム(対象フレーム)の数、すなわち第2数N2が、第1数N1よりも小さくなる。これにより、前後のフレームが類似し続ける状況では、図10に示すように、検索工程の実行レートが、動画像データ記録時のフレームレートより小さくなる。
 具体的に説明すると、例えば、同じシーンで同じ被写体を撮影して動画像データを記録する場合、前後のフレーム間における被写体の類似度合いが所定のレベルを超える状態が継続することになる。この場合、図10に示すように、検索工程が実行されるフレームの間隔が、動画像データにおけるフレームの記録間隔よりも長くなる。
 なお、図10~16、18、及び19において、動画像データを構成する複数のフレームのうち、検索工程が実行される対象フレームには、斜線のハッチングが付けられている。
 また、動画像データの記録中、撮影シーンの変更等によって前後のフレームが切り替わり、第1フレーム内の被写体と第2フレーム内の被写体との類似度合いが大きく変化したとする。この場合、検索部26は、第1フレームに対して検索工程を実行し、図11に示すように、シーン変更後における検索工程の実行レートを、それまでのレートよりも大きくする。
 また、検索部26による検索工程の実行の有無、換言すると、フレームが対象フレーム及び非対象フレームのいずれに該当するかは、上記以外の要因でも変わり得る。具体的に説明すると、動画像データ中、検出部23により被写体又は画角のブレが検出されたフレームは、非対象フレームとなり、そのフレームに対しては検索工程が実行されない。ブレが検出されたフレームでは被写体が明瞭でない可能性があるため、そのようなフレームを検索工程の対象から外すことにより、検索結果の妥当性を確保しつつ、検索工程の実行負担を軽減することができる。
 また、動画像データの記録中に入力受付部22が記録指示の入力を受け付けた場合、検索部26は、図13に示すように、入力フレーム及び補完フレームに対して検索工程を実行する。入力フレームは、動画像データ中、記録指示の入力に対応するフレームであり、具体的には入力が受け付けられた瞬間に記録されたフレームである。補完フレームは、図13に示すように、入力フレームの前又は後のフレームであり、例えば、入力フレームの直前及び直後の数フレームである。なお、補完フレームは、入力フレームの前のフレームのみでもよく、あるいは入力フレームの後のフレームのみでもよい。
 (補完部)
 補完部29は、非対象フレームに対して補完情報を記録する補完工程を実行する。補完情報は、非対象フレームの前後にある2つのフレームに対して記録工程にて記録された付帯情報に基づいて決められる情報である。図12を参照しながら具体的に説明すると、例えば、フレームA及びフレームBのそれぞれに対しては、記録工程が実行されて付帯情報が記録された一方で、フレームA、Bの間には非対象フレームが存在することとする。ここで、フレームAに対して記録された付帯情報と、フレームBに対して記録された付帯情報とが、比較的類似している場合、補完部29は、これらの情報に応じた補完情報(具体的には、例えば、フレームA、Bに共通の項目)を作成する。
 そして、補完部29は、作成した補完情報を、フレームA、Bの間の非対象フレームに対して記録する補完工程を実行する。このように非対象フレームに対して補完情報が記録されることで、本来付帯情報が記録されない非対象フレームに対して、付帯情報としての補完情報を簡易に記録することができる。
 なお、補完情報が非対象フレームに対して記録された場合には、補完情報が記録された旨の情報が付帯情報として非対象フレームにさらに記録されてもよい。
 (第2判定部)
 第2判定部27は、第2判定工程を実行し、第1フレームに対して実行された検索工程の結果と、第2フレームに対して実行された検索工程の結果と、の類似度合いを判定する。詳しくは、第2判定部27は、第1フレーム内の被写体に記録可能な付帯情報として検索された項目と、第2フレーム内の被写体に記録可能な付帯情報として検索された項目との類似度合いを判定する。
 なお、類似度合いを判定する際には、類似度合いを評価(算出)する公知の技術が利用可能である。例えば、比較される2つの付帯情報(項目)の各々を、Word2vec等の公知の手法によって数値化(詳しくは、ベクトル化)し、数値化された情報をベクトル空間内で規定する。そして、ベクトル空間における付帯情報間の距離によって、付帯情報同士の類似度を判定してもよい。この場合、ベクトル間の距離が小さいほど、付帯情報同士が類似していることになる。
 さらに、第2判定部27は、第2判定工程において、上記の類似度合いが満たすか否かを判定する。第2制限条件とは、記録部28による記録工程の実行に関して予め設定された条件である。ここで、「予め設定する」とは、記録工程の実行までに設定することを意味する。また、本発明の一つの実施形態では、第2制限条件が、類似度合いが所定のレベルを超えるという条件である。所定のレベルは、比較される2つの付帯情報同士が類似していると判定し得る程度の類似度合いを規定している。
 なお、第2制限条件については、上記の条件に限定されず、例えば、類似度合いが所定のレベルを超えた状態が数フレーム以上継続するという条件でもよい。
 そして、上記の類似度合いが所定のレベルを超えると判定された場合、第2判定部27は、第1フレームに対して実行された検索工程の結果と、第2フレームに対して実行された検索工程の結果とが互いに類似していると判定する。
 また、第1フレーム及び第2フレームに対する検索工程において、複数の被写体に対して、記録可能な付帯情報が検索された場合、第2判定部27は、複数の被写体に対して優先度を設定する。この際、複数の被写体のうち、主要な被写体、例えば画角の中央により近い被写体、あるいはAFポイントにより近い被写体等に対しては、より高い優先度が設定される。また、ユーザが各被写体に対して優先度を設定してもよい。
 なお、複数の被写体に対して優先度を設定する態様には、複数の被写体の中に、優先度が設定されない被写体が存在する態様が含まれてもよい。
 そして、第2判定部27は、複数の被写体の優先度に基づいて上記の類似度合いを判定し、詳しくは、優先度がより高い被写体について判定された類似度合いを重視する。例えば、優先度が最も高い被写体(すなわち、主要被写体)について判定された類似度合いが所定のレベルを超える場合、第2判定部27は、第1フレームに対する検索結果と第2フレームに対する検索結果とが類似していると判定してもよい。
 なお、複数の被写体の優先度に基づいて類似度合いを判定する態様には、複数の被写体の優先度の中に、類似度合いを判定する際に参照されない優先度が存在する態様が含まれてもよい。
 (記録部)
 記録部28は、対象フレームに対して記録工程を実行する。記録工程において、記録部28は、検索部26による検索工程の結果(検索結果)に基づいて、対象フレームに対して付帯情報を記録する。より詳しく説明すると、記録工程では、検索項目の中から検索された項目、つまり対象フレーム内の被写体に該当する項目を、付帯情報として対象フレームに対して記録する。
 また、本発明の一つの実施形態では、記録部28による記録工程にて付帯情報が記録される対象フレームの数を第3数N3とした場合に、第3数N3が第1数N1及び第2数N2よりも小さい。つまり、対象フレームのうち、特定の対象フレーム(以下、非記録フレームという)に対して記録工程の実行が制限される。
 ここで、非記録フレームに対して記録工程の実行を制限するとは、例えば、非記録フレームに対する記録工程を実行しないことである。具体的に説明すると、第2判定部27による第2判定工程にて判定された類似度合いが前述の第2制限条件を満たしているとする。つまり、図14に示すように、第1フレームに対する検索結果と第2フレームに対する検索結果とが類似している場面を想定する。この場合、記録部28は、第1フレームを非記録フレームに設定し、当該フレームに対する記録工程の実行を制限する。詳しくは、図14に示すように、第1フレームに対する記録工程が実行されずに省略される。
 そして、第1フレームに対する記録工程が実行されないので、記録工程が実行されるフレームの数、すなわち第3数N3が、検索工程が実行されたフレーム(対象フレーム)の第2数N2よりも小さくなる。これにより、前後のフレームの間で検索工程での結果(検索結果)が類似している状況が続けば、図15に示すように、記録工程の実行レートが検索工程の実行レートより小さくなる。つまり、記録工程が実行されるフレームの間隔(実行レート)が、検索工程が実行されたフレーム(対象フレーム)の間隔よりも長くなる。
 記録部28による記録工程の実行の有無、換言すると、フレームが非記録フレームに該当するか否かは、上記以外の要因でも変わり得る。具体的に説明すると、動画像データの記録中に入力受付部22が記録指示の入力を受け付けた場合、記録部28は、図16に示すように、入力フレーム及び補完フレームに対して記録工程を実行する。つまり、記録部28は、入力フレームに対する検索工程の結果に基づいて、入力フレーム内の被写体に対して記録可能な付帯情報を記録する。また、記録部28は、補完フレームに対する検索工程の結果に基づいて、補完フレーム内の被写体に対して記録可能な付帯情報を記録する。
 [本発明の一つの実施形態に係る記録フローについて]
 次に、記録装置10を用いた記録フローについて説明する。以下に説明する記録フローでは、本発明の記録方法が用いられる。つまり、以下に説明する記録フロー中の各ステップは、本発明の記録方法の構成要素に相当する。
 なお、下記のフローは、あくまでも一例であり、本発明の趣旨を逸脱しない範囲において、フロー中の不要なステップを削除したり、フローに新たなステップを追加したり、フローにおける2つのステップの実行順序を入れ替えてもよい。
 記録装置10による記録フローは、図17A及び17Bに示す流れに従って進行し、記録フロー中の各ステップ(工程)は、記録装置10が備えるプロセッサ11によって実行される。つまり、記録フロー中の各工程において、プロセッサ11は、記録用プログラムに規定されたデータ処理のうち、各工程と対応する処理を実行する。具体的に説明すると、プロセッサ11は、認識工程では認識処理を、検索工程では検索処理を、記録工程では記録処理をそれぞれ実行する。
 記録フローは、動画像データの記録開始をトリガーとして実施される(S001)。記録フローが開始されると、先ず、動画像データを構成するフレームの番号#i(iは自然数)についてiを1に設定した上で、#iのフレームに対して認識工程、検索工程及び記録工程を実行する(S002、S003)。つまりは、最初のフレーム内に対して付帯情報を記録する。
 認識工程では、フレーム内の被写体を認識し、フレーム内に複数の被写体が存在する場合には、複数の被写体を認識する。検索工程では、認識された被写体に対して記録可能な付帯情報(詳しくは、項目)を、検索項目の中から検索する。記録工程では、検索工程の結果(検索結果)に基づいて、フレームに対して付帯情報を記録する。
 なお、記録フローにおいて、検索工程は、認識工程の後に実行される場合に限定されず、認識工程と同じタイミングで実行されてもよい。
 なお、#iのフレームについて被写体又は画角のブレが検出された場合、ステップS003は省略される。
 次に、動画像データの記録を終了するかを判定し(S004)、記録を終了しない場合には、iをインクリメントした上で(S005)、ステップS006に移行する。ステップS006では、現時点のフレーム番号#iのiがNより大きいかを判定する。ここで、Nは2以上の自然数であり、任意の値に設定することができる。iがNより大きい場合には、次のステップS007に移行する。他方、iがN以下である場合には、ステップS003に戻り、再び、#iのフレームに対して認識工程、検索工程及び記録工程を実行する。
 ステップS007では、ステップS003と同じ要領で、#iのフレームに対して認識工程を実行する。その後、#iのフレームを第1フレームとし、#iよりも前のフレームを第2フレームとして第1判定工程を実行する(S008)。第1判定工程では、第1フレームに対して実行された認識工程の結果と、第2フレームに対して実行された認識工程の結果と、の類似度合いを判定する。つまり、ステップS008では、第1フレーム内の被写体と、第2フレーム内の被写体との類似度合いを判定する。
 なお、第1フレーム及び第2フレームに対する認識工程にて複数の被写体が認識される場合がある。この場合、第1判定工程では、認識された複数の被写体に対して優先度を設定し、複数の被写体の優先度に基づいて類似度合いを判定する。このように複数の被写体の優先度を考慮することで類似度合いをより適切に判定でき、例えば、複数の被写体のうち、主要被写体を重視して類似度合いを判定できる。
 また、第1判定工程では、上記の類似度合いが第1制限条件を満たしているかを判定する(S009)。上記の類似度合いが第1制限条件を満たす場合、記録指示の入力がない限り、#iのフレーム(第1フレーム)に対する検索工程の実行が制限され、詳しくは、#iのフレームに対して検索工程が実行されない。
 他方、上記の類似度合いが第1制限条件を満たしていない(具体的には、所定のレベルに達していない)場合、ステップS003と同じ要領で、#iのフレームに対して検索工程を実行する(S010)。
 なお、#iのフレームについて被写体又は画角のブレが検出された場合、ステップS010、及びそれ以降のステップが省略される。
 また、ステップS010において検索工程を実行した場合には、その直後における検索工程の実行レートを、通常のレート(初期のレート)に戻すのがよい。
 ステップS010の実行後には、#iのフレームを第1フレームとし、#iよりも前のフレーム(厳密には、#iのフレームより前に検索工程が実行されたフレーム)を第2フレームとして、第2判定工程を実行する(S011)。第2判定工程では、第1フレームに対して実行された検索工程の結果と、第2フレームに対して実行された検索工程の結果と、の類似度合いを判定する。
 なお、第1フレーム及び第2フレームの各々に対する検索工程において、複数の被写体に対して、記録可能な付帯情報が検索される場合がある。この場合、第2判定工程では、複数の被写体に対して優先度を設定し、複数の被写体の優先度に基づいて類似度合いを判定する。このように複数の被写体の優先度を考慮することで、類似度合いをより適切に判定でき、例えば、複数の被写体のうち、主要被写体を重視して類似度合いを判定できる。
 また、第2判定工程では、上記の類似度合いが第2制限条件を満たしているかを判定する(S012)。上記の類似度合いが第2制限条件を満たしていない(具体的には、所定のレベルに達していない)場合、#iのフレームに対して記録工程を実行する(S013)。本ステップS013では、ステップS010で検索された項目を、付帯情報として#iのフレームに記録する。
 他方、上記の類似度合いが第2制限条件を満たす場合には、#iのフレーム(第1フレーム)に対する記録工程の実行が制限され、詳しくは、#iのフレームに対して記録工程が実行されない。
 また、記録フロー中、付帯情報の記録指示に関するユーザの入力が有った場合には(S014)、プロセッサ11が、その入力を受け付ける受付け工程を実行する。その後、プロセッサ11は、#iのフレームが記録指示の入力に対応する入力フレーム、あるいは入力フレームの前又は後にある補完フレームに該当するかを判定する(S015)。
 そして、#iのフレームが入力フレーム又は補完フレームに該当する場合には、#iのフレームに対して検索工程及び記録工程を実行する(S016)。
 なお、#iのフレームが入力フレームに該当する場合の記録工程では、上記の記録指示に関する情報(例えば、記録指示の入力があった旨の情報、又はそれに対応する識別情報)が付帯情報として記録される。これにより、ユーザが記録指示の入力を行ったことを示す情報を、付帯情報として入力フレームに記録することができる。この結果、ユーザがどのようなフレームに対して記録指示を行ったのかを特定することができる。さらに、記録指示がなされるフレームに関する傾向を、上記の付帯情報が記録されたフレームに基づく機械学習等によって把握することができる。
 上述した一連の工程、特に、S005以降のステップは、動画像データの記録が終了するまで繰り返し実行される。そして、動画像データの記録が終了した時点で、記録フローが終了する。
 以上までに説明してきたように、本発明の一つの実施形態に係る記録フローでは、第1フレームに対して実行された認識工程の結果と、第2フレームに対して実行された認識工程の結果と、の類似度合いを判定する。つまり、第1フレーム内の被写体と第2フレーム内の被写体との類似度合い(換言すると、フレーム間の類似度)を判定する。
 そして、上記の類似度合いが第1制限条件を満たす場合、つまり、第1フレームと第2フレームとが類似する場合、第1フレームに対する検索工程の実行が制限される。詳しくは、第1フレームに対して検索工程が実行されない。つまり、上記の場合には、第1フレーム及び第2フレームに対する検索工程の結果が類似する可能性が高く、効率化の観点から、第1フレームに対する検索工程を制限する。
 以上の結果、動画像データを構成するフレームの数(第1数N1)よりも、検索工程が実行されるフレームの数(第2数N2)が小さくなる。すなわち、図18に示すように、検索工程の実行レートが、動画像データ記録時のフレームレートより小さくなる。これにより、検索工程の実行に係る負荷を軽減することができ、つまり、検索工程をより効率的に実行することができる。
 また、本発明の一つの実施形態に係る記録フローでは、第1フレームに対して実行された検索工程の結果と、第2フレームに対して実行された検索工程の結果と、の類似度合いを判定する。つまり、第1フレーム内の被写体に対して検索された付帯情報(項目)と、第2フレーム内の被写体に対して検索された付帯情報(項目)との類似度合いを判定する。
 そして、上記の類似度合いが第2制限条件を満たす場合、つまり、第1フレームと第2フレームとの間で付帯情報(項目)の検索結果が類似する場合、第1フレームに対する記録工程の実行が制限される。詳しくは、第1フレームに対して記録工程が実行されない。つまり、上記の場合には、第1フレーム及び第2フレームに対して記録される付帯情報が類似する可能性が高く、効率化の観点から、第1フレームに対する記録工程を制限する。
 以上の結果、検索工程が実行されるフレームの数(第2数N2)よりも、記録工程が実行されるフレームの数(第3数N3)が小さくなる。すなわち、図18に示すように、記録工程の実行レートが、動画像データ記録時のフレームレート、及び検索工程の実行レートより小さくなる。これにより、記録工程の実行に係る負荷を軽減することができ、つまり、記録工程をより効率的に実行することができる。また、第1フレームに対する記録工程の実行が制限されることで、その分、付帯情報を記録するためのデータ容量を小さくすることができる。
 また、本発明の一つの実施形態では、付帯情報の記録指示に関するユーザの入力を受け付ける。また、その入力に対応するフレーム(入力フレーム)に対して検索工程及び記録工程が実行される。これにより、入力フレームとその直前のフレーム内との間でフレーム内の被写体が類似している場合であっても、入力フレームに対して付帯情報を記録することができる。このようにユーザの意思を反映して決められるフレーム(入力フレーム)に付帯情報を記録できるので、ユーザにとって、付帯情報の記録に関する利便性が向上する。
 また、本発明の一つの実施形態では、入力フレームに加え、入力フレームの前又は後の補完フレームに対しても検索工程及び記録工程が実行される。これにより、ユーザにとっての利便性がより一層向上する。つまり、ユーザが付帯情報の記録指示を希望する本来の時点と、記録指示の入力が実際に行われるタイミングとの間にずれ(タイムラグ)が生じ得る。このような場合であっても、補完フレームに対して記録工程が実行されることで、ユーザにとって所望の時点(記録指示を希望する時点)のフレームに対して付帯情報を記録することができる。
 本発明の一つの実施形態では、類似するフレームに記録された付帯情報を用いて、非対象フレームに対して補完情報を記録する。このように非対象フレームに対して補完情報が記録されることで、本来付帯情報が記録されない非対象フレームに対して、付帯情報としての補完情報を簡易に記録することができる。
 <<その他の実施形態>>
 以上までに説明してきた実施形態は、本発明の記録方法、記録装置、及びプログラムを分かり易く説明するための具体例であり、あくまでも一例に過ぎず、その他の実施形態も考えられ得る。
 (検索工程の実行について)
 上記の実施形態において、動画像データの記録開始当初には、それぞれのフレームに対して検索工程を実行し、換言すると、検索工程の実行レートが動画像データ記録時のフレームレートと同じであることとした(図18参照)。ただし、これに限定されず、図19に示すように、動画像データの記録開始当初から、検索工程の実行レートが、動画像データ記録時のフレームレートより小さくてもよい。
 (検索工程の実行制限について)
 上記の実施形態では、検索工程の実行を制限する態様として、検索工程を実行しないことを説明した。ただし、上記の態様に限定されず、検索工程の実行を制限する態様としては、例えば、フレーム内の一部の被写体に対する検索工程を中断すること、あるいは、検索項目における項目数を減らす等して検索工程を簡素化すること等でもよい。また、過去に検索工程が実行されたフレームに対する検索結果を流用することも、検索工程の実行を制限する一つの態様に該当し得る。なお、過去の検索結果を流用したフレームに対しては、検索結果の流用を示す付帯情報が記録されるとよい。
 (記録工程の実行制限について)
 上記の実施形態では、記録工程の実行を制限する態様として、記録工程を実行しないことを説明した。ただし、上記の態様に限定されず、記録工程の実行を制限する態様としては、例えば、検索された付帯情報の一部の記録を中断すること、あるいは、記録する付帯情報の数(詳しくは項目数)を減らすこと等でもよい。
 (フレーム間の類似度合いの判定について)
 上記の実施形態では、第1フレームと第2フレームとの間の類似度合いを、各フレーム内の被写体に基づいて判定したが、その際に、被写体以外の内容を考慮してもよい。具体的には、動画像データ記録中の各時点における撮影機器の向き、被写体の動き、及び被写体が発する音声等を加味して、フレーム間の類似度合いを判定してもよい。そして、これらの内容に基づき、第1フレームと第2フレームとが互いに相違すると判定された場合には、検索工程の実行レートを、それまでのレートよりも大きくするとよい。
 (本発明の記録装置を構成する装置・機器について)
 上記の実施形態では、動画の撮影機器(つまり、動画像データを記録する機器)が本発明の記録装置を構成することとした。ただし、これに限定されず、撮影機器とは別の機器、例えば、動画の撮影後に動画像データを撮影機器から取得してデータ編集を行う編集機器が本発明の記録装置を構成してもよい。
 (認識工程、検索工程及び記録工程の実行時期について)
 上記の実施形態では、動画像データを記録しながら、その動画像データ中のフレームに対して認識工程、検索工程及び記録工程を実行することとした。この場合、過去のフレームを第2フレームとし、第2フレームよりも後のフレーム(例えば、現時点のフレーム)を第1フレームとし、第1フレームと第2フレームとの間で類似度合いを判定することになる。そして、類似度合いが第1制限条件又は第2制限条件を満たす場合には、第1フレームに対する検索工程又は記録工程の実行が制限される。
 ただし、これに限定されるものではなく、動画像データの記録が終了した後に、その動画像データ中のフレームに対して認識工程、検索工程及び記録工程を実行してもよい。その場合には、動画像データ中の最終フレームから順に認識工程、検索工程及び記録工程を実行してもよい。換言すると、第1フレームを第2フレームよりも前のフレームに設定して、フレーム間の類似度合いを判定し、また、各制限条件の成否を判定してもよい。
 (付帯情報が保存されるデータの変形例)
 上記の実施形態では、フレームに対する付帯情報が動画像データの一部(詳しくは、フレームのデータ構造におけるボックス領域)に保存されることとした。ただし、これに限定されず、図20に示すように、付帯情報が動画像データとは異なるデータファイルに保存されてもよい。この場合、付帯情報が保存されるデータファイル(以下、付帯情報ファイルDF)は、その付帯情報が付加されたフレームを含む動画像データMDと紐付けられ、具体的には、その動画像データの識別IDを含んでいる。また、付帯情報ファイルDFには、図20に示すように、付帯情報が記録されたフレームの番号と、そのフレーム内の被写体に関する付帯情報がフレーム毎に記憶されている。
 以上のように付帯情報を動画像データとは別のデータファイルに保存することにより、動画像データの容量の増加を抑えつつ、動画像データ中のフレームに対する付帯情報を適切に記録することができる。
 なお、上記の付帯情報ファイルDFに付帯情報をフレーム毎に記録する態様には、動画像データを構成する複数のフレーム中、付帯情報が記載されていないフレームが存在する態様が含まれてもよい。
 (プロセッサの構成について)
 本発明の記録装置が備えるプロセッサには、各種のプロセッサが含まれる。各種のプロセッサには、例えば、ソフトウェア(プログラム)を実行して各種の処理部として機能する汎用的なプロセッサであるCPUが含まれる。
 また、各種のプロセッサには、FPGA(Field Programmable Gate Array)等の製造後に回路構成を変更可能なプロセッサであるPLD(Programmable Logic Device)が含まれる。
 さらに、各種のプロセッサには、ASIC(Application Specific Integrated Circuit)等の特定の処理をさせるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。
 また、本発明の記録装置が有する1つの機能部を、上述した各種のプロセッサのうちの1つによって構成してもよい。あるいは、本発明の記録装置が有する1つの機能部を、同種又は異種の2つ以上のプロセッサの組み合わせ、例えば、複数のFPGAの組み合わせ、若しくは、FPGA及びCPUの組み合わせ等によって構成してもよい。
 また、本発明の記録装置が有する複数の機能部を、各種のプロセッサのうちの1つによって構成してもよいし、複数の機能部のうちの2以上をまとめて1つのプロセッサによって構成してもよい。
 また、上述の実施形態のように、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサが複数の機能部として機能する形態でもよい。
 また、例えば、SoC(System on Chip)等に代表されるように、本発明の記録装置における複数の機能部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態でもよい。また、上述した各種のプロセッサのハードウェア的な構成は、半導体素子等の回路素子を組み合わせた電気回路(Circuitry)でもよい。
 10 記録装置
 11 プロセッサ
 12 メモリ
 13 入力機器
 14 出力機器
 15 ストレージ
 21 取得部
 22 入力受付部
 23 検出部
 24 認識部
 25 第1判定部
 26 検索部
 27 第2判定部
 28 記録部
 29 補完部
 DF 付帯情報ファイル
 MD 動画像データ

Claims (13)

  1.  複数のフレームにより構成される動画像データ中のフレームに対して付帯情報を記録する記録方法であって、
     前記フレーム内の被写体を、前記フレーム毎に認識する認識工程と、
     前記付帯情報のうち、認識された前記被写体に対して記録可能な前記付帯情報を検索する検索工程と、
     前記検索工程の結果に基づいて、前記フレームに対して前記付帯情報を記録する記録工程と、を備え、
     前記動画像データを構成する前記フレームの数を第1数とし、前記検索工程が実行される前記フレームの数を第2数とした場合に、前記第2数が前記第1数より小さい、記録方法。
  2.  前記検索工程は、被写体又は画角のブレが検出された前記フレームに対して実行されない、請求項1に記載の記録方法。
  3.  前記複数のフレームのうち、第1フレームに対して実行された前記認識工程の結果と、前記第1フレームと異なる第2フレームに対して実行された前記認識工程の結果と、の類似度合いを判定する第1判定工程をさらに備え、
     前記第1判定工程にて判定された前記類似度合いが、前記検索工程の実行に関する第1制限条件を満たす場合に、前記第1フレームに対する前記検索工程の実行が制限される、請求項1又は2に記載の記録方法。
  4.  前記第1フレーム及び前記第2フレームに対して、前記認識工程で複数の被写体が認識された場合、前記第1判定工程では、前記複数の被写体に対して優先度を設定し、前記複数の被写体の前記優先度に基づいて前記類似度合いを判定する、請求項3に記載の記録方法。
  5.  前記記録工程にて前記付帯情報が記録されるフレームの数を第3数とした場合に、前記第3数が前記第2数より小さい、請求項1に記載の記録方法。
  6.  前記複数のフレームのうち、第1フレームに対して実行された前記検索工程の結果と、前記第1フレームと異なる第2フレームに対して実行された前記検索工程の結果と、の類似度合いを判定する第2判定工程をさらに備え、
     前記第2判定工程にて判定された前記類似度合いが、前記記録工程の実行に関する第2制限条件を満たす場合に、前記第1フレームに対する前記記録工程の実行が制限される、請求項5に記載の記録方法。
  7.  前記第1フレーム及び前記第2フレームに対する前記検索工程において、複数の被写体に対して、記録可能な前記付帯情報が検索された場合、前記第2判定工程では、前記複数の被写体に対して優先度を設定し、前記複数の被写体の前記優先度に基づいて前記類似度合いを判定する、請求項6に記載の記録方法。
  8.  前記付帯情報の記録指示に関するユーザの入力を受け付ける受付け工程をさらに備え、
     前記複数のフレームのうち、前記ユーザの入力に対応する入力フレームに対して、前記記録工程が実行されて前記付帯情報が記録される、請求項1に記載の記録方法。
  9.  前記入力フレームに対する前記記録工程では、前記記録指示に関する情報が前記付帯情報として記録される、請求項8に記載の記録方法。
  10.  前記複数のフレームのうち、前記入力フレーム、及び、前記入力フレームの前又は後の補完フレームに対して前記記録工程が実行されて前記付帯情報が記録される、請求項8に記載の記録方法。
  11.  前記付帯情報は、前記動画像データとは異なるデータファイルに保存される、請求項1に記載の記録方法。
  12.  プロセッサを備え、複数のフレームにより構成される動画像データ中のフレームに対して付帯情報を記録する記録装置であって、
     前記プロセッサが、
     前記フレーム内の被写体を、前記フレーム毎に認識する認識処理と、
     前記付帯情報のうち、認識された前記被写体に対して記録可能な前記付帯情報を検索する検索処理と、
     前記検索処理の結果に基づいて、前記フレームに対して前記付帯情報を記録する記録処理と、を実行し、
     前記動画像データを構成する前記フレームの数を第1数とし、前記検索処理が実行される前記フレームの数を第2数とした場合に、前記第2数が前記第1数より小さい、記録装置。
  13.  請求項1に記載された記録方法に含まれる前記認識工程、前記検索工程及び前記記録工程のそれぞれを、コンピュータに実施させるためのプログラム。
PCT/JP2022/046895 2022-03-30 2022-12-20 記録方法、記録装置、及びプログラム WO2023188606A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022056153 2022-03-30
JP2022-056153 2022-03-30

Publications (1)

Publication Number Publication Date
WO2023188606A1 true WO2023188606A1 (ja) 2023-10-05

Family

ID=88200046

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/046895 WO2023188606A1 (ja) 2022-03-30 2022-12-20 記録方法、記録装置、及びプログラム

Country Status (1)

Country Link
WO (1) WO2023188606A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004234228A (ja) * 2003-01-29 2004-08-19 Seiko Epson Corp 画像検索装置、画像検索装置におけるキーワード付与方法、及びプログラム
JP2009271752A (ja) * 2008-05-08 2009-11-19 Fujifilm Corp キーワード設定方法、プログラムおよび装置
JP2013242640A (ja) * 2012-05-18 2013-12-05 Olympus Corp 画像検索装置及びその方法、画像検索プログラム
JP2017204692A (ja) * 2016-05-10 2017-11-16 キヤノン株式会社 撮像装置、遠隔制御装置、制御方法及びプログラム並びに記憶媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004234228A (ja) * 2003-01-29 2004-08-19 Seiko Epson Corp 画像検索装置、画像検索装置におけるキーワード付与方法、及びプログラム
JP2009271752A (ja) * 2008-05-08 2009-11-19 Fujifilm Corp キーワード設定方法、プログラムおよび装置
JP2013242640A (ja) * 2012-05-18 2013-12-05 Olympus Corp 画像検索装置及びその方法、画像検索プログラム
JP2017204692A (ja) * 2016-05-10 2017-11-16 キヤノン株式会社 撮像装置、遠隔制御装置、制御方法及びプログラム並びに記憶媒体

Similar Documents

Publication Publication Date Title
WO2020192483A1 (zh) 图像显示方法和设备
KR20230013243A (ko) 프레임에서 타겟 오브젝트를 위한 고정된 크기 유지
US11276177B1 (en) Segmentation for image effects
CN112446380A (zh) 图像处理方法和装置
CN112639828A (zh) 数据处理的方法、训练神经网络模型的方法及设备
CN112446834A (zh) 图像增强方法和装置
CN109565551A (zh) 对齐于参考帧合成图像
WO2023024697A1 (zh) 图像拼接方法和电子设备
US20220148291A1 (en) Image classification method and apparatus, and image classification model training method and apparatus
WO2023011013A1 (zh) 视频图像的拼缝搜索方法、视频图像的拼接方法和装置
US11385526B2 (en) Method of processing image based on artificial intelligence and image processing device performing the same
CN111147751B (zh) 拍照模式的生成方法、装置和计算机可读存储介质
WO2021045599A1 (ko) 비디오 영상에 보케 효과를 적용하는 방법 및 기록매체
CN113065645A (zh) 孪生注意力网络、图像处理方法和装置
CN110222718A (zh) 图像处理的方法及装置
CN111598065A (zh) 深度图像获取方法及活体识别方法、设备、电路和介质
TW202223834A (zh) 神經嵌入之攝影機影像視訊處理管道及神經網路訓練系統
Ahmadi et al. Efficient and fast objects detection technique for intelligent video surveillance using transfer learning and fine-tuning
WO2023188606A1 (ja) 記録方法、記録装置、及びプログラム
WO2023188652A1 (ja) 記録方法、記録装置、及びプログラム
WO2021190412A1 (zh) 一种生成视频缩略图的方法、装置和电子设备
CN114693986A (zh) 主动学习模型的训练方法、图像处理方法及装置
Allaert et al. Optical Flow Techniques for Facial Expression Analysis--a Practical Evaluation Study
JP2019071047A (ja) ビデオシーケンスのフレームを選択する方法、システム、及び、装置
Bekhit Computer Vision and Augmented Reality in iOS

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22935733

Country of ref document: EP

Kind code of ref document: A1