WO2022244180A1

WO2022244180A1 - 動画マニュアル作成装置、動画マニュアル作成方法、及び動画マニュアル作成プログラム

Info

Publication number: WO2022244180A1
Application number: PCT/JP2021/019151
Authority: WO
Inventors: 幸典遠藤
Original assignee: 三菱電機株式会社
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2022-11-24
Also published as: JPWO2022244180A1; US20240071113A1; JP7023427B1; CN117280339A

Abstract

動画マニュアル作成装置（１００）は、文書解析部（１０１）と、動画解析部（１０２）と、文章情報データ（Ｄ１０１）から名詞と動詞との組である第１の組（１５０）を収集し、物体情報データ（Ｄ１０３）及び動作情報データ（Ｄ１０４）から物体と動作との組である第２の組（１６０ａ、１６０ｂ）を収集し、これらの組から、名詞と物体とが対応し且つ動詞と動作とが対応する第１の組と第２の組とを検索し、検索によって得られた第１の組が記載されている作業手順内の位置（１５１）と、検索によって得られた第２の組が含まれている動画内のシーン（１６１）との対応を示すリンク情報データ（Ｄ１０６）を生成するリンク情報生成部（１０６）と、リンク情報データ（Ｄ１０６）に基づいて、作業手順と動画と名詞と動詞とを含む動画マニュアルをディスプレイに表示させる動画マニュアルデータ（Ｄ１０７）を生成する動画マニュアル生成部（１０７）とを有する。

Description

動画マニュアル作成装置、動画マニュアル作成方法、及び動画マニュアル作成プログラム

　本開示は、動画マニュアル作成装置、動画マニュアル作成方法、及び動画マニュアル作成プログラムに関する。

　文章及び動画を用いたマルチメディアマニュアルである動画マニュアルを作成する方法の提案がある。例えば、特許文献１を参照。この方法では、動画を解析し、作業者が工具又は部品などを使用しているときの時刻情報と物体情報（例えば、工具名）とからなるイベントリストを作成し、動画にイベントの時刻情報を付与することで、動画マニュアルを作成する。

特開２００８－２２５８８３号公報

　しかしながら、上記動画マニュアルでは、物体（例えば、対象物、道具）と人の動作（例えば、作業者の動き）との対応が分かりにくいという課題がある。

　本開示は、物体と人の動作との対応が分かりやすい動画マニュアルを作成可能な動画マニュアル作成装置、動画マニュアル作成方法、及び動画マニュアル作成プログラムを提供することを目的とする。

　本開示の動画マニュアル作成装置は、作業手順が記載された作業手順書ファイルを解析して、前記作業手順書ファイルに含まれている文章の構造を示す文章情報データを生成する文書解析部と、前記作業手順に従う作業を撮影した動画の動画ファイルを解析して、前記動画に含まれている物体を示す物体情報データを生成し、前記動画に含まれている人の動作を示す動作情報データを生成する動画解析部と、前記文章情報データから、前記文章に含まれている名詞と動詞との組である第１の組を収集し、前記物体情報データ及び前記動作情報データから、前記動画に含まれている前記物体と前記動作との組である第２の組を収集し、収集された前記第１の組と収集された前記第２の組とから、前記名詞と前記物体とが対応し且つ前記動詞と前記動作とが対応する前記第１の組と前記第２の組とを検索し、前記検索によって得られた前記第１の組が記載されている前記作業手順内の位置と、前記検索によって得られた前記第２の組が含まれている前記動画内のシーンとの対応を示すリンク情報データを生成するリンク情報生成部と、前記リンク情報データに基づいて、前記作業手順と前記動画と前記名詞と前記動詞とを含む動画マニュアルをディスプレイに表示させる動画マニュアルデータを生成する動画マニュアル生成部と、を有することを特徴とする。

　本開示の動画マニュアル作成方法は、動画マニュアルデータを作成する動画マニュアル作成装置が実行する方法であって、作業手順が記載された作業手順書ファイルを解析して、前記作業手順書ファイルに含まれている文章の構造を示す文章情報データを生成するステップと、前記作業手順に従う作業を撮影した動画の動画ファイルを解析して、前記動画に含まれている物体を示す物体情報データを生成し、前記動画に含まれている人の動作を示す動作情報データを生成するステップと、前記文章情報データから、前記文章に含まれている名詞と動詞との組である第１の組を収集し、前記物体情報データ及び前記動作情報データから、前記動画に含まれている前記物体と前記動作との組である第２の組を収集し、収集された前記第１の組と収集された前記第２の組とから、前記名詞と前記物体とが対応し且つ前記動詞と前記動作とが対応する前記第１の組と前記第２の組とを検索し、前記検索によって得られた前記第１の組が記載されている前記作業手順内の位置と、前記検索によって得られた前記第２の組が含まれている前記動画内のシーンとの対応を示すリンク情報データを生成するステップと、前記リンク情報データに基づいて、前記作業手順と前記動画と前記名詞と前記動詞とを含む動画マニュアルをディスプレイに表示させる動画マニュアルデータを生成するステップと、を有することを特徴とする。

　本開示によれば、物体と人の動作との対応が分かりやすい動画マニュアルを作成することができる。

実施の形態１に係る動画マニュアル作成装置の構成を概略的に示す機能ブロック図である。実施の形態１に係る動画マニュアル作成装置によって作成された動画マニュアルの例（その１）を示す図である。実施の形態１に係る動画マニュアル作成装置によって作成された動画マニュアルの例（その２）を示す図である。実施の形態１に係る動画マニュアル作成装置及び表示制御装置を実現するシステム（例えば、コンピュータ）のハードウェア構成の例を示す図である。文書解析部によって生成された文章情報データの構成例を示す図である。動画解析部の物体検出部によって生成された物体情報データの構成例を示す図である。動画解析部の動作検出部によって生成された動作情報データの構成例を示す図である。リンク情報生成部によって生成されたリンク情報データの構成例を示す図である。文書解析部による文章情報データの生成処理を示すフローチャートである。文書解析部によって生成された文章情報データのツリー構造の例を示す図である。動画解析部の物体検出部による物体情報データの生成処理を示すフローチャートである。動画解析部の物体検出部によって生成された文章情報データのツリー構造の例を示す図である。動画解析部の動作検出部による動作情報データの生成処理を示すフローチャートである。動画解析部の動作検出部によって生成された動作情報データのツリー構造の例を示す図である。リンク情報生成部によるリンク情報データの生成処理を示すフローチャートである。リンク情報生成部によるリンク情報データのツリー構造の生成処理を示す図である。動画マニュアル生成部による動画マニュアルの生成処理を示すフローチャートである。表示制御装置による動画マニュアルの表示処理を示すフローチャートである。実施の形態２に係る動画マニュアル作成装置の構成を概略的に示す機能ブロック図である。実施の形態２に係る動画マニュアル作成装置及び表示制御装置を実現するシステム（例えば、コンピュータ）のハードウェア構成の例を示す図である。実施の形態２に係る動画マニュアル作成装置の音声解析部によって行われる処理を示すフローチャートである。実施の形態２に係る動画マニュアル作成装置の音声解析部によって生成された音声データのツリー構造の例を示す図である。実施の形態２に係る動画マニュアル作成装置のリンク情報生成部によるリンク情報データの生成処理を示すフローチャートである。実施の形態３に係る動画マニュアル作成装置の構成を概略的に示す機能ブロック図である。実施の形態３に係る動画マニュアル作成装置及び表示制御装置を実現するシステム（例えば、コンピュータ）のハードウェア構成の例を示す図である。実施の形態３に係る動画マニュアル作成装置における動画記録部と物体検出部の並列処理を示すフローチャートである。実施の形態４に係る動画マニュアル作成装置の構成を概略的に示す機能ブロック図である。実施の形態４に係る動画マニュアル作成装置によって生成された動画マニュアルをＡＲ（拡張現実）グラスに表示するための表示制御装置の構成を示す図である。実施の形態４に係る動画マニュアル作成装置及び表示制御装置を実現するシステム（例えば、コンピュータ）のハードウェア構成の例を示す図である。実施の形態４に係る動画マニュアル作成装置の重畳位置合わせ制御部による処理を示すフローチャートである。

　以下に、実施の形態に係る動画マニュアル作成装置、動画マニュアル作成方法、及び動画マニュアル作成プログラムを、図面を参照しながら説明する。以下の実施の形態は、例にすぎず、実施の形態を適宜組み合わせること及び各実施の形態を適宜変更することが可能である。

実施の形態１．
　図１は、実施の形態１に係る動画マニュアル作成装置１００の構成を概略的に示す機能ブロック図である。動画マニュアル作成装置１００は、実施の形態１に係る動画マニュアル作成方法を実行することができる装置である。動画マニュアル作成装置１００によって作成された動画マニュアルデータＤ１０７は、表示制御装置１１０に出力される。表示制御装置１１０は、動画再生の制御を行う動画再生制御部１１２と、動画マニュアルの表示動作を制御する動画マニュアル表示制御部１１１とを有する。表示制御装置１１０は、映像表示装置としてのディスプレイ１２０に動画マニュアルを表示させる。動画マニュアル作成装置１００、表示制御装置１１０、及びディスプレイ１２０は、人（例えば、作業者）に動画マニュアルを提示する動画マニュアル提示システムを構成する。また、表示制御装置１１０は、動画マニュアル作成装置１００の一部であってもよい。

　図１に示されるように、動画マニュアル作成装置１００は、文書解析部１０１と、動画解析部１０２と、リンク情報生成部１０６と、動画マニュアル生成部１０７とを有する。動画解析部１０２は、物体検出部１０３と、動作検出部１０４とを有する。

　文書解析部１０１は、作業手順書が記述された作業手順書ファイルを解析して、作業手順書ファイルに含まれている文章の構造を示す文章情報データＤ１０１を生成する。文書解析部１０１は、文章に含まれている名詞と動詞を収集する。例えば、名詞は、物体の名称を示す単語であり、動詞は、人（例えば、作業者）の動き示す単語である。

　動画解析部１０２は、作業手順に従う作業を撮影した動画の動画ファイルを解析する。動画解析部１０２の物体検出部１０３は、動画に含まれている物体を検出して、物体を示す物体情報データＤ１０３を生成する。動画解析部１０２の動作検出部１０４は、動画に含まれている人の動作を検出し、動作を示す動作情報データＤ１０４を生成する。物体は、作業の対象物、作業で使用される道具、及び人の身体部位のうちの少なくとも１つを含む。

　リンク情報生成部１０６は、文章情報データＤ１０１から、文章に含まれている名詞と動詞との組である第１の組を収集し、物体情報データＤ１０３及び動作情報データＤ１０４から、動画に含まれている物体と、人の動作との組である第２の組を収集する。リンク情報生成部１０６は、収集された第１の組（後述の図４における１５０）と収集された第２の組（後述の図６、図７における１６０ａ、１６０ｂ）とから、名詞と物体とが対応し且つ動詞と動作とが対応する第１の組と第２の組とを検索する。リンク情報生成部１０６は、検索によって得られた第１の組が記載されている作業手順書内の位置（後述の図８における１５１）と、検索によって得られた第２の組が含まれている動画内のシーン（後述の図８における１６１）との対応を示すリンク情報データＤ１０６を生成する。

　動画マニュアル生成部１０７は、作業手順書ファイル、動画ファイル、及びリンク情報データＤ１０６に基づいて、作業手順と動画と名詞と動詞とを含む動画マニュアルをディスプレイに表示させるために用いられる動画マニュアルデータＤ１０７を生成する。

　図２及び図３は、動画マニュアル作成装置１００によって作成されディスプレイ１２０に表示された動画マニュアルの例（その１、その２）を示す図である。図２及び図３では、ディスプレイ１２０の左半分に作業手順書の内容が表示され、右半分に動画が表示されている。図２は、作業手順書の項目３の文章「左手で基板を押さえながら、右手のドライバで四隅のネジを回す。」から、名詞である「左手」、「基板」、「右手」、「ドライバ」、及び「ネジ」を抽出し、動画中の名詞に対応する物体である、作業の対象物（例えば、基板、ネジ）、作業に使う道具（例えば、工具）、作業者の身体部位（例えば、左手、右手）の近傍に、対応する名詞を表示する例を示している。図３は、作業手順書の項目３の文章から、動詞である「押さえ（る）」及び「回す」を抽出し、動画中の動詞に対応する動作を行う身体部位の近傍に、対応する動詞を表示する例を示している。

　図４は、動画マニュアル作成装置１００及び表示制御装置１１０を実現するシステムであるコンピュータのハードウェア構成の例を示す図である。図４に示されるように、コンピュータは、情報を処理するプロセッサであるＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）５１０と、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）などの主メモリ５２０と、ハードディスクドライブ（ＨＤＤ）又はソリッドステートドライブ（ＳＳＤ）など記憶デバイス５３０と、出力インタフェース（Ｉ／Ｆ）５４０と、入力Ｉ／Ｆ５５０と、通信Ｉ／Ｆ５６０と、画像処理プロセッサ５７０とを有する。コンピュータには、ディスプレイ１２０、タッチパネル１２１、キーボード／マウス１２２、ビデオカメラ／マイク１２３、ネットワーク１２５、タブレット／スマートフォン１２４が接続される。

　動画マニュアル作成装置１００及び表示制御装置１１０の各機能は、処理回路により実現されてもよい。処理回路は、専用のハードウェアであってもよいし、主メモリに格納されるプログラム（例えば、動画マニュアル作成プログラム、表示制御プログラム、など）を実行するプロセッサであってもよい。

　動画マニュアル作成装置１００及び表示制御装置１１０の各機能は、一部を専用のハードウェアで実現し、一部をソフトウェア又はファームウェアで実現するようにしてもよい。このように、処理回路は、ハードウェア、ソフトウェア、ファームウェア、又はこれらのうちのいずれかの組み合わせによって、図１に示される各機能ブロックの機能を実現することができる。

　図５は、文書解析部１０１によって生成された文章情報データＤ１０１の構成例を示す図である。図５において、矢印は定義データ間の階層構造を示し、矢先は、下位の階層を向いている。また、図５において、「手続き」は１つの文章を示す。図５は、文章情報データＤ１０１が１つ以上の「文書」で構成され、各「文書」が１つ以上の「章」で構成され、各「章」が１つ以上の「節」で構成され、各「節」が１つ以上の文章としての「手続き」で構成され、各「手続き」が「物体」である「対象物」及び「道具」と「動作」とによって構成される例を示している。

　図６は、動画解析部１０２の物体検出部１０３によって生成された物体情報データＤ１０３の構成例を示す図である。図６の物体情報データＤ１０３では、各「動画」が１つ以上の「フレーム画像」で構成され、各「フレーム画像」が１つ以上の「物体（対象物又は道具）」を含み、各「物体」が「画面内座標位置」を示す１つ以上の座標で構成される例を示している。また、フレームレート値の逆数にフレーム番号を乗算することで、動画の先頭からの再生時間を表すこともできる。

　図７は、動画解析部１０２の動作検出部１０４によって生成された動作情報データＤ１０４の構成例を示す図である。図７の動作情報データＤ１０４では、各「動画」が１つ以上の「フレーム画像」で構成され、各「フレーム画像」が１つ以上の「物体（対象物又は道具）」を含み、各「物体」が「画面内座標位置」を示す１つ以上の座標と「動き方向」を示す矢印の根座標（すなわち、矢印の後端の座標）と矢印の先座標（すなわち、矢印の先端の座標）とで構成される例を示している。

　図８は、リンク情報生成部１０６によって生成されたリンク情報データＤ１０６の構成例を示す図である。図８のリンク情報データＤ１０６は、図５の文章情報データＤ１０１と、図６の物体情報データＤ１０３と、図７の動作情報データＤ１０４とから構成される。図８のリンク情報データＤ１０６では、各「手続き」が「物体（対象物）」及び「物体（道具又は身体部位）」と「動作」とによって構成される例を示している。

　図９は、文書解析部１０１による文章情報データＤ１０１の生成処理を示すフローチャートである。先ず、文書解析部１０１は、文書ファイルとしての作業手順書ファイルを読み込み（ステップＳ１０１）、読み込んだ文章の位置の章節番号（すなわち、章番号と節番号）が作業手順書の最後の章節番号であるか否かを判断する（ステップＳ１０２）。文書解析部１０１は、最後の章節番号であれば（ステップＳ１０２においてＹＥＳ）、文章情報データＤ１０１の生成処理を終了する。文書解析部１０１は、最後の章節番号でなければ（ステップＳ１０２においてＮＯ）、章番号と節番号の階層ツリー（後述の図１０に示される。）に基づいてノードを生成する（ステップＳ１０３）。

　文書解析部１０１は、最後の「手続き」（すなわち、文章又はテキスト）であるか否かを判断し（ステップＳ１０４）、最後の「手続き」であれば（ステップＳ１０４においてＹＥＳ）、処理をステップＳ１０２に戻す。文書解析部１０１は、最後の「手続き」でなければ（ステップＳ１０４においてＮＯ）、当該節番号の「手続き」を切り出す（ステップＳ１０５）。

　文書解析部１０１は、形態素解析により単語を切り出し、単語の品詞を判別する（ステップＳ１０６）。文書解析部１０１は、辞書を用いて構文解析を行い、物体である対象物（名詞）、物体である道具（名詞）、及び動作（動詞）毎に、ノードを生成する（ステップＳ１０７）。文書解析部１０１は、ステップＳ１０４～Ｓ１０７の処理を、最後の「手続き」まで繰り返し行う。

　図１０は、文書解析部１０１によって生成された文章情報データＤ１０１のツリー構造の例を示す図である。図１０に示されるように、「文書」は、１つ以上のノードである「章」で構成され、各「章」は１つ以上のノードである「節」から構成され、各「節」は、１つ以上のノードである「手続き」（文章又はテキスト）で構成され、各「手続き」は、１つ以上のノードである物体及び１つ以上のノードである動作で構成される。

　図１１は、動画解析部１０２の物体検出部１０３による物体情報データＤ１０３の生成処理を示すフローチャートである。先ず、物体検出部１０３は、カメラ撮影によって得られた動画ファイル（すなわち、映像ファイル）を読み込み（ステップＳ１１１）、読み込んだ動画ファイルのフレーム画像が最後のフレーム画像のフレーム番号であるか否かを判断する（ステップＳ１１２）。物体検出部１０３は、最後のフレーム番号であれば（ステップＳ１１２においてＹＥＳ）、物体情報データＤ１０３の生成処理を終了する。物体検出部１０３は、最後のフレーム番号でなければ（ステップＳ１１２においてＮＯ）、フレーム画像毎にノード（後述の図１２に示される。）を生成する（ステップＳ１１３）。

　次に、物体検出部１０３は、画像解析処理に基づいて、当該画像中の物体（例えば、対象物、道具、身体部位）を検出する。物体検出部１０３は、未検出の物体である他の物体があるか否かを判断し（ステップＳ１１５）、他の物体がなければ（ステップＳ１１５においてＮＯ）、処理をステップＳ１１２に戻す。物体検出部１０３は、他の物体があれば（ステップＳ１１５においてＹＥＳ）、物体毎にノード（後述の図１２に示される。）を生成し（ステップＳ１１６）、物体毎に座標位置ノード（後述の図１２に示される。）を生成する（ステップＳ１１７）。

　図１２は、物体検出部１０３によって生成された物体情報データＤ１０３のツリー構造の例を示す図である。図１２に示されるように、「動画」は、１つ以上のノードである「フレーム画像」（フレーム番号０００１～１２３４）で構成され、各「フレーム画像」は１つ以上のノードである「物体」から構成され、各「物体」は、１つ以上のノードである「座標位置」で構成される。

　図１３は、動作検出部１０４による動作情報データＤ１０４の生成処理を示すフローチャートである。先ず、動作検出部１０４は、動画ファイルを読み込み（ステップＳ１２１）、読み込んだ動画ファイルのフレーム画像が最後のフレーム画像のフレーム番号であるか否かを判断する（ステップＳ１２２）。動作検出部１０４は、最後のフレーム番号であれば（ステップＳ１２２においてＹＥＳ）、動作情報データＤ１０４の生成処理を終了する。動作検出部１０４は、最後のフレーム番号でなければ（ステップＳ１２２においてＮＯ）、フレーム画像毎にノード（後述の図１４に示される。）を生成する（ステップＳ１２３）。

　次に、動作検出部１０４は、骨格抽出処理に基づいて、当該画像中の動作（例えば、手の動き）を検出する（ステップＳ１２４）。次に、動作検出部１０４は、動作毎にノード（後述の図１４に示される。）を生成し（ステップＳ１２５）、動作の座標位置と動き方向毎にノード（後述の図１４に示される。）を生成する（ステップＳ１２６）。

　図１４は、動作検出部１０４によって生成された動作情報データＤ１０４のツリー構造の例を示す図である。図１４に示されるように、「動画」は、１つ以上のノードである「フレーム画像」（フレーム番号０００１～１２３４）で構成され、各「フレーム画像」は１つ以上のノードである「動作」（姿勢を含む）から構成され、各「動作」は、１つ以上のノードである「座標位置」、「動き方向」で構成される。

　図１５は、リンク情報生成部１０６によるリンク情報データＤ１０６の生成処理を示すフローチャートである。先ず、リンク情報生成部１０６は、文章情報データＤ１０１のツリー（例えば、図１０）を読み込み（ステップＳ１３１）、読み込んだ文章情報データＤ１０１のツリー構造が最後の章節番号（すなわち、章番号と節番号）のものであるか否かを判断する（ステップＳ１３２）。リンク情報生成部１０６は、最後の章節番号であれば（ステップＳ１３２においてＹＥＳ）、リンク情報データＤ１０６を記憶デバイス５３０に保存して（ステップＳ１３３）、リンク情報データＤ１０６の生成処理を終了する。リンク情報生成部１０６は、最後の章節番号でなければ（ステップＳ１３２においてＮＯ）、当該「手続き」の３要素の組｛物体である対象物、物体である道具、人の動作｝のノードを取得する（ステップＳ１３４）。

　次に、リンク情報生成部１０６は、物体情報データＤ１０３のツリー（例えば、図１２）及び動作情報データＤ１０４のツリー（例えば、図１４）からなる物体情報／動作情報データの混合ツリーを検索し（ステップＳ１３５）、３要素が一致するシーンが開始したかどうかを判断する（ステップＳ１３６）。３要素が一致するシーンが開始した場合（ステップＳ１３６においてＹＥＳ）、リンク情報生成部１０６は、開始シーンのシーン情報を保存して（ステップＳ１３７）、処理をステップＳ１３６に戻す。３要素が一致するシーンがない場合（ステップＳ１３６においてＮＯ）、リンク情報生成部１０６は、３要素が一致するシーンの終了シーンの有無を判断する（ステップＳ１３８）。

　リンク情報生成部１０６は、３要素が一致するシーンの終了シーンの有無を判断する（ステップＳ１３８）。終了シーンがある場合（ステップＳ１３８においてＹＥＳ）、リンク情報生成部１０６は、終了フレームのシーン情報を保存する（ステップＳ１３９）。

　次に、リンク情報生成部１０６は、当該「手続き」ノードとシーン情報ノード（シーンの開始時刻と終了時刻）間のリンクを生成する（ステップＳ１４０）。リンク情報生成部１０６は、当該「手続き」の３要素のノードへの座標位置及び動き方向情報のリンクを生成する（ステップＳ１４１）。

　図１６は、リンク情報生成部１０６によるリンク情報データＤ１０６のツリー構造の生成処理を示す図である。図１６は、リンク情報生成部１０６が、文章情報データＤ１０１のツリーの「手続き」と物体情報／動作情報データの混合のツリーのフレーム画像とをリンク付けし、リンク情報データＤ１０６のツリーを作成することを示している。

　図１７は、動画マニュアル生成部１０７による動画マニュアルの生成処理を示すフローチャートである。動画マニュアル生成部１０７は、作業手順書ファイルを読み込み（ステップＳ１５１）、リンク情報データＤ１０６を読み込み（ステップＳ１５２）、読み込んだ作業手順書ファイルの章節番号が最後の章節番号であるか否かを判断する（ステップＳ１５３）。動画マニュアル生成部１０７は、最後の章節番号であれば（ステップＳ１５３においてＹＥＳ）、動画マニュアルデータＤ１０７の生成処理を終了する。動画マニュアル生成部１０７は、最後の章節番号でなければ（ステップＳ１５３においてＮＯ）、作業手順書内の当該章節番号のテキスト位置を特定する（ステップＳ１５４）。

　次に、動画マニュアル生成部１０７は、リンク情報データ内の当該章節番号に対応するシーン情報（例えば、再生開始時刻）を取得し、当該章節番号のテキスト位置へのシーン情報のリンクを生成する（例えば、リンクコードを埋め込む）。

　図１８は、表示制御装置１１０による動画マニュアルの表示処理を示すフローチャートである。先ず、表示制御装置１１０は、動画マニュアルデータＤ１０７の作業手順書画面上で章節番号の指定（例えば、ユーザによるクリック）を受け付ける（ステップＳ１６１）。次に、表示制御装置１１０は、当該リンクコードの実行により、作業動画画面上で再生開始位置へジャンプする（ステップＳ１６２）。

　次に、表示制御装置１１０は、動画から画像１フレームを読み込む（ステップＳ１６３）。表示制御装置１１０は、再生位置が再生終了位置であるかどうかを判断し（ステップＳ１６４）、再生終了位置であれば（ステップＳ１６４においてＹＥＳ）、動画の再生を停止する（ステップＳ１６９）。

　表示制御装置１１０は、再生位置が再生終了位置でなければ（ステップＳ１６４においてＮＯ）、作業手順書画面上で当該「手続き」内の物体である対象物又は道具、及び動作の指定（クリック）を受け付ける（ステップＳ１６５）。

　次に、表示制御装置１１０は、リンク情報テーブルを参照して、指定された項目の座標位置、動き方向情報を取得する（ステップＳ１６６）。次に、表示制御装置１１０は、現在の画像フレーム内の所望位置に強調マークを重畳する（ステップＳ１６７）。次に、表示制御装置１１０は、現在の画像フレーム内の所望位置に強調マークを重畳し、動画を再生して表示する（ステップＳ１６８）。

　以上に説明したように、実施の形態１に係る動画マニュアル作成装置１００は、作業手順書の章節内の「手続き」と、作業動画の対応するシーンの対応付け（例えば、時刻との対応付け）において、物体としての対象物、物体としての道具、及び人の動作のうちの少なくとも２種類以上の情報の組が一致するデータ同士を検索、照合するようにしている。このため、照合誤りの発生率を低くすることができる。

　また、実施の形態１に係る動画マニュアル作成装置１００では、リンク情報データＤ１０６を介して、作業手順書上の「章節」内の「手続き」と、動画上の対応するシーンが紐付けられ、一意に特定できるようにしているので、作業者が作業手順書上の「章節」内の「手続き」（文章の１文）毎、又は「手続き」内に書かれている物体（～を）、道具（～で）、動作（～する）のいずれかの部分をマウスクリック等の手段で指定すると、これに連動して即座に、作業動画の対応するシーンの画像上で指定された物体としての対象物（材料、部品等）、指定された物体としての道具（工具、右手等）、動作（向き、程度）を指し示す強調表示（枠付け、色付け、点滅、矢印の重畳等）を個別に行うことができる。

　また、実施の形態１に係る動画マニュアル作成装置１００では、「リンク情報データ」を介して、作業手順書上の「章節」内の「手続き」と、作業動画上の対応するシーンが双方向に紐付けられ、一意に特定できるようにしているので、作業動画上で再生を一時停止するなどしてシーンを特定した時点で、当該シーンが作業手順書の「章節」内の「手続き」箇所を特定し、自動的に画面遷移及び強調表示を行うことができる。

　また、実施の形態１では、物体検出部１０３及び動作検出部１０４が、物体情報データＤ１０３及び動作情報データＤ１０４内に、作業動画の時間軸に基づく各画像内の物体情報、及び作業者の動作情報を検出、保持するようにしている。このため、作業内容に関連する物体としての対象物、物体としての道具、及び人の動作を示すキーワードの文字入力又は音声入力を通じて、希望する作業のシーンを検索することができる。また、その結果として、動画内の所望シーンへのジャンプと頭出し再生を容易かつ正確に行うことができる。

実施の形態２．
　図１９は、実施の形態２に係る動画マニュアル作成装置２００の構成を概略的に示す機能ブロック図である。図１９において、図１に示される構成と同一又は対応する構成には、図１に示される符号と同じ符号が付されている。動画マニュアル作成装置２００は、実施の形態２に係る動画マニュアル作成方法を実行することができる装置である。動画マニュアル作成装置２００は、動画解析部２０２が動画ファイルの音声を解析する音声解析部１０５を有する点、リンク情報生成部１０６が音声情報データＤ１０５をさらに用いている点において、実施の形態１に係る動画マニュアル作成装置１００と異なる。動画マニュアル作成装置２００によって作成された動画マニュアルデータＤ１０７は、表示制御装置１１０に出力される。動画マニュアル作成装置２００、表示制御装置１１０、及びディスプレイ１２０は、人（例えば、作業者）に動画マニュアルを提示する動画マニュアル提示システムを構成する。また、表示制御装置１１０は、動画マニュアル作成装置２００の一部であってもよい。

　図２０は、動画マニュアル作成装置２００及び表示制御装置１１０を実現するシステム（例えば、コンピュータ）２００ａのハードウェア構成の例を示す図である。図２０において、図４に示される構成と同一又は対応する構成には、図４に示される符号と同じ符号が付されている。図２０のシステム２００ａは、動画ファイルの音声を解析し、音声情報データＤ１０５を用いて動画マニュアルを作成する点が、図４のシステム１００ａと異なる。

　図２１は、動画マニュアル作成装置２００の音声解析部１０５によって行われる処理を示すフローチャートである。先ず、音声解析部１０５は、動画ファイルの音声を読み込み（ステップＳ２０１）、読み込んだ動画ファイルのフレーム画像が最後のフレーム画像であるか否かを判断する（ステップＳ２０２）。音声解析部１０５は、最後のフレーム画像であれば（ステップＳ２０２においてＹＥＳ）、音声情報データＤ１０５の生成処理を終了する。音声解析部１０５は、最後のフレーム番号でなければ（ステップＳ２０２においてＮＯ）、発話開始時刻を取得し（ステップＳ２０３）、フレーム画像毎にノード（後述の図２２に示される。）を生成する（ステップＳ２０４）。

　次に、音声解析部１０５は、音声認識処理に基づいて、音声をテキスト化する（ステップＳ２０５）。次に、音声解析部１０５は、「手続き」１文毎に、物体である対象物（～を）と、物体である道具（～で）と、動作（～する）を特定し（ステップＳ２０６）、対象物、道具、動作毎にノード（後述の図２２に示される。）を生成する（ステップＳ２０７）。

　図２２は、音声解析部１０５によって生成された音声情報データＤ１０５のツリー構造の例を示す図である。図２２に示されるように、「動画」は、１つ以上のノードである「フレーム画像」（例えば、フレーム番号０００１～１２３４）で構成され、各「フレーム画像」は１つ以上のノードである「物体（対象物）」、「物体（道具）」、「動作」で構成される。

　図２３は、動画マニュアル作成装置２００のリンク情報生成部１０６によるリンク情報データＤ１０６の生成処理を示すフローチャートである。先ず、リンク情報生成部１０６は、文章情報データＤ１０１のツリーを読み込み（ステップＳ２１１）、読み込んだ文章情報データＤ１０１のツリー構造が最後の章節番号（すなわち、章番号と節番号）のものであるか否かを判断する（ステップＳ２１２）。リンク情報生成部１０６は、最後の章節番号であれば（ステップＳ２１２においてＹＥＳ）、リンク情報データＤ１０６を記憶デバイス５３０に保存して（ステップＳ２１３）、リンク情報データＤ１０６の生成処理を終了する。リンク情報生成部１０６は、最後の章節番号でなければ（ステップＳ２１２においてＮＯ）、当該「手続き」の３要素の組｛物体である対象物、物体である道具、人の動作｝のノードを取得する（ステップＳ１２１４）。

　次に、リンク情報生成部１０６は、物体情報データＤ１０３のツリー、動作情報データＤ１０４のツリー（例えば、図１４）、及び音声情報データからなる物体情報／動作情報／音声情報のデータの混合ツリーを検索し（ステップＳ２１５）、３要素が一致するシーンが開始したかどうかを判断する（ステップＳ２１６）。３要素が一致するシーンが開始した場合（ステップＳ２１６においてＹＥＳ）、リンク情報生成部１０６は、開始シーンのシーン情報を保存して（ステップＳ２１７）、処理をステップＳ２１６に戻す。３要素が一致するシーンがない場合（ステップＳ２１７においてＮＯ）、リンク情報生成部１０６は、３要素が一致するシーンの終了シーンの有無を判断する（ステップＳ２１８）。

　リンク情報生成部１０６は、３要素が一致するシーンの終了シーンの有無を判断する（ステップＳ２１８）。終了シーンがある場合（ステップＳ２１８においてＹＥＳ）、リンク情報生成部１０６は、終了フレームのシーン情報を保存する（ステップＳ２１９）。

　次に、リンク情報生成部１０６は、当該「手続き」ノードとシーン情報ノード（シーンの開始時刻と終了時刻）間のリンクを生成する（ステップＳ２２０）。リンク情報生成部１０６は、当該「手続き」の３要素のノードへの座標位置及び動き方向情報のリンクを生成する（ステップＳ２２１）。

　以上に説明したように、実施の形態２に係る動画マニュアル作成装置２００は、音声解析部１０５を設け、音声解析部１０５は、動画内の音声を解析し、動画内の音声（例えば、物体としての対象物及び道具、人の動作に関する音声）を抽出して、動画の時間軸の下に構造化した音声情報データＤ１０５を出力する。したがって、例えば、クッキング動画であれば、作業者は、動画内で作業の手順を音声で発話しながら作業を進めると、音声解説付きのクッキング用の動画マニュアルを作成することができる。

　また、リンク情報生成部１０６は、音声情報データＤ１０５を用いて作業手順書と作業動画間との対応付けを行うので、作業手順書と動画との間の対応付け処理の精度を向上させることができる。

　上記以外に関し、実施の形態２は、上記実施の形態１と同じである。

実施の形態３．
　図２４は、実施の形態３に係る動画マニュアル作成装置３００の構成を概略的に示す機能ブロック図である。図２４において、図１９に示される構成と同一又は対応する構成には、図１９に示される符号と同じ符号が付されている。動画マニュアル作成装置３００は、実施の形態３に係る動画マニュアル作成方法を実行することができる装置である。動画マニュアル作成装置３００は、カメラで撮影された動画を記録する動画記録部３０８を備え、記録された動画を動画解析部２０２で解析する点において、実施の形態２に係る動画マニュアル作成装置２００と異なる。動画マニュアル作成装置３００によって作成された動画マニュアルデータＤ１０７は、表示制御装置１１０に出力される。動画マニュアル作成装置３００、表示制御装置１１０、及びディスプレイ１２０は、人（例えば、作業者）に動画マニュアルを提示する動画マニュアル提示システムを構成する。また、表示制御装置１１０は、動画マニュアル作成装置３００の一部であってもよい。

　図２５は、実施の形態３に係る動画マニュアル作成装置３００及び表示制御装置１１０を実現するシステム（例えば、コンピュータ）３００ａのハードウェア構成の例を示す図である。図２５において、図２０に示される構成と同一又は対応する構成には、図２０に示される符号と同じ符号が付されている。図２５のシステム３００ａは、動画ファイルの音声を解析し、音声情報データＤ１０５を用いて動画マニュアルデータを作成する点が、図１０のシステム２００ａと異なる。

　図２６は、実施の形態３に係る動画マニュアル作成装置３００における動画記録部３０８と物体検出部１０３の並列処理を示すフローチャートである。図２６において、図１１に示される処理と同じ処理には、図１１に示されるステップ番号が付されている。動画マニュアル作成装置３００は、動画記録部３０８がカメラで撮影された画像を読み込み、記憶デバイス５３０に最後のフレームまで動画ファイルを書き込み、動画解析部２０２が動画記録部３０８から受け取った動画ファイルを読み込む点が、実施の形態２に係る動画マニュアル作成装置２００と異なる。

　実施の形態３に係る動画マニュアル作成装置３００は、動画記録プログラムを備えており、カメラで撮影された動画は記憶デバイス５３０に記録される。その後、動画マニュアル作成装置３００は、動画マニュアル生成プログラムにしたがって、作業手順書といまカメラで撮影した作業動画との間の対応付けを行う。したがって、作業者は、作業現場において、カメラ録画の開始・停止操作を行うと共に、その場で作成され表示された動画マニュアル（この場合、動画部分は作業者自身の動画である）上で、自身が映る動画と作業手順書の作業内容と対応、改善点等を確認できる。

　また、動画マニュアル作成装置３００は、新たに作業現場にビデオカメラを追加して、作業者自身の作業状況を撮影し、作業手順書といま撮影した作業動画間の対応付けを行うようにしたので、作業手順書の内容に照らして作業項目の抜け漏れ、誤りを警告し、誤りを補正することができる。このように、動画マニュアル作成装置３００は、動画を記録する機能を備えることによって、作業動画マニュアルの提示に留まらず、作業者自身に対する教育効果を発揮することができる。

　上記以外に関し、実施の形態３は、上記実施の形態１又は２と同じである。

実施の形態４．
　図２７は、実施の形態４に係る動画マニュアル作成装置４００の構成を概略的に示す機能ブロック図である。図２７において、図２４に示される構成と同一又は対応する構成には、図２４に示される符号と同じ符号が付されている。動画マニュアル作成装置４００は、実施の形態４に係る動画マニュアル作成方法を実行することができる装置である。動画マニュアル作成装置４００、表示制御装置４１０、及びＡＲ（拡張現実）グラス４２０は、人（例えば、作業者）に動画マニュアルを提示する動画マニュアル提示システムを構成する。実施の形態４の動画マニュアル提示システムは、ＡＲグラス４２０と、ＡＲグラス４２０に画像を表示する表示制御装置４１０とを用いている点において、実施の形態３の動画マニュアル提示システムと異なる。また、表示制御装置１１０は、動画マニュアル作成装置４００の一部であってもよい。

　図２８は、実施の形態４に係る動画マニュアル作成装置４００によって生成された動画マニュアルをＡＲグラス４２０に表示するための表示制御装置４１０の構成を示す図である。ＡＲグラス４２０は、スマートグラスとも呼ばれ、人が自身の前の現実の世界と、現実の世界に重なる画像（例えば、現実の世界の対象物に重なる解説文章）とを同時に見ることができるようにする機能を持つ。また、ＡＲグラスは、ＡＲグラスを着用した人の視線と同じ方向の動画を撮影するカメラ（すなわち、ビデオカメラ）４２１を備えている。実施の形態４では、表示制御装置４１０は、動画マニュアル又は動画マニュアルの一部を人の視線の先に見える現実の世界の物体に重ねてＡＲ画像を表示させる。ＡＲ画像は、例えば、現実の世界の物体を強調表示する枠、矢印などの表示部品を含む。表示制御装置４１０は、表示部品の色及び表示部品の点滅の有無などの表示状態を制御する。このような機能を実現するために、表示制御装置４１０は、ＣＧ（Ｃｏｍｐｕｔｅｒ　Ｇｒａｐｈｉｃｓ）を現実の景色に位置合わせする位置合わせ部と、カメラ映像又は現実世界に重畳してＣＧを表示する重畳部とを有する。位置合わせ部と重畳部とは、重畳位置合わせ制御部１１３を構成する。位置合わせ処理は、例えば、重畳位置合わせプログラムに従って行われる。位置合わせ処理では、カメラ４２１に映る動画を解析し、カメラ画像内に映る物体毎の位置情報を元に作業者の視線から見える位置情報を逐次算出する、強調表示（重畳表示）のための位置合わせ処理が行われる。

　図２９は、実施の形態４に係る動画マニュアル作成装置４００及び表示制御装置１１０を実現するシステム（例えば、コンピュータ）４００ａのハードウェア構成の例を示す図である。図２９において、図２５に示される構成と同一又は対応する構成には、図２５に示される符号と同じ符号が付されている。図２９のシステム４００ａは、ＡＲグラス４２０に動画マニュアルを表示する点が、図２５のシステム３００ａと異なる。

　図３０は、実施の形態４に係る動画マニュアル作成装置４００の重畳位置合わせ制御部１１３による処理を示すフローチャートである。先ず、動画記録部３０８が、カメラで撮影された動画マニュアル用のフレーム画像を読み込む（ステップＳ４０１）。重畳位置合わせ制御部１１３は、終了指示があれば（ステップＳ４０２においてＹＥＳ）、ＡＲグラス４２０にシースルー画面を表示させ、ＡＲ画像の表示処理を終了する。

　重畳位置合わせ制御部１１３は、終了指示がなければ（ステップＳ４０２においてＮＯ）、物体検出部１０３がフレーム画像内の物体（例えば、対象物／道具）を検出し（ステップＳ４０４）、検出物体毎のフレーム画像内における位置情報を取得する（ステップＳ４０５）。

　次に、重畳位置合わせ制御部１１３が、姿勢補正の位置合わせを制御し（ステップＳ４０６）、検出物体毎の適正位置にＡＲ画像としてのＣＧを重畳（すなわち、合成）し（ステップＳ４０７）、ＡＲグラス４２０の画面に表示する（ステップＳ４０８）。

　以上に説明したように、実施の形態４に係る動画マニュアル作成装置、ＡＲグラス４２０を備え、ビデオカメラ４２１は作業者の視点で作業現場を撮影し、ＡＲグラス４２０は透明（シースルー）画面を有している。そして、作業者は、目の前の現実の世界が見える（例えば、透明画面を通して見える）と共に、テキスト又は画像又は動画等のデジタル（ＣＧ）データが、現実の世界に重畳表示できる。

　作業初心者は、例えば、ＡＲグラス４２０のカメラ４２１に付属するスピーカから作業手順書の「手続き」（作業内容）が音声で聞こえると共に、視線の先に見える現実の世界の物体（例えば、対象物又は道具）に、表示位置が合う形で、強調表示のための表示部品が重畳表示される。表示部品は、例えば、強調したい領域を囲う枠、強調したい領域の色、枠などの表示部品の点滅、強調したい領域を指し示す矢印などである。

　ＡＲグラス４２０を用いることで、作業者の視線の先に見えている物体（対象物又は道具など）が、表示位置が合う形で強調表示されるので、作業者が初心者であっても、作業者は、部品、材料、道具等を視覚的に容易且つ正確に特定できる。よって、作業誤りを回避でき、また戸惑い等が減るので、効率的に作業を進めることができる。

　上記以外に関し、実施の形態４は、実施の形態１から３のいずれかと同じである。

変形例．
　上記実施の形態では、データがツリー構造である例を説明したが、データはツリー構造以外のものであってもよい。

　１００、２００、３００、４００　動画マニュアル作成装置、　１０１　文書解析部、　１０２、２０２　動画解析部、　１０３　物体検出部、　１０４　動作検出部、　１０５　音声解析部、　１０６　リンク情報生成部、　１０７　動画マニュアル生成部、　１１０、４１０　表示制御装置、　１２０　ディスプレイ、　１５０　第１の組、　１６０ａ、１６０ｂ　第２の組、　４２０　ＡＲグラス、　４２１　カメラ、　５１０　ＣＰＵ、　５２０　主メモリ、　５３０　記憶デバイス。

Claims

　作業手順が記載された作業手順書ファイルを解析して、前記作業手順書ファイルに含まれている文章の構造を示す文章情報データを生成する文書解析部と、
　前記作業手順に従う作業を撮影した動画の動画ファイルを解析して、前記動画に含まれている物体を示す物体情報データを生成し、前記動画に含まれている人の動作を示す動作情報データを生成する動画解析部と、
　前記文章情報データから、前記文章に含まれている名詞と動詞との組である第１の組を収集し、前記物体情報データ及び前記動作情報データから、前記動画に含まれている前記物体と前記動作との組である第２の組を収集し、収集された前記第１の組と収集された前記第２の組とから、前記名詞と前記物体とが対応し且つ前記動詞と前記動作とが対応する前記第１の組と前記第２の組とを検索し、前記検索によって得られた前記第１の組が記載されている前記作業手順内の位置と、前記検索によって得られた前記第２の組が含まれている前記動画内のシーンとの対応を示すリンク情報データを生成するリンク情報生成部と、
　前記リンク情報データに基づいて、前記作業手順と前記動画と前記名詞と前記動詞とを含む動画マニュアルをディスプレイに表示させる動画マニュアルデータを生成する動画マニュアル生成部と、
　を有することを特徴とする動画マニュアル作成装置。
　前記名詞は、前記物体の名称を示す単語であり、
　前記動詞は、前記人の動き示す単語である、
　ことを特徴とする請求項１に記載の動画マニュアル作成装置。
　前記物体は、前記作業の対象物、前記作業で使用される道具、及び前記人の身体部位の少なくとも１つを含む
　ことを特徴とする請求項１又は２に記載の動画マニュアル作成装置。
　前記動画解析部は、前記動画ファイルに含まれている音声を示す音声情報データを生成する音声解析部を含み、
　前記リンク情報生成部は、
　前記音声情報データに含まれる音声キーワードを収集し、
　前記文章情報データから前記音声キーワードに対応する前記名詞及び前記動詞を検索し、前記検索によって得られた前記名詞及び前記動詞の前記作業手順内の位置と、前記動画内のシーンと、前記音声キーワードとの対応を示す前記リンク情報データを生成する
　ことを特徴とする請求項１から３のいずれか１項に記載の動画マニュアル作成装置。
　前記人をカメラ撮影して得られた撮影ファイルを記憶デバイスに記録する動画記録部をさらに有し、
　前記動画ファイルは、前記記憶デバイスに記録された前記撮影ファイルである
　ことを特徴とする請求項１から４のいずれか１項に記載の動画マニュアル作成装置。
　表示制御装置をさらに有し、
　前記表示制御装置は、ディスプレイに、前記動画マニュアル又は前記動画マニュアルの一部を拡張現実情報として前記人の視線の先に見える現実の物体に重ねて拡張現実画像を表示させる
　ことを特徴とする請求項１から４のいずれか１項に記載の動画マニュアル作成装置。
　前記拡張現実画像は、前記現実の物体を強調する表示部品を含み、
　前記表示制御装置は、前記表示部品の表示状態を切り替える
　ことを特徴とする請求項６に記載の動画マニュアル作成装置。
　動画マニュアルデータを作成する動画マニュアル作成装置が実行する動画マニュアル作成方法であって、
　作業手順が記載された作業手順書ファイルを解析して、前記作業手順書ファイルに含まれている文章の構造を示す文章情報データを生成するステップと、
　前記作業手順に従う作業を撮影した動画の動画ファイルを解析して、前記動画に含まれている物体を示す物体情報データを生成し、前記動画に含まれている人の動作を示す動作情報データを生成するステップと、
　前記文章情報データから、前記文章に含まれている名詞と動詞との組である第１の組を収集し、前記物体情報データ及び前記動作情報データから、前記動画に含まれている前記物体と前記動作との組である第２の組を収集し、収集された前記第１の組と収集された前記第２の組とから、前記名詞と前記物体とが対応し且つ前記動詞と前記動作とが対応する前記第１の組と前記第２の組とを検索し、前記検索によって得られた前記第１の組が記載されている前記作業手順内の位置と、前記検索によって得られた前記第２の組が含まれている前記動画内のシーンとの対応を示すリンク情報データを生成するステップと、
　前記リンク情報データに基づいて、前記作業手順と前記動画と前記名詞と前記動詞とを含む動画マニュアルをディスプレイに表示させる動画マニュアルデータを生成するステップと、
　を有することを特徴とする動画マニュアル作成方法。
　作業手順が記載された作業手順書ファイルを解析して、前記作業手順書ファイルに含まれている文章の構造を示す文章情報データを生成するステップと、
　前記作業手順に従う作業を撮影した動画の動画ファイルを解析して、前記動画に含まれている物体を示す物体情報データを生成し、前記動画に含まれている人の動作を示す動作情報データを生成するステップと、
　前記文章情報データから、前記文章に含まれている名詞と動詞との組である第１の組を収集し、前記物体情報データ及び前記動作情報データから、前記動画に含まれている前記物体と前記動作との組である第２の組を収集し、収集された前記第１の組と収集された前記第２の組とから、前記名詞と前記物体とが対応し且つ前記動詞と前記動作とが対応する前記第１の組と前記第２の組とを検索し、前記検索によって得られた前記第１の組が記載されている前記作業手順内の位置と、前記検索によって得られた前記第２の組が含まれている前記動画内のシーンとの対応を示すリンク情報データを生成するステップと、
　前記リンク情報データに基づいて、前記作業手順と前記動画と前記名詞と前記動詞とを含む動画マニュアルをディスプレイに表示させる動画マニュアルデータを生成するステップと、
　をコンピュータに実行させることを特徴とする動画マニュアル作成プログラム。