WO2023248676A1

WO2023248676A1 - 推定方法及び推定装置

Info

Publication number: WO2023248676A1
Application number: PCT/JP2023/019081
Authority: WO
Inventors: 勝統大毛; 武寿中尾
Original assignee: パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ
Priority date: 2022-06-22
Filing date: 2023-05-23
Publication date: 2023-12-28

Abstract

推定方法は、コンピュータによる、作業員の作業を推定する推定方法であって、コンピュータは、収音された作業に付随する作業音のデータを取得し（Ｓ０１）、学習済みの第１モデルに作業音のデータを入力することで、作業員が透明物体を扱う作業をしているか否かを推定する（Ｓ０２）。

Description

推定方法及び推定装置

　本開示は、作業員の作業を推定する推定方法等に関する。

　工場の生産性向上のための第一段階として、作業員が行う作業に関するデータを自動で収集して作業の分類を行い、作業に要した時間をその分類ごとに計測している。例えば、特許文献１には、複数の撮像条件で撮像された画像から作業で扱われる物体（例えば、透明物体など）を識別することで、作業の分類を行う技術が開示されている。

特開２０１８－０１７６５３号公報

　しかしながら、特許文献１に記載の技術では、撮像条件を変化させても、物体の透明度が高い場合、又は、物体における光の屈折率もしくは反射率の変化が小さい場合、当該物体の識別精度が低下する。そのため、特許文献１に記載の技術では、透明性の高い物体（以下、透明物体）を扱う作業を精度良く推定できない場合がある。

　そこで、本開示は、透明物体を扱う作業を精度良く推定することが可能な推定方法等を提供する。

　本開示の一態様に係る推定方法は、コンピュータによる、作業員の作業を推定する推定方法であって、前記コンピュータは、収音された前記作業に付随する作業音のデータを取得し、学習済みの第１モデルに前記作業音のデータを入力することで、前記作業員が透明物体を扱う作業をしているか否かを推定する。

　本開示によれば、透明物体を扱う作業を精度良く推定することが可能になる。

図１は、実施の形態における推定システムの機能構成の一例を示すブロック図である。図２は、実施の形態における推定システムの動作例１を示すフローチャートである。図３は、図２のステップＳ０２におけるフローの一例を模式的に示す図である。図４は、収音された作業音の特徴量と、透明物体を扱う作業の作業音の特徴量との類似度のグラフを示す図である。図５は、検証例１において１時間分の作業音を時系列に分析した結果を示す図である。図６は、検証例３で実行される袋作業の推定方法を説明するための図である。図７は、ニューラルネットワークのアーキテクチャの一例を示す図である。図８は、２分類の推定を行う場合の正答率の算出方法を示す図である。図９は、検証例３における２分類の推定結果及び正答率を示す図である。図１０は、３分類の推定を行う場合の正答率の算出方法を示す図である。図１１は、検証例３における３分類の推定結果及び正答率を示す図である。図１２は、入力データの組み合わせによる２分類の推定方法及び正答率の算出方法を示す図である。図１３は、検証例３における入力データの組み合わせによる２分類の推定結果及び正答率を示す図である。図１４は、画像ＡＩを用いた推定方法及び動作例１の推定方法の推定精度の比較結果を示す図である。図１５は、作業音のデータを用いた推定結果と画像のデータを用いた推定結果との違いを説明するための図である。図１６は、実施の形態における推定システムの動作例２のフローの概要を説明するための図である。図１７は、実施の形態における推定システムの動作例２を示すフローチャートである。図１８は、実施の形態における推定システムの動作例２の変形例１を示すフローチャートである。図１９は、動作例２の変形例１のフローを実行する推定部の構成例１を模式的に示す図である。図２０は、構成例１により実行される袋作業の推定方法を説明するための図である。図２１は、動作例２の変形例１のフローを実行する推定部の構成例２を模式的に示す図である。図２２は、動作例２の変形例１のフローを実行する推定部の構成例３を模式的に示す図である。図２３は、画像サブネットワークのアーキテクチャの一例を示す図である。図２４は、音サブネットワークのアーキテクチャの一例を示す図である。図２５は、フュージョン層のアーキテクチャの一例を示す図である。図２６は、分類ネットワークのアーキテクチャの一例を示す図である。図２７は、対照学習ネットワークのアーキテクチャの一例を示す図である。図２８は、動作例２の変形例２のフローを実行する推定部の構成例を模式的に示す図である。図２９は、推定部により作業員が透明物体を扱う作業をしていると誤推定されたときの作業音の例を示す図である。図３０Ａは、実施の形態における推定システムの動作例３のフローチャートである。図３０Ｂは、誤推定されうる作業音の特徴量を予め登録する動作の一例を示すフローチャートである。図３１は、他の実施の形態に係る推定システムの機能構成の一例を示すブロック図である。

　（本開示の基礎となった知見）
　工場の生産性向上のための第一段階として、作業員が行う作業に関するデータを自動で収集して作業の分類を行い、作業に要した時間を分類ごとに計測している。これにより、ユーザは、作業員がどの作業に時間を要しているか把握することができるため、作業員がより効率的に作業を行えるように作業計画を立てることが可能となる。

　従来、作業員が行う作業の様子をカメラで撮影して、作業員が扱う物体を識別することにより作業の分類を行っている。例えば、特許文献１では、撮像条件を変えて撮像された複数の画像から透明物体を識別して、作業員が透明物体を扱う作業を行っていると分類している。しかしながら、透明性の高い物体（いわゆる、透明物体）は、撮像条件を変化させても、その透明度が高い場合、又は、当該物体における光の屈折率もしくは反射率の変化が小さい場合、当該物体を映像で識別することは難しい。そのため、特許文献１に記載の技術では、透明物体を扱う作業を精度良く推定することができない場合がある。

　そこで、作業で扱われる物体の透明性が高い場合、又は、当該物体における光の屈折率もしくは反射率の変化が小さい場合でも、当該物体を精度良く識別し、透明物体を扱う作業を精度良く推定することで、作業員の作業を精度良く分類できる方法が求められている。

　また、従来の方法では、カメラで静止状態の物体を撮影して、当該物体を識別することに主眼が置かれていた。そこで、本願発明者らは、作業に付随する作業音（言い換えると、作業に伴い発生する音）を収音することで、作業員による作業で透明物体が移動、又は、変形されていても、透明物体を扱う作業を精度良く推定することができることを見出した。

　（本開示の概要）
　本開示の一態様に係る例１の推定方法は、コンピュータによる、作業員の作業を推定する推定方法であって、前記コンピュータは、収音された前記作業に付随する作業音のデータを取得し、学習済みの第１モデルに前記作業音のデータを入力することで、前記作業員が透明物体を扱う作業をしているか否かを推定する。

　これにより、推定方法を実行する装置は、作業音のデータを入力とし、透明物体を扱う作業であるか否かを出力する第１モデルを用いるため、透明物体を扱う作業を精度良く推定することができる。

　また、本開示の一態様に係る例２の推定方法は、例１の推定方法であって、前記コンピュータは、前記作業音のデータに対応した、前記作業を行う前記作業員が映る画像のデータを取得し、学習済みの第２モデルに前記画像のデータを入力することで、前記作業員が前記透明物体を扱う作業をしているか否かを推定し、前記第１モデルを用いた推定結果及び前記第２モデルを用いた推定結果に基づいて、前記作業員が前記透明物体を扱う作業をしているか否かを推定する、推定方法であってもよい。なお、第１モデルを用いた推定結果は、第１モデルにより作業音のデータから推定された推定結果であり、第２モデルを用いた推定結果は、第２モデルにより画像のデータから推定された推定結果である。

　これにより、推定方法を実行する装置は、第１モデルにより作業音のデータから推定された推定結果と、第２モデルにより画像のデータから推定された推定結果とに基づいて、作業員が透明物体を扱う作業をしているか否かを推定する。そのため、推定方法を実行する装置は、作業音のデータのみを用いて推定する場合に比べて、透明物体を扱う作業をより精度良く推定することができる。

　また、本開示の一態様に係る例３の推定方法は、例１の推定方法であって、前記コンピュータは、前記作業音のデータに対応した、前記作業を行う前記作業員が映る画像のデータを取得し、前記作業音のデータと前記画像のデータとを前記第１モデルに入力することで、前記作業員が前記透明物体を扱う作業をしているか否かを推定する、推定方法であってもよい。

　これにより、推定方法を実行する装置は、作業音のデータ及び作業音に対応する画像のデータを入力とし、透明物体を扱う作業であるか否かを出力する第１モデルを用いるため、作業音のデータのみを用いて推定する場合に比べて、透明物体を扱う作業をより精度良く推定することができる。

　また、本開示の一態様に係る例４の推定方法は、例１～例３のいずれかの推定方法であって、前記コンピュータは、前記第１モデルから出力された前記作業音の特徴量と、予め記憶部に保存された前記透明物体を扱う作業の作業音の特徴量との類似度に基づいて、前記作業員が前記透明物体を扱う作業をしているか否かを推定する、推定方法であってもよい。

　これにより、推定方法を実行する装置は、第１モデルから出力された作業音の特徴量と、透明物体を扱う作業の作業音の特徴量との類似度に基づいて、作業員が透明物体を扱う作業をしているか否かを推定するため、透明物体を扱う作業を精度良く推定することができる。

　また、本開示の一態様に係る例５の推定方法は、例１～例４のいずれかの推定方法であって、前記コンピュータは、さらに、前記第１モデルから出力された前記作業音の特徴量の、予め記憶部に保存された前記透明物体を扱う作業の作業音の特徴量に対する類似度と、予め前記記憶部に保存された前記作業員が前記透明物体を扱う作業をしていると誤推定されうる作業音の特徴量に対する類似度とに基づいて、前記作業員が前記透明物体を扱う作業をしているか否かを推定する、推定方法であってもよい。

　これにより、推定方法を実行する装置は、第１モデルから出力された作業音の特徴量と透明物体を扱う作業の作業音の特徴量との類似度と、第１モデルから出力された作業音の特徴量と誤推定されうる作業音の特徴量との類似度とを比較することで、誤推定の発生を低減することができる。したがって、推定方法を実行する装置は、作業音のデータのみを用いても、透明物体を扱う作業を精度良く推定することができる。

　また、本開示の一態様に係る例６の推定方法は、例５の推定方法であって、前記コンピュータは、前記第１モデルから出力された前記作業音の特徴量の、前記透明物体を扱う作業の前記作業音の特徴量に対する前記類似度が、前記作業員が前記透明物体を扱う作業をしている誤推定されうる前記作業音の特徴量に対する前記類似度を上回る場合、前記作業員が前記透明物体を扱う作業をしていると推定する、推定方法であってもよい。

　これにより、推定方法を実行する装置は、誤推定の発生を低減することができるため、作業音のデータのみを用いても、透明物体を扱う作業を精度良く推定することができる。

　また、本開示の一態様に係る例７の推定方法は、例５又は例６の推定方法であって、前記コンピュータは、前記透明物体と異なる非透明物体を扱う作業の作業音のデータを前記第１モデルに入力して得られる前記非透明物体を扱う作業の前記作業音の特徴量と、前記透明物体を扱う作業の前記作業音の特徴量との類似度が閾値を上回る場合、前記非透明物体を扱う作業の前記作業音を、前記透明物体を扱う作業の作業音と誤推定されうる作業音であると判定し、前記非透明物体を扱う作業の前記作業音の特徴量を前記誤推定されうる作業音の特徴量として前記記憶部に保存する、推定方法であってもよい。

　これにより、推定方法を実行する装置は、非透明物体を扱う作業の作業音の特徴量と、透明物体を扱う作業の作業音の特徴量との類似度に基づいて、当該非透明物体を扱う作業の作業音が透明物体を扱う作業をしていると誤推定されうる作業音であるか否かを精度良く判定することができる。そのため、推定方法を実行する装置は、誤推定される可能性が比較的高い作業音の特徴量を記憶部に保存することができる。したがって、推定方法を実行する装置は、記憶部に保存された誤推定され得る作業音の特徴量を用いることで、誤推定の発生を低減することができるため、作業音のデータのみを用いても、透明物体を扱う作業を精度良く推定することができる。

　また、本開示の一態様に係る例８の推定方法は、例１～例７のいずれかの推定方法であって、前記作業音のデータは、非可聴帯域の音のデータを含む、推定方法であってもよい。

　これにより、推定方法を実行する装置は、可聴帯域の音から非可聴帯域の音までを含む作業音のデータを用いて作業員が透明物体を扱う作業をしているか否かを推定する。このように、作業音のデータが非可聴帯域の音を含むことで、作業音のデータ中の誤推定の原因となる環境からの雑音が少なくなるため、推定方法を実行する装置は、透明物体を扱う作業の推定精度を高めることができる。さらに、推定方法を実行する装置は、可聴帯域の音のデータのみを用いる場合よりもより多くの情報に基づいて、作業員が透明物体を扱う作業をしているか否かを推定することができる。したがって、推定方法を実行する装置は、透明物体を扱う作業をより精度良く推定することができる。

　また、本開示の一態様に係る例９の推定装置は、作業員の作業を推定する推定装置であって、収音された前記作業に付随する作業音のデータを取得する取得部と、学習済みの第１モデルに前記作業音のデータを入力することで、前記作業員が透明物体を扱う作業をしているか否かを推定する推定部と、を備える。

　これにより、推定装置は、作業音のデータを入力とし、透明物体を扱う作業であるか否かを出力する第１モデルを用いるため、透明物体を扱う作業を精度良く推定することができる。

　また、本開示の一態様に係る例１０のプログラムは、例１～例８のいずれかの推定方法をコンピュータに実行させるためのプログラムである。

　これにより、コンピュータを用いて、上記の推定方法と同様の効果を奏することができる。

　なお、これらの包括的又は具体的な態様は、システム、方法、装置、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なＣＤ－ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｃ　Ｒｅａｄ　Ｏｎｌｙ　ｍｅｍｏｒｙ）などの記録媒体で実現されてもよく、システム、方法、装置、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

　以下、本開示の実施の形態について図面を参照しながら具体的に説明する。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、請求の範囲を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、各図は、必ずしも厳密に図示したものではない。各図において、実質的に同一の構成については同一の符号を付し、重複する説明は省略又は簡略化される場合がある。

　また、本開示において、平行及び垂直などの要素間の関係性を示す用語、及び、矩形などの要素の形状を示す用語、並びに、数値は、厳格な意味のみを表すのではなく、実質的に同等な範囲、例えば数％程度の差異をも含むことを意味する。

　（実施の形態）
　以下、実施の形態について、図面を参照しながら具体的に説明する。

　［１．概要］
　まず、実施の形態における推定システムの概要について説明する。図１は、実施の形態における推定システム２００の機能構成の一例を示すブロック図である。

　推定システム２００は、作業員の作業を推定するシステムである。推定システム２００は、例えば、収音装置１０により収音された作業に付随する作業音を取得し、学習済みの第１モデル１３２（以下、単に、第１モデル１３２ともいう）に作業音のデータを入力することで、作業員が透明物体を扱う作業をしているか否かを推定するシステムである。

　推定システム２００は、例えば、推定装置１００で推定された推定結果を情報端末５０の表示部に表示してユーザに提示してもよい。これにより、ユーザは、推定結果を参照して、透明物体を扱う作業及び非透明物体を扱う作業に要した時間を把握することができる、また、ユーザは、推定結果を参照して、作業員の作業計画を立てることができるため、作業空間８０における作業の効率を高めることが可能となる。

　作業に付随する作業音は、作業に伴い発生する音を含む。作業音は、例えば、作業員が扱う物体を移動させたり、変形させたりする際に発生する音である。作業は、例えば、部品のピッキング、清掃作業、検品、又は、梱包などである。作業空間８０は、例えば、製造工場又は物流倉庫などにおいて作業員が作業を行う空間をいう。

　また、透明物体は、透明性が高い物体であり、例えば、合成樹脂又はガラスなどの透明性の高い材料で構成される。透明性が高いとは、例えば、当該物体がシート状である場合、又は、シート状のもので構成されている場合、シートのヘーズが０．５％未満であることをいい、当該物体が平板状もしくはブロック状である場合、又は、平板状もしくはブロック状のもので構成されている場合、光の屈折率が１．３０以上１．７０以下であることをいう。透明物体は、例えば、容器、袋、緩衝材、又は、部品などである。

　合成樹脂としては、例えば、ポリ塩化ビニル樹脂などのビニル樹脂、ポリカーボネート樹脂、ポリエステル樹脂、ポリエチレンナフタレート樹脂、ポリエチレン樹脂、ポリプロピレン樹脂、ポリイミド樹脂、ポリスチレン樹脂、ウレタン樹脂、アクリル樹脂、フッ素樹脂などであってもよい。なお、透明性が高い物体を構成する材料は、上記の例に限られず、例えば、微細繊維状セルロースなどの天然ポリマーを含んでもよい。

　なお、推定システム２００は、撮像装置２０により撮像された作業を行う作業員が映る画像のデータを取得し、取得された画像のデータと作業音のデータとを第１モデル１３２に入力することで、作業員が透明物体を扱う作業をしているか否かを推定してもよいし、学習済みの第２モデル１３３（以下、単に、第２モデル１３３ともいう）に画像のデータを入力して得られる推定結果と、第１モデル１３２に作業音のデータを入力して得られる推定結果とに基づいて、作業員が透明物体を扱う作業をしているか否かを推定してもよい。画像のデータは、作業音のデータに対応している。

　［２．構成］
　続いて、実施の形態における推定システム２００の構成について図１を参照しながら説明する。推定システム２００は、例えば、収音装置１０と、撮像装置２０と、情報端末５０と、推定装置１００とを備える。収音装置１０及び撮像装置２０は、作業員が作業を行う空間（作業空間８０）に設置されており、情報端末５０及び推定装置１００と通信を介して接続されている。なお、図１に示される推定システム２００の構成は、あくまでも一例であって、この例に限定されない。

　［収音装置１０］
　収音装置１０は、例えば、作業員の作業に付随する作業音を収音する。収音装置１０は、例えば、作業空間８０に設置されている。収音装置１０は、可聴帯域から非可聴帯域までの音を収音可能である。可聴帯域は、人の耳で知覚できる周波数帯域であり、非可聴帯域は、人の耳で知覚できない周波数帯域である。非可聴帯域の音は、例えば、２０ｋＨｚ以上の周波数帯域の音である。収音装置１０は、より具体的には、マイクロフォンであり、例えば、（Ｍｉｃｒｏ　Ｅｌｅｃｔｒｏ　Ｍｅｃｈａｎｉｃａｌ　Ｓｙｓｔｅｍｓ）マイクロフォンであってもよいし、レーザマイクロフォンであってもよい。

　収音装置１０は、例えば、レーザマイクロフォンである場合、通常のマイクロフォンに比べてより広帯域の音を収音することが可能である。また、レーザマイクロフォンは、通常のマイクロフォンのように振動板を有しないため、電磁波、高温、又は、高熱などの環境下でも収音することが可能である。

　図１では、推定システム２００は、収音装置１０を１つ備える例を示しているが、収音装置１０を２つ以上備えてもよい。また、収音装置１０は、指向性のマイクロフォンであってもよい。これにより、収音装置１０は、周囲の雑音などのノイズとなる音を収音しにくくなるため、作業音を高感度に収音することができる。

　収音装置１０は、収音した音（作業音）を電気信号に変換して、推定装置１００へ出力する。なお、収音装置１０は、収音した作業音のデータにタイムスタンプと、自身の識別番号を付して、推定装置１００へ出力してもよい。

　［撮像装置２０］
　撮像装置２０は、例えば、作業を行う作業員が映る画像を撮像する。当該画像のデータは、収音装置１０により収音された作業音のデータと対応している。つまり、撮像装置２０は、収音装置１０と連動して動作しており、例えば、取得したデータ（作業音のデータ及び画像のデータ）にタイムスタンプを付すことにより、作業音のデータと画像のデータとを対応づけてもよい。このとき、例えば、撮像装置２０は、自身の識別番号を画像データに付してもよい。撮像装置２０は、例えば、作業空間８０に設置されている。撮像装置２０は、例えば、ＲＧＢカメラであるが、距離データを含んでもよい。

　撮像装置２０は、撮像した画像のデータを推定装置１００へ出力する。

　［情報端末５０］
　情報端末５０は、ユーザが使用する情報端末であり、例えば、パーソナルコンピュータ、又は、タブレット端末などである。情報端末５０は、推定装置１００で推定された推定結果を表示部に表示する。また、情報端末５０は、ユーザにより入力された指示を受け付けて、当該指示を収音装置１０、撮像装置２０、及び、推定装置１００へ送信する。

　［推定装置１００］
　推定装置１００は、作業員の作業を推定する装置である。推定装置１００は、例えば、収音装置１０により収音された作業に付随する作業音のデータを取得して、学習済みの第１モデル１３２に当該作業音のデータを入力することで、作業員が透明物体を扱う作業をしているか否かを推定する。

　例えば、図１に示されるように、推定装置１００は、通信部１１０と、情報処理部１２０と、記憶部１３０と、モデル生成部１４０と、入力受付部１５０とを備える。推定装置１００は、例えば、サーバ装置である。なお、図１の例では、推定装置１００は、第２モデル１３３を備えるが、必ずしも第２モデル１３３を備える必要はない。以下、推定装置１００の各構成について説明する。

　［通信部１１０］
　通信部１１０は、推定装置１００が収音装置１０及び撮像装置２０と通信を行うための通信回路（通信モジュール）である。通信部１１０は、広域通信ネットワークを介して通信を行うための通信回路（通信モジュール）を備えるが、局所通信ネットワークを介して通信を行うための通信回路（通信モジュール）を備えてもよい。通信部１１０は、例えば、無線通信を行う無線通信回路であるが、有線通信を行う有線通信回路であってもよい。なお、通信部１１０が行う通信の通信規格については特に限定されない。

　［情報処理部１２０］
　情報処理部１２０は、推定装置１００に関する各種情報処理を行う。より具体的には、例えば、情報処理部１２０は、収音装置１０により収音された作業音のデータ（例えば、作業音の電気信号）を取得して、作業員が透明物体を扱う作業をしているか否かの推定に関する各種情報処理を行う。また、例えば、情報処理部１２０は、撮像装置２０により撮像された、作業を行う作業員が映る画像のデータを取得して、作業員が透明物体を扱う作業をしているか否かの推定に関する各種情報処理を行ってもよい。情報処理部１２０は、作業音のデータを用いて作業の推定を行ってもよいし、作業音のデータと画像のデータとを用いて作業の推定を行ってもよい。情報処理部１２０は、具体的には、取得部１２１と、推定部１２２とを備える。取得部１２１、及び、推定部１２２の機能は、情報処理部１２０を構成するプロセッサ又はマイクロコンピュータが記憶部１３０に記憶されたコンピュータプログラムを実行することによって実現される。

　［取得部１２１］
　取得部１２１は、例えば、収音装置１０により収音された作業音のデータを取得する。作業音のデータは、作業員の作業に付随する音であり、例えば、作業員による作業に伴って発生する音である。また、取得部１２１は、例えば、撮像装置２０により撮像された、作業音のデータに対応した、作業を行う作業員が映る画像のデータを取得する。作業音のデータは、収音装置１０により収音された作業音の電気信号をフーリエ変換して作成されたスペクトログラムの画像であってもよいし、時系列の数値データであってもよい。

　［推定部１２２］
　推定部１２２は、取得部１２１により作業音のデータが取得されると、作業音のデータから作業員が透明物体を扱う作業をしているか否かを推定する。推定部１２２は、例えば、学習済みの第１モデル１３２（以下、第１モデル１３２という）に作業音のデータを入力することで、作業員が透明物体を扱う作業をしているか否かを推定する。具体的には、例えば、推定部１２２は、第１モデル１３２から出力された作業音の特徴量と、予め記憶部１３０（例えば、記憶部１３０内の特徴量データベース１３１）に保存された透明物体を扱う作業の作業音の特徴量との類似度に基づいて、作業員が透明物体を扱う作業をしているか否かを推定する。より具体的には、例えば、推定部１２２は、第１モデル１３２に作業音のデータを入力し、第１モデル１３２により抽出された透明物体を扱う作業の作業音の特徴量と、予め記憶部１３０に保存された透明物体を扱う作業の作業音の特徴量との類似度を算出し、算出された類似度が所定値（つまり、閾値）以上である場合、作業員が透明物体を扱う作業をしていると推定してもよい。なお、この例に限らず、推定部１２２は、作業音のデータから作業員が透明物体を扱う作業をしているか否かの推定結果を直接出力するモデルを用いてもよい。

　また、推定部１２２は、取得部１２１により、作業音のデータに対応した、作業を行う作業員が映る画像のデータが取得されると、作業音のデータ及び画像のデータから作業員が透明物体を扱う作業をしているか否かを推定してもよい。具体的には、例えば、推定部１２２は、作業音のデータと、作業音のデータに対応した、作業を行う作業員が映る画像のデータとを第１モデル１３２に入力することで、作業員が透明物体を扱う作業をしているか否かを推定する。第１モデル１３２の詳細については、後述する。

　また、例えば、推定装置１００が学習済みの第２モデル１３３を備える場合、推定部１２２は、取得部１２１により上記の画像のデータが取得されると、第２モデル１３３に当該画像のデータを入力することで、作業員が透明物体を扱う作業をしているか否かを推定する。このとき、推定部１２２は、取得部１２１により取得された、当該画像のデータに映る作業員が行う作業の作業音のデータを、第１モデル１３２に入力することで、作業員が透明物体を扱う作業をしているか否かを推定する。そして、推定部１２２は、第２モデル１３３を用いて画像のデータから推定された推定結果と、第１モデル１３２を用いて作業音のデータから推定された推定結果とに基づいて、作業員が透明物体を扱う作業をしているか否かを推定する。

　また、推定部１２２は、例えば、収音装置１０により収音された作業音が透明物体を扱う作業の作業音であると誤推定されうる作業音であるか否かを判定してもよい。具体的には、推定部１２２は、例えば、透明物体と異なる非透明物体を扱う作業の作業音のデータを第１モデル１３２に入力して得られる非透明物体を扱う作業の作業音の特徴量と、透明物体を扱う作業の作業音の特徴量との類似度が所定値（いわゆる、閾値）を上回る場合、当該非透明物体を扱う作業の作業音を、推定部１２２により透明物体を扱う作業の作業音と誤推定されうる作業音であると判定する。そして、推定部１２２は、誤推定されうる作業音と判定された作業音の特徴量を記憶部１３０の特徴量データベース１３１（特徴量ＤＢ）に保存する。

　なお、特徴量データベース１３１には、予め保存された透明物体を扱う作業の作業音の特徴量が保存されていてもよい。特徴量データベース１３１については、後述する。

　［記憶部１３０］
　記憶部１３０は、情報処理部１２０が各種情報処理を実行するための専用のアプリケーションプログラムなどが記憶される記憶装置である。例えば、記憶部１３０には、特徴量データベース１３１と、第１モデル１３２と、第２モデル１３３とが格納されている。また、記憶部１３０は、例えば、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）によって実現されるが、半導体メモリによって実現されてもよい。

　特徴量データベース１３１は、予め抽出された作業音の特徴量を格納する。この特徴量は、埋め込み（例えば、テンソル、行列など）、埋め込みベクトル又は分散表現などとして、数値又は数値の組み合わせで表現されてもよい。例えば、特徴量データベース１３１には、透明物体を扱う作業に付随する作業音の特徴量、及び、作業員が透明物体を扱う作業をしていると誤推定されうる作業音の特徴量が格納されてもよい。また、特徴量データベース１３１は、予め抽出された画像の特徴量を格納してもよい。例えば、特徴量データベース１３１は、透明物体を扱う作業を行う作業員が映る画像の特徴量（具体的には、画像に映る透明物体を示す特徴量）を格納してもよい。

　第１モデル１３２は、例えば、モデル生成部１４０により生成された学習済みのモデルである。第１モデル１３２は、例えば、作業音のデータを入力とし、作業員が透明物体を扱う作業をしているか否かを出力する。より具体的には、第１モデル１３２は、例えば、入力された作業音データの特徴量を抽出し、抽出された特徴量と、予め記憶部１３０に保存された、透明物体を扱う作業の作業音の特徴量との類似度を算出し、算出された類似度が所定値以上である場合、作業員が透明物体を扱う作業をしていると推定する。また、例えば、第１モデル１３２は、さらに、作業音のデータに対応した、作業を行う作業員が映る画像のデータを入力とし、作業員が透明物体を扱う作業をしているか否かを出力してもよい。より具体的には、第１モデル１３２は、例えば、入力された画像データの特徴量を抽出し、抽出された特徴量と、予め記憶部１３０に保存された、透明物体を扱う作業を行う作業員が映る画像の特徴量との類似度を算出し、算出された類似度が所定値以上である場合、作業員が透明物体を扱う作業をしていると推定してもよい。

　第２モデル１３３は、モデル生成部１４０により生成された学習済みのモデルである。第２モデル１３３は、例えば、作業音のデータに対応した、作業を行う作業員が映る画像のデータを入力とし、作業員が透明物体を扱う仕事をしているか否かを出力する。より具体的には、第２モデル１３３は、例えば、入力された画像データの特徴量を抽出し、抽出された特徴量と、予め記憶部１３０に保存された、透明物体を扱う作業を行う作業員が映る画像の特徴量との類似度を算出し、算出された類似度が所定値以上である場合、作業員が透明物体を扱う作業をしていると推定してもよい。

　なお、第１モデル１３２及び第２モデル１３３は、入力データの特徴量を抽出して、抽出された特徴量を出力してもよい。

　第１モデル１３２及び第２モデル１３３は、具体的には、ニューラルネットワークモデルであり、例えば、畳み込みニューラルネットワーク（ＣＮＮ）、再起型ニューラルネットワーク（ＲＮＮ）又はＬＳＴＭ（Ｌｏｎｇ－Ｓｈｏｒｔ　Ｔｅｒｍ　Ｍｅｍｏｒｙ）であってもよい。

　［モデル生成部１４０］
　モデル生成部１４０は、例えば、教師データを用いて機械学習することにより第１モデル１３２及び第２モデル１３３を生成する。例えば、モデル生成部１４０は、機械学習により、作業音のデータを入力とし、作業員が透明物体を扱う作業をしているか否かを出力する音識別モデル（以下、音響サブネットワークともいう）を生成する。また、例えば、モデル生成部１４０は、機械学習により、さらに、作業音のデータに対応する、作業を行う作業員が映る画像のデータを入力とし、作業員が透明物体を扱う作業をしているか否かを出力する画像識別モデル（以下、映像サブネットワークともいう）を生成してもよい。第１モデル１３２は、例えば、音識別モデルであってもよいし、音識別モデルと画像識別モデルとを含むモデルであってもよい。第１モデル１３２に入力される作業音のデータは、例えば、スペクトログラムの画像であってもよいし、時系列の数値データであってもよい。作業音のデータは、非可聴帯域の音のデータを含んでもよい。

　また、モデル生成部１４０は、機械学習により、画像のデータを入力とし、画像に映る透明物体を示す特徴量を出力する画像識別モデル（例えば、第２モデル１３３）を生成してもよい。

　上述したように、音識別モデルは、例えば、入力された作業音のデータの特徴量を抽出し、抽出された特徴量と、予め記憶部１３０に保存された、透明物体を扱う作業の作業音の特徴量との類似度を算出し、算出された類似度が所定値以上である場合、作業員が透明作業をしていると推定する。また、画像識別モデルは、例えば、入力された画像のデータの特徴量を抽出し、抽出された特徴量と、予め記憶部１３０に保存された透明物体を扱う作業を行う作業員が映る画像の特徴量との類似度を算出し、算出された類似度が所定値以上である場合、作業員が透明物体を扱う作業をしていると推定する。なお、音識別モデルと画像識別モデルとを含むモデルは、これらの２つのモデルを用いた推定結果に基づいて、作業員が透明物体を扱う作業をしているか否かを推定する。

　モデル生成部１４０は、学習済みのモデルを記憶部１３０に格納することで、第１モデル１３２及び第２モデル１３３を更新してもよい。モデル生成部１４０は、例えば、プロセッサが記憶部１３０に記憶されているプログラムを実行することで実現される。

　［入力受付部１５０］
　入力受付部１５０は、推定装置１００を使用するユーザによる操作入力を受け付ける入力インタフェースである。入力受付部１５０は、具体的には、タッチパネルディスプレイなどによって実現される。例えば、入力受付部１５０がタッチパネルディスプレイを搭載している場合は、タッチパネルディスプレイが表示部（不図示）及び入力受付部１５０として機能する。なお、入力受付部１５０は、タッチパネルディスプレイに限られず、例えば、キーボード、ポインティングデバイス（例えば、タッチペンもしくはマウス）、又は、ハードウェアボタンなどであってもよい。また、入力受付部１５０は、音声による入力を受け付ける場合、マイクロフォンであってもよい。

　［３．動作例］
　続いて、実施の形態における推定システム２００の動作例について説明する。

　［動作例１］
　まず、実施の形態における推定システム２００の動作例１について図２を参照しながら具体的に説明する。図２は、実施の形態における推定システム２００の動作例１を示すフローチャートである。

　図２に示されていないが、推定システム２００では、例えば、収音装置１０は、作業員の作業に付随する作業音を収音し、収音した作業音のデータを推定装置１００へ出力する。

　推定装置１００の取得部１２１は、収音装置１０により収音された作業音のデータを取得し（Ｓ０１）、取得した作業音のデータを推定部１２２へ出力する。

　次に、推定装置１００の推定部１２２は、学習済みの第１モデル１３２に作業音のデータを入力することで、作業員が透明物体を扱う作業をしているか否かを推定する（Ｓ０２）。

　以下、ステップＳ０２についてより具体的に説明する。図３は、図２のステップＳ０２におけるフローの一例を模式的に示す図である。例えば、推定部１２２は、取得部１２１から取得した作業時の音データ（いわゆる、作業音のデータ）を所定の時間毎（例えば、２秒）のデータに分割し、分割したデータを音識別モデル（例えば、第１モデル１３２）に入力する。このとき、図３に示されるように、作業音のデータは、音識別モデルに入力される前に、標準化などの前処理を行ってもよい。音識別モデルは、入力された作業音のデータから透明物体を扱う作業の作業音の特徴量を抽出する。ここでは、音識別モデルで抽出された特徴量を、評価対象の特徴量、つまり、評価音特徴量という。

　次に、推定部１２２は、音識別モデルから出力された評価音特徴量と、記憶部１３０に事前に登録された、透明物体を扱う作業の作業音（ここでは、目的音という）の特徴量である登録特徴量と、がどのくらい類似しているか否かを示す類似度を計算し、計算された類似度を出力する。

　図４は、収音された作業音の特徴量と、透明物体を扱う作業の作業音の特徴量との類似度のグラフを示す図である。図４では、撮像装置２０で撮像された画像をユーザが目視で確認し、作業員が透明物体を扱う作業をしている区間（ここでは、作業区間という）と、作業員が透明物体を扱う作業をしていない区間（ここでは、非作業区間という）とを区別した結果も記載している。また、図中の破線は、類似度の閾値を示している。例えば、音識別モデルで抽出された作業音の特徴量の、事前に登録された透明物体を扱う作業の作業音の特徴量に対する類似度が閾値（ここでは、３０）以上である場合作業員が透明物体を扱う作業をしていると推定される。図４に示されるように、作業区間と非作業区間との差は、類似度のスコアに表れている。例えば、透明物体（例えば、ビニール袋、緩衝材など）を扱う作業で発生する音が収音されると、類似度のスコアが上昇している。一方、例えば、作業台の上に透明物体が置かれているが作業員が透明物体に触れていない区間では、透明物体から発せられる音が収音されないため、類似度のスコアが算出されない。

　［動作例１の検証例１］
　続いて、動作例１による作業の推定精度を検証した検証例１について説明する。検証例１では、１時間分の作業音を時系列に分析した。図５は、検証例１において１時間分の作業音を時系列に分析した結果を示す図である。検証例１では、透明物体は、透明のビニール袋（以下、透明袋という）であり、作業員の作業に付随する作業音のデータを第１モデル１３２（例えば、図３の音識別モデル）に入力して得られる作業音の特徴量と、事前に登録された、透明袋を扱う作業に付随する作業音の特徴量との類似度を算出した。なお、検証例１で収音される作業音のデータは、可聴帯域の音のデータであるが、非可聴帯域の音のデータを含んでもよい。

　図４と同様に、ユーザが画像を目視で確認して透明袋を扱う作業（以下、袋作業ともいう）を行っていることを示す正解ラベルを手動で付与した。図５の例では、作業員が透明袋に触れていないが透明袋が作業台の上に存在する状態と、作業員が商品を袋詰めしている状態とを、「袋作業」として正解ラベルを付与した。一方、作業員が書類を記載している状態、開梱作業などは、透明袋を扱う作業ではない（つまり、非袋作業）とした。

　また、図５に示される画像の特徴量の類似度は、画像識別モデルを用いて抽出された画像に映る透明袋を示す特徴量と、予め登録された画像に映る透明袋を示す特徴量との類似度を示している。

　図５に示されるように、透明袋から発せられる音以外の音が発生した場合に、類似度のスコアが上昇した。検証例１では、音識別モデルによる作業の識別精度は、正答率が２８％であり、誤答率が５％であった。

　なお、動作例１の検証例１では、類似度を算出して透明物体を推定する第１モデル１３２の一例と、その動作のフローの一例を説明したが、この例に限られない。例えば、第１モデル１３２は、作業音のデータを入力して透明物体を扱う作業であるか否かを直接推定する（言い換えると、出力する）モデルであってもよい。以下に、第１モデル１３２の他の例と、その動作のフローの一例を説明する。

　［動作例１の検証例２］
　続いて、動作例１の検証例２について説明する。動作例１の検証例２では、第１モデル１３２は、作業音のデータを入力して透明物体を扱う作業であるか否かの推定結果を直接出力するモデルである例を説明する。図６は、検証例２で実行される袋作業の推定方法を説明するための図である。図６に示されるニューラルネットワークは、第１モデル１３２の一例である。

　まず、袋作業の推定に使用されるニューラルネットワークの学習について説明する。

　モデル生成部１４０は、学習データとして、作業音のスペクトログラムの画像又は作業音に対応する（つまり、作業音が収音された時刻と同じ時刻に撮像された）作業員が映る画像データを使用する。また、モデル生成部１４０は、教師データとして、学習データに、作業員が袋作業をしているか否か（言い換えると、袋作業の有無）の２分類、又は、袋作業有りの場合にその袋の種類（例えば、大袋、小袋など）を含む３分類のラベルを付与したデータを使用する。モデル生成部１４０は、学習により、ニューラルネットワークのパラメータを決定する。

　次に、推定部１２２は、学習時に決定されたパラメータを使用して、ニューラルネットワークによる推論を行う。例えば、推定部１２２は、作業分類をしたいデータ（作業音のデータ又は画像のデータ）をニューラルネットワークに入力し、袋作業の有無の２分類、又は、袋作業有りの場合に袋の種類で分類する３分類の推定結果を出力する。

　図７は、図６に示されるニューラルネットワークのアーキテクチャの一例を示す図である。図７の例では、ニューラルネットワークは、入力データが画像であるため、畳み込み層を有するが、例えば、入力データが時系列の数値データである場合は、畳み込み層を有しなくてもよい。なお、図７の例は、あくまでも一例であり、これに限定されない。

　［２分類の推定について］
　まずは、袋作業の有無の２分類の推定について説明する。図８は、２分類の推定を行う場合の正答率の算出方法を示す図である。ニューラルネットワークは、教師データとして、袋作業有り、及び、袋作業無しのラベルを付したデータを使用して学習された。正答率（％）は、図８に示される計算式で算出された。推定結果及び正答率を図９に示す。

　図９は、動作例１の検証例２における２分類の推定結果及び正答率を示す図である。図９の（ａ）は、ニューラルネットワークに入力される作業音のデータが可聴帯域の音のデータである場合の２分類の推定結果及び正答率を示しており、図９の（ｂ）は、作業音のデータが非可聴帯域の音を含む広帯域音のデータである場合の２分類の推定結果及び正答率を示している。袋作業１は、縦及び横がそれぞれ約１０ｃｍのポリエチレン製の袋を扱う作業であり、袋作業２は、縦及び横がそれぞれ約３０ｃｍのポリエチレン製の袋を扱う作業である。図１９の（ａ）及び図９の（ｂ）に示されるように、入力データとして非可聴帯域の音を含む広帯域の音の作業音のデータを使用すると、可聴帯域の音の作業音のデータを使用するよりも、正答率が高かった。したがって、作業音のデータが可聴帯域の音のデータよりも広帯域の音のデータである方が、作業員の作業をより精度良く推定できることが確認された。

　［３分類の推定について］
　続いて、袋作業有りの場合に袋の種類で分類する３分類の推定について説明する。図１０は、３分類の推定を行う場合の正答率の算出方法を示す図である。ニューラルネットワークは、教師データとして、袋作業有りの場合に袋の種類を示すラベルと、袋作業無しのラベルとを付したデータを使用して学習された。正答率（％）は、図１０に示される計算式で算出された。推定結果及び正答率を図１１に示す。

　図１１は、動作例１の検証例２における３分類の推定結果及び正答率を示す図である。図１１の（ａ）は、ニューラルネットワークに入力される作業音のデータが可聴帯域の音のデータである場合の３分類の推定結果及び正答率を示しており、図１１の（ｂ）は、作業音のデータが非可聴帯域の音を含む広帯域音のデータである場合の推定結果及び正答率を示している。図１１の（ａ）及び図１１の（ｂ）に示されるように、入力データとして非可聴帯域の音を含む広帯域の音の作業音のデータを使用すると、可聴帯域の音の作業音のデータを使用するよりも、正答率が高かった。したがって、作業音のデータが可聴帯域の音のデータよりも広帯域の音のデータである方が、作業員の作業をより精度良く推定できることが確認された。

　［入力データの組み合わせによる２分類の推定について］
　続いて、入力データの組み合わせによる袋作業の有無の２分類の推定について説明する。図１２は、入力データの組み合わせによる２分類の推定方法及び正答率の算出方法を示す図である。図１２の（ａ）は、推定結果の分類方法を示しており、図１２の（ｂ）は推定結果とラベルとの対応関係を示している。図１２の（ａ）では、分類Ａは、入力データが（ｉ）画像データである場合、及び、（ｉｉ）画像のデータ＋広帯域音のデータである場合の少なくともいずれかの場合に、袋作業有りのラベル通りに作業を推定できたことを示す。また、分類Ｄは、入力データが上記（ｉ）及び（ｉｉ）の少なくともいずれかの場合に、袋作業無しのラベル通りに作業を推定できたことを示す。正答率（％）は、図１２の（ｂ）に示される計算式で算出された。推定結果及び正答率を図１３に示す。

　図１３は、動作例１の検証例２における入力データの組み合わせによる２分類の推定結果及び正答率を示す図である。図１３の（ａ）は、ニューラルネットワークに入力される入力データが画像のデータである場合の２分類の推定結果及び正答率を示しており、図１３の（ｂ）は、入力データが画像のデータ及び広帯域の作業音のデータである場合の推定結果及び正答率を示している。図１３の（ａ）及び図１３の（ｂ）に示されるように、入力データとして広帯域の作業音のデータを使用すると、画像のデータのみを使用する場合に比べて、正答率が高かった。したがって、ニューラルネットワークに入力される入力データが画像のデータのみよりも、画像データ及び広帯域の作業音のデータである方が、作業員の作業をより精度良く推定できることが確認された。

　［動作例１の検証例３］
　続いて、動作例１の検証例３について具体的に説明する。検証例１では、作業の推定に、可聴帯域の作業音を使用したが、検証例３では、非可聴帯域の音を含む作業音のデータを使用した点で、検証例１と異なる。さらに、検証例３では、非可聴帯域の音を含む作業音のデータを使用して動作例１に記載の推定方法を実施した場合（本方法という）の推定精度と、画像ＡＩ（言い換えると、映像ＡＩ）を用いた推定方法を実施した場合の推定精度とを比較した。なお、画像ＡＩは、一般的な画像ＡＩを用いた。結果を図１４に示す。

　図１４は、画像ＡＩを用いた推定方法の推定精度と本方法の推定精度との比較結果を示す図である。図１４では、ラベルの欄の「１」は、透明袋を扱う作業を行っていること（いわゆる、袋作業）を示すラベル（いわゆる、正解ラベル）を付したことを示し、「０」は、正解ラベルを付していない（つまり、非袋作業）ことを示している。また、画像ＡＩ及び本方法の欄の「１」は、袋作業を行っていると推定したことを示し、「０」は袋作業を行っていないと推定したことを示している。ここでは、ラベルの欄に記載の「０」及び「１」と、画像ＡＩ及び本方法による推定結果とが一致しているか否かを確認した。その結果、画像ＡＩの推定精度は、０％であり、本方法の推定精度は、７２％であった。

　検証例３の結果、非可聴帯域の音を含む作業音のデータを使用して作業の推定を行うことで、可聴帯域の音に比べて、透明物体を扱う作業の推定精度が向上することが確認された。また、画像ＡＩ（つまり、画像識別モデル）と音識別モデルとを併用することで、画像ＡＩのみを用いて作業を推定した場合よりも推定精度が向上することが確認された。

　［動作例２］
　続いて、実施の形態における推定システム２００の動作例２について図１５、図１６及び、図１７を参照しながら具体的に説明する。図１５は、作業音のデータを用いた推定結果と画像のデータを用いた推定結果との違いを説明するための図である。図１６は、実施の形態における推定システム２００の動作例２のフローの概要を説明するための図である。図１７は、実施の形態における推定システム２００の動作例２を示すフローチャートである。動作例２では、動作例１と異なる点を中心に説明し、共通のステップについては説明を省略又は簡略化する。

　まず、動作例２に至る知見について説明する。例えば、図１５に示されるように、ユーザが画像で作業員の作業を目視で確認して袋作業有りの区間（袋作業区間）を判定し、目視による判定結果と、作業音による袋作業の推定結果（作業音の袋作業音に対する類似度）と、画像による袋作業の推定結果との違いを確認した。袋作業の回数については、画像データのみを用いて作業を推定した場合でも、カウントできている。しかしながら、例えば、音の類似度のスコアの方が画像による推定よりも先に反応（上昇）している。また、例えば、透明袋が書類などで隠れて画像に映らないために画像のデータを用いても袋作業を推定できなかったが、透明袋を扱う際に発する音（透明袋音）がするため音の類似度のスコアが反応（上昇）している。

　このように、画像による袋作業の推定では、画像に透明袋が映らない場合、作業員が袋作業をしていると推定されないことがある。そのため、画像による袋作業の推定と作業音による袋作業の推定とを組み合わせて袋作業を推定することで、より精度良く袋作業を推定することができるようになる。

　次に、動作例２のフローの概要を説明する。例えば、図１６に示されるように、動作例２では、推定装置１００の取得部１２１は、作業音のデータに対応する画像のデータを取得すると、画像のデータを入力とする推定システム２００へ画像のデータを入力する。例えば、当該推定システム２００は、図３に示されるように、入力された画像データのサイズの調整又は標準化などの前処理を行い、ニューラルネットワーク（例えば、画像識別モデル）に入力して出力された画像の特徴量に基づいて、画像に映る透明袋を示す特徴量との類似度を算出する。また、動作例２では、推定装置１００の取得部１２１は、作業音のデータを取得すると、作業音のデータを入力とする推定システム２００へ作業音のデータを入力する。例えば、当該システムは、図３に示されるように、入力された作業音のデータの標準化などの前処理を行い、ニューラルネットワーク（例えば、音識別モデル）に入力して出力された作業音の特徴量に基づいて、袋作業音の特徴量との類似度を算出する。そして、これらの推定システム２００による推定結果を組み合わせることにより、推定結果を出力する。

　続いて、図１７を参照しながら動作例２について説明する。図１７に示されていないが、収音装置１０は、作業員の作業に付随する作業音を収音し、収音された作業音のデータを推定装置１００へ出力する。また、撮像装置２０は、収音装置１０により収音された作業音に対応する（つまり、同じ時刻に撮像された）、作業を行う作業員が映る画像を撮像し、撮像された画像のデータを推定装置１００へ出力する。なお、画像には、作業員が透明物体を扱う作業をしているときは、画像に作業員と共に透明物体（ここでは、透明袋）が映っている。

　次に、推定装置１００の取得部１２１は、作業員の作業に付随する作業音のデータを取得すると（Ｓ０１）、取得された作業音のデータを推定部１２２へ出力する。次に、推定部１２２は、第１モデル１３２に作業音のデータを入力することで、作業員が透明物体を扱う作業をしているか否かを推定する（Ｓ０２）。具体的には、例えば、推定部１２２は、第１モデル１３２により抽出された特徴量と、予め記憶部１３０に保存された透明物体を扱う作業の作業音の特徴量との類似度が所定値（いわゆる、閾値）以上である場合、作業員が透明物体を扱う作業をしていると推定する。

　また、推定装置１００の取得部１２１は、作業音のデータに対応した、作業を行う作業員が映る画像のデータを取得すると（Ｓ０３）、取得された画像のデータを推定部１２２へ出力する。次に、推定部１２２は、第２モデル１３３に画像のデータを入力することで、作業員が透明物体を扱う作業をしているか否かを推定する（Ｓ０４）。具体的には、例えば、推定部１２２は、第２モデル１３３より抽出された透明作業を行う作業員が映る画像の特徴量と、予め記憶部１３０に保存された透明物体を扱う作業員が映る画像の特徴量との類似度が所定値（いわゆる、閾値）以上である場合、作業員が透明物体を扱う仕事をしていると推定する。

　次に、推定部１２２は、第１モデル１３２を用いて作業音のデータから推定した推定結果及び第２モデル１３３を用いて画像のデータから推定した推定結果に基づいて、作業員が透明物体を扱う作業をしているか否かを推定する（Ｓ０５）。具体的には、例えば、推定部１２２は、第１モデル１３２により抽出された作業音の特徴量と、予め記憶部１３０に保存された透明物体を扱う作業の作業音の特徴量との類似度が所定値（閾値）以上であり、かつ、第２モデル１３３により抽出された画像の特徴量と、予め記憶部１３０に保存された透明物体を扱う作業員が映る画像の特徴量との類似度が所定値（閾値）以上である場合に、作業員が透明物体を扱う作業をしていると推定する。

　［動作例２の変形例１］
　動作例２では、第１モデル１３２に作業音のデータを入力して得られる特徴量と、第２モデル１３３に画像のデータを入力して得らえる特徴量とに基づいて、作業員が透明物体を扱う作業をしているか否かを推定する例を説明した。動作例２の変形例１では、動作例１の検証例２で説明した透明物体を扱う作業であるか否かを直接推定する第１モデル１３２の例により、第１モデル１３２に作業音のデータ及び画像のデータを入力して得られる作業音の特徴量及び画像の特徴量に基づいて、作業員が透明物体を扱う作業をしているか否かを推定する。

　図１８は、実施の形態における推定システム２００の動作例２の変形例１を示すフローチャートである。図１８に示されるように、推定装置１００の取得部１２１は、収音装置１０により収音された作業音のデータを取得し（Ｓ０１）、取得したデータを推定部１２２へ出力する。また、推定装置１００の取得部１２１は、撮像装置２０により撮像された作業音のデータに対応した、作業を行う作業員が映る画像のデータを取得し（Ｓ０３）、取得したデータを推定部１２２へ出力する。

　次に、推定部１２２は、作業音のデータと画像のデータとを第１モデル１３２に入力して得られる作業音の特徴量及び画像の特徴量に基づいて、作業員が透明物体を扱う作業をしているか否かを推定する（Ｓ０６）。

　［動作例２の変形例１のフローを実行する推定部１２２の構成例１］
　続いて、動作例２の変形例１のフローを実行する推定部１２２の構成例１について説明する。図１９は、動作例２の変形例１のフローを実行する推定部１２２の構成例１を模式的に示す図である。図２０は、構成例１により実行される袋作業の推定方法を説明するための図である。

　図１９に示されるように、推定部１２２は、埋め込みベクトル作成部と、作業分類部と、袋作業の特定部とを備える。埋め込みベクトル作成部は、画像のデータを入力して画像の特徴量を抽出する画像サブネットワークと、音（ここでは、作業音）のデータを入力して音特徴量（ここでは、作業音の特徴量）を抽出する音サブネットワークと、フュージョン層とを備える。

　図１９に示されるように、ニューラルネットワークは、例えば、画像サブネットワークと音サブネットワークとを備えてもよい。このようなニューラルネットワークは、第１モデル１３２であってもよい。また、音サブネットワークが第１モデル１３２であってもよいし、画像サブネットワークが第２モデル１３３であってもよい。

　図２０に示されるように、モデル生成部１４０は、学習データとして、画像のデータと作業音のデータとを使用し、教師データとして、学習データの類似の有無をラベル付けしたデータを使用する。モデル生成部１４０は、学習により、ニューラルネットワークのパラメータを決定する。作業音のデータは、可聴帯域の音又は非可聴帯域の音を含む広帯域の音のデータである。作業音のデータは、例えば、２５７×１９９画素のスペクトログラムであってもよい。画像のデータは、例えば、２２４×２２４画素のデータであってもよい。なお、モデル生成部１４０は、フュージョン層に転移学習を行ってもよい。

　次に、推定部１２２は、学習時に決定されたパラメータを使用したフュージョン層により埋め込みベクトルを作成する。次に、推定部１２２は、埋め込みベクトルを作業分類部に入力し、Ｓｏｆｔｍａｘ層から出力された確率値に基づいて袋作業を特定する。

　［動作例２の変形例１のフローを実行する推定部１２２の構成例２］
　続いて、動作例２の変形例１のフローを実行する推定部１２２の構成例２について説明する。図２１は、動作例２の変形例１のフローを実行する推定部１２２の構成例２を模式的に示す図である。構成例１では、作業分類部は分類ネットワークとＳｏｆｔｍａｘ層とを備えたが、構成例２では、作業分類部は、対照学習ネットワークを備える。対照学習は、ラベル付けを行うことなく、データ同士を比較する仕組みを用いて、膨大なデータをそのまま学習できる自己教師あり学習の一つである。対照学習では、類似したデータは近くに、異なるデータは遠くになるように特徴量を学習する。

　［動作例２の変形例１のフローを実行する推定部１２２の構成例３］
　続いて、動作例２の変形例１のフローを実行する推定部１２２の構成例３について説明する。図２２は、動作例２の変形例１のフローを実行する推定部１２２の構成例３を模式的に示す図である。構成例１及び構成例２では、分類ネットワークの前にフュージョン層が配置されていたが、構成例３では、分類ネットワークの後ろにフュージョン層が配置されている。

　［画像サブネットワーク及び音サブネットワークのアーキテクチャの例について］
　続いて、画像サブネットワーク及び音サブネットワークのアーキテクチャの例について説明する。図２３は、画像サブネットワークのアーキテクチャの一例を示す図である。図２４は、音サブネットワークのアーキテクチャの一例を示す図である。図２３及び図２４に示されるように、入力データである画像のデータ及び作業音のデータのサイズが異なる場合が多いため、画像サブネットワーク及び音サブネットワークの各層のサイズは同一でなくてもよいが、これらのサブネットワークの最終層のサイズが同一であればよい。

　［フュージョン層のアーキテクチャの例について］
　図２５は、フュージョン層のアーキテクチャの一例を示す図である。図２５に示されるように、画像サブネットワークから出力されたデータと、音サブネットワークから出力されたデータとが結合層に入力されて、学習時と推論時とで異なる出力が得られる。

　［分類ネットワークのアーキテクチャの例について］
　図２６は、分類ネットワークのアーキテクチャの一例を示す図である。図２６に示されるように、分類ネットワークの第一層のサイズは、例えば、画像サブネットワークの後ろに配置される場合は、画像サブネットワークの最終層から出力されたデータと同じサイズであり、音サブネットワークの後ろに配置される場合は、音サブネットワークの最終層から出力されたデータと同じサイズである。また、分類ネットワークの第一層のサイズは、例えば、分類ネットワークがフュージョン層の後ろに配置される場合、フュージョン層の最終層から出力されたデータと同じサイズである。

　［対象学習ネットワークのアーキテクチャの例について］
　図２７は、対照学習ネットワークのアーキテクチャの一例を示す図である。図２７に示されるように、対照学習ネットワークの第一層のサイズは、例えば、埋め込みベクトル作成部から出力される埋め込みベクトルのサイズと同一である。対照学習ネットワークは、転移学習として使用される。ただし、損失関数として、例えば下記式１を用いる。

　ここで、ｓｉｍ（ｘ，ｙ）は、類似度を算出する関数であり、例えば、コサイン類似度が使用されてもよい。ｚｉ，ｚｊは、対応する埋め込みベクトルであり、例えば、それぞれ、画像のデータ及び広帯域の作業音のデータの埋め込みベクトルが使用されてもよい。τは、調整パラメータである。

　上記式１の損失関数は、２つの埋め込みベクトルの類似度が大きい時は大きく、類似度が小さい時は小さくなる。

　［動作例２の変形例２のフローを実行する推定部１２２の構成例］
　図２８は、動作例２の変形例２のフローを実行する推定部１２２の構成例を模式的に示す図である。動作例２の変形例２のフローについては、図１８に記載の動作例２の変形例１のフローを参照しながら説明する。動作例２の変形例１では、画像のデータを取得して入力データとして使用したが、動作例２の変形例２では、図１８のステップＳ０３において、撮像装置２０により撮像された画像のデータに代わり、測距センサなどにより取得された距離データを入力データとして使用してもよい。この場合、図２８に示されるように、推定部１２２は、画像サブネットワークに代わり、距離サブネットワークを備える。なお、他の構成例は、図２８の例に限られず、例えば、動作例２の変形例１の構成例２又は構成例３のように、フュージョン層の配置位置が変更されてもよいし、作業分類部が対照学習ネットワークを備えてもよい。

　［動作例３］
　続いて、実施の形態における推定システム２００の動作例３について図２９、図３０Ａ及び図３０Ｂを参照しながら説明する。図２９は、推定部１２２により作業員が透明物体を扱う作業をしていると誤推定されたときの作業音の例を示す図である。図３０Ａは、実施の形態における推定システム２００の動作例３のフローチャートである。図３０Ｂは、誤推定されうる作業音の特徴量を予め登録する動作の一例を示すフローチャートである。

　動作例３では、透明袋を扱う作業に付随する作業音を透明袋音といい、非透明袋を扱う（言い換えると、透明袋を扱わない）作業に付随する作業音を非透明袋音という。また、透明袋を扱う作業を袋作業という。

　まず、誤推定されうる作業音（以下、誤推定対象音ともいう）について図２９を参照しながら説明する。図２９の例では、類似度の閾値は、例えば、２５であり、推定部１２２は、作業音の透明袋音に対する類似度が閾値以上である場合、作業員が透明袋を扱う作業（袋作業）をしていると推定する。このとき、ビニール袋を開く音、棚から袋を取り出す音など、透明袋を扱う作業に付随する作業音に基づいて作業員の作業を正確に推定している場合もあるが、袋作業をしていないにも拘らず袋作業をしていると誤推定される場合もある。例えば、箱をゴムで束ねる音、箱もしくは袋をカートの下段に収納する音、又は、移動中のバーコードスキャンの音などのように透明袋音以外の作業音（いわゆる非透明袋音）に基づいて、作業員が袋作業をしていると誤推定されている。

　このような誤推定を低減するために、推定部１２２は、非透明袋音の特徴量と、予め登録された透明袋音の特徴量との類似度を算出し、当該類似度が閾値を上回る場合、非透明袋音を誤推定対象音と判定し、記憶部１３０に保存する。動作例３では、推定部１２２は、予め登録された、誤推定されうる作業音（以下、誤推定対象音ともいう）の特徴量と、透明袋音の特徴量とを記憶部１３０から読み込み、作業音の特徴量とこれらの特徴量との類似度を比較して、作業員が袋作業をしているか否かを推定する。

　続いて、動作例３について図３０Ａを参照しながら説明する。図示されていないが、推定装置１００の取得部１２１は、収音装置１０により収音された作業音のデータを取得し、取得されたデータを推定部１２２へ出力する。

　推定部１２２は、取得した作業音のデータを音識別モデルに入力し（Ｓ１１）、入力された作業音のデータから音声を検出し、入力特徴量を抽出する（Ｓ１２）。

　次に、推定部１２２は、音識別モデルを用いて作業音（以下、入力音という）の特徴量（音特徴量）を抽出する（Ｓ１３）。次に、推定部１２２は、記憶部１３０から透明袋音の特徴量と、誤推定対象音の特徴量とを読み込む（Ｓ１４）。

　次に、推定部１２２は、類似度計算（Ｓ１５）において、透明袋音と入力音の類似度、及び、誤推定対象音と入力音の類似度を算出する。

　次に、推定部１２２は、透明袋音と入力音の類似度が誤推定対象音と入力音の類似度を上回るか否かを判定し（Ｓ１６）、上回ると判定した場合（Ｓ１６でＹｅｓ）、透明袋音と入力音の類似度が閾値を上回るか否かを判定する（Ｓ１７）。推定部１２２は、透明袋音と入力音の類似度が閾値を上回ると判定した場合（Ｓ１７でＹｅｓ）、入力音が透明袋音であると判定する（Ｓ１８）。これにより、推定部１２２は、入力音（作業音）の特徴量に基づいて、作業員が透明袋を扱う作業をしていると推定する。

　一方、推定部１２２は、ステップＳ１６で透明袋音と入力音の類似度が誤推定対象音と入力音の類似度を上回らないと判定した場合（Ｓ１６でＮｏ）、入力音は透明袋音ではないと判定する（Ｓ１９）。また、推定部１２２は、ステップＳ１７で透明袋音と入力音の類似度が閾値を上回らないと判定した場合（Ｓ１７でＮｏ）、透明袋音ではないと判定する（Ｓ１９）。これにより、推定部１２２は、入力音（作業音）の特徴量に基づいて、作業員が透明袋を扱わない作業をしていると推定する。

　続いて、動作例３で使用される誤推定対象音の特徴量を予め記憶部１３０に保存する動作例について図３０Ｂを参照しながら説明する。図示されていないが、推定装置１００の取得部１２１は、収音装置１０により取得された作業音のデータを取得し、取得されたデータを推定部１２２へ出力する。このとき、取得部１２１により取得された作業音のデータは、透明袋を扱わない作業に付随する作業音である。

　次に、推定部１２２は、取得した作業音のデータを音識別モデルに入力し（Ｓ２１）、入力された作業音のデータから音声を検出し、入力特徴量を抽出する（Ｓ２２）。

　次に、推定部１２２は、音識別モデルを用いて作業音（以下、入力音という）の特徴量（音特徴量）を抽出する（Ｓ２３）。次に、推定部１２２は、記憶部１３０から透明袋音の特徴量を読み込む（Ｓ２４）。

　次に、推定部１２２は、類似度計算（Ｓ２５）において、透明袋音と入力音の類似度を算出する。

　次に、推定部１２２は、透明袋音と入力音の類似度が閾値を上回るか否かを判定し（Ｓ２６）、当該閾値を上回ると判定した場合（Ｓ２６でＹｅｓ）、当該入力音を誤推定対象音であると判定する（Ｓ２７）。そして、推定部１２２は、収音された音（作業音）の特徴量を誤推定対象音の特徴量として記憶部１３０に保存する（Ｓ２９）。一方、推定部１２２は、透明袋音と入力音の類似度が閾値を上回らないと判定した場合（Ｓ２６でＮｏ）、当該入力音を誤推定対象音ではないと判定する（Ｓ２８）。

　［５．効果等］
　以上説明したように、本実施の形態に係る推定方法は、コンピュータ（例えば、推定装置１００）による、作業員の作業を推定する推定方法であって、コンピュータは、収音された作業に付随する作業音のデータを取得し（図２のＳ０１）、学習済みの第１モデル１３２に作業音のデータを入力することで、作業員が透明物体を扱う作業をしているか否かを推定する（図２のＳ０２）。

　これにより、推定方法を実行する装置（例えば、推定装置１００）は、作業音のデータを入力とし、透明物体を扱う作業であるか否かを出力する第１モデル１３２を用いるため、透明物体を扱う作業を精度良く推定することができる。

　例えば、本実施の形態に係る推定方法では、コンピュータ（例えば、推定装置１００）は、作業音のデータに対応した、作業を行う作業員が映る画像のデータを取得し（図１７のＳ０３）、学習済みの第２モデル１３３に画像のデータを入力することで、作業員が透明物体を扱う作業をしているか否かを推定し（図１７のＳ０４）、第１モデル１３２を用いた推定結果及び第２モデル１３３を用いた推定結果に基づいて、作業員が透明物体を扱う作業をしているか否かを推定する（図１７のＳ０５）。なお、第１モデル１３２を用いた推定結果は、第１モデル１３２により作業音のデータから推定された推定結果であり、第２モデル１３３を用いた推定結果は、第２モデル１３３により画像のデータから推定された推定結果である。

　これにより、推定方法を実行する装置（例えば、推定装置１００）は、第１モデル１３２により作業音のデータから推定された推定結果と、第２モデル１３３により画像のデータから推定された推定結果とに基づいて、作業員が透明物体を扱う作業をしているか否かを推定する。そのため、推定方法を実行する装置は、作業音のデータのみを用いて推定する場合に比べて、透明物体を扱う作業をより精度良く推定することができる。

　例えば、本実施の形態に係る推定方法では、コンピュータ（例えば、推定装置１００）は、作業音のデータに対応した、作業を行う作業員が映る画像のデータを取得し（図１８のＳ０３）、作業音のデータと画像のデータとを第１モデル１３２に入力することで、作業員が透明物体を扱う作業をしているか否かを推定する（Ｓ０６）。

　これにより、推定方法を実行する装置（例えば、推定装置１００）は、作業音のデータ及び作業音に対応する画像のデータを入力とし、透明物体を扱う作業であるか否かを出力する第１モデル１３２を用いるため、作業音のデータのみを用いて推定する場合に比べて、透明物体を扱う作業をより精度良く推定することができる。

　例えば、本実施の形態に係る推定方法では、コンピュータ（例えば、推定装置１００）は、第１モデル１３２から出力された作業音の特徴量と、予め記憶部１３０（例えば、図１の特徴量データベース１３１）に保存された透明物体を扱う作業の作業音の特徴量との類似度に基づいて、作業員が透明物体を扱う作業をしているか否かを推定する。

　これにより、推定方法を実行する装置（例えば、推定装置１００）は、第１モデル１３２から出力された作業音の特徴量と、透明物体を扱う作業の作業音の特徴量との類似度に基づいて、作業員が透明物体を扱う作業をしているか否かを推定するため、透明物体を扱う作業を精度良く推定することができる。

　例えば、本実施の形態に係る推定方法では、コンピュータ（例えば、推定装置１００）は、第１モデル１３２から出力された作業音の特徴量の、予め記憶部１３０（例えば、特徴量データベース１３１）に保存された透明物体を扱う作業の作業音の特徴量に対する類似度（言い換えると、第１類似度）と、予め記憶部１３０（例えば、特徴量データベース１３１）に保存された作業員が透明物体を扱う作業をしていると誤推定されうる作業音（例えば、図３０Ａの誤推定対象音）の特徴量に対する類似度（言い換えると、第２類似度）とに基づいて、作業員が透明物体を扱う作業をしているか否かを推定する（図３０ＡのＳ１６～Ｓ１９）。

　これにより、推定方法を実行する装置（例えば、推定装置１００）は、第１モデル１３２から出力された作業音の特徴量と透明物体を扱う作業の作業音の特徴量と類似度（第１類似度）と、第１モデル１３２から出力された作業音の特徴量と誤推定されうる作業音の特徴量との類似度（第２類似度）とを比較することで、誤推定の発生を低減することができる。したがって、推定方法を実行する装置は、作業音のデータのみを用いても、透明物体を扱う作業を精度良く推定することができる。

　例えば、本実施の形態に係る推定方法では、コンピュータ（例えば、推定装置１００）は、第１モデル１３２から出力された作業音の特徴量の、透明物体を扱う作業の作業音の特徴量に対する上記の類似度（上記の第１類似度）が、作業員が透明物体を扱う作業をしていると誤推定されうる作業音（図３０Ａの誤推定対象音）の特徴量に対する上記の類似度（上記の第２類似度）を上回る場合（図３０ＡのＳ１６でＹｅｓ）、作業員が透明物体を扱う作業をしていると推定する。

　これにより、推定方法を実行する装置（例えば、推定装置１００）は、誤推定の発生を低減することができるため、作業音のデータのみを用いても、透明物体を扱う作業を精度良く推定することができる。

　例えば、本実施の形態に係る推定方法では、コンピュータ（例えば、推定装置１００）は、透明物体と異なる非透明物体を扱う作業の作業音のデータを第１モデル１３２に入力して得られる非透明物体を扱う作業の作業音の特徴量と、透明物体を扱う作業の作業音の特徴量との類似度（言い換えると、第３類似度）が閾値を上回る場合（図３０ＢのＳ２６でＹｅｓ）、当該非透明物体を扱う作業の作業音を、透明物体を扱う作業の作業音と誤推定されうる作業音（いわゆる、誤推定対象音）であると判定し（図３０ＢのＳ２７）、非透明物体を扱う作業の作業音の特徴量を誤推定されうる作業音の特徴量として記憶部１３０（例えば、特徴量データベース１３１）に保存する（図３０ＢのＳ２９）。

　これにより、推定方法を実行する装置（例えば、推定装置１００）は、非透明物体を扱う作業の作業音の特徴量と、透明物体を扱う作業の作業音の特徴量との類似度（第３類似度）に基づいて、当該非透明物体を扱う作業の作業音が透明物体を扱う作業をしていると誤推定されうる作業音であるか否かを精度良く判定することができる。そのため、推定方法を実行する装置は、誤推定される可能性が比較的高い作業音の特徴量を記憶部１３０に保存することができる。したがって、推定方法を実行する装置は、記憶部１３０に保存された誤推定され得る作業音の特徴量を用いることで、誤推定の発生を低減することができるため、作業音のデータのみを用いても、透明物体を扱う作業を精度良く推定することができる。

　本実施の形態に係る推定方法では、作業音のデータは、非可聴帯域の音のデータを含んでもよい。

　これにより、推定方法を実行する装置（例えば、推定装置１００）は、可聴帯域の音から非可聴帯域の音までを含む作業音のデータを用いて作業員が透明物体を扱う作業をしているか否かを推定する。このように、作業音のデータが非可聴帯域の音を含むことで、作業音のデータ中の誤推定の原因となる環境からの雑音が少なくなるため、推定方法を実行する装置は、透明物体を扱う作業の推定精度を高めることができる。さらに、推定方法を実行する装置は、可聴帯域の音のデータのみを用いる場合よりもより多くの情報に基づいて、作業員が透明物体を扱う作業をしているか否かを推定することができる。したがって、推定方法を実行する装置は、透明物体を扱う作業をより精度良く推定することができる。

　また、本実施の形態に係る推定装置１００は、作業員の作業を推定する推定装置であって、収音された作業に付随する作業音のデータを取得する取得部１２１と、学習済みの第１モデル１３２に作業音のデータを入力することで、作業員が透明物体を扱う作業をしているか否かを推定する推定部１２２と、を備える。

　これにより、推定装置１００は、作業音のデータを入力とし、透明物体を扱う作業であるか否かを出力する第１モデル１３２を用いるため、透明物体を扱う作業を精度良く推定することができる。

　また、本実施の形態に係るプログラムは、上記の推定方法をコンピュータに実行させるためのプログラムである。

　（他の実施の形態）
　以上、実施の形態について説明したが、本開示は、上記の実施の形態に限定されるものではない。

　図３１は、他の実施の形態に係る推定システムの機能構成の一例を示すブロック図である。実施の形態に係る推定システム２００は、推定装置１００は、サーバ装置である例を説明したが、推定装置１００はサーバ装置でなくてもよい。例えば、他の実施の形態に係る推定システム２００ａでは、推定装置１００ａは、パーソナルコンピュータなどの据え置き型のコンピュータ装置であってもよい。推定装置１００ａは、表示部１６０を備える点で、推定装置１００と異なる。以下、異なる点のみ説明する。

　［表示部１６０］
　表示部１６０は、例えば、推定結果を表示する。表示部１６０は、例えば、文字などを含む画像情報を表示する表示装置であり、例えば、液晶（ＬＣ）パネル又は有機ＥＬ（Ｅｌｅｃｔｒｏ　Ｌｕｍｉｎｅｓｃｅｎｃｅ）パネルなどを表示デバイスとして含むディスプレイである。

　なお、推定装置１００ａは、例えば、収音部と撮像部とを備えてもよく、作業空間８０に１つ以上設置されてもよい。収音部と撮像部とを備えるとは、収音装置１０及び撮像装置２０と有線又は無線通信で接続される態様であってもよいし、収音装置１０及び撮像装置２０とを備える単一の装置であってもよい。そして、推定装置１００ａは、例えば、サーバ装置又はユーザの情報端末と通信接続されてもよい。この場合、推定装置１００ａは、所定期間（例えば、１日、数日、一週間など）、記憶部１３０に推定結果を保存して、サーバ装置又は情報端末に推定結果を出力してもよいし、推定の都度、推定結果を出力してもよい。サーバ装置は、クラウドサーバであってもよい。また、情報端末は、パーソナルコンピュータなどの据え置き型のコンピュータ装置であってもよく、タブレット端末などの携帯型のコンピュータ装置であってもよい。

　また、例えば、上記の実施の形態では、推定システム２００、２００ａのそれぞれは、複数の装置によって実現されているが、単一の装置として実現されてもよい。また、システムが複数の装置によって実現される場合、推定システム２００、２００ａのそれぞれが備える複数の構成要素は、複数の装置にどのように振り分けられてもよい。また、例えば、推定システム２００又は２００ａと通信可能なサーバ装置が、情報処理部１２０に含まれる複数の構成要素を備えていてもよい。

　例えば、上記実施の形態における装置間の通信方法については特に限定されるものではない。また、装置間の通信においては、図示されない中継装置が介在してもよい。

　また、上記実施の形態において、特定の処理部が実行する処理を別の処理部が実行してもよい。また、複数の処理の順序が変更されてもよいし、複数の処理が並行して実行されてもよい。

　また、上記実施の形態において、各構成要素は、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵ又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

　また、各構成要素は、ハードウェアによって実現されてもよい。例えば、各構成要素は、回路（又は集積回路）でもよい。これらの回路は、全体として１つの回路を構成してもよいし、それぞれ別々の回路でもよい。また、これらの回路は、それぞれ、汎用的な回路でもよいし、専用の回路でもよい。

　また、本開示の全般的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよい。また、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

　例えば、本開示は、推定装置１００などのコンピュータが実行する推定方法として実現されてもよいし、このような推定方法をコンピュータに実行させるためのプログラムとして実現されてもよい。また、本開示は、汎用のコンピュータを上記実施の形態の推定装置１００として動作させるためのプログラムとして実現されてもよい。本開示は、これらのプログラムが記録されたコンピュータ読み取り可能な非一時的な記録媒体として実現されてもよい。

　その他、各実施の形態に対して当業者が思いつく各種変形を施して得られる形態、又は、本開示の趣旨を逸脱しない範囲で各実施の形態における構成要素及び機能を任意に組み合わせることで実現される形態も本開示に含まれる。

　本開示によれば、透明物体を扱う作業を精度良く推定することができるため、作業時間など正確に把握できるようになり、工場又は物流などの現場における作業の効率化を図ることができる。

　１０　収音装置
　２０　撮像装置
　５０　情報端末
　８０　作業空間
　１００、１００ａ　推定装置
　１１０　通信部
　１２０　情報処理部
　１２１　取得部
　１２２　推定部
　１３０　記憶部
　１３１　特徴量データベース
　１３２　第１モデル
　１３３　第２モデル
　１４０　モデル生成部
　１５０　入力受付部
　１６０　表示部
　２００、２００ａ　推定システム

Claims

　コンピュータによる、作業員の作業を推定する推定方法であって、
　前記コンピュータは、
　収音された前記作業に付随する作業音のデータを取得し、
　学習済みの第１モデルに前記作業音のデータを入力することで、前記作業員が透明物体を扱う作業をしているか否かを推定する、
　推定方法。
　前記コンピュータは、
　前記作業音のデータに対応した、前記作業を行う前記作業員が映る画像のデータを取得し、
　学習済みの第２モデルに前記画像のデータを入力することで、前記作業員が前記透明物体を扱う作業をしているか否かを推定し、
　前記第１モデルを用いた推定結果及び前記第２モデルを用いた推定結果に基づいて、前記作業員が前記透明物体を扱う作業をしているか否かを推定する、
　請求項１に記載の推定方法。
　前記コンピュータは、
　前記作業音のデータに対応した、前記作業を行う前記作業員が映る画像のデータを取得し、
　前記作業音のデータと前記画像のデータとを前記第１モデルに入力することで、前記作業員が前記透明物体を扱う作業をしているか否かを推定する、
　請求項１に記載の推定方法。
　前記コンピュータは、
　前記第１モデルから出力された前記作業音の特徴量と、予め記憶部に保存された前記透明物体を扱う作業の作業音の特徴量との類似度に基づいて、前記作業員が前記透明物体を扱う作業をしているか否かを推定する、
　請求項１～３のいずれか１項に記載の推定方法。
　前記コンピュータは、さらに、
　前記第１モデルから出力された前記作業音の特徴量の、予め記憶部に保存された前記透明物体を扱う作業の作業音の特徴量に対する類似度と、予め前記記憶部に保存された前記作業員が前記透明物体を扱う作業をしていると誤推定されうる作業音の特徴量に対する類似度とに基づいて、前記作業員が前記透明物体を扱う作業をしているか否かを推定する、
　請求項１～３のいずれか１項に記載の推定方法。
　前記コンピュータは、
　前記第１モデルから出力された前記作業音の特徴量の、前記透明物体を扱う作業の前記作業音の特徴量に対する前記類似度が、前記作業員が前記透明物体を扱う作業をしている誤推定されうる前記作業音の特徴量に対する前記類似度を上回る場合、前記作業員が前記透明物体を扱う作業をしていると推定する、
　請求項５に記載の推定方法。
　前記コンピュータは、
　前記透明物体と異なる非透明物体を扱う作業の作業音のデータを前記第１モデルに入力して得られる前記非透明物体を扱う作業の前記作業音の特徴量と、前記透明物体を扱う作業の前記作業音の特徴量との類似度が閾値を上回る場合、前記非透明物体を扱う作業の前記作業音を、前記透明物体を扱う作業の作業音と誤推定されうる作業音であると判定し、
　前記非透明物体を扱う作業の前記作業音の特徴量を前記誤推定されうる作業音の特徴量として前記記憶部に保存する、
　請求項５に記載の推定方法。
　前記作業音のデータは、非可聴帯域の音のデータを含む、
　請求項１～３のいずれか１項に記載の推定方法。
　作業員の作業を推定する推定装置であって、
　収音された前記作業に付随する作業音のデータを取得する取得部と、
　学習済みの第１モデルに前記作業音のデータを入力することで、前記作業員が透明物体を扱う作業をしているか否かを推定する推定部と、
　を備える、
　推定装置。
　請求項１～３のいずれか１項に記載の推定方法をコンピュータに実行させるための、
　プログラム。