JPWO2020145085A1

JPWO2020145085A1 - 画像認識装置、画像認識プログラム、および画像認識方法

Info

Publication number: JPWO2020145085A1
Application number: JP2020565674A
Authority: JP
Inventors: 一成岩永; 海斗笹尾
Original assignee: Hitachi Kokusai Electric Inc
Current assignee: Hitachi Kokusai Electric Inc
Priority date: 2019-01-08
Filing date: 2019-12-20
Publication date: 2021-11-04
Anticipated expiration: 2039-12-20
Also published as: WO2020145085A1; JP7155295B2

Abstract

本発明は、顧客満足度の高いサービスを提供するための技術を提供することを目的とする。上記課題を解決するために、代表的な本発明の画像認識装置の一つは、飲食スペースを撮像した映像を取得する映像取得部と、飲食スペースの映像群について飲食に関する進行状況（以下「食事状況」という）を機械学習させた学習モデルを用いて、映像取得部が取得した映像について食事状況を画像認識する画像認識部と、画像認識された食事状況に基づいて顧客の飲食に関する進捗状態を判定する状態判定部とを備える。

Description

本発明は、画像認識装置、画像認識プログラム、および画像認識方法に関する。

飲食を顧客に提供する業種において、顧客に対してサービスをタイムリーに提供することは、顧客満足度の向上と、効率的な事業運営といった観点から重要である。

そのため、従業員は店内の各テーブルを巡回しながら目視確認を繰り返し、各テーブルにおける食事の進行状況を常に把握する必要があった。

一方、顧客が操作する呼び出しボタンや注文用タブレットを各テーブルに配置して、サービス指示のタイミングを顧客の判断に任せてしまう方法も知られている。

また、特許文献１には、「食事に用いる容器と容器に収容された料理の画像を撮影し、画像から料理の残量を面積測定して食事が終了したか否かを判断し、食事終了を示す情報を出力する」旨の技術が開示される。

特開２０１５−１３８４５２号公報

従業員には、接客以外にも、食材発注・下ごしらえ・調理・後片付け・レジ清算・店内清掃などの仕事がある。そのため、従業員が、各テーブルの食事の進行状況をきめ細かく目視確認して、サービス指示のタイミングを常時判断する方法は、従業員としての負担が大きくなるという問題があった。

一方、呼び出しボタンや注文用タブレットを使用する方法は、顧客からの要求に合わせて従業員が受動的に対応するため、顧客満足度をそれ以上に高めることは難しいという問題があった。

また、特許文献１の技術は、料理の残量を面積測定する方法の開示しかなく、それ以外の多様な食事の進行状況についての柔軟な判定は考慮されていない。

そこで、本発明は、顧客満足度の高いサービスを提供するための技術を提供することを目的とする。

上記課題を解決するために、代表的な本発明の画像認識装置の一つは、飲食スペースを撮像した映像を取得する映像取得部と、飲食スペースの映像群について飲食に関する状況（以下「食事状況」という）を機械学習させた学習モデルを用いて、映像取得部が取得した映像について食事状況を画像認識する画像認識部と、画像認識された食事状況に基づいて顧客の飲食に関する進捗状態を判定する状態判定部とを備える。

本発明の画像認識技術により、顧客満足度の高いサービスを提供することが可能となる。
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。

業務支援システムおよび画像認識装置の構成を示す図である。画像認識部および状態判定部の構成を示す図である。学習データの一例を示す説明図である。画像認識装置の動作を説明する流れ図である。撮像装置から取得する飲食スペースの映像を示す図である。検知領域を示す図である。ブロック分割を行った検知領域を示す図である。顧客単位の検知領域を示す図である。学習モデルによる推論結果を、検知領域ごとに示した図である。３Ｄ畳込みニューラルネットワークを説明する図である。ＹＯＬＯやＳＳＤなどによる物体検出の結果を示す図である。学習モデルから出力されるクラス分類を示す図である。状態遷移モデルを示す図である。状態遷移モデルの遷移条件の例を示す図である。進捗状態に対応するサービス指示の一例を示す図である。サービス指示の表示例を示す図である。

本発明に関わる実施例を、図面を参照して説明する。
＜実施例の構成＞
図１は、業務支援システム１および画像認識装置１００の全体構成を示すブロック図である。
この画像認識装置１００は、ハードウェアをＣＰＵ（Central Processing Unit）やメモリユニットや通信ユニットなどを備えたコンピュータ（情報処理システムなども含む）により構成してもよい。

このハードウェアにおいて、画像認識プログラムが実行されることにより、画像認識装置１００の後述する各種機能が実現する。

なお、ハードウェアの一部または全部については、ＤＳＰ（Digital Signal Processor ）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit ）などで代替してもよい。また、ハードウェアの一部または全部をネットワーク上のサーバに集中または分散配置してクラウド化し、複数の人がネットワークを介して共同利用してもよい。

図１に示すように、業務支援システム１は、画像認識装置１００、撮像装置１０１、表示／指示端末１０２、および表示出力装置１０３を備える。さらに、画像認識装置１００は、映像取得部１１０、画像認識部１２０、状態判定部１３０、データ通信部１４０、記録制御部１５０、表示制御部１７０、および記録装置１６０を備える。

撮像装置１０１は、１台以上のカメラによって構成され、飲食スペースを撮影するように天井や壁や卓上などに配置される。例えば、撮像装置１０１には、ＣＣＴＶカメラ、卓上に設置したロボットに内蔵されたカメラ、魚眼レンズカメラ、ウェブカメラなどが採用可能である。

映像取得部１１０は、無線や有線ケーブルやネットワーク網を介して、撮像装置１０１から飲食スペースの映像を１次元配列もしくは２次元配列の画像データとして取得する。また、映像取得部１１０は、外部の映像データベースや記録装置１６０からも飲食スペースの映像群を取得する。

画像認識部１２０は、映像取得部１１０が取得する映像について、食事状況や、メニュー状況や、人物の有無の状況を画像認識する。

なお、本開示において、「食事状況」とは、飲食の進行状況を示すものであり、例えば「食事未提供」、「食事提供済み」、「食事終了」などを指す。

また、本開示において、「メニュー状況」とは、顧客が閲覧するメニューに関する状況を示すものであり、例えば「メニュー無し」、「メニュー有り（閉状態）」、「メニュー有り（開状態）」などを指す。

さらに、「メニュー有り（閉状態）」には、メニューブックが閉じて中ページを閲覧できない状況の他に、メニューが衝立などに収納されてメニューを閲覧できない状況などを含めてもよい。「メニュー有り（開状態）」には、メニューブックが開いた状態で中ページが閲覧可能な状況の他に、メニューを衝立などから取り出してメニューが閲覧可能になった状況や、顧客がメニューを手にしている状況などを含めてもよい。

また、本開示において、「人物の有無の状況」とは、人物の有無に関する状況を示すものであり、例えば「在席」、「空席」などを指す。
さらに「在席」には、椅子に着席した状況の他に、立食式の飲食スペースにおいて立食可能なスペースに立っている状況を含めてもよい。

状態判定部１３０は、画像認識の結果に基づいて、顧客の飲食に関する進捗状態を判定し、進捗状態に対応するサービス指示のタイミングを報知する。

データ通信部１４０は、状態判定部１３０、画像認識部１２０、表示／指示端末１０２、およびデータセンタ（不図示）などの間で無線や有線ケーブルやネットワーク網を介してデータ通信を行う。

表示／指示端末１０２は、ＰＯＳ端末（販売時点情報管理端末）などの情報処理装置であって、状態判定部１３０が報知するサービス指示のタイミングを、データ通信部１４０を介して受信してイベントや画像や振動や音声などによって顧客担当の従業員に通知する。

また、従業員が表示／指示端末１０２に入力した顧客情報（注文データや精算データなど）は、データ通信部１４０を介して状態判定部１３０に伝達される。さらに、従業員が表示／指示端末１０２に入力した情報（通知確認や通知停止の操作や、サービス指示を実施したか否かの情報など）もデータ通信部１４０を介して状態判定部１３０に伝達される。

記録制御部１５０は、状態判定部１３０の判定に基づいて、記録装置１６０に対する記録制御（記録のオンオフ、フレームレートの制御、圧縮率の制御、記録間隔の制御など）を行う。

記録装置１６０は、記録制御部１５０による記録制御に従って、映像取得部１１０が取得した映像を記録する。さらに、記録装置１６０は、画像認識装置１００による画像認識や状態判定の結果も記録する。

表示制御部１７０は、映像取得部１１０が取得した映像と共に、画像認識装置１００による画像認識や状態判定やサービス指示の結果を表示出力装置１０３に表示する。

図２は、画像認識部１２０および状態判定部１３０の構成を示すブロック図である。
同図において、画像認識部１２０は、パラメータ設定部１２１、前処理部１２２、特徴抽出部１２３、認識部１２４、および学習モデル１２５を備える。状態判定部１３０は、状態遷移部１３１、および指示出力部１３２を備える。

パラメータ設定部１２１は、画像処理に必要なパラメータを設定、変更、読み込み、保存する機能を持つ。

前処理部１２２は、映像取得部１１０の取得した映像に対して、パラメータ設定部１２１のパラメータに従って検知領域のトリミング処理やマスキング処理を行う。さらに、前処理部１２２は、映像に対してノイズやフリッカなどを低減するため、平滑化フィルタ、輪郭強調フィルタ、濃度変換などの前処理を施してもよい。さらに、画像認識の用途に応じてＲＧＢカラーやモノクロなどの色変換処理を行ってもよい。さらには、処理負荷を低減するために、画像データに縮小処理を施してもよい。

特徴抽出部１２３は、前処理を施した検知領域の映像に対して、後段の画像認識の精度を向上させるため、画像認識に関わる画像の特徴を強調または抽出する画像処理を行う。

認識部１２４は、特徴抽出部１２３により特徴抽出を行った検知領域の映像について、学習モデル１２５を用いた画像認識を実施する。

学習モデル１２５は、畳込みニューラルネットワークなどにより構成される。この学習モデル１２５の学習データは、事前に検知領域の映像群を収集し、人物有無のクラス分類、食事状況のクラス分類、およびメニュー状況のクラス分類を教師値として与えることにより作成される。

例えば、次のクラス分類が教師値となる。
＜食事状況＞
・食事未提供
・食事提供済み
・食事終了
＜メニュー状況＞
・メニュー有り（閉状態）
・メニュー有り（開状態）
・メニュー無し
＜人物有無の状況＞
・在席
・空席
図３は、このような教師値を付与した学習データの一例を示す説明図である。

同図のＡ群は、空席、食事未提供、メニュー無しの教師値を付与した映像群である。

Ｂ群は、在席、食事未提供、メニュー有り（開状態）の教師値を付与した映像群である。

Ｃ群は、在席、食事提供済み、メニュー無しの教師値を付与した映像群である。

Ｄ群は、在席、食事終了、メニュー無しの教師値を付与した映像群である。

このような学習データの映像群を学習モデル１２５の入力層に与えつつ、学習モデル１２５の出力層において教師値との誤差を最小化するように機械学習（例えば逆誤差伝搬法）が行われる。

このような機械学習により、学習モデル１２５の入力層に検知領域の映像を与えると、学習モデル１２５の出力層に「人物有無のクラス分類」、「食事状況のクラス分類」、および「メニュー状況のクラス分類」などの推論結果が出力されるようになる。

状態遷移部１３１は、入店から退店までの顧客の飲食に関する状態の遷移をモデル化した状態遷移モデルを有する。状態遷移部１３１は、この状態遷移モデルに対して、認識部１２４の画像認識の結果（「人物有無のクラス分類」、「食事状況のクラス分類」、および「メニュー状況のクラス分類」などの推論結果）を遷移条件として当てはめて、顧客の状態を状態遷移させることで、現時点の顧客の飲食に関する進捗状態を判定する。

また、状態遷移部１３１は、顧客の状態遷移について時間経過に基づく予測を行い、次の進捗状態に遷移させる。

さらに、状態遷移部１３１は、表示／指示端末１０２に操作入力された顧客の注文、精算などの顧客情報をデータ通信部１４０を介して取得する。状態遷移部１３１は、この顧客情報に基づいて顧客の進捗状態を優先的に決定する。

このような状態遷移を起こした情報群は、記録制御部１５０を介して記録装置１６０内の履歴１６０ａにバックアップされる。

指示出力部１３２は、顧客の進捗状態に対応して、サービス指示をデータ通信部１４０を介して表示／指示端末１０２に報知する。

＜実施例の動作＞
図４は、画像認識装置１００の動作を説明する流れ図である。
以下、図４に示すステップ番号に沿って、実施例の動作を説明する。

ステップＳ１０１：映像取得部１１０は、撮像装置１０１から飲食スペースの映像を取得する。図５は、取得される飲食スペースの映像３０１を示す図である。映像３０１には、テーブル単位（テーブルと座席のセット）の複数の検知領域３０２〜３０５が含まれる。

ステップＳ１０２：パラメータ設定部１２１は、この映像３０１を歪曲補正した後、テーブル単位の検知領域３０２〜３０５をトリミングするために区画を設定する。このような区画設定は、ユーザがテーブルとテーブルとの間に境界線を指定して設定してもよい。また、パラメータ設定部１２１が映像３０１からテーブルの色や形状を認識することによって、テーブル単位の区画を自動設定してもよい。

また、パラメータ設定部１２１は、各テーブルの照明などの撮影条件の違いに基づいて、テーブル単位の検知領域３０２〜３０５それぞれに対する画質補正（輝度補正や色補正やガンマ補正など）を設定してもよい。

さらに、パラメータ設定部１２１は、テーブル上の飾りなど、食事やメニューと関係しない固定領域を除くためのマスク設定を行ってもよい。

前処理部１２２は、パラメータ設定部１２１による上述した一連の設定に基づいて、映像３０１からテーブル単位の検知領域３０２〜３０５をトリミングする。図６は、トリミングされた検知領域３０２を示す図である。

なお、説明を簡単にするため、ここから以降は検知領域３０２の処理のみを説明するが、残りの検知領域３０３〜３０５についても同様の処理が並行または逐次に行われる。

ステップＳ１０３：前処理部１２２は、テーブル単位の検知領域３０２をさらに分割する。
図７は、テーブル単位の検知領域３０２をｍ列×ｎ行のブロック単位の検知領域５０１に分ける様子を示す図である。このように処理単位を細分化することにより、後段の特徴検出や画像認識の処理単位を小さくし、かつ並列化するなどの高速化も可能になる。
図８は、顧客単位の検知領域６０１〜６０３を決定する様子を示す図である。前処理部１２２は、顧客の有無を、背景差分法や顔検出や学習モデルなどの画像処理により検出する。前処理部１２２は、検出された顧客の領域とその顧客に提供される飲食物やメニューの領域をカバーするように検知領域６０１〜６０３を決定する。このように顧客の行動領域ごとに検知領域６０１〜６０３を分けたことにより、顧客別の画像認識が可能になる。

さらに、図８に示すような複数人が自由に座る長椅子ではなく、一人ずつ座る椅子席の場合、顧客ごとの検知領域６０１〜６０３の代わりに、椅子席ごとに検知領域を分けてもよい。

上述した検知領域の種類は、後段の特徴抽出部１２３、認識部１２４の設計や処理負荷や飲食スペース特有の事情に応じて使い分けられる。

ステップＳ１０４：特徴抽出部１２３は、検知領域に対して、例えば、動き特徴として、背景差分法などによって過去画像との変化量、オプティカルフローに基づく動きベクトル、画像特徴として、画像に含まれるエッジ情報、色情報、輝度情報などを抽出する。抽出された特徴は検知領域の映像データとして認識部１２４へ出力される。

なお、特徴抽出部１２３は、ハフ変換で検出した円や直線の数など、人物や皿などの形状に着目したルールベースと特徴量を検知領域に付属させてもよい。また、特徴抽出部１２３は、人物の手足のスケルトン認識（例えばOpenPoseなど）によって、手足などの人体パーツの特徴情報を抽出して検知領域に付属させてもよい。

認識部１２４は、特徴抽出部１２３から入力された検知領域の多次元配列データを、学習モデル１２５の入力層に入力する。

学習モデル１２５の内部では、この検知領域の多次元配列データに対して、畳込み層やプーリング層や全結合層による配列演算および活性化関数による非線形演算が行われる。検知領域に付属する画像以外の特徴情報については、全結合層に入力してもよい。

この配列演算では、上述した機械学習で作成された各層の係数値やバイアス値などが使用されることにより、学習モデル１２５の出力層には、上述した「人物有無のクラス分類」、「食事状況のクラス分類」、および「メニュー状況のクラス分類」などの推論結果が出力されるようになる。

図９は、学習モデル１２５による推論結果を、検知領域６０１、６０２、６０３ごとに示した図である。

なお、食事状況の正しい推定を行うためには、フォークなど器具を使う動作なども有用な情報となることから、学習モデル１２５は、過去の時系列の複数フレームを同時に畳込む３Ｄ畳込みニューラルネットワーク（図１０参照）などの方式を用いて、動きを含めた推論処理を行ってもよい。この場合、学習モデル１２５は、「顧客による食事中の動き」や「顧客がメニューを読む動き」や「食事中にスマホを見る動き」などの顧客の動きを検出することが可能になる。

また、学習モデル１２５は、検知領域６０１、６０２、６０３のように顧客ごとの検知領域に対してだけではなく、図７のような一律に分割されたブロック状の検知領域５０１に対しても適用することができる。この場合、例えば、１人しか映っていない状態であっても、複数のブロックが「在席」を示すようになる。そこで、同じ「在席」を示す隣接ブロックを統合することにより、１人分の映像範囲を確定できる。また、１人分の映像範囲に含まれるブロック群についてクラス分類の結果の多数決をとることにより、１人分の映像範囲についてクラス分類を行うことが可能になる。

また、各テーブルの状態を個人ごとに分ける必要がない場合、つまり、テーブル全体の状態を管理したい場合は、図６に示した検知領域３０２のように机単位の区画全体を学習モデル１２５に入力とすることで推論処理を行うことも可能である。

さらに、顧客ニーズとして、水やドリンクなどのコップの出し忘れを防ぎたいというニーズがある場合、例えば、You Only Look Once（ＹＯＬＯ）やSingle Shot Multibox Det ector（ＳＳＤ）に代表されるような物体検出処理を学習モデル１２５に適用して、”ドリンク”や”食事”、”人物”など机上周辺に存在しうるものをクラスとして定義、学習させることによって、図１１に示すようにオブジェクトの位置、有無を認識するようにしてもよい。

図１２は、学習モデル１２５により実施されるクラス分類を示す図である。
同図において、クラス分類は、次のクラスからなる。
＜食事状況＞
・食事未提供
・食事提供済み
・食事終了
＜メニュー状況＞
・メニュー有り（閉状態）
・メニュー有り（開状態）
・メニュー無し
＜人物有無の状況＞
・在席
・空席

ステップＳ１０５：図１３は、状態遷移部１３１が使用する状態遷移モデルを示す図である。同図において、状態遷移モデルは、次の（１）〜（６）の進捗状態を有する。（１）入店（２）メニュー選択（３）待ち（４）食事中（５）食後（６）退店

これらの進捗状態は、（１）〜（６）の昇順に状態遷移（図１３に示す実線矢印）が起こる。この昇順の状態遷移は、顧客が入店してから退店するまでの標準的な状態遷移である。その他に、状態遷移モデルには、図１３に示す点線矢印のような例外的な状態遷移が存在する。

図１４は、この状態遷移モデルの遷移条件の一例を示す図である。
状態遷移部１３１は、状態遷移モデルに対して、認識部１２４の画像認識の結果（「人物有無のクラス分類」、「食事状況のクラス分類」、および「メニュー状況のクラス分類」などの推論結果）を組み合わせて遷移条件に該当すると、顧客の進捗状態を状態遷移させる。この状態遷移により、現時点における顧客の飲食に関する進捗状態が決定する。

例えば、前回が「退店」の進捗状態にあった検知領域において、人物有無のクラス分類が空席から在席に変化すると、進捗状態は「入店」に初期設定される。

さらに、「入店」の進捗状態において、在席状態でメニューが開かれるという遷移条件を満足すると、進捗状態を「入店」から「メニュー選択」へ状態遷移させる。

また、「メニュー選択」の進捗状態において、開かれていたメニューが閉じるという遷移条件を満足すると、進捗状態を「メニュー選択」から「待ち」へ状態遷移させる。

さらに、「待ち」の進捗状態において、食事状況が食事提供済みになるという遷移条件を満足すると、進捗状態を「待ち」から「食事中」へ状態遷移させる。

また、「食事中」の進捗状態において、食事状況が食事終了になるという遷移条件を満足すると、進捗状態を「食事中」から「食後」へ状態遷移させる。

さらに、「食後」の進捗状態において、メニューが開かれるという遷移条件を満足すると、進捗状態を「食後」から「メニュー選択」へ状態遷移させる。

また、「食後」の進捗状態において、在席から空席へ変化するという遷移条件を満足すると、進捗状態を「食後」から「退店」へ状態遷移させる。

ステップＳ１０６：状態遷移部１３１は、状態遷移後の時間経過を計測する。この時間経過に基づいて、次の状態遷移の可能性を予測する。この予測により、画像認識の結果に変化がない場合でも、状態遷移部１３１は進捗状態を次に進めることができる。

ステップＳ１０７：状態遷移部１３１は、注文などの顧客情報を収集する表示／指示端末１０２などの情報処理装置から顧客情報をデータ通信部１４０を介して取得すると、状態遷移モデルの進捗状態を優先的（強制的）に変更する。

例えば、図１４に示すように、「入店」または「メニュー選択」の進捗状態において、「注文完了」の顧客情報を取得すると、進捗状態は「待ち」へ強制的に変更される。

ステップＳ１０８：指示出力部１３２は、検知領域ごとに進捗状態に対応するサービス指示（サービス内容：サービス提供のタイミング）を決定する。
図１５は、進捗状態に対応するサービス指示の一例を示す図である。

例えば、「入店」の進捗状況に対応して、サービス指示（飲料水コップの提供：入店になってから）が決定する。

さらに、「メニュー選択」の進捗状態に対応して、サービス指示（注文の確認：メニュー選択になってから所定時間経過後）が決定する。

また、「待ち」の進捗状態に対応して、サービス指示（食事の提供：待ちになってから調理完了後）が決定する。

さらに、「食後」の進捗状態に対応して、サービス指示（食器の回収：食後になってから）が決定する。

また、「退店」の進捗状態に対応して、サービス指示（片付け指示：退店になってから）が決定する。

さらに、「食後」の進捗状態に対応して、サービス指示（食後デザートの提供：食後かつ食後デザートの注文がある場合）が決定する。

ステップＳ１０９：顧客単位やテーブル単位にサービス指示が生じるため、複数のサービス指示が短期間に集中するケースも生じる。そこで、指示出力部１３２は、顧客やテーブルの間で発生するサービス指示に対して優先レベルを設定する。

一般に、顧客のために行うサービス（「注文の確認」や「食事の提供」や「食後デザートの提供」など）は、飲食店のために行うサービス（「食器の回収」など）よりも優先レベルが高くなる。

ステップＳ１１０：指示出力部１３２は、優先レベルに応じて、サービス指示のタイミングを入れ替えることにより、従業員別の接客スケジュールを予定する。

ステップＳ１１１：指示出力部１３２は、従業員別の接客スケジュールに所定時間以上の空き時間があるか否かを判定する。空き時間がある場合、指示出力部１３２はステップＳ１１２に動作を移行する。それ以外の場合、指示出力部１３２はステップＳ１１３に動作を移行する。

ステップＳ１１２：指示出力部１３２は、空き時間に応じて、接客以外の仕事（食材発注・下ごしらえ・調理・後片付け・レジ清算・店内清掃など）や休憩のタイミングをデータ通信部１４０を介して、従業員の表示／指示端末１０２に報知する。

ステップＳ１１３：指示出力部１３２は、予定された接客スケジュールのタイミングでサービス指示と、サービスすべきテーブルまたは顧客の位置情報とをデータ通信部１４０を介して、従業員の表示／指示端末１０２に報知する。

なお、サービス指示を、図１６に示すようなマップ情報７００にして、バックヤードの表示出力装置１０３に表示してもよい。例えば、「退店」の進捗状態が発生すると、マップ上のレジ箇所に「レジ待ちあり」が表示される。このような表示出力装置１０３を従業員が視認しやすい場所に置くことで、全体のオペレーションを把握できる他、指示端末を持たない従業員も、各自が処理すべき仕事を視認しやすいようになる。

ステップＳ１１４：認識部１２４は、食事状況の画像認識と併せて、コップの中の飲料水の残量についての補充物状況を画像認識する。状態遷移部１３１は、補充物状況に応じてコップの中の飲料水が不足状態か否かを判定する。

指示出力部１３２は、不足状態の判定に対して、飲料水の補充を行うサービス指示と、サービスすべきテーブルまたは顧客の位置情報とをデータ通信部１４０を介して、従業員の表示／指示端末１０２に報知する。

なお、補充物は飲料水に限らず、ドリンク、お茶、調味料、付け合わせ、ご飯、パン、卓上ケース内の箸やフォークやナイフなどのお代わりまたは補充を行うものでもよい。

上述した一連の動作（ステップＳ１０１〜１１４）を完了すると、画像認識装置１００は動作をステップＳ１０１に戻すことで、従業員の接客支援が繰り返し継続的に行われる。
＜実施例の効果＞

（１）実施例では、機械学習した学習モデルを用いて、飲食スペースの映像から顧客の食事状況を画像認識する。したがって、特許文献１の飲食残量の面積測定のような固定的な画像認識とは異なり、顧客の食事状況を柔軟に画像認識することが可能になる。

（２）特許文献１の飲食残量の面積測定では、顧客に「注文」の意思があるか否かは判定のしようがない。それに対して、実施例では、食事状況の他に、メニュー状況について画像認識を行う。その結果、メニューが開かれた状況を検知して顧客が「注文」の意思があるなどを総合的に判定し、顧客の注文意思を的確に捉えることが可能になる。したがって、実施例の採用により、顧客が従業員に注文の声をかける前に、従業員が顧客に注文を伺うことが可能になる。そのため、顧客満足度を高めることが可能になる。

（３）また、食事状況が変化するのは、「食事提供」の直後であるのに対して、メニュー状況が変化するのはそれよりも前の「入店」後からである。そうしてみると、食事状況にメニュー状況を加えることにより、より広範囲の期間についてサービス指示を報知することが可能になる。

（４）また、実施例では、顧客の飲食の進捗状態を状態遷移モデルで表す。そのため、現在の進捗状態と、画像認識の結果（遷移条件）とに基づいて、進捗状態を状態遷移させる。例えば、「食後」の進捗状態において、画像認識によりメニューが開かれたことを検知することで、顧客に「追加注文」の意思があるなどのより詳細な注文意思を的確に捉えることが可能になる。一般に「最初の注文」に比べて「追加注文」は必ず発生するわけではないため、その注文意思を的確に捉えるには、従業員側に接客についての長い経験が必要になる。しかし、実施例の採用により、経験の浅い従業員であっても顧客に追加注文を適切なタイミングで伺うことが可能になる。そのため、顧客満足度を一段と高めることが可能になる。

（５）さらに実施例では、時間経過による予測によって状態遷移モデルを状態遷移させる。そのため、何らかの原因により画像認識の結果が得られない場合にも、顧客の進捗状態が進み、従業員は注文や配膳などのサービス指示を受けることができる。したがって、実施例においてサービス指示が停止してしまって顧客に迷惑がかかるといった事態を防ぐことができる。

（６）また、実施例では、ＰＯＳ端末などから収集した顧客情報に基づいて状態遷移モデルを優先的（強制的）に状態遷移させる。そのため、何らかの原因により画像認識の結果が得られない場合にも、顧客の進捗状態が進み、従業員はサービス指示を受けることができる。したがって、実施例においてサービス指示が停止してしまって顧客に迷惑がかかるといった事態を防ぐことができる。

（７）さらに実施例では、顧客の有無に応じて画像認識を行う検知領域を決定する。そのため、顧客のいない領域について無駄に画像認識を行うことがなくなり、効率的な処理が可能になる。

（８）また実施例では、複数の顧客や顧客グループについて、サービス指示の優先レベルを勘案した接客スケジュールを作成する。そのため、多数のサービス指示が集中して発生して混乱するなどの状況を緩和することが可能になる。従来このような混乱を避けるためには、従業員側に接客についての深く長い経験が必要になる。しかし、実施例の採用により、経験の浅い従業員であっても優先レベルの高いサービス指示から順に実施すればよくなる。したがって、顧客満足度を一段と高めることが可能になる。

（９）さらに実施例では、接客スケジュールに基づいて空き時間を予測する。したがって、従業員に対してサービス指示だけではなく、空き時間を指示することが可能になる。したがって、実施例の採用により、従業員の行動に無為な空き時間が生まれるといったことがなくなり、空き時間を意識して効率的に活用することが可能になる。

（１０）また、実施例では、お茶や飲料水などの補充物状況についても画像認識を行い、補充指示を適時に報知することができる。したがって、実施例の採用により、従業員が補充物の不足を何度も目視確認する必要がなくなり、従業員の手間を減らすことが可能になる。

（１１）以上述べたように、実施例では、店舗の従業員や経営者は、顧客の食事状況などに基づいて、次にやるべき仕事について、必要なタイミングでサービス指示を受けることが可能になる。

（１２）さらに、実施例では、従業員は、必要なタイミングでサービス指示を受けるため、顧客の状態を目視確認するなど意識を払う必要が少なく、レジや調理／片付け業務や清掃など、その他業務に集中することが可能となり、業務効率の向上につながる。

（１３）この業務効率の向上の結果、実施例では、食事提供までの待ち時間が短縮される。したがって、効率的かつ顧客満足度の高い速やかな業務遂行が期待できる。

＜実施例の補足＞
なお、実施例では、ニューラルネットワークの学習モデル１２５について説明した。しかしながら、本発明はこれに限定されない。本発明は、クラス分類が可能な学習モデルであればよく、決定木学習などの学習モデルを使用することもできる。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。

また、ある構成の一部を他の構成に置き換えることが可能である。

さらに、実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

１…業務支援システム、１００…画像認識装置、１０１…撮像装置、１０２…表示／指示端末、１０３…表示出力装置、１１０…映像取得部、１２０…画像認識部、１２１…パラメータ設定部、１２２…前処理部、１２３…特徴抽出部、１２４…認識部、１２５…学習モデル、１３０…状態判定部、１３１…状態遷移部、１３２…指示出力部、１４０…データ通信部、１５０…記録制御部、１６０…記録装置、１６０ａ…履歴、１７０…表示制御部

Claims

飲食スペースを撮像した映像を取得する映像取得部と、
飲食スペースの映像群について食事状況を機械学習させた学習モデルを用いて、前記映像取得部が取得した映像について前記食事状況を画像認識する画像認識部と、
画像認識された前記食事状況に基づいて顧客の飲食に関する進捗状態を判定する状態判定部と、
を備えることを特徴とする画像認識装置。
請求項１記載の画像認識装置において、
前記画像認識部は、
前記映像について、メニュー状況を画像認識し、
前記状態判定部は、
画像認識された前記食事状況および前記メニュー状況に基づいて、前記顧客の飲食に関する前記進捗状態を判定する
ことを特徴とする画像認識装置。
請求項１〜２のいずれか１項に記載の画像認識装置において、
前記状態判定部は、
前記進捗状態の状態遷移をモデル化した状態遷移モデルを有し、前記画像認識部の認識結果を遷移条件として前記進捗状態を前記状態遷移モデルに当てはめて状態遷移させることにより、前記進捗状態を判定する
ことを特徴とする画像認識装置。
請求項３記載の画像認識装置において、
前記状態判定部は、
前記顧客の飲食に関する前記状態遷移について時間経過に基づく予測を行う
ことを特徴とする画像認識装置。
請求項１〜４のいずれか１項に記載の画像認識装置において、
前記状態判定部は、
前記顧客の注文などの顧客情報を収集する情報処理装置から前記顧客情報を取得し、前記顧客情報による判定を優先して、前記進捗状態を判定する
ことを特徴とする画像認識装置。
請求項１〜５のいずれか１項に記載の画像認識装置において、
前記画像認識部は
前記映像において、前記顧客の有無を検出し、前記顧客の有無に応じて前記映像において画像認識を行う検知領域を決定する
ことを特徴とする画像認識装置。
請求項１〜６のいずれか１項に記載の画像認識装置において、
前記状態判定部は、
前記進捗状態に対応するサービス指示を報知する
ことを特徴とする画像認識装置。
請求項１〜７のいずれか１項に記載の画像認識装置において、
前記状態判定部は
前記顧客の別または前記顧客のグループ別に、前記進捗状態に対応するサービス指示の優先レベルを管理し、前記優先レベルに応じて前記進捗状態に対応するサービス指示を報知する
ことを特徴とする画像認識装置。
請求項１〜８のいずれか１項に記載の画像認識装置において、
前記状態判定部は
前記進捗状態に基づいて接客に関する空き時間を判定し、前記空き時間に応じて接客以外の仕事または休憩のタイミングを報知する
ことを特徴とする画像認識装置。
請求項１〜９のいずれか１項に記載の画像認識装置において、
前記画像認識部は、
前記飲食スペースにおいてお代わりまたは補充を行う補充物に関する状況（以下「補充物状況」という）を画像認識し、
前記状態判定部は、
前記補充物状況に基づいて、前記補充物の不足を判定し、前記補充物の不足に対応するサービス指示を報知する
ことを特徴とする画像認識装置。
コンピュータを
請求項１〜１０のいずれか１項に記載の前記画像認識部、および前記状態判定部として機能させる
ことを特徴とする画像認識プログラム。
飲食スペースを撮像した映像を取得する映像取得ステップと、
飲食スペースの映像群について食事状況を機械学習させた学習モデルを用いて、前記映像取得ステップが取得した映像について前記食事状況を画像認識する画像認識ステップと、
画像認識された前記食事状況に基づいて顧客の飲食に関する進捗状態を判定する状態判定ステップと、
を備えることを特徴とする画像認識方法。
請求項１２記載の画像認識方法において、
前記画像認識ステップは、
前記映像について、メニュー状況を画像認識し、
前記状態判定ステップは、
画像認識された前記食事状況および前記メニュー状況に基づいて、前記顧客の飲食に関する前記進捗状態を判定する
ことを特徴とする画像認識方法。
請求項１２〜１３のいずれか１項に記載の画像認識方法において、
前記状態判定ステップは、
前記進捗状態の状態遷移をモデル化した状態遷移モデルを有し、前記画像認識ステップの認識結果を遷移条件として前記進捗状態を前記状態遷移モデルに当てはめて状態遷移させることにより、前記進捗状態を判定する
ことを特徴とする画像認識方法。