TWI717030B

TWI717030B - 資訊處理系統及資訊處理方法

Info

Publication number: TWI717030B
Application number: TW108134405A
Authority: TW
Inventors: 廣屋修一
Original assignee: 日商Ｑｂｉｔ機器人股份有限公司
Priority date: 2019-02-25
Filing date: 2019-09-24
Publication date: 2021-01-21
Also published as: US20210402611A1; KR20210027396A; JPWO2020174537A1; CN112585642A; WO2020174537A1; EP3806022A1; TW202032491A; JP6667766B1; EP3806022A4

Abstract

本發明具有：解析部（120），其解析拍攝部（110）所拍攝的影像中包含的人物相關的人物資訊；資料庫（130），其儲存人物資訊及表示該資訊處理系統被設置的環境之環境資訊；發聲部（140），其進行對應於人物資訊與環境資訊的發聲內容之發聲；及強化學習部（150），其根據表示發聲部（140）所進行的發聲之結果的結果資訊而進行學習，以針對各個人物資訊與環境資訊的組合，更新對應於發聲內容的第1分數，發聲部（140）針對組合，進行與第1分數之中的最大值者已建立對應關係的發聲內容之發聲。

Description

資訊處理系統及資訊處理方法

本發明係關於資訊處理系統及資訊處理方法。

近年，為了解決勞動力不足及人手不足的問題，使用AI（Artificial Intelligence：人工智能）進行適當處理的系統逐漸增加。例如，解析接待顧客的機器人所拍攝的影像而掌握顧客的需求，然後進行接待顧客行動的系統（例如，參考專利文獻1。）。［先前技術文獻］［專利文獻］

［專利文獻1］日本特開2018-84998號公報

［發明所欲解決的課題］

在上述的技術中，機器人對於顧客僅進行固定的接待顧客動作，並且從顧客對於該動作的反應，掌握該顧客的需求。因此，有時無法依照顧客或該顧客的狀況而進行動作，導致無法靈活接待顧客。

本發明的目的為提供可靈活接待顧客的資訊處理系統及資訊處理方法。［用於解決課題的手段］

本發明的資訊處理系統具有：拍攝部；解析部，其解析該拍攝部所拍攝的影像中包含的人物相關的人物資訊；資料庫，其儲存該人物資訊及表示該資訊處理系統被設置的環境之環境資訊；發聲部，其進行對應於該人物資訊及該環境資訊的發聲內容之發聲；及強化學習部，其從該資料庫讀出該人物資訊及該環境資訊，再根據表示該發聲部所進行的發聲之結果的結果資訊而進行學習，以針對各個該讀出的人物資訊與環境資訊的組合，更新對應於該發聲內容的第1分數，該發聲部針對該組合，進行與該第1分數之中的最大值者已建立對應關係的發聲內容之發聲。

又，本發明的資訊處理系統具有：照相機；機器人；及資訊處理裝置，該資訊處理裝置具有：解析部，其解析該照相機所拍攝的影像中包含的人物相關的人物資訊；資料庫，其儲存該人物資訊及表示該資訊處理系統被設置的環境之環境資訊；發聲控制部，其指示該機器人來進行對應於該人物資訊及該環境資訊的發聲內容之發聲；及強化學習部，其從該資料庫讀出該人物資訊及該環境資訊，再根據表示該發聲控制部所指示的發聲結果的結果資訊而進行學習，以針對各個該讀出的人物資訊與環境資訊的組合，更新對應於該發聲內容的第1分數，前述發聲控制部指示該機器人針對該組合，進行與該第1分數之中的最大值者已建立對應關係的發聲內容之發聲。該機器人具有：聲音輸出部，其輸出由該發聲控制部指示的發聲內容所表示的聲音。

又，本發明的資訊處理方法為一種資訊處理系統的資訊處理方法，其進行以下處理：解析照相機所拍攝的影像中包含的人物相關的人物資訊之處理；從儲存該人物資訊及表示該資訊處理系統被設置的環境之環境資訊的資料庫讀出該人物資訊及該環境資訊的處理；針對該讀出的人物資訊與環境資訊的組合，進行與第1分數之中的最大值者已建立對應關係的發聲內容之發聲的處理；及根據表示該進行的發聲之結果的結果資訊而進行學習，然後更新該第1分數的處理。［發明效果］

藉由本發明，可靈活接待顧客。

以下，參考圖式說明本發明的實施形態。（第1實施形態）

圖1為表示本發明的資訊處理系統之第1實施形態。本形態中資訊處理系統如圖1所示具有：拍攝部110；解析部120；資料庫130；發聲部140；及強化學習部150。拍攝部110進行對象人物之拍攝。解析部120解析拍攝部110所拍攝的影像中包含的人物相關的人物資訊。資料庫130儲存人物資訊及表示資訊處理系統被設置的環境之環境資訊。

人物資訊係為拍攝部110所拍攝的影像中包含的人物相關的資訊，例如，拍攝部110所拍攝的影像中包含的人物之位置或性別、年齡層、表情（例如，笑臉、驚訝的臉、悲傷的臉、憤怒的臉等）、身高、服裝、人種、人與人的親屬關係等。又，人物資訊也包含拍攝部110所拍攝的影像中包含的人物之使用語言或該人物之點餐內容。使用語言係為根據使用在拍攝部110的附近所設置的麥克風等收音構件（未圖示）而收音的聲音，再由解析部120予以解析的資訊。又，點餐內容為用以進行點餐的輸入部（未圖示）所受理的點餐內容。又，人物資訊係：若經認證（特定出）在拍攝部110所拍攝的影像中包含的人物為目前為止所登錄的顧客，則可為賦予該顧客的個人辨識資訊（例如，顧客ID號碼等）。在個人辨識資訊已被登錄的情況，從該個人辨識資訊所特定出的顧客之過去的點餐內容或點餐次數等也被包含在人物資訊。

環境資訊係為表示根據人物數量、現在的日期時間、時段、氣候、本系統的運作狀況（處理負載狀況）、地點區分、已點餐而尚未提供數及點餐處理狀態等而判定的店鋪狀態等的資訊。環境資訊可為上述資訊中的至少一項資訊。本系統的運作狀況係為表示例如「顧客已進行點餐」、「調理作業忙碌中」、「店鋪附近看不到人」、「調理中」、「已點餐而尚未提供數為零」、「進行調理的機器人已將食物放置在提供位置」等該系統目前所屬狀態的資訊。

發聲內容表示發聲部140欲進行的發聲之具體文句。發聲內容表示對於發聲部140附近發聲的內容、對於拍攝部110所拍攝的影像中包含的人物搭話的內容等。例如，發聲內容係與：以攬客為目的之喚進店鋪的內容或喚起附近的人物之注意的內容、對於已點餐的顧客催促追加點餐的內容、自言自語、時事話題、食物品項的說明等一般店鋪的店員依照該狀況而進行的發聲之內容相同。

分數係為根據表示發聲部140進行的發聲之結果的結果資訊，強化學習部150進行學習的數值（第1分數）。該分數藉由強化學習部150進行強化學習，而由強化學習部150更新。其中，結果資訊係指發聲部140進行發聲之後，顧客反應、表示銷售內容或銷售額變動之銷售資訊等，並且包含其中至少一項的資訊。顧客反應係由解析部120解析拍攝部110所拍攝的影像中包含的人物相關的表情之變化等而取得。

發聲部140進行對應於人物資訊與環境資訊的發聲內容之發聲。發聲部140針對對應於人物資訊與環境資訊的人物資訊與環境資訊之組合，進行與第1分數之中的最大值者已建立對應關係的發聲內容之發聲。強化學習部150從資料庫130讀出人物資訊與環境資訊。強化學習部150根據表示發聲部140進行的發聲之結果的結果資訊而進行學習，然後針對讀出的人物資訊與環境資訊的組合也就是各種組合更新對應於發聲內容的第1分數。

圖2為表示圖1所示的強化學習部150具有的分數之一例。圖1所示的強化學習部150如圖2所示，對應於環境資訊之中的系統運作狀況的啟動任務被設定，並且各個人物資訊與環境資訊的組合具有對應於已啟動的任務之發聲類別及對應於該發聲類別所包含的發聲內容之分數。在圖2，將人物資訊以「a1」、「a2」、「b1」、「b2」、「b3」表示。在圖2，將環境資訊以「c1」、「c2」、「d1」表示。又，在圖2，將發聲類別以「Cat1」、「Cat2」表示。又，在圖2，將對應於發聲類別「Cat1」的發聲內容以「Con11」、「Con12」、「Con13」表示。又，在圖2，將對應於發聲類別「Cat2」的發聲內容以「Con21」、「Con22」、「Con23」表示。並且，在圖2，將人物資訊「a」設成性別的話，可將「a1」設成男性、將「a2」設成女性。其他的人物資訊或環境資訊也採用相同的設定方式。

圖3為表示圖1所示的強化學習部150中欲進行的強化學習之輸入輸出之一例。圖1所示的強化學習部150如圖3所示具有：報酬計算部1501；更新部1502；及價值函數計算部1503。強化學習部150根據已進行發聲的結果、該結果資訊或發聲後的銷售資料（食物品項或數量、金額等）等，而進行強化學習再計算報酬，進行更新之後，輸入到價值函數計算部1503。之後，根據人物資訊與環境資訊，而輸出各發聲內容的價值（分數）。價值函數計算部1503可使用神經網路予以實現，但針對價值函數計算部1503所進行的解析方法並未有特別規定。

以下，說明圖1所示的資訊處理系統中的資訊處理方法。圖4為用以說明圖1所示的資訊處理系統中資訊處理方法的一例的流程圖。

首先，拍攝部110進行拍攝的話（步驟S1），解析部120會解析拍攝部110所拍攝的影像中包含的人物相關的人物資訊（步驟S2）。解析部120將已解析的結果寫入資料庫130。於是，強化學習部150會從資料庫130讀出人物資訊，再根據讀出的人物資訊、環境資訊及發聲內容，計算發聲內容的適當值。然後，發聲部140會選擇最適當的發聲內容（步驟S3）。具體而言，發聲部140針對在資料庫130所儲存的人物資訊與環境資訊之組合，選擇與分數之中的最大值者已建立對應關係的發聲內容。發聲部140進行所選擇的發聲內容之發聲（步驟S4）。強化學習部150根據發聲部140進行的發聲之後的結果資訊而進行學習，然後更新分數（步驟S5）。

其中，可針對進行學習之前的分數，預先儲存所有彼此相同的數值，並且依照針對人物資訊與環境資訊的組合所預測的發聲內容之效果而預先儲存已事先設定的數值。

以這種方式，在本形態，進行對應於所拍攝的人物或環境的發聲，並且根據該結果而學習，再利用該學習結果更新發聲內容的分數。因此，可靈活接待顧客。（第2實施形態）

圖5為表示本發明的資訊處理系統之第2實施形態。本形態的資訊處理系統如圖5所示具有：照相機111；資訊處理裝置101；及機器人201。圖5所示的資訊處理系統例如被設置在提供咖啡或簡單飯食等飲料食物的店鋪，並且由機器人201接待顧客。照相機111對於該店鋪的附近拍攝，將所拍攝的影像中包含的人物視為潛在顧客或顧客，機器人201進行發聲或動作。照相機111為進行對象人物之拍攝的拍攝部。照相機111可拍攝静止畫面，可拍攝動畫，可為能取得建築物內深度資訊的內建深度感測器的照相機。又，照相機111進行拍攝的時間點並未特別規定。又，照相機111被設置在：可根據所拍攝的影像，而辨識顧客所在的位置相對於提供食物的位置之相對位置的位置。又，照相機111的個數並不限於1台。又，照相機111可根據來自外部的控制而自由改變拍攝方向。資訊處理裝置101係為與照相機111及機器人201連接，並且控制照相機111及機器人201的裝置。例如，資訊處理裝置101可為能進行軟體的PC（Personal Computer）。機器人201根據來自資訊處理裝置101的指示，而輸出預定的聲音或進行預定的動作。機器人201例如可進行調理或跳舞作為預定的動作。

如圖5所示，資訊處理裝置101具有：解析部121；資料庫131；發聲控制部141；發聲系統強化學習部1511；動作控制部161；動作系統強化學習部1512；執行任務191；執行任務選擇部171；及輸入部181。此外，圖5僅顯示資訊處理裝置101所具備的構成要素之中本形態相關的主要構成要素。

解析部121解析照相機111所拍攝的影像中包含的人物相關的人物資訊。其中，人物資訊係指與第1實施形態相同，例如，人物的位置或性別、年齡層、表情、身高、服裝、人種、使用語言、人與人的親屬關係、點餐內容等。解析部121為了從這種人物資訊中的影像解析該人物，可使用在影像辨識中通常使用的影像辨識方法，針對該解析方法並無特別規定。又，人物資訊係：若認證（特定出）照相機111所拍攝的影像中包含的人物為目前為止所登錄的顧客，則可為賦予該顧客的個人辨識資訊（例如，顧客ID號碼等）。在個人辨識資訊已被登錄的情況，從該個人辨識資訊所特定出的顧客之過去的點餐內容（點餐食物品項或點餐次數等）也被包含在人物資訊。又，解析部121根據照相機111被設置的位置及照相機111所拍攝的人物之位置，而算出顧客所在位置相對於提供食物的位置之相對位置等。又，解析部121將點餐時用以輸入食物品項的點餐終端機前面的那個人辨識為點餐者。

資料庫131儲存人物資訊及表示資訊處理系統的環境之環境資訊。又，資料庫131依照任務觸發條件而儲存執行任務選擇部171所選擇的執行任務資訊。以下敘述所儲存的資訊之具體例。

執行任務選擇部171根據任務觸發條件而從多個執行任務191之中選擇資訊處理裝置101欲進行的任務予以啟動。

發聲系統強化學習部1511將「被選擇而啟動的執行任務191所相應之發聲類別及該發聲類別所包含的發聲內容」所相應之分數予以更新及控制。發聲系統強化學習部1511根據表示聲音輸出部211所輸出的發聲結果的結果資訊而進行學習，然後針對各個從資料庫131讀出的人物資訊與環境資訊的組合，更新對應於發聲內容的分數。將表示聲音輸出部211所進行的發聲之結果的結果資訊收集起來，再根據所收集的結果資訊而進行學習，然後更新分數。在此所進行的學習係與第1實施形態相同。又，此處的分數係為根據表示聲音輸出部211進行的發聲之結果的結果資訊而進行學習的數值（第1分數）。該分數藉由進行強化學習，而由發聲系統強化學習部1511予以更新。其中，結果資訊係指聲音輸出部211進行發聲之後的顧客反應（例如，笑臉率等）、表示銷售內容或銷售額變動的銷售資訊（例如，Upsell率或銷售提升率等）等，並且包含其中至少一項的資訊。該銷售資訊可為表示根據輸入到輸入部181的內容而販賣的商品之銷售內容之資訊。並且，上述的顧客反應係可根據照相機111所拍攝的影像中包含的人物相關的人物資訊而由解析部121進行解析而取得。

動作系統強化學習部1512將「被選擇而啟動的執行任務191所對應的動作類別及該動作類別所包含的動作資訊」所對應之分數予以更新及控制。又，動作系統強化學習部1512根據表示動作執行部221所進行的動作之結果的結果資訊而進行學習，然後針對各個從資料庫131讀出的人物資訊與環境資訊的組合，更新對應於動作資訊的分數。動作系統強化學習部1512根據表示動作執行部221進行的動作之結果的結果資訊而進行學習，然後更新分數。此處的分數係為根據表示動作執行部221進行的動作之結果的結果資訊而進行學習的數值（第2分數）。該分數藉由進行強化學習而由動作系統強化學習部1512予以更新。其中，結果資訊係指動作執行部221進行動作之後的顧客反應（例如，笑臉率等）、表示銷售內容或銷售額變動的銷售資訊（例如，Upsell銷售率或銷售提升率等）等，並且包含其中至少一項的資訊。並且，上述的顧客反應可根據照相機111所拍攝的影像中包含的人物相關的人物資訊而由解析部121解析予以取得。

發聲控制部141在多個執行任務191之中預定的執行任務已啟動的情況，指示機器人201具有的聲音輸出部211，以便進行與發聲系統強化學習部1511所輸出的第1分數之中的最大值者已建立對應關係的發聲內容之發聲。

動作控制部161在多個執行任務191之中預定的執行任務已啟動的情況，指示機器人201具有的動作執行部221，以便進行與動作系統強化學習部1512所輸出的第2分數之中的最大值者已建立對應關係的動作資訊表示的動作。

輸入部181輸入資訊。輸入部181可根據從外部受理的操作而輸入資訊，也可輸入在資訊處理裝置101的內部或外部已算出的數值。輸入部181可用於點餐，此時，輸入根據從外部受理的操作而點的食物品項。

如圖5所示，機器人201具有：聲音輸出部211；及動作執行部221。並且，圖5僅顯示機器人201具備的構成要素之中，關於本形態的主要構成要素。

聲音輸出部211根據來自發聲控制部141的指示而輸出聲音。聲音輸出部211可為一般的揚聲器。聲音輸出部211較佳為被配置在「宛如機器人201正在說話般、輸出的聲音可由外部聽見的位置」。並且，聲音輸出部211之數量不限於1個，可設置在機器人201外部。動作執行部221根據來自動作控制部161的指示而進行動作。動作執行部221例如可為使用機器人201的馬達等而動作的臂部。在本形態，將發聲控制部141及聲音輸出部211合併成為發聲部，將動作控制部161及動作執行部221合併成為動作部。

本形態中，人物資訊、環境資訊及發聲內容可為與第1實施形態所說明的人物資訊、環境資訊及發聲內容相同。動作資訊為用以進行調理、跳舞等預定動作的資訊。

以下，說明特定出照相機所拍攝的人物（顧客）之位置的處理。圖6為用以說明特定出圖5所示的照相機111所拍攝的人物之位置的處理之一例。如圖6所示，例如，在店鋪設置照相機111－1~111－3，根據各個照相機111－1~111－3所拍攝的影像，使解析部121特定出人物的位置。解析部121界定成—照相機111－1所拍攝的影像中所包含、從照相機111－1看係位在預定區域內之人物，係位在區域1（Zone1）。又，解析部121界定成—照相機111－2所拍攝的影像所包含、從照相機111－2看係位在預定區域內之人物，係位在區域2（Zone2）。又，解析部121界定成—照相機111－3所拍攝的影像中所包含、從照相機111－3看係位在預定區域內之人物，係位在區域3（Zone3）。又，解析部121界定成—照相機111－1~111－3的任一者所拍攝的影像中所包含、位在遠離拍攝該影像的任一照相機111－1~111－3的區域內之人物，係位在區域0（Zone0）。然而，為了以這種方式特定出人物的位置，不限定於使用多個照相機，可使用1台照相機，根據該照相機所拍攝的影像，判定人物位在區域0~3（Zone0~3）的何處。又，將這些區域0~3（Zone0~3）定義如下。 Zone0：店鋪附近的區域。路過的顧客及有興趣的顧客混雜。 Zone1：點餐場所。進行點餐的顧客多。 Zone2：店鋪鄰接的區域。以點餐後等待食物完成的顧客為主。 Zone3：食物的提供場所。以帶走已完成的食物的顧客為主。將這些區域予以定義，然後將定義好的區域與行動（發聲、動作）之間的對應關係預先登錄在資料庫131。例如，藉由預先將Zone0與進行將客人喚進店鋪的發聲內容建立對應關係，而可對於位在Zone0的人物，決定採取用以將客人喚進店鋪的發聲或攬客的動作之行動。又，例如，藉由預先將Zone1與詢問欲點的食物品項之發聲內容建立對應關係，而可對於位在Zone1的人物，採取用以詢問欲點的食物品項的發聲或動作的行動。以這種方式，對於對象人物，可準備對應於該區域的適當行動。各個區域的邊界係使用4頂點座標等特定出來。並且，不一定必須將照相機111－1~111－3與Zone0~Zone3之間建立對應關係。例如，照相機111－2及照相機111－3拍攝位在Zone2的顧客，再解析以2個照相機拍攝的顧客之位置等人物資訊。

圖7為表示圖5所示的執行任務選擇部171所參照、從資料庫131內儲存的人物資訊與環境資訊的組合可掌握的事態與執行任務之間的對應關係之一例。該對應關係可被預先儲存在圖5所示的資料庫131。如圖7所示，依照表示人物的位置或系統的運作狀況之環境資訊，各任務被建立對應關係。

例如，將「有點餐」的事態與調理任務建立對應關係。藉由使用該對應關係，執行任務選擇部171在此時的事態為「有點餐」的情況，選擇調理任務。進一步，將調理任務與詳細的發聲內容或動作資訊建立對應關係，進行調理任務時，機器人201進行調理，依照這些發聲內容或動作資訊的行動會被進行。此時的發聲內容例如為用以提升笑臉率的發聲、或用以提升Repeat率的發聲。這些發聲內容被預先儲存在資料庫131。

又，將「人物進入特定區域」及「該處為點餐區域」的事態與促使點餐任務建立對應關係。藉由使用該對應關係，執行任務選擇部171在：此時的事態為「人物進入特定區域」及「該處為點餐區域」的情況，選擇促使點餐任務。「該處是否為點餐區域」係由解析部121使用表示人物位置之資訊而判定。例如，若人物進入圖6所示的Zone1，則解析部121會判定成「該處為點餐區域」。進一步，將促使點餐任務與詳細的發聲內容或動作資訊建立對應關係，進行促使點餐任務時，依照這些發聲內容或動作資訊的行動會被進行。此時的發聲內容例如為用以使顧客點餐的發聲或勸說顧客點其他食物品項的發聲之內容。這些發聲內容被預先儲存在資料庫131。

又，將「人物進入特定區域」及「該處為點餐區域以外」的事態與提升顧客滿意度任務建立對應關係。藉由使用該對應關係，執行任務選擇部171在：此時的事態為「人物進入特定區域」及「該處為點餐區域以外」的情況，選擇提升顧客滿意度任務。「該處是否為點餐區域以外」係藉由解析部121使用表示人物位置之資訊而判定。例如，若人物進入圖6所示的Zone2、3，則解析部121判定：「該處為點餐區域以外」。進一步，將提升顧客滿意度任務與詳細的發聲內容或動作資訊建立對應關係，進行提升顧客滿意度任務時，依照這些發聲內容或動作資訊的行動被進行。此時的發聲內容係例如用以提升笑臉率的發聲、或用以提升Repeat率的發聲。這些發聲內容被預先儲存在資料庫131。

又，將「已點餐而尚未提供數為零」及「附近無人或不存在反應率高的人」的事態與攬客任務建立對應關係。藉由使用該對應關係，執行任務選擇部171在：此時的事態為「已點餐而尚未提供數為零」及「附近無人或不存在反應率高的人」的情況，選擇攬客任務。「是否已點餐而尚未提供數為零」係藉由解析部121使用表示環境資訊之中的系統運作狀況的資訊而判定。又，「是否附近無人」係例如基於人物是否進入圖6所示的Zone0~3，而由解析部121判定。「是否不存在反應率高的人」係根據雖然人物已進入Zone0~3，但該人物的表情或動作是否為對於點餐無興趣的表情或動作，而由解析部121判定。進一步，將攬客任務與詳細的發聲內容或動作資訊建立對應關係，進行攬客任務時，依照這些發聲內容或動作資訊的行動被進行。此時的動作資訊例如為用以將華麗的攬客用機器人動作搭配音樂而進行的資訊。該動作資訊被預先儲存在資料庫131。

又，將「已點餐而尚未提供數為零」及「附近存在反應率高的人」的事態與鎖定目標喚進店鋪任務建立對應關係。藉由使用該對應關係，執行任務選擇部171在：此時的事態為「已點餐而尚未提供數為零」及「附近存在反應率高的人」的情況，選擇鎖定目標喚進店鋪任務。「是否已點餐而尚未提供數為零」係由解析部121使用表示環境資訊之中的系統運作狀況的資訊而判定。又，「附近存在反應率高的人」之事態係例如在人物進入圖6所示的Zone0~3、並且解析部121所解析的該人物的表情或動作為對於點餐有興趣時，由該解析部121判定。進一步，將鎖定目標喚進店鋪任務與詳細的發聲內容或動作資訊建立對應關係，進行鎖定目標喚進店鋪任務時，進行依照這些發聲內容或動作資訊的行動。此時的發聲內容及動作資訊係例如用於進行易於喚進特定人物之發聲及動作。該發聲內容及動作資訊被預先儲存在資料庫131。

又，如圖7所示，對於各個執行任務賦予優先度。當另一個具有更高優先度的任務被選擇的話，則該高優先度任務之處理將插入進行。這種處理與按照順序處理時的插入處理相同。

圖8為表示圖5所示的資訊處理系統中軟體構成之一例。圖5所示的資訊處理裝置101可使用圖8所示般的構成之軟體而實現該動作。

影像辨識部針對照相機所拍攝的影像進行人物辨識、人物位置檢出及表情辨識。又，影像辨識部將已辨識的人物相關的資訊儲存在人物位置・表情・關係・屬性資料庫。其中，關係表示照相機所拍攝的影像中包含的多名人物之間的關係，例如表示親子、友人等的資訊。又，屬性表示人物的性別或年齡層、身長、服裝、人種、使用語言等表示該人物的特徵之資訊。該影像辨識部可由圖5所示的解析部121實現。影像辨識部為了檢出人物的位置，而使用區域定義資料。區域定義資料例如為使用圖6所說明的資料或在區域內的各個位置定義座標，再使用照相機所拍攝的影像及所定義的座標之資料。

又，將從使用者輸入點餐內容的點餐終端機所輸入的資訊進行管理的點餐管理部進行點餐的受理、該人物（進行輸入的使用者）與點餐內容的連結及該點餐狀態的管理。點餐管理部從人物位置・表情・關係・屬性資料庫讀出必要的資訊，或者寫入人物位置・表情・關係・屬性資料庫所需的資料，而進行點餐的管理。

事件檢出部根據在人物位置・表情・關係・屬性資料庫所儲存的人物資訊與環境資訊以及點餐管理部所受理的點餐，而檢出成為處理的觸發因子之事件，將執行任務予以選擇・啟動。選擇執行任務時，係在調理任務、攬客任務、點餐任務及提升顧客滿意度任務之間切換。

又，發聲系統強化學習部根據在人物位置・表情・關係・屬性資料庫所儲存的人物資訊與環境資訊，而選定狀態觀測、報酬計算、發聲價值函數更新及發聲對象者・發聲內容。發聲系統強化學習部從預先儲存的發聲資料之中，選定發聲內容。又，發聲系統強化學習部使用儲存發聲系統學習結果的資料庫而進行上述的處理。發聲內容・對象決定部從發聲系統強化學習部所選定的發聲對象者・發聲內容之中，決定欲進行的任務所對應者，作為發聲內容及對象者。聲音合成部將發聲內容・對象決定部所決定的發聲內容合成為聲音然後朝向揚聲器輸出。

又，動作系統強化學習部使用動作系統學習結果資料，而進行狀態觀測、報酬計算、動作價值函數更新及動作之選定。動作系統強化學習部從預先儲存的動作資料之中選定動作。動作決定部從動作系統強化學習部所選定的動作之中，決定欲進行的任務所對應者做為進行動作。動作指示部向機器人指示動作決定部所決定的動作。

圖9為在圖8所示的人物位置・表情・關係・屬性資料庫所儲存的對應關係之一例。如圖9所示，對於照相機所拍攝的影像中包含的各人物賦予人物號碼，針對該等各人物號碼登錄各項資料。人物位置區域種類、人物位置座標及人物位置的準確度之項目為該人物的存在位置之關連資訊。人物位置區域種類如使用圖6所說明般，例如點餐場所、食物提供場所、店鋪鄰接及店鋪附近的區域。人物位置的準確度係根據照相機的位置或者照相機的特性、位置特定演算法等而算出。又，顧客狀態為表示照相機所拍攝的影像中包含的人物是否為顧客、預期顧客、潛在顧客、只逛不買顧客或路人的資訊。這些資訊為解析部121根據人物的臉部認證或表情的解析、存在的位置或動作而解析的結果等。又，與他人號碼的關係表示親子、友人、戀人等、影像中該人物及一起包含的人物之間的關係之資訊。顧客過去點餐次數及顧客過去點餐內容表示針對在照相機所拍攝的影像之中的人物由解析部121解析的結果，在該人物為擁有已登錄的ID之顧客的情況，該顧客在過去已點餐的次數及內容之資訊。又，顧客過去點餐次數及顧客過去點餐內容係在該人物使系統讀取會員卡的情況，可為根據從會員卡讀取的資訊而予以取得之表示該顧客在過去已點餐的次數及內容之資訊。這些資訊在點餐時被登錄在資料庫。又，若針對已進行點餐的顧客預先賦予顧客ID，並且預先登錄點餐內容或次數，則可學習該顧客的喜好，也在顧客再次光臨時用以介紹推薦的食物品項的發聲或動作。

圖10為表示欲藉由圖8所示的發聲資料之種類及發聲資料而提升的指標之一例。圖11A及圖11B為表示作為圖8所示的發聲資料所登錄的資訊之一例。這些資訊被儲存在圖5所示的資料庫131。發聲資料由以下所示的項目所構成。・發聲內容物號碼・發聲內容物種類（問候題材、自言自語題材、時事題材、食物品項會話題材、個人特定題材、讚美顧客題材、外國人對話題材、Upsell題材）・發聲觸發條件（連鎖店鋪、所點食物品項種類、調理階段、地點區分、忙碌狀況、時段、季節、天氣・氣溫・濕度、特別事件、人物位置區域、顧客狀態、與他人的關係、人種・語言、性別、年齡層、表情、服裝、身高）・發聲內容物內容（在內容物內容能夠以變數描述取代字元）・發聲時表情・發聲時動作

特別是，圖10表示依照將照相機111所拍攝的影像由解析部121所解析的結果及現在的系統運作狀況，針對哪個發聲對象應該進行哪種發聲的整理結果。又，圖10也表示這些發聲資料提升哪種評價結果。評價結果表示進行發聲的結果，並且表示喚進率或點餐率、Upsell率、笑臉率、Repeat率的變化之程度。例如表示在機器人將食物放置在提供位置的狀態或顧客從提供位置拿走食物的狀態下，對於個別人物搭話時，應該進行使Repeat率提升的發聲之指針（在圖10以○標記）。

進一步，具體的發聲資料係如圖11A及圖11B所示，在由解析部121解析照相機111之拍攝影像的結果、及現在的系統之運轉狀況下、應發聲的多個具體發聲內容被儲存。多個發聲內容中也儲存使用日語以外的外語呈現的內容，也可儲存使用英語或中文、韓語等呈現的內容。又，多個發聲內容以能夠依照對象人物之各種屬性等予以選擇的方式被儲存。又，這些多個發聲內容係依照評價結果而選擇其中一個。也就是說，選擇評價最高的發聲內容。

作為進行發聲的結果所輸出的發聲系統學習結果資料係由以下所示的項目構成。・發聲價值函數學習結果資料・多個店鋪的批次學習所需的資料（發聲觸發條件、發聲內容物號碼、發聲內容物內容、發聲內容物取代字元、發聲反應結果）這些資料根據進行發聲之後的銷售內容之變動或對象人物的表情而經過強化學習。

動作資料由以下所示的項目構成。・動作內容物號碼・動作種類（調理動作、攬客動作、接待顧客動作）・動作觸發條件（連鎖店鋪、所點食物品項種類、調理階段、地點區分、忙碌狀況、時段、季節、天氣・氣溫・濕度、特別事件）・動作內容物內容・音樂內容物內容・全體重播時間・不可插入的最大時間・動作時表情動作內容物號碼例如為用以使機器人201的手臂移動的資料相關的號碼。動作時表情係若在機器人201的臉部之部分具備表示表情的功能（例如，顯示臉部的影像之顯示器），則為表示使該顯示器顯示的臉部之表情的資訊。動作時表情例如可為顯示如下的臉部表情。・進行針對特定人物搭話等發聲時有魄力的表情・等待點餐的狀態時興奮的表情・受理點餐時展現感謝的表情・調理中展現手腳俐落的表情・自言自語時冷淡的表情・在呼喚顧客遞交食物時鬆口氣的表情

作為進行動作的結果所輸出的動作系統學習結果資料係由以下所示的項目構成。・動作價值函數學習結果資料・在多個店鋪的批次學習所需的資料（動作觸發條件、動作內容物號碼、動作內容物內容、音樂內容物內容、動作反應結果）這些資料根據進行動作之後的銷售內容之變動或對象人物的表情而經過強化學習。

以下說明圖5所示的資訊處理系統中的資訊處理方法。圖12為用以說明圖5所示的資訊處理系統中的資訊處理方法之一例的流程圖。

首先，照相機111進行拍攝，然後將該拍攝的影像傳送到資訊處理裝置101。於是，解析部121解析包含從照相機111傳送的影像中所包含的人物位置之人物相關的人物資訊，然後將已解析的人物資訊儲存到資料庫130（步驟S21）。例如，解析部121解析圖6所示的多個區域之中，對象人物位在哪個區域，從哪個區域移動到哪個區域。

然後，執行任務選擇部171根據資料庫130所儲存的人物資訊與環境資訊（任務觸發條件），而選擇執行任務191（步驟S22）。此時的環境資訊所包含的系統運作狀況表示例如調理中的狀態或店鋪忙碌的狀態、已點餐而尚未提供數為零的狀態、接待顧客已成為零的狀態等。如使用圖7所說明般，執行任務選擇部171選擇欲進行的任務。然後，發聲控制部141依照執行任務選擇部171所選擇而啟動的執行任務191，依照發聲系統強化學習部1511所輸出的分數，而選擇發聲內容。此時，發聲控制部141針對資料庫130中所儲存的人物資訊與環境資訊之組合，選擇發聲系統強化學習部1511所輸出的分數之中的最大值者之發聲內容。又，動作控制部161依照執行任務選擇部171所選擇而啟動的執行任務191，依照動作系統強化學習部1512所輸出的分數，而選擇動作資訊。此時，動作控制部161針對資料庫130中所儲存的人物資訊與環境資訊之組合，選擇動作系統強化學習部1512所輸出的分數之中的最大值者之動作資訊（步驟S23）。

然後，發聲控制部141將所選擇的發聲內容傳送到聲音輸出部211，指示進行發聲。又，動作控制部161將所選擇的動作資訊傳送到動作執行部221，指示進行動作。於是，聲音輸出部211進行所指示的發聲，動作執行部221進行所指示的動作（步驟S24）。

之後，根據依照發聲及動作而接受的點餐內容、銷售內容、對象人物的表情等之變化，發聲系統強化學習部1511及動作系統強化學習部1512會進行強化學習，然後更新分數（步驟S25）。例如，在銷售額已上升的情況，發聲系統強化學習部1511及動作系統強化學習部1512會提升進行的發聲內容及動作資訊之分數。又，在銷售額下降的情況，發聲系統強化學習部1511及動作系統強化學習部1512會降低進行的發聲內容及動作資訊之分數。該分數在強化學習中可被稱為「報酬」。以這種方式，將進行發聲及動作時的店鋪狀況、顧客狀況、發聲對象者的屬性、發聲內容及動作內容設為學習狀態，根據：對象人物對於發聲的反應結果、對象人物對於動作的反應結果、或商品的銷售變化等，計算報酬計算值，再依照該報酬計算值而更新發聲內容及動作資訊相關的價值函數。藉此，使效果最高的發聲對象、發聲內容及動作經過強化學習。

並且，欲實施的強化學習可橫跨多個店鋪而被進行。也就是說，可將根據顧客反應而被學習的結果由多個店鋪共享。此時，圖8所示的管理系統將多個店鋪所學習的結果作為資料群管理，也可將被管理的學習結果由多個店鋪共享。又，上述的學習之單位可為各個商品、各個店鋪、或各個地點區域。

在這種影像辨識的學習中的人物辨識、人物位置檢出、表情辨識等係可期待藉由在套用本系統的所有店鋪共享學習，而快速提升學習精確度。又，可期待針對發聲觸發條件或動作觸發條件，在決定效果最高的發聲內容物內容或動作・音樂內容物內容之強化學習中，依照內容，藉由橫跨連鎖店、提供商品、地區進行批次學習而提升學習結果精確度。

以這種方式，在本形態，依照照相機所拍攝的影像中包含的人物之人物資訊與環境資訊而進行發聲及動作，根據該結果而進行學習，再使用該學習結果更新發聲內容及動作資訊的分數。也就是說，依照拍攝的人物或環境，而學習針對哪種人物，在哪種狀況下，應進行哪種發聲或動作，才可有效率地接待顧客。因此，可靈活接待顧客。

以上，使各構成要素分擔各功能（處理）予以說明，但分配方式並不限定於此。又，就構成要素的構成，上述的形態至始至終僅為範例，並不限定於此。

101:資訊處理裝置 110:拍攝部 111、111-1~111-3:照相機 120、121:解析部 130、131:資料庫 140:發聲部 141:發聲控制部 150:強化學習部 161:動作控制部 171:執行任務選擇部 181:輸入部 191:執行任務 201:機器人 211:聲音輸出部 221:動作執行部 1501:報酬計算部 1502:更新部 1503:價值函數計算部 1511:發聲系統強化學習部 1512:動作系統強化學習部

［圖1］圖1為表示本發明的資訊處理系統之第1實施形態。［圖2］圖2為表示圖1所示的強化學習部具有的分數之一例。［圖3］圖3為表示圖1所示的強化學習部中所進行的強化學習之輸入輸出之一例。［圖4］圖4為用以說明圖1所示的資訊處理系統中資訊處理方法的一例的流程圖。［圖5］圖5為表示本發明的資訊處理系統之第2實施形態。［圖6］圖6為用以說明特定出圖5所示的照相機所拍攝的人物之位置的處理之一例。［圖7］圖7為表示圖5所示的執行任務選擇部171所參照、從資料庫內儲存的人物資訊與環境資訊的組合可掌握的事態與執行任務之間的對應關係的一例。［圖8］圖8為表示圖5所示的資訊處理系統中軟體構成之一例。［圖9］圖9為表示圖8所示的人物位置・表情・關係・屬性資料庫所儲存的對應關係之一例。［圖10］圖10為表示圖8所示的發聲資料之種類及欲藉由發聲資料改善的指標之一例。［圖11A］圖11A為表示作為圖8所示的發聲資料而登錄的資訊之一例。［圖11B］圖11B為表示作為圖8所示的發聲資料所登錄的資訊之一例。［圖12］圖12為用以說明圖5所示的資訊處理系統中資訊處理方法的一例的流程圖。

110:拍攝部

120:解析部

130:資料庫

140:發聲部

150:強化學習部

Claims

一種資訊處理系統，其具備：拍攝部；解析部，其解析該拍攝部所拍攝的影像中包含的人物相關的人物資訊；資料庫，其儲存該人物資訊及表示該資訊處理系統被設置的環境之環境資訊；發聲部，其進行對應於該人物資訊及該環境資訊的發聲內容之發聲；強化學習部，其從該資料庫讀出該人物資訊及該環境資訊，再根據表示該發聲部所進行的發聲之結果的結果資訊而進行學習，以針對各個該讀出的人物資訊與環境資訊的組合，更新對應於該發聲內容的第1分數；及執行任務選擇部，其根據使用該人物資訊、及該環境資訊之中該資訊處理系統之運作狀況的任務觸發條件，而選擇欲進行的任務予以啟動，該發聲部依照該執行任務選擇部所啟動的任務而動作，且針對該組合，進行與該第1分數之中的最大值者已建立對應關係的發聲內容之發聲。
一種資訊處理系統，其具備：拍攝部；解析部，其解析該拍攝部所拍攝的影像中包含的人物相關的人物資訊；資料庫，其儲存該人物資訊及表示該資訊處理系統被設置的環境之環境資訊；發聲部，其進行對應於該人物資訊及該環境資訊的發聲內容之發聲；強化學習部，其從該資料庫讀出該人物資訊及該環境資訊，再根據表示該發聲部所進行的發聲之結果的結果資訊而進行學習，以針對各個該讀出的人物資訊與環境資訊的組合，更新對應於該發聲內容的第1分數；動作部，其進行預定的動作；及執行任務選擇部，其根據表示該環境資訊之中該資訊處理系統之運作狀況的任務觸發條件，而選擇欲進行的任務予以啟動，該資料庫對於表示該動作的動作內容之動作資訊進一步建立對應關係然後予以儲存，該動作部根據該執行任務選擇部所啟動的任務而動作，且針對該組合，進行與第2分數之中的最大值者已建立對應關係的動作資訊表示的動作，該發聲部針對該組合，進行與該第1分數之中的最大值者已建立對應關係的發聲內容之發聲，該強化學習部根據表示該動作部所進行的動作之結果的結果資訊而進行學習，然後更新該第2分數。
如請求項1或2的資訊處理系統，其具有：輸入部，其輸入資訊，該結果資訊包含以下至少一者：人物資訊，其與進行該發聲之後前述拍攝部所拍攝的影像中包含的人物相關；及銷售資訊，其根據對於前述輸入部的輸入而表示所販售的商品之銷售的內容。
如請求項1或2的資訊處理系統，其中，該環境資訊包含該拍攝部之拍攝的日期時間及該資訊處理系統的處理負荷狀況之至少一者。
一種資訊處理系統，其為具有照相機、機器人、及資訊處理裝置的資訊處理系統，該資訊處理裝置具有：解析部，其解析與該照相機所拍攝的影像中包含的人物相關的人物資訊；資料庫，其儲存該人物資訊及表示該資訊處理系統被設置的環境之環境資訊；發聲控制部，其指示該機器人來進行對應於該人物資訊及該環境資訊的發聲內容之發聲；強化學習部，其從該資料庫讀出該人物資訊及該環境資訊，再根據表示該發聲控制部所指示的發聲結果的結果資訊而進行學習，以針對各個該讀出的人物資訊與環境資訊的組合，更新對應於該發聲內容的第1分數；及執行任務選擇部，其根據使用該人物資訊、及該環境資訊之中該資訊處理系統之運作狀況的任務觸發條件，而選擇欲進行的任務予以啟動，前述發聲控制部依照該執行任務選擇部所啟動的任務而動作，且指示該機器人針對該組合，進行與該第1分數之中的最大值者已建立對應關係的發聲內容之發聲，該機器人具有：聲音輸出部，其輸出由該發聲控制部指示的發聲內容所表示的聲音。
一種資訊處理系統，其為具有照相機、機器人、及資訊處理裝置的資訊處理系統，該資訊處理裝置具有：解析部，其解析與該照相機所拍攝的影像中包含的人物相關的人物資訊；資料庫，其儲存該人物資訊及表示該資訊處理系統被設置的環境之環境資訊；發聲控制部，其指示該機器人來進行對應於該人物資訊及該環境資訊的發聲內容之發聲；強化學習部，其從該資料庫讀出該人物資訊及該環境資訊，再根據表示該發聲控制部所指示的發聲結果的結果資訊而進行學習，以針對各個該讀出的人物資訊與環境資訊的組合，更新對應於該發聲內容的第1分數；動作控制部，其指示該機器人進行預定的動作；及執行任務選擇部，其根據表示該環境資訊之中該資訊處理系統之運作狀況的任務觸發條件，而選擇欲進行的任務予以啟動，該資料庫對於表示該動作的動作內容之動作資訊進一步建立對應關係然後予以儲存，該動作控制部根據該執行任務選擇部所啟動的任務而動作，且指示該機器人針對該組合進行與第2分數之中的最大值者已建立對應關係的動作資訊表示的動作，前述發聲控制部指示該機器人針對該組合，進行與該第1分數之中的最大值者已建立對應關係的發聲內容之發聲，該強化學習部根據表示該動作部所進行的動作之結果的結果資訊而進行學習，然後更新該第2分數，該機器人具有：聲音輸出部，其輸出由該發聲控制部指示的發聲內容所表示的聲音。
一種資訊處理方法，其為一種資訊處理系統的資訊處理方法，進行以下處理：解析照相機所拍攝的影像中包含的人物相關的人物資訊之處理；從儲存該人物資訊及表示該資訊處理系統被設置的環境之環境資訊的資料庫讀出該人物資訊及該環境資訊的處理；根據使用該人物資訊、及該環境資訊之中該資訊處理系統之運作狀況的任務觸發條件，而選擇欲進行的任務予以啟動的處理，依照該啟動的任務而動作，且針對該讀出的人物資訊與環境資訊的組合，進行與第1分數之中的最大值者已建立對應關係的發聲內容之發聲的處理；及根據表示該進行的發聲之結果的結果資訊而進行學習，然後更新該第1分數的處理。
一種資訊處理方法，其為一種資訊處理系統的資訊處理方法，進行以下處理：解析照相機所拍攝的影像中包含的人物相關的人物資訊之處理；從儲存該人物資訊、表示該資訊處理系統被設置的環境之環境資訊、及表示預定動作的動作內容之動作資訊的資料庫，讀出該人物資訊及該環境資訊的處理；根據表示該環境資訊之中該資訊處理系統之運作狀況的任務觸發條件，而選擇欲進行的任務予以啟動的處理；針對該讀出的人物資訊與環境資訊的組合，進行與第1分數之中的最大值者已建立對應關係的發聲內容之發聲的處理；根據表示該進行的發聲之結果的結果資訊而進行學習，然後更新該第1分數的處理；根據該啟動的任務而動作，且針對該組合進行與第2分數之中的最大值者已建立對應關係的動作資訊表示的動作的處理；及根據表示該動作部所進行的動作之結果的結果資訊而進行學習，然後更新該第2分數的處理。