TWI752286B

TWI752286B - 外部控制裝置、聲音對話型控制系統、控制方法、記錄介質及程式產品

Info

Publication number: TWI752286B
Application number: TW107143325A
Authority: TW
Inventors: 神崎昭浩
Original assignee: 日商夏普股份有限公司
Priority date: 2017-12-04
Filing date: 2018-12-03
Publication date: 2022-01-11
Also published as: EP3493049A1; EP3493049B1; JP2019101264A; TW201926314A; US20190172459A1; KR20190065967A; CN110058833A

Abstract

本發明實現以用戶容易理解的形式提供資訊的外部控制裝置。外部控制裝置進行以下控制：獲取與聲音輸入輸出裝置受理的聲音輸入資訊相關的相關資訊，基於所獲取的相關資訊的內容，判定在向用戶提供的響應資訊中是否包含影像，在顯示裝置顯示該影像。

Description

外部控制裝置、聲音對話型控制系統、控制方法、記錄介質及程式產品

本發明涉及以聲音或影像提供與聲音輸入資訊對應的響應資訊的外部控制裝置等。

作為以往技術，已知能夠使用聲音或影像這樣的多個手段向用戶提供資訊的裝置。例如在專利文獻1中公開了一種將與用戶的聲音對應的響應訊息以聲音或文本形式輸出的終端裝置。

專利文獻1：日本公開專利公報「特開2014-002383號公報(2014年1月9日公開)」

但是，專利文獻1中記載的終端裝置是能夠以聲音或文本形式向用戶提供資訊的構成，但存在無法基於資訊的內容以用戶容易理解的形式提供該資訊的問題。

本發明的一方案以解決所述問題為目的，提供一種以用戶容易理解的形式提供資訊的外部控制裝置。

為了解決所述技術問題，本發明一方案的外部控制裝置進行以下控制：接收聲音輸入輸出裝置所受理的用戶的聲音輸入資訊，對所述聲音輸入資訊進行解析，獲取與該聲音輸入資訊相關的相關資訊，基於所獲取的所述相關資訊的內容，判定向所述用戶提供的響應資訊中是否包含影像，在判定為在向所述用戶提供的所述響應資訊中包含所述影像的情況下，在顯示裝置顯示該影像。

本發明一方案的控制方法進行以下控制：接收聲音輸入輸出裝置所受理的用戶的聲音輸入資訊，對所述聲音輸入資訊進行解析，獲取與該聲音輸入資訊相關的相關資訊，基於所獲取的所述相關資訊的內容，判定在向所述用戶提供的所述響應資訊中是否包含影像，在判定為在向所述用戶提供的所述響應資訊中包含所述影像的情況下，在顯示裝置顯示所述影像。

根據本發明的一方案，能夠以用戶容易理解的形式提供資訊。

1:聲音對話型控制系統

10:通信部

20:儲存部

30:控制部

31:聲音解析部

32:含義解析部

33:資訊獲取部

34:影像顯示判定部

35:語音數據生成部

100:外部控制裝置

200:聲音輸入輸出裝置

400:顯示裝置

圖1是表示本發明第一實施形態的聲音對話型控制系統的概要的示意圖。

圖2是表示本發明第一實施形態的聲音對話型控制系統的要部構成的一例的框圖。

圖3是表示本發明第一實施形態的聲音對話型控制系統中的一連串處理的時序圖。

圖4表示本發明第一實施形態的聲音輸入輸出裝置執行的處理的一例的流程圖。

圖5是表示本發明第二實施形態的聲音對話型控制系統的概要的示意圖。

圖6是表示本發明第二實施形態的聲音對話型控制系統中的一連串處理的時序圖。

圖7是表示本發明第三實施形態的聲音對話型控制系統的概要的示意圖。

圖8是表示本發明第三實施形態的聲音對話型控制系統中的一連串處理的時序圖。

圖9是表示本發明第三實施形態的聲音輸入輸出裝置執行的處理的一例的流程圖。

〔第一實施形態〕

以下使用圖1至圖4對本發明的一實施形態進行詳細說明。

(聲音對話型控制系統的構成)

使用圖1及圖2對本實施形態的聲音對話型控制系統1的構成進行說明。圖1是表示聲音對話型控制系統1的概要的示意圖。

如圖1所示，聲音對話型控制系統1包括外部控制裝置100、聲音輸入輸出裝置200、路由器300及顯示裝置400。構成聲音對話型控制系統1的各種裝置全部配置在相同的室內或相同的建築物內。以下使用各種裝置配置在用戶住宅內的例子進行說明。

如圖1所示，聲音對話型控制系統1從聲音輸入輸出裝置200以聲音輸出與由聲音輸入輸出裝置200受理的用戶的聲音輸入資訊對應的響應資訊。另外，在響應資訊為適合基於影像提供的內容的情況下，聲音對話型控制系統1在顯示裝置400上顯示圖表、一覽表、地圖(圖片)或動畫等影像。

外部控制裝置100是能夠經由路由器300與聲音輸入輸出裝置200及顯示裝置400通信的伺服器。外部控制裝置100是對例如基於在住宅設置的太陽光發電裝置的發電量、基於在住宅內設置的家電設備的電力消耗量等進行管理的HEMS(HomeEnergy Management System)伺服器。外部控制裝置100接收聲音輸入輸出裝置200受理的用戶聲音輸入資訊，對該聲音輸入資訊進行解析。外部控制裝置100基於所解析的內容，獲取與聲音輸入資訊相關的相關資訊。另外，外部控制裝置100基於所獲取的相關資訊的內容，判定向用戶提供的響應資訊中是否包含影像。例如，在所獲取的相關資訊中包含圖表、一覽表、地圖(圖片)或動畫等影像資訊的情況下，與以聲音提供相比，這類資訊以影像提供對於用戶來說容易掌握內容。因此，外部控制裝置100在相關資訊中含有適合以影像顯示的資訊的情況下，判定為向用戶提供的響應資訊中含有影像。在判定為響應資訊中含有影像的情況下，外部控制裝置100例如進行下述控制：使向用戶提供的響應資訊的一部分從聲音輸入輸出裝置200以聲音輸出，並在顯示裝置400上顯示影像。並且，向用戶提供的影像可以包含在所獲取的相關資訊中，另外，也可以由外部控制裝置100根據所獲取的相關資訊生成。

並且，外部控制裝置100也可以在使顯示裝置400顯示影像之前，從聲音輸入輸出裝置200輸出向用戶詢問是否在顯示裝置400顯示影像的提案訊息(訊息)。在該情況下，外部控制裝置100在針對提案訊息，從聲音輸入輸出裝置200接收到來自用戶的表示許可將影像顯示在顯示裝置400上這一情況的聲音輸入資訊後，使顯示裝置400顯示影像。另外，外部控制裝置100也可以將響應資訊的至少一部分以聲音資訊形式從聲音輸入輸出裝置200輸出並向用戶提供。

(外部控制裝置100的構成)

使用圖2對外部控制裝置100的構成進行說明。圖2是表示聲音對話型控制系統1的要部構成的一例的框圖。

在以下的說明中，以對外部控制裝置100是對在住宅內設置的家電設備所使用的電力消耗量等進行管理的HEMS伺服器的情況為例進行說明。

外部控制裝置100包括通信部10、儲存部20及控制部30，控制部30包括聲音解析部31、含義解析部32、資訊獲取部33、影像顯示判定部34及語音數據生成部35。

通信部10經由路由器300在與聲音輸入輸出裝置200及顯示裝置400之間進行各種數據收發。在儲存部20中收納有與住宅的發電量及電力消耗量等相關的各種資訊。也可以在儲存部20收納的資訊中含有例如表示發電量及電力消耗量的演變的圖表等影像。

控制部30對外部控制裝置100的各部進行綜合控制。聲音解析部31針對從聲音輸入輸出裝置200接收到的聲音輸入資訊(=包含用戶語音的聲音數據)進行聲音解析，生成文本數據。含義解析部32以適當的子句對聲音解析部31生成的文本數據進行劃分等並進行含義解析，將解析結果向資訊獲取部33發送。並且，聲音解析部31及含義解析部32中的聲音解析及含義解析，也可以以在以往的聲音識別技術中使用的方法實施。

資訊獲取部33基於聲音解析部31及含義解析部32解析的內容，從該儲存部20獲取與外部控制裝置100從聲音輸入輸出裝置200受理的聲音輸入資訊相關的相關資訊。資訊獲取部33將從儲存部20獲取的相關資訊向影像顯示判定部34輸出。

影像顯示判定部34基於從資訊獲取部33輸出的相關資訊的內容，判定在向用戶提供的響應資訊中是否含有影像。即，影像顯示判定部34基於從資訊獲取部33獲取的相關資訊的內容，判定是僅以聲音向用戶提供響應資訊還是以聲音和影像一起向用戶提供。例如，在從資訊獲取部33獲取的相關資訊中含有圖表、一覽表、地圖(圖片)或動畫等適合於影像提供的資訊的情況下，影像顯示判定部34判定為響應資訊中含有影像。在該情況下，影像顯示判定部34將在儲存部20中收納的包含影像資訊的URL的響應資訊向語音數據生成部35輸出。另一方面，在從資訊獲取部33獲取的相關資訊中不包含適合於影像提供的資訊的情況下，影像顯示判定部34判定為響應資訊中未包含影像。在該情況下，影像顯示判定部34僅將聲音資訊作為響應資訊向語音數據生成部35輸出。

語音數據生成部35基於從影像顯示判定部34輸出的響應資訊中包含的聲音資訊，生成聲音數據(=語音數據)。語音數據生成部35生成語音數據的方法，可以是以往的對話型機器人中生成響應訊息所使用的方法。語音數據生成部35將生成的響應訊息經由通信部10向聲音輸入輸出裝置200發送。

聲音輸入輸出裝置200是用於在與聲音對話型控制系統1的用戶之間進行聲音輸入輸出的裝置。聲音輸入輸出裝置200能夠經由路由器300等與外部控制裝置100及顯示裝置400進行通信。並且，聲音輸入輸出裝置200與顯示裝置400間的通信可以是經由路由器300的通信，也可以是不經由路由器300的例如紅外線通信等直接通信。聲音輸入輸出裝置200將從用戶受理的聲音作為聲音輸入資訊向外部控制裝置100發送。另外，聲音輸入輸出裝置200將從外部控制裝置100接收到的語音數據作為與聲音輸入資訊對應的響應資訊以聲音提供。此外，聲音輸入輸出裝置200能夠基於從外部控制裝置100接受到的各種指示對顯示裝置400進行操作。例如，聲音輸入輸出裝置200能夠從外部控制裝置100基於指示對顯示裝置400進行電源接通(打開)操作。另外，聲音輸入輸出裝置200從外部控制裝置100基於指示，將在儲存部20中收納的影像資訊的URL向顯示裝置400發送。

路由器300是對通信路徑進行中繼的中繼裝置，是在一般的通信中使用的路由器。

顯示裝置400是能夠與外部控制裝置100及聲音輸入輸出裝置200進行通信，並能夠將響應資訊以影像顯示的顯示器。顯示裝置400按照來自聲音輸入輸出裝置200的指示將電源接通。另外，顯示裝置400在從聲音輸入輸出裝置200獲取到影像資訊的URL的情況下，訪問外部控制裝置100，從外部控制裝置100獲取影像資訊，顯示圖表等影像。顯示裝置400例如也可以是能夠與外部通信的電視。

(聲音對話型控制系統中的一連串處理)

使用圖3對圖1中例示的聲音對話型控制系統1中的一連串處理進行說明。

首先，若聲音對話型控制系統1的用戶發言“今日的發電量是多少？”，則發言內容作為聲音輸入資訊向聲音輸入輸出裝置200輸入(S1：聲音輸入(發電量詢問))。然後，聲音輸入輸出裝置200將在S1中受理的聲音輸入資訊向外部控制裝置100發送(S2：聲音發送(發電量詢問))。

外部控制裝置100對從聲音輸入輸出裝置200接收到的聲音輸入資訊，使用聲音解析部31及含義解析部32進行解析。進而，資訊獲取部33基於解析結果，由儲存部20將當日發電量作為與聲音輸入資訊相關的相關資訊獲取。然後，外部控制裝置100根據資訊獲取部33所獲取的當日發電量，利用語音數據生成部35生成語音數據“約為22.1kW。本月最多。”，並向聲音輸入輸出裝置200發送(S3：語音數據發送(發電量))。聲音輸入輸出裝置200將接收到的語音數據以聲音形式向用戶提供(S4：聲音輸出(發電量))。

在S4後，外部控制裝置100的影像顯示判定部34基於在S3中由資訊獲取部33從儲存部20獲取的與當日發電量相關的相關資訊的內容，判定響應資訊中是否含有影像。另外，在判定為含有影像的情況下，外部控制裝置100使用語音數據生成部35，生成提案訊息並向聲音輸入輸出裝置200發送(S5：語音數據發送(圖表顯示提案))，其中的提案訊息提案將表示當日發電量的圖表作為影像在顯示裝置400上顯示。提案訊息是“查看發電圖表嗎？”這樣的語音數據。聲音輸入輸出裝置200將接收到的語音數據以聲音形式向用戶提供(S6：聲音輸出(圖表顯示提案))。

在S6後，若作為用戶許可在顯示裝置400上顯示影像的瞭解訊息，發言“是的，請處理。”，則發言內容作為聲音輸入資訊向聲音輸入輸出裝置200輸入(S7：聲音輸入(圖表顯示指示))。然後，聲音輸入輸出裝置200將在S7中受理的聲音輸入資訊向外部控制裝置100發送(S8：聲音發送(圖表顯示指示))。

外部控制裝置100將從聲音輸入輸出裝置200接收到的聲音輸入資訊，使用聲音解析部31及含義解析部32進行解析。若根據解析結果確認聲音輸入資訊包含瞭解訊息，則語音數據生成部35生成用於將顯示裝置400的電源接通的語音數據“打開電視”。外部控制裝置100將所生成的語音數據向聲音輸入輸出裝置200發送(S9：語音數據發送(顯示裝置電源接通))。聲音輸入輸出裝置200將接收到的語音數據以聲音形式向用戶提供(S10：聲音輸出(顯示裝置電源接通))。

在S9後，外部控制裝置100的控制部30將用於在顯示裝置400顯示表示當日發電量的圖表的影像的指示，與該圖表的URL一起向聲音輸入輸出裝置200發送(S11：圖表畫面顯示指示(URL))。聲音輸入輸出裝置200在接收到用於顯示圖表的影像的指示及該圖表的URL時，操作顯示裝置400將電源接通(S12：顯示裝置電源接通)。進而，聲音輸入輸出裝置200將圖表的顯示指示及該圖表的URL向顯示裝置400發送(S13：圖表畫面顯示指示(URL))。顯示裝置400在從聲音輸入輸出裝置200接收到圖表的顯示指示及該圖表的URL時，向外部控制裝置100請求以URL指定的圖表畫面(S14：圖表畫面請求(URL))。外部控制裝置100對應於請求，將以URL指定的圖表畫面向顯示裝置400發送並使之顯示(S15：圖表畫面發送)。

藉由以上的處理，聲音對話型控制系統1能夠由外部控制裝置100進行下述控制：判定為在與聲音輸入輸出裝置200受理的聲音輸入資訊對應的響應資訊中包含影像並提供，將該影像顯示在顯示裝置400。

(聲音輸入輸出裝置執行的處理流程)

在本實施形態中，使用該圖4對聲音輸入輸出裝置200執行的處理流程進行說明。

首先，若聲音輸入輸出裝置200受理來自聲音對話型控制系統1的用戶的聲音輸入(在S21中為是)，則將基於該聲音輸入的聲音輸入資訊向外部控制裝置100發送。聲音輸入輸出裝置200作為與聲音輸入資訊對應的響應資訊接收由外部控制裝置100生成的語音數據。然後，聲音輸入輸出裝置200將接收到的語音數據作為響應資訊以聲音輸出(S22)。

在S22後，聲音輸入輸出裝置200執行與在外部控制裝置100中判定響應資訊中是否包含影像的判定結果(S23)對應的處理。對於聲音輸入輸出裝置200來說，在外部控制裝置100中判定為響應資訊中包含影像的的情況下(在S23中為是)，執行S24的處理。另一方面，在外部控制裝置100中判定為響應資訊中不包含影像的情況下(S23中為否)，聲音輸入輸出裝置200結束一連串處理。

在S24中，聲音輸入輸出裝置200若接收向所述用戶詢問是否在顯示裝置400上顯示影像的提案訊息，作為由外部控制裝置100生成的語音數據，則將該提案訊息以聲音輸出(S24)。然後，聲音輸入輸出裝置200受理表示用戶許可在顯示裝置400上顯示影像這一情況的瞭解訊息。然後，由外部控制裝置100判定聲音輸入輸出裝置200是否受理瞭解訊息(S25)。在受理瞭解訊息的情況下(在S25中為是)，處理進入S26。另一方面，在沒有受理瞭解訊息的情況下(在S25中為否)，結束一連串處理。

在S26中，若聲音輸入輸出裝置200從外部控制裝置100接收表示將顯示裝置400的電源接通這一情況的語音數據，則將該語音數據以聲音輸出(S27)。然後，聲音輸入輸出裝置200若從外部控制裝置100接收用於使顯示裝置400顯示響應資訊的影像的指示，則基於該指示對顯示裝置400進行操作，使該顯示裝置400顯示響應資訊的影像(S27)。

藉由以上的處理，聲音輸入輸出裝置200利用外部控制裝置100將與聲音輸入資訊對應的響應資訊以聲音向用戶提供，進而在能夠以影像提供響應資訊時，能夠以顯示該影像的方式操作顯示裝置400。

按照這種方式，聲音對話型控制系統1能夠利用外部控制裝置100，判定與用戶向聲音輸入輸出裝置200進行了聲音輸入的內容對應的響應資訊中是否包含影像。進而，能夠在外部控制裝置100判定為以影像提供響應資訊的情況下，使顯示裝置400顯示該影像。由此，適合以影像提供的資訊能夠以影像提供，其他資訊例如從聲音輸入輸出裝置以聲音形式提供。因此，發揮如下的效果，即，能夠提供以用戶容易理解的形式提供資訊的便利性優異的外部控制裝置。

〔第二實施形態〕

以下使用圖5至圖6對本發明的第二實施形態進行說明。並且，為了便於說明，對具有與在所述實施形態中說明的構件相同功能的構件標記相同的符號，不對其進行重複說明。

(聲音對話型控制系統的構成)

使用圖5對本實施形態的聲音對話型控制系統1的構成進行說明。圖5是表示聲音對話型控制系統1的概要的示意圖。

如圖5所示，本實施形態的聲音對話型控制系統1的基本構成與所述第一實施形態相同，但局部構成不同。在本實施形態中，外部伺服器500具有與用戶向聲音輸入輸出裝置200輸入的聲音輸入資訊相關的相關資訊，該外部伺服器500設置在與設置聲音輸入輸出裝置200、顯示裝置400及外部控制裝置100的位置不同的位置。並且，外部控制裝置100是基於對聲音輸入資訊進行解析的內容，從外部伺服器500獲取相關資訊的構成。並且，作為外部控制裝置100獲取相關資訊的對象的外部伺服器500，可以根據外部控制裝置100需要的相關資訊的種類選擇其他外部伺服器500。例如，外部控制裝置100也可以按檢索對象從其他外部伺服器500獲取相關資訊。

外部控制裝置100的基本構成與所述第一實施形態相同，但局部構成不同。在本實施形態中，外部控制裝置100基於對用戶向聲音輸入輸出裝置200輸入的聲音輸入資訊解析的內容，從外部伺服器500獲取相關資訊。並且，是將所獲取的相關資訊經由聲音輸入輸出裝置200及顯示裝置400向用戶提供的構成。

顯示裝置400的基本構成與所述第一實施形態相同，但局部構成不同。在本實施形態中，顯示裝置400按照基於聲音輸入輸出裝置200的操作，在與外部伺服器500之間進行通信，能夠顯示從該外部伺服器500接收到的影像。

(聲音對話型控制系統中的一連串處理)

使用圖6，對圖5例示的聲音對話型控制系統1中的一連串處理進行說明。

首先，若聲音對話型控制系統1的用戶發言“本周末有好玩的活動？”，則發言內容作為聲音輸入資訊被向聲音輸入輸出裝置200輸入(S31：聲音輸入(檢索指示))。然後，聲音輸入輸出裝置200將在S31中受理的聲音輸入資訊向外部控制裝置100發送(S32：聲音發送(檢索指示))。

外部控制裝置100將從聲音輸入輸出裝置200接收到的聲音輸入資訊，使用聲音解析部31及含義解析部32進行解析。進而，資訊獲取部33基於解析結果，針對外部伺服器500檢索周末舉辦的活動(S33：檢索)。外部控制裝置100在從外部伺服器500接收檢索結果作為包含URL的資訊時(S34：檢索結果響應(URL))，影像顯示判定部34根據檢索結果的內容判定響應資訊中是否包含影像。在判定為包含影像的情況下，外部控制裝置100根據檢索結果利用語音數據生成部35生成包含提案將在周末舉辦的事件一覽顯示在顯示裝置400上的提案訊息的語音數據“有煙火大會。還查看其他活動？”，並向聲音輸入輸出裝置200發送(S35：語音數據發送(檢索結果))。聲音輸入輸出裝置200將接收到的語音數據以聲音形式向用戶提供(S36：聲音輸出(檢索結果))。

在S36後，若用戶作為瞭解訊息發言“是的，請處理。”，則發言內容作為聲音輸入資訊被向聲音輸入輸出裝置200輸入(S37：聲音輸入(列表顯示指示))。然後，聲音輸入輸出裝置200將在S37中受理的聲音輸入資訊向外部控制裝置100發送(S38：聲音發送(列表顯示指示))。

外部控制裝置100將從聲音輸入輸出裝置200接收到的聲音輸入資訊，使用聲音解析部31及含義解析部32進行解析。若根據解析結果確認聲音輸入資訊包含瞭解訊息，則語音數據生成部35生成用於將顯示裝置400的電源接通的語音數據“打開電視。”。外部控制裝置100將生成的語音數據向聲音輸入輸出裝置200發送(S39：語音數據發送(顯示裝置電源接通))。聲音輸入輸出裝置200將接收到的語音數據以聲音形式向用戶提供(S40：聲音輸出(顯示裝置電源接通))。

在S40後，外部控制裝置100的控制部30將用於在顯示裝置400以影像形式顯示周末舉辦的事件一覽的指示，與該一覽的URL一起向聲音輸入輸出裝置200發送(S41：顯示指示(檢索結果畫面URL))。聲音輸入輸出裝置200在接收用於顯示包含事件一覽在內的檢索結果畫面的指示及該一覽的URL時，操作顯示裝置400而將電源接通(S42：顯示裝置電源接通)。進而，聲音輸入輸出裝置200將一覽的顯示指示及該一覽的URL向顯示裝置400發送(S43：顯示指示(檢索結果畫面URL))。顯示裝置400在從聲音輸入輸出裝置200接收一覽的顯示指示及該一覽的URL時，向外部伺服器500請求以URL指定的檢索結果畫面(S44：畫面請求(檢索結果畫面))。外部伺服器500對應於請求將以URL指定的檢索結果畫面向顯示裝置400發送並使之顯示(S45：畫面輸出(檢索結果畫面))。

藉由以上的處理，聲音對話型控制系統1從外部伺服器500獲取與聲音輸入輸出裝置200受理的聲音輸入資訊相關的相關資訊。進而在判定為將響應資訊以影像提供的情況下，能夠由外部控制裝置100進行顯示裝置400從外部伺服器500獲取該影像並進行顯示的控制。

(聲音輸入輸出裝置執行的處理流程)

在本實施形態中，聲音輸入輸出裝置200執行的處理流程與在第一實施形態說明的圖4相同。其理由在於，由於聲音輸入輸出裝置200未與外部伺服器500通信，因此該聲音輸入輸出裝置200執行的處理無變更。

〔第三實施形態〕

以下使用圖7至圖9對本發明的第三實施形態進行說明。並且，為了便於說明，對具有與在所述實施形態中說明的構件相同功能的構件標記相同的符號，不對其進行重複說明。

(聲音對話型控制系統的構成)

使用圖7對本實施形態的聲音對話型控制系統1的構成進行說明。圖7是表示聲音對話型控制系統1的概要的示意圖，如圖7所示，本實施形態的聲音對話型控制系統1的基本構成與所述第一實施形態相同，但局部構成不同。在本實施形態中，聲音對話型控制系統1是在與設置有聲音輸入輸出裝置200、路由器300及顯示裝置400的位置不同的位置設有外部控制裝置100的構成。此外，外部控制裝置100是經由網際網路銷售商品的提供網際網路郵購服務的伺服器。並且，聲音對話型控制系統1將與外部控制裝置100提供的網際網路郵購服務相關的畫面以影像形式向顯示裝置400輸出。用戶在與聲音輸入輸出裝置200之間進行聲音的輸入輸出，從而能夠針對網際網路郵購服務進行訂購。

外部控制裝置100的基本構成與所述第一實施形態相同，但局部構成不同。在本實施形態中，外部控制裝置100是經由網際網路銷售商品的、提供網際網路郵購服務的伺服器。在圖7的例子中，外部控制裝置100經由路由器300與聲音輸入輸出裝置200及顯示裝置400連接，但只要是能夠通信的構成，也可以不限於經由路由器300的通信。例如，也可以是，外部控制裝置100與聲音輸入輸出裝置200藉由經由基站的移動電話網絡連接，與顯示裝置400經由路由器300連接。

外部控制裝置100進一步與保管商品的倉庫600能夠通信地連接。外部控制裝置100在從用戶確定了所受理的訂單內容時，將該訂單內容向倉庫600發送。

倉庫600保管由外部控制裝置100提供的網際網路郵購服務處理的各種商品。倉庫600在從外部控制裝置100接收訂單內容時，對應於該訂單內容將商品集中包裝，向訂購來源的用戶配送商品。

(聲音對話型控制系統中的一連串處理)

使用圖8對圖7中例示的聲音對話型控制系統1中的一連串處理進行說明。

首先，聲音對話型控制系統1的用戶發言“請購買今日貨品。”，則發言內容作為聲音輸入資訊向聲音輸入輸出裝置200輸入(S51：聲音輸入(郵購開始指示))。然後，聲音輸入輸出裝置200將在S51中受理的聲音輸入資訊向外部控制裝置100發送(S52：聲音發送(郵購開始指示))。

外部控制裝置100將從聲音輸入輸出裝置200接收到的聲音輸入資訊使用聲音解析部31及含義解析部32進行解析。若根據解析結果確認聲音輸入資訊包含郵購開始指示，則外部控制裝置100的影像顯示判定部34判定為需要使用顯示裝置400的影像顯示。然後，語音數據生成部35生成用於將顯示裝置400的電源接通的語音數據“打開電視”。外部控制裝置100將所生成的語音數據向聲音輸入輸出裝置200發送(S53：語音數據發送(顯示裝置電源接通))。聲音輸入輸出裝置200將接收到的語音數據以聲音形式向用戶提供(S54：聲音輸出(顯示裝置電源接通))。

在S54後，外部控制裝置100將用於在顯示裝置400上將網際網路郵購服務的畫面以影像顯示的指示與該畫面的URL一起向聲音輸入輸出裝置200發送(S55：顯示指示(郵購畫面URL))。聲音輸入輸出裝置200若接收到網際網路郵購服務的畫面的顯示指示及該畫面的URL，則操作顯示裝置400將電源接通(S56：顯示裝置電源接通)。進而，聲音輸入輸出裝置200將畫面的顯示指示及該畫面的URL向顯示裝置400發送(S57：顯示指示 (郵購畫面URL))。顯示裝置400若從聲音輸入輸出裝置200接收畫面的顯示指示及該一覽的URL，則按照顯示指示，進行與外部控制裝置100提供的網際網路郵購服務的站點URL的連接(S58：連接(郵購站點))。外部控制裝置100對應於連接，將以URL指定的網際網路郵購服務的畫面向顯示裝置400發送並使之顯示(S59：畫面輸出(郵購站點))。

在藉由S59在顯示裝置400顯示網際網路郵購服務的畫面後，用戶確認顯示內容，發言“牛肉、馬鈴薯、洋蔥、胡蘿蔔、米、……”的訂單內容。若進行了發言，則發言內容作為聲音輸入資訊被向聲音輸入輸出裝置200輸入(S60：聲音輸入(訂單內容))。然後，聲音輸入輸出裝置200將在S60中受理的聲音輸入資訊向外部控制裝置100發送(S61：聲音發送(訂單內容))。

外部控制裝置100將在S61中從聲音輸入輸出裝置200接收到的聲音輸入資訊，使用聲音解析部31及含義解析部32進行解析。若根據解析結果確認聲音輸入資訊包含訂單內容，則控制部30將用於由顯示裝置400將該訂單內容向外部控制裝置100發送的指示向聲音輸入輸出裝置200發送(S62：輸入指示(訂單內容))。聲音輸入輸出裝置200若從部控制裝置100接收輸入指示，則將來自用戶的包含訂單內容的輸入內容，與使顯示裝置400顯示反映該輸入內容的畫面的指示一起，向顯示裝置400發送(S63：顯示指示(輸入結果))。顯示裝置400若接收輸入內容及指示，則將該輸入內容向外部控制裝置100發送(S64：發送(輸入內容))。外部控制裝置100若接收輸入內容，則基於該輸入內容更新畫面，將更新後的畫面向顯示裝置400發送。顯示裝置400顯示接收到的更新後畫面(S65：畫面輸出(更新後畫面))。

在S65後，外部控制裝置100利用語音數據生成部35生成包含確認是否以更新後的畫面表示的訂單內容確定訂單的確認訊息的語音數據。進而，外部控制裝置100將包含確認訊息的語音數據向聲音輸入輸出裝置200發送(S66：語音數據發送(確認訊息))。聲音輸入輸出裝置200若從外部控制裝置100接收包含確認訊息的語音數據，則輸出該語音數據(S67：聲音輸出(確認訊息))。根據圖示的例子，聲音輸入輸出裝置200進行包含確認訊息的“按照顯示可以嗎？xxxx日圓。”的發言。

在S67後，若用戶發表“是。”，則發言內容作為聲音輸入資訊被向聲音輸入輸出裝置200輸入(S68：聲音輸入(瞭解訊息))。然後，聲音輸入輸出裝置200將在S68中受理的聲音輸入資訊向外部控制裝置100發送(S69：聲音發送(瞭解訊息))。

外部控制裝置100將從聲音輸入輸出裝置200接收到的聲音輸入資訊，使用聲音解析部31及含義解析部32進行解析。若根據解析結果確認聲音輸入資訊包含瞭解訊息，則外部控制裝置100將使顯示裝置400進行確定訂單內容的操作的操作指示向聲音輸入輸出裝置200發送(S70：輸入指示(訂單確定))。聲音輸入輸出裝置200若從外部控制裝置100接收操作指示，則向顯示裝置400指示按照該操作指示確定訂單內容(S71：確定操作指示(訂單內容))。顯示裝置400若從聲音輸入輸出裝置200接收指示，則基於該指示在畫面上進行操作，向外部控制裝置100發送表示確定訂單內容這一情況的指示(S72：發送(確定操作))。外部控制裝置100若從顯示裝置400接收指示，則執行確定訂單內容的處理，向顯示裝置400發送用於通知訂單已確定這一情況的畫面並進行顯示(S73：畫面輸出(確定畫面))。

藉由以上的處理，聲音對話型控制系統1的用戶能夠使用聲音輸入輸出裝置200及顯示裝置400，利用由外部控制裝置100提供的網際網路郵購服務。更具體來說，能夠藉由針對聲音輸入輸出裝置200的聲音輸入執行各種操作，針對外部控制裝置100訂購商品。

(聲音輸入輸出裝置執行的處理流程)

在本實施形態中，使用圖9對聲音輸入輸出裝置200執行的處理流程進行說明。

首先，聲音輸入輸出裝置200受理用戶利用聲音輸入的郵購開始指示(在S81中為是)。聲音輸入輸出裝置200將基於該聲音輸入的聲音輸入資訊向外部控制裝置100，接收與該聲音輸入資訊對應的響應資訊。響應資訊包含顯示裝置400的將電源接通指示和與該指示對應的語音數據，以及該外部控制裝置100提供的網際網路郵購服務的站點URL的顯示指示。並且，聲音輸入輸出裝置200在以聲音輸出語音數據後，按照接收到的指示將顯示裝置400的電源接通。並且，聲音輸入輸出裝置200使顯示裝置400與網際網路郵購服務的站點URL連接，並顯示郵購畫面(S82)。

然後，聲音輸入輸出裝置200若按照顯示裝置400顯示的郵購畫面的內容受理由用戶以聲音輸入的訂單(S83)。則將與訂單相關的聲音輸入資訊向外部控制裝置100發送。聲音輸入輸出裝置200作為與聲音輸入資訊對應的響應資訊，接收與用戶確認是否以當前的訂單內容確定訂單的確認訊息對應的語音數據。然後，聲音輸入輸出裝置200將接收到的語音數據以聲音輸出(S84)。

在S84後，聲音輸入輸出裝置200判定是否受理從用戶處藉由聲音輸入瞭解訂單內容確定的瞭解訊息(S85)。若受理了瞭解訊息(在S85中為是)，則聲音輸入輸出裝置200將與瞭解訊息相關的聲音輸入資訊向外部控制裝置100發送，作為與該聲音輸入資訊對應的響應資訊，接收顯示裝置400進行確定訂單操作的指示。聲音輸入輸出裝置200使顯示裝置400進行確定訂單的操作來確定訂單內容(S86)。另一方面，在沒有受理瞭解訊息時(在S85中為否)，聲音輸入輸出裝置200藉由再次執行S83至S85的處理，受理另外的訂單。

藉由以上處理，聲音輸入輸出裝置200能夠藉由聲音輸入進行針對外部控制裝置100提供的網際網路郵購服務的各種操作。另外，對於聲音輸入輸出裝置200來說，作為與聲音輸入資訊對應的響應資訊，確認訊息等能夠以聲音輸出，郵購畫面等能夠以影像顯示。

藉由以上處理，聲音對話型控制系統1能夠判定在針對外部控制裝置100提供的網際網路郵購服務輸入輸出的資訊中的與用戶聲音輸入的聲音輸入資訊的內容對應的響應資訊中是否包含影像。進而，在外部控制裝置100判定為響應資訊中包含影像的情況下，能夠使顯示裝置400顯示該影像。

〔變形例〕

在所述各實施形態中，外部控制裝置100由單一伺服器構成，但也可以是將多個伺服器組合的構成。例如，外部控制裝置100也可以由能夠與聲音輸入輸出裝置200通信的伺服器、和能夠與顯示裝置400通信的其他伺服器構成。

在所述各實施形態中，聲音輸入輸出裝置200將從用戶受理的聲音輸入資訊向外部控制裝置100發送，外部控制裝置100對聲音輸入資訊進行解析。但是，例如也可以由聲音輸入輸出裝置200進行聲音輸入資訊的聲音解析，由外部控制裝置100針對聲音解析的結果使用含義解析部32進行含義解析。此外，聲音輸入輸出裝置200也可以設有外部控制裝置100的全部構成。

〔總結〕

本發明第一方案的外部控制裝置(100)進行下述控制：接收聲音輸入輸出裝置(200)受理的用戶的聲音輸入資訊，對所述聲音輸入資訊進行解析，獲取與該聲音輸入資訊相關的相關資訊，基於所獲取的所述相關資訊的內容，判定向所述用戶提供的響應資訊中是否包含影像，在判定為在向所述用戶提供的所述響應資訊中包含所述影像的情況下，將該影像顯示在顯示裝置(400)上。

根據所述構成，外部控制裝置能夠判定與用戶進行了聲音輸入的內容對應的響應資訊中是否包含影像，在判定為包含影像的情況下，使顯示裝置顯示該影像。由此，適合以影像提供的資訊能夠以影像提供。因此，能夠提供能夠以用戶容易理解的形式提供資訊的便利性優異的外部控制裝置。

本發明第二方案的外部控制裝置(100)也可以是，在所述第一方案中，在判定為所述響應資訊包含所述影像的情況下，將向所述用戶提供的所述響應資訊的一部分以聲音資訊形式從所述聲音輸入輸出裝置(200)輸出。

根據所述構成，能夠以聲音提供響應資訊的一部分。由此，能夠使適合以影像提供的資訊以影像提供，其他資訊例如從聲音輸入輸出裝置以聲音形式提供。用戶能夠以影像和聲音一起確認響應資訊，因此能夠以用戶容易理解的形式提供資訊。另外，能夠縮短確認所需的時間等，利便性優異。

本發明第三方案的外部控制裝置(100)也可以是，在所述第一或第二方案中，從所述聲音輸入輸出裝置(200)輸出向所述用戶詢問是否將所述影像顯示在所述顯示裝置(400)上的訊息，在所述用戶許可將所述影像顯示在所述顯示裝置的情況下，將所述影像顯示在所述顯示裝置。

根據所述構成，外部控制裝置能夠在用戶許可的情況下以影像提供響應資訊。

本發明第四方案的外部控制裝置(100)也可以是，在所述第一至第三方案中的任一方案中，從外部伺服器(500)獲取所述相關資訊。

根據所述構成，外部控制裝置能夠從外部伺服器獲取相關資訊，因此即使外部控制裝置自身沒有收納相關資訊，也能夠恰當地獲取相關資訊。

本發明第五方案的聲音對話型控制系統(1)也可以是，包括：所述第一至第四方案中的任一方案的外部控制裝置(100)；受理用戶的聲音輸入資訊的聲音輸入輸出裝置(200)；以及顯示所述外部控制裝置所獲取的影像的顯示裝置(400)。

根據所述構成，具有與所述第一方案相同的作用效果。

本發明第六方案的控制方法為進行下述控制的方法：接收聲音輸入輸出裝置(200)受理的用戶的聲音輸入資訊，對所述聲音輸入資訊進行解析，獲取與該聲音輸入資訊相關的相關資訊，基於所獲取的所述相關資訊的內容，判定向所述用戶提供的響應資訊中是否包含影像，在判定為在向所述用戶提供的所述響應資訊中包含所述影像的情況下，將所述影像顯示在顯示裝置(400)。

根據所述構成，具有與所述第一方案相同的作用效果。

本發明各方案的外部控制裝置100也可以由電腦實現，在該情況下，藉由使電腦作為所述外部控制裝置100具備的各部分(軟體要素)動作而使所述外部控制裝置100由電腦實現的外部控制裝置100的控制程式及記錄該程式的電腦可讀取記錄介質也包含在本發明的範圍內。

又，實現外部控制裝置100的各功能的電腦程式產品也包含在本發明的範疇內。上述電腦程式產品，經由至少一台電腦載入透過任意的傳送介質所提供的程式，使該電腦執行至少一個程式指令。由此，上述至少一台電腦具備的處理器執行與上述程式指令相應的處理，藉此實現外部控制裝置100的各功能。該電腦程式產品使載入了程式的至少一台電腦執行外部控制裝置100的控制方法的各步驟。

本發明不限定於上述各實施形態，能夠在申請專利範圍表示的範圍內進行多種變更，將在不同實施形態中分別公開的技術手段適當組合得到的實施形態也包含在本發明的技術範圍內。此外，藉由將在各實施形態中分別公開的技術手段組合，能夠形成新的技術特徵。

1:聲音對話型控制系統

100:外部控制裝置

200:聲音輸入輸出裝置

300:路由器

400:顯示裝置

Claims

一種外部控制裝置，其特徵在於包括：通信部，接收一聲音輸入輸出裝置所受理的用戶的聲音輸入資訊，其中該聲音輸入資訊未包含要求或暗示影像顯示之訊息；控制部，對該聲音輸入資訊進行解析，獲取與該聲音輸入資訊相關的相關資訊，基於該相關資訊，判定在所獲取的該相關資訊的內容是否包含有適合由影像提供的資訊，在判定為該相關資訊的內容包含有適合由影像提供的資訊的情況下，控制一顯示裝置使其顯示該影像以作為響應資訊；在判定為該相關資訊的內容不包含有適合由影像提供的資訊的情況下，控制該聲音輸入輸出裝置以聲音輸出響應資訊。
如請求項1的外部控制裝置，其中，適合由該影像提供的資訊是圖表、一覽表、地圖、圖片或動畫。
如請求項1的外部控制裝置，其中，在判定為在該所獲取的該相關資訊的內容包含有適合由影像提供的資訊的情況下，使該響應資訊的一部分以聲音從該聲音輸入輸出裝置輸出。
如請求項1至3中的任一項的外部控制裝置，其中使向該用戶詢問是否將該影像顯示在該顯示裝置的訊息從該聲音輸入輸出裝置輸出，在該用戶許可將該影像顯示在該顯示裝置的情況下，進行用於將該影像顯示在該顯示裝置的控制。
如請求項1的外部控制裝置，其中，該外部控制裝置從外部伺服器獲取該相關資訊。
一種聲音對話型控制系統，其特徵在於，包括：請求項1的外部控制裝置；受理用戶的聲音輸入資訊的聲音輸入輸出裝置；以及顯示該外部控制裝置所獲取的影像的顯示裝置。
一種控制方法，其特徵在於：接收聲音輸入輸出裝置所受理的用戶的聲音輸入資訊，其中該聲音輸入資訊未包含要求或暗示影像顯示之訊息；對該聲音輸入資訊進行解析，獲取與該聲音輸入資訊相關的相關資訊，基於該相關資訊，判定在所獲取的該相關資訊的內容是否包含有適合由影像提供的資訊，在判定為該相關資訊的內容包含有適合由影像提供的資訊的情況下，控制一顯示裝置使其顯示該影像以作為響應資訊；在判定為該相關資訊的內容不包含有適合由影像提供的資訊的情況下，控制該聲音輸入輸出裝置以聲音輸出響應資訊。
一種電腦可讀取的記錄介質，其特徵在於，記錄有使電腦作為請求項1的外部控制裝置而發揮功能的程式。
一種電腦程式產品，其特徵在於，經由至少一台電腦載入程式，執行以下程式指令：接收聲音輸入輸出裝置所受理的用戶的聲音輸入資訊，其中該聲音輸入資訊未包含要求或暗示影像顯示之訊息；對該聲音輸入資訊進行解析，獲取與該聲音輸入資訊相關的相關資訊，基於該相關資訊，判定在所獲取的該相關資訊的內容是否包含有適合由影像提供的資訊，在判定為該相關資訊的內容包含有適合由影像提供的資訊的情況下，控制一顯示裝置使其顯示該影像以作為響應資訊；在判定為該相關資訊的內容不包含有適合由影像提供的資訊的情況下，控制該聲音輸入輸出裝置以聲音輸出響應資訊。