WO2019138477A1 - Smart speaker, smart speaker control method, and program - Google Patents

Smart speaker, smart speaker control method, and program Download PDF

Info

Publication number
WO2019138477A1
WO2019138477A1 PCT/JP2018/000371 JP2018000371W WO2019138477A1 WO 2019138477 A1 WO2019138477 A1 WO 2019138477A1 JP 2018000371 W JP2018000371 W JP 2018000371W WO 2019138477 A1 WO2019138477 A1 WO 2019138477A1
Authority
WO
WIPO (PCT)
Prior art keywords
question
output
voice
user
smart speaker
Prior art date
Application number
PCT/JP2018/000371
Other languages
French (fr)
Japanese (ja)
Inventor
航洋 竹之下
将仁 谷口
Original Assignee
株式会社ウフル
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ウフル filed Critical 株式会社ウフル
Priority to PCT/JP2018/000371 priority Critical patent/WO2019138477A1/en
Publication of WO2019138477A1 publication Critical patent/WO2019138477A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Definitions

  • the smart speaker according to the second aspect or the third aspect, the processing in which the voice as an utterance meaning the question is input and the information indicating the answer to the question
  • the smart speaker is a smart speaker characterized in that it has history storage means for storing in the storage means a history relating to processing to be acquired in association, and the estimation means estimates the required time using the history.
  • the control unit 11 includes a central processing unit (CPU), a read only memory (ROM), and a random access memory (RAM), and a computer program (hereinafter, simply referred to as a program) stored in the ROM and the storage unit 12 by the CPU. To control each part of the smart speaker 1 by reading out and executing.
  • CPU central processing unit
  • ROM read only memory
  • RAM random access memory
  • a program stored in the ROM and the storage unit 12 by the CPU.
  • the control unit 11 changes the content of the question according to the input voice, and transmits the content to the server device 2 (step S114). Then, the control unit 11 executes a question process of requesting and acquiring an answer to the changed question (step S200). If the question processing that has already started to execute is before acquiring information indicating an answer, the control unit 11 cancels the acquisition. Moreover, if the question process which has already started execution is after acquiring the information which shows an answer, the control part 11 stops outputting the acquired information toward the user U.
  • control unit 11 estimates a required time until the response to the changed question is output, and executes an estimation process of outputting information of the required time to the user U as an artificial voice (step S300).
  • the newly started estimation process informs the user U that at least a change in question has been received, and, further, if the estimation is completed within a predetermined time, the time required to obtain an answer to the post-change question Is notified to the user U.

Abstract

The present invention relates to a technique for controlling a smart speaker, and is used in the field of the Internet of Things (IoT). A recognition unit 111 analyses a speech signal, which represents speech that is input in an input unit 14, and recognizes speech content and a user U responsible for producing the speech. A determination unit 112 determines whether or not the speech represented by the recognized speech signal is an utterance indicating an inquiry made by the user U. When the determination unit 112 determines that said speech is an utterance indicating an inquiry made by the user U, an acquisition unit 113 transmits the inquiry to a server device 2, requests a reply to the inquiry from the server device 2, and acquires the reply from the server device 2. When the determination unit 112 determines that said speech is an utterance indicating an inquiry made by the user U, an output control unit 114 outputs artificial speech, indicating that the inquiry has been received, to an output unit 15 before information representing the reply to the inquiry is acquired by the acquisition unit 113 and output to the user U.

Description

スマートスピーカー、スマートスピーカーの制御方法、及びプログラムSmart speaker, smart speaker control method, and program
 本発明は、スマートスピーカーの制御技術に関し、スピーカーがインターネットに繋がるIoT(Internet of Things)の分野で利用される。 The present invention relates to smart speaker control technology, and is used in the field of Internet of Things (IoT) in which speakers are connected to the Internet.
 音声による指示を受付けるスマートスピーカーが開発されている。特許文献1には、予約された単語であるホットワードを検出したときの発声のユニークさを検証することで、リプレイ攻撃を阻止する技術が開示されている。「リプレイ攻撃」とは、デバイスの所有者等によって話されたホットワードに関するオーディオを、無許可のユーザがキャプチャし、デバイスへ無許可のアクセスを得るためにそれをリプレイする攻撃である。 Smart speakers have been developed to accept voice instructions. Patent Document 1 discloses a technique for preventing a replay attack by verifying the uniqueness of an utterance when a hot word which is a reserved word is detected. A "replay attack" is an attack in which an unauthorized user captures audio concerning a hotword spoken by the device owner or the like and replays it to gain unauthorized access to the device.
特開2017-76117号公報JP 2017-76117 A
 しかし、特許文献1に記載された技術では、ホットワードを検出してから質問の回答をするまでの間、スマートスピーカーはリプレイ攻撃を阻止するための検証を行うだけであり、ユーザに向けて音声出力をしない。そのため、特にこの回答に時間がかかる場合、ユーザは、自分の質問が受付けられたか否かを知らずに回答の出力を待つことになる。 However, in the technology described in Patent Document 1, the smart speaker only performs verification for preventing a replay attack from the detection of the hotword to the answering of the question, and the voice to the user is voiced. Do not output. Therefore, particularly when this response takes time, the user waits for the output of the response without knowing whether or not his / her question has been accepted.
 本発明は、質問を意味する発話である音声が入力されてから、その質問の回答をユーザに向けて出力するまでの間に、ユーザにその質問が受付けられたことを知らせることを目的とする。 An object of the present invention is to notify a user that a question has been accepted after a voice that is an utterance meaning a question is input and before an answer of the question is output to the user. .
 本発明の請求項1に係るスマートスピーカーは、ユーザの音声を入力する入力手段と、前記ユーザに向けて人工音声を出力する出力手段と、情報を取得する取得手段と、前記入力手段にて入力された前記音声が、前記ユーザによる質問を意味する発話であると認識した場合、該質問に対する回答を示す情報を取得して前記ユーザに向けて出力するのに先立ち、該質問が受付けられたことを示す前記人工音声を前記出力手段に出力させる制御手段と、を備えるスマートスピーカーである。 A smart speaker according to claim 1 of the present invention comprises an input unit for inputting a user's voice, an output unit for outputting an artificial voice toward the user, an acquisition unit for acquiring information, and an input via the input unit. When the recognized voice is recognized as an utterance that means a question by the user, the question is accepted prior to obtaining information indicating an answer to the question and outputting it to the user Control means for causing the output means to output the artificial sound indicating.
 本発明の請求項2に係るスマートスピーカーは、請求項1に記載の態様において、前記回答を示す情報を前記出力手段が出力するまでに要する所要時間を推定する推定手段、を有し、前記制御手段は、前記推定手段が推定した前記所要時間を示す前記人工音声を前記出力手段に出力させることを特徴とするスマートスピーカーである。 The smart speaker according to claim 2 of the present invention, in the aspect according to claim 1, has estimation means for estimating the time required for the output means to output the information indicating the answer, and the control The means is a smart speaker characterized in that the artificial voice indicating the required time estimated by the estimation means is output to the output means.
 本発明の請求項3に係るスマートスピーカーは、請求項2に記載の態様において、前記制御手段は、前記質問を意味する発話である前記音声が入力されてから、前記推定手段が前記所要時間を推定するまでに所定時間が経過した場合、決められた内容を示す前記人工音声を前記出力手段に出力させることを特徴とするスマートスピーカーである。 In the smart speaker according to claim 3 of the present invention, in the aspect according to claim 2, the control means receives the voice, which is an utterance meaning the question, and then the estimation means takes the required time. It is a smart speaker characterized by outputting the above-mentioned artificial voice which shows the decided contents to the above-mentioned output means, when predetermined time passes before it presumes.
 本発明の請求項4に係るスマートスピーカーは、請求項2又は3に記載の態様において、前記質問を意味する発話である前記音声が入力された処理、及び該質問に対する前記回答を示す前記情報を取得する処理に関する履歴を対応付けて記憶手段に保存する履歴保存手段、を有し、前記推定手段は、前記履歴を用いて前記所要時間を推定することを特徴とするスマートスピーカーである。 According to a fourth aspect of the present invention, there is provided the smart speaker according to the second aspect or the third aspect, the processing in which the voice as an utterance meaning the question is input and the information indicating the answer to the question The smart speaker is a smart speaker characterized in that it has history storage means for storing in the storage means a history relating to processing to be acquired in association, and the estimation means estimates the required time using the history.
 本発明の請求項5に係るスマートスピーカーは、請求項1から4のいずれか1項に記載の態様において、前記制御手段は、前記入力手段にて入力された前記音声が、過去に入力された音声により示される前記質問の変更を求める発話であると認識した場合、前記回答を示す情報を取得するのを中止し、又は取得した該情報を前記ユーザに向けて出力するのを中止し、該変更が受付けられたことを示す前記人工音声を前記出力手段に出力させることを特徴とするスマートスピーカーである。 In the smart speaker according to a fifth aspect of the present invention, in the aspect according to any one of the first to fourth aspects, in the control means, the voice inputted by the input means is inputted in the past. When it is recognized that it is an utterance for requesting a change in the question indicated by voice, acquisition of information indicating the answer is stopped, or outputting of the acquired information to the user is stopped, It is a smart speaker characterized by outputting the above-mentioned artificial sound which shows that change was accepted to the above-mentioned output means.
 本発明の請求項6に係る制御方法は、認識手段が、入力手段にて入力されたユーザの音声を認識するステップと、前記音声が、前記ユーザによる質問を意味する発話であると認識した場合、制御手段が、該質問が受付けられたことを示す人工音声を出力手段に出力させるステップと、取得手段が、前記質問に対する回答を示す情報を取得するステップと、前記制御手段が、前記人工音声が出力された後に、取得した前記情報を前記ユーザに向けて前記出力手段に出力させるステップと、を有するスマートスピーカーの制御方法である。 In the control method according to claim 6 of the present invention, in the case where the recognition means recognizes the user's voice input by the input means, and the voice is an utterance meaning a question by the user The control means causes the output means to output an artificial voice indicating that the question has been accepted, the obtaining means obtains information indicating an answer to the question, and the control means determines the artificial voice And D. outputting the acquired information to the user and outputting the information to the output means.
 本発明の請求項7に係るプログラムは、コンピュータに、入力手段にて入力されたユーザの音声を認識するステップと、前記音声が、前記ユーザによる質問を意味する発話であると認識した場合、該質問が受付けられたことを示す人工音声を出力手段に出力させるステップと、前記質問に対する回答を示す情報を取得するステップと、取得した前記情報を、前記人工音声が出力された後に前記ユーザに向けて前記出力手段に出力させるステップと、を実行させるためのプログラムである。 A program according to a seventh aspect of the present invention is a computer program that recognizes the voice of the user inputted by the input means, and the voice recognizes that the voice is an utterance meaning a question by the user. Outputting an artificial voice indicating the acceptance of the question to the output means, acquiring information indicating an answer to the question, and directing the acquired information to the user after the artificial voice is output And a program for causing the output means to execute.
 本願に係る発明によれば、質問を意味する発話である音声が入力されてから、その質問の回答をユーザに向けて出力するまでの間に、ユーザにその質問が受付けられたことを知らせることができる。 According to the invention of the present application, it is disclosed that the user is informed that the question has been accepted between the time when the voice that is the utterance meaning the question is input and the answer of the question is output to the user. Can.
本実施形態に係るスマートスピーカーシステム9の構成を示す図。The figure which shows the structure of the smart speaker system 9 which concerns on this embodiment. スマートスピーカー1の構成の一例を示す図。The figure which shows an example of a structure of the smart speaker 1. FIG. 記憶部12に記憶されているデータベース等を示す図。FIG. 2 is a view showing a database etc. stored in a storage unit 12; スマートスピーカー1の機能的構成を示す図。The figure which shows the functional structure of the smart speaker 1. FIG. スマートスピーカー1の動作の流れを示すフローチャート。The flowchart which shows the flow of operation | movement of the smart speaker 1. FIG. スマートスピーカー1の動作の流れを示すフローチャート。The flowchart which shows the flow of operation | movement of the smart speaker 1. FIG. スマートスピーカー1の動作の流れを示すフローチャート。The flowchart which shows the flow of operation | movement of the smart speaker 1. FIG. 変形例におけるスマートスピーカー1の動作の流れを示すフローチャート。The flowchart which shows the flow of operation of smart speaker 1 in a modification.
1…スマートスピーカー、11…制御部、111…認識部、112…判定部、113…取得部、114…出力制御部、115…履歴保存部、116…推定部、12…記憶部、121…履歴DB、122…所要時間DB、13…通信部、14…入力部、15…出力部、2…サーバ装置、3…通信回線、9…スマートスピーカーシステム。 Reference Signs List 1 smart speaker 11 control unit 111 recognition unit 112 determination unit 113 acquisition unit 114 output control unit 115 history storage unit 116 estimation unit 12 storage unit 121 history unit 121 history DB, 122: required time DB, 13: communication unit, 14: input unit, 15: output unit, 2: server apparatus, 3: communication line, 9: smart speaker system.
<実施形態>
<スマートスピーカーシステムの全体構成>
 図1は、本実施形態に係るスマートスピーカーシステム9の構成を示す図である。スマートスピーカーシステム9は、スマートスピーカー1と、サーバ装置2と、これらを通信可能に接続する通信回線3と、を有する。なお、スマートスピーカーシステム9は、スマートスピーカー1、サーバ装置2、通信回線3のそれぞれを複数有してもよい。
Embodiment
<Overall Configuration of Smart Speaker System>
FIG. 1 is a diagram showing the configuration of a smart speaker system 9 according to the present embodiment. The smart speaker system 9 has a smart speaker 1, a server device 2, and a communication line 3 for communicably connecting these. The smart speaker system 9 may have a plurality of each of the smart speaker 1, the server device 2, and the communication line 3.
 スマートスピーカー1は、マイクロフォン等でユーザUの音声を入力し、ダイナミックスピーカーや静電スピーカー等で人工音声を出力する装置であり、いわゆるスマートスピーカー、AIスピーカー等と呼ばれる情報処理装置である。 The smart speaker 1 is a device that inputs the voice of the user U with a microphone or the like and outputs artificial voice with a dynamic speaker, an electrostatic speaker or the like, and is an information processing device called a so-called smart speaker or AI speaker.
 サーバ装置2は、通信回線3を介してスマートスピーカー1から要求された質問に対する回答を生成し、スマートスピーカー1に送信する情報処理装置である。 The server device 2 is an information processing device that generates an answer to a question requested from the smart speaker 1 via the communication line 3 and transmits the generated answer to the smart speaker 1.
 通信回線3は、スマートスピーカー1及びサーバ装置2を通信可能に接続する回線であり、例えばインターネット等である。 The communication line 3 is a line that communicably connects the smart speaker 1 and the server device 2 and is, for example, the Internet or the like.
 図1に示すスマートスピーカーシステム9において、スマートスピーカー1は、ユーザUの音声を受付けて音声認識処理を実行し、その音声が質問を意味する発話である場合に、通信回線3を経由してその質問の内容をサーバ装置2に送信する。サーバ装置2は、受付けた質問の回答を生成し、通信回線3を経由してスマートスピーカー1に送信する。スマートスピーカー1は、サーバ装置2から受取った回答を示す情報を人工音声に変換してユーザUに向けて出力する。 In the smart speaker system 9 shown in FIG. 1, the smart speaker 1 receives the voice of the user U and executes voice recognition processing, and when the voice is an utterance meaning a question, the smart speaker 1 via the communication line 3 The contents of the question are transmitted to the server device 2. The server device 2 generates an answer to the received question and transmits it to the smart speaker 1 via the communication line 3. The smart speaker 1 converts the information indicating the response received from the server device 2 into artificial speech and outputs it to the user U.
<スマートスピーカーの構成>
 図2は、スマートスピーカー1の構成の一例を示す図である。スマートスピーカー1は、制御部11、記憶部12、通信部13、入力部14、及び出力部15を有する。
<Configuration of Smart Speaker>
FIG. 2 is a view showing an example of the configuration of the smart speaker 1. The smart speaker 1 includes a control unit 11, a storage unit 12, a communication unit 13, an input unit 14, and an output unit 15.
 制御部11は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)を有し、CPUがROM及び記憶部12に記憶されているコンピュータプログラム(以下、単にプログラムという)を読み出して実行することによりスマートスピーカー1の各部を制御する。 The control unit 11 includes a central processing unit (CPU), a read only memory (ROM), and a random access memory (RAM), and a computer program (hereinafter, simply referred to as a program) stored in the ROM and the storage unit 12 by the CPU. To control each part of the smart speaker 1 by reading out and executing.
 通信部13は、有線又は無線により通信回線3に接続する通信回路である。スマートスピーカー1は、通信部13により通信回線3に接続されたサーバ装置2と情報を遣り取りする。 The communication unit 13 is a communication circuit connected to the communication line 3 by wire or wirelessly. The smart speaker 1 exchanges information with the server device 2 connected to the communication line 3 by the communication unit 13.
 入力部14は、ユーザUの周囲の空間で発生している音声を収集するマイクロフォン等であり、収集した音声を示す音声信号を制御部11に送る。この入力部14は、ユーザの音声を入力する入力手段の一例である。 The input unit 14 is a microphone or the like that collects voices generated in the space around the user U, and sends an audio signal indicating the collected voices to the control unit 11. The input unit 14 is an example of an input unit that inputs a user's voice.
 出力部15は、ダイナミックスピーカーや静電スピーカー等であり、制御部11により指示された信号に応じて、音をユーザUの周囲の空間に出力する。制御部11は、例えばユーザUの質問に対する回答を言葉によりユーザUに報知する場合に、この回答の内容を文章化したテキストデータを人工音声の波形データに変換し、この波形データに応じた音を出力するように出力部15に指示する。出力部15は、制御部11に指示された音を出力する。したがって、この出力部15は、ユーザに向けて人工音声を出力する出力手段の一例である。 The output unit 15 is a dynamic speaker, an electrostatic speaker, or the like, and outputs sound to the space around the user U in accordance with the signal instructed by the control unit 11. For example, when notifying the user U of the answer to the question of the user U by means of words, the control section 11 converts text data obtained by converting the contents of the answer into text data of artificial voice, and sounds corresponding to the waveform data Are instructed to the output unit 15 to output. The output unit 15 outputs the sound instructed to the control unit 11. Therefore, the output unit 15 is an example of an output unit that outputs artificial speech to the user.
 記憶部12は、ソリッドステートドライブ、ハードディスクドライブ等の大容量の記憶手段であり、制御部11のCPUに読み込まれる各種のプログラム、データ等を記憶する。 The storage unit 12 is a large-capacity storage unit such as a solid state drive or a hard disk drive, and stores various programs, data, and the like read by the CPU of the control unit 11.
 また、記憶部12は、履歴DB121と、所要時間DB122とを記憶する。履歴DB121は、ユーザUから受付けた質問の履歴を記憶するデータベースである。所要時間DB122は、受付けた質問に対する回答を出力するために必要な時間を予め決められている項目ごとに記憶するデータベースである。 The storage unit 12 also stores a history DB 121 and a required time DB 122. The history DB 121 is a database that stores the history of questions received from the user U. The required time DB 122 is a database that stores the time required to output an answer to the received question for each predetermined item.
 図3は、記憶部12に記憶されているデータベースを示す図である。図3(a)に示す履歴DB121は、質問を受付けた時刻である質問時刻と、その質問の種別と、その質問に対する回答を出力した時刻である回答時刻と、その回答を取得するためにサーバ装置2と遣り取りをした通信経路と、を対応付けて記憶している。 FIG. 3 is a view showing a database stored in the storage unit 12. The history DB 121 shown in FIG. 3A is a server for obtaining a question time which is a time when a question is received, a type of the question, an answer time which is a time when an answer to the question is outputted, The device 2 and the communication path exchanged are stored in association with each other.
 スマートスピーカー1の制御部11は、ユーザUから入力された音声を認識し、その音声がユーザUによる質問を意味する発話であると認識した場合、その質問の内容を示す情報をサーバ装置2に送信する。そして、サーバ装置2からその質問に対応する回答を取得すると、スマートスピーカー1の制御部11は、上述した各種の情報を履歴DB121に記憶する。 When the control unit 11 of the smart speaker 1 recognizes the voice input from the user U and recognizes that the voice is an utterance that means a question by the user U, information indicating the content of the question is sent to the server device 2 Send. And if the response corresponding to the question is acquired from the server apparatus 2, the control part 11 of the smart speaker 1 will memorize | store the various information mentioned above in log | history DB121.
 図3(a)に示す履歴DB121において、質問の種別とは、例えば天気に関する質問、交通状況に関する質問、ニュースに関する質問、等である。質問に対してスマートスピーカー1が回答を要求するサーバ装置2は、例えば、その質問の種別ごとにそれぞれ別々に定められていてもよい。 In the history DB 121 shown in FIG. 3A, the type of question is, for example, a question on weather, a question on traffic condition, a question on news, and the like. For example, the server device 2 for which the smart speaker 1 requests an answer to a question may be separately determined for each type of the question.
 また、図3(a)に示す履歴DB121において、通信経路とは、スマートスピーカー1からサーバ装置2へ質問を送信するとき、及びサーバ装置2からスマートスピーカー1へ回答を送信するときにそれぞれに経由したモデムやパーソナルコンピュータ等の各種機器についての情報である。この通信経路には、例えば、質問を送信する経路では8台の機器が中継に関わっており、回答を送信する経路では7台の機器が関わっている、等の情報が記述される。 Further, in the history DB 121 shown in FIG. 3A, the communication path is via each when transmitting a query from the smart speaker 1 to the server device 2 and when transmitting an answer from the server device 2 to the smart speaker 1. Information on various devices such as a modem and a personal computer. In this communication path, for example, information is described in which eight devices are involved in relay in a route for transmitting a question, and seven devices are involved in a route for transmitting an answer.
 図3(a)に示す履歴DB121が記憶する内容は、質問の音声が入力された処理、及びその質問に対する回答を示す情報を取得する処理に関する履歴の一例であり、この履歴は図3(a)に示すものに限られない。例えば、履歴DB121は、質問の種別及び通信経路の両方について対応付けて記憶していたが、このいずれか一方がなくてもよい。 The content stored in the history DB 121 shown in FIG. 3A is an example of a history relating to a process in which the voice of a question is input and a process for acquiring information indicating an answer to the question. It is not limited to what is shown in). For example, although the history DB 121 stores the question type and the communication path in association with each other, either one of them may not be necessary.
 図3(b)に示す所要時間DB122は、質問の種別と、その種別の質問に対して回答するために必要な時間である回答所要時間とを対応付けて記憶する。この所要時間DB122には、例えば、天気に関する質問に対して回答するには50秒、交通状況に関する質問に対して回答するには90秒かかること等が記述される。 The required time DB 122 shown in FIG. 3B associates and stores the type of question and the required time for answer, which is the time required to answer the question of that type. The required time DB 122 describes, for example, that it takes 50 seconds to answer a question about weather, and 90 seconds to answer a question about traffic conditions.
 また、図3(c)に示す所要時間DB122は、通信経路の特性を示す通信経路特性と、その通信経路で通信をする際に必要となる時間である通信所要時間とを対応付けて記憶する。この所要時間DB122には、例えば、経由するモデムの台数や型式等の通信経路特性ごとに、その通信経路特性の下での通信にかかる最低の時間が記述される。 Further, the required time DB 122 shown in FIG. 3C stores the communication path characteristic indicating the characteristic of the communication path in association with the required time for communication, which is the time required to communicate with the communication path. . The required time DB 122 describes, for each communication path characteristic such as, for example, the number and type of modems passed through, the minimum time required for communication under the communication path characteristic.
 所要時間DB122は、図3(b)及び図3(c)に示す所要時間DB122のいずれか一方に限定されるものではなく、両方が記憶部12に記憶されてもよい。また、他の項目について所要時間を記述した表が所要時間DB122に含まれていてもよい。 The required time DB 122 is not limited to any one of the required time DB 122 shown in FIGS. 3B and 3C, and both may be stored in the storage unit 12. In addition, a table in which the required time for other items is described may be included in the required time DB 122.
<スマートスピーカーの機能的構成>
 図4は、スマートスピーカー1の機能的構成を示す図である。スマートスピーカー1の制御部11は、記憶部12に記憶されているプログラムを読み出して実行することにより、認識部111、判定部112、取得部113、出力制御部114、履歴保存部115、及び推定部116として機能する。なお、図4において、通信回線3、及び通信部13を省く。
<Functional Configuration of Smart Speaker>
FIG. 4 is a diagram showing a functional configuration of the smart speaker 1. The control unit 11 of the smart speaker 1 reads and executes the program stored in the storage unit 12 to thereby recognize the recognition unit 111, the determination unit 112, the acquisition unit 113, the output control unit 114, the history storage unit 115, and estimation. It functions as the unit 116. In FIG. 4, the communication line 3 and the communication unit 13 are omitted.
 認識部111は、入力部14で入力された音声を示す音声信号を解析し、その音声の内容を認識する。音声信号の解析には、例えば隠れマルコフモデル等が適用される。なお、認識部111は、音声信号を解析する際に、この音声信号と、予め記憶部12に登録された1人又は複数のユーザの音声信号とを照合することで、この音声の主であるユーザUを識別してもよい。 The recognition unit 111 analyzes a voice signal indicating the voice input by the input unit 14 and recognizes the content of the voice. For example, a hidden Markov model or the like is applied to the analysis of the audio signal. When analyzing the voice signal, the recognition unit 111 collates the voice signal with the voice signals of one or more users registered in advance in the storage unit 12 to obtain the main voice. The user U may be identified.
 判定部112は、認識部111で認識された音声信号に示される音声が、ユーザUによる質問を意味する発話であるか否かを判定する。判定部112は、例えば、「オーケーコンピュータ」等といった、質問に先行して発話されるように決められたホットワードを検出する。そして、判定部112は、ホットワードの後に続く音声が「質問を意味する発話」である、と判定する。 The determination unit 112 determines whether the voice indicated by the voice signal recognized by the recognition unit 111 is an utterance meaning a question by the user U. The determination unit 112 detects, for example, a hotword determined to be uttered prior to a question, such as an “OK computer” or the like. Then, the determination unit 112 determines that the voice following the hot word is “an utterance meaning a question”.
 また、判定部112は、認識部111によって音声から認識された文章を形態素解析して、例えば、その文章中の疑問詞を検出することにより、音声が「質問を意味する発話」であるか否かを判定してもよい。 In addition, the determination unit 112 performs morphological analysis on the sentence recognized from the speech by the recognition unit 111, and detects, for example, an interrogative word in the sentence to determine whether the speech is "an utterance meaning a question". It may be determined.
 取得部113は、上述した音声がユーザUによる質問を意味する発話であると判定部112が判定した場合に、音声認識処理によって生成された、その質問の内容をサーバ装置2に送信してその質問に対する回答をサーバ装置2に要求し、サーバ装置2からその回答を取得する。 When the determination unit 112 determines that the voice mentioned above is an utterance that means a question by the user U, the acquisition unit 113 transmits the content of the question generated by the voice recognition process to the server device 2 and An answer to the question is requested to the server device 2, and the answer is acquired from the server device 2.
 出力制御部114は、上述した音声がユーザUによる質問を意味する発話であると判定部112が判定した場合に、その質問に対する回答を示す情報を取得部113が取得してユーザUに向けて出力するのに先立ち、その質問が受付けられたことを示す人工音声を出力部15に出力させる。そして、出力制御部114は、質問が受付けられた旨をユーザUに報知した後で、取得部113から回答を示す情報を受取ると、その情報を人工音声に変換して出力部15に出力させる。 When the determination unit 112 determines that the above-described voice is an utterance that means a question by the user U, the output control unit 114 acquires information indicating an answer to the question and acquires the information indicating the answer to the question to the user U. Prior to the output, an artificial voice indicating that the question has been accepted is output to the output unit 15. Then, after notifying the user U that the question has been received, the output control unit 114 converts the information into artificial voice and causes the output unit 15 to output the information when the information indicating the answer is received from the acquisition unit 113. .
 履歴保存部115は、ユーザUの質問に対応する回答を取得部113がサーバ装置2から取得すると、その質問を受付けた質問時刻と、その質問の種別と、その質問に対する回答を出力した回答時刻と、その回答を取得するために用いた通信経路と、を対応付けて履歴DB121に記憶する。すなわち、履歴保存部115は、質問を意味する発話である音声が入力された処理、及びその質問に対する回答を示す情報を取得する処理に関する履歴を対応付けて記憶手段に保存する履歴保存手段の一例である。 When the acquisition unit 113 acquires from the server device 2 an answer corresponding to the question of the user U, the history storage unit 115 receives the question time at which the question was received, the type of the question, and the answer time at which the answer to the question is output. And the communication path used to obtain the answer are stored in the history DB 121 in association with each other. In other words, an example of the history storage unit that associates the history related to the process in which the voice that is the utterance meaning the question is input and the process of acquiring the information indicating the answer to the question It is.
 推定部116は、受付けたユーザUの質問に対する回答を示す情報を出力部15が出力するまでに要する時間(所要時間)を推定する。つまり、推定部116は、本願発明における推定手段の一例である。 The estimation unit 116 estimates the time (required time) required for the output unit 15 to output information indicating an answer to the received question of the user U. That is, the estimation unit 116 is an example of the estimation unit in the present invention.
 図4に示す推定部116は、履歴DB121及び所要時間DB122を用いて所要時間を推定する。すなわち、図4に示すこの推定部116は、履歴を用いて所要時間を推定する推定手段の一例である。 The estimation unit 116 illustrated in FIG. 4 estimates the required time using the history DB 121 and the required time DB 122. That is, the estimation unit 116 illustrated in FIG. 4 is an example of an estimation unit that estimates the required time using a history.
 この推定部116は、スマートスピーカー1がユーザの音声の入力を認識部111が受付け、その音声が質問を意味する発話であると判定部112が認識すると、その質問の内容を解析して質問の種別を特定し、質問を受付けた時刻を特定する。そして、推定部116は、履歴DB121を参照して、例えば、特定した種別と同じか近い種別の履歴を抽出し、その中から、特定した時刻の属する時間帯と同じか近い時間帯の履歴をさらに抽出する。 In the estimation unit 116, when the recognition unit 111 receives an input of the user's voice as the smart speaker 1, and the determination unit 112 recognizes that the voice is an utterance meaning a question, the contents of the question are analyzed and the question is Identify the type and identify the time when the question was accepted. Then, the estimation unit 116 refers to the history DB 121 to extract, for example, a history of the same or similar type as the specified type, and from among these, the history of the same or similar time zone as the time zone to which the specified time belongs. Extract further.
 履歴を抽出すると推定部116は、例えばこの履歴に対して統計処理を行う。そして、推定部116は、統計処理の結果と、所要時間DB122とに基づいて、履歴と、特定した質問の種別及び時刻とに閾値を超える差があるか否か判定する。差がある場合、推定部116は、所要時間DB122に記憶された項目ごとの所要時間を用いてその差を補正することで、所要時間を推定する。つまり、推定部116は、項目ごとに必要な時間(回答所要時間、通信所要時間等)と、過去の所要時間の履歴とを用いて、受付けた質問に対して回答するまでにかかる所要時間を推定する。 When the history is extracted, the estimation unit 116 performs statistical processing on this history, for example. Then, the estimation unit 116 determines whether or not there is a difference between the history and the type and time of the identified question based on the result of the statistical processing and the required time DB 122, which exceeds the threshold. If there is a difference, the estimation unit 116 estimates the required time by correcting the difference using the required time for each item stored in the required time DB 122. That is, the estimation unit 116 uses the time required for each item (the required time for an answer, the required time for communication, etc.) and the history of the required time in the past to take the required time for answering the received question. presume.
 推定された所要時間を示す情報は出力制御部114に送られる。出力制御部114は、推定部116が推定した所要時間を示す人工音声を出力部15に出力させる。 Information indicating the estimated required time is sent to the output control unit 114. The output control unit 114 causes the output unit 15 to output an artificial voice indicating the required time estimated by the estimation unit 116.
<スマートスピーカーの動作>
 図5は、スマートスピーカー1の動作の流れを示すフローチャートである。図5には、スマートスピーカー1の制御部11が、ユーザUの質問を意味する音声を入力してから、その質問に対する回答を出力するまでの動作の流れが示されている。
<Operation of smart speaker>
FIG. 5 is a flowchart showing the flow of the operation of the smart speaker 1. FIG. 5 shows a flow of operation from the input of the voice meaning the question of the user U to the control unit 11 of the smart speaker 1 to the output of the answer to the question.
 制御部11は、入力部14を制御してユーザUの音声の入力を受付ける(ステップS101)。そして、制御部11は、入力した音声に対して音声認識処理を実行し(ステップS102)、その音声がユーザUによる質問を意味する発話であるか否かを判定する(ステップS103)。 The control unit 11 controls the input unit 14 to receive input of the voice of the user U (step S101). Then, the control unit 11 executes voice recognition processing on the input voice (step S102), and determines whether the voice is an utterance meaning a question by the user U (step S103).
 入力した音声がユーザUによる質問を意味する発話ではないと判定する場合(ステップS103;NO)、制御部11は、他の処理を実行して(ステップS400)、処理を終了する。 When it is determined that the input voice is not an utterance meaning a question by the user U (step S103; NO), the control unit 11 executes another process (step S400) and ends the process.
 一方、入力した音声がユーザUによる質問を意味する発話であると判定する場合(ステップS103;YES)、制御部11は、サーバ装置2に質問に対する回答を要求して取得する質問処理を実行する(ステップS200)。また、この場合、制御部11は、受付けた質問に対する回答を出力するまでの所要時間を推定して、その所要時間の情報をユーザUに人工音声で出力する推定処理を実行する(ステップS300)。質問処理と推定処理とは、平行して実行される。 On the other hand, when it is determined that the input voice is an utterance meaning a question by the user U (step S103; YES), the control unit 11 performs a question process of requesting the server apparatus 2 to answer the question and acquiring it. (Step S200). Further, in this case, the control unit 11 estimates a required time until the answer to the received question is output, and executes an estimation process of outputting information of the required time to the user U as an artificial voice (step S300). . Question processing and estimation processing are performed in parallel.
 図6は、スマートスピーカー1の動作の流れを示すフローチャートである。図6には、上述した質問処理の動作の流れが示されている。 FIG. 6 is a flowchart showing the flow of the operation of the smart speaker 1. FIG. 6 shows the flow of operation of the above-described question processing.
 制御部11は、ユーザの質問の内容を示す情報をサーバ装置2に送信してその質問に対する回答を要求する(ステップS201)。そして、制御部11は、要求した回答をサーバ装置2から取得したか否かを判定する(ステップS202)。 The control unit 11 transmits information indicating the content of the question of the user to the server device 2 and requests an answer to the question (step S201). Then, the control unit 11 determines whether or not the requested response has been acquired from the server device 2 (step S202).
 回答を取得していない、と判定する間(ステップS202;NO)、制御部11は、この判定を続ける。回答を取得した、と判定すると(ステップS202;YES)、制御部11は、取得したその回答を出力部15に出力させ(ステップS203)、この質問及び回答に関する履歴を保存する(ステップS204)。 While it is determined that an answer has not been acquired (step S202; NO), the control unit 11 continues this determination. If it is determined that an answer has been obtained (step S202; YES), the control unit 11 causes the output unit 15 to output the obtained answer (step S203), and stores the history of the question and the answer (step S204).
 図7は、スマートスピーカー1の動作の流れを示すフローチャートである。図7には、上述した推定処理の動作の流れが示されている。 FIG. 7 is a flowchart showing the flow of the operation of the smart speaker 1. FIG. 7 shows the flow of operation of the above-described estimation process.
 制御部11は、質問を受付けてから所定の時間(所定時間)が経過したか否かを判定する(ステップS301)。所定時間が経過したと判定する場合(ステップS301;YES)、制御部11は、例えば「ご質問を承りました。しばらくお待ち下さい」といった予め定められた文(定型文)を人工音声により出力部15に出力させて(ステップS305)、処理を終了する。これにより所定時間を超えて、所要時間の推定が完了しない場合、スマートスピーカー1は、具体的な所要時間を知らせずに質問を受付けたことだけをユーザUに知らせる。 The control unit 11 determines whether or not a predetermined time (predetermined time) has elapsed after receiving the question (step S301). When it is determined that the predetermined time has elapsed (step S301; YES), for example, the control unit 11 outputs a predetermined sentence (fixed form sentence) such as "I received a question. Please wait for a while" using artificial speech. The output is made to 15 (step S305), and the process ends. As a result, if the estimation of the required time is not completed beyond the predetermined time, the smart speaker 1 notifies the user U only that the question has been accepted without notifying the specific required time.
 一方、所定時間が経過していないと判定する場合(ステップS301;NO)、制御部11は、回答までにかかる所要時間を推定する(ステップS302)。そして、制御部11は、推定が完了したか否かを判定する(ステップS303)。 On the other hand, when it is determined that the predetermined time has not elapsed (step S301; NO), the control unit 11 estimates the required time until the response (step S302). Then, the control unit 11 determines whether the estimation is completed (step S303).
 推定が完了していない、と判定する場合(ステップS303;NO)、制御部11は、処理をステップS301に戻す。一方、推定が完了した、と判定する場合(ステップS303;YES)、制御部11は、推定した所要時間を示す文を人工音声により出力部15に出力させて(ステップS304)、処理を終了する。すなわち、所定時間内に所要時間が推定された場合、スマートスピーカー1は、この所要時間をユーザUに知らせる。 When it is determined that the estimation is not completed (step S303; NO), the control unit 11 returns the process to step S301. On the other hand, when it is determined that the estimation is completed (step S303; YES), the control unit 11 causes the output unit 15 to output a sentence indicating the estimated required time to the output unit 15 (step S304), and ends the process. . That is, when the required time is estimated within the predetermined time, the smart speaker 1 notifies the user U of the required time.
 例えば、ユーザUがスマートスピーカー1の入力部14に向かって「来週のハワイの天気を教えて」と言うと、スマートスピーカー1の制御部11は、この音声信号の入力を受付けて音声を認識し、これが質問を意味する発話であるか否か判定する。スマートスピーカーシステム9において、ユーザUが質問に先立ってホットワードを発音するように決められていてもよいし、スマートスピーカー1の制御部11が、ユーザUの発話した音声を言語解析した結果から上述した判定をしてもよい。 For example, when the user U says "Tell me the weather in Hawaii next week" toward the input unit 14 of the smart speaker 1, the control unit 11 of the smart speaker 1 receives an input of this audio signal to recognize voice. , It is determined whether this is an utterance that means a question. In the smart speaker system 9, the user U may be determined to pronounce the hot word prior to the question, and the control unit 11 of the smart speaker 1 described above from the result of the language analysis of the voice uttered by the user U It may be determined.
 制御部11は、入力された音声が、質問を意味する発話であると判定すると、その質問の内容をサーバ装置2に送って回答を要求するとともに、その回答を取得するまでにかかる所要時間を推定する。そして所定時間内に推定が完了したら推定した所要時間を人工音声によって出力する。 When the control unit 11 determines that the input voice is an utterance meaning a question, the control unit 11 sends the contents of the question to the server device 2 to request an answer, and the time required to acquire the answer presume. Then, when the estimation is completed within a predetermined time, the estimated required time is output by artificial speech.
 例えば、スマートスピーカー1は、上述した質問に対して回答する前に所要時間を「3秒」と推定すると、「来週のハワイの天気ですね。あと3秒ほどお待ち下さい」という人工音声を出力部15から出力する。そして、その後、サーバ装置2から回答を示す情報を取得すると、スマートスピーカー1はその情報を音声化し、例えば「来週のハワイの天気は火曜日と金曜日とが雨でそれ以外は晴れです」という人工音声を出力部15から出力する。 For example, if the smart speaker 1 estimates that the required time is "3 seconds" before answering the above-mentioned question, it outputs an artificial voice "It's Hawaii weather next week. Please wait for about 3 seconds" Output from 15. And then, when the information showing the answer is acquired from the server device 2, the smart speaker 1 voices the information, for example, an artificial voice such as "The weather in Hawaii next week is rainy on Tuesday and Friday and the other is fine." Are output from the output unit 15.
 以上の動作により、所要時間の推定が所定時間内に完了した場合には、ユーザUは、質問が受付けられたことと、回答までにどの程度待てばよいかを知ることとなる。また、所要時間の推定が所定時間内に完了しなかった場合でも、ユーザUは、自分のした質問が受付けられたことを知るので、回答を待てばよいのか、再度質問を繰り返すべきなのか判断することができる。 By the above operation, when the estimation of the required time is completed within a predetermined time, the user U will know that the question has been accepted and how long it should wait for the answer. In addition, even if the estimation of the required time is not completed within the predetermined time, the user U knows that the question he has asked is accepted, so it is determined whether to wait for an answer or to repeat the question again can do.
<変形例>
 以上が実施形態の説明であるが、この実施形態の内容は以下のように変形し得る。また、以下の変形例を組合せてもよい。
<Modification>
The above is the description of the embodiment, but the contents of this embodiment can be modified as follows. Also, the following modifications may be combined.
<変形例1>
 上述した実施形態において、スマートスピーカー1の制御部11は、受付けたユーザUの質問に対する回答を示す情報を出力部15が出力するまでに要する所要時間を推定する推定部116として機能していたが、所要時間をユーザUに知らせる必要がない場合、推定部116として機能しなくてもよい。
<Modification 1>
In the embodiment described above, the control unit 11 of the smart speaker 1 functions as the estimation unit 116 that estimates the required time required for the output unit 15 to output the received information indicating the answer to the question of the user U. When it is not necessary to notify the user U of the required time, it may not function as the estimation unit 116.
<変形例2>
 上述した実施形態において、制御部11は、質問を意味する発話である音声が入力されてから、その質問に対する回答にかかる所要時間が推定されるまでに所定時間が経過した場合、決められた内容を示す人工音声を出力部15に出力させていたが、この所定時間は、複数種類が定められていてもよい。例えば、スマートスピーカー1を複数人で使用する場合、所定時間は、ユーザUごとに定められていてもよい。また、この所定時間は、質問を受付ける時間帯ごとに定められていてもよい。
<Modification 2>
In the above-described embodiment, the control unit 11 determines the content when a predetermined time has elapsed from the input of the voice, which is an utterance meaning a question, to the estimation of the time required to answer the question. Although the artificial voice which shows these is output to the output part 15, multiple types may be defined as this predetermined time. For example, when the smart speaker 1 is used by a plurality of people, the predetermined time may be set for each user U. Moreover, this predetermined time may be defined for every time slot which accepts a question.
 また、制御部11は、所定時間が経過したか否かを監視しなくてもよい。この場合、制御部11は、所要時間が推定されるまで推定処理の完了を待てばよい。ユーザUから、例えば、質問の撤回を意味する新たな音声の入力を受付けたときに、制御部11は、この推定処理を停止させてもよい。 Further, the control unit 11 may not monitor whether or not a predetermined time has elapsed. In this case, the control unit 11 may wait for the completion of the estimation process until the required time is estimated. The control unit 11 may stop this estimation process when, for example, the user U receives an input of a new voice that means withdrawal of a question.
<変形例3>
 上述した実施形態において、スマートスピーカー1の制御部11は、質問に対応する回答を取得した場合に、質問時刻と、種別と、回答時刻と、通信経路と、を対応付けて履歴DB121に記憶する履歴保存部115として機能していたが、履歴DB121に記憶する項目はこれに限られない。また、制御部11は、履歴保存部115として機能しなくてもよい。すなわち、スマートスピーカー1は、質問から回答までの処理の履歴を保存しなくてもよい。
<Modification 3>
In the embodiment described above, the control unit 11 of the smart speaker 1 stores the question time, the type, the answer time, and the communication path in the history DB 121 in association with each other when acquiring the answer corresponding to the question. Although it functions as the history storage unit 115, the items stored in the history DB 121 are not limited to this. In addition, the control unit 11 may not function as the history storage unit 115. That is, the smart speaker 1 may not store the history of processing from the question to the answer.
<変形例4>
 上述した実施形態において、スマートスピーカー1の制御部11は、認識部111で認識された音声信号に示される音声が、ユーザUによる質問を意味する発話であるか否かを判定する判定部112として機能していたが、この判定部112は、上述した音声が、ユーザUが過去に入力した音声により示される質問の変更を求める発話であるか否かを判定してもよい。
<Modification 4>
In the embodiment described above, the control unit 11 of the smart speaker 1 determines the sound indicated by the sound signal recognized by the recognition unit 111 as the determination unit 112 that determines whether the speech is an utterance meaning a question by the user U. Although functioning, the determination unit 112 may determine whether the above-described voice is an utterance for requesting a change of a question indicated by the voice input by the user U in the past.
 図8は、変形例におけるスマートスピーカー1の動作の流れを示すフローチャートである。図8に示す処理のうち、図5と共通するものについては、説明を省略する。 FIG. 8 is a flowchart showing the flow of the operation of the smart speaker 1 in the modification. Descriptions of processes shown in FIG. 8 that are common to FIG. 5 will be omitted.
 入力した音声がユーザUによる質問を意味する発話ではないと判定する場合(ステップS103;NO)、制御部11は、その音声が、過去に入力された音声により示される質問の変更を求める発話であるか否かを判定する(ステップS111)。 When it is determined that the input voice is not an utterance that means a question by the user U (step S103; NO), the control unit 11 is an utterance for which a change of a question whose voice is indicated by a voice input in the past is requested. It is determined whether there is any (step S111).
 上述した音声が、質問の変更を求める発話ではない、と判定する場合(ステップS111;NO)、制御部11は、処理を上述したステップS400に進める。 When it is determined that the above-described voice is not an utterance for requesting a change in question (step S111; NO), the control unit 11 advances the process to step S400 described above.
 一方、上述した音声が、質問の変更を求める発話である、と判定する場合(ステップS111;YES)、制御部11は、その質問について既に開始している質問処理を中止するとともに(ステップS112)、推定処理を中止する(ステップS113)。このステップS112及びステップS113は、平行して処理されてもよい。 On the other hand, when it is determined that the above-described voice is an utterance for requesting a change in question (step S111; YES), the control unit 11 cancels the question processing already started for the question (step S112). , And stop the estimation process (step S113). Steps S112 and S113 may be processed in parallel.
 上述した2つの処理が中止されると、制御部11は、入力した音声に従って質問の内容を変更し、その内容をサーバ装置2に送信する(ステップS114)。そして、制御部11は、変更された質問に対する回答を要求して取得する質問処理を実行する(ステップS200)。既に実行を開始している質問処理が、回答を示す情報を取得する前であれば、制御部11は、その取得を中止する。また、既に実行を開始している質問処理が、回答を示す情報を取得した後であれば、制御部11は、取得した情報をユーザUに向けて出力することを中止する。 When the above-described two processes are canceled, the control unit 11 changes the content of the question according to the input voice, and transmits the content to the server device 2 (step S114). Then, the control unit 11 executes a question process of requesting and acquiring an answer to the changed question (step S200). If the question processing that has already started to execute is before acquiring information indicating an answer, the control unit 11 cancels the acquisition. Moreover, if the question process which has already started execution is after acquiring the information which shows an answer, the control part 11 stops outputting the acquired information toward the user U.
 また、制御部11は、変更された質問に対する回答を出力するまでの所要時間を推定して、その所要時間の情報をユーザUに人工音声で出力する推定処理を実行する(ステップS300)。新たに開始した推定処理により、少なくとも質問の変更を受付けたことがユーザUに伝えられ、さらに、所定時間内に推定が完了した場合には、変更後の質問に対する回答が得られるまでの所要時間がユーザUに知らされる。 In addition, the control unit 11 estimates a required time until the response to the changed question is output, and executes an estimation process of outputting information of the required time to the user U as an artificial voice (step S300). The newly started estimation process informs the user U that at least a change in question has been received, and, further, if the estimation is completed within a predetermined time, the time required to obtain an answer to the post-change question Is notified to the user U.
 したがって、この制御部11は、過去に入力された音声により示される質問の変更を求める発話であると認識した場合、回答を示す情報を取得するのを中止し、又は取得したこの情報をユーザに向けて出力するのを中止し、この変更が受付けられたことを示す人工音声を出力部15に出力させる出力制御部114として機能する。 Therefore, when the control unit 11 recognizes that it is an utterance for requesting a change of a question indicated by a voice input in the past, the control unit 11 stops obtaining information indicating an answer or gives the user this acquired information to the user It functions as an output control unit 114 that causes the output unit 15 to output artificial voice indicating that the change has been received, while stopping outputting the data toward the output.
 例えば、ユーザUがスマートスピーカー1の入力部14に向かって「来週のハワイの天気を教えて」という音声(第1音声)を発した後、「間違えました。来週のロンドンの天気を教えて」という音声(第2音声)を発すると、スマートスピーカー1の制御部11は、この音声信号の入力を受付けて第2音声を認識し、これが質問の変更を求める発話であるか否か判定する。 For example, after the user U issues a voice (1st voice) saying "Tell the weather in Hawaii next week" to the input unit 14 of the smart speaker 1, "I made a mistake. Tell me the weather in London next week. When the voice (second voice) is emitted, the control unit 11 of the smart speaker 1 receives the input of the voice signal, recognizes the second voice, and determines whether this is an utterance for requesting a change in question. .
 スマートスピーカーシステム9において、ユーザUが質問の後に「間違えました」というホットワードを発音した場合に、スマートスピーカー1の制御部11は、これに続く音声を「質問の変更を求める発話」であると判定してもよい。また、スマートスピーカー1の制御部11は、質問の後に続くユーザUの発話した音声を言語解析した結果から上述した判定をしてもよい。 In the smart speaker system 9, when the user U pronounces a hot word "mistaken" after a question, the control unit 11 of the smart speaker 1 follows the voice as "a speech for asking for a change in question". It may be determined that In addition, the control unit 11 of the smart speaker 1 may make the above-mentioned determination from the result of linguistic analysis of the speech uttered by the user U following the question.
 制御部11は、入力された音声が、質問の変更を求める発話であると判定すると、その変更の内容をサーバ装置2に送って回答を要求する。これにより、第1音声に示す質問に対する回答を要求する処理は中止される。 When the control unit 11 determines that the input voice is an utterance for requesting a change in question, the control unit 11 sends the content of the change to the server device 2 to request an answer. As a result, the process of requesting an answer to the question shown in the first voice is discontinued.
 また、制御部11は、変更前の質問に対する回答を取得するまでにかかる所要時間を推定する処理を中止し、変更された質問に対する回答を取得するまでにかかる所要時間を推定する処理を新たに開始する。そして所定時間内にこの推定が完了したら推定した所要時間を人工音声によって出力する。 In addition, the control unit 11 cancels the process of estimating the required time for acquiring the answer to the question before the change, and newly performs the process of estimating the required time for acquiring the answer for the changed question. Start. When the estimation is completed within a predetermined time, the estimated required time is output by artificial speech.
 例えば、スマートスピーカー1は、上述の変更された質問に対して回答する前に所要時間を「3秒」と推定すると、「訂正を受付けました。来週のロンドンの天気ですね。あと3秒ほどお待ち下さい」という人工音声を出力部15から出力する。そして、その後、サーバ装置2から回答を示す情報を取得すると、スマートスピーカー1はその情報を音声化し出力部15から出力する。 For example, if Smart Speaker 1 estimates the time required to be "3 seconds" before answering the above-mentioned changed questions, "The correction has been accepted. It is the weather in London next week. Another 3 seconds or so. The artificial voice "Please wait" is output from the output unit 15. Then, after that, when information indicating a response is acquired from the server device 2, the smart speaker 1 voices the information and outputs it from the output unit 15.
 以上の動作により、スマートスピーカー1の制御部11は、過去にユーザUが質問した内容を変更する発話をした場合、その発話を示す音声を入力して、サーバ装置2に対する回答の要求を中止し、所要時間の推定を中止して、変更後の質問で新たに回答の要求と所要時間の推定を開始するので、変更前の回答の結果や、所要時間の推定結果がユーザUに知らされることがない。 By the above operation, when the control unit 11 of the smart speaker 1 makes an utterance to change the content the user U has asked in the past, the control unit 11 inputs a voice indicating the utterance and cancels the request for an answer to the server device 2 Since the estimation of the required time is stopped and the request for the answer and the estimation of the required time are newly started with the changed question, the user U is informed of the result of the answer before the change and the estimated result of the required time I have not.
<変形例5>
 スマートスピーカー1の制御部11が実行する処理は、スマートスピーカー1の制御方法として観念され得る。すなわち、本発明は、認識手段が、入力手段にて入力されたユーザの音声を認識するステップと、前記音声が、前記ユーザによる質問を意味する発話であると認識した場合、制御手段が、該質問が受付けられたことを示す人工音声を出力手段に出力させるステップと、取得手段が、前記質問に対する回答を示す情報を取得するステップと、前記制御手段が、前記人工音声が出力された後に、取得した前記情報を前記ユーザに向けて前記出力手段に出力させるステップと、を有するスマートスピーカーの制御方法として提供されてもよい。
<Modification 5>
The process performed by the control unit 11 of the smart speaker 1 can be considered as a control method of the smart speaker 1. That is, according to the present invention, when the recognition means recognizes the voice of the user inputted by the input means, and when the voice recognizes that the speech is an utterance meaning a question by the user, the control means is A step of causing the output means to output an artificial voice indicating that a question has been accepted; a step of obtaining information indicating a response to the question; and a step of the control means outputting the artificial voice. And C. outputting the obtained information to the user and outputting the information to the output means.
<変形例6>
 スマートスピーカー1の制御部11によって実行されるプログラムは、磁気テープ及び磁気ディスク等の磁気記録媒体、光ディスク等の光記録媒体、光磁気記録媒体、半導体メモリ等の、コンピュータ装置が読取り可能な記録媒体に記憶された状態で提供し得る。また、このプログラムを、インターネット等の通信回線経由でダウンロードさせてもよい。なお、上述した制御部11によって例示した制御手段としてはCPU以外にも種々の装置が適用される場合があり、例えば、専用のプロセッサ等が用いられる。
<Modification 6>
The program executed by the control unit 11 of the smart speaker 1 is a computer-readable recording medium such as a magnetic recording medium such as a magnetic tape and a magnetic disk, an optical recording medium such as an optical disc, a magneto-optical recording medium, and a semiconductor memory. Can be provided as stored in the Also, this program may be downloaded via a communication line such as the Internet. In addition, as a control means illustrated by the control part 11 mentioned above, various apparatuses other than CPU may be applied, for example, a processor for exclusive use etc. are used.

Claims (7)

  1.  ユーザの音声を入力する入力手段と、
     前記ユーザに向けて人工音声を出力する出力手段と、
     情報を取得する取得手段と、
     前記入力手段にて入力された前記音声が、前記ユーザによる質問を意味する発話であると認識した場合、該質問に対する回答を示す情報を取得して前記ユーザに向けて出力するのに先立ち、該質問が受付けられたことを示す前記人工音声を前記出力手段に出力させる制御手段と、
     を備えるスマートスピーカー。
    Input means for inputting user's voice;
    Output means for outputting artificial speech to the user;
    Acquisition means for acquiring information;
    When it is recognized that the voice inputted by the input means is an utterance that means a question by the user, prior to acquiring information indicating an answer to the question and outputting it to the user, Control means for causing the output means to output the artificial voice indicating that a question has been accepted;
    Speaker with.
  2.  前記回答を示す情報を前記出力手段が出力するまでに要する所要時間を推定する推定手段、を有し、
     前記制御手段は、前記推定手段が推定した前記所要時間を示す前記人工音声を前記出力手段に出力させる
     ことを特徴とする請求項1に記載のスマートスピーカー。
    The estimation means for estimating the time required for the output means to output the information indicating the answer;
    The smart speaker according to claim 1, wherein the control means causes the output means to output the artificial voice indicating the required time estimated by the estimation means.
  3.  前記制御手段は、前記質問を意味する発話である前記音声が入力されてから、前記推定手段が前記所要時間を推定するまでに所定時間が経過した場合、決められた内容を示す前記人工音声を前記出力手段に出力させる
     ことを特徴とする請求項2に記載のスマートスピーカー。
    The control means, when the predetermined time has elapsed before the estimation means estimates the required time after the voice as the utterance meaning the question is input, the artificial voice indicating the determined content is The smart speaker according to claim 2, wherein the output means is made to output.
  4.  前記質問を意味する発話である前記音声が入力された処理、及び該質問に対する前記回答を示す前記情報を取得する処理に関する履歴を対応付けて記憶手段に保存する履歴保存手段、を有し、
     前記推定手段は、前記履歴を用いて前記所要時間を推定する
     ことを特徴とする請求項2又は3に記載のスマートスピーカー。
    History storage means for storing in the storage means a process in which the voice as an utterance meaning the question is input and a history regarding a process for acquiring the information indicating the answer to the question in association with each other;
    The smart speaker according to claim 2 or 3, wherein the estimation means estimates the required time using the history.
  5.  前記制御手段は、前記入力手段にて入力された前記音声が、過去に入力された音声により示される前記質問の変更を求める発話であると認識した場合、前記回答を示す情報を取得するのを中止し、又は取得した該情報を前記ユーザに向けて出力するのを中止し、該変更が受付けられたことを示す前記人工音声を前記出力手段に出力させる
     ことを特徴とする請求項1から4のいずれか1項に記載のスマートスピーカー。
    When the control means recognizes that the voice inputted by the input means is an utterance for requesting a change of the question indicated by a voice inputted in the past, acquiring information indicating the answer The method according to any one of claims 1 to 4, further comprising: stopping outputting the acquired information to the user, or outputting the artificial voice indicating that the change has been accepted, to the output unit. Smart speaker according to any one of the above.
  6.  認識手段が、入力手段にて入力されたユーザの音声を認識するステップと、
     前記音声が、前記ユーザによる質問を意味する発話であると認識した場合、制御手段が、該質問が受付けられたことを示す人工音声を出力手段に出力させるステップと、
     取得手段が、前記質問に対する回答を示す情報を取得するステップと、
     前記制御手段が、前記人工音声が出力された後に、取得した前記情報を前記ユーザに向けて前記出力手段に出力させるステップと、
     を有するスマートスピーカーの制御方法。
    The recognition means recognizes the user's voice input by the input means;
    If the control means recognizes that the voice is an utterance representing a question by the user, the control means causes the output means to output an artificial voice indicating that the question has been accepted;
    Acquisition means acquires information indicating an answer to the question;
    Causing the control means to output the obtained information to the user after the artificial voice is output, to the output means;
    Control method of the smart speaker having.
  7.  コンピュータに、
     入力手段にて入力されたユーザの音声を認識するステップと、
     前記音声が、前記ユーザによる質問を意味する発話であると認識した場合、該質問が受付けられたことを示す人工音声を出力手段に出力させるステップと、
     前記質問に対する回答を示す情報を取得するステップと、
     取得した前記情報を、前記人工音声が出力された後に前記ユーザに向けて前記出力手段に出力させるステップと、
     を実行させるためのプログラム。
    On the computer
    Recognizing the user's voice input by the input means;
    Causing the output means to output an artificial voice indicating that the question has been accepted, when the voice is recognized as an utterance that means a question by the user;
    Obtaining information indicating an answer to the question;
    Allowing the output means to output the acquired information to the user after the artificial voice is output;
    A program to run a program.
PCT/JP2018/000371 2018-01-10 2018-01-10 Smart speaker, smart speaker control method, and program WO2019138477A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/000371 WO2019138477A1 (en) 2018-01-10 2018-01-10 Smart speaker, smart speaker control method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/000371 WO2019138477A1 (en) 2018-01-10 2018-01-10 Smart speaker, smart speaker control method, and program

Publications (1)

Publication Number Publication Date
WO2019138477A1 true WO2019138477A1 (en) 2019-07-18

Family

ID=67218236

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/000371 WO2019138477A1 (en) 2018-01-10 2018-01-10 Smart speaker, smart speaker control method, and program

Country Status (1)

Country Link
WO (1) WO2019138477A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023505917A (en) * 2020-11-20 2023-02-14 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド VOICE INTERACTION METHOD, APPARATUS, APPARATUS AND COMPUTER STORAGE MEDIA

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014191030A (en) * 2013-03-26 2014-10-06 Fuji Soft Inc Voice recognition terminal and voice recognition method using computer terminal
JP2015135420A (en) * 2014-01-17 2015-07-27 株式会社デンソー Voice recognition terminal device, voice recognition system, and voice recognition method
JP2016090681A (en) * 2014-10-31 2016-05-23 マツダ株式会社 Voice interactive device for vehicle
JP2016126293A (en) * 2015-01-08 2016-07-11 シャープ株式会社 Voice interaction control device, control method of voice interaction control device, and voice interactive device
WO2017006766A1 (en) * 2015-07-09 2017-01-12 ヤマハ株式会社 Voice interaction method and voice interaction device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014191030A (en) * 2013-03-26 2014-10-06 Fuji Soft Inc Voice recognition terminal and voice recognition method using computer terminal
JP2015135420A (en) * 2014-01-17 2015-07-27 株式会社デンソー Voice recognition terminal device, voice recognition system, and voice recognition method
JP2016090681A (en) * 2014-10-31 2016-05-23 マツダ株式会社 Voice interactive device for vehicle
JP2016126293A (en) * 2015-01-08 2016-07-11 シャープ株式会社 Voice interaction control device, control method of voice interaction control device, and voice interactive device
WO2017006766A1 (en) * 2015-07-09 2017-01-12 ヤマハ株式会社 Voice interaction method and voice interaction device

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
AIKAWA KIYOAKI: "In search of natural human-to-computer voice interactions", NTT R&D, vol. 50, no. 12, 10 December 2001 (2001-12-10), pages 945 - 952, ISSN: 0915-2326 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023505917A (en) * 2020-11-20 2023-02-14 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド VOICE INTERACTION METHOD, APPARATUS, APPARATUS AND COMPUTER STORAGE MEDIA

Similar Documents

Publication Publication Date Title
US11875820B1 (en) Context driven device arbitration
US11138977B1 (en) Determining device groups
JP6084654B2 (en) Speech recognition apparatus, speech recognition system, terminal used in the speech recognition system, and method for generating a speaker identification model
US9583102B2 (en) Method of controlling interactive system, method of controlling server, server, and interactive device
JP7230806B2 (en) Information processing device and information processing method
US10733986B2 (en) Apparatus, method for voice recognition, and non-transitory computer-readable storage medium
CN102385860A (en) Information processing apparatus, information processing method, and program
US20200152170A1 (en) Learning transcription errors in speech recognition tasks
JP4667085B2 (en) Spoken dialogue system, computer program, dialogue control apparatus, and spoken dialogue method
US9691389B2 (en) Spoken word generation method and system for speech recognition and computer readable medium thereof
WO2019235134A1 (en) Information generation device, information processing system, information processing method, and program
CN112331217A (en) Voiceprint recognition method and device, storage medium and electronic equipment
WO2019035371A1 (en) Information processing device, information processing method, and program
JP2018120203A (en) Information processing method and program
WO2019138477A1 (en) Smart speaker, smart speaker control method, and program
US20180366127A1 (en) Speaker recognition based on discriminant analysis
WO2020202862A1 (en) Response generation device and response generation method
WO2020208972A1 (en) Response generation device and response generation method
JP7055327B2 (en) Conversation collection device, conversation collection system and conversation collection method
KR20210130465A (en) Dialogue system and method for controlling the same
US10607596B2 (en) Class based learning for transcription errors in speech recognition tasks
US20220139379A1 (en) Wake word method to prolong the conversational state between human and a machine in edge devices
JP7085500B2 (en) Speech processor, speech processing method and speech processing program
JP7323936B2 (en) Fatigue estimation device
WO2021140816A1 (en) Information processing device, information processing system, information processing method, and program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18899802

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18899802

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP