WO2018056169A1 - 対話装置、処理方法、プログラム - Google Patents

対話装置、処理方法、プログラム Download PDF

Info

Publication number
WO2018056169A1
WO2018056169A1 PCT/JP2017/033285 JP2017033285W WO2018056169A1 WO 2018056169 A1 WO2018056169 A1 WO 2018056169A1 JP 2017033285 W JP2017033285 W JP 2017033285W WO 2018056169 A1 WO2018056169 A1 WO 2018056169A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
dialogue
processing unit
start condition
image
Prior art date
Application number
PCT/JP2017/033285
Other languages
English (en)
French (fr)
Inventor
山賀 宏之
久美子 高塚
伊藤 真由美
康一 森川
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Publication of WO2018056169A1 publication Critical patent/WO2018056169A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis

Definitions

  • the present invention relates to a dialogue apparatus, a processing method, and a program.
  • the technique of the above-mentioned patent document 1 is a technique for collecting voices spoken by a speaker, detecting the position of the speaker, and operating the voice recognition means when it is determined that the speaker is in a position suitable for voice input. It is.
  • a technique capable of detecting the user's voice with high accuracy is required.
  • an object of the present invention is to provide an interactive apparatus, a processing method, and a program that can solve the above-described problems.
  • the dialog device includes a dialog start condition determining unit that determines whether or not the dialog start condition is satisfied, and a position that is suitable for obtaining the user's voice when the dialog start condition is satisfied. And a dialogue processing unit that outputs movement promotion information that prompts the user to move.
  • the processing method determines whether or not the dialogue start condition is satisfied, and the movement that prompts the user to move to a position suitable for the user's voice acquisition when the dialogue start condition is satisfied. Output promotion information.
  • the program determines whether or not the dialog start condition is satisfied by the computer, and if the dialog start condition is satisfied, the program moves the user to a position suitable for the user's voice acquisition. A process of outputting the urged movement promotion information is executed.
  • an interactive device that is an ICT device can accurately detect a user's voice.
  • FIG. 1 is a first diagram illustrating an interactive apparatus and an image display example thereof.
  • the interactive apparatus 1 has a display screen 16.
  • the interactive device 1 is a tablet terminal, for example.
  • a tablet terminal is an embodiment of an ICT device.
  • the interactive apparatus 1 displays the character image 100 and the auxiliary image 101 on the display screen 16 and displays operation buttons on the display screen 16 that are simplified so that even a user unaccustomed to ICT devices such as elderly people can easily operate the screen.
  • Display in area 110 In the present embodiment, an example in which only icon images of three operation buttons are displayed in the operation button display area 110 is shown.
  • the dialogue apparatus 1 includes a camera 18.
  • FIG. 2 is a hardware configuration diagram of the interactive apparatus.
  • the interactive apparatus 1 includes a CPU (Central Processing Unit) 11, a RAM (Random Access Memory) 12, a ROM (Read Only Memory) 13, an SSD (Solid State Drive) 14, a communication module 15, a display screen 16, an IF (interface) 17, A camera 18 and the like are provided.
  • the display screen 16 is configured by a liquid crystal monitor, a touch panel, or the like, and may have an input function for a user to input an operation by touching the touch panel in addition to a display function.
  • FIG. 3 is a functional block diagram of the interactive apparatus.
  • the CPU 11 (FIG. 2) of the dialogue apparatus 1 starts a dialogue processing program recorded in the ROM 13 (FIG. 2) or the SSD 14 (FIG. 2).
  • the CPU 11 of the dialogue apparatus 1 includes the functions of the control unit 111, the dialogue start condition determination unit 112, the dialogue processing unit 113, and the voice recognition unit 114.
  • the CPU 11 of the dialogue apparatus 1 has the function of the communication application processing unit 115 by starting the communication application program.
  • the control unit 111 controls other functional units.
  • the dialog start condition determination unit 112 determines whether the dialog start condition with the user is satisfied based on the acquired information and the like. Hereinafter, the determination of whether or not the dialog start condition is satisfied is referred to as determination of whether or not the dialog start condition is met. A case where the dialog start condition is satisfied is referred to as a case where the dialog start condition is met.
  • the dialogue processing unit 113 displays the dialogue target image with which the user interacts on the display screen 16 and controls the dialogue target image so that the user pays attention to the dialogue target. The dialogue processing unit 113 controls the dialogue target image so that the user pays attention to the dialogue target even when it is determined that the user does not pay attention to the dialogue target.
  • the dialogue processing unit 113 outputs movement promotion information that prompts the user to move to a position suitable for the user's voice acquisition when the dialogue start condition is met.
  • the movement promotion information may be display information or sound.
  • the dialogue processing unit 113 performs other dialogue processing.
  • the position suitable for the user's voice acquisition is, for example, a position where the interactive device 1 can recognize the content of the user's voice.
  • the position suitable for the user's voice acquisition is a position within a predetermined distance range from the dialog device 1 where the dialog device 1 can recognize the content of the user's voice.
  • voice acquisition may differ according to a user.
  • the voice recognizing unit 114 recognizes the user conversation from the time matching the dialog start condition to the time matching the dialog end condition.
  • the communication application processing unit 115 performs predetermined application processing such as a mail function, a message processing function, and an SNS (Social Networking Service) function.
  • predetermined application processing such as a mail function, a message processing function, and an SNS (Social Networking Service) function.
  • FIG. 4 is a second diagram showing an interactive apparatus and an example of image display thereof.
  • the interactive apparatus 1 displays the character image 100 and displays a plurality of operation buttons in a predetermined operation button display area 110 in the screen area.
  • the dialogue apparatus 1 does not change the position of the operation button display area 110 in principle. This makes it possible for a user unfamiliar with the ICT device to operate the user without hesitation between many operations.
  • the dialogue apparatus 1 may give an action to the character image 100 to display a gesture such as the character image 100 walking on the screen or a gesture for performing a conversation.
  • the interactive apparatus 1 may display an auxiliary image 101 representing the emotion of the character image 100 as shown in FIG. In FIG. 1, a heart mark is displayed as the auxiliary image 101.
  • the character image 100 shown in FIG. 4 shows a movement that walks to the left and right, and a display in which the character walks between the character image 100a and the character image 100b is performed.
  • FIG. 5 is a diagram showing a processing flow of the interactive apparatus. Next, the processing flow of the interactive apparatus 1 will be described in order.
  • the dialogue processing unit 113 of the dialogue apparatus 1 displays the character image 100, the auxiliary image 101, and operation buttons after activation (step S501).
  • the dialogue processing unit 113 controls the type (display type) and movement of the character image 100 and the auxiliary image 101. For example, the dialogue processing unit 113 displays an image that attracts the user's interest, such as moving the character indicated by the character image 100 on the screen or shaking the character's head. Further, the dialogue processing unit 113 may change or move the color of the auxiliary image 101.
  • the character image 100 is an aspect of a dialogue target image. Other examples of the dialogue target image may be an anthropomorphic image or an actual human image.
  • the dialogue start condition determination unit 112 is set to acquire reception information (first acquisition information) when the communication application processing unit 115 receives communication information.
  • the communication application processing unit 115 outputs the received information to the dialog start condition determination unit 112 based on the communication information.
  • the communication application processing unit 115 is a functional unit that performs application processing related to mail transmission / reception.
  • the received information may include information such as a transmission source identifier such as a transmission source address or a transmission source user name, a face image of the transmission source user, a mail text, and attached data.
  • the communication application processing unit 115 detects such information.
  • the reception information includes a transmission source identifier such as a transmission source user name, a face image of the transmission source user, a message body, and attached data. Such information may be included.
  • the communication application processing unit 115 is a functional unit that performs application processing related to a call
  • the received information may include information such as a caller user name and a call instruction.
  • the dialog start condition determining unit 112 acquires the received information (step S502). Acquisition of received information is an aspect in which a service function (communication application function) provided in the dialogue apparatus 1 acquires an event. The acquisition of received information by the dialog start condition determination unit 112 is an aspect of detecting that the dialog start condition is matched. When the received information is acquired, the dialog start condition determining unit 112 determines that the dialog is started, and outputs an activation instruction to the camera 18 (step S503). As a result, the camera 18 is activated to start photographing. The camera 18 is activated in, for example, a moving image shooting mode.
  • the dialog start condition determination unit 112 may determine that the dialog start condition is met when a user who appears in an image captured by the camera 18 is detected.
  • the dialog start condition determining unit 112 determines that the dialog start condition is met, the dialog start condition determining unit 112 instructs the dialog processing unit 113 to start the dialog.
  • the dialog processing unit 113 outputs a voice call (step S504). Further, the dialogue processing unit 113 displays information for notifying that the event has been acquired on the screen (step S505). Information for notifying that this event has been acquired may be information indicating the movement of the character image 100 and the mode of the auxiliary image 101.
  • the dialogue apparatus 1 is usually placed on a shelf or a desk, for example. In this state, it is notified by the processing of step S504 and step S505 that the interactive device 1 has received the communication information by the communication application processing unit 115 as described above. When notified, it is assumed that the user of the interactive device 1 holds the interactive device 1 and lifts it to bring the face closer to the display screen 16 or approaches the side of the interactive device 1 to bring the face closer to the display screen 16. As a result, the camera 18 captures the user's face. The camera 18 outputs the captured image to the dialogue start condition determining unit 112 and the dialogue processing unit 113.
  • the dialogue processing unit 113 determines whether or not a face image can be detected from the photographed image (step S506). When the dialogue processing unit 113 detects a face image, the dialogue processing unit 113 compares the face image with a stored face image obtained by photographing a user's face in advance, and determines whether or not the face image matches. Perform in the same way as the processing. The dialogue processing unit 113 determines whether or not the face image has been successfully authenticated (step S507). When the face image matches the face image obtained by photographing the user's face in advance, the dialogue processing unit 113 determines that the authentication is successful (YES in step S507). On the other hand, when it is not determined that the authentication is successful (NO in step S507), the dialogue processing unit 113 returns to the process in step S505.
  • the dialogue processing unit 113 also detects the size of the face image shown in the photographed image.
  • the dialogue processing unit 113 determines whether or not the size of the face image is greater than or equal to a threshold value indicating a predetermined size (step S508). That is, the dialogue processing unit 113 determines whether or not the user is at a position suitable for voice acquisition based on the image captured by the sensor device (camera 18).
  • the dialogue processing unit 113 may determine the size of the face image based on, for example, whether or not the number of pixels corresponding to the face image is greater than or equal to a threshold value indicating a predetermined number of pixels. If the size of the face image is not equal to or greater than the threshold (NO in step S508), the dialogue processing unit 113 starts outputting movement promotion information because the user has not moved to a position suitable for voice acquisition.
  • the movement promotion information may be voice, for example.
  • the dialogue processing unit 113 when the size of the face image is not greater than or equal to the threshold value, the dialogue processing unit 113 outputs a voice that prompts the user to approach the dialogue device 1 because the distance between the dialogue device 1 and the user is long (step S509). ). Since the distance between the dialog device 1 and the user is far as the movement promotion information, the dialog processing unit 113 may output character information that prompts the user to approach the dialog device 1 on the display screen 16. Alternatively, the dialogue processing unit 113 may control the movement of the character image 100 as movement promotion information.
  • the dialogue processing unit 113 controls the movement of the character image 100 such as an action that the character invites, an action that searches for a user, an action that causes a lonely expression, and an action that informs the user that the user's voice cannot be heard. Take control.
  • Control of the movement of the character image 100 is one aspect of outputting movement promotion information.
  • Control of the character image 100 includes selection and display of an animation mode of the character image 100. Thereby, it is assumed that the user approaches the interactive apparatus 1. As the user approaches the interactive device 1, the interactive device 1 can recognize the user's voice with higher accuracy.
  • the dialogue processing unit 113 may output the movement promotion information until the face image of the user appearing in the captured image is equal to or greater than a threshold value indicating a predetermined size.
  • the dialogue processing unit 113 determines that the distance to the user is appropriate when the size of the face image is equal to or greater than the threshold (YES in step S508), and then the character image 100 so that the user pays attention to the character image 100. Is controlled (step S510). Specifically, the movement control is control such as a whispering action, a blinking action, and a body language action of the character while the user is speaking. In this way, the dialogue processing unit 113 controls the dialogue target image that prompts the user to pay attention to the displayed character image 100 (the dialogue target image).
  • the dialogue processing unit 113 may control information other than the character image 100 so that the user pays attention. For example, the dialogue processing unit 113 may output character information, which is a result of analysis by processing described later, to the display screen 16.
  • the dialog processing part 113 output the audio
  • the dialogue processing unit 113 may output an indicator indicating the sound detection level.
  • the dialogue processing unit 113 may perform processing such as lighting control of a lamp or vibrating a vibrator provided in a terminal of the dialogue apparatus 1. Note that the dialogue processing unit 113 may analyze a captured image including a user image and determine whether or not the user is paying attention to the character image 100 based on the analysis result of the captured image. When it is determined that the dialog processing unit 113 is not paying attention, the dialogue processing unit 113 performs the above-described control for prompting the user to pay attention to the character image 100.
  • the dialogue processing unit 113 detects the user's line-of-sight direction and face direction based on the photographed image, and when the line-of-sight and face are not facing the character image 100, the user does not pay attention to the character image 100. judge. These processes are one aspect of the process of controlling the interactive apparatus 1 so as to make it easy to recognize the user's voice.
  • the dialogue processing unit 113 determines that the distance to the user is appropriate, the dialogue processing unit 113 starts the dialogue. Specifically, the conversation is reading out the mail text indicated by the received information.
  • FIG. 6 is a third diagram illustrating the interactive apparatus and an image display example thereof.
  • the dialogue processing unit 113 may perform display with the line of sight of the character image 100 directed to the front of the screen or the blinking operation of the character image 100 or the movement of the mouth.
  • the dialogue processing unit 113 detects the interruption of the utterance based on the user's utterance. Then, the dialogue processing unit 113 performs a display with the motion of the character image 100 nodding at the interruption of the utterance, or a display with a motion of blinking eyes or blinking.
  • the dialogue processing unit 113 outputs display contents such as the transmission source user name, the transmission source user's face image 102, the mail text 103, the message text 103, and the like included in the received information (step S511).
  • the display contents can be output by voice or output to the display screen 16.
  • the dialog processing unit 113 After the display of the display content in step S511, the dialog processing unit 113 performs a dialog with the user so that the reply process corresponding to the reception of the communication application processing unit 115 is completed only by the conversation without the user's operation.
  • the dialogue processing unit 113 analyzes the captured image including the user's image, and determines the utterance period from the start to the end of the utterance by the user based on the analysis result of the captured image (step S512). That is, the dialogue processing unit 113 determines whether or not the utterance period has ended.
  • the dialogue processing unit 113 detects the movement of the user's mouth in the captured image, and determines the speech period while the mouth is moving.
  • the conversation processing unit 113 may determine that the speech period is during acquisition of a signal indicating that speech recognition is in progress. Even if the acquisition of a signal indicating that the user's mouth movement or voice recognition is in progress stops, the dialogue processing unit 113 determines that the speech period is within the captured image if the size of the face image in the captured image is equal to or greater than a predetermined threshold. It's okay.
  • the dialogue processing unit 113 detects the user's line-of-sight direction based on the captured image.
  • the speech period may be determined.
  • the dialogue processing unit 113 detects the orientation of the user's face based on the captured image.
  • the dialogue processing unit 113 determines that the face is facing the facing direction of the dialogue device 1 even if acquisition of a signal indicating that the user's mouth is moving or voice recognition is stopped, May be determined as an utterance period. Further, the dialogue processing unit 113 acquires a signal indicating whether or not the user's voice is being recognized from the voice recognition unit 114.
  • the dialogue processing unit 113 determines whether or not the user's face has disappeared from the captured image, and even if acquisition of a signal indicating that the user's mouth movement or voice recognition is in progress has stopped, the face has not disappeared from the captured image. May be determined as an utterance period.
  • the dialogue processing unit 113 may determine whether or not it is an utterance period by combining one or more of the above-described utterance period determination methods.
  • the conversation processing unit 113 instructs the voice recognition unit 114 to perform voice recognition while determining that it is the speech period (NO in S512).
  • the voice recognition unit 114 acquires (detects) sound through the microphone provided in the dialogue apparatus 1.
  • the voice recognition unit 114 analyzes the user's voice based on the detected sound (step S513).
  • the voice recognition unit 114 outputs the analyzed user voice to the dialogue processing unit 113.
  • the voice recognition unit 114 also outputs a signal indicating that voice recognition is being performed to the dialogue processing unit 113.
  • the dialogue processing unit 113 detects the end of the utterance period (YES in S512)
  • it instructs the voice recognition unit 114 to stop voice recognition.
  • the voice recognition unit 114 stops the voice recognition process.
  • the voice recognition unit 114 outputs the result of the voice recognition to the dialogue processing unit 113.
  • the voice recognition unit 114 outputs the character information that is a result of the voice recognition to the dialogue processing unit 113 as a processing result.
  • the dialogue processing unit 113 notifies the communication application processing unit 115 of the acquired character information. Then, the communication application processing unit 115 generates a mail or a message in which text information is written in the text, and generates the received information based on the transmission source identifier for the user of the transmission source or the user of the transmission destination that is predetermined as the transmission destination. Communication information such as an e-mail or a message may be transmitted (step S514).
  • the interactive device 1 performs control to move the user's position to a desired position so that the user's voice can be easily detected, and to prompt the interactive device 1 to pay attention to the user's line of sight and face orientation.
  • the dialogue apparatus 1 controls the user's dialogue target image so that the user pays attention to the screen. Thereby, the dialogue apparatus 1 can recognize the user's voice with higher accuracy.
  • the dialogue apparatus 1 not only specifies the utterance period only by mouth movements and voice interruptions, but also estimates whether or not it is a period during which the user is speaking by combining image processing. For this reason, the dialogue apparatus 1 can reduce the problem of stopping the voice recognition in the middle, and can accurately recognize the content uttered by the user.
  • the camera 18 is an aspect of a sensor device for sensing the position of the user.
  • the dialog start condition determination unit 112 determines that the dialog start condition is met when a user who appears in the image captured by the sensor device (camera 18) is detected. Thus, the dialog start condition determination unit 112 determines whether or not the dialog start condition is satisfied based on the result of sensing the user by the sensor device.
  • the sensor device may be an infrared sensor or an ultrasonic sensor.
  • reception information is acquired and a user who appears in a captured image is detected as one aspect of detection that the dialog start condition is met.
  • the dialog start condition determination unit 112 may determine that the dialog start condition is met when the user's utterance is detected or when the power of the dialog device 1 is activated.
  • the dialogue start condition determination unit 112 detects that the dialogue start condition is satisfied when a predetermined event is detected in the dialogue apparatus 1 or the sensor device.
  • FIG. 7 is a diagram showing a robot having the function of an interactive device.
  • the robot 500 may have the function of the above-described dialogue apparatus 1.
  • the robot 500 may be provided with the display screen 16 shown by the interactive apparatus 1 on the front surface.
  • the interactive device 1 provided in the robot 500 may control the robot 500 so that the robot 500 performs the motion of the character image 100 instead of displaying the character image 100.
  • the dialogue apparatus 1 may control mechanical eye movements, mouth movements, foot movements, and the like included in the robot 500.
  • FIG. 8 is a diagram showing the minimum configuration of the interactive apparatus.
  • the dialog device 1 includes at least a dialog start condition determining unit 112 that determines whether or not the dialog start condition is matched, and a position suitable for the user's voice acquisition when the dialog start condition is met. And a dialogue processing unit 113 that outputs movement promotion information that prompts the user to move.
  • the dialogue apparatus 1 described above has a computer system inside.
  • a program for causing the interactive device 1 to perform each of the above-described processes is stored in a computer-readable recording medium of the interactive device 1, and the computer of the interactive device 1 reads and executes the program.
  • the above processing is performed.
  • the computer-readable recording medium means a magnetic disk, a magneto-optical disk, a CD-ROM, a DVD-ROM, a semiconductor memory, or the like.
  • the computer program may be distributed to the computer via a communication line, and the computer that has received the distribution may execute the program.
  • the program may be a program for realizing a part of the functions of each processing unit described above. Furthermore, what can implement
  • an interactive device that is an ICT device can accurately detect a user's voice.
  • Dialogue device 100 ... Character image, 101 ... Auxiliary image, 11 ... CPU, 12 ... RAM, 13 ... ROM, 14 ... SSD, 15 ... Communication Module, 16 ... display screen, 17 ... IF, 18 ... camera, 111 ... control unit, 112 ... dialogue start condition determination unit, 113 ... dialogue processing unit, 114 ... Voice recognition unit, 115 ... communication application processing unit

Abstract

対話開始条件を満たしたか否かを判定する対話開始条件判定部と、前記対話開始条件を満たした場合にユーザの音声取得に適した位置まで当該ユーザの移動を促す移動促進情報を出力する対話処理部と、を備える対話装置。

Description

対話装置、処理方法、プログラム
 本発明は、対話装置、処理方法、プログラムに関する。
 ICT(Information and Communications Technology)機器の利用に不慣れな高齢者などをターゲットに機能やGUI(Graphical User Interface)を簡素化し、表示情報を大きいサイズで表示するタブレット端末などの携帯端末が存在する。このような装置ではキャラクタを用いた対話型のUI(User Interface)を用いてユーザビリティの改善やユーザに親しみを持たせる工夫がされている。キャラクタなどを用いて対話処理を行うためには端末などのICT機器はユーザの音声を精度良く検出する必要がある。なお関連する音声認識装置の技術が特許文献1に開示されている。
特開平7-64595号公報
 上述の特許文献1の技術は、話者が喋る音声を集音し、話者の位置を検出し、話者が音声入力に適した位置に居ると判定した場合に音声認識手段を動作させる技術である。このようなユーザの音声認識を行うICT機器においては、ユーザの音声を精度良く検出することのできる技術が求められている。
 そこでこの発明は、上述の課題を解決することのできる対話装置、処理方法、プログラムを提供することを目的としている。
 本発明の第1の態様によれば、対話装置は、対話開始条件を満たしたか否かを判定する対話開始条件判定部と、前記対話開始条件を満たした場合にユーザの音声取得に適した位置まで当該ユーザの移動を促す移動促進情報を出力する対話処理部と、を備える。
 本発明の第2の態様によれば、処理方法は、対話開始条件を満たしたかを判定し、前記対話開始条件を満たした場合にユーザの音声取得に適した位置まで当該ユーザの移動を促す移動促進情報を出力する。
 本発明の第3の態様によれば、プログラムは、コンピュータに、対話開始条件を満たしたかを判定し、前記対話開始条件を満たした場合にユーザの音声取得に適した位置まで当該ユーザの移動を促す移動促進情報を出力する、処理を実行させる。
 本発明によれば、ICT機器である対話装置が、ユーザの音声を精度良く検出することができる。
本実施形態による対話装置とその画像表示例を示す第一の図である。 本実施形態による対話装置のハードウェア構成図である。 本実施形態による対話装置の機能ブロック図である。 本実施形態による対話装置とその画像表示例を示す第二の図である。 本実施形態による対話装置の処理フローを示す図である。 本実施形態による対話装置とその画像表示例を示す第三の図である。 本実施形態による対話装置の機能を備えたロボットを示す図である。 本実施形態による対話装置の最小構成を示す図である。
 以下、本発明の一実施形態による対話装置を図面を参照して説明する。
 図1は対話装置とその画像表示例を示す第一の図である。
 この図で示すように対話装置1は表示画面16を有している。対話装置1は例えばタブレット端末である。タブレット端末はICT機器の一態様である。対話装置1は、表示画面16にキャラクタ画像100や補助画像101を表示し、高齢者などのICT機器に不慣れなユーザでも容易に操作できるように簡略化した操作ボタンを表示画面16の操作ボタン表示領域110に表示する。本実施形態においては3つの操作ボタンのアイコン画像のみを操作ボタン表示領域110に表示している例を示している。対話装置1はカメラ18を備える。
 図2は対話装置のハードウェア構成図である。
 対話装置1はCPU(Central Processing Unit)11,RAM(Random Access Memory)12、ROM(Read Only Memory)13、SSD(Solid State Drive)14、通信モジュール15、表示画面16、IF(インタフェース)17、カメラ18などを備えている。表示画面16は液晶モニタやタッチパネル等によって構成され、表示機能の他、ユーザがタッチパネルにタッチすることで操作を入力するための入力機能を有してよい。
 図3は対話装置の機能ブロック図である。
 対話装置1のCPU11(図2)は電源が投入されるとROM13(図2)やSSD14(図2)に記録されている対話処理プログラムを起動する。これにより、対話装置1のCPU11は、制御部111、対話開始条件判定部112、対話処理部113、音声認識部114の各機能を備える。また対話装置1のCPU11は、通信アプリケーションプログラムを起動することにより、通信アプリケーション処理部115の機能を備える。
 制御部111は他の機能部を制御する。
 対話開始条件判定部112は取得した情報等に基づいてユーザとの間の対話開始条件を満たしたか否かを判定する。以下、対話開始条件を満たしたか否かの判定を、対話開始条件に一致したか否かの判定と称する。また、対話開始条件を満たした場合を、対話開始条件に一致した場合と称する。
 対話処理部113はユーザが対話する対話対象の画像を表示画面16に表示し、対話対象にユーザが注目するよう当該対話対象の画像を制御する。対話処理部113は、ユーザが対話対象を注目していないと判定された場合にも対話対象にユーザが注目するよう当該対話対象の画像を制御する。対話処理部113は対話開始条件に一致した場合にユーザの音声取得に適した位置まで当該ユーザの移動を促す移動促進情報を出力する。移動促進情報は表示情報や音などであってよい。対話処理部113はその他の対話処理を行う。ユーザの音声取得に適した位置は、例えば、対話装置1がユーザの音声の内容を認識できる位置である。言い換えると、ユーザの音声取得に適した位置は、対話装置1がユーザの音声の内容を認識できる、対話装置1から所定の距離範囲内の位置である。なお、ユーザの音声取得に適した位置はユーザに応じて異なっていてもよい。
 音声認識部114は対話開始条件に一致した時刻から対話終了条件に一致した時刻までのユーザの会話を音声認識する。
 通信アプリケーション処理部115は、例えばメール機能、メッセージ処理機能、SNS(Social Networking Service)機能など所定のアプリケーション処理を行う。
 図4は対話装置とその画像表示例を示す第二の図である。
 図4で示すように対話装置1は電源が投入された後、キャラクタ画像100を表示し、また複数の操作ボタンを画面領域における所定の操作ボタン表示領域110に表示する。対話装置1は原則として操作ボタン表示領域110の位置を変更しない。これによりICT機器に不慣れなユーザに多くの操作の間で迷わせることなく、操作してもらうことを可能にする。対話装置1はキャラクタ画像100に動作を与えて、キャラクタ画像100が画面上で歩くような仕草や会話を行う仕草などの表示をするようにしてよい。また、対話装置1は、図1に示すようにキャラクタ画像100の感情などを表す補助画像101を表示するようにしてもよい。図1では補助画像101としてハートマークが表示されている。図4で示すキャラクタ画像100は左右に歩くような動きを示しており、キャラクタ画像100aとキャラクタ画像100bとの間でキャラクタが歩くような表示が行われる。
 図5は対話装置の処理フローを示す図である。
 次に対話装置1の処理フローを、順を追って説明する。
 対話装置1の対話処理部113は起動後にキャラクタ画像100や補助画像101や操作ボタンを表示する(ステップS501)。対話処理部113はキャラクタ画像100や補助画像101の種類(表示種類)や動きを制御する。例えば対話処理部113はキャラクタ画像100が示すキャラクタを画面上で動きまわらせる、キャラクタの首を振るなど、ユーザが興味を引くような画像を表示する。また対話処理部113は補助画像101の色を変化させたり、動かしたりしてもよい。キャラクタ画像100は対話対象の画像の一態様である。対話対象の画像の他の例としては、擬人化された画像や実際の人の画像であってもよい。
 対話開始条件判定部112は通信アプリケーション処理部115が通信情報を受信した場合に受信情報(第一取得情報)を取得するよう設定されている。通信アプリケーション処理部115は通信情報を受信すると、その通信情報に基づいて受信情報を対話開始条件判定部112へ出力する。
 通信アプリケーション処理部115がメール送受信に関するアプリケーション処理を行う機能部であるとする。この場合、受信情報には送信元アドレスや送信元ユーザ名などの送信元識別子、送信元ユーザの顔画像、メール本文、添付データなどの情報が含まれてよい。通信アプリケーション処理部115はそれらの情報を検出する。
 通信アプリケーション処理部115がSNSに関するアプリケーション処理やメッセージ送受信に関するアプリケーションを行う機能部である場合、受信情報には、送信元ユーザ名などの送信元識別子、送信元ユーザの顔画像、メッセージ本文、添付データなどの情報が含まれてよい。
 通信アプリケーション処理部115が通話に関するアプリケーション処理を行う機能部である場合、受信情報には、発信元ユーザ名、発呼指示などのなどの情報が含まれてよい。
 対話開始条件判定部112は受信情報を取得する(ステップS502)。受信情報の取得は対話装置1に備わるサービス機能(通信アプリケーション機能)がイベントを取得することの一態様である。また対話開始条件判定部112の受信情報の取得は、対話開始条件に一致したことを検出したことの一態様である。受信情報を取得すると対話開始条件判定部112は対話を開始すると判定し、カメラ18へ起動指示を出力する(ステップS503)。これによりカメラ18が起動し撮影を開始する。カメラ18は例えば動画撮影モードで起動される。なおカメラ18は予め起動しており、対話開始条件判定部112は、カメラ18による撮影画像に写るユーザを検出した場合に対話開始条件に一致したと判定してもよい。対話開始条件判定部112は対話開始条件に一致したと判定した場合には、対話処理部113へ対話の開始を指示する。
 対話処理部113は音声による呼びかけの声を出力する(ステップS504)。また対話処理部113はイベントを取得したことを通知するための情報を画面上に表示する(ステップS505)。このイベントを取得したことを通知するための情報は、キャラクタ画像100の動きや補助画像101の態様を示す情報であってよい。
 対話装置1は、例えば普段は棚や机に置かれた状態である。この状態で上記のように対話装置1が通信アプリケーション処理部115で通信情報を受信したことがステップS504、ステップS505の処理等によって通知される。通知された場合、対話装置1のユーザが対話装置1を把持して持ち上げて顔を表示画面16に近づけるか、対話装置1の傍に近づいて顔を表示画面16に近づけることが想定される。これによりカメラ18はユーザの顔を撮影する。カメラ18は撮影画像を対話開始条件判定部112や対話処理部113へ出力する。
 対話処理部113は撮影画像から顔画像を検出できるか否かを判定する(ステップS506)。対話処理部113は顔画像を検出した場合には、その顔画像を予めユーザの顔を撮影して得られた記憶している顔画像と比較し、一致するか否かの判定を顔認証の処理と同様に行う。対話処理部113は顔画像の認証が成功したか否かを判定する(ステップS507)。顔画像が予めユーザの顔を撮影して得られた顔画像に一致する場合には対話処理部113は認証成功と判定する(ステップS507のYES)。一方、認証成功と判定されない場合(ステップS507のNO)、対話処理部113はステップS505の処理に戻る。
 対話処理部113はまた撮影画像に写る顔画像の大きさを検出する。対話処理部113は顔画像の大きさが、所定の大きさを示す閾値以上であるか否かを判定する(ステップS508)。すなわち、対話処理部113は、センサ装置(カメラ18)による撮影画像に基づいて、ユーザが音声取得に適した位置に居るか否かを判定する。対話処理部113は顔画像の大きさを、例えば当該顔画像に対応する画素数が所定の画素数を示す閾値以上であるか否かに基づいて判定してもよい。対話処理部113は顔画像の大きさが閾値以上でない場合には(ステップS508のNO)、ユーザが音声取得に適した位置まで移動していないことにより、移動促進情報の出力を開始する。
 移動促進情報は例えば音声であってよい。具体的には顔画像の大きさが閾値以上でない場合には、対話処理部113は対話装置1とユーザとの距離が遠いため対話装置1に近づくようにユーザを促す音声を出力する(ステップS509)。対話処理部113は移動促進情報として、対話装置1とユーザとの距離が遠いため、対話装置1に近づくようにユーザを促す文字情報を表示画面16に出力してもよい。または対話処理部113は移動促進情報としてキャラクタ画像100の動作を制御してもよい。例えば対話処理部113はキャラクタ画像100の動作の制御として、キャラクタが手招きする動作、ユーザを探すような動作、寂しそうな表情を浮かべる動作、ユーザの声が聞こえないことをユーザに知らせる動作などの制御を行う。キャラクタ画像100の動作の制御は移動促進情報の出力の一態様である。キャラクタ画像100の制御とはキャラクタ画像100のアニメーションの態様の選択と表示などである。これによりユーザが対話装置1に近づくことが想定される。ユーザが対話装置1に近づくことで対話装置1がユーザの音声をより精度良く認識できるようになる。対話処理部113は撮影画像に出現するユーザの顔画像が所定の大きさを示す閾値以上になるまで移動促進情報を出力するようにしてよい。
 対話処理部113は顔画像の大きさが閾値以上であることにより(ステップS508のYES)ユーザまでの距離が適切であると判定した後、キャラクタ画像100にユーザが注目するよう、そのキャラクタ画像100の動きを制御する(ステップS510)。動きの制御は、具体的にはユーザが発話している最中のキャラクタの頷き動作、瞬き動作、ボディランゲージ動作などの制御である。このように、対話処理部113は、表示したキャラクタ画像100(対話対象の画像)にユーザの注目を促す、対話対象の画像の制御を行う。対話処理部113はユーザが注目するようにキャラクタ画像100以外の情報を制御してもよい。例えば対話処理部113は後述する処理によって解析した結果である文字情報を表示画面16に出力してよい。または対話処理部113はユーザに画面を注目するよう呼びかける音声をスピーカから出力するようにしてもよい。対話処理部113は音声の検出レベルを示すインジケータを出力してもよい。対話処理部113はランプを点灯制御したり、対話装置1の端末に備わるバイブレータを振動させるなどの処理を行ってもよい。
 なお、対話処理部113は、ユーザの画像を含む撮影画像を解析し、当該撮影画像の解析結果に基づいてユーザがキャラクタ画像100を注目しているか否かを判定してもよい。対話処理部113は、注目していないと判定した場合に、上述した、キャラクタ画像100にユーザの注目を促す制御を行う。例えば、対話処理部113は、撮影画像に基づいてユーザの視線方向や顔の向きを検出し、視線や顔がキャラクタ画像100に向いていない場合に、ユーザがキャラクタ画像100を注目していないと判定する。
 これらの処理は対話装置1がユーザの音声を認識しやすい環境となるよう制御する処理の一態様である。対話処理部113はユーザまでの距離が適切と判定すると対話を開始する。具体的に対話とは、受信情報が示すメール本文の読み上げなどである。
 図6は対話装置とその画像表示例を示す第三の図である。
 対話処理において対話処理部113はキャラクタ画像100の視線を画面正面に向けたり、キャラクタ画像100の目の瞬き動作や口を動かす動作を加えた表示を行うようにしてよい。例えば対話処理部113はユーザの発話に基づいて、発話の途切れを検出する。そして、対話処理部113は、その発話の途切れにおいてキャラクタ画像100がうなずく動作を加えた表示を行ったり、目を合わせたり瞬きを行う動作を加えた表示を行う。対話処理部113はこの対話処理において、受信情報に含まれる送信元ユーザ名、送信元ユーザの顔画像102、メール本文103、メッセージ本文103などの表示内容を出力する(ステップS511)。表示内容の出力の態様は音声での出力や表示画面16への出力などがある。
 対話処理部113はステップS511の表示内容の表示の後に、ユーザが操作することなく会話のみで通信アプリケーション処理部115の受信に対応する返信の処理が完了するよう、ユーザとの対話を行う。対話処理部113は、ユーザの画像を含む撮影画像を解析し、当該撮影画像の解析結果に基づいてユーザによる発話の開始から終了までの発話期間を判定する(ステップS512)。すなわち、対話処理部113は、発話期間が終了したか否かを判定する。
 具体的には対話処理部113は撮影画像内のユーザの口の動きを検出し、口が動いている間は発話期間と判定する。対話処理部113は音声認識中であることを示す信号を取得している間は発話期間と判定してよい。対話処理部113はユーザの口の動きや音声認識中であることを示す信号の取得が停止したとしても、撮影画像内の顔画像の大きさが所定の閾値以上であれば発話期間と判定してよい。また対話処理部113は、撮影画像に基づいてユーザの視線方向を検出する。対話処理部113はユーザの口の動きや音声認識中であることを示す信号の取得が停止したとしても、視線方向が正対している対話装置1の方向を向いていると判定した場合には発話期間と判定してよい。また対話処理部113は、撮影画像に基づいてユーザの顔の向きを検出する。対話処理部113はユーザの口の動きや音声認識中であることを示す信号の取得が停止したとしても、顔の向きが正対している対話装置1の方向を向いていると判定した場合には発話期間と判定してよい。また対話処理部113は音声認識部114からユーザの音声認識中かどうかの信号を取得する。対話処理部113はユーザの顔が撮影画像から消えたかどうかを判定し、ユーザの口の動きや音声認識中であることを示す信号の取得が停止したとしても、顔が撮影画像から消えていないと判定した場合には発話期間と判定してよい。対話処理部113は上記の発話期間の判定手法の1つまたは複数を組み合わせて発話期間かどうかを判定するようにしてよい。
 対話処理部113は発話期間と判定している間は(S512のNO)、音声認識部114へ音声認識を指示する。音声認識部114は対話装置1に備わるマイクを介して音を取得(検出)する。音声認識部114はこの検出音に基づいてユーザの音声を解析する(ステップS513)。音声認識部114は解析したユーザの音声を対話処理部113へ出力する。また音声認識部114は音声認識中であることを示す信号を対話処理部113へ出力する。対話処理部113は発話期間の終了を検出すると(S512のYES)音声認識部114へ音声認識の停止を指示する。すると音声認識部114は音声認識の処理を停止する。音声認識部114は音声認識した結果を対話処理部113へ出力する。音声認識部114は音声認識した結果である文字情報を処理結果として対話処理部113へ出力する。
 対話処理部113は取得した文字情報を通信アプリケーション処理部115へ通知する。すると通信アプリケーション処理部115は文字情報を本文に記載したメールやメッセージを生成し、送信元識別子に基づく受信情報の送信元のユーザに、または送信先として予め決められた送信先のユーザに、生成したメールやメッセージなどの通信情報を送信するようにしてもよい(ステップS514)。
 以上の処理により、対話装置1はユーザの音声が検出しやすいようにユーザの位置を所望の位置に移動させたり、ユーザの視線や顔の向きを対話装置1に注目するよう促す制御を行う。また対話装置1は、ユーザに画面を注目させるように、ユーザの対話対象の画像を制御する。これにより対話装置1はユーザの音声をより精度良く認識することができる。
 また、対話装置1は単に口の動きや音声の途切れによってのみ発話期間を特定するだけでなく、画像処理を組み合わせてユーザが発話している期間かどうかを推定する。このため、対話装置1は、途中で音声認識を停止させてしまう不具合を削減でき、ユーザの発話した内容を精度良く認識することができる。
 上述の例では、カメラ18はユーザの位置をセンシングするためのセンサ装置の一態様である。対話開始条件判定部112は、センサ装置(カメラ18)による撮影画像に写るユーザを検出した場合に対話開始条件に一致したと判定する。このように、対話開始条件判定部112は、センサ装置がユーザをセンシングした結果に基づいて対話開始条件を満たしたか否かを判定する。他のセンサ装置の態様としては、センサ装置は赤外線センサや超音波センサなどであってよい。
 なお上述の例では、対話開始条件に一致したことの検出の一態様として、受信情報を取得したことや、撮影画像に写るユーザを検出したことが説明される。ただし、他のアプリケーションが取得した情報に基づいて、対話開始条件に一致したことが判定されてもよい。例えば、対話開始条件判定部112はユーザの発話を検出した場合や、対話装置1の電源が起動された場合に、対話開始条件に一致したと判定してもよい。このように、対話開始条件判定部112は、対話装置1やセンサ装置において所定のイベントを検出した場合に、対話開始条件を満たしたことを検出する。
 図7は対話装置の機能を備えたロボットを示す図である。
 上述の対話装置1の機能をロボット500が備えていてもよい。この場合、例えばロボット500が対話装置1で示した表示画面16を前面に備えていてよい。またロボット500に備わる対話装置1は、キャラクタ画像100を表示する代わりに、キャラクタ画像100の動作をロボット500に行わせるようにロボット500を制御してもよい。この場合、対話装置1はロボット500に備わる機械的な目の動き、口の動き、足の動きなどを制御してよい。
 図8は対話装置の最小構成を示す図である。
 この図が示すように対話装置1は少なくとも、対話開始条件に一致したか否かを判定する対話開始条件判定部112と、対話開始条件に一致した場合にユーザの音声取得に適した位置まで当該ユーザの移動を促す移動促進情報を出力する対話処理部113と、を備える。
 上述の対話装置1は内部に、コンピュータシステムを有している。そして、対話装置1に上述した各処理を行わせるためのプログラムは、当該対話装置1のコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムを対話装置1のコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
 また、上記プログラムは、前述した各処理部の機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
 この出願は、2016年9月21日に日本出願された特願2016-183678号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明によれば、ICT機器である対話装置が、ユーザの音声を精度良く検出することができる。
 1・・・対話装置、100・・・キャラクタ画像、101・・・補助画像、11・・・CPU、12・・・RAM、13・・・ROM、14・・・SSD、15・・・通信モジュール、16・・・表示画面、17・・・IF、18・・・カメラ、111・・・制御部、112・・・対話開始条件判定部、113・・・対話処理部、114・・・音声認識部、115・・・通信アプリケーション処理部

Claims (9)

  1.  対話開始条件を満たしたか否かを判定する対話開始条件判定部と、
     前記対話開始条件を満たした場合にユーザの音声取得に適した位置まで当該ユーザの移動を促す移動促進情報を出力する対話処理部と、
     を備える対話装置。
  2.  前記対話処理部は、前記ユーザが対話する対話対象の画像を表示画面に表示し、前記対話対象の画像に前記ユーザの注目を促す前記対話対象の画像の制御を行う
     請求項1に記載の対話装置。
  3.  前記対話処理部は、前記ユーザの画像を含む撮影画像を解析し、当該撮影画像の解析結果に基づいて前記ユーザによる発話の開始から終了までの発話期間を判定する
     請求項1または請求項2に記載の対話装置。
  4.  前記発話期間における前記ユーザの前記発話を音声認識する音声認識部と、
     を備える請求項3に記載の対話装置。
  5.  前記対話処理部は、前記ユーザの画像を含む撮影画像を解析し、当該撮影画像の解析結果に基づいて前記ユーザが前記対話対象の画像を注目しているか否かを判定し、前記ユーザが前記対話対象の画像を注目していないと判定した場合に前記制御を行う
     請求項2に記載の対話装置。
  6.  前記対話開始条件判定部は、センサ装置が前記ユーザをセンシングした結果に基づいて前記対話開始条件を満たしたか否かを判定する
     請求項1から請求項5の何れか一項に記載の対話装置。
  7.  前記対話処理部は、センサ装置が前記ユーザをセンシングした結果に基づいて前記ユーザが前記音声取得に適した位置に居るか否かを判定する
     請求項1から請求項5の何れか一項に記載の対話装置。
  8.  対話開始条件を満たしたかを判定し、
     前記対話開始条件を満たした場合にユーザの音声取得に適した位置まで当該ユーザの移動を促す移動促進情報を出力する
     処理方法。
  9.  コンピュータに、
     対話開始条件を満たしたかを判定し、
     前記対話開始条件を満たした場合にユーザの音声取得に適した位置まで当該ユーザの移動を促す移動促進情報を出力する、
     処理を実行させるプログラム。
PCT/JP2017/033285 2016-09-21 2017-09-14 対話装置、処理方法、プログラム WO2018056169A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-183678 2016-09-21
JP2016183678 2016-09-21

Publications (1)

Publication Number Publication Date
WO2018056169A1 true WO2018056169A1 (ja) 2018-03-29

Family

ID=61690412

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/033285 WO2018056169A1 (ja) 2016-09-21 2017-09-14 対話装置、処理方法、プログラム

Country Status (1)

Country Link
WO (1) WO2018056169A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144539A (zh) * 2018-11-06 2020-05-12 本田技研工业株式会社 控制装置、智能体装置以及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007199552A (ja) * 2006-01-30 2007-08-09 Toyota Motor Corp 音声認識装置と音声認識方法
JP2010217754A (ja) * 2009-03-18 2010-09-30 Toshiba Corp 音声入力装置、音声認識システム及び音声認識方法
JP2011097531A (ja) * 2009-11-02 2011-05-12 Advanced Telecommunication Research Institute International 傾聴対話持続システム
JP2016071192A (ja) * 2014-09-30 2016-05-09 株式会社Nttドコモ 対話装置および対話方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007199552A (ja) * 2006-01-30 2007-08-09 Toyota Motor Corp 音声認識装置と音声認識方法
JP2010217754A (ja) * 2009-03-18 2010-09-30 Toshiba Corp 音声入力装置、音声認識システム及び音声認識方法
JP2011097531A (ja) * 2009-11-02 2011-05-12 Advanced Telecommunication Research Institute International 傾聴対話持続システム
JP2016071192A (ja) * 2014-09-30 2016-05-09 株式会社Nttドコモ 対話装置および対話方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144539A (zh) * 2018-11-06 2020-05-12 本田技研工业株式会社 控制装置、智能体装置以及计算机可读存储介质

Similar Documents

Publication Publication Date Title
JP6635049B2 (ja) 情報処理装置、情報処理方法およびプログラム
EP3143477B1 (en) System and method for providing haptic feedback to assist in capturing images
JP5779641B2 (ja) 情報処理装置、方法およびプログラム
TWI490778B (zh) 來自使用者的音頻輸入
WO2019216419A1 (ja) プログラム、記録媒体、拡張現実感提示装置及び拡張現実感提示方法
KR20150112337A (ko) 디스플레이 장치 및 그 사용자 인터랙션 방법
JP6551507B2 (ja) ロボット制御装置、ロボット、ロボット制御方法およびプログラム
WO2017130486A1 (ja) 情報処理装置、情報処理方法およびプログラム
KR102463806B1 (ko) 이동이 가능한 전자 장치 및 그 동작 방법
US20140194102A1 (en) Intelligent muting of a mobile device
JP6729555B2 (ja) 情報処理システムおよび情報処理方法
JP2009166184A (ja) ガイドロボット
WO2016157993A1 (ja) 情報処理装置、情報処理方法およびプログラム
WO2018056169A1 (ja) 対話装置、処理方法、プログラム
JP2017204231A (ja) 情報処理装置、情報処理方法、および情報処理プログラム
WO2016136044A1 (ja) 情報処理システムおよび情報処理方法
JP6950708B2 (ja) 情報処理装置、情報処理方法、および情報処理システム
JP2020182092A (ja) 警備システム及び監視表示装置
JP2011033837A (ja) 対話支援装置、対話支援方法およびプログラム
KR20170029390A (ko) 음성 명령 모드 진입 방법
WO2018047932A1 (ja) 対話装置、ロボット、処理方法、プログラム
JP2016180778A (ja) 情報処理システムおよび情報処理方法
WO2018061871A1 (ja) 端末装置、情報処理システム、処理方法、プログラム
JP2022148263A (ja) ロボット、コミュニケーションシステム、コミュニケーション方法及びプログラム
JP2017016484A (ja) コミュニケーションシステム、記録装置、端末装置、プログラムおよび情報処理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17852946

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17852946

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP