JPWO2020095633A1 - Dialogue device and dialogue program - Google Patents

Dialogue device and dialogue program Download PDF

Info

Publication number
JPWO2020095633A1
JPWO2020095633A1 JP2020556715A JP2020556715A JPWO2020095633A1 JP WO2020095633 A1 JPWO2020095633 A1 JP WO2020095633A1 JP 2020556715 A JP2020556715 A JP 2020556715A JP 2020556715 A JP2020556715 A JP 2020556715A JP WO2020095633 A1 JPWO2020095633 A1 JP WO2020095633A1
Authority
JP
Japan
Prior art keywords
user
phrase
unit
information
dialogue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020556715A
Other languages
Japanese (ja)
Other versions
JP7429193B2 (en
Inventor
祐貴 田中
祐貴 田中
吉川 貴
貴 吉川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of JPWO2020095633A1 publication Critical patent/JPWO2020095633A1/en
Application granted granted Critical
Publication of JP7429193B2 publication Critical patent/JP7429193B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q9/00Arrangements in telecontrol or telemetry systems for selectively calling a substation from a main station, in which substation desired apparatus is selected for applying a control signal thereto or for obtaining measured values therefrom

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

対話装置は、ユーザの所在位置を示す位置情報を取得する位置取得部と、各デバイスと所在位置とを関連付けている設定情報を参照して、ユーザの位置情報に関連付けられたデバイスを抽出するデバイス抽出部と、各デバイスと当該デバイスの制御指示を表す指示フレーズとを関連付けている語彙情報を参照して、抽出されたデバイスに関連付けられている指示フレーズを抽出するフレーズ抽出部と、指示フレーズに基づいて、デバイスを制御するための発話文を生成する生成部と、生成された発話文をユーザに対して提示する提示部と、を備える。The dialogue device is a device that extracts a device associated with the user's position information by referring to a position acquisition unit that acquires the position information indicating the user's location information and setting information that associates each device with the location information. The phrase extraction unit that extracts the instruction phrase associated with the extracted device by referring to the vocabulary information that associates the extraction unit with the instruction phrase that represents the control instruction of each device and the instruction phrase, and the instruction phrase. Based on this, it includes a generation unit that generates an utterance sentence for controlling the device, and a presentation unit that presents the generated utterance sentence to the user.

Description

本発明は、対話装置及び対話プログラムに関する。 The present invention relates to a dialogue device and a dialogue program.

家電機器を含むいわゆるIoT(Internet of Things)デバイス等のデバイスを、発話により操作及び制御する技術が知られている。このような技術では、ユーザによる発話の音声認識及び形態素解析等により指示の内容が判断され、制御情報が出力される。特許文献1には、家電機器を管理するサーバが、各家電機器に対応する操作画面を端末装置に提供する技術が記載されている。 There is known a technique for operating and controlling devices such as so-called IoT (Internet of Things) devices including home appliances by utterance. In such a technique, the content of the instruction is determined by voice recognition of the utterance by the user, morphological analysis, and the like, and control information is output. Patent Document 1 describes a technique in which a server that manages home appliances provides a terminal device with an operation screen corresponding to each home appliance.

特開2002−186057号公報Japanese Unexamined Patent Publication No. 2002-186057

ユーザの発話によりデバイスの制御を実施するシステムにおいて、制御対象の機器に関する情報及び発話内容に関する選択肢等が示されない状況では、ユーザがどのような発話をすべきかを認識するのは困難である。デバイスを制御するための発話内容として予め記憶されたシナリオに基づいて、ユーザに発話内容を案内する技術が存在するが、そのような技術であっても、予め記憶されたシナリオに基づいて案内するので、制御対象のデバイスの変更及びユーザの状況の変化等に応じて柔軟且つ動的に発話内容を提示することはできない。 In a system that controls a device by a user's utterance, it is difficult for the user to recognize what kind of utterance should be made in a situation where information about a device to be controlled and options regarding the utterance content are not shown. There is a technique for guiding the utterance content to the user based on a scenario stored in advance as the utterance content for controlling the device, but even in such a technique, the utterance content is guided based on the pre-stored scenario. Therefore, it is not possible to flexibly and dynamically present the utterance content in response to a change in the device to be controlled, a change in the user's situation, or the like.

特許文献1に記載された技術では、家電機器を操作するための操作画面が示されるにすぎず、ユーザの発話を支援するものではない。また、この操作画面は、予め記憶されたものであるので、状況に応じて表示内容を動的に変更させることはできない。 The technique described in Patent Document 1 merely shows an operation screen for operating a home electric appliance, and does not support the user's utterance. Further, since this operation screen is stored in advance, the display content cannot be dynamically changed according to the situation.

そこで、本発明は、上記問題点に鑑みてなされたものであり、ユーザの発話によりデバイスを制御する技術において、制御対象のデバイスの種類及びユーザの状況に応じて、好適な発話内容を案内することにより、利便性の向上を図ることを目的とする。 Therefore, the present invention has been made in view of the above problems, and in the technique of controlling a device by a user's utterance, a suitable utterance content is guided according to the type of the device to be controlled and the situation of the user. By doing so, the purpose is to improve convenience.

上記課題を解決するために、本発明の一形態に係る対話装置は、デバイスを制御する制御情報を生成するための、音声またはテキストからなるユーザ発話を受け付ける対話装置であって、ユーザの所在位置を示す位置情報を取得する位置取得部と、各デバイスと所在位置とを関連付けている設定情報を参照して、位置取得部により取得された位置情報に関連付けられたデバイスを抽出するデバイス抽出部と、各デバイスと、当該デバイスの制御指示を表し少なくとも一以上の語句または文を含む指示フレーズとを関連付けている語彙情報を参照して、デバイス抽出部により抽出されたデバイスに関連付けられている一以上の指示フレーズを抽出するフレーズ抽出部と、フレーズ抽出部により抽出された指示フレーズに基づいて、デバイスを制御するための発話文を生成する生成部と、生成部により生成された発話文をユーザに対して提示する提示部と、を備える。 In order to solve the above problems, the dialogue device according to one embodiment of the present invention is a dialogue device that accepts user utterances composed of voice or text for generating control information for controlling the device, and is a user's location position. The position acquisition unit that acquires the position information indicating that, and the device extraction unit that extracts the device associated with the position information acquired by the position acquisition unit by referring to the setting information that associates each device with the location position. , One or more associated with the device extracted by the device extractor, with reference to the vocabulary information associated with each device and the instruction phrase representing the control instruction of the device and containing at least one phrase or sentence. The phrase extraction unit that extracts the instruction phrase of, the generation unit that generates the utterance sentence for controlling the device based on the instruction phrase extracted by the phrase extraction unit, and the utterance sentence generated by the generation unit to the user. It is provided with a presentation unit for presenting to the subject.

上記課題を解決するために、本発明の一形態に係る対話プログラムは、コンピュータを、デバイスを制御する制御情報を生成するための、音声またはテキストからなるユーザ発話を受け付ける対話装置として機能させるための対話プログラムであって、コンピュータに、ユーザの所在位置を示す位置情報を取得する位置取得機能と、各デバイスと所在位置とを関連付けている設定情報を参照して、位置取得機能により取得された位置情報に関連付けられたデバイスを抽出するデバイス抽出機能と、各デバイスと、当該デバイスの制御指示を表し少なくとも一以上の語句または文を含む指示フレーズとを関連付けている語彙情報を参照して、デバイス抽出機能により抽出されたデバイスに関連付けられている一以上の指示フレーズを抽出するフレーズ抽出機能と、フレーズ抽出機能により抽出された指示フレーズに基づいて、デバイスを制御するための発話文を生成する生成機能と、生成機能により生成された発話文をユーザに対して提示する提示機能と、を実現させる。 In order to solve the above problems, the dialogue program according to one embodiment of the present invention causes the computer to function as a dialogue device for receiving user utterances consisting of voice or text for generating control information for controlling a device. It is an interactive program, and the position acquired by the position acquisition function by referring to the position acquisition function that acquires the position information indicating the user's location position on the computer and the setting information that associates each device with the location position. Device extraction by referring to the device extraction function that extracts the devices associated with the information and the vocabulary information that associates each device with an instruction phrase that represents the control instruction of the device and contains at least one phrase or sentence. A phrase extraction function that extracts one or more instruction phrases associated with the device extracted by the function, and a generation function that generates an utterance sentence for controlling the device based on the instruction phrase extracted by the phrase extraction function. And a presentation function that presents the utterance sentence generated by the generation function to the user.

上記の形態によれば、ユーザの所在位置を示す位置情報に関連付けられているデバイスが抽出され、抽出されたデバイスの制御指示を表す指示フレーズに基づいて、発話文が生成されるので、ユーザが現在の所在位置において制御操作を実施しようとしている可能性が高いデバイスを適切に制御可能な発話文をユーザに提示できる。ユーザは、提示された発話文を発話することにより、所望のデバイスの制御を実施できる可能性が高いので、利便性の向上が図られる。 According to the above form, the device associated with the position information indicating the user's location is extracted, and the utterance sentence is generated based on the instruction phrase representing the control instruction of the extracted device, so that the user can use the device. It is possible to present to the user an utterance sentence that can appropriately control a device that is likely to perform a control operation at the current location. Since it is highly possible that the user can control the desired device by speaking the presented utterance sentence, the convenience is improved.

ユーザの発話によりデバイスを制御する技術において、制御対象のデバイスの種類及びユーザの状況に応じて、好適な発話内容を案内することにより、利便性の向上を図ることが可能となる。 In the technique of controlling a device by a user's utterance, it is possible to improve convenience by guiding suitable utterance contents according to the type of the device to be controlled and the situation of the user.

本実施形態に係る対話装置を含む対話システムの装置構成を示す図である。It is a figure which shows the apparatus configuration of the dialogue system including the dialogue apparatus which concerns on this embodiment. 本実施形態に係る対話装置の機能的構成を示す機能ブロック図である。It is a functional block diagram which shows the functional structure of the dialogue apparatus which concerns on this embodiment. 対話装置のハードブロック図である。It is a hard block diagram of a dialogue device. 設定情報記憶部の構成及び記憶されているデータの例を示す図である。It is a figure which shows the structure of the setting information storage part, and the example of the stored data. 図5(a)及び図5(b)は、デバイスごとの利用ログの例を示す図である。5 (a) and 5 (b) are diagrams showing an example of usage logs for each device. 語彙情報記憶部の構成及び記憶されているデータの例を示す図である。It is a figure which shows the structure of the vocabulary information storage part, and the example of the stored data. 発話文が表示されたユーザの端末の画面例を示す図である。It is a figure which shows the screen example of the terminal of the user which displayed the utterance sentence. 本実施形態の対話方法の処理内容を示すフローチャートである。It is a flowchart which shows the processing content of the dialogue method of this embodiment. 本実施形態の対話方法の処理内容を示すフローチャートである。It is a flowchart which shows the processing content of the dialogue method of this embodiment. 対話プログラムの構成を示す図である。It is a figure which shows the structure of a dialogue program.

本発明に係る対話装置及び対話プログラムの実施形態について図面を参照して説明する。なお、可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。 An embodiment of a dialogue device and a dialogue program according to the present invention will be described with reference to the drawings. If possible, the same parts will be designated by the same reference numerals, and duplicate description will be omitted.

図1は、本実施形態に係る対話システムの装置構成を示す図である。対話システム1は、対話装置10、外部システム30及び端末50を含む。対話装置10と端末50とは、互いに通信可能である。また、対話装置10と外部システムとは互いに通信可能である。 FIG. 1 is a diagram showing a device configuration of a dialogue system according to the present embodiment. The dialogue system 1 includes a dialogue device 10, an external system 30, and a terminal 50. The dialogue device 10 and the terminal 50 can communicate with each other. Further, the dialogue device 10 and the external system can communicate with each other.

対話装置10は、デバイスを制御する制御情報を生成するための、音声またはテキストからなるユーザ発話を受け付ける装置である。また、対話装置10は、外部システム30が管理するデバイスを操作するために、制御情報を外部システム30に送信してもよい。対話装置10は、例えば、サーバ等のコンピュータにより構成されるが、対話装置10を構成する装置は限定されない。 The dialogue device 10 is a device that accepts user utterances composed of voice or text for generating control information for controlling the device. Further, the dialogue device 10 may transmit control information to the external system 30 in order to operate a device managed by the external system 30. The dialogue device 10 is composed of, for example, a computer such as a server, but the devices constituting the dialogue device 10 are not limited.

外部システム30は、家電機器等を含むいわゆるIoT(Internet of Things)デバイス等のデバイスを管理するデバイス管理システムを構成する。外部システム30は、複数のデバイスとそれぞれの通信規格に従った通信をすることが可能である。 The external system 30 constitutes a device management system that manages devices such as so-called IoT (Internet of Things) devices including home appliances and the like. The external system 30 can communicate with a plurality of devices according to their respective communication standards.

外部システム30は、各デバイスを制御するためのインターフェースを構成しうる設定情報をデバイス毎に有しており、設定情報の利用及び参照により、対話装置10から受信した制御情報に基づいて、管理下にあるデバイスのいずれかを制御できる。 The external system 30 has setting information for each device that can configure an interface for controlling each device, and is managed based on the control information received from the dialogue device 10 by using and referring to the setting information. You can control any of the devices in.

設定情報記憶部31は、制御対象のデバイスの設定情報を記憶している記憶手段である。設定情報は、デバイスの制御のために利用及び参照される情報である。設定情報の詳細については後述する。なお、図1に示す例では、設定情報記憶部31は、外部システム30内に構成されているが、このような構成には限定されず、外部システム30からアクセス可能であれば、外部システム30外に構成されてもよい。 The setting information storage unit 31 is a storage means for storing the setting information of the device to be controlled. The setting information is information used and referred to for controlling the device. Details of the setting information will be described later. In the example shown in FIG. 1, the setting information storage unit 31 is configured in the external system 30, but is not limited to such a configuration, and if it can be accessed from the external system 30, the external system 30 It may be configured outside.

端末50は、発話によるデバイスの制御において、ユーザとのインターフェースを構成する装置であって、例えば、据置型又は携帯型のパーソナルコンピュータ、高機能携帯電話機(スマートフォン)等により構成されるが、端末50を構成する装置は限定されず、例えば携帯電話機、携帯情報端末(PDA)などの携帯端末でもよい。 The terminal 50 is a device that constitutes an interface with a user in controlling a device by speaking, and is composed of, for example, a stationary or portable personal computer, a high-performance mobile phone (smartphone), or the like. The device constituting the device is not limited, and may be a mobile terminal such as a mobile phone or a personal digital assistant (PDA).

端末50は、ユーザに発せられた音声のデータをユーザ発話として対話装置に送信できる。また、端末50は、ユーザの音声を音声認識処理によりテキスト化したデータをユーザ発話として対話装置10に送信してもよい。 The terminal 50 can transmit the voice data uttered to the user to the dialogue device as the user utterance. Further, the terminal 50 may transmit the data obtained by converting the user's voice into text by voice recognition processing to the dialogue device 10 as a user's utterance.

また、端末50は、後述されるように、対話装置10から送信された発話文をユーザに対して提示できる。具体的には、端末50は、発話文を示すテキストをディスプレイに表示することにより、発話文をユーザに提示する。また、端末50は、発話文を示すテキストが関連付けられ指示操作が可能な操作オブジェクトをディスプレイに表示してもよい。操作オブジェクトは、ユーザによる操作が可能なボタンの態様で表示されてもよい。表示された操作オブジェクトに対する操作が受け付けられた場合には、端末50は、操作オブジェクトが操作された旨の情報、操作オブジェクトに関連付けられた発話文のテキストデータまたは音声データを、ユーザ発話として対話装置10に送信してもよい。 Further, the terminal 50 can present the utterance sentence transmitted from the dialogue device 10 to the user, as will be described later. Specifically, the terminal 50 presents the utterance sentence to the user by displaying the text indicating the utterance sentence on the display. Further, the terminal 50 may display an operation object on the display, which is associated with a text indicating an utterance sentence and can be instructed. The operation object may be displayed in the form of a button that can be operated by the user. When the operation for the displayed operation object is accepted, the terminal 50 uses the information indicating that the operation object has been operated, the text data or the voice data of the utterance text associated with the operation object as the user's utterance, and the dialogue device. It may be transmitted to 10.

図2は、本実施形態に係る対話装置10の機能的構成を示す図である。図2に示すように、対話装置10は、位置取得部11、時刻取得部12、設定情報取得部13、デバイス抽出部14、フレーズ抽出部15、生成部16、提示部17、発話受付部18及び制御指示送信部19を含む。また、対話装置10は、語彙情報記憶部20を含む。対話装置10に含まれる各機能部は、複数の装置に分散されて構成されても良いし、例えば、一部の機能部が端末50に構成されてもよい。 FIG. 2 is a diagram showing a functional configuration of the dialogue device 10 according to the present embodiment. As shown in FIG. 2, the dialogue device 10 includes a position acquisition unit 11, a time acquisition unit 12, a setting information acquisition unit 13, a device extraction unit 14, a phrase extraction unit 15, a generation unit 16, a presentation unit 17, and an utterance reception unit 18. And the control instruction transmitting unit 19. Further, the dialogue device 10 includes a vocabulary information storage unit 20. Each functional unit included in the dialogue device 10 may be distributed and configured in a plurality of devices, or for example, some functional units may be configured in the terminal 50.

なお、図2に示したブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び/又は論理的に結合した1つの装置により実現されてもよいし、物理的及び/又は論理的に分離した2つ以上の装置を直接的及び/又は間接的に(例えば、有線及び/又は無線)で接続し、これら複数の装置により実現されてもよい。 The block diagram shown in FIG. 2 shows a block for each function. These functional blocks (components) are realized by any combination of hardware and / or software. Further, the means for realizing each functional block is not particularly limited. That is, each functional block may be realized by one physically and / or logically coupled device, or directly and / or indirectly by two or more physically and / or logically separated devices. (For example, wired and / or wireless) may be connected and realized by these a plurality of devices.

機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知(broadcasting)、通知(notifying)、通信(communicating)、転送(forwarding)、構成(configuring)、再構成(reconfiguring)、割り当て(allocating、mapping)、割り振り(assigning)などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック(構成部)は、送信部(transmitting unit)や送信機(transmitter)と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。 Functions include judgment, decision, judgment, calculation, calculation, processing, derivation, investigation, search, confirmation, reception, transmission, output, access, solution, selection, selection, establishment, comparison, assumption, expectation, and assumption. Broadcasting, notifying, communicating, forwarding, configuring, reconfiguring, allocating, mapping, assigning, etc., but limited to these I can't. For example, a functional block (component) that functions transmission is called a transmitting unit or a transmitter. As described above, the method of realizing each of them is not particularly limited.

例えば、本発明の一実施の形態における対話装置10は、コンピュータとして機能してもよい。図3は、本実施形態に係る対話装置10のハードウェア構成の一例を示す図である。対話装置10は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。 For example, the dialogue device 10 in one embodiment of the present invention may function as a computer. FIG. 3 is a diagram showing an example of the hardware configuration of the dialogue device 10 according to the present embodiment. The dialogue device 10 may be physically configured as a computer device including a processor 1001, a memory 1002, a storage 1003, a communication device 1004, an input device 1005, an output device 1006, a bus 1007, and the like.

なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。対話装置10のハードウェア構成は、図3に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。 In the following description, the word "device" can be read as a circuit, a device, a unit, or the like. The hardware configuration of the dialogue device 10 may be configured to include one or more of the devices shown in FIG. 3, or may be configured not to include some of the devices.

対話装置10における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることで、プロセッサ1001が演算を行い、通信装置1004による通信や、メモリ1002及びストレージ1003におけるデータの読み出し及び/又は書き込みを制御することで実現される。 Each function in the dialogue device 10 is performed by loading predetermined software (program) on hardware such as the processor 1001 and the memory 1002, so that the processor 1001 performs an calculation, and communication by the communication device 1004, memory 1002, and storage 1003 are performed. It is realized by controlling the reading and / or writing of the data in.

プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)で構成されてもよい。また、プロセッサ1001は、GPU(Graphics Processing Unit)を含んで構成されてもよい。例えば、図2に示した各機能部11〜19などは、プロセッサ1001で実現されてもよい。 Processor 1001 operates, for example, an operating system to control the entire computer. The processor 1001 may be composed of a central processing unit (CPU) including an interface with a peripheral device, a control device, an arithmetic unit, a register, and the like. Further, the processor 1001 may be configured to include a GPU (Graphics Processing Unit). For example, each of the functional units 11 to 19 shown in FIG. 2 may be realized by the processor 1001.

また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュールやデータを、ストレージ1003及び/又は通信装置1004からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、対話装置10の各機能部11〜19は、メモリ1002に格納され、プロセッサ1001で動作する制御プログラムによって実現されてもよい。上述の各種処理は、1つのプロセッサ1001で実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。 Further, the processor 1001 reads a program (program code), a software module, and data from the storage 1003 and / or the communication device 1004 into the memory 1002, and executes various processes according to these. As the program, a program that causes a computer to execute at least a part of the operations described in the above-described embodiment is used. For example, each functional unit 11 to 19 of the dialogue device 10 may be realized by a control program stored in the memory 1002 and operated by the processor 1001. Although it has been described that the various processes described above are executed by one processor 1001, they may be executed simultaneously or sequentially by two or more processors 1001. Processor 1001 may be mounted on one or more chips. The program may be transmitted from the network via a telecommunication line.

メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つで構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本発明の一実施の形態に係る対話方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。 The memory 1002 is a computer-readable recording medium, and is composed of at least one such as a ROM (Read Only Memory), an EPROM (Erasable Programmable ROM), an EEPROM (Electrically Erasable Programmable ROM), and a RAM (Random Access Memory). May be done. The memory 1002 may be referred to as a register, a cache, a main memory (main storage device), or the like. The memory 1002 can store a program (program code), a software module, or the like that can be executed to carry out the dialogue method according to the embodiment of the present invention.

ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD−ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu−ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つで構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及び/又はストレージ1003を含むデータベース、サーバその他の適切な媒体であってもよい。 The storage 1003 is a computer-readable recording medium, for example, an optical disk such as a CD-ROM (Compact Disc ROM), a hard disk drive, a flexible disk, an optical magnetic disk (for example, a compact disk, a digital versatile disk, a Blu-ray). It may consist of at least one (registered trademark) disk), smart card, flash memory (eg, card, stick, key drive), floppy (registered trademark) disk, magnetic strip, and the like. The storage 1003 may be referred to as an auxiliary storage device. The storage medium described above may be, for example, a database, server or other suitable medium containing memory 1002 and / or storage 1003.

通信装置1004は、有線及び/又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。 The communication device 1004 is hardware (transmission / reception device) for performing communication between computers via a wired and / or wireless network, and is also referred to as, for example, a network device, a network controller, a network card, a communication module, or the like.

入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。 The input device 1005 is an input device (for example, a keyboard, a mouse, a microphone, a switch, a button, a sensor, etc.) that receives an input from the outside. The output device 1006 is an output device (for example, a display, a speaker, an LED lamp, etc.) that outputs to the outside. The input device 1005 and the output device 1006 may have an integrated configuration (for example, a touch panel).

また、プロセッサ1001やメモリ1002などの各装置は、情報を通信するためのバス1007で接続される。バス1007は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。 Further, each device such as the processor 1001 and the memory 1002 is connected by a bus 1007 for communicating information. Bus 1007 may be composed of a single bus, or may be composed of different buses between devices.

また、対話装置10は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つで実装されてもよい。 Further, the dialogue device 10 includes hardware such as a microprocessor, a digital signal processor (DSP: Digital Signal Processor), an ASIC (Application Specific Integrated Circuit), a PLD (Programmable Logic Device), and an FPGA (Field Programmable Gate Array). It may be configured, and the hardware may realize a part or all of each functional block. For example, processor 1001 may be implemented on at least one of these hardware.

再び図2を参照して、対話装置10の各機能部について説明する。位置取得部11は、ユーザの所在位置を示す位置情報を取得する。具体的には、位置取得部11は、例えば、ユーザの端末50が備えるGPS装置(図示せず)等により取得された位置情報を取得する。位置取得部11は、本実施形態の対話システム1が適用される空間に設けられた人感センサ(図示せず)により検出された検出情報に基づいて、位置情報を取得してもよい。また、端末50が移動無線通信端末である場合には、位置取得部11は、端末50の在圏情報を位置情報として取得してもよい。位置取得部11は、その他の周知の手法によりユーザの位置情報を取得してもよい。 Each functional unit of the dialogue device 10 will be described with reference to FIG. 2 again. The position acquisition unit 11 acquires position information indicating the location of the user. Specifically, the position acquisition unit 11 acquires position information acquired by, for example, a GPS device (not shown) included in the user's terminal 50. The position acquisition unit 11 may acquire the position information based on the detection information detected by the motion sensor (not shown) provided in the space to which the dialogue system 1 of the present embodiment is applied. Further, when the terminal 50 is a mobile wireless communication terminal, the position acquisition unit 11 may acquire the service area information of the terminal 50 as the position information. The position acquisition unit 11 may acquire the user's position information by another well-known method.

時刻取得部12は、現在時刻を示す情報を取得する。 The time acquisition unit 12 acquires information indicating the current time.

設定情報取得部13は、設定情報を取得する。具体的には、設定情報取得部13は、外部システム30の設定情報記憶部31から設定情報を取得する。設定情報は、各デバイスの属性を含みデバイスの制御のために参照される。 The setting information acquisition unit 13 acquires the setting information. Specifically, the setting information acquisition unit 13 acquires setting information from the setting information storage unit 31 of the external system 30. The setting information includes the attributes of each device and is referred to for device control.

図4は、設定情報記憶部31の構成及び記憶されているデータの例を示す情報である。図4に示すように、設定情報記憶部31は、デバイスを識別するデバイスIDに関連付けて、各種の属性を設定情報として記憶している。図4に示す例では、設定情報記憶部31は、デバイスIDごとに、当該デバイスのカテゴリを示すデバイス、ニックネーム、グループ、デバイス状態及び利用ログ等の設定情報を記憶している。例えば、設定情報記憶部31は、デバイスID「1」に関連付けて、デバイス「TV」、ニックネーム「お父さんのTV」、グループ「リビング」、デバイス状態「OFF」及び利用ログ「L1」等の設定情報を記憶している。 FIG. 4 is information showing an example of the configuration of the setting information storage unit 31 and the stored data. As shown in FIG. 4, the setting information storage unit 31 stores various attributes as setting information in association with the device ID that identifies the device. In the example shown in FIG. 4, the setting information storage unit 31 stores setting information such as a device, a nickname, a group, a device status, and a usage log indicating the category of the device for each device ID. For example, the setting information storage unit 31 associates with the device ID "1" with setting information such as the device "TV", the nickname "Dad's TV", the group "living room", the device status "OFF", and the usage log "L1". I remember.

設定情報は、少なくとも「グループ」の情報を含む。「グループ」は、当該デバイスが設けられた所在位置を示す情報であることができる。また、「グループ」は、複数のデバイスをグルーピングするためのその他の情報であってもよい。 The setting information includes at least "group" information. The "group" can be information indicating the location where the device is provided. Further, the "group" may be other information for grouping a plurality of devices.

また、設定情報は、時間帯または時刻ごとのデバイスの制御履歴に関する情報である利用ログ(履歴情報)を含んでもよい。即ち、設定情報取得部13は、履歴情報としての利用ログを取得する履歴情報取得部を構成することができる。 Further, the setting information may include a usage log (history information) which is information related to the control history of the device for each time zone or time. That is, the setting information acquisition unit 13 can configure a history information acquisition unit that acquires a usage log as history information.

図5は、利用ログの例を示す図である。図5(a)は、デバイスID「1」の利用ログL1を模式的に示す図である。図5(b)は、デバイスID「2」の利用ログL2を模式的に示す図である。図5(a)及び図5(b)に示されるように、利用ログは、制御が実施された時刻、当該デバイスの制御を実施したユーザ及び制御内容を、デバイスの制御履歴として含む。 FIG. 5 is a diagram showing an example of a usage log. FIG. 5A is a diagram schematically showing the usage log L1 of the device ID “1”. FIG. 5B is a diagram schematically showing the usage log L2 of the device ID “2”. As shown in FIGS. 5A and 5B, the usage log includes the time when the control is executed, the user who controlled the device, and the control contents as the control history of the device.

例えば、図5(a)に示されるように、デバイスID「1」のデバイス「テレビ」は、時刻「t1」において、ユーザID「U1」により示されるユーザ「父」により、制御内容「ON」を実施されている。また、例えば、図5(b)に示されるように、デバイスID「2」のデバイス「ライト」は、時刻「t12」において、ユーザID「U2」により示されるユーザ「母」により、制御内容「OFF」を実施されている。 For example, as shown in FIG. 5A, the device "television" with the device ID "1" is controlled by the user "father" indicated by the user ID "U1" at the time "t1". Has been implemented. Further, for example, as shown in FIG. 5B, the device "light" of the device ID "2" is controlled by the user "mother" indicated by the user ID "U2" at the time "t12". "OFF" is being implemented.

再び図4を参照して、設定情報は、さらに、ニックネーム及びデバイス情報を設定情報として含んでもよい。ニックネームは、発話文において、当該デバイスを指し示すための名称である。一のデバイスに対して、複数のユーザがそれぞれのニックネームを設定することが可能である。ニックネームの設定では、ユーザからみて、各デバイスがそれぞれにユニークに識別されればよい。デバイス状態は、当該デバイスの動作状態を示す情報であって、リアルタイムに更新される情報である。 With reference to FIG. 4 again, the setting information may further include a nickname and device information as the setting information. The nickname is a name for pointing to the device in the utterance. It is possible for multiple users to set their respective nicknames for one device. In setting the nickname, each device needs to be uniquely identified from the user's point of view. The device state is information indicating the operating state of the device and is updated in real time.

設定情報取得部13は、ユーザ発話を受け付ける待機状態の所定のタイミングにおいて、所定の分量の設定情報を一括で取得してもよい。また、設定情報取得部13は、後に詳述されるデバイス抽出部14及びフレーズ抽出部15等において設定情報が参照されるタイミングにおいて、その都度に必要な設定情報を取得してもよい。 The setting information acquisition unit 13 may collectively acquire a predetermined amount of setting information at a predetermined timing in a standby state for receiving a user utterance. Further, the setting information acquisition unit 13 may acquire necessary setting information each time the setting information is referred to by the device extraction unit 14 and the phrase extraction unit 15 and the like, which will be described in detail later.

デバイス抽出部14は、設定情報を参照して、位置取得部11により取得された位置情報に関連付けられたデバイスを抽出する。上記のとおり、設定情報は、デバイスと当該デバイスの所在位置を示すグループとの関連付けを含むので、デバイス抽出部14は、設定情報を参照することにより、ユーザの所在位置に所在するデバイスを抽出できる。 The device extraction unit 14 refers to the setting information and extracts the device associated with the position information acquired by the position acquisition unit 11. As described above, since the setting information includes the association between the device and the group indicating the location of the device, the device extraction unit 14 can extract the device located at the user's location by referring to the setting information. ..

例えば、位置取得部11により取得された位置情報により、ユーザの所在位置がリビングであることが示される場合には、デバイス抽出部14は、図4に示される設定情報を参照して、「リビング」に関連付けられたデバイスであるデバイスID「1」の「TV」、デバイスID「2」の「ライト」、デバイスID「3」の「ライト」及びデバイスID「5」の「エアコン」を抽出する。 For example, when the position information acquired by the position acquisition unit 11 indicates that the user's location is the living room, the device extraction unit 14 refers to the setting information shown in FIG. The device ID "1" "TV", the device ID "2" "light", the device ID "3" "light", and the device ID "5" "air conditioner" are extracted. ..

フレーズ抽出部15は、語彙情報を参照して、デバイス抽出部14により抽出されたデバイスに関連付けられている一以上の指示フレーズを抽出する。語彙情報は、各デバイスと、当該デバイスの制御指示を表し少なくとも一以上の語句または文を含む指示フレーズとを関連付けている情報である。フレーズ抽出部15は、語彙情報記憶部20に記憶されている語彙情報を参照して指示フレーズを抽出する。 The phrase extraction unit 15 refers to the vocabulary information and extracts one or more instruction phrases associated with the device extracted by the device extraction unit 14. Vocabulary information is information that associates each device with an instruction phrase that represents a control instruction for the device and includes at least one phrase or sentence. The phrase extraction unit 15 extracts an instruction phrase by referring to the vocabulary information stored in the vocabulary information storage unit 20.

図6は、語彙情報記憶部20の構成及び記憶されているデータの例を示す図である。図6に示されるように、語彙情報記憶部20は、デバイスの種別を示すデバイスカテゴリに少なくとも指示フレーズを関連付けた語彙情報を記憶している。語彙情報記憶部20は、デバイスカテゴリに関連付けて、制御内容、設定項目、ゆらぎ吸収語句をさらに含んでもよい。 FIG. 6 is a diagram showing an example of the configuration of the vocabulary information storage unit 20 and the stored data. As shown in FIG. 6, the vocabulary information storage unit 20 stores vocabulary information in which at least an instruction phrase is associated with a device category indicating a device type. The vocabulary information storage unit 20 may further include control contents, setting items, and fluctuation absorbing words in association with the device category.

制御内容は、関連付けられている指示フレーズの発話により達せられる目的であって、デバイスに対して実施される制御の内容を示す。設定項目は、例えば制御内容がデバイスのパラメータの変更に関するものである場合等において、指示フレーズに対してオプションとして付加される、パラメータの変更幅等に関する語句である。ゆらぎ吸収語句は、指示フレーズを含む発話文の提示に応じたユーザ発話の語句のゆらぎを吸収するための辞書である。 The control content is the purpose achieved by uttering the associated instruction phrase and indicates the content of the control performed on the device. The setting item is a phrase related to the parameter change width, etc., which is added as an option to the instruction phrase, for example, when the control content is related to the change of the device parameter. The fluctuation absorption phrase is a dictionary for absorbing the fluctuation of the user-spoken phrase in response to the presentation of the utterance sentence including the instruction phrase.

フレーズ抽出部15は、例えば、デバイス抽出部により抽出されたデバイスが「TV」である場合に、デバイスカテゴリ「TV」に関連付けられた指示フレーズである「つけて」、「けして」、「音量を上げて」、「音量を下げて」及び「チャンネルを変えて」を語彙情報から抽出する。 For example, when the device extracted by the device extraction unit is "TV", the phrase extraction unit 15 has the instruction phrases "attach", "kete", and "volume" associated with the device category "TV". "Raise", "Turn down" and "Change channel" are extracted from the vocabulary information.

また、フレーズ抽出部15は、現在時刻に対応するデバイスの制御履歴に基づいて、指示フレーズを抽出してもよい。具体的には、フレーズ抽出部15は、設定情報(図4参照)の利用ログを参照して、現在時刻に対応する時間帯または時刻におけるデバイスの制御履歴を利用ログ(図5参照)から取得する。 Further, the phrase extraction unit 15 may extract an instruction phrase based on the control history of the device corresponding to the current time. Specifically, the phrase extraction unit 15 refers to the usage log of the setting information (see FIG. 4) and acquires the control history of the device in the time zone or time corresponding to the current time from the usage log (see FIG. 5). do.

例えば、現在時刻に時刻「t3」が対応する場合には、フレーズ抽出部15は、制御履歴(時刻「t3」、ユーザ「U1」、制御内容「ON」)を取得する。そして、フレーズ抽出部15は、抽出した制御履歴に対応するデバイス「TV」に関連付けられた指示フレーズのうちの、制御内容「ON」に対応する指示フレーズ「つけて」を抽出する。 For example, when the time "t3" corresponds to the current time, the phrase extraction unit 15 acquires the control history (time "t3", user "U1", control content "ON"). Then, the phrase extraction unit 15 extracts the instruction phrase "attach" corresponding to the control content "ON" from the instruction phrases associated with the device "TV" corresponding to the extracted control history.

なお、フレーズ抽出部15は、現在時刻に対応する制御履歴の抽出に際して、参照する利用ログを、デバイス抽出部14により抽出されたデバイスの利用ログに絞り込んで制御履歴の抽出を実施することとしてもよい。また、フレーズ抽出部15は、利用ログに含まれる制御履歴を、端末50のユーザの制御履歴に絞り込んだ上で、現在時刻に対応する制御履歴の抽出を実施することとしてもよい。端末50のユーザに関する情報は、例えば、アカウント情報等に基づく方法の他、その他の周知の手法により取得できる。 The phrase extraction unit 15 may extract the control history by narrowing down the usage log to be referred to to the device usage log extracted by the device extraction unit 14 when extracting the control history corresponding to the current time. good. Further, the phrase extraction unit 15 may extract the control history corresponding to the current time after narrowing down the control history included in the usage log to the control history of the user of the terminal 50. Information about the user of the terminal 50 can be obtained, for example, by a method based on account information or the like, or by other well-known methods.

生成部16は、フレーズ抽出部15により抽出された指示フレーズに基づいて、デバイスを制御するための発話文を生成する。具体的には、生成部16は、フレーズ抽出部15により抽出された指示フレーズを発話文として生成してもよい。 The generation unit 16 generates an utterance sentence for controlling the device based on the instruction phrase extracted by the phrase extraction unit 15. Specifically, the generation unit 16 may generate the instruction phrase extracted by the phrase extraction unit 15 as an utterance sentence.

また、生成部16は、フレーズ抽出部15により抽出された指示フレーズに関連付けられたデバイスカテゴリを、制御対象を示す語句として指示フレーズに付加して、発話文を生成してもよい。例えば、フレーズ抽出部15によりデバイス「TV」の制御内容「ON」に対応する指示フレーズ「つけて」が抽出された場合には、生成部16は、その制御対象を示す「TV」及び助詞を指示フレーズ「つけて」に付加して、発話文「TVをつけて」を生成してもよい。 Further, the generation unit 16 may generate an utterance sentence by adding a device category associated with the instruction phrase extracted by the phrase extraction unit 15 to the instruction phrase as a phrase indicating a control target. For example, when the phrase extraction unit 15 extracts the instruction phrase "attach" corresponding to the control content "ON" of the device "TV", the generation unit 16 outputs "TV" and particles indicating the control target. The utterance sentence "Turn on TV" may be generated by adding it to the instruction phrase "Take on".

また、生成部16は、フレーズ抽出部15により抽出された指示フレーズがデバイスのパラメータの変更を目的とするものである場合に、その変更幅を示す語句を指示フレーズに付加して、発話文を生成してもよい。例えば、フレーズ抽出部15により、デバイス「エアコン」の制御内容「設定温度を上げる」に対応する指示フレーズ「温度を上げて」が抽出された場合には、生成部16は、エアコンのパラメータである温度の変更幅を示す語句として設定項目に記憶されている「少し」,「2度」という語句を指示フレーズに付加して、発話文「温度を少し上げて」,「温度を2度上げて」を生成してもよい。 Further, when the instruction phrase extracted by the phrase extraction unit 15 is intended to change the parameter of the device, the generation unit 16 adds a phrase indicating the change width to the instruction phrase to add an utterance sentence. It may be generated. For example, when the phrase extraction unit 15 extracts the instruction phrase "increase the temperature" corresponding to the control content "increase the set temperature" of the device "air conditioner", the generation unit 16 is a parameter of the air conditioner. Add the words "a little" and "2 degrees" stored in the setting items as words indicating the range of temperature change to the instruction phrase, and the utterances "raise the temperature a little" and "raise the temperature twice". May be generated.

提示部17は、生成部16により生成された発話文をユーザに対して提示する。具体的には、提示部17は、発話文を示すテキスト情報をユーザの端末50に送信し、発話文を示すテキストを端末50のディスプレイに表示させる。 The presentation unit 17 presents the utterance sentence generated by the generation unit 16 to the user. Specifically, the presentation unit 17 transmits text information indicating the utterance sentence to the user's terminal 50, and displays the text indicating the utterance sentence on the display of the terminal 50.

図7は、発話文が表示されたユーザの端末50の画面例を示す図である。図7に示されるように、端末50の画面Dは、発話文を示すテキストb1,b2を含む。このように、生成された発話文を示すテキストがユーザの端末50において提示されることにより、ユーザはその発話文を発することができる。 FIG. 7 is a diagram showing a screen example of the user's terminal 50 on which the utterance sentence is displayed. As shown in FIG. 7, the screen D of the terminal 50 includes texts b1 and b2 indicating utterance sentences. By presenting the text indicating the generated utterance sentence on the user's terminal 50 in this way, the user can utter the utterance sentence.

また、提示部17は、発話文を示すテキストが関連付けられ指示操作可能な操作オブジェクトをユーザの端末50に表示させてもよい。この場合には、提示部17は、図7の画面例において、テキストb1及びテキストb2のそれぞれを、ユーザにより指示操作可能なボタン等の操作オブジェクトとして構成して、ディスプレイDに表示させる。提示部17が、このような操作オブジェクトを端末50に表示させる場合には、対話装置10は、ユーザの端末50において操作オブジェクトが操作された場合に、テキストの内容の音声からなるユーザ発話を受け付けた場合と同様のデバイスの制御情報を生成する。 Further, the presentation unit 17 may display an operation object on the user's terminal 50, which is associated with a text indicating an utterance sentence and can be instructed to operate. In this case, in the screen example of FIG. 7, the presentation unit 17 configures each of the text b1 and the text b2 as operation objects such as buttons that can be instructed and operated by the user, and displays them on the display D. When the presenting unit 17 displays such an operation object on the terminal 50, the dialogue device 10 accepts a user utterance composed of voice of the text content when the operation object is operated on the user's terminal 50. Generate the same device control information as in the case of.

発話受付部18は、ユーザの発話をユーザ発話として受け付ける。具体的には、発話受付部18は、発話文を提示されたユーザが端末50に対して発した発話を表す音声またはテキストを、端末50を介して、ユーザ発話として受け付ける。 The utterance reception unit 18 accepts the user's utterance as the user's utterance. Specifically, the utterance reception unit 18 receives a voice or text representing an utterance uttered by the user presented with the utterance sentence to the terminal 50 as a user utterance via the terminal 50.

また、発話文が関連付けられたボタン等の操作オブジェクトが端末50において提示され、操作オブジェクトに対する指示操作が端末50において受け付けられた場合には、発話受付部18は、操作オブジェクトが操作された旨の情報をユーザ発話として受け付ける。 Further, when an operation object such as a button associated with the utterance sentence is presented on the terminal 50 and an instruction operation for the operation object is received on the terminal 50, the utterance reception unit 18 indicates that the operation object has been operated. Accept information as user utterances.

制御指示送信部19は、ユーザ発話に基づいて、外部システム30により管理されているデバイスを制御するための制御情報を送信する。具体的には、発話受付部18により音声データからなるユーザ発話が受け付けられた場合には、制御指示送信部19は、ユーザ発話に対して、音声認識処理、形態素解析及び所定の解析処理を実施することにより、デバイスを制御するための制御情報を生成し、生成した制御情報を外部システム30に送信する。なお、ユーザ発話がテキストデータとして受け付けられた場合には、音声認識処理は不要である。 The control instruction transmission unit 19 transmits control information for controlling a device managed by the external system 30 based on the user's utterance. Specifically, when a user utterance composed of voice data is received by the utterance receiving unit 18, the control instruction transmitting unit 19 performs voice recognition processing, morphological analysis, and predetermined analysis processing on the user utterance. By doing so, control information for controlling the device is generated, and the generated control information is transmitted to the external system 30. When the user's utterance is accepted as text data, the voice recognition process is unnecessary.

操作オブジェクトが操作された旨の情報がユーザ発話として受け付けられた場合には、制御指示送信部19は、当該操作オブジェクトに関連付けられた発話文のテキストデータがユーザ発話として受け付けられたものとみなして、そのテキストデータに対する形態素解析及び所定の解析処理を実施することにより、デバイスを制御するための制御情報を生成する。 When the information indicating that the operation object has been operated is accepted as the user utterance, the control instruction transmission unit 19 considers that the text data of the utterance sentence associated with the operation object is accepted as the user utterance. , Morphological analysis of the text data and predetermined analysis processing are performed to generate control information for controlling the device.

次に、図8を参照して、対話装置10における処理内容を説明する。図8は、本実施形態の対話方法の処理内容を示すフローチャートである。 Next, the processing contents in the dialogue device 10 will be described with reference to FIG. FIG. 8 is a flowchart showing the processing contents of the dialogue method of the present embodiment.

ステップS1において、対話装置10は、ユーザ発話の受付待機状態に制御おされる。具体的には、発話受付部18が、ユーザ発話の受付待機状態に制御される。 In step S1, the dialogue device 10 is controlled to the reception standby state of the user's utterance. Specifically, the utterance reception unit 18 is controlled to be in a reception standby state for user utterances.

ステップS2において、設定情報取得部13は、外部システム30の設定情報記憶部31から設定情報を取得する。 In step S2, the setting information acquisition unit 13 acquires the setting information from the setting information storage unit 31 of the external system 30.

ステップS3において、位置取得部11は、ユーザの所在位置を示す位置情報を取得する。具体的には、位置取得部11は、例えば、ユーザの端末50が備えるGPS装置(図示せず)等、及び、本実施形態の対話システム1が適用される空間に設けられた人感センサにより検出された検出情報に基づいて、ユーザの位置情報を取得する。 In step S3, the position acquisition unit 11 acquires position information indicating the location of the user. Specifically, the position acquisition unit 11 is based on, for example, a GPS device (not shown) provided in the user's terminal 50, and a motion sensor provided in a space to which the dialogue system 1 of the present embodiment is applied. Acquire the user's location information based on the detected detection information.

ステップS4において、位置取得部11は、ステップS3におけるユーザの位置情報の取得に成功したか否かを判定する。位置情報の取得に成功したと判定された場合には、処理はステップS5に進む。一方、位置情報の取得に成功したと判定されなかった場合には、処理はステップS8に進む。 In step S4, the position acquisition unit 11 determines whether or not the acquisition of the user's position information in step S3 is successful. If it is determined that the acquisition of the position information is successful, the process proceeds to step S5. On the other hand, if it is not determined that the acquisition of the position information is successful, the process proceeds to step S8.

ステップS5において、デバイス抽出部14は、設定情報を参照して、ステップS3において位置取得部11により取得された位置情報に関連付けられたデバイスを抽出する。前述のとおり、設定情報は、デバイスと当該デバイスの所在位置を示すグループとの関連付けを含むので、デバイス抽出部14は、設定情報のグループの情報を参照することにより、ユーザの所在位置に所在するデバイスを抽出できる。 In step S5, the device extraction unit 14 refers to the setting information and extracts the device associated with the position information acquired by the position acquisition unit 11 in step S3. As described above, since the setting information includes the association between the device and the group indicating the location of the device, the device extraction unit 14 is located at the location of the user by referring to the information of the group of the setting information. Devices can be extracted.

ステップS6において、フレーズ抽出部15は、語彙情報を参照して、ステップS5においてデバイス抽出部14により抽出されたデバイスに関連付けられている一以上の指示フレーズを抽出する。 In step S6, the phrase extraction unit 15 refers to the vocabulary information and extracts one or more instruction phrases associated with the device extracted by the device extraction unit 14 in step S5.

ステップS7において、生成部16は、ステップS5においてデバイス抽出部14により抽出されたデバイス及びステップS6においてフレーズ抽出部15により抽出された指示フレーズに基づいて、デバイスを制御するための発話文を生成する。 In step S7, the generation unit 16 generates an utterance sentence for controlling the device based on the device extracted by the device extraction unit 14 in step S5 and the instruction phrase extracted by the phrase extraction unit 15 in step S6. ..

一方、ステップS8では、生成部16は、デバイスの種別に依存しない発話文を生成する。具体的には、例えば、生成部16は、語彙情報からランダムに抽出した指示フレームに基づいて発話文を生成してもよい。また、生成部16は、発話受付部18により受け付けられたユーザ発話の履歴を参照して、直近に受け付けられたユーザ発話を発話文としてもよい。 On the other hand, in step S8, the generation unit 16 generates an utterance sentence that does not depend on the type of device. Specifically, for example, the generation unit 16 may generate an utterance sentence based on an instruction frame randomly extracted from the vocabulary information. Further, the generation unit 16 may refer to the history of user utterances received by the utterance reception unit 18 and use the most recently received user utterance as the utterance sentence.

ステップS9において、提示部17は、生成部16により生成された発話文をユーザに対して提示する。具体的には、提示部17は、発話文を示すテキスト情報をユーザの端末50に送信し、発話文を示すテキストを端末50のディスプレイに表示させる。 In step S9, the presentation unit 17 presents the utterance sentence generated by the generation unit 16 to the user. Specifically, the presentation unit 17 transmits text information indicating the utterance sentence to the user's terminal 50, and displays the text indicating the utterance sentence on the display of the terminal 50.

次に、図9を参照して、対話装置10における処理内容の他の例を説明する。図9は、本実施形態の対話方法の処理内容を示すフローチャートである。図8に示した処理ではユーザの位置情報が用いられるのに対して、図9に示す処理では、ユーザの位置情報に加えて、現在時刻の情報が用いられる。 Next, another example of the processing content in the dialogue device 10 will be described with reference to FIG. FIG. 9 is a flowchart showing the processing contents of the dialogue method of the present embodiment. In the process shown in FIG. 8, the user's position information is used, whereas in the process shown in FIG. 9, the current time information is used in addition to the user's position information.

ステップS11〜S15の処理は、図8に示したステップS1〜S5の処理と同様である。なお、ステップS14において、位置情報の取得に成功したと判定されなかった場合には、処理はステップS21に進む。 The processing of steps S11 to S15 is the same as the processing of steps S1 to S5 shown in FIG. If it is not determined in step S14 that the acquisition of the position information is successful, the process proceeds to step S21.

ステップS16において、時刻取得部12は、現在時刻を示す情報を取得する。ステップS17において、時刻取得部12は、現在時刻を示す情報の取得に成功したか否かを判定する。現在時刻の取得に成功したと判定された場合には、処理はステップS18に進む。一方、現在時刻の取得に成功したと判定されなかった場合には、処理はステップS21に進む。 In step S16, the time acquisition unit 12 acquires information indicating the current time. In step S17, the time acquisition unit 12 determines whether or not the acquisition of the information indicating the current time has been successful. If it is determined that the acquisition of the current time is successful, the process proceeds to step S18. On the other hand, if it is not determined that the acquisition of the current time is successful, the process proceeds to step S21.

ステップS18において、設定情報取得部13は、ステップS16において取得された現在時刻に対応する時間帯または時刻における、ステップS15において取得されたデバイスの制御履歴を取得する。現在時刻に対応する時間帯は、例えば、現在時刻を含む所定幅の時間帯である。 In step S18, the setting information acquisition unit 13 acquires the control history of the device acquired in step S15 in the time zone or time corresponding to the current time acquired in step S16. The time zone corresponding to the current time is, for example, a time zone having a predetermined width including the current time.

ステップS19において、フレーズ抽出部15は、ステップS15において取得されたデバイスに関しての、ステップS18において取得された制御履歴に示される制御内容に関連付けられた指示フレーズを、語彙情報を参照して抽出する。 In step S19, the phrase extraction unit 15 extracts the instruction phrase associated with the control content shown in the control history acquired in step S18 with respect to the device acquired in step S15 with reference to the vocabulary information.

ステップS20において、生成部16は、ステップS15においてデバイス抽出部14により抽出されたデバイス及びステップS19においてフレーズ抽出部15により抽出された指示フレーズに基づいて、デバイスを制御するための発話文を生成する。 In step S20, the generation unit 16 generates an utterance sentence for controlling the device based on the device extracted by the device extraction unit 14 in step S15 and the instruction phrase extracted by the phrase extraction unit 15 in step S19. ..

一方、ステップS21では、生成部16は、デバイスの種別及び現在時刻に依存しない発話文を生成する。具体的には、例えば、生成部16は、語彙情報からランダムに抽出した指示フレームに基づいて発話文を生成してもよい。また、生成部16は、発話受付部18により受け付けられたユーザ発話の履歴を参照して、直近に受け付けられたユーザ発話を発話文としてもよい。 On the other hand, in step S21, the generation unit 16 generates an utterance sentence that does not depend on the type of device and the current time. Specifically, for example, the generation unit 16 may generate an utterance sentence based on an instruction frame randomly extracted from the vocabulary information. Further, the generation unit 16 may refer to the history of user utterances received by the utterance reception unit 18 and use the most recently received user utterance as the utterance sentence.

ステップS22において、提示部17は、生成部16により生成された発話文をユーザに対して提示する。具体的には、提示部17は、発話文を示すテキスト情報をユーザの端末50に送信し、発話文を示すテキストを端末50のディスプレイに表示させる。 In step S22, the presentation unit 17 presents the utterance sentence generated by the generation unit 16 to the user. Specifically, the presentation unit 17 transmits text information indicating the utterance sentence to the user's terminal 50, and displays the text indicating the utterance sentence on the display of the terminal 50.

次に、コンピュータを、本実施形態の対話装置10として機能させるための対話プログラムについて説明する。図10は、対話プログラムP1の構成を示す図である。 Next, a dialogue program for causing the computer to function as the dialogue device 10 of the present embodiment will be described. FIG. 10 is a diagram showing the configuration of the dialogue program P1.

対話プログラムP1は、対話装置10における対話処理を統括的に制御するメインモジュールm10、位置取得モジュールm11、時刻取得モジュールm12、設定情報取得モジュールm13、デバイス抽出モジュールm14、フレーズ抽出モジュールm15、生成モジュールm16、提示モジュールm17、発話受付モジュールm18及び制御指示送信モジュールm19を備えて構成される。そして、各モジュールm11〜m19により、対話装置10における位置取得部11、時刻取得部12、設定情報取得部13、デバイス抽出部14、フレーズ抽出部15、生成部16、提示部17、発話受付部18及び制御指示送信部19のための各機能が実現される。なお、対話プログラムP1は、通信回線等の伝送媒体を介して伝送される態様であってもよいし、図10に示されるように、記録媒体M1に記憶される態様であってもよい。 The dialogue program P1 is a main module m10, a position acquisition module m11, a time acquisition module m12, a setting information acquisition module m13, a device extraction module m14, a phrase extraction module m15, and a generation module m16 that collectively control the dialogue processing in the dialogue device 10. , Presentation module m17, speech reception module m18, and control instruction transmission module m19. Then, by each module m11 to m19, the position acquisition unit 11, the time acquisition unit 12, the setting information acquisition unit 13, the device extraction unit 14, the phrase extraction unit 15, the generation unit 16, the presentation unit 17, and the utterance reception unit in the dialogue device 10 are used. Each function for 18 and the control instruction transmitting unit 19 is realized. The dialogue program P1 may be transmitted via a transmission medium such as a communication line, or may be stored in the recording medium M1 as shown in FIG.

以上説明した本実施形態の対話装置10では、ユーザの所在位置を示す位置情報に関連付けられているデバイスが抽出され、抽出されたデバイスの制御指示を表す指示フレーズに基づいて、発話文が生成されるので、ユーザが現在の所在位置において制御操作を実施しようとしている可能性が高いデバイスを適切に制御可能な発話文をユーザに提示できる。ユーザは、提示された発話文を発話することにより、所望のデバイスの制御を実施できる可能性が高いので、利便性の向上が図られる。 In the dialogue device 10 of the present embodiment described above, the device associated with the position information indicating the location information of the user is extracted, and the utterance sentence is generated based on the instruction phrase indicating the control instruction of the extracted device. Therefore, it is possible to present to the user an utterance sentence that can appropriately control the device that the user is likely to perform the control operation at the current location. Since it is highly possible that the user can control the desired device by speaking the presented utterance sentence, the convenience is improved.

また、別の形態に係る対話装置では、現在時刻を取得する時刻取得部と、時間帯または時刻ごとのデバイスの制御履歴に関する履歴情報を参照して、時刻取得部により取得された現在時刻に対応する時間帯または時刻におけるデバイスの制御履歴を取得する履歴取得部と、を更に備え、語彙情報は、デバイスごとに、制御内容と指示フレーズとを関連付けており、フレーズ抽出部は、デバイス抽出部により抽出されたデバイス及び履歴取得部により取得された制御履歴に示される制御内容に基づいて、指示フレーズを抽出することとしてもよい。 Further, in the interactive device according to another form, the time acquisition unit that acquires the current time and the history information related to the control history of the device for each time zone or time are referred to, and the current time acquired by the time acquisition unit is supported. It further includes a history acquisition unit that acquires the control history of the device in the time zone or time of day, and the vocabulary information associates the control content and the instruction phrase for each device, and the phrase extraction unit is performed by the device extraction unit. The instruction phrase may be extracted based on the control content shown in the extracted device and the control history acquired by the history acquisition unit.

上記形態によれば、現在時刻に対応する時刻または時間帯におけるデバイスの制御履歴が抽出され、抽出された制御履歴に示される制御内容に対応する指示フレーズに基づいて発話文が生成される。これにより、現在時刻においてユーザが所望する可能性が高い制御操作を実施可能な発話文をユーザに提示できる。 According to the above embodiment, the control history of the device in the time or time zone corresponding to the current time is extracted, and the utterance sentence is generated based on the instruction phrase corresponding to the control content shown in the extracted control history. As a result, it is possible to present to the user an utterance sentence capable of performing a control operation that is likely to be desired by the user at the current time.

また、別の形態に係る対話装置では、履歴情報は、ユーザごとの制御履歴を含み、フレーズ抽出部は、ユーザの制御履歴に基づいて、指示フレーズを抽出することとしてもよい。 Further, in the dialogue device according to another form, the history information may include the control history for each user, and the phrase extraction unit may extract the instruction phrase based on the control history of the user.

上記形態によれば、発話文の提示対象のユーザの制御履歴に対応する指示フレーズに基づいて発話文が生成される。従って、そのユーザに対して好適な発話文を提示できる。 According to the above form, the utterance sentence is generated based on the instruction phrase corresponding to the control history of the user to whom the utterance sentence is presented. Therefore, a suitable utterance sentence can be presented to the user.

また、別の形態に係る対話装置では、提示部は、発話文を示すテキストをユーザの端末に表示させることとしてもよい。 Further, in the dialogue device according to another form, the presenting unit may display a text indicating the utterance sentence on the user's terminal.

上記形態によれば、生成された発話文を示すテキストがユーザの端末において提示されるので、ユーザはその発話文を発することができる。 According to the above form, since the text indicating the generated utterance sentence is presented on the user's terminal, the user can utter the utterance sentence.

また、別の形態に係る対話装置では、提示部は、発話文を示すテキストが関連付けられ指示操作可能な操作オブジェクトをユーザの端末に表示させ、対話装置は、ユーザの端末において操作オブジェクトが操作された場合に、テキストの内容の音声からなるユーザ発話を受け付けた場合と同様のデバイスの制御情報を生成することとしてもよい。 Further, in the dialogue device according to another form, the presentation unit displays an operation object associated with the text indicating the utterance sentence and can be instructed and operated on the user's terminal, and the dialogue device operates the operation object on the user's terminal. In this case, the control information of the device may be generated in the same manner as when the user utterance consisting of the voice of the text content is received.

上記形態によれば、生成された発話文を示すテキストが関連付けられた操作オブジェクトがユーザ端末において表示され、その操作オブジェクトが操作されることにより、当該発話文の内容が音声により発せられた場合と同様の制御情報が生成されるので、ユーザは所望する制御の指示を容易に実施できる。 According to the above form, an operation object associated with a text indicating the generated utterance sentence is displayed on the user terminal, and when the operation object is operated, the content of the utterance sentence is uttered by voice. Since similar control information is generated, the user can easily execute the desired control instruction.

また、別の形態に係る対話装置では、設定情報を管理しているシステムから設定情報を取得する設定情報取得部、をさらに備え、デバイス抽出部は、設定情報取得部により取得された設定情報を参照することとしてもよい。 Further, the dialogue device according to another form further includes a setting information acquisition unit that acquires setting information from the system that manages the setting information, and the device extraction unit collects the setting information acquired by the setting information acquisition unit. It may be referred to.

上記形態によれば、予め取得された設定情報に基づいて発話文が生成されるので、発話文の生成処理の度に設定情報を参照するための通信及び処理の負荷が軽減される。 According to the above embodiment, since the utterance sentence is generated based on the setting information acquired in advance, the load of communication and processing for referring to the setting information each time the utterance sentence generation process is performed is reduced.

以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。 Although the present embodiment has been described in detail above, it is clear to those skilled in the art that the present embodiment is not limited to the embodiment described in the present specification. This embodiment can be implemented as a modified or modified mode without departing from the spirit and scope of the present invention determined by the description of the claims. Therefore, the description herein is for purposes of illustration only and has no limiting implications for this embodiment.

本開示で説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE−A(LTE-Advanced)、SUPER 3G、IMT−Advanced、4G、5G、FRA(Future Radio Access)、W−CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi−Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、UWB(Ultra-WideBand)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及び/又はこれらに基づいて拡張された次世代システムに適用されてもよい。 Each aspect / embodiment described in the present disclosure includes LTE (Long Term Evolution), LTE-A (LTE-Advanced), SUPER 3G, IMT-Advanced, 4G, 5G, FRA (Future Radio Access), W-CDMA ( Registered Trademarks), GSM®, CDMA2000, UMB (Ultra Mobile Broadband), IEEE 802.11 (Wi-Fi), IEEE 802.16 (WiMAX), IEEE 802.20, UWB (Ultra-WideBand), Bluetooth It may be applied to (Registered Trademarks), other systems that utilize suitable systems and / or next-generation systems that are extended based on them.

本開示で説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。 The order of the processing procedures, sequences, flowcharts, etc. of each aspect / embodiment described in the present disclosure may be changed as long as there is no contradiction. For example, the methods described herein present elements of various steps in an exemplary order, and are not limited to the particular order presented.

情報等は、上位レイヤ(または下位レイヤ)から下位レイヤ(または上位レイヤ)へ出力され得る。複数のネットワークノードを介して入出力されてもよい。 Information and the like can be output from the upper layer (or lower layer) to the lower layer (or upper layer). Input / output may be performed via a plurality of network nodes.

入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。 The input / output information and the like may be stored in a specific location (for example, a memory) or may be managed by a management table. Input / output information and the like can be overwritten, updated, or added. The output information and the like may be deleted. The input information or the like may be transmitted to another device.

判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:trueまたはfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。 The determination may be made by a value represented by 1 bit (0 or 1), by a boolean value (Boolean: true or false), or by comparing numerical values (for example, a predetermined value). It may be done by comparison with the value).

本開示で説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。 Each aspect / embodiment described in the present disclosure may be used alone, in combination, or switched with execution. Further, the notification of predetermined information (for example, the notification of "being X") is not limited to the explicit one, but is performed implicitly (for example, the notification of the predetermined information is not performed). May be good.

ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。 Software, whether referred to as software, firmware, middleware, microcode, hardware description language, or other names, is an instruction, instruction set, code, code segment, program code, program, subprogram, software module. , Applications, software applications, software packages, routines, subroutines, objects, executable files, execution threads, procedures, functions, etc. should be broadly interpreted.

また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。 Further, software, instructions, and the like may be transmitted and received via a transmission medium. For example, the software uses wired technology such as coaxial cable, fiber optic cable, twisted pair and digital subscriber line (DSL) and / or wireless technology such as infrared, wireless and microwave to websites, servers, or other When transmitted from a remote source, these wired and / or wireless technologies are included within the definition of transmission medium.

本開示で説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。 The information, signals, etc. described in the present disclosure may be represented using any of a variety of different techniques. For example, data, instructions, commands, information, signals, bits, symbols, chips, etc. that may be referred to throughout the above description are voltages, currents, electromagnetic waves, magnetic fields or magnetic particles, light fields or photons, or any of these. It may be represented by a combination of.

なお、本開示で説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。 The terms described in the present disclosure and / or the terms necessary for understanding the present specification may be replaced with terms having the same or similar meanings.

本開示で使用する「システム」および「ネットワーク」という用語は、互換的に使用される。 The terms "system" and "network" used in this disclosure are used interchangeably.

また、本開示で説明した情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。 Further, the information, parameters, etc. described in the present disclosure may be represented by an absolute value, a relative value from a predetermined value, or another corresponding information.

本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断(決定)」は、「想定する(assuming)」、「期待する(expecting)」、「みなす(considering)」などで読み替えられてもよい。 The terms "determining" and "determining" as used in this disclosure may include a wide variety of actions. "Judgment" and "decision" are, for example, judgment, calculation, computing, processing, deriving, investigating, looking up, search, inquiry. (For example, searching in a table, database or another data structure), ascertaining may be regarded as "judgment" or "decision". Also, "judgment" and "decision" are receiving (for example, receiving information), transmitting (for example, transmitting information), input (input), output (output), and access. (Accessing) (for example, accessing data in memory) may be regarded as "judgment" or "decision". In addition, "judgment" and "decision" mean that the things such as solving, selecting, choosing, establishing, and comparing are regarded as "judgment" and "decision". Can include. That is, "judgment" and "decision" may include considering some action as "judgment" and "decision". Further, "judgment (decision)" may be read as "assuming", "expecting", "considering" and the like.

本開示で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。 The phrase "based on" as used in this disclosure does not mean "based on" unless otherwise stated. In other words, the statement "based on" means both "based only" and "at least based on".

本開示で「第1の」、「第2の」などの呼称を使用した場合においては、その要素へのいかなる参照も、それらの要素の量または順序を全般的に限定するものではない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第1および第2の要素への参照は、2つの要素のみがそこで採用され得ること、または何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。 In the use of such designations as "first", "second", etc. in the present disclosure, any reference to the elements does not generally limit the quantity or order of those elements. These designations can be used herein as a convenient way to distinguish between two or more elements. Thus, references to the first and second elements do not mean that only two elements can be adopted there, or that the first element must somehow precede the second element.

「含む(include)」、「含んでいる(including)」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または(or)」は、排他的論理和ではないことが意図される。 As long as "include", "including", and variations thereof are used within the scope of the present specification or claims, these terms are similar to the term "comprising". Is intended to be inclusive. Furthermore, the term "or" as used herein or in the claims is intended not to be an exclusive OR.

本開示において、文脈または技術的に明らかに1つのみしか存在しない装置である場合以外は、複数の装置をも含むものとする。 In the present disclosure, a plurality of devices shall be included unless the device has only one device apparently in context or technically.

本開示の全体において、文脈から明らかに単数を示したものではなければ、複数のものを含むものとする。 In the whole of the present disclosure, if the context clearly does not indicate the singular, it shall include the plural.

10…対話装置、11…位置取得部、12…時刻取得部、13…設定情報取得部、14…デバイス抽出部、15…フレーズ抽出部、16…生成部、17…提示部、18…発話受付部、19…制御指示送信部、20…語彙情報記憶部、30…外部システム、31…設定情報記憶部、50…端末、M1…記録媒体、m10…メインモジュール、m11…位置取得モジュール、m12…時刻取得モジュール、m13…設定情報取得モジュール、m14…デバイス抽出モジュール、m15…フレーズ抽出モジュール、m16…生成モジュール、m17…提示モジュール、m18…発話受付モジュール、m19…制御指示送信モジュール、P1…対話プログラム。 10 ... Dialogue device, 11 ... Position acquisition unit, 12 ... Time acquisition unit, 13 ... Setting information acquisition unit, 14 ... Device extraction unit, 15 ... Phrase extraction unit, 16 ... Generation unit, 17 ... Presentation unit, 18 ... Speech reception Unit, 19 ... Control instruction transmission unit, 20 ... Lexical information storage unit, 30 ... External system, 31 ... Setting information storage unit, 50 ... Terminal, M1 ... Recording medium, m10 ... Main module, m11 ... Position acquisition module, m12 ... Time acquisition module, m13 ... Setting information acquisition module, m14 ... Device extraction module, m15 ... Phrase extraction module, m16 ... Generation module, m17 ... Presentation module, m18 ... Speech reception module, m19 ... Control instruction transmission module, P1 ... Dialogue program ..

Claims (7)

デバイスを制御する制御情報を生成するための、音声またはテキストからなるユーザ発話を受け付ける対話装置であって、
ユーザの所在位置を示す位置情報を取得する位置取得部と、
各デバイスと所在位置とを関連付けている設定情報を参照して、前記位置取得部により取得された前記位置情報に関連付けられたデバイスを抽出するデバイス抽出部と、
各デバイスと、当該デバイスの制御指示を表し少なくとも一以上の語句または文を含む指示フレーズとを関連付けている語彙情報を参照して、前記デバイス抽出部により抽出されたデバイスに関連付けられている一以上の指示フレーズを抽出するフレーズ抽出部と、
前記フレーズ抽出部により抽出された前記指示フレーズに基づいて、前記デバイスを制御するための発話文を生成する生成部と、
前記生成部により生成された前記発話文を前記ユーザに対して提示する提示部と、
を備える対話装置。
A dialogue device that accepts user utterances consisting of voice or text for generating control information that controls a device.
A position acquisition unit that acquires location information indicating the user's location,
A device extraction unit that extracts a device associated with the position information acquired by the position acquisition unit by referring to the setting information that associates each device with the location, and a device extraction unit.
One or more associated with the device extracted by the device extraction unit with reference to the vocabulary information associated with each device and an instruction phrase representing the control instruction of the device and including at least one phrase or sentence. Phrase extractor that extracts the instruction phrase of
A generation unit that generates an utterance sentence for controlling the device based on the instruction phrase extracted by the phrase extraction unit, and a generation unit.
A presentation unit that presents the utterance sentence generated by the generation unit to the user, and a presentation unit.
Dialogue device.
現在時刻を取得する時刻取得部と、
時間帯または時刻ごとの前記デバイスの制御履歴に関する履歴情報を参照して、前記時刻取得部により取得された前記現在時刻に対応する時間帯または時刻における前記デバイスの制御履歴を取得する履歴取得部と、を更に備え、
前記語彙情報は、前記デバイスごとに、制御内容と前記指示フレーズとを関連付けており、
前記フレーズ抽出部は、前記デバイス抽出部により抽出されたデバイス及び前記履歴取得部により取得された制御履歴に示される制御内容に基づいて、前記指示フレーズを抽出する、
請求項1に記載の対話装置。
The time acquisition unit that acquires the current time and
With reference to the history information about the control history of the device for each time zone or time, the history acquisition unit that acquires the control history of the device in the time zone or time corresponding to the current time acquired by the time acquisition unit. , And more
The vocabulary information associates the control content with the instruction phrase for each device.
The phrase extraction unit extracts the instruction phrase based on the control content shown in the device extracted by the device extraction unit and the control history acquired by the history acquisition unit.
The dialogue device according to claim 1.
前記履歴情報は、ユーザごとの制御履歴を含み、
前記フレーズ抽出部は、前記ユーザの制御履歴に基づいて、前記指示フレーズを抽出する、
請求項2に記載の対話装置。
The history information includes a control history for each user.
The phrase extraction unit extracts the instruction phrase based on the control history of the user.
The dialogue device according to claim 2.
前記提示部は、前記発話文を示すテキストを前記ユーザの端末に表示させる、
請求項1〜3のいずれか一項に記載の対話装置。
The presenting unit causes the user's terminal to display a text indicating the utterance sentence.
The dialogue device according to any one of claims 1 to 3.
前記提示部は、前記発話文を示すテキストが関連付けられ指示操作可能な操作オブジェクトを前記ユーザの端末に表示させ、
前記対話装置は、前記ユーザの端末において前記操作オブジェクトが操作された場合に、前記テキストの内容の音声からなるユーザ発話を受け付けた場合と同様のデバイスの制御情報を生成する、
請求項1〜4のいずれか一項に記載の対話装置。
The presenting unit causes the user's terminal to display an operation object that is associated with a text indicating the utterance sentence and can be instructed to operate.
When the operation object is operated on the terminal of the user, the dialogue device generates control information of the device similar to the case where the user utterance composed of the voice of the content of the text is received.
The dialogue device according to any one of claims 1 to 4.
前記設定情報を管理しているシステムから前記設定情報を取得する設定情報取得部、をさらに備え、
前記デバイス抽出部は、前記設定情報取得部により取得された前記設定情報を参照する、
請求項1〜5のいずれか一項に記載の対話装置。
A setting information acquisition unit for acquiring the setting information from the system that manages the setting information is further provided.
The device extraction unit refers to the setting information acquired by the setting information acquisition unit.
The dialogue device according to any one of claims 1 to 5.
コンピュータを、デバイスを制御する制御情報を生成するための、音声またはテキストからなるユーザ発話を受け付ける対話装置として機能させるための対話プログラムであって、
前記コンピュータに、
ユーザの所在位置を示す位置情報を取得する位置取得機能と、
各デバイスと所在位置とを関連付けている設定情報を参照して、前記位置取得機能により取得された前記位置情報に関連付けられたデバイスを抽出するデバイス抽出機能と、
各デバイスと、当該デバイスの制御指示を表し少なくとも一以上の語句または文を含む指示フレーズとを関連付けている語彙情報を参照して、前記デバイス抽出機能により抽出されたデバイスに関連付けられている一以上の指示フレーズを抽出するフレーズ抽出機能と、
前記フレーズ抽出機能により抽出された前記指示フレーズに基づいて、前記デバイスを制御するための発話文を生成する生成機能と、
前記生成機能により生成された前記発話文を前記ユーザに対して提示する提示機能と、
を実現させる対話プログラム。
A dialogue program that allows a computer to function as a dialogue device that accepts user utterances consisting of voice or text to generate control information that controls a device.
On the computer
A location acquisition function that acquires location information indicating the user's location, and
A device extraction function that extracts a device associated with the position information acquired by the position acquisition function by referring to the setting information associated with each device and the location, and a device extraction function.
One or more associated with the device extracted by the device extraction function with reference to the vocabulary information associated with each device and an instruction phrase representing the control instruction of the device and including at least one phrase or sentence. Phrase extraction function that extracts the instruction phrase of
A generation function for generating an utterance sentence for controlling the device based on the instruction phrase extracted by the phrase extraction function, and a generation function.
A presentation function for presenting the utterance sentence generated by the generation function to the user, and
A dialogue program that realizes.
JP2020556715A 2018-11-05 2019-10-15 Dialogue device and dialogue program Active JP7429193B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018208251 2018-11-05
JP2018208251 2018-11-05
PCT/JP2019/040535 WO2020095633A1 (en) 2018-11-05 2019-10-15 Dialogue device and dialogue program

Publications (2)

Publication Number Publication Date
JPWO2020095633A1 true JPWO2020095633A1 (en) 2021-10-07
JP7429193B2 JP7429193B2 (en) 2024-02-07

Family

ID=70612390

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020556715A Active JP7429193B2 (en) 2018-11-05 2019-10-15 Dialogue device and dialogue program

Country Status (2)

Country Link
JP (1) JP7429193B2 (en)
WO (1) WO2020095633A1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009109587A (en) * 2007-10-26 2009-05-21 Panasonic Electric Works Co Ltd Voice recognition control device
WO2015029379A1 (en) * 2013-08-29 2015-03-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ Device control method, display control method, and purchase payment method
JP2018531404A (en) * 2015-10-05 2018-10-25 サバント システムズ エルエルシーSavant Systems LLC Proposal of history-based key phrase for voice control of home automation system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009109587A (en) * 2007-10-26 2009-05-21 Panasonic Electric Works Co Ltd Voice recognition control device
WO2015029379A1 (en) * 2013-08-29 2015-03-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ Device control method, display control method, and purchase payment method
JP2018531404A (en) * 2015-10-05 2018-10-25 サバント システムズ エルエルシーSavant Systems LLC Proposal of history-based key phrase for voice control of home automation system

Also Published As

Publication number Publication date
WO2020095633A1 (en) 2020-05-14
JP7429193B2 (en) 2024-02-07

Similar Documents

Publication Publication Date Title
US11114099B2 (en) Method of providing voice command and electronic device supporting the same
JP2019532376A (en) Candidate item presentation method and terminal device
WO2019225154A1 (en) Created text evaluation device
US20200042604A1 (en) Translation device
JP7429194B2 (en) Dialogue device and dialogue program
EP2908272A1 (en) Method and apparatus for creating a communication group
US20160004784A1 (en) Method of providing relevant information and electronic device adapted to the same
JP7043593B2 (en) Dialogue server
JP7429193B2 (en) Dialogue device and dialogue program
WO2019193796A1 (en) Interaction server
JPWO2019216054A1 (en) Dialogue server
WO2021215352A1 (en) Voice data creation device
KR20200042627A (en) Electronic apparatus and controlling method thereof
WO2021111767A1 (en) Interaction assistance device
JP7033195B2 (en) Dialogue device
JP6944594B2 (en) Dialogue device
KR20140111574A (en) Apparatus and method for performing an action according to an audio command
US11055495B2 (en) Utterance sentence generation system and utterance sentence generation program
US11645477B2 (en) Response sentence creation device
JP6745402B2 (en) Question estimator
JP2021082125A (en) Dialogue device
JPWO2019216053A1 (en) Dialogue device
JP6895580B2 (en) Dialogue system
JP6912043B2 (en) Program and information processing device control method
JP2022025917A (en) Dialog device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220817

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240126

R150 Certificate of patent or registration of utility model

Ref document number: 7429193

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150