WO2021161841A1 - Information processing device and information processing method - Google Patents

Information processing device and information processing method Download PDF

Info

Publication number
WO2021161841A1
WO2021161841A1 PCT/JP2021/003600 JP2021003600W WO2021161841A1 WO 2021161841 A1 WO2021161841 A1 WO 2021161841A1 JP 2021003600 W JP2021003600 W JP 2021003600W WO 2021161841 A1 WO2021161841 A1 WO 2021161841A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
information
para
message
candidate
Prior art date
Application number
PCT/JP2021/003600
Other languages
French (fr)
Japanese (ja)
Inventor
広 岩瀬
真一 河野
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2021161841A1 publication Critical patent/WO2021161841A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

[Problem] To implement smooth text communication between users. [Solution] This information processing device is provided with: a paralinguistic information acquisition unit that, on the basis of a sensing signal obtained by sensing a first user, acquires paralinguistic information of the first user; a candidate generation unit that, on the basis of the paralinguistic information, generates candidates for a message to be transmitted to the first user; and a transmission unit that transmits the candidates for the message to a device of a second user that performs a message exchange with the first user.

Description

情報処理装置及び情報処理方法Information processing device and information processing method
 本開示は、情報処理装置及び情報処理方法に関する。 This disclosure relates to an information processing device and an information processing method.
 音声認識の普及に伴い、今後はSNS・チャット・メールなどのテキストコミュニケーションにおいても、音声発話で迅速に文字入力を行う機会が増えると見込まれる。 With the spread of voice recognition, it is expected that there will be more opportunities to quickly input characters by voice utterance in text communication such as SNS, chat, and email.
 話し言葉の音声発話には、文字化されない発話者の意図・態度・感情などの情報が含まれている。より円滑なコミュニケーションのためには、相手方は、文字化されたテキスト情報に加えて、このような発話者の意図等を含めて話し手の発話の内容を汲み取り、返信を行う事が望ましい。しかし、現状の音声認識を使ったテキストコミュニケーションツールでは、発話の内容が話し手の意図と異なる意図で相手方に伝わってしまい、コミュニケーションに齟齬が生じる場合がある。 The spoken voice utterance contains information such as the speaker's intention, attitude, and emotion that is not transcribed. For smoother communication, it is desirable for the other party to understand the content of the speaker's utterance, including the intention of the speaker, in addition to the textual information, and reply. However, with the current text communication tools that use voice recognition, the content of the utterance is transmitted to the other party with an intention different from the intention of the speaker, which may cause a discrepancy in communication.
 下記特許文献1では、他の装置から受信したメッセージの一部をユーザが選択し、選択された情報とその付加情報(位置、時刻等)に基づいて、返信メッセージの候補を生成し、ユーザに候補を選択させる。しかしながら、この技術では、ユーザの意図をくみ取った上で、返信メッセージを生成することはできない。 In Patent Document 1 below, a user selects a part of a message received from another device, generates a candidate for a reply message based on the selected information and its additional information (position, time, etc.), and informs the user. Let them select candidates. However, with this technique, it is not possible to generate a reply message based on the user's intention.
国際公開第2016/084481号International Publication No. 2016/084481
 本開示は、ユーザ間で円滑なテキストコミュニケーションを可能にする情報処理装置及び情報処理方法を提供する。 The present disclosure provides an information processing device and an information processing method that enable smooth text communication between users.
 本開示の情報処理装置は、第1ユーザをセンシングしたセンシング信号に基づき、前記第1ユーザのパラ言語情報を取得するパラ言語情報取得部と、前記パラ言語情報に基づき、前記第1ユーザに送信するメッセージの候補を生成する候補生成部と、前記メッセージの候補を、前記第1ユーザとメッセージ交換を行う第2ユーザの装置に送信する送信部と、を備える。 The information processing apparatus of the present disclosure has a para-language information acquisition unit that acquires the para-language information of the first user based on the sensing signal sensed by the first user, and transmits the para-language information to the first user based on the para-language information. It includes a candidate generation unit that generates candidates for a message to be processed, and a transmission unit that transmits the message candidates to a device of a second user who exchanges messages with the first user.
 前記センシング信号は、前記第1ユーザの音声信号を含み、
 前記情報処理装置は、前記第1ユーザの音声信号を音声認識して、前記第1ユーザが発話した第1メッセージのテキストデータを取得する音声認識処理部を備え、
 前記候補生成部は、前記第1メッセージに対し前記第2ユーザが返信する第2メッセージの候補を生成し、
 前記送信部は、前記テキストデータと、前記第2メッセージの候補とを前記第2ユーザの装置に送信してもよい。
The sensing signal includes the voice signal of the first user.
The information processing device includes a voice recognition processing unit that voice-recognizes the voice signal of the first user and acquires the text data of the first message spoken by the first user.
The candidate generation unit generates a candidate for the second message returned by the second user in response to the first message.
The transmission unit may transmit the text data and the candidate for the second message to the device of the second user.
 前記情報処理装置は、
 前記第2ユーザの装置から、前記メッセージの候補のうち選択された前記候補を含む返信メッセージを受信する受信部と、
 前記受信部で受信された前記返信メッセージを表示する表示部とを備えてもよい。
The information processing device
A receiving unit that receives a reply message including the candidate selected from the message candidates from the device of the second user, and a receiving unit.
A display unit that displays the reply message received by the reception unit may be provided.
 前記センシング信号は前記第1ユーザの音声信号を含み、
 前記パラ言語情報取得部は、前記第1ユーザの音声信号の音響特徴情報に基づき、前記パラ言語情報を取得してもよい。
The sensing signal includes the voice signal of the first user.
The para-language information acquisition unit may acquire the para-language information based on the acoustic feature information of the voice signal of the first user.
 前記センシング信号は前記第1ユーザの撮像信号を含み、
 前記パラ言語情報取得部は、前記第1ユーザの撮像信号に基づき画像認識を行い、前記画像認識の結果に基づき、前記パラ言語情報を取得してもよい。
The sensing signal includes an image pickup signal of the first user.
The para-language information acquisition unit may perform image recognition based on the image pickup signal of the first user and acquire the para-language information based on the result of the image recognition.
 前記情報処理装置は、前記テキストデータに基づき、前記第1ユーザの発話の意図と前記発話の対象とを推定する自然言語処理部を備え、
 前記候補生成部は、前記発話の意図と、前記発話の対象と、前記パラ言語情報とに基づき、前記第2メッセージの候補を生成してもよい。
The information processing device includes a natural language processing unit that estimates the intention of the first user's utterance and the target of the utterance based on the text data.
The candidate generation unit may generate a candidate for the second message based on the intention of the utterance, the target of the utterance, and the para-language information.
 前記情報処理装置は、複数のフレーズを格納した返信フレーズデータベースを備え、
 前記候補生成部は、前記返信フレーズデータベースにおいて前記発話の意図と、前記パラ言語情報とに応じたフレーズを特定し、特定したフレーズに基づき、前記第2メッセージの候補を生成してもよい。
The information processing device includes a reply phrase database that stores a plurality of phrases.
The candidate generation unit may specify a phrase corresponding to the intention of the utterance and the para-language information in the reply phrase database, and generate a candidate for the second message based on the specified phrase.
 前記パラ言語情報は、前記第1ユーザが質問を意図しているか否かの情報を含んでもよい。 The para-language information may include information on whether or not the first user intends to ask a question.
 前記パラ言語情報は、前記テキストデータにおいて強調されている単語を特定する情報を含んでもよい。 The para-language information may include information that identifies a word that is emphasized in the text data.
 前記パラ言語情報は、前記テキストデータにおいて単語の区切り位置を特定する情報を含んでもよい。 The para-language information may include information that specifies a word delimiter position in the text data.
 前記パラ言語情報は、前記第1ユーザの感情、緊急度、深刻度、フランク度及び緊張度の少なくとも1つを表す情報を含んでもよい。 The paralinguistic information may include information representing at least one of the emotion, urgency, severity, flank, and tension of the first user.
 前記候補生成部は、前記パラ言語情報に基づいて前記テキストデータを加飾し、
 前記送信部は、前記加飾されたテキストデータを送信してもよい。
The candidate generation unit decorates the text data based on the para-language information, and then decorates the text data.
The transmitting unit may transmit the decorated text data.
 前記候補生成部は、前記第1ユーザが質問を意図していることを前記パラ言語情報が示す場合に、前記テキストデータの末尾に疑問符を追加してもよい。 The candidate generation unit may add a question mark to the end of the text data when the para-language information indicates that the first user intends to ask a question.
 前記パラ言語情報は、前記テキストデータにおいて前記第1ユーザが強調している単語を特定する情報を含み
 前記候補生成部は、前記テキストデータにおいて前記強調されている単語の外観を変更してもよい。
The para-language information includes information for identifying a word emphasized by the first user in the text data, and the candidate generation unit may change the appearance of the emphasized word in the text data. ..
 前記パラ言語情報は、前記テキストデータにおいて単語の区切り位置を特定する情報を含み、
 前記候補生成部は、前記テキストデータにおいて前記区切り位置の箇所に、単語間の区切りを識別する情報を追加してもよい。
The para-language information includes information for specifying a word delimiter position in the text data.
The candidate generation unit may add information for identifying the delimiter between words to the delimiter position in the text data.
 前記パラ言語情報は、前記第1ユーザの感情を表す情報を含み
 前記候補生成部は、前記テキストデータに前記感情を識別する情報を追加してもよい。
The para-language information includes information representing the emotion of the first user, and the candidate generation unit may add information for identifying the emotion to the text data.
 前記情報処理装置は、前記加飾されたテキストデータを表示する表示部
 を備えてもよい。
The information processing device may include a display unit that displays the decorated text data.
 前記情報処理装置は、前記テキストデータと、前記第2メッセージの候補とを、前記第2ユーザの使用言語に翻訳する翻訳処理部を備え、
 前記送信部は、前記第2ユーザの使用言語に翻訳された前記テキストデータと、前記第2ユーザの使用言語に翻訳された前記第2メッセージの候補とを送信してもよい。
The information processing device includes a translation processing unit that translates the text data and the candidate for the second message into the language used by the second user.
The transmission unit may transmit the text data translated into the language used by the second user and the candidate for the second message translated into the language used by the second user.
 前記第2ユーザは、人間又はコンピュータシステムでもよい。 The second user may be a human or a computer system.
 本開示の情報処理方法は、
 第1ユーザをセンシングしたセンシング信号に基づき、前記第1ユーザのパラ言語情報を取得し、
 前記パラ言語情報に基づき、前記第1ユーザに送信するメッセージの候補を生成し、
 前記メッセージの候補を、前記第1ユーザとメッセージ交換を行う第2ユーザの装置に送信する。
The information processing method of the present disclosure is
Based on the sensing signal sensed by the first user, the para-language information of the first user is acquired, and the para-language information of the first user is acquired.
Based on the para-language information, a candidate message to be sent to the first user is generated.
The message candidate is transmitted to the device of the second user who exchanges messages with the first user.
本開示の第1の実施形態に係る情報処理システムの構成例を示すブロック図。The block diagram which shows the structural example of the information processing system which concerns on 1st Embodiment of this disclosure. 情報処理装置のブロック図。Block diagram of information processing device. 本実施形態の具体例を説明するための図。The figure for demonstrating the specific example of this embodiment. 返信フレーズDBの一例を示す図。The figure which shows an example of the reply phrase DB. 受信装置のブロック図。Block diagram of the receiver. 表示部に送信メッセージ情報が表示された例を示す図。The figure which shows the example which sent message information is displayed on the display part. 音声出力ボタンを配置した例を示す図。The figure which shows the example which arranged the audio output button. 表示部に選択結果情報が表示された例を示す図。The figure which shows the example which the selection result information was displayed on the display part. ユーザ1がユーザ2と対話を継続する例を示す図。The figure which shows the example which the user 1 continues the dialogue with the user 2. 具体例1を説明するための図。The figure for demonstrating the specific example 1. 具体例1に係る返信フレーズDBの一例を示す図。The figure which shows an example of the reply phrase DB which concerns on a specific example 1. 送信メッセージ情報を表示した例を示す図。The figure which shows the example which displayed the sent message information. 具体例2を説明するための図。The figure for demonstrating the specific example 2. 具体例2に係る返信フレーズDBの一例を示す図。The figure which shows an example of the reply phrase DB which concerns on the specific example 2. 送信メッセージ情報を表示した例を示す図。The figure which shows the example which displayed the sent message information. 具体例3を説明するための図。The figure for demonstrating the specific example 3. 具体例3に係る返信フレーズDBの一例を示す図。The figure which shows an example of the reply phrase DB which concerns on a specific example 3. 送信メッセージ情報を表示した例を示す図。The figure which shows the example which displayed the sent message information. 候補生成部が返信メッセージの候補を生成の動作の一例のフローチャート。A flowchart of an example of an operation in which the candidate generation unit generates a candidate for a reply message. 変形例2に係る受信装置のブロック図。The block diagram of the receiving apparatus which concerns on modification 2. 変形例3の説明図。Explanatory drawing of modification 3. FIG. 変形例4に係る情報処理装置のブロック図。The block diagram of the information processing apparatus which concerns on modification 4. 音声サンプルを再生するメニューの表示例を示す図。The figure which shows the display example of the menu which reproduces an audio sample. 図2の情報処理装置のハードウェア構成の一例を示す図。The figure which shows an example of the hardware configuration of the information processing apparatus of FIG.
 以下、図面を参照して、本開示の実施形態について説明する。本開示において示される1以上の実施形態において、各実施形態が含む要素を互いに組み合わせることができ、かつ、当該組み合わせられた結果物も本開示が示す実施形態の一部をなす。 Hereinafter, embodiments of the present disclosure will be described with reference to the drawings. In one or more embodiments set forth in the present disclosure, the elements included in each embodiment can be combined with each other, and the combined deliverables also form part of the embodiments set forth in the present disclosure.
 図1は、本開示の第1の実施形態に係る情報処理システムの構成例を示すブロック図である。図1の情報処理システムは、ユーザ1(発話者)用の端末に搭載される情報処理装置101と、ユーザ1とテキストベースのメッセージ交換を行うユーザ2用の端末に搭載される受信装置201とを備える。情報処理装置101はユーザ1により操作され、受信装置201はユーザ2により操作される。情報処理装置101と受信装置201は、通信ネットワーク301を介して互いに接続されている。送信側のユーザ1は、情報処理装置101を用いて、受信側のユーザ2との間でテキストベースのメッセージ交換により対話を行う。 FIG. 1 is a block diagram showing a configuration example of an information processing system according to the first embodiment of the present disclosure. The information processing system of FIG. 1 includes an information processing device 101 mounted on a terminal for user 1 (speaker) and a receiving device 201 mounted on a terminal for user 2 that exchanges text-based messages with user 1. To be equipped. The information processing device 101 is operated by the user 1, and the receiving device 201 is operated by the user 2. The information processing device 101 and the receiving device 201 are connected to each other via the communication network 301. The user 1 on the transmitting side uses the information processing device 101 to interact with the user 2 on the receiving side by exchanging text-based messages.
 通信ネットワーク301は、有線、無線、又は有線と無線の混合のネットワークである。通信ネットワーク301は、ローカルエリアネットワーク(LAN)でも、インターネットのようなワイドエリアネットワーク(WAN)でもよい。また通信ネットワーク301は、どのような規格又はプロトコルのネットワークでもよい。例えば、通信ネットワーク301は、無線LAN、4G又は5Gモバイルネットワークなどでもよい。 The communication network 301 is a wired, wireless, or mixed wired and wireless network. The communication network 301 may be a local area network (LAN) or a wide area network (WAN) such as the Internet. The communication network 301 may be a network of any standard or protocol. For example, the communication network 301 may be a wireless LAN, a 4G or 5G mobile network, or the like.
 情報処理装置101が搭載される端末、及び受信装置201が搭載される端末は、移動体端末、パーソナルコンピュータ(PC)、ウェアラブルデバイスなど、ユーザにより操作される端末であれば、どのようなものでもよい。移動体端末の例は、スマートフォン、タブレット端末、及び携帯電話を含む。パーソナルコンピュータの例は、デスクトップ型PC及びノート側PCを含む。ウェアラブルデバイスの例は、AR(Augmented Reality)グラス、MR(Mixed Reality)グラス、及びVR(Virtual Reality)ヘッドマウントディスプレイを含む。 The terminal on which the information processing device 101 is mounted and the terminal on which the receiving device 201 is mounted can be any terminal operated by the user, such as a mobile terminal, a personal computer (PC), or a wearable device. good. Examples of mobile terminals include smartphones, tablet terminals, and mobile phones. Examples of personal computers include desktop PCs and notebook PCs. Examples of wearable devices include AR (Augmented Reality) glasses, MR (Mixed Reality) glasses, and VR (Virtual Reality) head-mounted displays.
 本情報処理システムの概要を説明する。情報処理装置101は、ユーザ1により発話された音声信号のメッセージを音声認識処理によりテキストデータのメッセージに変換する。変換されたテキストデータのメッセージを、発話テキスト又は音声認識テキストと呼ぶ。また、情報処理装置101は、音声信号に対して音響解析認識処理を行い、音響特徴情報(例えば、基本周波数(ピッチ)の変化量、各単語の発話の周波数、各単語の音量、各単語の発話速度、及び単語の発話の前後の時間間隔、無音区間の長さ、スペクトルなど)を取得する。 The outline of this information processing system will be explained. The information processing device 101 converts a voice signal message uttered by the user 1 into a text data message by voice recognition processing. The converted text data message is called an utterance text or a voice recognition text. Further, the information processing device 101 performs acoustic analysis recognition processing on the voice signal, and performs acoustic feature information (for example, the amount of change in the fundamental frequency (pitch), the utterance frequency of each word, the volume of each word, and each word. Obtain the utterance speed, the time interval before and after the utterance of a word, the length of the silent section, the spectrum, etc.).
 情報処理装置101は、音響特徴情報に基づき、パラ言語認識処理として、発話者の意図・態度・感情など、発話テキストには含まれない情報であるパラ言語情報を取得する。情報処理装置101は、取得したパラ言語情報に基づき、ユーザ2がユーザ1に返信するメッセージの候補を1つ以上生成する。情報処理装置101は、発話テキストと、返信メッセージの候補とを受信装置201に送信する。 The information processing device 101 acquires para-language information, which is information not included in the utterance text, such as the speaker's intention, attitude, and emotion, as para-language recognition processing, based on the acoustic feature information. The information processing device 101 generates one or more message candidates that the user 2 returns to the user 1 based on the acquired para-language information. The information processing device 101 transmits the utterance text and the candidate of the reply message to the receiving device 201.
 受信装置201には、ユーザ1の発話テキストと、ユーザ1への返信メッセージの候補とが表示される。ユーザ2は発話テキストを閲覧することで、ユーザ1が発話したメッセージを確認する。ユーザ2は、このメッセージに対する返信を、表示された返信メッセージの候補の中から選択する。受信装置201は、ユーザ2により選択された返信メッセージを、情報処理装置101に送信する。情報処理装置101は、受信した返信メッセージを表示部に表示する。ユーザ1は表示部に表示された返信メッセージを閲覧することで、ユーザ2が返信したメッセージを確認できる。 The receiving device 201 displays the utterance text of the user 1 and the candidate of the reply message to the user 1. The user 2 confirms the message spoken by the user 1 by viewing the spoken text. User 2 selects a reply to this message from the displayed reply message candidates. The receiving device 201 transmits the reply message selected by the user 2 to the information processing device 101. The information processing device 101 displays the received reply message on the display unit. The user 1 can confirm the message replied by the user 2 by viewing the reply message displayed on the display unit.
 本実施形態では、ユーザ1のパラ言語情報に基づき、ユーザ1へ返信するメッセージの候補を生成することで、ユーザ1の発話テキストには含まれない発話者の意図・態度・感情といったパラ言語情報を、返信メッセージの候補に反映させることができる。例えば、パラ言語情報がユーザ1に質問意図があることを示している場合は、発話テキストは質問を含むと解釈し、質問に対する回答を返信メッセージの候補として生成する。一方、パラ言語情報が、ユーザ1が質問を意図していないことを示している場合は、発話テキストの意見に対し肯定的な意見又は否定的な意見など、ユーザ2の意見を含む返信メッセージの候補を生成する。このようにして、ユーザ2は、ユーザ1のパラ言語情報をくみ取った内容を含む返信メッセージを送信することができる。すなわち、ユーザ1の発話の内容の意図を正しくユーザ2に伝えることができるとともに、ユーザ2はユーザの発話の意図を正しく汲み取った上での返信メッセージを送信できる。以下、本実施形態について更に詳細に説明する。 In the present embodiment, by generating a message candidate to be returned to the user 1 based on the para-language information of the user 1, the para-language information such as the intention, attitude, and emotion of the speaker, which is not included in the utterance text of the user 1, is generated. Can be reflected in the reply message candidates. For example, when the para-language information indicates that the user 1 has a question intention, the utterance text is interpreted as including the question, and the answer to the question is generated as a candidate for the reply message. On the other hand, when the para-language information indicates that the user 1 does not intend to ask the question, the reply message including the opinion of the user 2 such as a positive opinion or a negative opinion to the opinion of the spoken text. Generate candidates. In this way, the user 2 can send a reply message including the contents including the para-language information of the user 1. That is, the intention of the content of the utterance of the user 1 can be correctly conveyed to the user 2, and the user 2 can send a reply message after correctly grasping the intention of the user's utterance. Hereinafter, the present embodiment will be described in more detail.
 図2は、情報処理装置101のブロック図である。情報処理装置101は、音声入力部111、音声認識処理部112、自然言語理解処理部113、候補生成部115、返信フレーズデータベース(DB)116、画像入力部117、送受信部119、パラ言語情報取得部120、画像出力処理部121、表示部122、音声出力処理部131、及び音声出力部132を備えている。パラ言語情報取得部120は、音響解析認識処理部114及び画像認識処理部118を含む。 FIG. 2 is a block diagram of the information processing device 101. The information processing device 101 includes a voice input unit 111, a voice recognition processing unit 112, a natural language understanding processing unit 113, a candidate generation unit 115, a reply phrase database (DB) 116, an image input unit 117, a transmission / reception unit 119, and para-language information acquisition. It includes a unit 120, an image output processing unit 121, a display unit 122, an audio output processing unit 131, and an audio output unit 132. The para-language information acquisition unit 120 includes an acoustic analysis recognition processing unit 114 and an image recognition processing unit 118.
 情報処理装置101が備えるこれらの要素の一部又は全部は、ハードウェア、ソフトウェア又はこれらの組み合わせにより構成される。ハードウェアは、一例としてCPU等のプロセッサ又は専用の回路を含む。返信フレーズDB116は、メモリ装置又はハードディスク装置等の記憶装置により構成される。返信フレーズDB116は、情報処理装置101の外付け装置、あるいは通信ネットワーク上のデータベースサーバとして設けられてもよい。また、時刻をカウントする時計が、情報処理装置101に設けられていてもよい。また、各種指示又はデータを入力する操作入力部が情報処理装置101に設けられていてもよい。 Part or all of these elements included in the information processing device 101 are composed of hardware, software, or a combination thereof. The hardware includes a processor such as a CPU or a dedicated circuit as an example. The reply phrase DB 116 is composed of a storage device such as a memory device or a hard disk device. The reply phrase DB 116 may be provided as an external device of the information processing device 101 or as a database server on the communication network. Further, a clock for counting the time may be provided in the information processing device 101. Further, the information processing apparatus 101 may be provided with an operation input unit for inputting various instructions or data.
 音声入力部111は、ユーザ1により発話されたメッセージの音声をセンシングし、センシングした信号を電気信号に変換する。変換された電気信号を音声信号と呼ぶ。音声入力部111は、一例としてマイクロフォンである。音声入力部111は、音声信号を音声認識処理部112及び音響解析認識処理部114に提供する。ユーザ1は、例えばユーザ2に伝えるメッセージを発話する。音声入力部111は、ユーザ1が採音の指示を行ったときに動作を開始し、採音の終了の指示を行ったときに動作を終了してもよい。採音の開始指示及び終了指示は、一例として、端末本体又はタッチパネルに設けられた採音ボタンを押すことにより行ってもよい。 The voice input unit 111 senses the voice of the message uttered by the user 1 and converts the sensed signal into an electric signal. The converted electrical signal is called an audio signal. The voice input unit 111 is, for example, a microphone. The voice input unit 111 provides the voice signal to the voice recognition processing unit 112 and the acoustic analysis recognition processing unit 114. The user 1 utters a message to be transmitted to the user 2, for example. The voice input unit 111 may start the operation when the user 1 gives an instruction to collect the sound, and may end the operation when the user 1 gives an instruction to end the sound collection. As an example, the sound collection start instruction and the sound collection end instruction may be given by pressing the sound collection button provided on the terminal body or the touch panel.
 画像入力部117は、ユーザ1の画像をセンシングして撮像信号を得る。画像入力部117は、カメラ等のセンシングデバイスである。画像は静止画像でも動画像でもよい。画像入力部117は、一例として、一定の時間間隔で撮像を行う。撮像の対象は、ユーザ1の顔、上半身、全身など、ユーザ1の体の部位であれば、どこでもよい。画像入力部117は、撮像信号を画像認識処理部118に提供する。画像入力部117と音声入力部111の動作が同期していてもよい。例えば、画像入力部117は、音声入力部111が動作しているときのみ、撮像動作を行うようにしてもよい。 The image input unit 117 senses the image of the user 1 and obtains an image pickup signal. The image input unit 117 is a sensing device such as a camera. The image may be a still image or a moving image. As an example, the image input unit 117 performs imaging at regular time intervals. The object of imaging may be any part of the body of the user 1, such as the face, upper body, and whole body of the user 1. The image input unit 117 provides the image pickup signal to the image recognition processing unit 118. The operations of the image input unit 117 and the audio input unit 111 may be synchronized. For example, the image input unit 117 may perform the imaging operation only when the audio input unit 111 is operating.
 音声認識処理部112は、音声入力部111から入力された音声信号に音声認識処理を行うことにより、音声信号をテキストデータのメッセージ(発話テキスト)に変換する。発話テキストは、ユーザ1の発話の言語情報を含む。音声認識処理では、例えば、音素の音響モデルに基づきユーザ1の発話した音声に含まれる各音素を識別し、識別した音素と言語モデルとに基づき、テキストを生成する。音声認識処理部112は、生成した発話テキストを自然言語理解処理部113と、候補生成部115と、送受信部119とに提供する。 The voice recognition processing unit 112 converts the voice signal into a text data message (spoken text) by performing voice recognition processing on the voice signal input from the voice input unit 111. The utterance text includes the linguistic information of the user 1's utterance. In the voice recognition process, for example, each phoneme included in the voice spoken by the user 1 is identified based on the acoustic model of the phoneme, and a text is generated based on the identified phoneme and the language model. The voice recognition processing unit 112 provides the generated utterance text to the natural language understanding processing unit 113, the candidate generation unit 115, and the transmission / reception unit 119.
 自然言語理解(NLU:Natural Language Understanding)処理部113は、発話テキスト(言語情報)に基づき、自然言語理解処理を行うことにより、発話の意図(Intent:インテント)と、その意図における発話の対象 (Entity:エンティティ)を推定する。つまり、発話がどのような意図によりなされたのかをカテゴリ分類により推定し、またその意図において、発話の対象となっている単語をEntityとしてカテゴリ分類により推定する。Entityは値と種別とを含む。 The natural language understanding (NLU: Natural Language Understanding) processing unit 113 performs natural language understanding processing based on the utterance text (linguistic information) to perform the utterance intent (Intent) and the target of the utterance in the intention. Estimate (Entity). That is, it is estimated by categorization what kind of intention the utterance was made, and in that intention, the word that is the target of the utterance is estimated by categorization as Entity. Entity contains a value and a type.
 図3は、本実施形態の具体例を説明するための図である。例えば、ユーザ1が「今日は8時に帰れる」を発話したとする。この場合、発話テキスト(音声認識テキスト)として“今日は8時に帰れる”が音声認識処理部112で生成される。自然言語理解処理部113では、“今日は8時に帰れる”の発話テキストから、自然言語理解処理により、発話の意図(Intent)として“GoHome”(帰宅)を推定し、発話の対象(Entity)として8時(time)を推定する。Entityの種別は“time”、Entityの値は“8時”である。自然言語理解処理部113は、例えば予め機械学習によりIntentとEntityを推定するアルゴリズムを学習する。 FIG. 3 is a diagram for explaining a specific example of the present embodiment. For example, suppose user 1 utters "I can go home at 8 o'clock today". In this case, the voice recognition processing unit 112 generates "I can return at 8 o'clock today" as the utterance text (speech recognition text). The natural language understanding processing unit 113 estimates "GoHome" (homecoming) as the intent of the utterance (Intent) from the utterance text of "I can return at 8 o'clock today" by the natural language understanding processing, and sets it as the utterance target (Entity). Estimate 8 o'clock (time). The type of Entity is "time" and the value of Entity is "8 o'clock". The natural language understanding processing unit 113 learns an algorithm for estimating Intent and Entity by machine learning in advance, for example.
 自然言語理解処理部113は、自然言語理解処理により推定したIntentとEntityとを候補生成部115に提供する。 The natural language understanding processing unit 113 provides the candidate generation unit 115 with the Intent and Entity estimated by the natural language understanding processing.
 パラ言語情報取得部120は、ユーザ1をセンシングしたセンシング信号に基づき、ユーザ1のパラ言語情報を取得する。センシング信号は、ユーザ1の音声信号及び撮像信号の少なくとも一方を含む。パラ言語情報取得部120は、音響解析認識処理部114と画像認識処理部118とを含む。 The para-language information acquisition unit 120 acquires the para-language information of the user 1 based on the sensing signal sensed by the user 1. The sensing signal includes at least one of the user 1 audio signal and the image pickup signal. The para-language information acquisition unit 120 includes an acoustic analysis recognition processing unit 114 and an image recognition processing unit 118.
 音響解析認識処理部114は、音声入力部111から提供された音声信号に基づき、信号処理又は学習済みのニューラルネットワークにより音響解析を行うことにより、音声信号の音響特徴情報を生成する。音響解析の例として、音声信号の基本周波数(ピッチ)の変化量を抽出することがある。また、音声信号に含まれる各単語の発話の周波数、各単語の音量、各単語の発話速度、及び単語の発話の前後の時間間隔を抽出することがある。また、音声信号に含まれる無音区間(すなわち発話間の時間区間)の時間を計測することがある。また、音声信号の特徴量(スペクトル又はりきみなど)を抽出することがある。記載した音響解析の例は一例に過ぎず、他にも様々な処理が可能である。 The acoustic analysis recognition processing unit 114 generates acoustic feature information of the voice signal by performing acoustic analysis by signal processing or a learned neural network based on the voice signal provided by the voice input unit 111. As an example of acoustic analysis, the amount of change in the fundamental frequency (pitch) of an audio signal may be extracted. In addition, the frequency of utterance of each word included in the audio signal, the volume of each word, the utterance speed of each word, and the time interval before and after the utterance of the word may be extracted. In addition, the time of a silent section (that is, a time section between utterances) included in the audio signal may be measured. In addition, the feature amount (spectrum, squeeze, etc.) of the audio signal may be extracted. The example of acoustic analysis described is only an example, and various other processes are possible.
 音響解析認識処理部114は、音響特徴情報に基づきパラ言語認識処理を行うことで、ユーザ1の音声信号のうち発話テキストには含まれない情報であるパラ言語情報を取得する。パラ言語情報は、音声認識処理では文字化されない発話者の意図・態度・感情などの情報である。 The acoustic analysis recognition processing unit 114 performs the para-language recognition process based on the acoustic feature information to acquire the para-language information which is the information not included in the utterance text among the voice signals of the user 1. Paralinguistic information is information such as the speaker's intention, attitude, and emotion that is not transcribed by voice recognition processing.
 例えば、前述した図3に示すように、発話テキスト“今日は8時に帰れる”の音声信号の音響解析を行い、基本周波数の変化量を検出する。発話の末尾で基本周波数の変化量が一定値以上上昇しているかを判断する。一定値以上上昇している場合、すなわち発話の末尾でピッチが上昇している場合は、ユーザ1は質問を意図していると判断する。音響解析認識処理部114は、発話者(ユーザ1)が質問を意図しているか否かを示すパラ言語情報を生成する。パラ言語情報には他にも様々な例があり、詳細は後述する。 For example, as shown in FIG. 3 described above, the acoustic analysis of the utterance text "I can return at 8 o'clock today" is performed, and the amount of change in the fundamental frequency is detected. At the end of the utterance, it is judged whether the amount of change in the fundamental frequency has increased by a certain value or more. If the pitch rises above a certain value, that is, if the pitch rises at the end of the utterance, the user 1 determines that the question is intended. The acoustic analysis recognition processing unit 114 generates para-language information indicating whether or not the speaker (user 1) intends to ask a question. There are various other examples of para-language information, and the details will be described later.
 音響解析認識処理部114は、取得したパラ言語情報を候補生成部115に提供する。音響解析認識処理部114は、パラ言語情報とともに、音響解析情報を候補生成部115に提供してもよい。 The acoustic analysis recognition processing unit 114 provides the acquired para-language information to the candidate generation unit 115. The acoustic analysis recognition processing unit 114 may provide the acoustic analysis information to the candidate generation unit 115 together with the para-language information.
 画像認識処理部118は、画像入力部117から入力された撮像信号に画像認識処理を行うことで、パラ言語情報を抽出する。例えば質問をするときの人の口の形状を事前に学習しておき、ユーザ1の画像信号から画像認識により、ユーザ1が質問を意図しているか否かをパラ言語情報として取得する。また、ユーザ1が首をかしげるしぐさを画像認識し、ユーザ1が質問を意図しているか否かをパラ言語情報として取得する。また、ユーザ1の口の形状を画像認識し、ユーザ1の発話間の時間(発話していない時間)をパラ言語情報として取得する。ユーザの顔の表情を画像認識することにより、発話時の感情をパラ言語情報として認識してもよい。 The image recognition processing unit 118 extracts para-language information by performing image recognition processing on the image pickup signal input from the image input unit 117. For example, the shape of a person's mouth when asking a question is learned in advance, and whether or not the user 1 intends to ask a question is acquired as para-language information by image recognition from the image signal of the user 1. In addition, the user 1 image-recognizes the gesture of bending his / her neck, and acquires as para-language information whether or not the user 1 intends to ask a question. In addition, the shape of the mouth of the user 1 is image-recognized, and the time between utterances of the user 1 (time during non-utterance) is acquired as para-language information. By recognizing the facial expression of the user as an image, the emotion at the time of utterance may be recognized as para-language information.
 候補生成部115は、音響解析認識処理部114及び画像認識処理部118の少なくとも一方から提供されたパラ言語情報と、自然言語理解処理部113から提供されたIntent及びEntityと、音声認識処理部112から提供された発話テキストとに基づき、ユーザ2がユーザ1に返信するメッセージの候補を生成する。すなわち、ユーザ1の発話テキストのメッセージに対する返信メッセージの候補を生成する。候補生成部115は、返信メッセージの候補を生成するために、返信フレーズDB116を用いる。 The candidate generation unit 115 includes para-language information provided by at least one of the acoustic analysis recognition processing unit 114 and the image recognition processing unit 118, the Intent and Entity provided by the natural language understanding processing unit 113, and the voice recognition processing unit 112. Generates a candidate message for the user 2 to reply to the user 1 based on the speech text provided by the user 2. That is, a candidate for a reply message to the message of the spoken text of the user 1 is generated. The candidate generation unit 115 uses the reply phrase DB 116 to generate a candidate for the reply message.
 返信フレーズDB116は、Intentとパラ言語情報等に応じて、複数の返信フレーズを格納している。複数の返信フレーズの中に、Entityをパラメータとして格納するスロットを含む返信フレーズもある。 The reply phrase DB 116 stores a plurality of reply phrases according to the Intent, para-language information, and the like. Among multiple reply phrases, there is also a reply phrase that includes a slot that stores the Entity as a parameter.
 候補生成部115は、Intent及びパラ言語情報に応じた返信フレーズを返信フレーズDB116から取得する。取得した返信フレーズ内にスロットが存在する場合は、スロットにEntityの値を格納し、Entity値を格納した返信フレーズを、返信メッセージの候補とする。スロットが存在しない場合は、取得した返信フレーズをそのまま、返信メッセージの候補とする。 The candidate generation unit 115 acquires the reply phrase corresponding to the Intent and the para-language information from the reply phrase DB 116. If a slot exists in the acquired reply phrase, the value of Entity is stored in the slot, and the reply phrase containing the Entity value is used as a candidate for the reply message. If the slot does not exist, the obtained reply phrase is used as a candidate for the reply message.
 図4は、返信フレーズDB116の一例を示す。返信フレーズDB116は、Intentと、パラ言語情報と、返信フレーズとを含む。図の例では、Intentが“GoHome”であり、パラ言語情報が“質問”又は“非質問”である。返信フレーズの列の<>はスロットを表す。この例では、質問の返信フレーズにはスロットが含まれているが、質問の返信フレーズの一部又は全部にスロットが含まれていなくてもよい。また、非質問の返信フレーズにはスロットが含まれていないが、非質問の返信フレーズの一部又は全部にスロットが含まれていてもよい。質問の返信フレーズは3つ、非質問の返信フレーズも3であるが、それぞれ3つ未満、又は4つ以上でもよい。 FIG. 4 shows an example of the reply phrase DB116. The reply phrase DB 116 includes an Intent, para-language information, and a reply phrase. In the example shown, the Intent is "GoHome" and the paralinguistic information is "question" or "non-question". The <> in the reply phrase column represents the slot. In this example, the question reply phrase contains slots, but some or all of the question reply phrases may not contain slots. Further, although the non-question reply phrase does not include a slot, a slot may be included in a part or all of the non-question reply phrase. The number of reply phrases for questions is three, and the number of reply phrases for non-questions is three, but each of them may be less than three or four or more.
 具体例として、パラ言語情報がユーザ1が質問を意図していることを示す場合に、返信メッセージの候補を生成する例を示す。自然言語理解処理部113から提供されたIntent及びEntityの値は“GoHome”及び“8時”であるとする。候補生成部115は“GoHome”及び“質問”に対応する返信フレーズを、返信フレーズDB116から取得する。この結果、“うん、<>に帰れる”、“<>より遅くなりそう”、“<>より早く帰れそう”の3つの返信フレーズが取得される。各返信フレーズに含まれるスロットに、Entityの値である“8時”を格納する。これにより、“うん、8時に帰れる”、“8時より遅くなりそう”、“8時より早く帰れそう”の3つの返信メッセージの候補が得られる。 As a specific example, an example of generating a reply message candidate when the para-language information indicates that the user 1 intends to ask a question is shown. It is assumed that the values of Intent and Entity provided by the natural language understanding processing unit 113 are “GoHome” and “8 o'clock”. The candidate generation unit 115 acquires the reply phrase corresponding to the “GoHome” and the “question” from the reply phrase DB 116. As a result, three reply phrases "Yeah, I can go back to <>", "I'm going to go back later than <>", and "I'm going to go back earlier than <>" are acquired. The Entity value "8 o'clock" is stored in the slot included in each reply phrase. As a result, three reply message candidates, "Yeah, I can go home at 8 o'clock", "I'm going to go home later than 8 o'clock", and "I'm going to go home earlier than 8 o'clock", can be obtained.
 一方、パラ言語情報がユーザ1が非質問を意図していることを示す場合は、以下のように、返信メッセージの候補を生成する。自然言語理解処理部113から提供されたIntent及びEntityの値は“GoHome”及び“8時”であるとする。候補生成部115は、“GoHome”及び“非質問”に対応する返信フレーズを、返信フレーズDB116から取得する。“了解”、“もっと早く帰ってきて”、“もっと遅くてもいいよ”の3つの返信フレーズが取得される。いずれの返信フレーズにもスロットが含まれていないため、取得した返信フレーズをそのまま返信メッセージの候補とする。 On the other hand, when the para-language information indicates that the user 1 intends to ask a non-question, a candidate for a reply message is generated as follows. It is assumed that the values of Intent and Entity provided by the natural language understanding processing unit 113 are “GoHome” and “8 o'clock”. The candidate generation unit 115 acquires the reply phrase corresponding to “GoHome” and “non-question” from the reply phrase DB 116. You will get three reply phrases: "OK", "Come back sooner", and "You can come back later". Since none of the reply phrases contain slots, the obtained reply phrase is used as a candidate for the reply message as it is.
 Intent及びパラ言語情報にマッチする返信フレーズが多数存在する場合に、取得する返信フレーズの個数を上限値以下に抑えてもよい。上限値はユーザ1の設定により調整可能でもよい。上限値以下の個数の返信フレーズを取得する場合は、取得する返信フレーズをランダムに選択してもよい。または、優先順位を返信フレーズに設定しておき、優先順位に従って、上限値以下の個数の返信フレーズを選択してもよい。その他の方法で返信フレーズを選択してもよい。各返信フレーズには、返信フレーズを識別する番号が付与されていてもよい。 When there are many reply phrases that match the Intent and para-language information, the number of reply phrases to be acquired may be suppressed to the upper limit or less. The upper limit may be adjustable by the setting of user 1. When acquiring the number of reply phrases less than the upper limit, the reply phrases to be acquired may be randomly selected. Alternatively, the priority may be set as the reply phrase, and the number of reply phrases equal to or less than the upper limit may be selected according to the priority. You may select the reply phrase in any other way. Each reply phrase may be given a number that identifies the reply phrase.
 候補生成部115は、取得した返信メッセージの候補を送受信部119に提供する。返信メッセージの候補が複数存在する場合は、複数の候補を識別する番号を設定してもよい。番号は、上記のように、返信フレーズDB116に事前に設定されていてもよいし、候補生成部115が動的に決定してもよい。決定の方法としてランダムでもよいし、その他の方法でもよい。なお、候補生成部115は、発話テキストを送受信部119に提供してもよい。但し、本実施形態では、発話テキストは、音声認識処理部112から送受信部119に提供するものとする。 The candidate generation unit 115 provides the acquired reply message candidate to the transmission / reception unit 119. When there are a plurality of reply message candidates, a number for identifying the plurality of candidates may be set. As described above, the number may be preset in the reply phrase DB 116, or may be dynamically determined by the candidate generation unit 115. The method of determination may be random or any other method. The candidate generation unit 115 may provide the utterance text to the transmission / reception unit 119. However, in the present embodiment, the utterance text is provided from the voice recognition processing unit 112 to the transmission / reception unit 119.
 送受信部119は、返信メッセージの候補と発話テキストとを含む送信メッセージ情報を生成し、生成した送信メッセージ情報を受信装置201に送信する。送信メッセージ情報は、例えば、通信ネットワーク301で用いられる通信プロトコルに応じて、パケット化され、パケットされたデータとして受信装置201に送信される。受信装置201へデータを届けるために必要な情報、例えば受信装置201のアドレス(IPアドレスなど)は予め設定されている。送受信部119が無線通信を行う場合は、送受信部119は、少なくとも1つのアンテナを備えていてもよい。 The transmission / reception unit 119 generates transmission message information including a reply message candidate and an utterance text, and transmits the generated transmission message information to the receiving device 201. The transmitted message information is packetized according to the communication protocol used in the communication network 301, and is transmitted to the receiving device 201 as packetized data, for example. Information necessary for delivering data to the receiving device 201, for example, the address (IP address, etc.) of the receiving device 201 is preset. When the transmission / reception unit 119 performs wireless communication, the transmission / reception unit 119 may include at least one antenna.
 本実施形態では、情報処理装置101が受信装置201に直接、送信メッセージ情報を送信するが、情報処理装置101と受信装置201との間にサーバが介在し、情報処理装置101と受信装置201がそれぞれサーバと通信する形態も可能である。この場合、サーバは、情報処理装置101と受信装置201間でメッセージの送受信を仲介するサービスを提供する。この場合、情報処理装置101は、サーバに送信メッセージ情報を送信し、受信装置201はサーバにアクセスして、受信装置201宛の送信メッセージ情報を取得する。 In the present embodiment, the information processing device 101 directly transmits the transmitted message information to the receiving device 201, but a server is interposed between the information processing device 101 and the receiving device 201, and the information processing device 101 and the receiving device 201 It is also possible to communicate with each server. In this case, the server provides a service that mediates the transmission and reception of messages between the information processing device 101 and the receiving device 201. In this case, the information processing device 101 transmits the transmitted message information to the server, and the receiving device 201 accesses the server to acquire the transmitted message information addressed to the receiving device 201.
 図5は、受信装置201のブロック図である。受信装置201は、音声入力部211、音声認識処理部212、自然言語理解処理部213、画像入力部214、画像認識処理部215、選択結果認識部217、送受信部218、操作入力部216、画像出力処理部221、表示部222、音声出力処理部231、及び音声出力部232を備えている。 FIG. 5 is a block diagram of the receiving device 201. The receiving device 201 includes a voice input unit 211, a voice recognition processing unit 212, a natural language understanding processing unit 213, an image input unit 214, an image recognition processing unit 215, a selection result recognition unit 217, a transmission / reception unit 218, an operation input unit 216, and an image. It includes an output processing unit 221 and a display unit 222, an audio output processing unit 231 and an audio output unit 232.
 受信装置201が備えるこれらの要素は、ハードウェア、ソフトウェア又はこれらの組み合わせにより構成される。ハードウェアは、一例としてCPU等のプロセッサ又は専用の回路を含む。また、時刻をカウントする時計が情報処理装置101に設けられていてもよい。 These elements included in the receiving device 201 are composed of hardware, software, or a combination thereof. The hardware includes a processor such as a CPU or a dedicated circuit as an example. Further, a clock for counting the time may be provided in the information processing device 101.
 送受信部218は、情報処理装置101から送信された送信メッセージ情報を受信する。送受信部218が無線通信を行う場合は、送受信部218は、少なくとも1つのアンテナを備えている。送受信部218は、受信した送信メッセージ情報を画像出力処理部221に提供する。また、送受信部218は、受信した送信メッセージ情報を音声出力処理部231に提供する。 The transmission / reception unit 218 receives the transmission message information transmitted from the information processing device 101. When the transmission / reception unit 218 performs wireless communication, the transmission / reception unit 218 includes at least one antenna. The transmission / reception unit 218 provides the received transmission message information to the image output processing unit 221. Further, the transmission / reception unit 218 provides the received transmission message information to the voice output processing unit 231.
 画像出力処理部221は、送受信部218から提供された送信メッセージ情報を表示部222に表示する。表示部222は、液晶表示装置、有機EL表示装置又はプラズマ表示装置など、データを表示する表示装置であるが、これらの例に限られない。 The image output processing unit 221 displays the transmission message information provided by the transmission / reception unit 218 on the display unit 222. The display unit 222 is a display device that displays data, such as a liquid crystal display device, an organic EL display device, or a plasma display device, but is not limited to these examples.
 図6(A)及び図6(B)は、表示部222に送信メッセージ情報が表示された例を示す。図6(A)及び図6(B)の各々において、送信メッセージ情報に含まれる発話テキストと、返信メッセージの候補とが表示されている。図6(A)には、パラ言語情報がユーザ1の質問意図を示す場合に生成された返信メッセージの候補が表示されている。図6(B)では、パラ言語情報がユーザ1の非質問意図を示す場合に生成された返信メッセージの候補が表示されている。各候補には情報処理装置101で設定された1~3の番号が付与されている。図6(A)及び図6(B)とも発話テキスト(受信メッセージ)の内容は同じである。 6 (A) and 6 (B) show an example in which the transmitted message information is displayed on the display unit 222. In each of FIGS. 6 (A) and 6 (B), the utterance text included in the transmitted message information and the candidate of the reply message are displayed. In FIG. 6A, candidates for a reply message generated when the para-language information indicates the question intention of the user 1 are displayed. In FIG. 6B, candidates for a reply message generated when the para-language information indicates the non-question intention of the user 1 are displayed. Each candidate is given a number 1 to 3 set by the information processing apparatus 101. The content of the utterance text (received message) is the same in both FIGS. 6 (A) and 6 (B).
 ユーザ2は、表示された発話テキストを見ることで、ユーザ1の発話したメッセージの内容を把握できる。この際、表示された返信メッセージの候補を見ることで、発話テキストが質問なのか非質問なのかを推測することも可能である。例えば、図6(A)の返信メッセージの候補を見ることで、発話テキスト “今日は8時に帰れる”は、ユーザ1がユーザ2に対して質問しているのだと判断できる。 User 2 can grasp the content of the message spoken by user 1 by looking at the displayed utterance text. At this time, it is also possible to infer whether the spoken text is a question or a non-question by looking at the displayed reply message candidates. For example, by looking at the candidate reply message in FIG. 6A, it can be determined that the utterance text "I can return at 8 o'clock today" is that the user 1 is asking the user 2.
 音声出力処理部231は、送受信部218から提供された送信メッセージ情報に含まれる発話テキストを音声信号に変換し、音声信号を音声出力部232に提供する。音声出力部232は、音声信号を生成して音声を出力する。また、音声出力処理部231は、送信メッセージ情報に含まれる返信メッセージの候補を音声信号に変換し、音声信号を音声出力部232に提供してもよい。音声出力部232は、この音声信号を再生して、音声を出力する。発話テキストの音声出力は、ユーザ2の指示があった場合に行ってもよいし、送信メッセージ情報が受信されると直ちに行ってもよい。返信メッセージの候補の音声出力は、発話テキストの音声出力の後、直ちに順番に行ってもよいし、ユーザ2の指示があった場合に行ってもよい。 The voice output processing unit 231 converts the utterance text included in the transmitted message information provided by the transmission / reception unit 218 into a voice signal, and provides the voice signal to the voice output unit 232. The voice output unit 232 generates a voice signal and outputs the voice. Further, the voice output processing unit 231 may convert the candidate of the reply message included in the transmitted message information into a voice signal and provide the voice signal to the voice output unit 232. The audio output unit 232 reproduces this audio signal and outputs the audio. The voice output of the utterance text may be performed when instructed by the user 2, or may be performed as soon as the transmitted message information is received. The voice output of the reply message candidate may be performed in order immediately after the voice output of the utterance text, or may be performed when instructed by the user 2.
 ユーザ2の音声出力の指示は、後述する操作入力部216、画像入力部214、又は音声入力部211により行うことができる。例えば、操作入力部216又は表示部222がタッチパネルを含む場合に、タッチパネルへの操作により、ユーザ2は音声出力の指示を行ってもよい。 The voice output instruction of the user 2 can be given by the operation input unit 216, the image input unit 214, or the voice input unit 211, which will be described later. For example, when the operation input unit 216 or the display unit 222 includes a touch panel, the user 2 may instruct the voice output by operating the touch panel.
 図7は、図6(A)の送信メッセージ情報が表示されたタッチパネル画面に、音声出力ボタンを配置した例を示す。発話テキストの欄の近傍に音声出力ボタン10が配置されている。音声出力ボタン10のクリックにより、発話テキストの音声が出力される。返信メッセージの候補についても同様に、各候補の欄の近傍に音声出力ボタン11~13が配置されている。音声出力ボタン11~13のクリックにより、各候補の音声が出力される。 FIG. 7 shows an example in which the voice output button is arranged on the touch panel screen on which the transmitted message information of FIG. 6 (A) is displayed. A voice output button 10 is arranged near the utterance text column. By clicking the voice output button 10, the voice of the spoken text is output. Similarly, for the reply message candidates, the voice output buttons 11 to 13 are arranged near the columns of each candidate. By clicking the voice output buttons 11 to 13, the voice of each candidate is output.
 発話テキスト及び返信メッセージの候補の音声を出力することで、ユーザ2の視覚が弱い場合にも、ユーザ2に発話テキストの内容を正確に認識させ、返信メッセージの候補から適切な返信メッセージを選択させることができる。 By outputting the utterance text and the voice of the reply message candidate, even if the user 2 has a weak vision, the user 2 is made to accurately recognize the content of the utterance text and select an appropriate reply message from the reply message candidates. be able to.
 表示部222及び音声出力部232を介して返信メッセージの候補を提示されたユーザ2は、提示された返信メッセージの候補の中から返信メッセージを選択する。ユーザ2は、返信メッセージを選択するために、操作入力部216、音声入力部211、及び画像入力部214の少なくとも1つを用いることができる。 The user 2 who is presented with a reply message candidate via the display unit 222 and the voice output unit 232 selects a reply message from the presented reply message candidates. The user 2 can use at least one of the operation input unit 216, the voice input unit 211, and the image input unit 214 in order to select the reply message.
 操作入力部216は、ユーザの操作信号を受信装置201に入力するための回路又は入力装置である。操作入力部216の例は、タッチパネル、キーボード、マウス、装置本体に設けられたボタンなどを含む。ユーザ2は、返信メッセージの候補から返信メッセージを選択する指示を入力する。例えば操作入力部216又は表示部222がタッチパネルを含む場合に、タッチパネルへの操作により、返信メッセージを選択する。例えば、図6(A)又は図6(B)において、返信メッセージの複数の候補のうち、返信したい候補を上からタッチする。 The operation input unit 216 is a circuit or an input device for inputting a user's operation signal to the receiving device 201. Examples of the operation input unit 216 include a touch panel, a keyboard, a mouse, buttons provided on the main body of the device, and the like. The user 2 inputs an instruction to select a reply message from the reply message candidates. For example, when the operation input unit 216 or the display unit 222 includes a touch panel, a reply message is selected by operating the touch panel. For example, in FIG. 6A or FIG. 6B, the candidate to be replied to is touched from above among the plurality of candidates of the reply message.
 操作入力部216は、選択された返信メッセージを特定するための情報を選択結果認識部217に提供する。選択された返信メッセージを特定するための情報は、返信メッセージに番号が付与されている場合は、選択された返信メッセージの番号でもよい。または、表示部222において当該選択された返信メッセージが配置されている表示エリア内の座標でもよい。その他の情報でもよい。 The operation input unit 216 provides the selection result recognition unit 217 with information for identifying the selected reply message. The information for identifying the selected reply message may be the number of the selected reply message, if the reply message is numbered. Alternatively, it may be the coordinates in the display area where the selected reply message is arranged on the display unit 222. Other information may be used.
 音声入力部211は、ユーザ2により発話されたメッセージの音声をセンシングし、センシングした信号を電気信号(音声信号)に変換する。音声入力部211は、一例としてマイクロフォンである。ユーザ2は、返信メッセージの候補から返信メッセージを選択する指示を発話する。例えば、各候補に番号が付与されている場合に、選択する返信メッセージの番号を発声する。または、返信するメッセージのテキストを読み上げてもよい。音声入力部211は、ユーザ1の指示等の発話を変換した音声信号を音声認識処理部212に提供する。 The voice input unit 211 senses the voice of the message uttered by the user 2 and converts the sensed signal into an electric signal (voice signal). The voice input unit 211 is, for example, a microphone. The user 2 utters an instruction to select a reply message from the reply message candidates. For example, when each candidate is assigned a number, the number of the reply message to be selected is uttered. Alternatively, you may read the text of the message you are replying to. The voice input unit 211 provides the voice recognition processing unit 212 with a voice signal obtained by converting an utterance such as an instruction of the user 1.
 なお、音声入力部211は、ユーザ1が採音の指示を行ったときに動作を開始し、採音の終了の指示を行ったときに又は指示の入力を完了した後に、動作を終了してもよい。採音の開始指示及び終了指示は、一例として、端末本体又はタッチパネルに設けられた採音ボタンを押すことにより行ってもよい。 The voice input unit 211 starts the operation when the user 1 gives an instruction for sound collection, and ends the operation when the user 1 gives an instruction to end the sound collection or after completing the input of the instruction. May be good. As an example, the sound collection start instruction and the sound collection end instruction may be given by pressing the sound collection button provided on the terminal body or the touch panel.
 音声認識処理部112は、音声入力部211から入力された音声信号に音声認識処理を行うことにより、音声信号をテキストのデータに変換する。音声認識処理部112は、変換により得られたテキストを自然言語理解処理部213に提供する。テキストを選択結果認識部217に直接提供する形態もあり得る。 The voice recognition processing unit 112 converts the voice signal into text data by performing voice recognition processing on the voice signal input from the voice input unit 211. The voice recognition processing unit 112 provides the text obtained by the conversion to the natural language understanding processing unit 213. There may be a form in which the text is directly provided to the selection result recognition unit 217.
 自然言語理解処理部213は、音声認識処理部112から提供されたテキストに基づき、自然言語理解処理を行うことにより、発話の意図(Intent)と、その意図における発話の対象(Entity)を推定する。例えば、ユーザ2が「2番で返信」と回答した場合、意図(Intent)として“返信”、Entityとして“2番”を推定する。Entityの種別は、例えば回答番号である。自然言語理解処理部213は、推定したIntentとEntityを選択結果認識部217に提供する。 The natural language understanding processing unit 213 estimates the utterance intention (Intent) and the utterance target (Entity) in the intention by performing the natural language understanding processing based on the text provided by the speech recognition processing unit 112. .. For example, when the user 2 replies "Reply with No. 2", "Reply" is estimated as the intention (Intent) and "No. 2" is estimated as the Entity. The type of Entity is, for example, an answer number. The natural language understanding processing unit 213 provides the estimated Intent and Entity to the selection result recognition unit 217.
 画像入力部214は、ユーザ2の画像をセンシングして撮像信号を得る。画像入力部214は、カメラ等のセンシングデバイスである。画像は静止画像でも動画像でもよい。画像入力部214は、一例として、一定の時間間隔で撮像を行う。撮像の対象は、ユーザ2の顔、上半身、全身など、ユーザ2の体の部位であれば、どこでもよい。画像入力部214は、撮像した画像データ(撮像信号)を画像認識処理部215に提供する。 The image input unit 214 senses the image of the user 2 and obtains an image pickup signal. The image input unit 214 is a sensing device such as a camera. The image may be a still image or a moving image. As an example, the image input unit 214 takes images at regular time intervals. The object of imaging may be any part of the body of the user 2, such as the face, upper body, and whole body of the user 2. The image input unit 214 provides the captured image data (imaging signal) to the image recognition processing unit 215.
 ユーザ2は、返信メッセージの候補から返信メッセージを選択するためのジェスチャを行ってもよい。例えば各候補に番号が付与されている場合に、選択する返信メッセージの番号を人差し指で描く動作を行う。また、口を動かして当該番号を読む動作を行ったり、口を動かして返信するメッセージのテキストを読む動作を行ったりしてもよい(声は出さなくてもよいし、出してもよい)。 User 2 may make a gesture to select a reply message from the reply message candidates. For example, when each candidate is assigned a number, the operation of drawing the number of the reply message to be selected with the index finger is performed. In addition, the operation of reading the number by moving the mouth may be performed, or the operation of reading the text of the message to be replied by moving the mouth may be performed (the voice may or may not be spoken).
 画像認識処理部215は、画像入力部214から入力された撮像信号に画像認識処理を行うことで、ユーザ2のジェスチャを識別する。例えばユーザ2の人差し指の動きの軌跡を解析し、ユーザ2が指示した番号を特定する。一例として、予めユーザの軌跡と番号とを対応づけたデータベースを用意しておく。画像認識処理で特定した軌跡にマッチする番号をユーザ2が指示した番号として特定する。また、ユーザ2の口の動きを識別し、ユーザが指示した番号を特定してもよい。画像認識処理部215は画像認識の結果を選択結果認識部217に提供する。例えば2番の返信メッセージを特定した場合は、2番を指定する情報を提供する。 The image recognition processing unit 215 identifies the gesture of the user 2 by performing image recognition processing on the image pickup signal input from the image input unit 214. For example, the locus of the movement of the index finger of the user 2 is analyzed, and the number specified by the user 2 is specified. As an example, a database in which a user's trajectory and a number are associated with each other is prepared in advance. A number matching the locus specified in the image recognition process is specified as a number instructed by the user 2. Further, the movement of the mouth of the user 2 may be identified, and the number specified by the user may be specified. The image recognition processing unit 215 provides the result of image recognition to the selection result recognition unit 217. For example, when the second reply message is specified, the information for specifying the second message is provided.
 ユーザ2の指示を特定する方法は、上記の方法に限定されない。例えばARグラス又はVRヘッドマウントディスプレイに情報処理装置101が搭載されている場合などに、アイトラッキングによりユーザが注視した返信メッセージ又は返信メッセージの番号を検出してもよい。 The method of specifying the instruction of the user 2 is not limited to the above method. For example, when the information processing device 101 is mounted on the AR glass or the VR head-mounted display, the reply message or the number of the reply message that the user gazes at may be detected by eye tracking.
 選択結果認識部217は、操作入力部216、画像認識処理部215及び自然言語理解処理部213の少なくとも1つから入力される情報に基づき、ユーザ2により選択された返信メッセージを識別する。選択結果認識部217は、識別した返信メッセージを特定する情報を含む選択結果情報を生成し、選択結果情報を送受信部218に提供する。 The selection result recognition unit 217 identifies the reply message selected by the user 2 based on the information input from at least one of the operation input unit 216, the image recognition processing unit 215, and the natural language understanding processing unit 213. The selection result recognition unit 217 generates selection result information including information for identifying the identified reply message, and provides the selection result information to the transmission / reception unit 218.
 返信メッセージを特定する情報は、返信メッセージのテキストそのものでもよいし、返信メッセージに番号が付与されている場合に当該番号でもよい。 The information that identifies the reply message may be the text of the reply message itself, or may be the number if the reply message is numbered.
 送受信部218は、選択結果認識部217から提供された選択結果情報を、情報処理装置101に送信する。選択結果情報は、例えば、通信ネットワーク301で用いられる通信プロトコルに応じて、パケット化され、パケットされたデータとして情報処理装置101に送信される。情報処理装置101へデータを届けるために必要な情報、例えば情報処理装置のアドレス(IPアドレスなど)は、予め送受信部218に設定されていてもよいし、情報処理装置101から受信されたパケットのヘッダから特定してもよい。 The transmission / reception unit 218 transmits the selection result information provided by the selection result recognition unit 217 to the information processing device 101. The selection result information is packetized and transmitted to the information processing apparatus 101 as packetized data according to the communication protocol used in the communication network 301, for example. Information necessary for delivering data to the information processing device 101, for example, the address of the information processing device (IP address, etc.) may be set in advance in the transmission / reception unit 218, or the packet received from the information processing device 101. It may be specified from the header.
 情報処理装置101と受信装置201との間に、前述したサーバが介在する場合は、受信装置201は、選択結果情報をサーバに送信する。この場合、情報処理装置101はサーバにアクセスして、情報処理装置101宛の選択結果情報を取得する。 When the above-mentioned server intervenes between the information processing device 101 and the receiving device 201, the receiving device 201 transmits the selection result information to the server. In this case, the information processing device 101 accesses the server and acquires the selection result information addressed to the information processing device 101.
 図2において情報処理装置101の送受信部119は、受信装置201から送信された選択結果情報を受信し、受信した選択結果情報を画像出力処理部121に提供する。また、送受信部119は、受信した選択結果情報を音声出力処理部131に提供する。選択結果情報が返信メッセージの番号を含む場合は、番号に対応する返信メッセージを特定し、特定した返信メッセージのテキストを、画像出力処理部121及び音声出力処理部131に提供する。 In FIG. 2, the transmission / reception unit 119 of the information processing device 101 receives the selection result information transmitted from the reception device 201, and provides the received selection result information to the image output processing unit 121. Further, the transmission / reception unit 119 provides the received selection result information to the voice output processing unit 131. When the selection result information includes the number of the reply message, the reply message corresponding to the number is specified, and the text of the specified reply message is provided to the image output processing unit 121 and the voice output processing unit 131.
 画像出力処理部121は、送受信部119から提供された選択結果情報を表示部122に表示する。表示部122は、液晶表示装置、有機EL表示装置又はプラズマ表示装置など、データを表示する表示装置であるが、これらの例に限られない。 The image output processing unit 121 displays the selection result information provided by the transmission / reception unit 119 on the display unit 122. The display unit 122 is a display device that displays data, such as a liquid crystal display device, an organic EL display device, or a plasma display device, but is not limited to these examples.
 図8は、表示部122に選択結果情報が表示された例を示す。選択結果情報で特定される返信メッセージが、ユーザ1の発話テキストの下側に配置されている。これによりユーザ1は、自分の発話したメッセージと、ユーザ2が返信したメッセージとを確認できる。ユーザ2の返信メッセージは、ユーザ1の発話のパラ言語情報を反映したものであるため、ユーザ1は、自分の発話の意図が正しくユーザ2に伝わっていると感じることができる。 FIG. 8 shows an example in which the selection result information is displayed on the display unit 122. The reply message specified by the selection result information is arranged below the utterance text of the user 1. As a result, the user 1 can confirm the message uttered by the user 1 and the message returned by the user 2. Since the reply message of the user 2 reflects the para-language information of the utterance of the user 1, the user 1 can feel that the intention of his / her utterance is correctly transmitted to the user 2.
 音声出力処理部131は、送受信部119から提供された返信メッセージのテキストを音声信号に変換し、音声信号を音声出力部132から音声として出力させる。音声出力は、ユーザ1の指示により行ってもよいし、選択結果情報が受信されると直ちに行ってもよい。ユーザ1の指示は、操作入力部(タッチパネル、キーボード、マウス等)を用いて行ってもよいし、画像入力部117、又は音声入力部111により行ってもよい。 The voice output processing unit 131 converts the text of the reply message provided by the transmission / reception unit 119 into a voice signal, and outputs the voice signal as voice from the voice output unit 132. The voice output may be performed according to the instruction of the user 1, or may be performed as soon as the selection result information is received. The instruction of the user 1 may be given by using the operation input unit (touch panel, keyboard, mouse, etc.), or by the image input unit 117 or the voice input unit 111.
 ユーザ1はユーザ2の返信メッセージを確認した後、続けて発話を行うことで、ユーザ2との対話を継続することができる。 User 1 can continue the dialogue with user 2 by continuously speaking after confirming the reply message of user 2.
 図9は、図8の状態の後、ユーザ1がユーザ2と対話を継続した例を示す。ユーザ1の発話メッセージと、ユーザ2の返信メッセージが追加されている。 FIG. 9 shows an example in which the user 1 continues the dialogue with the user 2 after the state of FIG. The utterance message of the user 1 and the reply message of the user 2 are added.
 本実施形態では図5において受信装置201が音声認識処理部212で生成されたテキストを自然言語理解処理部213に提供したが、選択結果認識部217に提供してもよい。この場合、受信装置201から自然言語理解処理部213を省いてもよい。選択結果認識部217は、音声認識処理部212から提供されたテキストに基づき、ユーザ2が選択した返信メッセージを特定する。例えば、ユーザ2が「2番」と回答した場合、テキストからキーワードマッチングにより“2番”を検出し、2番の返信メッセージが選択されたと判断する。 In the present embodiment, the receiving device 201 provided the text generated by the voice recognition processing unit 212 to the natural language understanding processing unit 213 in FIG. 5, but it may be provided to the selection result recognition unit 217. In this case, the natural language understanding processing unit 213 may be omitted from the receiving device 201. The selection result recognition unit 217 identifies the reply message selected by the user 2 based on the text provided by the voice recognition processing unit 212. For example, when the user 2 answers "No. 2", it is determined that "No. 2" is detected by keyword matching from the text and the No. 2 reply message is selected.
 上述した本実施形態の説明では、パラ言語情報としてユーザの発話テキストが質問を意図しているか否かを判定し、判定の結果に応じて返信メッセージの候補を生成する例を示した。以下では、パラ言語情報としてその他の例を用いて、返信メッセージの候補を生成する具体例を示す。 In the above description of the present embodiment, an example is shown in which it is determined whether or not the user's utterance text is intended as a question as paralinguistic information, and a reply message candidate is generated according to the result of the determination. In the following, a specific example of generating a reply message candidate will be shown using another example as para-language information.
[具体例1]
 図10は、具体例1を説明するための図である。ユーザ1が「明日の待ち合わせは10時半に横浜駅でいい」を発話したとする。この場合、音声認識処理部112において、発話テキスト(音声認識テキスト)として“明日の待ち合わせは10時半に横浜駅でいい”が生成される。自然言語理解処理部113では、“明日の待ち合わせは10時半に横浜駅でいい”の発話テキストから、自然言語理解処理により、発話の意図として“appointment”(約束)を推定する。Entityとして、明日(date)、10時半(time)、横浜駅(place)を推定する。カッコ内の文字はEntityの種別、カッコ外の文字はEntityの値である。
[Specific example 1]
FIG. 10 is a diagram for explaining the specific example 1. It is assumed that user 1 utters "Tomorrow's meeting is okay at Yokohama station at 10:30". In this case, the voice recognition processing unit 112 generates "Tomorrow's meeting is good at Yokohama Station at 10:30" as the utterance text (voice recognition text). The natural language understanding processing unit 113 estimates "appointment" as the intention of the utterance by the natural language understanding processing from the utterance text of "Tomorrow's meeting is good at Yokohama Station at 10:30". As an Entity, tomorrow (date), 10:30 (time), Yokohama station (place) is estimated. The characters in parentheses are the type of Entity, and the characters outside the parentheses are the value of Entity.
 音響解析認識処理部114は、ユーザ1の音声信号に基づき、音響特徴情報として、発話の周波数、音量、発話速度、及び発話の前後の時間間隔の少なくとも1つを測定する。
 発話内で強調されている単語として、以下の単語をパラ言語情報として、抽出する。
 ・周波数が発話内で相対的に高い単語、もしくは発話語尾で周波数が上昇している単語 ・発話内で音量が相対的に高い単語
 ・発話内で発話速度が相対的に遅い単語
 ・単語の発話の前後に間が一定時間以上空いている単語
The acoustic analysis recognition processing unit 114 measures at least one of the utterance frequency, volume, utterance speed, and time interval before and after the utterance as acoustic feature information based on the voice signal of the user 1.
The following words are extracted as paralinguistic information as words emphasized in the utterance.
-Words with a relatively high frequency in the utterance or words with a rising frequency at the end of the utterance-Words with a relatively high volume in the utterance-Words with a relatively slow utterance speed in the utterance-Word utterance Words with a certain amount of time before and after
 具体例として、ユーザ1が“10時半”を相対的に高い音量で発話した場合、“10時半”を発話している箇所の単語を、強調している単語として抽出する。また、ユーザ1が“横浜駅”を相対的に遅い速度で発話した場合、“横浜駅”を発話内で強調している箇所の単語を、単語として抽出する。具体的には、音声信号において当該箇所の信号を音声認識によりテキスト変換して、当該単語を抽出してもよい。あるいは、強調されている単語の開始時刻と終了時刻とを特定し、発話テキストにおいて、当該開始時刻と終了時刻との間に位置するテキスト部分を、強調されている単語として特定してもよい。あるいは、発話テキストを形態素解析して単語に分解し、各形態素(単語)に対応する信号の周波数、音量等を測定し、上記の基準に合致する単語を、ユーザ1が強調している単語として特定してもよい。 As a specific example, when the user 1 utters "10:30" at a relatively high volume, the word at the part where "10:30" is uttered is extracted as the emphasized word. Further, when the user 1 speaks "Yokohama Station" at a relatively slow speed, the word in the portion where "Yokohama Station" is emphasized in the utterance is extracted as a word. Specifically, in the voice signal, the signal at the relevant location may be converted into text by voice recognition to extract the word. Alternatively, the start time and end time of the emphasized word may be specified, and the text portion located between the start time and the end time in the utterance text may be specified as the emphasized word. Alternatively, the utterance text is morphologically analyzed, decomposed into words, the frequency, volume, etc. of the signal corresponding to each morpheme (word) are measured, and the word that meets the above criteria is regarded as the word emphasized by the user 1. It may be specified.
 さらに、音響解析認識処理部114は、前述した具体例(図3参照)と同様に、ユーザ1の発話の音声信号を音響解析することにより、基本周波数の変化量を検出する。発話の末尾で基本周波数の変化量が一定値以上上昇しているかを判断し、一定値以上上昇している場合、すなわち発話の末尾でピッチが上昇している場合は、発話者は質問を意図していると判断する。音響解析認識処理部114は、発話者(ユーザ1)は質問を意図しているか否かを示すパラ言語情報を生成する。 Further, the acoustic analysis recognition processing unit 114 detects the amount of change in the fundamental frequency by acoustically analyzing the audio signal of the utterance of the user 1 in the same manner as in the specific example (see FIG. 3) described above. At the end of the utterance, it is determined whether the amount of change in the fundamental frequency has increased by a certain value or more, and if it has increased by a certain value or more, that is, if the pitch has increased at the end of the utterance, the speaker intends to ask a question. Judge that you are doing. The acoustic analysis recognition processing unit 114 generates para-language information indicating whether or not the speaker (user 1) intends to ask a question.
 候補生成部115は、音響解析認識処理部114及び画像認識処理部118の少なくとも一方から提供されたパラ言語情報と、自然言語理解処理部113から提供されたIntent及びEntityとに基づき、返信フレーズDB116を用いて、返信メッセージの候補を生成する。パラ言語情報は、強調されている単語と、ユーザ1が質問を意図しているか否かの情報を含む。 The candidate generation unit 115 is based on the para-language information provided by at least one of the acoustic analysis recognition processing unit 114 and the image recognition processing unit 118, and the Intent and Entity provided by the natural language understanding processing unit 113, and the reply phrase DB 116 Is used to generate candidate reply messages. The paralinguistic information includes emphasized words and information on whether or not User 1 intends to ask a question.
 図11は、具体例1に係る返信フレーズDB116の一例を示す。返信フレーズDB116は、Intentと、強調されている単語のEntity種別と、質問意図の有無のパラ言語情報と、返信フレーズとを含む。図の例では、Intentが“appointment”(約束)であり、強調されている単語のEntity種別が“時刻”、“場所”等である。返信フレーズの列の<>はスロットを表す。 FIG. 11 shows an example of the reply phrase DB 116 according to the specific example 1. The reply phrase DB 116 includes an Intent, an Entity type of the emphasized word, para-language information on whether or not there is a question intention, and a reply phrase. In the example of the figure, the Intent is "appointment", and the Entity type of the emphasized word is "time", "place", and the like. The <> in the reply phrase column represents the slot.
 候補生成部115は、強調されている単語のEntity種別を判定する。例えば強調されている単語が“10時半”の場合、Entity値が“10時半”のEntity種別を、強調されている単語のEntity種別とする。 The candidate generation unit 115 determines the Entity type of the emphasized word. For example, when the emphasized word is "10:30", the Entity type whose Entity value is "10:30" is set as the Entity type of the emphasized word.
 強調されている単語のEntity種別と、Intentと、質問意図の有無とに基づき、返信フレーズDB116から、返信メッセージの候補を読み出す。 Read the reply message candidate from the reply phrase DB116 based on the Entity type of the emphasized word, the Intent, and the presence or absence of the question intention.
 Entity種別が“時刻”であり、Intentが“appointment”であり、ユーザ1に質問意図がある場合、“うん、<>でいいよ”、“もっと早い時間にしよう”、“もっと遅い時間にしよう”の3つの返信フレーズが取得される。1番目の“うん、<>でいいよ”に含まれるスロットに、Entity値である“10時半”を格納する。これにより、“うん、10時半でいいよ”、 “もっと早い時間にしよう”、“もっと遅い時間にしよう”の3つの返信メッセージの候補を得る。 If the Entity type is "time", the Intent is "appointment", and user 1 has the intention of asking a question, "Yeah, <> is okay", "Let's make it earlier", "Let's make it later" "Three reply phrases are acquired. The Entity value "10:30" is stored in the slot included in the first "Yeah, <> is okay". As a result, three reply message candidates, "Yeah, it's okay at 10:30", "Let's make it earlier", and "Let's make it later" are obtained.
 一方、Entity種別が“場所”であり、Intentが“appointment”であり、ユーザ1に質問意図がある場合、“うん、<>でいいよ”、“もっと近い所にしよう”、“もっと遠い所にしよう”の3つの返信フレーズが取得される。1番目の“うん、<>でいいよ”に含まれるスロットに、Entity値である“横浜駅”を格納する。これにより、“うん、横浜駅でいいよ”、 “もっと近い所にしよう”、“もっと遠い所にしよう”の3つの返信メッセージの候補を得る。 On the other hand, if the Entity type is "location", the Intent is "appointment", and user 1 has the intention of asking a question, "Yeah, <> is fine", "Let's move closer", "Farer place". Three reply phrases of "Let's do it" are acquired. The Entity value "Yokohama Station" is stored in the slot included in the first "Yeah, <> is okay". As a result, three reply message candidates, "Yeah, it's okay at Yokohama Station," "Let's move closer," and "Let's move farther," are obtained.
 ユーザ1に質問意図がある場合の例を記載したが、質問意図がない場合も同様にして返信メッセージの候補を得る。 The example when the user 1 has a question intention is described, but even if the user 1 does not have a question intention, a candidate for a reply message is obtained in the same manner.
 候補生成部115は、取得した返信メッセージの候補を送受信部119に提供する。送受信部119は、返信メッセージの候補と発話テキストとを含む送信メッセージ情報を受信装置201に送信する。受信装置201の表示部222は、情報処理装置101から受信された送信メッセージ情報を表示する。以降の動作は、前述した動作と同様である。 The candidate generation unit 115 provides the acquired reply message candidate to the transmission / reception unit 119. The transmission / reception unit 119 transmits transmission message information including a reply message candidate and an utterance text to the receiving device 201. The display unit 222 of the receiving device 201 displays the transmitted message information received from the information processing device 101. Subsequent operations are the same as the above-mentioned operations.
 図12(A)及び図12(B)は、具体例1に係る送信メッセージ情報の表示例を示す。図12(A)は、強調された単語のEntity種別が“時刻”であり、ユーザ1が質問を意図した場合に生成された返信メッセージの候補例を示す。図12(B)は、強調された単語のEntity種別が“場所”であり、ユーザ1が質問を意図した場合に生成された返信メッセージの候補例を示す。図12(A)及び図12(B)のいずれも、発話テキストの内容は同じである。受信側のユーザ2は、3つの候補の中から返信に用いるメッセージを、操作入力部216、画像入力部214及び音声入力部211の少なくとも1つを用いて選択する。 12 (A) and 12 (B) show a display example of the transmitted message information according to the specific example 1. FIG. 12A shows a candidate example of a reply message generated when the entity type of the emphasized word is “time” and the user 1 intends to ask a question. FIG. 12B shows a candidate example of a reply message generated when the entity type of the emphasized word is “location” and the user 1 intends to ask a question. The content of the utterance text is the same in both FIGS. 12 (A) and 12 (B). The user 2 on the receiving side selects a message to be used for reply from the three candidates by using at least one of the operation input unit 216, the image input unit 214, and the voice input unit 211.
[具体例2]
 図13は、具体例2を説明するための図である。ユーザ1が「夕飯は何がいい ハンバーグカレーラーメン」を発話したとする。この場合、発話テキスト(音声認識テキスト)として“夕飯は何がいい ハンバーグカレーラーメン”が音声認識処理部112から出力される。自然言語理解処理部113では、“夕飯は何がいい ハンバーグカレーラーメン”の発話テキストから、自然言語理解処理により、発話の意図(Intent)として“MenuSelect”(メニュー選択)を推定する。Entity値として“ハンバーグ”、“カレー”、“ラーメン”を推定する。ここではEntityの種別の推定は省略しているが、一例として“肉”、“ルー”、“麺”などの種別がある。
[Specific example 2]
FIG. 13 is a diagram for explaining a specific example 2. It is assumed that user 1 utters "What is good for dinner, hamburger curry ramen". In this case, "What is good for dinner, hamburger curry ramen" is output from the voice recognition processing unit 112 as the utterance text (speech recognition text). The natural language understanding processing unit 113 estimates “MenuSelect” as the intent of the utterance (menu selection) by the natural language understanding processing from the utterance text of “What is good for dinner hamburger curry ramen”. Estimate "hamburger", "curry", and "ramen" as Entity values. Although the estimation of the type of Entity is omitted here, there are types such as "meat", "roux", and "noodle" as an example.
 音響解析認識処理部114は、ユーザ1の発話の音声信号に基づき、音響特徴情報として、発話の無音区間の時間を測定する。音響解析認識処理部114は、発話の開始後において、時間長が閾値以上の無音区間を特定する。2つの無音区間に挟まれた単語をテキスト変換し、得られたテキストをユーザが意図した単語(アイテム)として識別する。あるいは無音区間に挟まれた箇所の開始時刻と終了時刻とを特定し、発話テキストにおいて、当該開始時刻と終了時刻との間に位置するテキスト部分を、ユーザが意図した単語として識別してもよい。あるいは、発話テキストを形態素解析して単語に分解し、上記の無音区間に挟まれた箇所に対応する単語を、ユーザ1が意図している単語として識別してもよい。その他の方法でユーザが意図した単語を識別してもよい。音響解析認識処理部114は、識別した単語(アイテム)を特定する情報をパラ言語情報として、候補生成部115に提供する。 The acoustic analysis recognition processing unit 114 measures the time of the silent section of the utterance as acoustic feature information based on the voice signal of the utterance of the user 1. The acoustic analysis recognition processing unit 114 identifies a silent section having a time length equal to or greater than a threshold value after the start of utterance. A word sandwiched between two silent sections is converted into text, and the obtained text is identified as a word (item) intended by the user. Alternatively, the start time and end time of the portion sandwiched between the silent sections may be specified, and the text portion located between the start time and the end time in the utterance text may be identified as a word intended by the user. .. Alternatively, the utterance text may be morphologically analyzed and decomposed into words, and the word corresponding to the portion sandwiched between the silent sections may be identified as the word intended by the user 1. The word intended by the user may be identified by other methods. The acoustic analysis recognition processing unit 114 provides the candidate generation unit 115 with information for identifying the identified word (item) as para-language information.
 具体的に、例えば、ユーザ1の発話テキスト“夕飯は何がいいハンバーグカレーラーメン”において、“夕飯は何がいい”と“ハンバーグ”との間、“ハンバーグ”と“カレーラーメン”との間、“カレーラーメン”の後に、閾値以上の長さの無音区間が検出されたとする。この場合、無音区間に挟まれた単語として、“ハンバーグ”と、“カレーラーメン”が抽出される。 Specifically, for example, in the spoken text "What is good for dinner hamburger curry ramen" of user 1, between "What is good for dinner" and "hamburger", between "hamburger" and "curry ramen", It is assumed that a silent section having a length equal to or longer than the threshold is detected after "curry ramen". In this case, "hamburger" and "curry ramen" are extracted as words sandwiched between silent sections.
 あるいは、“夕飯は何がいい“と“ハンバーグカレー”との間、“ハンバーグカレー”と“ラーメン”との間、“ラーメン”の後に、閾値以上の長さの無音区間が検出されたとする。この場合、無音区間に挟まれた単語として、“ハンバーグカレー”と、“ラーメン”が抽出される。 Alternatively, it is assumed that a silent section having a length longer than the threshold is detected between "what is good for dinner" and "hamburger curry", between "hamburger curry" and "ramen", and after "ramen". In this case, "hamburger curry" and "ramen" are extracted as words sandwiched between silent sections.
 あるいは、“夕飯は何がいい”と“ハンバーグ”との間、“ハンバーグ”と“カレー”との間、“カレー”と“ラーメン”との間、“ラーメン”の後に、閾値以上の長さの無音区間が検出されたとする。この場合、無音区間に挟まれた単語として、“ハンバーグ”と、“カレー”と、“ラーメン”が抽出される。 Alternatively, the length above the threshold between "what is good for dinner" and "hamburger", between "hamburger" and "curry", between "curry" and "ramen", and after "ramen". Suppose that a silent section of is detected. In this case, "hamburger", "curry", and "ramen" are extracted as words sandwiched between silent sections.
 候補生成部115は、自然言語理解処理部113から提供されたIntent及びEntity値と、音響解析認識処理部114及び画像認識処理部118の少なくとも一方から提供されたパラ言語情報とに基づき、返信フレーズDB116を用いて、返信メッセージの候補を生成する。 The candidate generation unit 115 is based on the Intent and Entity values provided by the natural language understanding processing unit 113 and the para-language information provided by at least one of the acoustic analysis recognition processing unit 114 and the image recognition processing unit 118. DB116 is used to generate reply message candidates.
 図14は、具体例2に係る返信フレーズDB116の一例を示す。返信フレーズDB116は、Intentと、パラ言語情報又はEntity種別と、返信フレーズとを含む。図の例では、Intentが“Menuselect”であり、パラ言語情報又はEntity種別が任意を表す“any”である。返信フレーズの列の<>はスロットを表す。図の例では返信フレーズにスロットのみが格納されているが、“<>がいい”など、スロット以外のテキストが含まれていてもよい。 FIG. 14 shows an example of the reply phrase DB 116 according to the specific example 2. The reply phrase DB 116 includes an Intent, para-language information or Entity type, and a reply phrase. In the example of the figure, the Intent is "Menuselect", and the para-language information or the Entity type is "any" indicating arbitrary. The <> in the reply phrase column represents the slot. In the example shown in the figure, only the slot is stored in the reply phrase, but text other than the slot may be included, such as "<> is good".
 候補生成部115は、パラ言語情報が“ハンバーグ”と“カレーラーメン”を示すとき、ユーザ1が、“ハンバーグ”と“カレーラーメン”の2つを意図して発話したと判定する。このため、3つのEntity値“ハンバーグ”、“カレー”、“ラーメン”のうち、“カレー”と“ラーメン”を結合して“カレーラーメン”とする。返信フレーズDB116からMenuSelectに対応する返信フレーズ“<>”を読み出し、“ハンバーグ”と“カレーラーメン”とをそれぞれスロットに格納して“ハンバーグ”、“カレーラーメン”の2つの返信メッセージの候補を得る。 When the para-language information indicates "hamburger" and "curry ramen", the candidate generation unit 115 determines that the user 1 has intentionally spoken "hamburger" and "curry ramen". Therefore, among the three Entity values "hamburger", "curry", and "ramen", "curry" and "ramen" are combined to form "curry ramen". Read the reply phrase "<>" corresponding to MenuSelect from the reply phrase DB116, store "hamburger" and "curry ramen" in the slots, respectively, and obtain two reply message candidates, "hamburger" and "curry ramen". ..
 パラ言語情報が“ハンバーグカレー”と“ラーメン”を示すとき、ユーザ1が、“ハンバーグカレー”と“ラーメン”の2つを意図して発話したと判定する。このため、3つのEntity値“ハンバーグ”、“カレー”、“ラーメン”のうち、“ハンバーグ”と“カレー”を結合して“ハンバーグカレー”とする。返信フレーズDB116からMenuSelectに対応する返信フレーズ“<>”を読み出し、“ハンバーグカレー”と“ラーメン”とをそれぞれスロットに格納して“ハンバーグカレー”、“ラーメン”の2つの返信メッセージの候補を得る。 When the para-language information indicates "hamburger curry" and "ramen", it is determined that the user 1 has intentionally spoken "hamburger curry" and "ramen". Therefore, among the three Entity values "hamburger", "curry", and "ramen", "hamburger" and "curry" are combined to form "hamburger curry". Read the reply phrase "<>" corresponding to MenuSelect from the reply phrase DB116, store "hamburger curry" and "ramen" in the slots, respectively, and obtain two reply message candidates, "hamburger curry" and "ramen". ..
 パラ言語情報が“ハンバーグ”と、“カレー”と“ラーメン”を示すとき、ユーザ1が、“ハンバーグ”と“カレー”と“ラーメン”の3つを意図して発話したと判定する。これら3つは、3つのEntity値“ハンバーグ”、“カレー”、“ラーメン”に一致する。返信フレーズDB116からMenuSelectに対応する返信フレーズ“<>”を読み出し、“ハンバーグ”、“カレー”、“ラーメン”をそれぞれスロットに格納して“ハンバーグ”、“カレー”、“ラーメン”の3つの返信メッセージの候補を得る。 When the para-language information indicates "hamburger", "curry" and "ramen", it is determined that the user 1 utters with the intention of "hamburger", "curry" and "ramen". These three correspond to the three Entity values "hamburger", "curry", and "ramen". Read the reply phrase "<>" corresponding to MenuSelect from the reply phrase DB116, store "hamburger", "curry", and "ramen" in the slots, respectively, and reply with three replies, "hamburger", "curry", and "ramen". Get message suggestions.
 上述した3つの例のうち最初の2つの例では、2つのEntity値を結合する例を示したが、Entity値を分離する場合もある。例えば、Entity値が“ハンバーグカレー”と“ラーメン”であり、パラ言語情報が“ハンバーグ”、“カレー”、“ラーメン”の3つを示していたとする。この場合、Entity値“ハンバーグカレー”を、“ハンバーグ”と“カレー”に分離する。そして、“ハンバーグ”、“カレー”、“ラーメン”の3つの返信メッセージの候補を得る。 In the first two examples of the above three examples, an example of combining two Entity values was shown, but there are cases where the Entity values are separated. For example, suppose that the Entity values are "hamburger curry" and "ramen", and the para-language information indicates "hamburger", "curry", and "ramen". In this case, the Entity value "hamburger curry" is separated into "hamburger" and "curry". Then, three reply message candidates, "hamburger", "curry", and "ramen", are obtained.
 また分離と結合の両方を行う場合もある。例えば、Entity値が“ハンバーグカレー”と“ラーメン”であり、パラ言語情報が“ハンバーグ”、“カレーラーメン”の2つを示していたとする。この場合、Entity値“ハンバーグカレー”を“ハンバーグ”と“カレー”に分離するとともに、分離された“カレー”を、Entity値“ラーメン”の前方に結合して、“カレーラーメン”とする。そして、“ハンバーグ”、“カレーラーメン”の2つの返信メッセージの候補を得る。 In some cases, both separation and combination are performed. For example, suppose that the Entity value is "hamburger curry" and "ramen", and the para-language information indicates "hamburger" and "curry ramen". In this case, the Entity value "hamburger curry" is separated into "hamburger" and "curry", and the separated "curry" is combined in front of the Entity value "ramen" to form "curry ramen". Then, two reply message candidates, "hamburger" and "curry ramen", are obtained.
 候補生成部115は、取得した返信メッセージの候補を送受信部119に提供する。送受信部119は、返信メッセージの候補と、発話テキストとを含む送信メッセージ情報を受信装置201に送信する。受信装置201の表示部222は、情報処理装置101から受信した送信メッセージ情報を表示する。 The candidate generation unit 115 provides the acquired reply message candidate to the transmission / reception unit 119. The transmission / reception unit 119 transmits transmission message information including a reply message candidate and an utterance text to the receiving device 201. The display unit 222 of the receiving device 201 displays the transmitted message information received from the information processing device 101.
 図15(A)、図15(B)、図15(C)は、具体例2に係る送信メッセージ情報の表示例を示す。図15(A)は、“ハンバーグ”、“カレー”、“ラーメン”の3つをユーザ1が意図して発話したと判定された場合の返信メッセージの候補例を示す。図15(B)は、“ハンバーグカレー”、“ラーメン”の2つのアイテムをユーザ1が意図して発話したと判定された場合の返信メッセージの候補例を示す。図15(C)は、“ハンバーグ”、“カレーラーメン”の2つのアイテムをユーザ1が意図して発話したと判定された場合の返信メッセージの候補例を示す。図15(A)~図15(C)のいずれの場合も、発話テキストは同じである。受信側のユーザ2は、3つ又は2つの候補の中から返信に用いるメッセージを、操作入力部216、画像入力部214及び音声入力部211の少なくとも1つを用いて選択する。 15 (A), 15 (B), and 15 (C) show a display example of the transmitted message information according to the specific example 2. FIG. 15A shows a candidate example of a reply message when it is determined that the user 1 intentionally utters the three “hamburger”, “curry”, and “ramen”. FIG. 15B shows a candidate example of a reply message when it is determined that the user 1 intentionally utters the two items “hamburger curry” and “ramen”. FIG. 15C shows a candidate example of a reply message when it is determined that the user 1 intentionally utters the two items “hamburger” and “curry ramen”. In any case of FIGS. 15 (A) to 15 (C), the utterance text is the same. The user 2 on the receiving side selects a message to be used for reply from the three or two candidates by using at least one of the operation input unit 216, the image input unit 214, and the voice input unit 211.
[具体例3]
 図16は、具体例3を説明するための図である。ユーザ1が「今日は8時までに帰ってこれるの」を発話したとする。この場合、発話テキスト(音声認識テキスト)として“今日は8時までに帰ってこれるの”が音声認識処理部112から出力される。自然言語理解処理部113では、“今日は8時までに帰ってこれるの”の発話テキストから、自然言語理解処理により、発話の意図(Intent)として“GoHome”(帰宅)を推定する。Entityの値として“8時”、Entityの種別として“time”(時刻)を推定する。
[Specific example 3]
FIG. 16 is a diagram for explaining a specific example 3. Suppose user 1 utters "Today I will be back by 8 o'clock". In this case, the voice recognition processing unit 112 outputs "Today I will be back by 8 o'clock" as the utterance text (speech recognition text). The natural language understanding processing unit 113 estimates "GoHome" (homecoming) as the intent of the utterance by the natural language understanding processing from the utterance text of "I will be back by 8 o'clock today". Estimate "8 o'clock" as the value of Entity and "time" as the type of Entity.
 音響解析認識処理部114は、ユーザ1の発話の音声信号を音響解析し、音響特徴情報として、周波数スペクトル又はりきみ度合いなどの特徴量を算出する。算出した特徴量に基づき、パラ言語情報(パラ言語情報1とする)として、ユーザ1の感情を表す情報を取得する。音声の特徴量とユーザの感情とを含む教師データを用いて、音声の特徴量からユーザの感情を推定するモデルを事前に機械学習などの方法により生成しておく。生成したモデルと、算出された特徴量とに基づき、ユーザ1の感情を推定する。 The acoustic analysis recognition processing unit 114 acoustically analyzes the audio signal of the utterance of the user 1 and calculates a feature amount such as a frequency spectrum or a degree of sharpness as acoustic feature information. Based on the calculated feature amount, information representing the emotion of the user 1 is acquired as para-language information (referred to as para-language information 1). Using teacher data including voice features and user emotions, a model for estimating user emotions from voice features is generated in advance by a method such as machine learning. The emotion of the user 1 is estimated based on the generated model and the calculated feature amount.
 さらに、音響解析認識処理部114は、前述した具体例(図3参照)と同様に、ユーザ1の発話の音声信号を音響解析することにより、基本周波数の変化量を検出する。発話の末尾で基本周波数の変化量が一定値以上上昇しているかを判断し、一定値以上上昇している場合、すなわち発話の末尾でピッチが上昇している場合は、発話者は質問を意図していると判断する。音響解析認識処理部114は、発話者(ユーザ1)は質問を意図しているか否かを示すパラ言語情報(パラ言語情報2とする)を生成する。 Further, the acoustic analysis recognition processing unit 114 detects the amount of change in the fundamental frequency by acoustically analyzing the audio signal of the utterance of the user 1 in the same manner as in the specific example (see FIG. 3) described above. At the end of the utterance, it is determined whether the amount of change in the fundamental frequency has increased by a certain value or more, and if it has increased by a certain value or more, that is, if the pitch has increased at the end of the utterance, the speaker intends to ask a question. Judge that you are doing. The acoustic analysis recognition processing unit 114 generates para-language information (referred to as para-language information 2) indicating whether or not the speaker (user 1) intends to ask a question.
 候補生成部115は、自然言語理解処理部113から提供されたIntent及びEntityと、音響解析認識処理部114及び画像認識処理部118の少なくとも一方から提供されたパラ言語情報とに基づき、返信フレーズDB116を用いて、返信メッセージの候補を生成する。パラ言語情報は、ユーザ1の感情と、ユーザ1が質問を意図しているか否かの情報を含む。 The candidate generation unit 115 is based on the Intent and Entity provided by the natural language understanding processing unit 113 and the para-language information provided by at least one of the acoustic analysis recognition processing unit 114 and the image recognition processing unit 118, and the reply phrase DB 116 Is used to generate candidate reply messages. The paralinguistic information includes the emotion of the user 1 and information on whether or not the user 1 intends to ask a question.
 図17は、具体例3に係る返信フレーズDB116の一例を示す。返信フレーズDB116は、Intentと、パラ言語情報1、パラ言語情報2と、返信フレーズとを含む。図の例では、Intentが“GoHome”(帰宅)であり、パラ言語情報1が感情(喜び、平常、怒り)であり、パラ言語情報2は質問意図の有無である。 FIG. 17 shows an example of the reply phrase DB 116 according to the specific example 3. The reply phrase DB 116 includes an Intent, para-language information 1, para-language information 2, and a reply phrase. In the example of the figure, Intent is “GoHome”, para-language information 1 is emotion (joy, normality, anger), and para-language information 2 is the presence or absence of question intention.
 候補生成部115は、パラ言語情報1が“喜び”を示し、パラ言語情報2がユーザ1に質問意図があることを示すとき、返信フレーズとして、“帰れるよ!”と“無理そう”を読み出す。読み出した返信フレーズをそれぞれ返信メッセージの候補とする。 When the para-language information 1 indicates "joy" and the para-language information 2 indicates that the user 1 has an intention to ask a question, the candidate generation unit 115 reads out "I can go home!" And "I can't do it" as reply phrases. .. Each read reply phrase is used as a candidate for a reply message.
 候補生成部115は、パラ言語情報1が“平常”を示し、パラ言語情報2がユーザ1に質問意図があることを示すとき、返信フレーズとして、“うん、<>までに帰れる”と“<>より遅くなりそう”を読み出す。そして、スロットにEntity値である“8時”を格納し、 “うん、8時までに帰れる”と“8時より遅くなりそう”を返信メッセージの候補として得る。 When the para-language information 1 indicates "normal" and the para-language information 2 indicates that the user 1 has an intention to ask a question, the candidate generation unit 115 uses "Yeah, I can return to <>" as a reply phrase. > Read "It seems to be slower". Then, the Entity value "8 o'clock" is stored in the slot, and "Yeah, I can return by 8 o'clock" and "It seems to be later than 8 o'clock" are obtained as candidates for the reply message.
 候補生成部115は、パラ言語情報1が“怒り”を示し、パラ言語情報2がユーザ1に質問意図があることを示すとき、返信フレーズとして、“はい、<>までに帰ります”と“ごめん、遅くなります”を読み出す。そして、前者の返信フレーズのスロットにEntity値である“8時”を格納し、“はい、8時までに帰ります”とする。これにより、“はい、8時までに帰ります”と“ごめん、遅くなります”を返信メッセージの候補を得る。 When the para-language information 1 indicates "anger" and the para-language information 2 indicates that the user 1 has the intention of asking a question, the candidate generation unit 115 uses "Yes, I will return to <>" as a reply phrase. I'm sorry, it will be late. " Then, the Entity value "8 o'clock" is stored in the slot of the former reply phrase, and "Yes, I will return by 8 o'clock". This will get candidates for reply messages such as "Yes, I'll be back by 8 o'clock" and "I'm sorry, I'll be late".
 パラ言語情報1がユーザ1に質問意図があることを示す場合の例を記載したが、ユーザ1に質問意図がないことを示す場合も、同様にして返信メッセージの候補を得る。 The paralinguistic information 1 has described an example of indicating that the user 1 has an intention to ask a question, but when the user 1 indicates that the user 1 has no intention of asking a question, a candidate for a reply message is obtained in the same manner.
 候補生成部115は、返信メッセージの候補を送受信部119に提供する。送受信部119は、返信メッセージの候補と、発話テキストとを含む送信メッセージ情報を受信装置201に送信する。受信装置201の表示部222は、受信した送信メッセージ情報を表示する。 The candidate generation unit 115 provides the reply message candidate to the transmission / reception unit 119. The transmission / reception unit 119 transmits transmission message information including a reply message candidate and an utterance text to the receiving device 201. The display unit 222 of the receiving device 201 displays the received transmission message information.
 図18(A)、図18(B)、図18(C)は、送信メッセージ情報を表示した例を示す。図18(A)は、ユーザ1の感情が“喜び”であり、ユーザ1に質問意図がある場合に生成された返信メッセージの候補例を示す。図18(B)は、ユーザ1の感情が“平常”であり、ユーザ1に質問意図がある場合に生成された返信メッセージの候補例を示す。図18(C)は、ユーザ1の感情が“怒り”であり、ユーザ1に質問意図がある場合に生成された返信メッセージの候補例を示す。図18(A)~図18(C)のいずれの場合も、発話テキストは同じである。受信側のユーザ2は、2つの候補の中から返信に用いるメッセージを、操作入力部216、画像入力部214及び音声入力部211の少なくとも1つを用いて選択する。 18 (A), 18 (B), and 18 (C) show an example of displaying the transmitted message information. FIG. 18A shows a candidate example of a reply message generated when the emotion of the user 1 is “joy” and the user 1 has an intention to ask a question. FIG. 18B shows a candidate example of a reply message generated when the emotion of the user 1 is “normal” and the user 1 has an intention to ask a question. FIG. 18C shows a candidate example of a reply message generated when the emotion of the user 1 is “anger” and the user 1 has an intention to ask a question. In any of FIGS. 18 (A) to 18 (C), the utterance text is the same. The user 2 on the receiving side selects a message to be used for reply from the two candidates by using at least one of the operation input unit 216, the image input unit 214, and the voice input unit 211.
 具体例3ではパラ言語情報としてユーザの感情を識別したが、ユーザの緊急度、フランク度、深刻度、及び緊張度等を識別し、識別した緊急度等に応じて返信メッセージの候補を生成してもよい。 In Specific Example 3, the user's emotions are identified as para-language information, but the user's urgency, flank, severity, tension, etc. are identified, and reply message candidates are generated according to the identified urgency, etc. You may.
 例えば、ユーザの発話速度により緊急度を判定できる。緊急度が高いほどユーザが急いでいると言える。そこで、短く簡潔なフレーズと、通常の長さのフレーズとをフレーズDBに用意しておく。緊急度が高い場合は、短く簡潔なフレーズを用いて、返信メッセージの候補を生成する。緊急度が低い場合は、通常の長さのフレーズを用いて、返信メッセージの候補を生成する。緊急度が高い場合は、一例として発話速度が閾値以上であり、緊急度が低い場合は、一例として発話速度が閾値未満である場合に相当する。 For example, the degree of urgency can be determined by the speech speed of the user. It can be said that the higher the degree of urgency, the more urgent the user is. Therefore, a short and concise phrase and a phrase having a normal length are prepared in the phrase DB. If the urgency is high, use short and concise phrases to generate suggestions for reply messages. If the urgency is low, use a phrase of normal length to generate a candidate reply message. When the degree of urgency is high, the utterance speed is, for example, equal to or higher than the threshold value, and when the degree of urgency is low, the utterance speed is, for example, less than the threshold value.
 また、語尾の母音長(超音符「ー」相当)及び音量増加度(感嘆符「!」相当)の少なくとも1つにより、発話のフランク度を判定できる。フランク度が高いほど親密な関係であると言える。そこで、砕けた言葉を使ったフレーズと、丁寧な言葉を使ったフレーズとを返信フレーズDBに用意しておく。フランク度が高い場合は、砕けた言葉を使ったフレーズを用いて、返信メッセージの候補を生成する。フランク度が低い場合は、丁寧な言葉を使ったフレーズを用いて、返信メッセージの候補を生成する。フランク度が高い場合は、一例として母音長が閾値以上の場合又は音量増加度が閾値以上であり、フランク度が低い場合は、一例として母音長が閾値未満の場合又は音量増加度が閾値未満の場合に相当する。 Also, the utterance flank degree can be determined by at least one of the vowel length at the end of the word (equivalent to the super-note "-") and the volume increase (equivalent to the exclamation mark "!"). It can be said that the higher the degree of flank, the closer the relationship. Therefore, a phrase using broken words and a phrase using polite words are prepared in the reply phrase DB. If the degree of flank is high, use phrases with broken words to generate candidate reply messages. If the flank is low, use polite language phrases to generate replies message suggestions. If the flank is high, the vowel length is above the threshold or the volume increase is above the threshold, and if the flank is low, the vowel length is below the threshold or the volume increase is below the threshold. Corresponds to the case.
 また、笑い声の検出有無により深刻度を判定できる。笑い声が検出された場合は深刻度が低いと言える。そこで、砕けた言葉のフレーズと丁寧な言葉のフレーズとを返信フレーズDBに用意しておく。笑い声が検出された場合は、砕けた言葉のフレーズを用いて返信メッセージの候補を生成する。笑い声が検出されない場合は、丁寧な言葉のフレーズを用いて返信メッセージの候補を生成する。 Also, the severity can be judged by the presence or absence of laughter detection. If laughter is detected, it can be said that the severity is low. Therefore, a phrase of broken words and a phrase of polite words are prepared in the reply phrase DB. If laughter is detected, a broken word phrase is used to generate a candidate reply message. If no laughter is detected, use polite language phrases to generate replies message suggestions.
 また、発話のピッチ、話速、音量及び発話の間の時間の少なくとも1つから発話者の緊張度を判定できる。ピッチ高い・話速速い・音量小さい・発話の間の時間長いと緊張度が上がると言える。そこで、やさしい砕けた口調のフレーズと、厳しい口調のフレーズとを、返信フレーズDBに格納しておく。緊張度が高い時ほど、発話者(ユーザ1)にリラックスしてもらうため、優しい砕けた口調のフレーズを用いて返信メッセージの候補を生成する。緊張度が低い時ほど、発話者(ユーザ1)に緊張感をもってもらうため、厳しい口調のフレーズを用いて返信メッセージの候補を生成する。緊張度が高い場合は、一例としてピッチが閾値以上、話速が閾値以上、音量が閾値未満、又は発話の間の時間が閾値以上の場合に相当する。緊張度が低い場合は、一例としてピッチが閾値未満、話速が閾値未満、音量が閾値以上、又は発話の間の時間が閾値未満の場合に相当する。 In addition, the degree of tension of the speaker can be determined from at least one of the pitch, speed, volume, and time between utterances. It can be said that the degree of tension increases when the pitch is high, the speaking speed is fast, the volume is low, and the time between utterances is long. Therefore, a phrase with a gentle broken tone and a phrase with a severe tone are stored in the reply phrase DB. The higher the tension, the more relaxed the speaker (user 1) is, so that a reply message candidate is generated using a phrase with a gentle and broken tone. When the degree of tension is low, candidates for reply messages are generated using phrases with a strict tone so that the speaker (user 1) feels more nervous. When the degree of tension is high, for example, it corresponds to the case where the pitch is equal to or more than the threshold value, the speaking speed is equal to or more than the threshold value, the volume is less than the threshold value, or the time between utterances is equal to or more than the threshold value. When the degree of tension is low, for example, it corresponds to the case where the pitch is below the threshold value, the speaking speed is below the threshold value, the volume is above the threshold value, or the time between utterances is below the threshold value.
 事前に機械学習により、音声の特徴量とユーザの緊急度等とを含む教師データを用いて、音声の特徴量から緊急度等を推定するモデルを生成してもよい。音声の特徴量の例は、発話速度、語尾の母音長・音量増加度、笑い声の検出有無、発話のピッチ、話速、音量及び発話の間の時間などを含む。この場合、生成したモデルと、ユーザ1の音声信号から算出される特徴量とに基づき、ユーザ1の緊急度、フランク度、深刻度、及び緊張度等を推定する。 A model for estimating the urgency etc. from the voice feature amount may be generated by using the teacher data including the voice feature amount and the user's urgency etc. by machine learning in advance. Examples of voice features include utterance speed, vowel length / volume increase at the end of a word, presence / absence of detection of laughter, utterance pitch, utterance speed, volume, and time between utterances. In this case, the urgency, flank, severity, tension, etc. of the user 1 are estimated based on the generated model and the feature amount calculated from the voice signal of the user 1.
 図19は、情報処理装置101の候補生成部115が返信メッセージの候補を生成の動作の一例のフローチャートである。音響解析認識処理部114から供給されるパラ言語情報に基づき、ユーザ1の発話意図が質問か否かを判断する(S11)。 FIG. 19 is a flowchart of an example of an operation in which the candidate generation unit 115 of the information processing device 101 generates a candidate for a reply message. Based on the para-language information supplied from the acoustic analysis recognition processing unit 114, it is determined whether or not the utterance intention of the user 1 is a question (S11).
 ユーザ1の発話意図が質問の場合(S11のYES)、自然言語理解処理部113から提供されるIntentに基づき、ユーザ1の質問の意図が、複数のアイテムの中からのアイテムの選択(アイテム選択)であるかを判断する(S12)。 When the user 1's utterance intention is a question (YES in S11), the user 1's question intention is to select an item from a plurality of items (item selection) based on the Intent provided by the natural language understanding processing unit 113. ) (S12).
 アイテム選択の場合(S12のYES)、パラ言語情報にもとづきアイテム区切り位置で、発話テキストを区切る。区切り位置で区切られた単語を、それぞれユーザ1が意図したアイテムとして特定する(S13)。特定したアイテムをそれぞれ1つ含むメッセージを、返信メッセージの候補として生成する(同S13)。この後、返信メッセージの候補を、発話テキストとともに、送受信部119を介して、受信装置201に送信する。 In the case of item selection (YES in S12), the utterance text is separated at the item delimiter position based on the para-language information. Each word separated by a delimiter position is specified as an item intended by the user 1 (S13). A message containing each of the specified items is generated as a candidate for a reply message (S13). After that, the candidate of the reply message is transmitted to the receiving device 201 together with the utterance text via the transmission / reception unit 119.
 ステップS12で、ユーザ1の意図がアイテム選択ではないと判断された場合(S12のNO)、質問に対する回答の対象となり得るEntityが複数存在するか判断する(S14)。例えば、自然言語理解処理部113から提供されるEntityの個数が複数であれば、回答の対象となり得るEntityが複数存在すると判断する。自然言語理解処理部113から提供されるEntityの個数が1つであれば、回答の対象となり得るEntityが単数であると判断する。 If it is determined in step S12 that the intention of user 1 is not item selection (NO in S12), it is determined whether there are a plurality of Entity that can be the target of the answer to the question (S14). For example, if the number of Entity provided by the natural language understanding processing unit 113 is a plurality, it is determined that there are a plurality of Entity that can be the target of the answer. If the number of Entity provided by the natural language understanding processing unit 113 is one, it is determined that the number of Entity that can be the target of the answer is singular.
 回答の対象となるEntityが複数存在すると判断した場合(S14のYES)、パラ言語情報に基づき、ユーザ1が強調している単語を特定する(S15)。また、特定した単語に基づき、複数のEntityのうち、質問の回答の対象となるEntityを特定する(S16)。ユーザ1の発話意図が質問であり、かつ特定したEntityの種別に対応する返信フレーズを返信フレーズDB116において特定する。特定した返信フレーズに基づき、返信メッセージの候補を生成する。(同S16)。 When it is determined that there are a plurality of Entity to be answered (YES in S14), the word emphasized by the user 1 is specified based on the para-language information (S15). Further, based on the specified word, the Entity to be the target of answering the question is specified among the plurality of Entity (S16). The utterance intention of the user 1 is a question, and the reply phrase corresponding to the specified Entity type is specified in the reply phrase DB 116. Generate candidate reply messages based on the identified reply phrase. (S16).
 ステップS14で回答の対象となり得るEntityが単数であると判断された場合も(S14のNO)、ユーザ1の発話の意図が質問であり、かつ当該単数のEntityの種別に対応する返信フレーズを返信フレーズDB116から取得する(同S16)。 Even if it is determined in step S14 that the number of Entity that can be the target of the answer is singular (NO in S14), the intention of the user 1's utterance is a question, and a reply phrase corresponding to the type of the singular Entity is returned. Obtained from the phrase DB116 (S16).
 一方、ステップS11でユーザ1の発話意図が質問でないと判断した場合は、返信フレーズDB116から発話の意図が非質問意図である場合の返信フレーズを返信フレーズDB116から取得する(S17)。 On the other hand, when it is determined in step S11 that the utterance intention of the user 1 is not a question, the reply phrase when the utterance intention is a non-question intention is acquired from the reply phrase DB 116 (S17).
 ステップS16又はステップS17で取得した返信フレーズの中に感情、緊急度、フランク度、深刻度又は緊張度によるフレーズのバリエーションが存在するかを判断する(S18)。例えば、返信フレーズDB116に感情、緊急度、フランク度、深刻度又は緊張度の列が存在すれば、感情、緊急度、フランク度、深刻度又は緊張度によるフレーズのバリエーションが存在すると判断する。フレーズのバリエーションが存在する場合は(S18のYES)、パラ言語情報が示す感情、緊急度、フランク度、深刻度又は緊張度に合致する返信フレーズに絞り込む。返信フレーズのバリエーションが存在しない場合は(S18のNO)、ステップS16又はステップS17で取得した返信フレーズをそのまま用いる。 It is determined whether the reply phrase acquired in step S16 or step S17 has a variation of the phrase depending on emotion, urgency, flank, severity or tension (S18). For example, if the reply phrase DB 116 has a sequence of emotion, urgency, flank, severity or tension, it is determined that there are variations of the phrase depending on emotion, urgency, flank, severity or tension. If there is a variation of the phrase (YES in S18), the reply phrase is narrowed down to match the emotion, urgency, flank, severity or tension indicated by the paralinguistic information. If there is no variation of the reply phrase (NO in S18), the reply phrase acquired in step S16 or step S17 is used as it is.
 返信フレーズにスロットが含まれているかを判断する(S20)。スロットが含まれている場合は、返信フレーズに含まれているスロットに、Entity値を格納し、返信メッセージの候補とする。格納するEntity値は、自然言語理解処理部から複数のEntity値が提供されている場合は、ステップS15で特定されたEntity値である。自然言語理解処理部から1つのEntity値が提供されている場合は、格納するEntity値は、当該1つのEntity値である(S21)。一方、返信フレーズにスロットが含まれていない場合は、当該返信フレーズをそのまま返信メッセージの候補とする。返信メッセージの候補を、発話テキストとともに、送受信部119を介して、受信装置201に送信する。 Determine if the reply phrase contains a slot (S20). If a slot is included, the Entity value is stored in the slot included in the reply phrase and used as a candidate for the reply message. The stored Entity value is the Entity value specified in step S15 when a plurality of Entity values are provided by the natural language understanding processing unit. When one Entity value is provided by the natural language understanding processing unit, the stored Entity value is the one Entity value (S21). On the other hand, if the reply phrase does not include a slot, the reply phrase is used as a candidate for the reply message as it is. The reply message candidate is transmitted to the receiving device 201 together with the utterance text via the transmission / reception unit 119.
(本実施形態の効果)
 本実施形態によれば、発話者(ユーザ1)の状況、態度又は感情を汲み取った返信メッセージの候補を対話相手(ユーザ2)に提示することにより、ユーザ2は、状況、態度又は感情を汲み取った返信メッセージをユーザ1に送信できる。これにより、音声認識したテキストだけでは生じうる意図伝達の齟齬を低減し、円滑なテキストコミュニケーションが可能となる。
(Effect of this embodiment)
According to the present embodiment, by presenting a candidate for a reply message that captures the situation, attitude, or emotion of the speaker (user 1) to the dialogue partner (user 2), the user 2 captures the situation, attitude, or emotion. The reply message can be sent to user 1. As a result, the discrepancy in intention transmission that may occur only with the voice-recognized text is reduced, and smooth text communication becomes possible.
 本実施形態によれば、対話相手には、発話者が期待する返信内容を含む候補が提示されるため、対話相手は候補を選択するだけで低負荷かつ迅速に、返信作業を行う事ができる。 According to the present embodiment, since the dialogue partner is presented with a candidate including the reply content expected by the speaker, the dialogue partner can perform the reply work quickly and with a low load simply by selecting the candidate. ..
 本実施形態は、聴覚障がい者向けの対話支援ツールとして有効である。健聴者の音声発話をテキスト化して難聴者へ提示する際に、健聴者のパラ言語情報に基づいた返信メッセージの候補を提示することにより、相互の意思疎通を高めることが可能となる。特に発話が困難な聴覚障がい者に対しては、返信メッセージの候補を選択するだけで返信できるため、低負荷かつ確実な応答が可能となる。 This embodiment is effective as a dialogue support tool for the hearing impaired. When the voice utterance of a hearing person is converted into a text and presented to a hearing-impaired person, it is possible to enhance mutual communication by presenting a candidate for a reply message based on the paralingual information of the hearing person. Especially for hearing-impaired people who have difficulty speaking, they can reply by simply selecting a candidate for a reply message, which enables a low-load and reliable response.
(変形例1)
 上述した実施形態では、ユーザ1のパラ言語情報と発話テキストとに基づきユーザ1へ返信する返信メッセージの候補を作成し、発話テキストと返信メッセージの候補とをユーザ2に送信した。本変形例では、ユーザ1のパラ言語情報に基づき、ユーザ1に送信するメッセージの候補を作成し、作成したメッセージの候補をユーザ2に送信する。ユーザ2は、受信した候補の中からユーザ1に送信するメッセージを選択し、選択したメッセージを送信する。
(Modification example 1)
In the above-described embodiment, a candidate for a reply message to be replied to the user 1 is created based on the para-language information of the user 1 and the candidate for the utterance text, and the utterance text and the candidate for the reply message are transmitted to the user 2. In this modification, a message candidate to be transmitted to the user 1 is created based on the para-language information of the user 1, and the created message candidate is transmitted to the user 2. The user 2 selects a message to be transmitted to the user 1 from the received candidates, and transmits the selected message.
 例えば、ユーザ1が発話をしばらく行わず、あくびをするなど退屈であることを表す動作を行ったとする。画像認識処理部118はユーザ1の撮像信号からパラ言語情報としてユーザ1が退屈していることを示す情報を生成する。候補生成部115は、パラ言語情報に基づき、ユーザ1へ送信するメッセージの候補として、“ひまだね”、“退屈なの?”などのメッセージ候補を生成する。生成した候補をユーザ2に送信する。ユーザ1は発話をしていないため発話テキストの送信は行わない。ユーザ2は、提示された候補の中から1つのメッセージを選択して、ユーザ1に送信する。ユーザ1はユーザ2から受信したメッセージを見て、対話を再開するなどの行動を行う。このようにすることで、ユーザ1が発話を行っていない場合も、ユーザ1のパラ言語情報を加味したメッセージをユーザ1に送信できるため、ユーザ1及びユーザ2間の円滑なコミュニケーションを促進できる。 For example, suppose that user 1 does not speak for a while and performs an action indicating that he / she is bored, such as yawning. The image recognition processing unit 118 generates information indicating that the user 1 is bored as para-language information from the image pickup signal of the user 1. The candidate generation unit 115 generates message candidates such as "Himadane" and "Is it boring?" As candidates for the message to be transmitted to the user 1 based on the para-language information. The generated candidate is transmitted to the user 2. Since the user 1 has not spoken, the spoken text is not transmitted. The user 2 selects one message from the presented candidates and sends it to the user 1. The user 1 sees the message received from the user 2 and performs an action such as resuming the dialogue. By doing so, even when the user 1 is not speaking, a message including the para-language information of the user 1 can be transmitted to the user 1, so that smooth communication between the user 1 and the user 2 can be promoted.
(変形例2)
 上述した実施形態では、ユーザ2は、返信メッセージの候補から1つの候補を選択することによりユーザ1への返信を行ったが、ユーザ2は、候補の選択を行うのではなく、自分で返信内容を考え、考えた内容の返信メッセージを直接作成し、送信してもよい。ユーザ2は、提示された返信メッセージの候補から、間接的にユーザ1の意図を推測できる。よって、ユーザ2がユーザ1に直接返信メッセージを送信する場合は、ユーザ1の意図を考慮した応答が可能である。
(Modification 2)
In the above-described embodiment, the user 2 replies to the user 1 by selecting one candidate from the candidates of the reply message, but the user 2 does not select the candidate, but the reply content by himself / herself. You may directly compose and send a reply message with the content you thought about. The user 2 can indirectly infer the intention of the user 1 from the candidates of the presented reply message. Therefore, when the user 2 directly sends the reply message to the user 1, the response can be made in consideration of the intention of the user 1.
 例えば、前述した図6(A)の場合、ユーザ1は提示された候補を参照することで、ユーザ1が質問を意図していると推測できる。よって、ユーザ2は、例えば「8時より遅くなるかもしれないけど、できるだけ早く帰るね」など、提示された候補とは返信メッセージを送信することができる。 For example, in the case of FIG. 6A described above, it can be inferred that the user 1 intends to ask a question by referring to the presented candidate. Therefore, the user 2 can send a reply message to the presented candidate, for example, "It may be later than 8 o'clock, but I will return as soon as possible."
 図20は、変形例2に係る受信装置201のブロック図である。音声認識処理部212から送受信部218にテキストを出力するパスが追加されている。音声入力部211を用いて音声を入力し、音声認識処理部212で、入力された音声の信号をテキスト変換することで、返信メッセージを作成する。返信メッセージは、音声認識処理部212から送受信部218に提供される。送受信部218から返信メッセージを情報処理装置101に送信する。なお、操作入力部216を用いて返信メッセージのテキストをユーザ2が手入力で作成してもよい。 FIG. 20 is a block diagram of the receiving device 201 according to the second modification. A path for outputting text from the voice recognition processing unit 212 to the transmission / reception unit 218 has been added. A reply message is created by inputting voice using the voice input unit 211 and converting the input voice signal into text by the voice recognition processing unit 212. The reply message is provided from the voice recognition processing unit 212 to the transmission / reception unit 218. A reply message is transmitted from the transmission / reception unit 218 to the information processing device 101. The user 2 may manually create the text of the reply message using the operation input unit 216.
(変形例3)
 音声認識処理部212で生成した発話テキストに、パラ言語情報に応じたテキスト加飾を行ってもよい。テキスト加飾は、例えば候補生成部115が行う。例えば、発話の末尾のピッチ上昇により質問意図有りと判定されたテキストの最後に疑問符「?」を追加してもよい。
(Modification example 3)
The utterance text generated by the voice recognition processing unit 212 may be decorated with text according to the para-language information. The text decoration is performed by, for example, the candidate generation unit 115. For example, a question mark "?" May be added to the end of the text that is determined to have a question intention due to the pitch increase at the end of the utterance.
 図21は、変形例3の説明図である。一例として、発話テキストが“今日は8時に帰れる”であり、質問意図有りと判定された場合は、図21(A)に示すように、末尾に“?”を加飾する。別の例として、テキスト全体の色を変えてもよい。また、右上に向いた矢印を末尾に追加してもよい。 FIG. 21 is an explanatory diagram of the modified example 3. As an example, when the utterance text is "I can return at 8 o'clock today" and it is determined that there is a question intention, a "?" Is added at the end as shown in FIG. 21 (A). As another example, the color of the entire text may be changed. You may also add an arrow pointing to the upper right at the end.
 発話テキストにおいてユーザ1が強調している単語のテキストの外観を変更してもよい。例えば、太字にしたり、文字サイズを大きくしたり、色を付けたりする。一例として、発話テキストが“明日の待ち合わせは10時半に横浜駅でいい”であり、“10時半”が強調されている場合は、図21(B)に示すように、“10時半”の文字サイズを大きくする。 The appearance of the text of the word emphasized by the user 1 in the utterance text may be changed. For example, make it bold, increase the font size, or add color. As an example, if the utterance text is "Tomorrow's meeting is good at Yokohama Station at 10:30" and "10:30" is emphasized, "10:30" as shown in Fig. 21 (B). Increase the font size of ".
 また発話テキストでアイテム区切り位置に読点“、” ドット“・” スラッシュ“/”などの、区切り位置を識別する情報を追加してもよい。一例として、発話テキストが“夕飯は何がいいハンバーグカレーラーメン”であり、“ハンバーグカレー”と“ラーメン”が区切られている場合は、図21(C)に示すように、“ハンバーグカレー”と“ラーメン”の間に、“/”の記号を追加する。 Also, information that identifies the delimiter position, such as a comma "," dot "・" slash "/", may be added to the item delimiter position in the utterance text. As an example, if the utterance text is "What is good hamburger curry ramen for dinner" and "hamburger curry" and "ramen" are separated, as shown in Fig. 21 (C), it is called "hamburger curry". Add the "/" symbol between "ramen".
 またパラ言語情報で示されるユーザの感情を識別する情報、例えば記号又は絵(顔などの絵文字、スタンプなど)を発話テキストに追加してもよい。一例として、発話テキストが“今日は8時までに帰ってこれるの“であり、ユーザの感情が怒りと判定された場合、図21(D)に示すように、発話テキストの末尾に、怒りの顔文字を追加する。この例では、ユーザが質問を意図しているとも判定され、疑問符も追加されている。 Also, information that identifies the user's emotions indicated by paralinguistic information, such as symbols or pictures (pictograms such as faces, stamps, etc.) may be added to the utterance text. As an example, when the utterance text is "I will be back by 8 o'clock today" and the user's emotion is judged to be angry, as shown in FIG. 21 (D), the anger is added to the end of the utterance text. Add emoticons. In this example, it is also determined that the user intends the question, and a question mark is added.
 また語尾の母音長が長く、かつフランク度が高いときときは、長音符「ー」を追加してもよい(図21(E))。語尾の音量増加度が高く、フランク度が高いときは、感嘆符「!」を追加してもよい(図21(F))。笑い声が検出されたときは、ユーザが笑っていることを識別する情報、例えば笑顔などの顔文字又はスタンプ等を追加してもよい(図21(G))。 If the vowel length at the end of the word is long and the degree of flank is high, the long note "-" may be added (Fig. 21 (E)). When the volume increase at the end of the word is high and the flank is high, an exclamation mark “!” May be added (FIG. 21 (F)). When laughter is detected, information identifying that the user is laughing, for example, an emoticon such as a smile or a stamp may be added (FIG. 21 (G)).
 このように発話テキストを加飾することにより、受信側のユーザ2の発話テキストに対する理解度を向上させることができる。また加飾された発話テキストを、表示部122及び音声出力部132の少なくとも一方を介して、ユーザ1(発話者)に提示してもよい。これにより、パラ言語情報がユーザ1にフィードバックされ、ユーザ1にパラ言語情報を用いた発話を誘導する効果を見込むことができる。 By decorating the utterance text in this way, the degree of understanding of the utterance text of the receiving user 2 can be improved. Further, the decorated utterance text may be presented to the user 1 (speaker) via at least one of the display unit 122 and the voice output unit 132. As a result, the para-language information is fed back to the user 1, and the effect of inducing the user 1 to speak using the para-language information can be expected.
(変形例4)
 ユーザ1(発話者)の発話テキストと、返信メッセージの候補のテキストとを、受信側のユーザ2の使用言語に翻訳し、翻訳した発話テキスト及び翻訳した候補のテキストを、受信側のユーザ2に提示してもよい。これにより、異言語間での音声認識を使ったテキストコミュニケーションを行う場合にも、前述した実施形態及び各種変形例の効果を得ることができる。発話テキストの翻訳は、上述のパラ言語情報による加飾が行われたテキストを翻訳してもよい。特に疑問符は、付与することにより言語的な翻訳結果(英訳時の主語や構文)が変化するため有効である。
(Modification example 4)
The utterance text of user 1 (speaker) and the candidate text of the reply message are translated into the language used by the receiving user 2, and the translated utterance text and the translated candidate text are transmitted to the receiving user 2. You may present it. As a result, the effects of the above-described embodiment and various modifications can be obtained even when text communication using voice recognition between different languages is performed. The utterance text may be translated by translating the text decorated with the paralinguistic information described above. In particular, question marks are effective because the linguistic translation results (subject and syntax at the time of English translation) change when they are added.
 図22は、変形例4に係る情報処理装置101のブロック図である。翻訳処理部141が追加されている。翻訳処理部141は、音声認識処理部112から発話テキストを取得し、発話テキストを翻訳する。翻訳した発話テキストを送受信部119に提供する。翻訳処理部141は、返信メッセージの候補を翻訳し、翻訳した候補を送受信部119に提供する。翻訳元の言語及び翻訳先の言語は、予め本実施形態の処理を実現するアプリケーション又はOS(Operating System)に設定されており、ユーザ1により言語の変更が可能である。送受信部119は、翻訳された発話テキスト及び翻訳された候補を、受信装置201に送信する。送受信部119は受信装置201から受信される選択結果情報で指定される返信メッセージを翻訳処理部141に提供し、翻訳処理部141で返信メッセージを元の言語に翻訳する。送受信部119は、元の言語に翻訳された返信メッセージを翻訳処理部141から受け取って、画像出力処理部121及び音声出力処理部131の少なくとも一方に提供する。 FIG. 22 is a block diagram of the information processing device 101 according to the modified example 4. Translation processing unit 141 has been added. The translation processing unit 141 acquires the utterance text from the voice recognition processing unit 112 and translates the utterance text. The translated utterance text is provided to the transmission / reception unit 119. The translation processing unit 141 translates the candidate of the reply message and provides the translated candidate to the transmission / reception unit 119. The translation source language and the translation destination language are set in advance in the application or OS (Operating System) that realizes the processing of the present embodiment, and the language can be changed by the user 1. The transmission / reception unit 119 transmits the translated utterance text and the translated candidate to the receiving device 201. The transmission / reception unit 119 provides the translation processing unit 141 with the reply message specified by the selection result information received from the reception device 201, and the translation processing unit 141 translates the reply message into the original language. The transmission / reception unit 119 receives the reply message translated into the original language from the translation processing unit 141 and provides it to at least one of the image output processing unit 121 and the voice output processing unit 131.
 本変形例によれば、発話者の発話テキストおよび返信メッセージの候補を受信側のユーザの使用言語に翻訳して提示することにより、発話者の使用言語を理解できないユーザでも、発話者の意図・状況・態度・感情まで汲みとった適切な返信を返すことが可能となる。 According to this variant, by translating and presenting the utterance text of the speaker and the candidate of the reply message into the language used by the receiving user, even a user who cannot understand the language used by the speaker can understand the intention of the speaker. It is possible to return an appropriate reply that captures the situation, attitude, and emotions.
(変形例5)
 返信フレーズDBは初期状態では、例えばIntent及びパラ言語情報に対応づいたフレーズが格納されている。ユーザ1が他のユーザとコミュニケーションを行う中で、相手のユーザが自由に作成してメッセージを返信した場合に、返信されたメッセージで返信フレーズDBを更新するようにしてもよい。例えば、他のユーザに送信した候補に対応する返信フレーズのうちの1つを、他のユーザから返信されたメッセージで更新してもよい。あるいは、返信されたメッセージを返信フレーズDBに新たな返信フレーズとして追加してもよい。
(Modification 5)
In the initial state, the reply phrase DB stores, for example, phrases corresponding to Intent and para-language information. When the user 1 freely creates and replies a message while communicating with another user, the reply phrase DB may be updated with the replied message. For example, one of the reply phrases corresponding to the candidate sent to another user may be updated with the message returned from the other user. Alternatively, the returned message may be added to the reply phrase DB as a new reply phrase.
(変形例6)
 候補生成部115は、ユーザ1(発話者)個人の属性情報に応じて、返信メッセージの候補を生成してもよい。例えば、年齢に応じた返信フレーズを返信フレーズDB116に格納しておき、発話者の年齢に応じて、使用する返信フレーズを使い分かる。例えば、子供又は高齢者の場合には平易な文言の返信フレーズを用いる。また、性別に応じて、使用する返信フレーズを使い分けてもよい。また、複数の方言の返信フレーズを格納しておき、発話者の居住エリア又は出身地等に応じて、使用する返信フレーズを使い分けてもよい。ここでは発話者の属性情報に応じた返信フレーズを使い分けたが、受信側のユーザ2の属性情報に応じて返信フレーズを使い分けてもよい。
(Modification 6)
The candidate generation unit 115 may generate a candidate for a reply message according to the attribute information of the individual user 1 (speaker). For example, a reply phrase according to the age is stored in the reply phrase DB 116, and the reply phrase to be used can be used according to the age of the speaker. For example, in the case of children or the elderly, use plain language reply phrases. In addition, the reply phrase to be used may be used properly according to the gender. Further, the reply phrases of a plurality of dialects may be stored, and the reply phrases to be used may be used properly according to the place of residence or the place of origin of the speaker. Here, the reply phrase is used properly according to the attribute information of the speaker, but the reply phrase may be used properly according to the attribute information of the user 2 on the receiving side.
(変形例7)
 前述した実施形態及び各変形例では、受信側のユーザ2は人間であったが、ユーザ2は、人ではなく音声エージェント又はチャットボットなどのコンピュータシステムであってもよい。この場合、パラ言語情報に基づいて生成された返信候補の中からシステムが返信に使用する候補を選択する。
(Modification 7)
In the above-described embodiment and each modification, the user 2 on the receiving side is a human being, but the user 2 may be a computer system such as a voice agent or a chatbot instead of a human being. In this case, the system selects the candidate to be used for the reply from the reply candidates generated based on the para-language information.
 これにより、ユーザ1からシステムへユーザ1のパラ言語情報を加味した意思伝達ができるようになり、システムからの応答もユーザ1のパラ言語情報を反映させた内容とすることができる。よって、人とシステムとの音声による円滑なコミュニケーションが可能となる。 As a result, it becomes possible for the user 1 to communicate with the system in consideration of the para-language information of the user 1, and the response from the system can also reflect the para-language information of the user 1. Therefore, smooth voice communication between the person and the system becomes possible.
(変形例8)
 前述した実施形態では、ユーザ1が質問を意図した発話、特定の単語を強調した発話、複数のアイテムを列挙する発話、感情を含む発話などを行う例を示した。ユーザ1が実際に各場合の発話を行う際、パラ言語情報取得部120の動作アルゴリズムに適合した発話を行うことで、より正確にユーザ1のパラ言語情報を取得できる。そこで、各場合の発話の音声サンプルを用意し、ユーザ1が音声サンプルを聴くことで、より適切な発話を学習できるようにしてもよい。
(Modification 8)
In the above-described embodiment, an example is shown in which the user 1 makes an utterance intended to ask a question, an utterance emphasizing a specific word, an utterance enumerating a plurality of items, an utterance including emotions, and the like. When the user 1 actually makes an utterance in each case, the para-language information of the user 1 can be acquired more accurately by making an utterance that matches the operation algorithm of the para-language information acquisition unit 120. Therefore, a voice sample of the utterance in each case may be prepared so that the user 1 can learn a more appropriate utterance by listening to the voice sample.
 図23(A)~図23(D)は、音声サンプルを再生するメニューの表示例を示す。図23(A)は、質問を意図した発話の音声サンプルと、質問を意図しない発話の音声サンプルを再生する画面の例を示す。ユーザ1は音声サンプルのボタンをクリック又はタッチ等することで、音声サンプルを再生できる。図23(B)は、時刻と場所とを含むメッセージを発話する場合に、時刻を強調して発話する音声サンプルと、場所を強調して発話する音声サンプルを再生する画面の例を示す。図23(C)は、3つのアイテムを列挙する発話を行う音声サンプルと、2つのアイテムを列挙する発話を行う音声サンプルを再生する画面の例を示す。図24(D)は、喜び、平常、怒りの感情を込めて発話を行う場合の各音声サンプルの例を示す。 FIGS. 23 (A) to 23 (D) show a display example of a menu for playing back an audio sample. FIG. 23A shows an example of a screen for playing back a voice sample of an utterance intended to ask a question and a voice sample of an utterance not intended to ask a question. User 1 can play the voice sample by clicking or touching the button of the voice sample. FIG. 23B shows an example of a screen for reproducing a voice sample that emphasizes the time and utters and a voice sample that emphasizes the place when uttering a message including the time and place. FIG. 23C shows an example of a screen for playing back an utterance voice sample that enumerates three items and an utterance voice sample that enumerates two items. FIG. 24D shows an example of each voice sample when speaking with feelings of joy, normality, and anger.
 ユーザ1は、図23(A)~図23(D)に示した音声サンプルを聴いてから実際に発話を行うことで、自身のパラ言語情報をより適切に、返信メッセージの候補及び発話テキストの加飾に反映させることができる。 The user 1 listens to the voice samples shown in FIGS. 23 (A) to 23 (D) and then actually speaks, so that the user 1 can more appropriately use his / her para-language information and can select the reply message and the spoken text. It can be reflected in the decoration.
(変形例9)
 上述した実施形態では、パラ言語情報を取得するためのセンシング信号として音声信号及び映像信号を用いたが、ユーザ1からセンシングした信号であれば、他の信号を用いてもよい。例えば、ウェアラブルデバイスを用いてユーザ1の体温、血圧、心拍数、身体の動きなどを計測し、計測した情報に基づきパラ言語情報を取得してもよい。例えば、心拍数が高く、血圧が高い場合は、ユーザ1の緊張度が高いとのパラ言語情報を取得する。
(Modification 9)
In the above-described embodiment, the audio signal and the video signal are used as the sensing signal for acquiring the para-language information, but other signals may be used as long as the signal is sensed from the user 1. For example, a wearable device may be used to measure the body temperature, blood pressure, heart rate, body movement, etc. of the user 1, and paralinguistic information may be acquired based on the measured information. For example, when the heart rate is high and the blood pressure is high, the paralinguistic information that the tension of the user 1 is high is acquired.
(ハードウェア構成)
 図24に、図2の情報処理装置101のハードウェア構成の一例を示す。図1の受信装置201も情報処理装置101と同様のハードウェアで構成される。図2の情報処理装置101は、コンピュータ装置400により構成される。コンピュータ装置400は、CPU401と、入力インタフェース402と、表示装置403と、通信装置404と、主記憶装置405と、外部記憶装置406とを備え、これらはバス407により相互に接続されている。コンピュータ装置400は、一例として、スマートフォン、タブレット、デスクトップ型PC(Perfonal Computer)、又はノート型PCとして構成される。
(Hardware configuration)
FIG. 24 shows an example of the hardware configuration of the information processing device 101 of FIG. The receiving device 201 of FIG. 1 is also composed of the same hardware as the information processing device 101. The information processing device 101 of FIG. 2 is composed of a computer device 400. The computer device 400 includes a CPU 401, an input interface 402, a display device 403, a communication device 404, a main storage device 405, and an external storage device 406, which are connected to each other by a bus 407. As an example, the computer device 400 is configured as a smartphone, a tablet, a desktop PC (Performal Computer), or a notebook PC.
 CPU(中央演算装置)401は、主記憶装置405上で、コンピュータプログラムである情報処理プログラムを実行する。情報処理プログラムは、情報処理装置101の上述の各機能構成を実現するプログラムのことである。情報処理プログラムは、1つのプログラムではなく、複数のプログラムやスクリプトの組み合わせにより実現されていてもよい。CPU401が、情報処理プログラムを実行することにより、各機能構成は実現される。 The CPU (Central Processing Unit) 401 executes an information processing program, which is a computer program, on the main storage device 405. The information processing program is a program that realizes each of the above-mentioned functional configurations of the information processing device 101. The information processing program may be realized not by one program but by a combination of a plurality of programs and scripts. Each functional configuration is realized by the CPU 401 executing the information processing program.
 入力インタフェース402は、キーボード、マウス、およびタッチパネルなどの入力装置からの操作信号を、情報処理装置101に入力するための回路である。 The input interface 402 is a circuit for inputting operation signals from input devices such as a keyboard, mouse, and touch panel to the information processing device 101.
 表示装置403は、情報処理装置101から出力されるデータを表示する。表示装置403は、例えば、LCD(液晶ディスプレイ)、有機エレクトロルミネッセンスディスプレイ、CRT(ブラウン管)、またはPDP(プラズマディスプレイ)であるが、これに限られない。コンピュータ装置400から出力されたデータは、この表示装置403に表示することができる。 The display device 403 displays the data output from the information processing device 101. The display device 403 is, for example, an LCD (liquid crystal display), an organic electroluminescence display, a CRT (cathode ray tube), or a PDP (plasma display), but is not limited thereto. The data output from the computer device 400 can be displayed on the display device 403.
 通信装置404は、情報処理装置101が外部装置と無線または有線で通信するための回路である。データは、通信装置404を介して外部装置から入力することができる。外部装置から入力したデータを、主記憶装置405や外部記憶装置406に格納することができる。 The communication device 404 is a circuit for the information processing device 101 to communicate with the external device wirelessly or by wire. Data can be input from an external device via the communication device 404. The data input from the external device can be stored in the main storage device 405 or the external storage device 406.
 主記憶装置405は、情報処理プログラム、情報処理プログラムの実行に必要なデータ、および情報処理プログラムの実行により生成されたデータなどを記憶する。情報処理プログラムは、主記憶装置405上で展開され、実行される。主記憶装置405は、例えば、RAM、DRAM、SRAMであるが、これに限られない。図2の返信フレーズDBは、主記憶装置405上に構築されてもよい。 The main storage device 405 stores an information processing program, data necessary for executing the information processing program, data generated by executing the information processing program, and the like. The information processing program is developed and executed on the main storage device 405. The main storage device 405 is, for example, RAM, DRAM, and SRAM, but is not limited thereto. The reply phrase DB of FIG. 2 may be built on the main storage device 405.
 外部記憶装置406は、情報処理プログラム、情報処理プログラムの実行に必要なデータ、および情報処理プログラムの実行により生成されたデータなどを記憶する。これらの情報処理プログラムやデータは、情報処理プログラムの実行の際に、主記憶装置405に読み出される。外部記憶装置406は、例えば、ハードディスク、光ディスク、フラッシュメモリ、及び磁気テープであるが、これに限られない。図2の返信フレーズDBは、外部記憶装置406上に構築されてもよい。 The external storage device 406 stores an information processing program, data necessary for executing the information processing program, data generated by executing the information processing program, and the like. These information processing programs and data are read out to the main storage device 405 when the information processing program is executed. The external storage device 406 is, for example, a hard disk, an optical disk, a flash memory, and a magnetic tape, but is not limited thereto. The reply phrase DB of FIG. 2 may be built on the external storage device 406.
 なお、情報処理プログラムは、コンピュータ装置400に予めインストールされていてもよいし、CD-ROMなどの記憶媒体に記憶されていてもよい。また、情報処理プログラムは、インターネット上にアップロードされていてもよい。 The information processing program may be installed in the computer device 400 in advance, or may be stored in a storage medium such as a CD-ROM. Further, the information processing program may be uploaded on the Internet.
 また、情報処理装置101は、単一のコンピュータ装置400により構成されてもよいし、相互に接続された複数のコンピュータ装置400からなるシステムとして構成されてもよい。 Further, the information processing device 101 may be configured by a single computer device 400, or may be configured as a system composed of a plurality of computer devices 400 connected to each other.
 なお、上述の実施形態は本開示を具現化するための一例を示したものであり、その他の様々な形態で本開示を実施することが可能である。例えば、本開示の要旨を逸脱しない範囲で、種々の変形、置換、省略又はこれらの組み合わせが可能である。そのような変形、置換、省略等を行った形態も、本開示の範囲に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。 Note that the above-described embodiment shows an example for embodying the present disclosure, and the present disclosure can be implemented in various other forms. For example, various modifications, substitutions, omissions, or combinations thereof are possible without departing from the gist of the present disclosure. The forms in which such modifications, substitutions, omissions, etc. are made are also included in the scope of the invention described in the claims and the equivalent scope thereof, as are included in the scope of the present disclosure.
 また、本明細書に記載された本開示の効果は例示に過ぎず、その他の効果があってもよい。 Further, the effects of the present disclosure described in the present specification are merely examples, and other effects may be obtained.
 なお、本開示は以下のような構成を取ることもできる。
 [項目1]
 第1ユーザをセンシングしたセンシング信号に基づき、前記第1ユーザのパラ言語情報を取得するパラ言語情報取得部と、
 前記パラ言語情報に基づき、前記第1ユーザに送信するメッセージの候補を生成する候補生成部と、
 前記メッセージの候補を、前記第1ユーザとメッセージ交換を行う第2ユーザの装置に送信する送信部と、
 を備えた情報処理装置。
 [項目2]
 前記センシング信号は、前記第1ユーザの音声信号を含み、
 前記第1ユーザの音声信号を音声認識して、前記第1ユーザが発話した第1メッセージのテキストデータを取得する音声認識処理部を備え、
 前記候補生成部は、前記第1メッセージに対し前記第2ユーザが返信する第2メッセージの候補を生成し、
 前記送信部は、前記テキストデータと、前記第2メッセージの候補とを前記第2ユーザの装置に送信する
 項目1に記載の情報処理装置。
 [項目3]
 前記第2ユーザの装置から、前記メッセージの候補のうち選択された前記候補を含む返信メッセージを受信する受信部と、
 前記受信部で受信された前記返信メッセージを表示する表示部と
 を備えた項目1~2に記載の情報処理装置。
 [項目4]
 前記センシング信号は前記第1ユーザの音声信号を含み、
 前記パラ言語情報取得部は、前記第1ユーザの音声信号の音響特徴情報に基づき、前記パラ言語情報を取得する
 項目1~3のいずれか一項に記載の情報処理装置。
 [項目5]
 前記センシング信号は前記第1ユーザの撮像信号を含み、
 前記パラ言語情報取得部は、前記第1ユーザの撮像信号に基づき画像認識を行い、前記画像認識の結果に基づき、前記パラ言語情報を取得する
 項目1~4のいずれか一項に記載の情報処理装置。
 [項目6]
 前記テキストデータに基づき、前記第1ユーザの発話の意図と前記発話の対象とを推定する自然言語処理部を備え、
 前記候補生成部は、前記発話の意図と、前記発話の対象と、前記パラ言語情報とに基づき、前記第2メッセージの候補を生成する
 項目2に記載の情報処理装置。
 [項目7]
 複数のフレーズを格納した返信フレーズデータベースを備え、
 前記候補生成部は、前記返信フレーズデータベースにおいて前記発話の意図と、前記パラ言語情報とに応じたフレーズを特定し、特定したフレーズに基づき、前記第2メッセージの候補を生成する
 項目6に記載の情報処理装置。
 [項目8]
 前記パラ言語情報は、前記第1ユーザが質問を意図しているか否かの情報を含む
 項目2に記載の情報処理装置。
 [項目9]
 前記パラ言語情報は、前記テキストデータにおいて強調されている単語を特定する情報を含む
 項目2に記載の情報処理装置。
 [項目10]
 前記パラ言語情報は、前記テキストデータにおいて単語の区切り位置を特定する情報を含む
 項目2に記載の情報処理装置。
 [項目11]
 前記パラ言語情報は、前記第1ユーザの感情、緊急度、深刻度、フランク度及び緊張度の少なくとも1つを表す情報を含む
 項目1~10のいずれか一項に記載の情報処理装置。
 [項目12]
 前記候補生成部は、前記パラ言語情報に基づいて前記テキストデータを加飾し、
 前記送信部は、前記加飾されたテキストデータを送信する
 項目2に記載の情報処理装置。
 [項目13]
 前記候補生成部は、前記第1ユーザが質問を意図していることを前記パラ言語情報が示す場合に、前記テキストデータの末尾に疑問符を追加する
 項目12に記載の情報処理装置。
 [項目14]
 前記パラ言語情報は、前記テキストデータにおいて前記第1ユーザが強調している単語を特定する情報を含み
 前記候補生成部は、前記テキストデータにおいて前記強調されている単語の外観を変更する
 項目12~13のいずれか一項に記載に記載の情報処理装置。
 [項目15]
 前記パラ言語情報は、前記テキストデータにおいて単語の区切り位置を特定する情報を含み、
 前記候補生成部は、前記テキストデータにおいて前記区切り位置の箇所に、単語間の区切りを識別する情報を追加する
 項目12~14のいずれか一項に記載の情報処理装置。
 [項目16]
 前記パラ言語情報は、前記第1ユーザの感情を表す情報を含み
 前記候補生成部は、前記テキストデータに前記感情を識別する情報を追加する
 項目12~15のいずれか一項に記載の情報処理装置。
 [項目17]
 前記加飾されたテキストデータを表示する表示部
 を備えた項目12~16のいずれか一項に記載の情報処理装置。
 [項目18]
 前記テキストデータと、前記第2メッセージの候補とを、前記第2ユーザの使用言語に翻訳する翻訳処理部を備え、
 前記送信部は、前記第2ユーザの使用言語に翻訳された前記テキストデータと、前記第2ユーザの使用言語に翻訳された前記第2メッセージの候補とを送信する
 項目2に記載の情報処理装置。
 [項目19]
 前記第2ユーザは、人間又はコンピュータシステムである
 項目1~18のいずれか一項に記載の情報処理装置。
 [項目20]
 第1ユーザをセンシングしたセンシング信号に基づき、前記第1ユーザのパラ言語情報を取得し、
 前記パラ言語情報に基づき、前記第1ユーザに送信するメッセージの候補を生成し、
 前記メッセージの候補を、前記第1ユーザとメッセージ交換を行う第2ユーザの装置に送信する
 情報処理方法。
The present disclosure may also have the following structure.
[Item 1]
Based on the sensing signal sensed by the first user, the para-language information acquisition unit that acquires the para-language information of the first user, and
A candidate generation unit that generates candidates for a message to be transmitted to the first user based on the para-language information, and
A transmission unit that transmits the message candidates to the device of the second user who exchanges messages with the first user, and
Information processing device equipped with.
[Item 2]
The sensing signal includes the voice signal of the first user.
A voice recognition processing unit for voice-recognizing the voice signal of the first user and acquiring the text data of the first message spoken by the first user is provided.
The candidate generation unit generates a candidate for the second message returned by the second user in response to the first message.
The information processing device according to item 1, wherein the transmission unit transmits the text data and the candidate for the second message to the device of the second user.
[Item 3]
A receiving unit that receives a reply message including the candidate selected from the message candidates from the device of the second user, and a receiving unit.
The information processing apparatus according to item 1 or 2, further comprising a display unit for displaying the reply message received by the receiving unit.
[Item 4]
The sensing signal includes the voice signal of the first user.
The information processing device according to any one of items 1 to 3, wherein the para-language information acquisition unit acquires the para-language information based on the acoustic feature information of the voice signal of the first user.
[Item 5]
The sensing signal includes an image pickup signal of the first user.
The information according to any one of items 1 to 4 in which the para-language information acquisition unit performs image recognition based on the image pickup signal of the first user and acquires the para-language information based on the result of the image recognition. Processing equipment.
[Item 6]
A natural language processing unit that estimates the intention of the first user's utterance and the target of the utterance based on the text data is provided.
The information processing device according to item 2, wherein the candidate generation unit generates a candidate for the second message based on the intention of the utterance, the target of the utterance, and the para-language information.
[Item 7]
It has a reply phrase database that stores multiple phrases.
The item 6 described in Item 6, wherein the candidate generation unit specifies a phrase corresponding to the intention of the utterance and the para-language information in the reply phrase database, and generates a candidate for the second message based on the specified phrase. Information processing device.
[Item 8]
The information processing device according to item 2, wherein the para-language information includes information on whether or not the first user intends to ask a question.
[Item 9]
The information processing device according to item 2, wherein the para-language information includes information for identifying a word emphasized in the text data.
[Item 10]
The information processing device according to item 2, wherein the para-language information includes information for specifying a word delimiter position in the text data.
[Item 11]
The information processing apparatus according to any one of items 1 to 10, wherein the para-language information includes information representing at least one of the emotion, urgency, severity, flank, and tension of the first user.
[Item 12]
The candidate generation unit decorates the text data based on the para-language information, and then decorates the text data.
The information processing device according to item 2, wherein the transmission unit transmits the decorated text data.
[Item 13]
The information processing device according to item 12, wherein the candidate generation unit adds a question mark to the end of the text data when the para-language information indicates that the first user intends to ask a question.
[Item 14]
The para-language information includes information for identifying a word emphasized by the first user in the text data, and the candidate generation unit changes the appearance of the emphasized word in the text data. The information processing apparatus according to any one of 13.
[Item 15]
The para-language information includes information for specifying a word delimiter position in the text data.
The information processing device according to any one of items 12 to 14, wherein the candidate generation unit adds information for identifying a delimiter between words to the delimiter position in the text data.
[Item 16]
The information processing according to any one of items 12 to 15, wherein the para-language information includes information representing the emotion of the first user, and the candidate generation unit adds information for identifying the emotion to the text data. Device.
[Item 17]
The information processing apparatus according to any one of items 12 to 16, further comprising a display unit for displaying the decorated text data.
[Item 18]
A translation processing unit that translates the text data and the candidate for the second message into the language used by the second user is provided.
The information processing device according to item 2, wherein the transmission unit transmits the text data translated into the language used by the second user and the candidate for the second message translated into the language used by the second user. ..
[Item 19]
The information processing device according to any one of items 1 to 18, wherein the second user is a human or computer system.
[Item 20]
Based on the sensing signal sensed by the first user, the para-language information of the first user is acquired, and the para-language information of the first user is acquired.
Based on the para-language information, a candidate message to be sent to the first user is generated.
An information processing method for transmitting a message candidate to a device of a second user who exchanges messages with the first user.
1:ユーザ(発話者)、2:ユーザ(対話相手)、101:情報処理装置、201:受信装置、111:音声入力部、112:音声認識処理部、113:自然言語理解処理部、114:音響解析認識処理部、115:候補生成部、116:返信フレーズデータベース(DB)、117:画像入力部、118:画像認識処理部、119:送受信部、121:画像出力処理部、122:表示部、131:音声出力処理部、132:音声出力部、141:翻訳処理部、211:音声入力部、212:音声認識処理部、213:自然言語理解処理部、214:画像入力部、215:画像認識処理部、217:選択結果認識部、218:送受信部、216:操作入力部、221:画像出力処理部、222:表示部、231:音声出力処理部、232:音声出力部、400:コンピュータ装置、401:CPU、402:入力インタフェース、403:表示装置、404:通信装置、405:主記憶装置、406:外部記憶装置、407:バス 1: User (speaker) 2: User (dialogue partner), 101: Information processing device, 201: Receiver device, 111: Voice input unit, 112: Speech recognition processing unit, 113: Natural language understanding processing unit, 114: Speech analysis recognition processing unit, 115: Candidate generation unit, 116: Reply phrase database (DB), 117: Image input unit, 118: Image recognition processing unit, 119: Transmission / reception unit, 121: Image output processing unit, 122: Display unit , 131: Speech output processing unit, 132: Audio output unit, 141: Translation processing unit, 211: Voice input unit, 212: Speech recognition processing unit, 213: Natural language understanding processing unit, 214: Image input unit, 215: Image Recognition processing unit, 217: Selection result recognition unit, 218: Transmission / reception unit, 216: Operation input unit, 221: Image output processing unit, 222: Display unit, 231: Voice output processing unit, 232: Voice output unit, 400: Computer Device, 401: CPU, 402: Input interface, 403: Display device, 404: Communication device, 405: Main memory device, 406: External storage device, 407: Bus

Claims (20)

  1.  第1ユーザをセンシングしたセンシング信号に基づき、前記第1ユーザのパラ言語情報を取得するパラ言語情報取得部と、
     前記パラ言語情報に基づき、前記第1ユーザに送信するメッセージの候補を生成する候補生成部と、
     前記メッセージの候補を、前記第1ユーザとメッセージ交換を行う第2ユーザの装置に送信する送信部と、
     を備えた情報処理装置。
    Based on the sensing signal sensed by the first user, the para-language information acquisition unit that acquires the para-language information of the first user, and
    A candidate generation unit that generates candidates for a message to be transmitted to the first user based on the para-language information, and
    A transmission unit that transmits the message candidates to the device of the second user who exchanges messages with the first user, and
    Information processing device equipped with.
  2.  前記センシング信号は、前記第1ユーザの音声信号を含み、
     前記第1ユーザの音声信号を音声認識して、前記第1ユーザが発話した第1メッセージのテキストデータを取得する音声認識処理部を備え、
     前記候補生成部は、前記第1メッセージに対し前記第2ユーザが返信する第2メッセージの候補を生成し、
     前記送信部は、前記テキストデータと、前記第2メッセージの候補とを前記第2ユーザの装置に送信する
     請求項1に記載の情報処理装置。
    The sensing signal includes the voice signal of the first user.
    A voice recognition processing unit for voice-recognizing the voice signal of the first user and acquiring the text data of the first message spoken by the first user is provided.
    The candidate generation unit generates a candidate for the second message returned by the second user in response to the first message.
    The information processing device according to claim 1, wherein the transmission unit transmits the text data and the candidate for the second message to the device of the second user.
  3.  前記第2ユーザの装置から、前記メッセージの候補のうち選択された前記候補を含む返信メッセージを受信する受信部と、
     前記受信部で受信された前記返信メッセージを表示する表示部と
     を備えた請求項1に記載の情報処理装置。
    A receiving unit that receives a reply message including the candidate selected from the message candidates from the device of the second user, and a receiving unit.
    The information processing apparatus according to claim 1, further comprising a display unit for displaying the reply message received by the receiving unit.
  4.  前記センシング信号は前記第1ユーザの音声信号を含み、
     前記パラ言語情報取得部は、前記第1ユーザの音声信号の音響特徴情報に基づき、前記パラ言語情報を取得する
     請求項1に記載の情報処理装置。
    The sensing signal includes the voice signal of the first user.
    The information processing device according to claim 1, wherein the para-language information acquisition unit acquires the para-language information based on the acoustic feature information of the voice signal of the first user.
  5.  前記センシング信号は前記第1ユーザの撮像信号を含み、
     前記パラ言語情報取得部は、前記第1ユーザの撮像信号に基づき画像認識を行い、前記画像認識の結果に基づき、前記パラ言語情報を取得する
     請求項1に記載の情報処理装置。
    The sensing signal includes an image pickup signal of the first user.
    The information processing device according to claim 1, wherein the para-language information acquisition unit performs image recognition based on the image pickup signal of the first user and acquires the para-language information based on the result of the image recognition.
  6.  前記テキストデータに基づき、前記第1ユーザの発話の意図と前記発話の対象とを推定する自然言語処理部を備え、
     前記候補生成部は、前記発話の意図と、前記発話の対象と、前記パラ言語情報とに基づき、前記第2メッセージの候補を生成する
     請求項2に記載の情報処理装置。
    A natural language processing unit that estimates the intention of the first user's utterance and the target of the utterance based on the text data is provided.
    The information processing device according to claim 2, wherein the candidate generation unit generates a candidate for the second message based on the intention of the utterance, the target of the utterance, and the para-language information.
  7.  複数のフレーズを格納した返信フレーズデータベースを備え、
     前記候補生成部は、前記返信フレーズデータベースにおいて前記発話の意図と、前記パラ言語情報とに応じたフレーズを特定し、特定したフレーズに基づき、前記第2メッセージの候補を生成する
     請求項6に記載の情報処理装置。
    It has a reply phrase database that stores multiple phrases.
    The candidate generation unit identifies a phrase corresponding to the intention of the utterance and the para-language information in the reply phrase database, and generates a candidate for the second message based on the specified phrase. Information processing device.
  8.  前記パラ言語情報は、前記第1ユーザが質問を意図しているか否かの情報を含む
     請求項2に記載の情報処理装置。
    The information processing device according to claim 2, wherein the para-language information includes information on whether or not the first user intends to ask a question.
  9.  前記パラ言語情報は、前記テキストデータにおいて強調されている単語を特定する情報を含む
     請求項2に記載の情報処理装置。
    The information processing device according to claim 2, wherein the para-language information includes information for identifying a word emphasized in the text data.
  10.  前記パラ言語情報は、前記テキストデータにおいて単語の区切り位置を特定する情報を含む
     請求項2に記載の情報処理装置。
    The information processing device according to claim 2, wherein the para-language information includes information for specifying a word delimiter position in the text data.
  11.  前記パラ言語情報は、前記第1ユーザの感情、緊急度、深刻度、フランク度及び緊張度の少なくとも1つを表す情報を含む
     請求項1に記載の情報処理装置。
    The information processing apparatus according to claim 1, wherein the paralinguistic information includes information representing at least one of the emotion, urgency, severity, flank, and tension of the first user.
  12.  前記候補生成部は、前記パラ言語情報に基づいて前記テキストデータを加飾し、
     前記送信部は、前記加飾されたテキストデータを送信する
     請求項2に記載の情報処理装置。
    The candidate generation unit decorates the text data based on the para-language information, and then decorates the text data.
    The information processing device according to claim 2, wherein the transmission unit transmits the decorated text data.
  13.  前記候補生成部は、前記第1ユーザが質問を意図していることを前記パラ言語情報が示す場合に、前記テキストデータの末尾に疑問符を追加する
     請求項12に記載の情報処理装置。
    The information processing device according to claim 12, wherein the candidate generation unit adds a question mark to the end of the text data when the para-language information indicates that the first user intends to ask a question.
  14.  前記パラ言語情報は、前記テキストデータにおいて前記第1ユーザが強調している単語を特定する情報を含み
     前記候補生成部は、前記テキストデータにおいて前記強調されている単語の外観を変更する
     請求項12に記載に記載の情報処理装置。
    The paralinguistic information includes information for identifying a word emphasized by the first user in the text data, and the candidate generation unit changes the appearance of the emphasized word in the text data. The information processing device described in.
  15.  前記パラ言語情報は、前記テキストデータにおいて単語の区切り位置を特定する情報を含み、
     前記候補生成部は、前記テキストデータにおいて前記区切り位置の箇所に、単語間の区切りを識別する情報を追加する
     請求項12に記載の情報処理装置。
    The para-language information includes information for specifying a word delimiter position in the text data.
    The information processing device according to claim 12, wherein the candidate generation unit adds information for identifying a delimiter between words to the delimiter position in the text data.
  16.  前記パラ言語情報は、前記第1ユーザの感情を表す情報を含み
     前記候補生成部は、前記テキストデータに前記感情を識別する情報を追加する
     請求項12に記載の情報処理装置。
    The information processing device according to claim 12, wherein the para-language information includes information representing the emotion of the first user, and the candidate generation unit adds information for identifying the emotion to the text data.
  17.  前記加飾されたテキストデータを表示する表示部
     を備えた請求項12に記載の情報処理装置。
    The information processing apparatus according to claim 12, further comprising a display unit for displaying the decorated text data.
  18.  前記テキストデータと、前記第2メッセージの候補とを、前記第2ユーザの使用言語に翻訳する翻訳処理部を備え、
     前記送信部は、前記第2ユーザの使用言語に翻訳された前記テキストデータと、前記第2ユーザの使用言語に翻訳された前記第2メッセージの候補とを送信する
     請求項2に記載の情報処理装置。
    A translation processing unit that translates the text data and the candidate for the second message into the language used by the second user is provided.
    The information processing according to claim 2, wherein the transmitting unit transmits the text data translated into the language used by the second user and the candidate for the second message translated into the language used by the second user. Device.
  19.  前記第2ユーザは、人間又はコンピュータシステムである
     請求項1に記載の情報処理装置。
    The information processing device according to claim 1, wherein the second user is a human or computer system.
  20.  第1ユーザをセンシングしたセンシング信号に基づき、前記第1ユーザのパラ言語情報を取得し、
     前記パラ言語情報に基づき、前記第1ユーザに送信するメッセージの候補を生成し、
     前記メッセージの候補を、前記第1ユーザとメッセージ交換を行う第2ユーザの装置に送信する
     情報処理方法。
    Based on the sensing signal sensed by the first user, the para-language information of the first user is acquired, and the para-language information of the first user is acquired.
    Based on the para-language information, a candidate message to be sent to the first user is generated.
    An information processing method for transmitting a message candidate to a device of a second user who exchanges messages with the first user.
PCT/JP2021/003600 2020-02-10 2021-02-01 Information processing device and information processing method WO2021161841A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020020834 2020-02-10
JP2020-020834 2020-02-10

Publications (1)

Publication Number Publication Date
WO2021161841A1 true WO2021161841A1 (en) 2021-08-19

Family

ID=77291799

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/003600 WO2021161841A1 (en) 2020-02-10 2021-02-01 Information processing device and information processing method

Country Status (1)

Country Link
WO (1) WO2021161841A1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004513445A (en) * 2000-10-30 2004-04-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ User interface / entertainment device that simulates personal interaction and responds to the user's emotional state and / or personality
JP2007004281A (en) * 2005-06-21 2007-01-11 Mitsubishi Electric Corp Voice mail input device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004513445A (en) * 2000-10-30 2004-04-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ User interface / entertainment device that simulates personal interaction and responds to the user's emotional state and / or personality
JP2007004281A (en) * 2005-06-21 2007-01-11 Mitsubishi Electric Corp Voice mail input device

Similar Documents

Publication Publication Date Title
CN106653052B (en) Virtual human face animation generation method and device
US7607097B2 (en) Translating emotion to braille, emoticons and other special symbols
US20200279553A1 (en) Linguistic style matching agent
JP4271224B2 (en) Speech translation apparatus, speech translation method, speech translation program and system
TWI454955B (en) An image-based instant message system and method for providing emotions expression
KR20200142066A (en) Automated assistant to accommodate multiple ages and/or vocabulary levels
CN112262430A (en) Automatically determining language for speech recognition of a spoken utterance received via an automated assistant interface
WO2019111346A1 (en) Full-duplex speech translation system, full-duplex speech translation method, and program
EP2385520A2 (en) Method and device for generating text from spoken word
JP6233798B2 (en) Apparatus and method for converting data
TW200416567A (en) Multimodal speech-to-speech language translation and display
KR20210008089A (en) Dynamic and/or context specific hotwords for invoking automated assistants
JP6548045B2 (en) Conference system, conference system control method, and program
KR102174922B1 (en) Interactive sign language-voice translation apparatus and voice-sign language translation apparatus reflecting user emotion and intention
KR20210137118A (en) Systems and methods for context-rich attentional memory networks with global and local encoding for dialogue break detection
JP2018170743A (en) Conference support system, conference support method, program of conference support device, and program of terminal
CN111556999B (en) Method, computer device and computer readable storage medium for providing natural language dialogue by providing substantive answer in real time
KR101981091B1 (en) Device for creating subtitles that visualizes emotion
WO2021153101A1 (en) Information processing device, information processing method, and information processing program
US10269349B2 (en) Voice interactive device and voice interaction method
KR101567154B1 (en) Method for processing dialogue based on multiple user and apparatus for performing the same
WO2021161841A1 (en) Information processing device and information processing method
KR101891495B1 (en) Method and computer device for controlling a display to display conversational response candidates to a user utterance input, and computer readable recording medium
Desai et al. Understanding and Enhancing The Role of Speechreading in Online d/DHH Communication Accessibility
JP7462995B1 (en) Information processing system, information processing method, and program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21754111

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: JP

122 Ep: pct application non-entry in european phase

Ref document number: 21754111

Country of ref document: EP

Kind code of ref document: A1