WO2018042798A1 - 応答装置およびその制御方法、ならびに制御プログラム - Google Patents

応答装置およびその制御方法、ならびに制御プログラム Download PDF

Info

Publication number
WO2018042798A1
WO2018042798A1 PCT/JP2017/020737 JP2017020737W WO2018042798A1 WO 2018042798 A1 WO2018042798 A1 WO 2018042798A1 JP 2017020737 W JP2017020737 W JP 2017020737W WO 2018042798 A1 WO2018042798 A1 WO 2018042798A1
Authority
WO
WIPO (PCT)
Prior art keywords
response
voice
personal information
unit
conversation
Prior art date
Application number
PCT/JP2017/020737
Other languages
English (en)
French (fr)
Inventor
一倫 脇
裕士 中田
遥 岡田
奥田 計
佳子 今城
Original Assignee
シャープ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シャープ株式会社 filed Critical シャープ株式会社
Priority to JP2018536951A priority Critical patent/JP6644153B2/ja
Priority to CN201780036613.2A priority patent/CN109643543A/zh
Publication of WO2018042798A1 publication Critical patent/WO2018042798A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Definitions

  • the present invention relates to a response device that recognizes input content and responds based on the recognized content.
  • a response device that recognizes input contents and responds based on the recognized contents is known as a prior art.
  • the recognized content is directly output as voice
  • information that should not be transmitted may be transmitted to a third party different from the owner of the information transmission destination device.
  • Patent Document 1 There is an audio conversion device disclosed in Patent Document 1 as a technique for solving such problems.
  • this speech conversion device the leakage of information that should not be transmitted is reduced by replacing a word portion including a predetermined replacement target word in the input speech data with alternative speech data corresponding to the word portion. .
  • the present invention has been made in view of the above-mentioned problems, and its purpose is to convey the contents to the partner device while completely avoiding leakage of personal information during the conversation to the user, and is meaningful. It is to realize a response device that can continue a conversation.
  • a response device includes a response generation unit that generates a response sentence based on a result of speech recognition of an input voice, and a generated response sentence.
  • a response generation unit that generates a response sentence based on a result of speech recognition of an input voice
  • a generated response sentence When it is determined that the personal information is included in the response sentence and the personal information determination unit that determines whether or not the personal information is included, the personal information cannot be understood by a person and the conversation
  • a response changing unit that changes the response sentence by replacing with alternative voice that can be restored to the original information by the device on the other party, and a response sentence generated by the response generation part, or the response change
  • a voice output unit that outputs a voice synthesized from any one of the response sentences changed by the unit.
  • a response device control method is a response device control method that responds based on a result of speech recognition of input speech.
  • a response generation step for generating a response sentence based on the result of voice recognition of the user, a personal information determination step for determining whether or not personal information is included in the generated response sentence, and the response sentence If it is determined that personal information is included, the personal information is replaced with alternative voices that cannot be understood by humans and can be restored to the original information on the device on the other side of the conversation.
  • a response change step for changing the response sentence; a voice output step for outputting a synthesized voice from either the response sentence generated in the response generation step or the response sentence changed in the response change step; Including It is characterized.
  • the leakage of personal information during conversation is completely avoided to the user, while the content is communicated to the partner device and the meaningful conversation is continued. There is an effect that can be.
  • FIGS. 1 to 4 Embodiments of the present invention will be described with reference to FIGS. 1 to 4 as follows.
  • components having the same functions as those described in the specific items may be denoted by the same reference numerals and description thereof may be omitted.
  • FIG. 1 is a block diagram showing the configuration of the robot 1.
  • the robot 1 when exchanging actual data including personal information in a conversation, the robot 1 according to the present embodiment replaces the voice corresponding to the content related to the personal information in the conversation scenario with an alternative voice and transmits it. By doing so, it is possible to avoid leakage of personal information (and it is possible to restore this substitute voice to actual data only by the other robot (device)).
  • the robot 1 includes a voice input unit 11, a voice output unit 12, a storage unit 13, a communication unit 14, an information presentation unit 15, and a control unit 20.
  • the audio input unit 11 may be a sound collecting device such as a microphone.
  • the voice input unit 11 sends the detected utterance by another robot as voice data to the voice recognition unit 21 described later.
  • the voice recognition unit 21 is built in the robot 1, but the voice recognition unit 21 may be an external device attached to the robot 1 or a network server using the communication unit 14. .
  • the voice input unit 11 specifies one utterance (an utterance that becomes a group of sentences or sentences) from the utterance of another robot (the time during which no voice is uttered), and the like for each utterance. Is preferably transmitted to the voice recognition unit 21.
  • the audio output unit 12 functions as an output unit that outputs audio data received from the audio synthesis unit 26 described later as audio. More specifically, the voice output unit 12 determines whether the voice synthesizer 26 is based on either a response sentence generated by a response generation part 23 described later or a response sentence changed by a response change part 25 described later. Output the synthesized voice.
  • the audio output unit 12 is realized by a speaker or the like provided in the robot 1. In the example of FIG. 1, the audio output unit 12 is built in the robot 1, but the audio output unit 12 may be an external device attached to the robot 1.
  • the storage unit 13 stores various data handled by the robot 1.
  • the correspondence between the conversation scenario data exchanged between the robots, the personal information, and the corresponding alternative voice (or encrypted data), and the designation corresponding to the personal information Stored data (designated data described later) and the like are stored.
  • the substitute voice is preferably any of fast-forward voice, reverse playback voice, or encrypted voice. Thereby, it is possible to realize an alternative voice that cannot be understood by a person and can be restored to the original information by the device on the other side of the conversation.
  • the communication unit 14 communicates (establishes a communication protocol) with other robots nearby. Note that actual data including personal information from other robots may be received via the communication unit 14. However, when detecting an utterance of another robot, the robot 1 does not necessarily need to receive actual data corresponding to the utterance from the other robot.
  • the information presentation unit 15 presents the restored actual data (personal information) described later to the user.
  • the control unit 20 controls the respective units of the robot 1 in a unified manner, and includes a voice recognition unit 21, a scenario confirmation unit 22, a response generation unit 23, a personal information determination unit 24, a response change unit 25, a voice synthesis unit 26, And a restoration unit 27.
  • the control unit 20 is built in the robot 1, but the control unit 20 may be an external device attached to the robot 1 or a network server used via the communication unit 14. .
  • the voice recognition unit 21 performs voice recognition on the voice data of one utterance received from the voice input unit 11.
  • speech recognition refers to a process of obtaining text data indicating speech content (input content) from speech data of speech.
  • the speech recognition method of the speech recognition unit 21 is not particularly limited, and speech recognition may be performed using any conventional method.
  • the scenario confirmation unit 22 confirms (identifies) which conversation in the predetermined conversation scenario stored in the storage unit 13 corresponds to the result of the speech recognition by the speech recognition unit 21 and responds to the result.
  • the generation unit 23 is notified.
  • the scenario confirmation unit 22 may confirm which conversation in the conversation scenario the robot 1 has uttered, and may transmit the confirmation result to another robot via the communication unit 14 for each utterance. Further, the scenario confirmation unit 22 may receive the confirmation result of which conversation in the conversation scenario by another robot from the other robot via the communication unit 14.
  • FIG. 4 is a diagram illustrating an example of a conversation scenario used by the robot 1.
  • the robot 1 according to the present embodiment has an input voice (text-converted) for each of a plurality of various states such as making a call, receiving a mail, inputting a mail, starting a camera application, questioning a user, waiting for an answer. ) And the corresponding response text (output speech) is stored in the storage unit 13 so that the robot 1 outputs the response text selected from the table as speech. It has become. More specifically, a plurality of pieces of table information related to combinations of input voices and output voices shown in FIG. 4 are held for each state described above.
  • the response generation unit 23 generates a response sentence based on the result of speech recognition by the speech recognition unit 21. For example, the response generation unit 23 searches the conversation corresponding to the response of the conversation confirmed by the scenario confirmation unit 22 from the conversation scenario stored in the storage unit 13, and generates the response sentence based on the search result. You may do it.
  • the personal information determination unit 24 determines whether or not personal information is included in the response sentence generated by the response generation unit 23. More specifically, the personal information determination unit 24 determines whether the response text generated by the response generation unit 23 includes designation data designated in advance as personal information in the response text. Determine whether personal information is included. Thereby, since the data related to the personal information included in the response sentence is specified in advance as the specified data, the data related to the personal information can be reliably determined from the response sentence. Examples of the designation data include a telephone number, a mail address, a birthday, a birth place, and a current address. On the other hand, the current time, today's date, today's day of the week, today's weather, and preinstalled data are examples of information that is not designated data.
  • the response change unit 25 changes the response text by replacing the personal information with an alternative voice. More specifically, the response changing unit 25 replaces the designated data described above with the alternative voice as personal information.
  • the alternative voice is basically incomprehensible to humans and can be restored to the original information by the robot on the other side of the conversation (the robot can understand the contents), but it can be heard as voice. is there. Examples of alternative voices include encrypted voices, X double speed voices (fast forward voices), reverse playback voices, and voices such as mechanical sounds obtained by encrypting the entire voice data including personal information. Can do.
  • the response change unit 25 determines that the personal information determination unit 24 determines that the personal information is not included in the response sentence generated by the response generation unit 23. Do not change the sentence. As a result, it is possible to avoid erroneous replacement of a portion unrelated to personal information in the response sentence with an alternative voice.
  • the voice synthesis unit 26 converts any text data of the response sentence generated by the response generation unit 23 or the response sentence changed by the response change unit 25 into voice data (synthesizes voice).
  • the voice synthesizer 26 outputs the converted voice data to the voice output unit 12.
  • the restoration unit 27 decrypts the encrypted data into the original data.
  • the restoration unit 27 restores the original personal information from the alternative voice when the alternative voice is included in the result of the voice recognition by the voice recognition unit 21. Thereby, the original personal information can be restored from the substitute voice included in the conversation.
  • key information for decryption or restoration may be used. Without this key information, it is possible to improve security by making it impossible to restore the encrypted data and the substitute voice to the original actual data.
  • the key information may be held in advance by each of the robots having a conversation, or may be exchanged between the robots having a conversation when a communication protocol between the robots is established. .
  • a response sentence is generated based on the result of speech recognition of the input voice, it is determined whether or not personal information is included in the generated response sentence, and the response sentence includes If it is determined that personal information is included, the personal information is replaced with alternative voices that cannot be understood by humans and can be restored to the original information on the device on the other side of the conversation. Change the above response text. This replaces the personal information contained in the speech recognition result of the input speech with alternative speech that cannot be understood by humans and can be restored to the original information by the device on the other side of the conversation Can do. Further, according to the robot 1, the synthesized voice is output from either the response sentence generated by the response generation unit 23 or the response sentence changed by the response change unit 25. For this reason, according to the robot 1, it is possible to continue the meaningful conversation by conveying the contents to the partner device while completely avoiding the leakage of personal information during the conversation to the user (person).
  • FIG. 2 is a flowchart showing a flow of characteristic operations of the robot 1.
  • the robot A and the robot B which are the robot 1, perform a conversation will be described.
  • connection start method may be a user operation such as pressing a button, a voice command, or shaking the housing, or may be started from a network server connected via the communication unit 14.
  • Each of the robots A and B discovers a partner by using WLAN (Wireless Local Area Network), location information, or Bluetooth (registered trademark), and establishes a communication protocol.
  • Each of the robots A and B exchanges a conversation scenario to be reproduced, and the operation of the flowchart shown in FIG. 2 is started (START).
  • step S101 (hereinafter, “step” is omitted)
  • the uttered voice of the robot A is input through the voice input unit 11 of the robot B and converted into voice information, and the voice information is transmitted to the voice recognition unit 21.
  • the process proceeds to S102.
  • the voice recognition unit 21 of the robot B performs voice recognition of the voice information related to the uttered voice of the robot A, the result of the voice recognition is transmitted to the scenario confirmation unit 22, and the process proceeds to S103.
  • the scenario confirmation unit 22 confirms which conversation in the conversation scenario stored in the storage unit 13 corresponds to the result of speech recognition, transmits the confirmation result to the response generation unit 23, and proceeds to S104. move on.
  • the response generation unit 23 searches for a conversation corresponding to the response of the conversation confirmed by the scenario confirmation unit 22 from the conversation scenario, and creates (generates) a response (response sentence) based on the search result. It transmits to the information determination part 24, and progresses to S105.
  • the personal information determination unit 24 determines whether or not the personal information is included in the response text. If it is determined that the personal information is included in the response text, the process proceeds to S106. On the other hand, if it is determined in S105 that the personal information is not included in the response sentence, the process proceeds to S107. In S106, the response changing unit 25 cannot understand the personal information included in the response sentence generated by the response generating unit 23 to the original information by the device on the other side of the conversation without being understood by the person. The response text is changed by substituting with the alternative voice, and transmitted to the voice synthesizer 26, and the process proceeds to S108.
  • the response changing unit 25 does not change the response sentence generated by the response generating unit 23, but transmits the response sentence to the speech synthesizing unit 26 as it is and proceeds to S108.
  • the speech synthesis unit 26 synthesizes speech based on either the response sentence generated by the response generation unit 23 or the response sentence changed by the response change unit 25, and transmits the synthesized speech to the speech output unit 12.
  • the process proceeds to S109.
  • the voice output unit 12 outputs the voice synthesized by the voice synthesis unit 26 and ends the operation (END).
  • FIG. 3 is a diagram illustrating an example of a conversation by a robot.
  • conversation C201 (hereinafter referred to as the "conversation” will be omitted), the robot A is, it speaks as “Hello”, the process proceeds to C202. Next, in C202, the robot B replies “Domo Domo” and moves to C203.
  • robot A utters “Sato's robot” and moves to C204.
  • robot B replies "My name is Robotaro” and moves to C205.
  • the robot A speaks an alternative voice of the contact information of the robot A, and proceeds to C209.
  • the robot A utters “Thank you! See you soon” and moves to C210.
  • the robot B responds “Yes! Nice to meet you” and the conversation ends.
  • a control block (particularly a scenario confirmation unit 22, a response generation unit 23, a personal information determination unit 24, and a response change unit 25) of the control unit 20 in the robot 1 is a logic circuit (hardware) formed in an integrated circuit (IC chip) or the like. ) Or by software using a CPU (Central Processing Unit).
  • the control unit 20 in the robot 1 includes a CPU that executes instructions of a program that is software that realizes each function, and a ROM (Read Only) in which the program and various data are recorded so as to be readable by the computer (or CPU).
  • Memory or a storage device (these are referred to as “recording media”), a RAM (Random Access Memory) for expanding the program, and the like.
  • the objective of this invention is achieved when a computer (or CPU) reads the said program from the said recording medium and runs it.
  • a “non-temporary tangible medium” such as a tape, a disk, a card, a semiconductor memory, a programmable logic circuit, or the like can be used.
  • the program may be supplied to the computer via an arbitrary transmission medium (such as a communication network or a broadcast wave) that can transmit the program.
  • a transmission medium such as a communication network or a broadcast wave
  • the present invention can also be realized in the form of a data signal embedded in a carrier wave in which the program is embodied by electronic transmission.
  • the response device (robot 1) includes a response generation unit (23) that generates a response sentence based on a result of speech recognition of input speech, and personal information in the generated response sentence. If it is determined that personal information is included in the response sentence and the personal information determination unit (24) that determines whether the personal information is included in the response sentence, A response changing unit (25) that changes the response sentence by replacing it with an alternative voice that can be restored to the original information in the device on the other side of the conversation, and a response sentence generated by the response generation part, Or the voice output part (12) which outputs the voice synthesize
  • a response sentence is generated based on the result of speech recognition of the input voice, it is determined whether or not personal information is included in the generated response sentence, and the response sentence If it is determined that personal information is included, the personal information is replaced with alternative voices that cannot be understood by humans and can be restored to the original information on the device on the other side of the conversation. Change the above response text. This replaces the personal information contained in the speech recognition result of the input speech with alternative speech that cannot be understood by humans and can be restored to the original information by the device on the other side of the conversation Can do.
  • generation part or the response sentence changed by the response change part is output. For this reason, leakage of personal information during a conversation can be completely avoided for the user (person), while the content can be conveyed to the partner apparatus and a meaningful conversation can be continued.
  • the alternative sound is any of fast-forward sound, reverse reproduction sound, and encrypted sound. According to the above configuration, an alternative voice that cannot be understood by a person and can be restored to the original information by a device on the other side of the conversation can be realized.
  • the personal information determination unit includes designation data designated in advance as personal information in the response sentence generated by the response generation unit. It is preferable to determine whether or not personal information is included in the response sentence, and the response change unit preferably replaces the designated data with the substitute voice as the personal information. According to the above configuration, since the data related to the personal information included in the response text is specified in advance as the specified data, the data related to the personal information can be reliably determined from the response text.
  • the response change unit is determined that personal information is not included in the response sentence generated by the response generation unit. In this case, it is preferable not to change the generated response sentence. According to the above configuration, it is possible to avoid a part that is not related to the personal information in the response sentence being erroneously replaced with an alternative voice.
  • the response device is the scenario confirmation unit (22) for confirming which conversation in the predetermined conversation scenario corresponds to the speech recognition result in any of the above aspects 1 to 4.
  • the response generation unit searches the conversation corresponding to the response of the conversation confirmed by the scenario confirmation unit from the conversation scenario, and generates the response sentence based on the search result. According to the above configuration, the conversation can be continued according to the conversation scenario.
  • the response device provides a response unit (27) that recovers personal information from an alternative voice in any of the above aspects 1 to 5 when the voice recognition result includes the alternative voice. ) May be provided. According to the above configuration, the original personal information can be restored from the alternative voice included in the conversation.
  • the response device control method is a response device control method that responds based on the result of speech recognition of input speech, and that responds based on the result of speech recognition of input speech.
  • a response generation step for generating a sentence
  • a personal information determination step for determining whether or not personal information is included in the generated response sentence, and a determination that the personal information is included in the response sentence
  • a response change step for changing the response sentence by replacing the personal information with an alternative voice that cannot be understood by a person and can be restored to the original information by the device on the other side of the conversation.
  • a voice output step of outputting a voice synthesized from either the response sentence generated in the response generation step or the response sentence changed in the response change step. According to the said method, the effect similar to the said aspect 1 can be acquired.
  • the response device may be realized by a computer.
  • the response device is realized by the computer by operating the computer as each unit (software element) included in the response device.
  • a control program for the response device and a computer-readable recording medium on which the control program is recorded also fall within the scope of the present invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Manipulator (AREA)
  • Toys (AREA)

Abstract

会話中における個人情報の漏洩を使用者には完全に回避しつつ、相手装置には内容を伝え、意味のある会話を継続する。入力された音声の音声認識の結果に基づいて応答文を生成する応答生成部(23)と、生成された応答文の中に個人情報が含まれているか否かを判定する個人情報判定部(24)と、応答文の中に個人情報が含まれていると判定された場合、個人情報を、人には理解できず、会話の相手側の装置にて元の情報に復元することが可能な代替音声に置換することで応答文を変更する応答変更部(25)と、応答生成部(23)によって生成された応答文、または応答変更部(25)によって変更された応答文、の何れかから合成された音声を出力する音声出力部(12)と、を備えている。

Description

応答装置およびその制御方法、ならびに制御プログラム
 本発明は、入力内容を認識し、認識した内容に基づいて応答する応答装置などに関する。
 入力内容を認識し、認識した内容に基づいて応答する応答装置が従来技術として知られている。このような応答装置では、認識した内容をそのまま音声として出力した場合、情報送信先の機器の所有者とは異なる第三者へも、伝達すべきでない情報が伝わってしまう場合がある。
 一方、スマートフォンのように音声を使用せず、単にデータ通信によって情報を送信した場合、第三者への伝達すべきでない情報の漏洩は避けられるものの、応答装置で重要な要素の一つである会話感が失われてしまうという問題がある。
 このような問題点を解決する技術として特許文献1に開示された音声変換装置がある。この音声変換装置では、入力された音声データの予め定められた置換対象語を含む単語部分を、単語部分に対応する代替音声データに置き換えることで、伝達すべきでない情報の漏洩を低減させている。
日本国公開特許公報「特開2007-41433号公報(2007年2月15日公開)」
 しかしながら、上記の従来技術では、個人情報の漏洩を完全に回避することができないという問題点がある。例えば、上記特許文献1に開示された音声変換装置では、置換対象語の一部の単語部分のみを代替音声データに置換しているため、個人情報の一部が漏洩してしまう可能性があるという問題点がある。
 本発明は、上記の問題点に鑑みてなされたものであり、その目的は、会話中における個人情報の漏洩を使用者には完全に回避しつつ、相手装置には内容を伝え、意味のある会話を継続することができる応答装置などを実現することにある。
 上記の課題を解決するために、本発明の一態様に係る応答装置は、入力された音声の音声認識の結果に基づいて応答文を生成する応答生成部と、生成された応答文の中に個人情報が含まれているか否かを判定する個人情報判定部と、上記応答文の中に個人情報が含まれていると判定された場合、当該個人情報を、人には理解できず、会話の相手側の装置にて元の情報に復元することが可能な代替音声に置換することで上記応答文を変更する応答変更部と、上記応答生成部によって生成された応答文、または上記応答変更部によって変更された応答文、の何れかから合成された音声を出力する音声出力部と、を備えていることを特徴としている。
 上記の課題を解決するために、本発明の一態様に係る応答装置の制御方法は、入力された音声の音声認識の結果に基づいて応答する応答装置の制御方法であって、入力された音声の音声認識の結果に基づいて応答文を生成する応答生成ステップと、生成された応答文の中に個人情報が含まれているか否かを判定する個人情報判定ステップと、上記応答文の中に個人情報が含まれていると判定された場合、当該個人情報を、人には理解できず、会話の相手側の装置にて元の情報に復元することが可能な代替音声に置換することで上記応答文を変更する応答変更ステップと、上記応答生成ステップで生成された応答文、または上記応答変更ステップで変更された応答文、の何れかから合成された音声を出力する音声出力ステップと、を含むことを特徴としている。
 本発明の一態様に係る応答装置およびその制御方法によれば、会話中における個人情報の漏洩を使用者には完全に回避しつつ、相手装置には内容を伝え、意味のある会話を継続することができるという効果を奏する。
本発明の一実施形態に係るロボット(応答装置)の構成を示すブロック図である。 上記ロボットの特徴的な動作の流れを示すフローチャートである。 上記ロボットによる会話の一例を示す図である。 上記ロボットが使用する会話シナリオの例を示す図である。
 本発明の実施の形態について図1~図4に基づいて説明すれば、次の通りである。以下、説明の便宜上、特定の項目にて説明した構成と同一の機能を有する構成については、同一の符号を付記し、その説明を省略する場合がある。
 〔ロボットの構成〕
 まず、図1に基づき、本発明の一実施形態に係るロボット(応答装置)1の構成について説明する。図1は、ロボット1の構成を示すブロック図である。詳細は後述するが、本実施形態のロボット1は、個人情報が含まれる実際のデータを会話で交換する際に、会話シナリオ中の個人情報に関する内容に対応する音声を代替音声に置換して伝達することで個人情報の漏えいを回避するようになっている〔また、相手側のロボット(機器)のみで、この代替音声から実際のデータへ復元することが可能になっている〕。同図に示すように、ロボット1は、音声入力部11、音声出力部12、記憶部13、通信部14、情報提示部15、および制御部20を備える。
 音声入力部11は具体的には、マイク等の集音装置であればよい。音声入力部11は検出した他のロボットによる発話を音声データとして後述する音声認識部21に送る。なお、図1の例では音声認識部21はロボット1に内蔵されているが、音声認識部21はロボット1に取付けられた外部装置や、通信部14を利用するネットワークサーバーであっても構わない。なお、音声入力部11は、他のロボットの発話の間(音声を発していない時間)などから1回の発話(1まとまりの文または文章となる発話)を特定し、当該1回の発話毎の音声データを音声認識部21に送信することが望ましい。
 音声出力部12は、後述する音声合成部26から受信した音声データを音声として外部に出力する出力部として機能する。より具体的には、音声出力部12は、後述する応答生成部23によって生成された応答文、または後述する応答変更部25によって変更された応答文、の何れかに基づいて音声合成部26が合成した音声を出力する。音声出力部12は具体的にはロボット1に備えられたスピーカ等で実現される。なお、図1の例では音声出力部12はロボット1に内蔵されているが、音声出力部12はロボット1に取付けられた外部装置であっても構わない。記憶部13は、ロボット1にて扱われる各種データを記憶する。本実施形態に係る記憶部13には、ロボット同士で交換される会話シナリオのデータ、個人情報と、それに対応する代替音声(または暗号化データ)と、の対応関係、および個人情報に相当すると指定されたデータ(後述する指定データ)などが記憶される。
 なお、代替音声は、早送り音声、逆再生音声または暗号化された音声の何れかであることが好ましい。これにより、人には理解できず、会話の相手側の装置にて元の情報に復元することが可能な代替音声を実現することができる。
 通信部14は、近くにいる他のロボットと通信(通信プロトコルを確立し)を行う。なお、他のロボットから個人情報が含まれる実際のデータを、通信部14を介して受信するようにしても良い。しかしながら、ロボット1は、他のロボットの発話を検出する際、必ずしもその発話に対応する実際のデータを他のロボットから受信する必要はない。情報提示部15は、後述する復元した実際のデータ(個人情報)をユーザに提示する。
 制御部20は、ロボット1の各部を統括して制御するものであり、音声認識部21、シナリオ確認部22、応答生成部23、個人情報判定部24、応答変更部25、音声合成部26、および復元部27を備える。なお、図1の例では制御部20はロボット1に内蔵されているが、制御部20はロボット1に取付けられた外部装置や、通信部14を介して利用するネットワークサーバーであっても構わない。
 音声認識部21は、音声入力部11から受信した、1回の発話の音声データについて音声認識を行う。なお、本明細書において「音声認識」とは、発話の音声データから発話内容(入力内容)を示すテキストデータを得る処理を示す。音声認識部21の音声認識の方法は特に限定されず、従来あるいずれの方法を用いて音声認識を行ってもよい。
 シナリオ確認部22は、音声認識部21による音声認識の結果が、記憶部13に記憶されている所定の会話シナリオ中のどの会話に対応しているかを確認し(特定し)、その結果を応答生成部23に通知する。
 これにより、会話シナリオに従って会話を継続させることができる。また、シナリオ確認部22は、ロボット1が会話シナリオ中のどの会話を発話したかを確認し、その確認結果を、発話毎に通信部14を介して他のロボットに送信しても良い。また、シナリオ確認部22は、他のロボットが会話シナリオ中のどの会話を発話したかの確認結果を、通信部14を介して他のロボットから受信するようにしても良い。
 ここで、図4に基づき、記憶部13に記憶される会話シナリオの例について説明する。図4は、ロボット1が使用する会話シナリオの例を示す図である。本実施形態のロボット1は、電話発信中、メール受信中、メール入力中、カメラアプリ起動中、ユーザへ質問中、回答待ち、など複数の様々な状態ごとに、入力音声(テキスト変換されたもの)と、それに対応する応答テキスト(出力音声)のとの対応関係を示すテーブルを記憶部13に保持しており、ロボット1は上記テーブルの中から選択された応答テキストを音声として出力するようになっている。より具体的には、図4に示す入力音声と出力音声との組み合わせに係るテーブル情報を、上述した状態ごとに複数保持している。
 応答生成部23は、音声認識部21による音声認識の結果に基づいて応答文を生成する。例えば、応答生成部23は、シナリオ確認部22によって確認された会話の返答に対応する会話を記憶部13に記憶されている会話シナリオ中から検索し、その検索結果に基づいて上記応答文を生成しても良い。
 個人情報判定部24は、応答生成部23によって生成された応答文の中に個人情報が含まれているか否かを判定する。より具体的には、個人情報判定部24は、応答生成部23によって生成された応答文の中に個人情報として予め指定された指定データが含まれているか否かによって、上記応答文の中に個人情報が含まれている否かを判定する。これにより、応答文の中に含まれる個人情報に係るデータが予め指定データとして指定されているため、応答文の中から個人情報に係るデータを確実に判別することができる。指定データの例としては、電話番号、メールアドレス、誕生日、出身地、および現住所などを例示することができる。一方、現在時刻、今日の日付、今日の曜日、今日の天気、およびプリインストールデータなどは、指定データとされない情報の例である。
 応答変更部25は、個人情報判定部24によって応答文の中に個人情報が含まれていると判定された場合、当該個人情報を代替音声に置換することで上記応答文を変更する。より具体的には、応答変更部25は、上述した指定データを個人情報として代替音声に置換する。代替音声は基本的には、人には理解できず、会話の相手側のロボットにて元の情報に復元することが可能な(ロボットには内容が理解できる)、但し音声としては聞き取れるものである。代替音声の例としては、暗号化された音声、X倍速音声(早送り音声)、逆再生音声、および個人情報を含む部分の音声データ全体を暗号化した機械音のような音声などを例示することができる。
 また、応答変更部25は、個人情報判定部24により、応答生成部23によって生成された応答文の中に個人情報が含まれていないと判定された場合、応答生成部23によって生成された応答文を変更しない。これにより、応答文中の個人情報と関係ない部分が間違って代替音声に置換されることを回避することができる。
 音声合成部26は、応答生成部23によって生成された応答文、または応答変更部25によって変更された応答文、の何れかのテキストデータを音声データに変換する(音声を合成する)。音声合成部26は、変換した音声データを音声出力部12に出力する。
 復元部27は、通信部14が受信した実際のデータに個人情報を暗号化した暗号化データが含まれている場合、その暗号化データを元のデータに復号する。また、復元部27は、音声認識部21による音声認識の結果に代替音声が含まれている場合に、当該代替音声から元の個人情報を復元する。これにより、会話中に含まれる代替音声から元の個人情報を復元することができる。暗号化されたデータおよび代替音声を元の実際のデータに復元する際は、複合化または復元化のための鍵情報を用いても良い。この鍵情報を有していなければ、暗号化されたデータおよび代替音声を元の実際のデータに復元することはできないようにすることで、セキュリティ性を高めることができる。また、鍵情報は、会話を行うロボットのそれぞれが予め保持していても良いし、ロボット同士の通信プロトコルが確立した際に、会話を行うロボット同士で鍵情報の交換を行うようにしても良い。
 (ロボット1の効果)
 ロボット1によれば、入力された音声の音声認識の結果に基づいて応答文を生成し、生成された応答文の中に個人情報が含まれているか否かを判定し、応答文の中に個人情報が含まれていると判定された場合、当該個人情報を、人には理解できず、会話の相手側の装置にて元の情報に復元することが可能な代替音声に置換することで上記応答文を変更する。これにより、入力された音声の音声認識の結果に含まれる個人情報を、人には理解できず、会話の相手側の装置にて元の情報に復元することが可能な代替音声に置換することができる。また、ロボット1によれば、応答生成部23によって生成された応答文、または応答変更部25によって変更された応答文、の何れかから合成された音声を出力する。このため、ロボット1によれば、会話中における個人情報の漏洩を使用者(人)には完全に回避しつつ、相手装置には内容を伝え、意味のある会話を継続することができる。
 〔ロボットの特徴的な動作〕
 次に、図2のフローチャートに基づき、ロボット1の特徴的な動作について説明する。図2は、ロボット1の特徴的な動作の流れを示すフローチャートである。以下では、ロボット1であるロボットAおよびロボットBの2台のロボットが会話を行う場合について説明する。
 まず、2台のロボットAおよびBのそれぞれで接続開始する。接続開始の方法はボタンを押す、音声コマンド、筐体を揺らすなどのユーザによる操作であってもよいし、通信部14を介して接続中のネットワークサーバーから開始しても良い。ロボットAおよびBのそれぞれは、WLAN(Wireless Local Area Network)や位置情報、または、Bluetooth(登録商標)によって相手を発見して通信プロトコルを確立する。ロボットAおよびBのそれぞれは、これから再生する会話シナリオを交換して、図2に示すフローチャートの動作が開始される(START)。
 ステップS101(以下、「ステップ」を省略する)では、ロボットAの発話音声が、ロボットBの音声入力部11を介して入力されて音声情報に変換され、音声情報は音声認識部21に送信されて、S102に進む。S102では、ロボットBの音声認識部21が、ロボットAの発話音声に係る音声情報の音声認識を行い、音声認識の結果がシナリオ確認部22に送信されて、S103に進む。
 S103では、シナリオ確認部22が、音声認識の結果を記憶部13に記憶された会話シナリオ中のどの会話に対応しているかを確認し、確認結果を応答生成部23に送信して、S104に進む。S104では、応答生成部23が、シナリオ確認部22が確認した会話の返答に対応する会話を会話シナリオ中から検索し、その検索結果に基づいて応答(応答文)を作成(生成)し、個人情報判定部24に送信して、S105に進む。
 S105では、個人情報判定部24が、応答文に個人情報が含まれているか否かを判定し、応答文に個人情報が含まれていると判定された場合は、S106に進む。一方、S105で、応答文に個人情報が含まれていないと判定された場合は、S107に進む。S106では、応答変更部25は、応答生成部23が生成した応答文に含まれる個人情報を、人には理解できず、会話の相手側の装置にて元の情報に復元することが可能な代替音声に置換して応答文に変更を加え、音声合成部26へ送信して、S108に進む。
 S107では、応答変更部25は、応答生成部23が生成した応答文に変更を加えず、そのまま音声合成部26へ送信してS108に進む。S108では、音声合成部26が、応答生成部23によって生成された応答文、または応答変更部25によって変更された応答文、の何れかに基づいて音声を合成し、音声出力部12に送信して、S109に進む。S109では、音声出力部12が、音声合成部26で合成された音声を出力し、動作を終了する(END)。ロボットAおよびBのそれぞれは、上述したS101~S109までの動作を繰り返すことで、会話を継続する。
 〔ロボットによる会話の一例〕
 次に、図3に基づき、ロボット1であるロボットAおよびB同士の会話の一例について説明する。図3は、ロボットによる会話の一例を示す図である。
 まず、会話C201(以下、「会話」は省略する)では、ロボットAが、「こんにちは」と発話し、C202に移行する。次に、C202では、ロボットBが、「どーもどーもー」と返答し、C203に移行する。
 C203では、ロボットAが、「佐藤さんのロボットです。」と発話して、C204に移行する。C204では、ロボットBが、「僕の名前は、ロボ太郎です。」と返答し、C205に移行する。
 C205では、ロボットAが、「連絡先を交換しよう!」と発話して、C206に移行する。C206では、ロボットBが、「オッケー!連絡先教えるね」と返答し、C207に移行する。C207では、ロボットBが、ロボットBの連絡先の代替音声を発話して、C208に移行する。
 C208では、ロボットAが、ロボットAの連絡先の代替音声を発話して、C209に移行する。S209では、ロボットAが、「サンキュー!これからよろしくね」と発話して、C210に移行する。C210では、ロボットBが、「うん!これからよろしくね」と返答して会話が終了する。以上のように、ロボット1によれば、会話感の喪失を抑制しつつ、第三者への個人情報の漏洩を完全に回避することができる。
 〔ソフトウェアによる実現例〕
 ロボット1における制御部20の制御ブロック(特にシナリオ確認部22、応答生成部23、個人情報判定部24および応答変更部25)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
 後者の場合、ロボット1における制御部20は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
 〔まとめ〕
 本発明の態様1に係る応答装置(ロボット1)は、入力された音声の音声認識の結果に基づいて応答文を生成する応答生成部(23)と、生成された応答文の中に個人情報が含まれているか否かを判定する個人情報判定部(24)と、上記応答文の中に個人情報が含まれていると判定された場合、当該個人情報を、人には理解できず、会話の相手側の装置にて元の情報に復元することが可能な代替音声に置換することで上記応答文を変更する応答変更部(25)と、上記応答生成部によって生成された応答文、または上記応答変更部によって変更された応答文、の何れかから合成された音声を出力する音声出力部(12)と、を備えている構成である。
 上記構成によれば、入力された音声の音声認識の結果に基づいて応答文を生成し、生成された応答文の中に個人情報が含まれているか否かを判定し、応答文の中に個人情報が含まれていると判定された場合、当該個人情報を、人には理解できず、会話の相手側の装置にて元の情報に復元することが可能な代替音声に置換することで上記応答文を変更する。これにより、入力された音声の音声認識の結果に含まれる個人情報を、人には理解できず、会話の相手側の装置にて元の情報に復元することが可能な代替音声に置換することができる。また、上記構成によれば、応答生成部によって生成された応答文、または応答変更部によって変更された応答文、の何れかから合成された音声を出力する。このため、会話中における個人情報の漏洩を使用者(人)には完全に回避しつつ、相手装置には内容を伝え、意味のある会話を継続することができる。
 本発明の態様2に係る応答装置は、上記態様1において、上記代替音声は、早送り音声、逆再生音声または暗号化された音声の何れかであることが好ましい。上記構成によれば、人には理解できず、会話の相手側の装置にて元の情報に復元することが可能な代替音声を実現することができる。
 本発明の態様3に係る応答装置は、上記態様1または2において、上記個人情報判定部は、上記応答生成部によって生成された応答文の中に個人情報として予め指定された指定データが含まれているか否かによって、上記応答文の中に個人情報が含まれている否かを判定し、上記応答変更部は、上記指定データを上記個人情報として代替音声に置換することが好ましい。上記構成によれば、応答文の中に含まれる個人情報に係るデータが予め指定データとして指定されているため、応答文の中から個人情報に係るデータを確実に判別することができる。
 本発明の態様4に係る応答装置は、上記態様1~3の何れかにおいて、上記応答変更部は、上記応答生成部によって生成された応答文の中に個人情報が含まれていないと判定された場合、上記生成された応答文を変更しないことが好ましい。上記構成によれば、応答文中の個人情報と関係ない部分が間違って代替音声に置換されることを回避することができる。
 本発明の態様5に係る応答装置は、上記態様1~4の何れかにおいて、上記音声認識の結果が、所定の会話シナリオ中のどの会話に対応しているかを確認するシナリオ確認部(22)を備え、上記応答生成部は、上記シナリオ確認部によって確認された会話の返答に対応する会話を上記会話シナリオ中から検索し、その検索結果に基づいて上記応答文を生成することが好ましい。上記構成によれば、会話シナリオに従って会話を継続させることができる。
 本発明の態様6に係る応答装置は、上記態様1~5の何れかにおいて、上記音声認識の結果に代替音声が含まれている場合に、当該代替音声から個人情報を復元する復元部(27)を備えていても良い。上記構成によれば、会話中に含まれる代替音声から元の個人情報を復元することができる。
 本発明の態様7に係る応答装置の制御方法は、入力された音声の音声認識の結果に基づいて応答する応答装置の制御方法であって、入力された音声の音声認識の結果に基づいて応答文を生成する応答生成ステップと、生成された応答文の中に個人情報が含まれているか否かを判定する個人情報判定ステップと、上記応答文の中に個人情報が含まれていると判定された場合、当該個人情報を、人には理解できず、会話の相手側の装置にて元の情報に復元することが可能な代替音声に置換することで上記応答文を変更する応答変更ステップと、上記応答生成ステップで生成された応答文、または上記応答変更ステップで変更された応答文、の何れかから合成された音声を出力する音声出力ステップと、を含む方法である。上記方法によれば、上記態様1と同様の効果を得ることができる。
 本発明の各態様に係る応答装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記応答装置が備える各部(ソフトウェア要素)として動作させることにより上記応答装置をコンピュータにて実現させる応答装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
 〔付記事項〕
 本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
  1  ロボット(応答装置)
 12  音声出力部
 21  音声認識部
 22  シナリオ確認部
 23  応答生成部
 24  個人情報判定部
 25  応答変更部
 26  音声合成部
 27  復元部

Claims (8)

  1.  入力された音声の音声認識の結果に基づいて応答文を生成する応答生成部と、
     生成された応答文の中に個人情報が含まれているか否かを判定する個人情報判定部と、
     上記応答文の中に個人情報が含まれていると判定された場合、当該個人情報を、人には理解できず、会話の相手側の装置にて元の情報に復元することが可能な代替音声に置換することで上記応答文を変更する応答変更部と、
     上記応答生成部によって生成された応答文、または上記応答変更部によって変更された応答文、の何れかから合成された音声を出力する音声出力部と、を備えていることを特徴とする応答装置。
  2.  上記代替音声は、早送り音声、逆再生音声または暗号化された音声の何れかであることを特徴とする請求項1に記載の応答装置。
  3.  上記個人情報判定部は、
     上記応答生成部によって生成された応答文の中に個人情報として予め指定された指定データが含まれているか否かによって、上記応答文の中に個人情報が含まれている否かを判定し、
     上記応答変更部は、
     上記指定データを上記個人情報として代替音声に置換することを特徴とする請求項1または2に記載の応答装置。
  4.  上記応答変更部は、
     上記応答生成部によって生成された応答文の中に個人情報が含まれていないと判定された場合、上記生成された応答文を変更しないことを特徴とする請求項1から3までの何れか1項に記載の応答装置。
  5.  上記音声認識の結果が、所定の会話シナリオ中のどの会話に対応しているかを確認するシナリオ確認部を備え、
     上記応答生成部は、
     上記シナリオ確認部によって確認された会話の返答に対応する会話を上記会話シナリオ中から検索し、その検索結果に基づいて上記応答文を生成することを特徴とする請求項1から4までの何れか1項に記載の応答装置。
  6.  上記音声認識の結果に代替音声が含まれている場合に、当該代替音声から個人情報を復元する復元部を備えていることを特徴とする請求項1から5までの何れか1項に記載の応答装置。
  7.  請求項1に記載の応答装置としてコンピュータを機能させるための制御プログラムであって、上記応答生成部、上記個人情報判定部、および上記応答変更部としてコンピュータを機能させるための制御プログラム。
  8.  入力された音声の音声認識の結果に基づいて応答する応答装置の制御方法であって、
     入力された音声の音声認識の結果に基づいて応答文を生成する応答生成ステップと、
     生成された応答文の中に個人情報が含まれているか否かを判定する個人情報判定ステップと、
     上記応答文の中に個人情報が含まれていると判定された場合、当該個人情報を、人には理解できず、会話の相手側の装置にて元の情報に復元することが可能な代替音声に置換することで上記応答文を変更する応答変更ステップと、
     上記応答生成ステップで生成された応答文、または上記応答変更ステップで変更された応答文、の何れかから合成された音声を出力する音声出力ステップと、を含むことを特徴とする応答装置の制御方法。
PCT/JP2017/020737 2016-09-02 2017-06-05 応答装置およびその制御方法、ならびに制御プログラム WO2018042798A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018536951A JP6644153B2 (ja) 2016-09-02 2017-06-05 応答装置およびその制御方法、ならびに制御プログラム
CN201780036613.2A CN109643543A (zh) 2016-09-02 2017-06-05 响应装置及其控制方法以及控制程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016172311 2016-09-02
JP2016-172311 2016-09-02

Publications (1)

Publication Number Publication Date
WO2018042798A1 true WO2018042798A1 (ja) 2018-03-08

Family

ID=61300307

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/020737 WO2018042798A1 (ja) 2016-09-02 2017-06-05 応答装置およびその制御方法、ならびに制御プログラム

Country Status (3)

Country Link
JP (1) JP6644153B2 (ja)
CN (1) CN109643543A (ja)
WO (1) WO2018042798A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003016064A (ja) * 2001-06-29 2003-01-17 Toshiba Corp 電子文書の実名語/匿名語マップ作成装置、作成方法、及び作成プログラム、並びに電子文書の匿名化装置、並びに電子文書の実名化装置
JP2006178203A (ja) * 2004-12-22 2006-07-06 Nec Corp 音声情報加工システム、音声情報加工方法及び音声情報加工プログラム
JP2010193391A (ja) * 2009-02-20 2010-09-02 Oki Networks Co Ltd 通話システム、通話方法、通話プログラム、電話端末及び交換機
JP2012170024A (ja) * 2011-02-16 2012-09-06 Nikon Corp 情報処理装置
JP2013098869A (ja) * 2011-11-02 2013-05-20 Chiba Inst Of Technology 音声システム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030022848A (ko) * 2000-07-07 2003-03-17 콸콤 인코포레이티드 가청음으로 안전하게 신원을 인증하는 방법 및 장치
JP2002269047A (ja) * 2001-03-07 2002-09-20 Nec Eng Ltd 音声ユーザ認証システム
CN102438024A (zh) * 2012-01-05 2012-05-02 重庆大学 基于非语言特征的声音验证方法
JPWO2015098109A1 (ja) * 2013-12-26 2017-03-23 パナソニックIpマネジメント株式会社 音声認識処理装置、音声認識処理方法、および表示装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003016064A (ja) * 2001-06-29 2003-01-17 Toshiba Corp 電子文書の実名語/匿名語マップ作成装置、作成方法、及び作成プログラム、並びに電子文書の匿名化装置、並びに電子文書の実名化装置
JP2006178203A (ja) * 2004-12-22 2006-07-06 Nec Corp 音声情報加工システム、音声情報加工方法及び音声情報加工プログラム
JP2010193391A (ja) * 2009-02-20 2010-09-02 Oki Networks Co Ltd 通話システム、通話方法、通話プログラム、電話端末及び交換機
JP2012170024A (ja) * 2011-02-16 2012-09-06 Nikon Corp 情報処理装置
JP2013098869A (ja) * 2011-11-02 2013-05-20 Chiba Inst Of Technology 音声システム

Also Published As

Publication number Publication date
JPWO2018042798A1 (ja) 2019-03-07
JP6644153B2 (ja) 2020-02-12
CN109643543A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
US20090198497A1 (en) Method and apparatus for speech synthesis of text message
US20100211389A1 (en) System of communication employing both voice and text
JP2012156781A (ja) 携帯通信端末
US20050208893A1 (en) Bluetooth earphone module with audio player function
WO2018135276A1 (ja) 言動制御装置、ロボット、制御プログラムおよび言動制御装置の制御方法
CN101346976A (zh) 在消息中发送运动控制内容的方法、消息传送设备和消息再现设备
JP6559417B2 (ja) 情報処理装置、情報処理方法、対話システム、および制御プログラム
WO2018042798A1 (ja) 応答装置およびその制御方法、ならびに制御プログラム
US20200065057A1 (en) Audio adjusting device, computer-readable non-transitory storage medium storing control program, electronic apparatus, and method for controlling audio adjusting device
JP6448950B2 (ja) 音声対話装置及び電子機器
WO2018020828A1 (ja) 翻訳装置および翻訳システム
JP2000285063A (ja) 情報処理装置および情報処理方法、並びに媒体
JP6846753B2 (ja) コンピュータシステム、Web会議音声補助方法及びプログラム
JP6508251B2 (ja) 音声対話システムおよび情報処理装置
KR100380829B1 (ko) 에이전트를 이용한 대화 방식 인터페이스 운영 시스템 및방법과 그 프로그램 소스를 기록한 기록 매체
US11367436B2 (en) Communication apparatuses
JP5175231B2 (ja) 通話システム、通話方法、通話プログラム、電話端末及び交換機
JP2007235328A (ja) 音声通話用端末装置及び音声通話用プログラム
JP2015064450A (ja) 情報処理装置、サーバ、および、制御プログラム
JP5921259B2 (ja) 音声入力装置
JP2000231558A (ja) 通信装置、通信方法及び通信制御プログラムを記録した記録媒体
JP2012074872A (ja) 通信装置、通信方法、および通信プログラム
US20190198010A1 (en) Speech synthesis system
JP2015231083A (ja) 音声合成通話システム、通信端末および音声合成通話方法
JP2006301063A (ja) コンテンツ提供システム、コンテンツ提供装置および端末装置

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2018536951

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17845809

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17845809

Country of ref document: EP

Kind code of ref document: A1