WO2019044534A1 - Information processing device and information processing method - Google Patents

Information processing device and information processing method Download PDF

Info

Publication number
WO2019044534A1
WO2019044534A1 PCT/JP2018/030487 JP2018030487W WO2019044534A1 WO 2019044534 A1 WO2019044534 A1 WO 2019044534A1 JP 2018030487 W JP2018030487 W JP 2018030487W WO 2019044534 A1 WO2019044534 A1 WO 2019044534A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
candidate
tone
information processing
conversion
Prior art date
Application number
PCT/JP2018/030487
Other languages
French (fr)
Japanese (ja)
Inventor
角川 元輝
政明 星野
亜由美 中川
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to JP2019539360A priority Critical patent/JPWO2019044534A1/en
Publication of WO2019044534A1 publication Critical patent/WO2019044534A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Abstract

The present invention pertains to an information processing device and an information processing method with which it is possible to utter a more humanly speech by limitation to the seven-and-five syllable meter. Due to the fact that an information processing device equipped with a processing unit for converting inputted text information into text in seven-and-five syllable meter and outputting the resulting text is provided, it is possible to utter a more humanly speech by limitation to the seven-and-five syllable meter. The present feature can, for example, be applied to a system for generating a response to a user's utterance as in a dialog system, or a system for reading aloud text information by speech synthesis as in a news program production system or a digital signage system.

Description

情報処理装置、及び情報処理方法INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING METHOD
 本技術は、情報処理装置、及び情報処理方法に関し、特に、七五調制約によって、より人間的な発話を行うことができるようにした情報処理装置、及び情報処理方法に関する。 The present technology relates to an information processing apparatus and an information processing method, and more particularly, to an information processing apparatus and an information processing method capable of more human-like speech by a seventy-five tone constraint.
 近年、音声による対話を行う商品やサービスが普及している。例えば、特許文献1には、外部からの音声に応じて任意の動作を行う電子玩具(家庭用ロボット)が開示されている。 In recent years, products and services for conducting dialogue by voice have become widespread. For example, Patent Document 1 discloses an electronic toy (home robot) that performs an arbitrary operation according to an external voice.
特開2002-307354号公報JP 2002-307354 A
 ところで、音声による対話を行う場合に、例えば、「明日の横浜の天気は晴れです。」のように応答が単調で、人間同士が行う対話とは明らかに異なっているものも多い。 By the way, when conducting a dialogue by voice, for example, there are many cases in which the response is monotonous like "Tomorrow's weather in Yokohama is fine." And clearly different from the dialogue between humans.
 そうすると、ユーザによっては、例えば、面白みがない、対話を楽しめない、記憶に残りにくい、継続して使いたいとは思わないなどとなることが想定され、より人間的な発話を行うことができるようにするための技術が求められていた。 Then, depending on the user, for example, it may be assumed that the user is not entertained, can not enjoy the dialogue, hardly retains in memory, does not want to continue using it, etc., so that more human speech can be performed. The technology to make it was required.
 本技術はこのような状況に鑑みてなされたものであり、七五調制約によって、より人間的な発話を行うことができるようにするものである。 The present technology has been made in view of such a situation, and makes it possible to perform more human-like speech by the seventy-five tone restriction.
 本技術の一側面の情報処理装置は、入力されたテキスト情報を、七五調に変換して出力する処理部を備える情報処理装置である。 An information processing apparatus according to one aspect of the present technology is an information processing apparatus including a processing unit that converts input text information into seventy-five tones and outputs the converted information.
 本技術の一側面の情報処理方法は、情報処理装置の情報処理方法において、前記情報処理装置が、入力されたテキスト情報を、七五調に変換して出力する情報処理方法である。 An information processing method according to one aspect of the present technology is an information processing method in which the information processing device converts input text information into seventy-five tones and outputs the information processing method.
 本技術の一側面の情報処理装置、及び情報処理方法においては、入力されたテキスト情報が、七五調に変換されて出力される。 In the information processing apparatus and the information processing method according to one aspect of the present technology, input text information is converted to seven-tones and output.
 本技術の一側面の情報処理装置は、独立した装置であってもよいし、1つの装置を構成している内部ブロックであってもよい。 The information processing apparatus according to one aspect of the present technology may be an independent apparatus or an internal block constituting one apparatus.
 本技術の一側面によれば、七五調制約によって、より人間的な発話を行うことができる。 According to one aspect of the present technology, it is possible to perform more human speech by the seventy-five tone constraint.
 なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。 In addition, the effect described here is not necessarily limited, and may be any effect described in the present disclosure.
本技術を適用した情報処理装置のハードウェア構成の例を示すブロック図である。It is a block diagram showing an example of hardware constitutions of an information processor to which this art is applied. 本技術を適用した情報処理装置のソフトウェア構成の例を示すブロック図である。It is a block diagram showing an example of software composition of an information processor to which this art is applied. 対話処理の流れを示すフローチャートである。It is a flowchart which shows the flow of interactive processing. 対話処理の流れを示すフローチャートである。It is a flowchart which shows the flow of interactive processing. コンテキスト情報DBの例を示す図である。It is a figure which shows the example of context information DB. ユーザフィードバック情報DBの例を示す図である。It is a figure which shows the example of user feedback information DB. 語尾リストの例を示す図である。It is a figure which shows the example of an end list. 意味不変語リストの例を示す図である。It is a figure which shows the example of a meaning invariant word list | wrist. オノマトペリストの例を示す図である。It is a figure which shows the example of onomatopeist. 同義語辞書の例を示す図である。It is a figure which shows the example of a synonym dictionary. 本技術を適用したニュース番組制作システムの例を示す図である。FIG. 1 is a diagram showing an example of a news program production system to which the present technology is applied. 本技術を適用したデジタルサイネージシステムの例を示す図である。It is a figure showing the example of the digital signage system to which this art is applied. 対話システムの構成の例を示すブロック図である。It is a block diagram showing an example of composition of a dialogue system.
 以下、図面を参照しながら本技術の実施の形態について説明する。なお、説明は以下の順序で行うものとする。 Hereinafter, embodiments of the present technology will be described with reference to the drawings. The description will be made in the following order.
1.第1の実施の形態:対話システム
2.第2の実施の形態:ニュース番組制作システム
3.第3の実施の形態:デジタルサイネージシステム
4.変形例
1. First embodiment: dialogue system Second embodiment: news program production system Third embodiment: digital signage system Modified example
<1.第1の実施の形態> <1. First embodiment>
(ハードウェア構成例)
 図1は、本技術を適用した情報処理装置のハードウェア構成の例を示すブロック図である。
(Hardware configuration example)
FIG. 1 is a block diagram illustrating an example of a hardware configuration of an information processing apparatus to which the present technology is applied.
 図1の情報処理装置10は、例えば、ネットワークに接続可能なスピーカであって、いわゆるスマートスピーカやホームエージェントなどとも称される。この種のスピーカは、音楽の再生のほか、例えば、ユーザとの音声対話や、照明器具や空調設備などの機器に対する音声操作などを行うことができる。 The information processing apparatus 10 in FIG. 1 is, for example, a speaker connectable to a network, and is also called a so-called smart speaker or a home agent. This type of speaker can perform, for example, voice dialogue with the user and voice operation to devices such as lighting fixtures and air conditioners in addition to reproduction of music.
 なお、情報処理装置10は、スピーカに限らず、例えば、スマートフォンや携帯電話機等のモバイル機器や、タブレット型のコンピュータ、パーソナルコンピュータ、テレビ受像機、ゲーム機等の電子機器として構成されるようにしてもよい。 The information processing apparatus 10 is not limited to a speaker, and may be configured as, for example, a mobile device such as a smartphone or a mobile phone, or an electronic device such as a tablet computer, a personal computer, a television receiver, or a game machine. It is also good.
 図1において、情報処理装置10は、CPU101、ROM102、RAM103、情報アクセス部104、ハードディスク105、操作I/F106、操作部107、音声入力I/F108、マイクロフォン109、映像入力I/F110、カメラ111、音声出力I/F112、スピーカ113、映像出力I/F114、ディスプレイ115、通信I/F116、及びバス117から構成される。 In FIG. 1, the information processing apparatus 10 includes a CPU 101, a ROM 102, a RAM 103, an information access unit 104, a hard disk 105, an operation I / F 106, an operation unit 107, an audio input I / F 108, a microphone 109, an image input I / F 110, and a camera 111. , An audio output I / F 112, a speaker 113, a video output I / F 114, a display 115, a communication I / F 116, and a bus 117.
 CPU(Central Processing Unit)101、ROM(Read Only Memory)102、及びRAM(Random Access Memory)103は、制御部100として構成される。制御部100は、各種の演算処理や、各部の動作制御など、情報処理装置10における中心的な処理装置として動作する。 A central processing unit (CPU) 101, a read only memory (ROM) 102, and a random access memory (RAM) 103 are configured as the control unit 100. The control unit 100 operates as a central processing unit in the information processing apparatus 10, such as various arithmetic processing and operation control of each unit.
 情報アクセス部104は、例えば、データ書き込み/読み出し回路などから構成される。情報アクセス部104は、バス117を介した制御部100からの制御に従い、各種のデータを、ハードディスク105に書き込んだり、ハードディスク105に記録された各種のデータを読み出したりする。ハードディスク105は、HDD(Hard Disk Drive)であって、大容量の記録装置として構成される。 The information access unit 104 includes, for example, a data write / read circuit. The information access unit 104 writes various data to the hard disk 105 or reads various data recorded on the hard disk 105 under the control of the control unit 100 via the bus 117. The hard disk 105 is an HDD (Hard Disk Drive), and is configured as a large-capacity recording device.
 操作I/F106は、例えば、操作インターフェース回路などから構成される。操作部107は、例えば、ボタンやキーボード、マウス等から構成される。操作I/F106は、操作部107に対するユーザの操作に応じた操作信号を、バス117を介して制御部100に供給する。 The operation I / F 106 includes, for example, an operation interface circuit. The operation unit 107 includes, for example, a button, a keyboard, a mouse, and the like. The operation I / F 106 supplies an operation signal corresponding to the user's operation on the operation unit 107 to the control unit 100 via the bus 117.
 音声入力I/F108は、例えば、音声入力インターフェース回路などから構成される。マイクロフォン109は、外部からの音を、電気信号に変換する機器(収音器)である。音声入力I/F108は、マイクロフォン109により収音された音に応じた音声信号を、バス117を介して制御部100や音声出力I/F112等に供給する。 The voice input I / F 108 includes, for example, a voice input interface circuit. The microphone 109 is a device (sound collector) that converts external sound into an electrical signal. The audio input I / F 108 supplies an audio signal corresponding to the sound collected by the microphone 109 to the control unit 100, the audio output I / F 112, and the like via the bus 117.
 映像入力I/F110は、例えば、映像入力インターフェース回路などから構成される。カメラ111は、イメージセンサや信号処理回路などを有し、被写体を撮像して撮像画像を生成する。映像入力I/F110は、カメラ111により生成された撮像画像の画像データを、バス117を介して制御部100や情報アクセス部104、映像出力I/F114等に供給する。 The video input I / F 110 includes, for example, a video input interface circuit. The camera 111 includes an image sensor, a signal processing circuit, and the like, and captures an object to generate a captured image. The video input I / F 110 supplies image data of a captured image generated by the camera 111 to the control unit 100, the information access unit 104, the video output I / F 114, and the like via the bus 117.
 音声出力I/F112は、例えば、音声出力インターフェース回路などから構成される。スピーカ113は、電気信号を物理振動に変えて音を出す機器である。音声出力I/F112は、バス117を介した制御部100からの制御に従い、スピーカ113から、音声信号に応じた音を出力する。 The audio output I / F 112 includes, for example, an audio output interface circuit. The speaker 113 is a device that converts an electrical signal into physical vibration to produce sound. The audio output I / F 112 outputs a sound corresponding to the audio signal from the speaker 113 according to the control from the control unit 100 via the bus 117.
 映像出力I/F114は、例えば、映像出力インターフェース回路などから構成される。ディスプレイ115は、例えば、液晶ディスプレイや有機ELディスプレイなどから構成される。映像出力I/F114は、バス117を介した制御部100からの制御に従い、ディスプレイ115に対し、映像信号に応じた各種の情報(例えば文字や画像等)を表示する。 The video output I / F 114 includes, for example, a video output interface circuit. The display 115 includes, for example, a liquid crystal display or an organic EL display. Under control of the control unit 100 via the bus 117, the video output I / F 114 causes the display 115 to display various information (for example, characters, images, etc.) according to the video signal.
 通信I/F116は、例えば、通信インターフェース回路などから構成される。通信I/F116は、バス117を介した制御部100からの制御に従い、インターネット30に接続されたサーバ(不図示)にアクセスして、各種のデータをやり取りする。 The communication I / F 116 includes, for example, a communication interface circuit. The communication I / F 116 accesses a server (not shown) connected to the Internet 30 under the control of the control unit 100 via the bus 117 to exchange various data.
 なお、図1に示した構成では、センサとして、カメラ111が有するイメージセンサを例示したが、他のセンサが設けられるようにしてもよい。各種のセンサによるセンシングの結果得られるセンサ情報は、バス117を介して制御部100に供給され、処理される。 In addition, although the image sensor which the camera 111 has was illustrated as a sensor in the structure shown in FIG. 1, another sensor may be provided. Sensor information obtained as a result of sensing by various sensors is supplied to the control unit 100 via the bus 117 and processed.
 ここで、例えば、センサとしては、磁場(磁界)の大きさや方向を検出する磁気センサ、加速度を検出する加速度センサ、角度(姿勢)や角速度、角加速度を検出するジャイロセンサ、近接するものを検出する近接センサ、あるいは、指紋や虹彩、脈拍などの生体情報を検出する生体センサなど、各種のセンサを含めることができる。 Here, for example, as a sensor, a magnetic sensor that detects the magnitude and direction of a magnetic field (magnetic field), an acceleration sensor that detects acceleration, a gyro sensor that detects angle (posture), angular velocity, and angular acceleration, and one that approaches is detected A variety of sensors can be included, such as proximity sensors or biometric sensors that detect biometric information such as fingerprints, irises, and pulses.
 さらに、センサには、温度を検出する温度センサや、湿度を検出する湿度センサ、周囲の明るさを検出する環境光センサなどの周囲の環境を測定するためのセンサを含めることができる。なお、センサ情報としては、上述のセンサから得られるセンサ情報のほか、GPS(Global Positioning System)信号などから算出される位置情報や、計時手段により計時された時刻情報などの様々な情報を含めることができる。 Furthermore, the sensor may include a sensor for measuring the surrounding environment such as a temperature sensor for detecting temperature, a humidity sensor for detecting humidity, and an ambient light sensor for detecting ambient brightness. In addition to the sensor information obtained from the above-mentioned sensors, the sensor information may include various information such as position information calculated from a GPS (Global Positioning System) signal or the like, time information measured by a clock means, etc. Can.
(ソフトウェア構成例)
 図2は、本技術を適用した情報処理装置のソフトウェア構成の例を示すブロック図である。
(Example of software configuration)
FIG. 2 is a block diagram illustrating an example of a software configuration of an information processing apparatus to which the present technology is applied.
 すなわち、図1に示した情報処理装置10では、CPU101が、ROM102や、ハードディスク105等の記録装置に記録されているプログラムを、RAM103にロードして実行することによって、図2に示した情報処理部150の機能が実現され、各種の処理が実行される。 That is, in the information processing apparatus 10 shown in FIG. 1, the CPU 101 loads the program stored in the recording device such as the ROM 102 or the hard disk 105 into the RAM 103 and executes the program, thereby performing the information processing shown in FIG. The functions of unit 150 are realized, and various types of processing are performed.
 図2において、情報処理部150は、音声認識部151、発話意図理解部152、アプリケーション/サービス実行部153、応答生成部154、コンテキスト取得部155、七五調変換部156、音声合成部157、及びユーザフィードバック収集部158から構成される。 In FIG. 2, the information processing unit 150 includes a speech recognition unit 151, an utterance intention understanding unit 152, an application / service execution unit 153, a response generation unit 154, a context acquisition unit 155, a seventy-five tone conversion unit 156, a speech synthesis unit 157, and a user. It comprises a feedback collection unit 158.
 なお、以下の説明では、ユーザに対する応答文のうち、七五調変換部156により七五調に変換される前の応答文を、「応答文(変換前)」と表記するとともに、七五調変換部156により七五調に変換された後の応答文を、「応答文(変換後)」と表記して区別する。また、応答文のうち、応答文(変換後)の候補として生成される応答文を、「応答文(変換後候補)」と表記する。 In the following description, among the response sentences for the user, the response sentence before being converted to the seventy-five by the seventy-five conversion unit 156 is described as “response sentence (before conversion)”, and the seven-five conversion unit 156 converts the response sentence to seventy-five. The response sentence after conversion is distinguished by being written as "response sentence (after conversion)". Further, among the response sentences, the response sentence generated as a candidate for the response sentence (after conversion) is denoted as “response sentence (candidate after conversion)”.
 また、七五調とは、例えば、「五・七・五」や、「五・七・五・七・七」などのように、五音と七音が繰り返される形式をいう。ここでの単位は、例えばモーラ(音韻)を用いることができる。 Further, the term "seven tones" refers to a form in which five sounds and seven sounds are repeated, such as "5, 7, 5," or "5, 7, 5, 7, 7,". For example, a mora (phoneme) can be used as the unit here.
 なお、音節は、ローマ字表記したときの母音の数であって、モーラとは異なる。すなわち、モーラは、音節数に加えて、「っ」、「ん」、「-」の個数を含める。例えば、「チューリッヒ」である語は、3音節であって、5モーラでもある。ただし、これらの音節やモーラの定義は一例であって、他の定義が採用されるようにしてもよい。 Note that syllables are the number of vowels when written in Roman letters and are different from mora. That is, in addition to the number of syllables, the mora includes the number of "", "n" and "-". For example, the word "Zurich" is three syllables and also five moras. However, these definitions of syllables and moras are merely examples, and other definitions may be adopted.
 音声認識部151は、マイクロフォン109を介してそこに入力される、ユーザの発話に応じた音声信号を、テキスト情報に置き換える音声認識処理を実行し、その結果得られる音声認識結果を、発話意図理解部152に供給する。なお、この音声認識処理では、音声テキスト変換用のデータベースなどが用いられる。 The speech recognition unit 151 executes speech recognition processing to replace the speech signal according to the user's speech input thereto via the microphone 109 with text information, and the speech recognition result obtained as a result is understood as speech intention It supplies to the part 152. In the speech recognition process, a database for speech-to-text conversion is used.
 発話意図理解部152は、音声認識部151から供給される音声認識結果に基づいて、ユーザの発話に応じたテキスト情報に対する解析処理(ユーザの意図を理解する処理)を実行する。発話意図理解部152は、解析処理の結果得られる意図理解結果を、アプリケーション/サービス実行部153に供給する。 Based on the speech recognition result supplied from the speech recognition unit 151, the speech intention understanding unit 152 executes analysis processing (processing to understand the intention of the user) on text information according to the speech of the user. The utterance intention understanding unit 152 supplies the application / service execution unit 153 with the intention understanding result obtained as a result of the analysis processing.
 ここでは、ユーザの意図として、例えば、「天気確認」や「スケジュール確認」などの意図が推定され、また、そのパラメータ(スロット)として、「日時」や「場所」などが解析される。 Here, for example, intentions such as “weather confirmation” and “schedule confirmation” are estimated as the user's intention, and “date and time” and “place” are analyzed as the parameters (slots).
 アプリケーション/サービス実行部153は、発話意図理解部152から供給される意図理解結果に基づいて、ユーザの意図に合ったアプリケーションやサービスを実行し、その実行の結果を、応答生成部154に供給する。 The application / service execution unit 153 executes an application or service meeting the user's intention based on the intention understanding result supplied from the speech intention understanding unit 152, and supplies the result of the execution to the response generation unit 154. .
 ここでは、例えば、ユーザの意図として、「天気確認」が推定され、そのパラメータとして、「日時」や「場所」が解析された場合には、外部のサービスにより提供される、天気確認のAPI(Application Programming Interface)に対し、「日時」や「場所」のパラメータを引数として渡すことで、対象の日時や場所の天気に関する情報を得ることができる。 Here, for example, when “weather confirmation” is estimated as the user's intention, and “date and time” and “place” are analyzed as parameters, weather confirmation API (provided by an external service) By passing parameters of “date and time” and “location” as arguments to Application Programming Interface, it is possible to obtain information on weather of the target date and time and place.
 応答生成部154は、アプリケーション/サービス実行部153から供給される、アプリケーションやサービスの実行結果などに基づいて、ユーザに対する応答文(変換前)を生成し、七五調変換部156に供給する。 The response generation unit 154 generates a response sentence (before conversion) for the user based on the execution result of the application or service supplied from the application / service execution unit 153, and supplies the response sentence to the quaternary conversion unit 156.
 コンテキスト取得部155は、時刻情報や位置情報、カメラ111により撮像された撮像画像の解析結果などに基づいて、コンテキスト情報を取得し、七五調変換部156に供給する。 The context acquisition unit 155 acquires context information on the basis of time information, position information, an analysis result of a captured image captured by the camera 111, and the like, and supplies the context information to the seven-to-five conversion unit 156.
 七五調変換部156は、応答生成部154から供給される応答文(変換前)に対する七五調変換処理を実行し、その結果得られる応答文(変換後)を、音声合成部157に供給する。このとき、七五調変換部156は、コンテキスト取得部155から供給されるコンテキスト情報や、ユーザフィードバック収集部158から供給されるユーザフィードバック情報に基づき、応答文(変換前)を、より適切に七五調に変換して、応答文(変換後)を得ることができる。 The seven-seventh conversion unit 156 performs seven-scene conversion processing on the response sentence (before conversion) supplied from the response generation unit 154, and supplies the response sentence (after conversion) obtained as a result to the speech synthesis unit 157. At this time, based on the context information supplied from the context acquisition unit 155 and the user feedback information supplied from the user feedback collection unit 158, the heptagon conversion unit 156 more appropriately converts the response sentence (before conversion) to seventy-five. Then, a response sentence (after conversion) can be obtained.
 音声合成部157は、七五調変換部156から供給される応答文(変換後)に基づいて、音声を合成して、スピーカ113から出力する。すなわち、音声合成部157は、応答文(変換後)のテキスト情報を読み上げる機能(TTS:Text To Speech)を有している。 The speech synthesis unit 157 synthesizes speech based on the response sentence (after conversion) supplied from the seven-seventh conversion unit 156 and outputs the synthesized speech from the speaker 113. That is, the speech synthesis unit 157 has a function (TTS: Text To Speech) for reading out text information of a response sentence (after conversion).
 ユーザフィードバック収集部158は、ユーザに対し、応答文(変換後)を出力したときのユーザの反応に関する情報を収集し、ユーザフィードバック情報として、七五調変換部156に供給する。 The user feedback collecting unit 158 collects information on the reaction of the user when the response sentence (after conversion) is output to the user, and supplies the information as user feedback information to the seven-seventh conversion unit 156.
 以上、情報処理装置10の構成について説明した。 The configuration of the information processing apparatus 10 has been described above.
(対話処理の流れ)
 次に、図3乃至図4のフローチャートを参照して、図2に示した情報処理部150により実行される対話処理の全体的な流れについて説明する。
(Flow of dialogue processing)
Next, with reference to the flowcharts of FIG. 3 to FIG. 4, the overall flow of the interactive processing performed by the information processing unit 150 shown in FIG. 2 will be described.
 ここで、情報処理部150に対する入力としては、マイクロフォン109から供給される、ユーザ発話に応じた音声信号、又はキーボードである操作部107から供給される操作信号に応じたテキスト情報がある。 Here, as an input to the information processing unit 150, there is an audio signal supplied from the microphone 109 according to a user's speech or text information according to an operation signal supplied from the operation unit 107 which is a keyboard.
 情報処理部150では、ユーザ発話に応じた音声信号が入力された場合に、ステップS11の処理が実行される。ステップS11において、音声認識部151は、ユーザが発話に応じた音声信号を、テキスト情報に置き換える音声認識処理を実行する。 The information processing unit 150 executes the process of step S11 when an audio signal according to the user's utterance is input. In step S11, the speech recognition unit 151 executes speech recognition processing to replace the speech signal corresponding to the user's speech with text information.
 このようにして、ステップS11の処理(音声認識処理)の結果得られるテキスト情報、又はユーザの入力操作に応じたテキスト情報が、発話意図理解部152に入力される。 Thus, text information obtained as a result of the process (voice recognition process) in step S11 or text information corresponding to the user's input operation is input to the speech intention understanding unit 152.
 ステップS12において、発話意図理解部152は、そこに入力されるテキスト情報に対する解析処理を実行することで、ユーザの意図を理解する。 In step S12, the speech intention understanding unit 152 understands the user's intention by executing analysis processing on the text information input thereto.
 例えば、ユーザによって、「明日の横浜の天気を教えて?」という発話がなされた場合には、ユーザの意図として、「天気確認」である意図が推定され、また、そのパラメータとして、"明日"である「日時」や、"横浜"である「場所」が得られる。 For example, when the user utters "Tell me the weather of Yokohama tomorrow?", The intention of "weather confirmation" is estimated as the user's intention, and "Tomorrow" as the parameter. "Date and time" that is, and "place" that is "Yokohama" are obtained.
 ステップS13において、アプリケーション/サービス実行部153は、ステップS12の処理で得られる意図理解結果に基づいて、ユーザの意図に合ったアプリケーションやサービスを実行する。 In step S13, the application / service execution unit 153 executes an application or service matching the user's intention based on the intention understanding result obtained in the process of step S12.
 ここでは、例えば、ユーザの意図として、「天気確認」が推定され、そのパラメータとして、"明日"である「日時」や、"横浜"である「場所」が解析された場合に、外部のサービスにより提供される、天気確認のAPIに対し、"明日"である「日時」や、"横浜"である「場所」のパラメータを引数として渡すことで、"明日の横浜の天気"に関する情報を得ることができる。 Here, for example, when "weather confirmation" is estimated as the user's intention, and "date and time" which is "morning" and "place" which is "Yokohama" are analyzed as the parameter, an external service is analyzed. Provides information about "Tomorrow's weather in Yokohama" by passing as parameters the "date and time" that is "Tomorrow" and the "place" that is "Yokohama" to the weather confirmation API provided by be able to.
 ステップS14において、応答生成部154は、ステップS13の処理で得られるアプリケーションやサービスの実行結果に基づいて、ユーザに対する応答文(変換前)を生成する。 In step S14, the response generation unit 154 generates a response sentence (before conversion) for the user based on the execution result of the application or service obtained in the process of step S13.
 ここでは、例えば、天気確認のAPIから得られる"明日の横浜の天気"に関する情報に基づき、「明日の横浜の天気は晴れです。」である応答文(変換前)が生成される。 Here, for example, a response sentence (before conversion) that is “Tomorrow's Yokohama weather is fine” is generated based on the information on “Tomorrow's Yokohama weather” obtained from the weather confirmation API.
 ステップS15において、コンテキスト取得部155は、時刻情報や位置情報、カメラ111により撮像された撮像画像の解析結果などに基づいて、コンテキスト情報を取得する。 In step S15, the context acquisition unit 155 acquires context information based on time information, position information, an analysis result of a captured image captured by the camera 111, and the like.
 ここで、コンテキスト情報は、例えば、ユーザの発話の時間帯や場所、話者、同席者、場の雰囲気などの発話に関連する現在の環境情報を含み、コンテキスト情報DB201に一時的に記録することができる。ただし、現在の環境情報は、コンテキスト情報DB201に記録せずに、直接、処理されるようにしてもよい。 Here, the context information includes, for example, current environment information related to the utterance such as a time zone or place of the user's utterance, a speaker, a person who is present, an atmosphere of the place, etc., and is temporarily recorded in the context information DB 201 Can. However, the current environment information may be processed directly without being recorded in the context information DB 201.
 ステップS16において、七五調変換部156は、ステップS14の処理で生成された応答文(変換前)に対する七五調変換処理を実行することで、応答文(変換前)を七五調に変換して、応答文(変換後)を生成する。 In step S16, the seven-seventh conversion unit 156 converts the response sentence (before conversion) into seven-seven tones by executing the seven-five-tone conversion process on the response sentence (before conversion) generated in the process of step S14. After conversion) is generated.
 この七五調変換処理では、後述のステップS18の処理で収集されるユーザフィードバック情報を参照して、ステップS15の処理で取得されるコンテキスト情報に適合した七五調変換処理が選定され、応答文(変換前)に対し、選定された七五調変換処理が実行される。 In this heptatonic conversion process, a heptatonic conversion process conforming to the context information acquired in the process of step S15 is selected with reference to user feedback information collected in the process of step S18 described later, and a response sentence (before conversion) The selected seven-tone conversion process is executed.
 具体的には、例えば、ユーザフィードバック情報は、七五調の候補を生成する候補生成パターンごとに、過去の環境情報とユーザの反応とをスコア値化した情報を含み、コンテキスト情報は、現在の環境情報を含んでいるので、七五調変換部156は、過去の環境情報のうち、現在の環境情報と同一又は類似する過去の環境情報のスコアが、閾値以上となる候補生成パターンを選定することができる。 Specifically, for example, the user feedback information includes information obtained by scoring the past environment information and the user's reaction for each of the candidate generation patterns for generating seventy five candidates, and the context information is the current environment information In the past environmental information, the seventy-five tone conversion unit 156 can select a candidate generation pattern in which the score of past environmental information that is the same as or similar to current environmental information is equal to or higher than a threshold.
 また、このとき、複数の候補生成パターンが選定可能な場合には、例えば、ランダムに1つの候補生成パターンが、選定されるようにすることができる。すなわち、七五調変換処理では、選定された候補生成パターン(七五調候補生成処理(の組み合わせ))を順に実行して、応答文(変換前)が七五調になるように各処理が実行されることになる。 At this time, when a plurality of candidate generation patterns can be selected, for example, one candidate generation pattern can be selected at random. That is, in the 75-tone conversion process, each process is executed such that the response sentence (before conversion) becomes 75-tone by sequentially executing the selected candidate generation pattern (the (combination of the 7-tone candidate generation process)). .
 なお、七五調変換処理の詳細は、この対話処理の全体的な流れを説明した後に説明するが、候補生成パターンとしては、例えば、以下の七五調候補生成処理を含めることができる。 The details of the seven-tone conversion process will be described after describing the overall flow of this interactive process, but the candidate generation patterns may include, for example, the following seven-tone candidate generation process.
(A)助詞を抜いて七五調になる候補を生成する助詞抜き
(B)意味的に不要な部分を除去して七五調になる候補を生成する不要部分除去
(C)語尾を追加して七五調になる候補を生成する語尾追加
(D)意味的に変わらない語を追加して七五調になる候補を生成する意味不変語追加
(E)ある語を繰り返して七五調になる候補を生成する繰り返し追加
(F)オノマトペを追加して七五調になる候補を生成するオノマトペ追加
(G)同義語に置換して七五調になる候補を生成する同義語追加
(H)上記の(A)乃至(G)の組み合わせ
(A) Remove a particle and generate a candidate with seventy-five tones Remove a particle (B) Remove a semantically unnecessary part and generate a candidate with seven-five tones Remove unnecessary portion (C) Add a tail and become seven-five tones Add a suffix that generates a candidate (D) Add a word that does not change semantically to generate a candidate that becomes a seventy-seven key Add another word that generates a seven-five key by repeating a word (E) Onomatopoeia is added to generate a candidate with seventy-five tones Onomatopoeic addition (G) Synonyms replaced with a synonym to generate seven-tone candidates A combination with synonyms (H) Combination of (A) to (G) above
 なお、(C)の語尾追加の七五調候補生成の際には、語尾リスト211が用いられる。また、(D)の意味不変語追加の七五調候補生成の際には、意味不変語リスト212が用いられる。さらに、(F)のオノマトペ追加の七五調候補生成の際には、オノマトペリスト213が用いられ、(G)の同義語追加の七五調候補生成の際には、同義語辞書214が用いられる。 In addition, in the case of the seventy five-tonal candidate generation of the end addition of (C), the end list 211 is used. In addition, the semantic invariant word list 212 is used at the time of the generation of the seven tone candidate candidate of the semantic invariant word addition of (D). Furthermore, the onomatopoeist 213 is used in the generation of the onomatopoeia-added seven-tone candidate of (F), and the synonym dictionary 214 is used in the generation of the seven-tone candidate of the addition in (G).
 このようにして、応答文(変換前)が七五調に変換され、応答文(変換後)が生成される。そして、ステップS16の処理で得られる七五調変換結果を、音声出力する場合には、応答文(変換後)は、音声合成部157に出力される。 In this way, the response sentence (before conversion) is converted to seven-tone, and a response sentence (after conversion) is generated. Then, in the case of outputting the hepta-tonic conversion result obtained in the process of step S16 as voice, the response sentence (after conversion) is output to the voice synthesis unit 157.
 ステップS17において、音声合成部157は、ステップS16の処理で得られる応答文(変換後)に基づいて、音声を合成して、音声出力I/F112を介してスピーカ113から出力する。これにより、スピーカ113からは、七五調の応答に応じた音声が出力される。 In step S17, the speech synthesis unit 157 synthesizes speech based on the response sentence (after conversion) obtained in the process of step S16, and outputs the speech from the speaker 113 via the speech output I / F 112. As a result, the speaker 113 outputs a sound corresponding to the response of the seventy-five tone.
 一方で、ステップS16の処理で得られる七五調変換結果を、映像出力する場合には、応答文(変換後)は、映像出力I/F114を介してディスプレイ115に出力される。これにより、ティスプレイ115の画面には、七五調の応答に応じたテキストが表示される。 On the other hand, in the case of outputting the seventy-five tone conversion result obtained in the process of step S16 as an image, the response sentence (after conversion) is output to the display 115 via the image output I / F 114. As a result, on the screen of the tis play 115, a text corresponding to the response of the seventy-five tone is displayed.
 より具体的には、ここでは、例えば、上述の「明日の横浜の天気は晴れです。」である応答文(変換前)が、「横浜の明日の天気は晴れなのさ。」である応答文(変換後)のように、七五調に変換され、出力されることになる。 More specifically, here, for example, a response sentence (before conversion) which is the above-mentioned "Tomorrow's weather in Yokohama is fine." Is a response sentence in which "Yokohama's tomorrow's weather is fine." As in (after conversion), it will be converted to seven-tone and output.
 なお、ユーザフィードバック収集部158は、ユーザに対し、応答文(変換後)を出力したときのユーザの反応に関する情報を収集しており(S18)、そのときに得られるユーザフィードバック情報を、ユーザフィードバック情報DB202に記録している。上述の七五調変換処理では、このユーザフィードバック情報が用いられる。 Note that the user feedback collection unit 158 collects information on the reaction of the user when outputting the response sentence (after conversion) to the user (S18), and the user feedback information obtained at that time is It is recorded in the information DB 202. This user feedback information is used in the above-described seven-tone conversion process.
 以上、対話処理の全体的な流れについて説明した。 The above has described the overall flow of interactive processing.
(七五調変換処理の流れ)
 次に、上述した図3乃至図4に示した対話処理のうち、図4のステップS16の処理(七五調変換処理)の詳細について説明する。
(Flow of the conversion process of seventy-five)
Next, among the above-described dialog processing shown in FIG. 3 to FIG. 4, the details of the processing in step S16 of FIG.
 ステップS111において、七五調変換部156は、言語解析処理を実行する。 In step S111, the seventy-five conversion unit 156 executes language analysis processing.
 この言語解析処理では、そこに入力される応答文(変換前)に対し、形態素解析処理が行われ、応答文(変換前)の形態素解析結果が得られる。ただし、この形態素解析処理では、応答文(変換前)を、形態素(単語)の列に分割して、それぞれの形態素の品詞などが判別されるが、各形態素には、読み仮名も付与されるものとする。 In this language analysis processing, morphological analysis processing is performed on the response sentence (before conversion) input thereto, and the morphological analysis result of the response sentence (before conversion) is obtained. However, in this morpheme analysis process, the response sentence (before conversion) is divided into a sequence of morphemes (words), and the part of speech of each morpheme is determined, but each morpheme is also given a reading kana It shall be.
 言語解析処理(図4のS111)の内容
  入力(IN):応答文(変換前)
  出力(OUT):形態素解析結果
  処理:形態素解析処理
Contents of language analysis process (S111 in FIG. 4) Input (IN): Response sentence (before conversion)
Output (OUT): Morphological analysis result Processing: Morphological analysis processing
 ステップS112において、七五調変換部156は、候補生成選定処理を実行する。 In step S112, the conversion function 156 performs candidate generation selection processing.
 この候補生成選定処理では、例えば、ユーザフィードバック情報DB202に格納されたユーザフィードバック情報を参照して、現在のコンテキスト情報に近いケースを特定し、そのフィードバックのスコアが、閾値以上となる候補生成処理の組み合わせの中から、ランダムに1つの候補生成処理を選定することができる。 In this candidate generation selection processing, for example, with reference to the user feedback information stored in the user feedback information DB 202, a case close to the current context information is identified, and a candidate generation processing in which the feedback score is equal to or higher than a threshold Among the combinations, one candidate generation process can be randomly selected.
 また、この候補生成選定処理では、例えば、ユーザフィードバック情報に存在しない、候補生成処理の組み合わせをランダムに選定することが可能であり、また、それが選定されるかどうかもランダムに選択することができる。なお、フィードバックのスコアが、閾値以上となるケースが存在しなかった場合には、応答文(変換前)に対する七五調変換処理を実行せずに、応答文をそのまま出力すればよい。 Moreover, in this candidate generation selection process, for example, it is possible to randomly select a combination of candidate generation processes that is not present in the user feedback information, and also to randomly select whether or not it is selected. it can. If there is no case where the feedback score is equal to or higher than the threshold value, the response sentence may be output as it is, without executing the heptatonic conversion process on the response sentence (before conversion).
 図5は、コンテキスト情報DB201の例を示す図である。 FIG. 5 is a diagram showing an example of the context information DB 201. As shown in FIG.
 図5において、コンテキスト情報DB201には、コンテキスト情報の項目ごとに、値が格納されている。図5の例では、コンテキスト情報として、"日曜21時台"である時間帯、"自宅"である場所、"山田浩"である話者、"家族"である同席者、"楽しい"である雰囲気などが格納されている。 In FIG. 5, in the context information DB 201, values are stored for each item of context information. In the example of FIG. 5, as the context information, the time zone being "Sunday 21 o'clock", the place being "home", the speaker being "Yamada Hiroshi", the companion being a "family" and "fun" The atmosphere is stored.
 ここで、「時間帯」は、例えば、情報処理装置10に内蔵された計時手段により計時された時刻情報を用いればよい。また、「場所」は、GPS(Global Positioning System)信号などから算出される位置情報を用いればよい。 Here, for the “time zone”, for example, time information clocked by a clock unit incorporated in the information processing apparatus 10 may be used. Further, as the “place”, position information calculated from a GPS (Global Positioning System) signal or the like may be used.
 また、「話者」や「同席者」、「雰囲気」は、カメラ111により撮像された被写体の画像データを解析し、その解析結果に基づき、判定すればよい。例えば、「雰囲気」は、画像解析結果から得られる、話者や同席者の表情などから、"楽しい"や"悲しい"などを判定し、その判定結果の総和から、場の雰囲気を決定することができる。 Further, “speaker”, “accompanying person”, and “atmosphere” may be determined by analyzing the image data of the subject captured by the camera 111 and based on the analysis result. For example, “atmosphere” determines “fun” or “sad” from the expression of the speaker or the attendant obtained from the image analysis result, and determines the atmosphere of the place from the sum of the determination results. Can.
 なお、人の表情や感情等を読み取る技術は、既に様々な研究がなされており、ここでは、例えば、それらの公知の技術を用いた、顔や画像、音声の認識用のAPI(Application Programming Interface)を用いることができる。例えば、この種のAPIを提供するサービスを利用して、話者や同席者の顔を含む撮像画像を送ることで、例えば、喜びや驚き、怒り、悲しみ、軽蔑、嫌悪感など、話者や同席者の表情や感情に関する情報を得ることができる。 In addition, various studies have already been made for techniques for reading human facial expressions, emotions, etc. Here, for example, an API (Application Programming Interface) for recognizing faces, images, and voices using such known techniques. Can be used. For example, by sending a captured image including the face of a speaker or an attendant using a service that provides this kind of API, for example, the speaker or the like, such as pleasure or surprise, anger, sadness, contempt, disgust, etc. It is possible to obtain information on the expressions and emotions of the attendants.
 また、ここでは、コンテキスト情報を、コンテキスト情報DB201として、データベースで管理しているが、必ずしもデータベースで管理する必要はない。ただし、例えば、現在の環境情報のうち、場所などの時間的に変化しにくい情報については、データベースとして管理したほうがよい。 Furthermore, here, context information is managed in the database as the context information DB 201, but it is not necessary to manage in the database. However, for example, of the current environmental information, it is better to manage information that is difficult to change with time, such as location, as a database.
 図6は、ユーザフィードバック情報DB202の例を示す図である。 FIG. 6 is a diagram showing an example of the user feedback information DB 202. As shown in FIG.
 図6において、ユーザフィードバック情報DB202には、候補生成パターンごとに、コンテキスト情報とユーザの反応をスコア値化して格納している。ここで、スコア値の算出方法であるが、例えば、対象の候補生成パターンを用いて生成された応答文(変換後)の出力に対し、ユーザの反応が良かった場合には、"+ 1" とする一方で、ユーザの反応が悪かった場合には、"- 1" とする。 In FIG. 6, in the user feedback information DB 202, the context information and the user's reaction are scored and stored for each candidate generation pattern. Here, although it is a calculation method of a score value, when a user's reaction is good with respect to the output of the response sentence (after conversion) produced | generated using the candidate production | generation pattern of object, for example, "+1" If, on the other hand, the user's response is poor, then "-1" is set.
 例えば、「ユーザの反応が良かった場合」とは、音声認識結果として、話者や同席者等が、「おもしろかった」と言ったことを認識できたときや、画像解析結果として、話者や同席者等が、「笑った」ことを認識できたときなどが想定される。一方で、「ユーザの反応が悪かった場合」とは、話者や同席者等が、「なんだそれ」と言ったことを認識できたときや、画像解析結果として、話者や同席者等が、「怒っている」ことを認識できたときなどが想定される。 For example, “when the reaction of the user is good” means that the speaker or the attendant present can recognize that it was “interesting” as the speech recognition result, or as the image analysis result, the speaker or It is assumed, for example, that the attendant can recognize that he has laughed. On the other hand, “when the reaction of the user is not good” means that the speaker or the attendant can recognize that “what it is”, or as a result of the image analysis, the speaker or the attendant However, it is assumed that it is possible to recognize that "anger".
 なお、音声認識結果や画像解析結果などに基づき、ユーザの反応がなかったと判定された場合には、スコア値として、例えば、"0" とすることができる。 When it is determined that there is no reaction from the user based on the voice recognition result or the image analysis result, the score value may be, for example, “0”.
 図6の例では、"語尾追加 & オノマトペ追加" である候補生成パターンに対し、"時間帯 = 日曜21時台","場所 = 自宅", "話者 = 山田浩" であるコンテキスト情報と、"+129" であるスコアが格納されている。 In the example shown in FIG. 6, with respect to the candidate generation pattern of “add end & add onomatopoeia”, context information in which “time zone = Sunday 21 o'clock”, “place = home”, “speaker = Yamada Hiroshi”, A score of "+129" is stored.
 また、図6の例では、"意味不変語追加" や "助詞抜き & 繰り返し追加 & 同義語置換" ,""助詞抜き & 不要部分除去" などの候補生成パターンに対しても、各種のコンテキスト情報と、"+86","+29","-42"などのスコアが付与されている。 Also, in the example of FIG. 6, various types of context information are also generated for candidate generation patterns such as "semantically invariant word addition", "post particle removal & repeat addition & synonym substitution", "" post particle removal & unnecessary part removal ", etc. And scores such as "+86", "+29", and "-42".
 ここで、例えば、スコアと比較される閾値として、"+80"が設定されている場合には、候補生成パターンとして、"語尾追加 & オノマトペ追加" 及び "意味不変語追加" が選定され得るが、ここでは、例えば、"語尾追加 & オノマトペ追加" 及び "意味不変語追加" のうち、1つの候補生成パターンが、ランダムに選定されるようにすることができる。 Here, for example, when “+80” is set as a threshold value to be compared with the score, “add end & add onomatopoeic” and “add semantic invariant word” may be selected as candidate generation patterns. Here, for example, one candidate generation pattern can be selected at random among “add end & add onomatopoeic” and “add semantically invariant word”.
 このように、複数の候補生成パターンが選定可能な場合に、ランダムに1つの候補生成パターンが選定されるようにすることで、ある一定条件を満たした候補生成パターンの中から選択された1つの候補生成パターンに応じた七五調の変換が行われ、様々なパターンの七五調の応答文を、ユーザに対して提示することができる。 In this manner, when a plurality of candidate generation patterns can be selected, one candidate generation pattern is selected at random, whereby one of the candidate generation patterns selected from among the candidate generation patterns satisfying a certain condition is selected. The conversion of seven-tone according to the candidate generation pattern is performed, and seven-tone response sentences of various patterns can be presented to the user.
 なお、例えば、最もスコアが高い候補生成パターンが選定されるようにすると、ある特定の候補生成パターンのみが繰り返し選定される可能性が高いため、上述のようにランダムに候補生成パターンを選定するのが好適であるが、対話システムの運用によっては、ランダムに限らず、例えば、最もスコアが高いものなどが選定されるようにしてもよい。さらに、この例では、閾値以上となる候補生成パターンの中から選定する例を示しているが、例えば、閾値未満の候補生成パターンがランダムに選定されるようにしてもよい。 Note that, for example, when a candidate generation pattern with the highest score is selected, there is a high possibility that only a specific candidate generation pattern is repeatedly selected, so candidate generation patterns are randomly selected as described above. However, depending on the operation of the dialogue system, it is not limited to random, and for example, the one with the highest score may be selected. Furthermore, in this example, an example of selecting from among candidate generation patterns having a threshold value or more is shown, but for example, candidate generation patterns smaller than the threshold value may be randomly selected.
 候補生成選定処理(図4のS112)の内容
  入力(IN):応答文(変換前)、形態素解析結果(図4のS111)、コンテキスト情報(図4のS15)、ユーザフィードバック情報(図4のS18)
  出力(OUT):候補生成処理の選定結果(どの候補生成処理をかけるか)
  処理:候補生成選定処理
Contents of candidate generation selection processing (S112 in FIG. 4) Input (IN): response sentence (before conversion), morpheme analysis result (S111 in FIG. 4), context information (S15 in FIG. 4), user feedback information (FIG. 4) S18)
Output (OUT): Selection result of candidate generation processing (which candidate generation processing is to be performed)
Processing: candidate generation selection processing
 ステップS113において、七五調変換部156は、七五調候補生成処理を実行する。 In step S113, the seven-seventh conversion unit 156 executes seven-seventh candidate generation processing.
 この七五調候補生成処理では、例えば、助詞抜き、不要部分除去、語尾追加、意味不変語追加、繰り返し追加、オノマトペ追加、又は同義語置換によって、七五調の候補を生成する候補生成処理のうち、ステップS112の処理で得られる選定結果に応じた1以上の候補生成処理が実行される。 In this seven-tone candidate generation process, for example, step S112 in the candidate generation process for generating seven-tone candidates by particle removal, unnecessary part removal, word addition, meaning-invariant word addition, repeat addition, onomatopoeic addition, or synonym substitution. One or more candidate generation processes are performed according to the selection result obtained in the process of 3.
 なお、ここに列挙した助詞抜き、不要部分除去、語尾追加、意味不変語追加、繰り返し追加、オノマトペ追加、又は同義語置換等の候補生成処理の詳細は、第1候補生成処理乃至第7候補生成処理として後述する。 The first candidate generation process to the seventh candidate generation are the details of candidate generation processing such as removing the unnecessary part, removing unnecessary parts, adding an ending, adding a semantic invariant word, repeatedly adding, onomatopoeic addition, or synonym substitution listed here. It will be described later as processing.
 七五調候補生成処理(図4のS113)の内容
  入力(IN):応答文(変換前)、形態素解析結果(図4のS111)、候補生成処理の選定結果(図4のS112)
  出力(OUT):応答文(変換後候補)
  処理:候補生成処理の選定結果に応じた七五調候補生成処理
The contents of the seven key gradation candidate generation process (S113 in FIG. 4) Input (IN): response sentence (before conversion), morpheme analysis result (S111 in FIG. 4), selection result of candidate generation process (S112 in FIG. 4)
Output (OUT): Response statement (candidate after conversion)
Processing: Seventy-five tone candidate generation processing according to the selection result of candidate generation processing
(A)第1候補生成処理 (A) First candidate generation processing
 第1候補生成処理では、応答文(変換前)に含まれる助詞を抜くことで、七五調になる応答文(変換後候補)を生成する(図4のS113A)。 In the first candidate generation process, a response sentence (post-conversion candidate) that becomes swashish is generated by removing a particle included in the response sentence (before conversion) (S113A in FIG. 4).
 以下に、助詞抜きの七五調候補生成時の変換前と変換後候補の応答文の例を示す。ただし、応答文(変換前)については、日本語と、ローマ字と、英語の3種類の表記をし、応答文(変換後)については、日本語とローマ字の2種類の表記をする。 The following shows examples of response sentences of the candidate before conversion and after conversion at the time of generation of a seven tone standard candidate without a particle. However, for the response sentence (before conversion), three types of notations of Japanese, Roman, and English are described, and for the response sentence (after conversion), two types of Japanese and Roman character are described.
 また、その際に、日本語は「日」、ローマ字は「ロ」、英語は「英」とそれぞれ略記するものとする。なお、これらの応答文の例の表記については、以下に説明する他の応答文においても同様とされる。 In that case, Japanese is abbreviated as "day", Roman alphabet is "ro" and English is abbreviated as "English". In addition, about the description of the example of these response sentences, it is made the same also in the other response sentences demonstrated below.
 助詞抜きの七五調候補生成の例

 応答文(変換前)
 (日):松山で人気の居酒屋はサバサバ亭。
 (ロ):matsuyama de ninki no izakaya ha sabasabatei
 (英):Popular bar in Matsuyama is Sabasabatei.

 応答文(変換後候補)
 (日):松山で人気の居酒屋 サバサバ亭。
 (ロ):matsuyama de ninki no izakaya sabasabatei
An example of the seven-tone candidate generation without the particle

Response statement (before conversion)
(Sun): A popular tavern in Matsuyama is the mackerel mackerel.
(B): matsuyama de ninki no izakaya ha sabasabatei
(English): Popular bar in Matsuyama is Sabasabatate.

Response sentence (candidate after conversion)
(Sun): Popular tavern in Matsuyama.
(B): matsuyama de ninki no izakaya sabasabatei
 この助詞抜きの七五調候補生成の例では、応答文(変換前)における「居酒屋」と「サバサバ亭」とを接続する助詞である「は」を抜くことで、応答文(変換後候補)が七五調になるようにしている。 In this example of seven-tone candidate generation without the particle, the response sentence (post-conversion candidate) is the seven-five tone rule by removing the word “ha” that connects the “Japanese-style bar” and “Sabasaba-don” in the response sentence (before conversion). I am trying to be
(B)第2候補生成処理 (B) Second candidate generation processing
 第2候補生成処理では、応答文(変換前)に含まれる意味的に不要な部分を除去して、七五調になる応答文(変換後候補)を生成する(図4のS113B)。 In the second candidate generation process, a semantically unnecessary part included in the response sentence (before conversion) is removed to generate a response sentence (post-conversion candidate) that becomes seven-tone (S113B in FIG. 4).
 以下に、不要部分除去の七五調候補生成時の変換前と変換後候補の応答文の例を示す。 Below, examples of response sentences of the candidate before conversion and after conversion at the time of generation of the seven tone-like candidate of unnecessary part removal are shown.
 不要部分除去の七五調候補生成の例

 応答文(変換前)
 (日):ロンドンの現在時刻は夜8時になりました。
 (ロ):rondon no genzai zikoku ha yoru hatizi ni narimasita
 (英):The current time in London is 8 o'clock in the evening.

 応答文(変換後候補)
 (日):ロンドンの現在時刻は夜8時。
 (ロ):rondon no genzai zikoku ha yoru hatizi
An example of the formation of seventy-five candidates of unnecessary part removal

Response statement (before conversion)
(Sunday): The current time in London is now 8 o'clock.
(B): rondon no genzai zikoku ha yoru hatizi ni narimasita
(English): The current time in London is 8 o'clock in the evening.

Response sentence (candidate after conversion)
(Sunday): The current time in London is 8 o'clock.
(B): rondon no genzai zikoku ha yoru hatizi
 この不要部分除去の七五調候補生成の例では、応答文(変換前)における「夜8時」に続く、「になりました」である意味的に不要な部分を除去することで、応答文(変換後候補)が七五調になるようにしている。 In this example of the generation of the seventy-five candidate generation of unnecessary part removal, the response sentence (before conversion) in the response sentence (before conversion) is processed by removing the semantically unnecessary part which is “it became”. The candidate after conversion is made to become seventy-five.
(C)第3候補生成処理 (C) Third candidate generation processing
 第3候補生成処理では、語尾リスト211を用いて、応答文(変換前)に語尾を追加することで、七五調になる応答文(変換後候補)を生成する(図4のS113C)。 In the third candidate generation process, a response sentence (post-conversion candidate) that has seventy-five tones is generated by adding a word end to the response sentence (before conversion) using the word list 211 (S113C in FIG. 4).
 図7は、語尾リスト211の例を示す図である。なお、図7において、"*"(アスタリスク)は、任意の文字(文字列)や品詞を表している。 FIG. 7 is a diagram showing an example of the ending list 211. As shown in FIG. In FIG. 7, "*" (asterisk) represents an arbitrary character (character string) or part of speech.
 図7において、「本表記」は、語尾に追加される語であり、その品詞を、「本品詞」として表している。また、ある応答文における、「本表記」よりも前の表記が「前表記」であり、「本表記」よりも後ろの表記が「後表記」である。さらに、「前表記」の品詞を、「前品詞」として表し、「後表記」の品詞を、「後品詞」として表している。 In FIG. 7, "this notation" is a word added to the ending, and its part of speech is expressed as "this part of speech". In addition, in a certain response sentence, the notation before "this notation" is "predescription", and the notation after "this notation" is "postscript". Furthermore, the part-of-speech of "pre-notation" is expressed as "pre-part-of-speech", and the part-of-speech of "post-notation" is expressed as "post-part of speech".
 図7の例では、"よ"である本表記は、助詞(終助詞)であって、前表記として、助動詞(終止形)からなる任意の文字が指定され、後表記として、任意の品詞からなる任意の文字が指定されている。また、図7の例では、"ね"である本表記は、助詞(終助詞)であって、前表記として、助詞(格助詞)からなる任意の文字列が指定され、後表記として、任意の品詞からなる任意の文字が指定されている。 In the example of FIG. 7, the present notation "Y" is a particle (final particle), and an arbitrary character consisting of an auxiliary verb (termination form) is designated as the preceding notation, and an arbitrary part of speech as the subsequent notation Any character that becomes is specified. Further, in the example of FIG. 7, the main notation “ne” is a particle (final particle), and an arbitrary character string consisting of a particle (case particle) is designated as the pre-notation, and an optional post-expression Any character consisting of the part of speech of is specified.
 このとき、前形態素、本形態素、及び後形態素が条件に一致した場合に、本形態素を追加したとしても意味が変わらないため、応答文(変換前)に対し、本形態素を追加することができる。 At this time, if the former morpheme, the present morpheme, and the latter morpheme match the conditions, the meaning does not change even if the present morpheme is added, so the present morpheme can be added to the response sentence (before conversion) .
 なお、図7に示した"*" の意味や、「本表記」と、「前表記」や「後表記」などとの関係は、後述する他の図(図8や図9)においても同様とされる。 In addition, the relationship between the meaning of "*" shown in FIG. 7 and the "present notation" and the "pre-notation" and "post-notation" is the same as in the other figures described later (FIG. 8 and FIG. 9). It is assumed.
 以下に、語尾追加の七五調候補生成時の変換前と変換後候補の応答文の例を示す。 The following shows examples of response sentences before and after conversion at the time of generation of the seven-tone candidate with addition of endings.
 語尾追加の七五調候補生成の第1の例

 応答文(変換前)
 (日):岸さんにメールを送信しました。
 (ロ):kisi san ni me-ru wo sousin simasita
 (英):I sent an email to Kishi.

 応答文(変換後候補)
 (日):岸さんにメールを送信しましたよ。
 (ロ):kisi san ni me-ru wo sousin simasita yo
A first example of seven-tone candidate generation with additional endings

Response statement (before conversion)
(Sun): I sent an email to Mr. Kishi.
(B): kisi san ni me-ru wo sousin simasita
(English): I sent an email to Kishi.

Response sentence (candidate after conversion)
(Sun): I sent an email to Mr. Kishi.
(B): kisi san ni me-ru wo sousin simasita yo
 この語尾追加の七五調候補生成の第1の例では、応答文(変換前)における「送信しました」に続いて、「よ」である語尾を追加することで、応答文(変換後候補)が七五調になるようにしている。 In the first example of the additional seven-tone candidate generation with this ending, the response sentence (post-conversion candidate) is obtained by adding an end that is "Y" following "sent" in the response sentence (before conversion). I'm trying to get seventy five.
 語尾追加の七五調候補生成の第2の例

 応答文(変換前)
 (日):横浜の明日の天気は晴れです。
 (ロ):yokohama no asita no tenki ha hare desu
 (英):The weather in Yokohama is sunny tomorrow.

 応答文(変換後候補)
 (日):横浜の明日の天気は晴れなのさ。
 (ロ):yokohama no asita no tenki ha hare nanosa
A second example of seven-tone candidate generation with additional endings

Response statement (before conversion)
(Sun): The weather of tomorrow in Yokohama is fine.
(B): yokohama no asita no tenki ha hare desu
(English): The weather in Yokohama is sunny tomorrow.

Response sentence (candidate after conversion)
(Sun): The weather in Yokohama tomorrow is sunny.
(B): yokohama no asita no tenki ha hare nanosa
 この語尾追加の七五調候補生成の第2の例では、応答文(変換前)における「晴れ」に続いて、「なのさ」である語尾を追加することで、応答文が七五調(変換後候補)になるようにしている。ただし、この第2の例では、応答文(変換前)における「です」である語尾を削除している。 In the second example of this seven-tonal candidate generation with additional endings, the response sentence is seven-six-tonal (post-conversion candidate) by adding an ending that is "nanosa" following "fine" in the response sentence (before conversion) I am trying to be However, in this second example, the word ending “is” in the response sentence (before conversion) is deleted.
 なお、この語尾追加の七五調候補生成の他の例としては、例えば、「日本は」である応答文(変換前)に対し、「ね」である語尾を追加して、「日本はね」である応答文(変換後候補)を生成するケースなどが想定される。 In addition, as another example of this seven-tonal candidate generation with the ending after the word, for example, add the ending after the word “ne” to the response sentence “before the conversion” (before the conversion), and It is assumed that a certain response sentence (post-conversion candidate) is generated.
(D)第4候補生成処理 (D) Fourth candidate generation processing
 第4候補生成処理では、意味不変語リスト212を用いて、応答文(変換前)に意味の変わらない語(意味不変語)を追加することで、七五調になる応答文(変換後候補)を生成する(図4のS113D)。 In the fourth candidate generation process, using the semantic invariant word list 212, adding a word (meaning invariant word) whose meaning does not change to the response sentence (before conversion) causes a response sentence (post-conversion candidate) to be converted into seven tones. It generates (S113D of FIG. 4).
 図8は、意味不変語リスト212の例を示す図である。 FIG. 8 is a diagram showing an example of the semantic invariant word list 212. As shown in FIG.
 図8の例では、"やっぱり"である本表記は、副詞であって、前表記及び後表記として、任意の品詞からなる任意の文字が指定されている。また、図8の例では、"ところで"である本表記は、接続詞であって、前表記及び後表記として、任意の品詞からなる任意の文字が指定されている。 In the example of FIG. 8, the main notation “after all” is an adverb, and an arbitrary letter consisting of an arbitrary part of speech is designated as the pre-notation and the post-notation. Further, in the example of FIG. 8, the main notation “by the way” is a conjunction, and an arbitrary character consisting of an arbitrary part of speech is designated as the pre-notation and the post-notation.
 このとき、前形態素、本形態素、及び後形態素が条件に一致した場合に、本形態素を追加したとしても意味が変わらないため、応答文(変換前)に対し、本形態素を追加することができる。 At this time, if the former morpheme, the present morpheme, and the latter morpheme match the conditions, the meaning does not change even if the present morpheme is added, so the present morpheme can be added to the response sentence (before conversion) .
 以下に、意味不変語追加の七五調候補生成時の変換前と変換後候補の応答文の例を示す。 An example of response sentences before and after conversion at the time of generation of the seven tone candidate with semantic invariant word addition will be shown below.
 意味不変語追加の七五調候補生成の例

 応答文(変換前)
 (日):川崎の地図を映します。
 (ロ):kawasaki no tizu wo utusi masu
 (英):I will display a map of Kawasaki.

 応答文(変換後候補)
 (日):川崎の地図をやっぱり映します。
 (ロ):kawasaki no tizu wo yappari utusi masu
An example of the generation of seventy-five candidates for adding semantically invariant words

Response statement (before conversion)
(Sun): The map of Kawasaki is projected.
(B): kawasaki no tizu wo utusi masu
(English): I will display a map of Kawasaki.

Response sentence (candidate after conversion)
(Sun): I will reflect the map of Kawasaki after all.
(B): kawasaki no tizu wo yappari utusi masu
 この意味不変語追加の七五調候補生成の例では、応答文(変換前)における「地図を」と「映します」との間に、「やっぱり」である意味不変語を追加することで、応答文(変換後候補)が七五調になるようにしている。 In this example of the seventy-five candidate generation with semantic invariant word addition, the response sentence is added by adding a semantic invariant word that is "after all" between "show map" and "project" in the response sentence (before conversion). The (post-conversion candidate) is set to be in seventy-five tones.
(E)第5候補生成処理 (E) Fifth candidate generation processing
 第5候補生成処理では、応答文(変換前)に含まれる語を繰り返して、七五調になる応答文(変換後候補)を生成する(図4のS113E)。 In the fifth candidate generation process, the words included in the response sentence (before conversion) are repeated to generate a response sentence (post-conversion candidate) that becomes seven-tone (S113E in FIG. 4).
 以下に、繰り返し追加の七五調候補生成時の変換前と変換後候補の応答文の例を示す。 Below, examples of response sentences of the candidate before conversion and after conversion at the time of repetitively added seven tone candidate generation are shown.
 繰り返し追加の七五調候補生成の例

 応答文(変換前)
 (日):明後日の天気予報は晴れです。
 (ロ):asatte no tenkiyohou ha hare desu
 (英):The weather forecast for the day after tomorrow is sunny.

 応答文(変換後候補)
 (日):明後日の天気予報は晴れ晴れ晴れ。
 (ロ):asatte no tenkiyohou ha hare hare hare
Example of repetitively added seven-tone candidate generation

Response statement (before conversion)
(Sun): The weather forecast for the day after tomorrow is fine.
(B): asatte no tenkiyohou ha hare desu
(English): The weather forecast for the day after tomorrow is sunny.

Response sentence (candidate after conversion)
(Sun): The weather forecast for the day after tomorrow is sunny and sunny.
(B): asatte no tenkiyohou ha hare hare hare
 この繰り返し追加の七五調候補生成の例では、応答文(変換前)における「晴れ」である語を3回繰り返すことで、応答文(変換後候補)が七五調になるようにしている。ただし、この七五調候補生成の例では、応答文(変換前)における「です」である語尾を除去している。 In this example of repetitively added seven-tone candidate generation, the response sentence (post-conversion candidate) is made to have seven-tone by repeating the word “fine” in the response sentence (before conversion) three times. However, in this example of the seven-tone candidate generation, the word ending “is” in the response sentence (before conversion) is removed.
(F)第6候補生成処理 (F) Sixth candidate generation processing
 第6候補生成処理では、オノマトペリスト213を用いて、応答文(変換前)にオノマトペを追加することで、七五調になる応答文(変換後候補)を生成する(図4のS113F)。 In the sixth candidate generation process, the onomatopoeia is added to the response sentence (before conversion) using the onomatope list 213, thereby generating a response sentence (post-conversion candidate) that becomes seven-tone (S113F in FIG. 4).
 図9は、オノマトペリスト213の例を示す図である。 FIG. 9 is a diagram showing an example of the onomatopo list 213. As shown in FIG.
 図9の例では、"じゃんじゃん"である本表記は、副詞であって、前表記として、任意の品詞からなる任意の文字が指定され、後表記として、動詞からなる任意の文字が指定されている。また、図9の例では、"ぎんぎん"である本表記は、形容動詞であって、前表記として、任意の品詞からなる任意の文字が指定され、後表記として、動詞からなる任意の文字が指定されている。 In the example of FIG. 9, the present notation "Jan-Jan" is an adverb, and an arbitrary letter consisting of an arbitrary part of speech is designated as the prenotation, and an arbitrary letter consisting of a verb is designated as the postnotation. There is. Further, in the example of FIG. 9, the present notation "Gingin" is an adjective verb, and an arbitrary letter consisting of an arbitrary part of speech is designated as the prenotation, and an arbitrary letter consisting of the verb as the postnotation Is specified.
 このとき、前形態素、本形態素、及び後形態素が条件に一致した場合に、本形態素を追加したとしても意味が変わらないため、応答文(変換前)に対し、本形態素を追加することができる。 At this time, if the former morpheme, the present morpheme, and the latter morpheme match the conditions, the meaning does not change even if the present morpheme is added, so the present morpheme can be added to the response sentence (before conversion) .
 以下に、オノマトペ追加の七五調候補生成時の変換前と変換後候補の応答文の例を示す。 An example of response sentences before and after conversion when generating the seven tone candidate with onomatopoeia is shown below.
 オノマトペ追加の七五調候補生成の第1の例

 応答文(変換前)
 (日):メールがきています。どうしますか?
 (ロ):me-ru ga kite imasu dou simasuka
 (英):E-mail is coming. What will you do ?

 応答文(変換後候補)
 (日):メールがね じゃんじゃんきています。どうします。
 (ロ):me-ru gane zyanzyan kite imasu dou simasu
The first example of the generation of seven tone-like candidates with additional onomatopoeia

Response statement (before conversion)
(Sun): Email is coming. what should I do?
(B): me-ru ga kite imasu dou simasuka
(English): E-mail is coming. What will you do?

Response sentence (candidate after conversion)
(Sun): I am sending email. What will you do?
(B): me-ru gane zyanzyan kite imasu dou simasu
 このオノマトペ追加の七五調候補生成の第1の例では、応答文(変換前)における「きています」の前に、「じゃんじゃん」であるオノマトペを追加することで、応答文(変換後候補)が七五調になるようにしている。また、この第1の例では、「メールが」の後に「ね(終助詞)」である語尾を追加し、さらに、「か(終助詞)」の助詞抜きを行っている。 In the first example of the generation of the five-tone candidate generation of this onomatopoeia addition, the response sentence (post-conversion candidate) is obtained by adding the onomatopoeia "Janjan" before "I am doing" in the response sentence (before conversion). I'm trying to get seventy five. Also, in this first example, the word end of “ne (final particle)” is added after “e-mail is”, and further, the particle elimination of “ka (final particle)” is performed.
 なお、ここでは、「じゃんじゃん」は、4モーラであるため、5音・8音・5音になっているが、許容範囲であるとしている。また、前後の形態素の概念を条件としてもよい。例えば、この第1の例の場合には、「じゃんじゃん」の前後に量を表す形態素がある。 In addition, although "Janjan" is 4 mora, it is 5 sounds, 8 sounds, 5 sounds here, but it is considered to be within the allowable range. Also, the concept of morphemes before and after may be taken as a condition. For example, in the case of this first example, there are morphemes representing quantities before and after “Janjan”.
 オノマトペ追加の七五調候補生成の第2の例

 応答文(変換前)
 (日):2分後にタイマーセットしました。
 (ロ):ni hungo ni taima setto simasita
 (英):Timer set after 2 minutes.

 応答文(変換後候補)
 (日):2分後にタイマーセット チクタック。
 (ロ):ni hungo ni taima setto tikutakku
A second example of the generation of seven tone-like candidates with additional onomatopoeia

Response statement (before conversion)
(Sun): The timer was set after 2 minutes.
(B): ni hungo ni taima setto simasita
(English): Timer set after 2 minutes.

Response sentence (candidate after conversion)
(Sun): 2 minutes after the timer set Chick Tack.
(B): ni hungo ni taima setto tikutakku
 このオノマトペ追加の七五調候補生成の第2の例では、応答文(変換前)における「タイマーセット」に続いて、「チクタック」であるオノマトペを追加することで、応答文(変換後候補)が七五調になるようにしている。ただし、この第2の例では、応答文(変換前)における「しました」に対して不要部分除去を行っている。 In the second example of the seven-tone candidate generation with this onomatopoeia added, following the “timer set” in the response sentence (before conversion), the response sentence (candidate after conversion) is seventy-five tone by adding the onomatopoeic “chuck tack”. I am trying to be However, in this second example, the unnecessary part removal is performed on "I've done" in the response statement (before conversion).
 オノマトペ追加の七五調候補生成の第3の例

 応答文(変換前)
 (日):明後日の天気予報は晴れです。
 (ロ):asatte no tenkiyohou ha hare desu
 (英):The weather forecast for the day after tomorrow is sunny.

 応答文(変換後候補)
 (日):明後日の天気予報は晴れれれれ
 (ロ):asatte no tenkiyohou ha hare re re re
A third example of the generation of seven tone-like candidates with additional onomatopoeia

Response statement (before conversion)
(Sun): The weather forecast for the day after tomorrow is fine.
(B): asatte no tenkiyohou ha hare desu
(English): The weather forecast for the day after tomorrow is sunny.

Response sentence (candidate after conversion)
(Sun): The weather forecast for the day after tomorrow is sunny (R): asatte no tenkiyohou ha hare re re re
 このオノマトペ追加の七五調候補生成の第3の例では、応答文(変換前)を七五調に変換する際に、どうしても七五調にならないので、「晴れ」である語に含まれる「れ」を3回繰り返すことで、応答文(変換後候補)が七五調になるようにしている。ただし、この第3の例では、応答文(変換前)における「です」に対して不要部分除去を行っている。なお、どうしても七五調にならない場合には、例えば「ダダダ」などの語を追加して埋めるようにしてもよい。 In the third example of the seven-tone candidate generation with this onomatopoeia added, when the response sentence (before conversion) is converted to the seventy-five tone, since it does not become the seven-five tone, the "re" included in the word "fine" is repeated three times In this way, the response sentence (post-conversion candidate) is made to be seventy-five. However, in this third example, unnecessary part removal is performed on "is" in the response sentence (before conversion). In the case where the tone does not become complete by any means, for example, a word such as "Dadada" may be added and filled.
(G)第7候補生成処理 (G) Seventh candidate generation processing
 第7候補生成処理では、同義語辞書214を用いて、応答文(変換前)に含まれる語を、同義語に置換することで、七五調になる応答文(変換後候補)を生成する(図4のS113G)。 In the seventh candidate generation process, the synonym dictionary 214 is used to substitute the words included in the response sentence (before conversion) with synonyms to generate a response sentence (post-conversion candidate) that becomes seven-tone (see FIG. S113G of 4).
 図10は、同義語辞書214の例を示す図である。 FIG. 10 is a diagram showing an example of the synonym dictionary 214. As shown in FIG.
 図10において、「表記1」と「表記2」とが同じ意味となる語であり、「表記1」の品詞を、「品詞1」として表し、「表記2」の品詞を、「品詞2」として表している。 In FIG. 10, “1” and “2” have the same meaning, and the part of speech of “1” is expressed as “part of speech 1”, and the part of speech of “2” is “part 2 of speech” Is represented as
 図10の例では、"ラーメン" である名詞と、"中華そば" である名詞とは、同義語として指定されている。また、図10の例では、"うれしい" である形容詞と、"ハッピー" である名詞とは、同義語として指定されている。 In the example of FIG. 10, the noun "ramen" and the noun "Chinese buckwheat noodles" are designated as synonyms. Further, in the example of FIG. 10, the adjective "happy" and the noun "happy" are designated as synonyms.
 このとき、第1形態素を、第2形態素に置き換えることができる。またその逆に、第2形態素を、第1形態素に置き換えるようにしてもよい。 At this time, the first morpheme can be replaced with the second morpheme. Conversely, the second morpheme may be replaced with the first morpheme.
 以下に、同義語置換の七五調候補生成時の変換前と変換後候補の応答文の例を示す。 The following shows examples of response sentences of candidate before conversion and after conversion at the time of generation of the seven tone-like candidate of synonym substitution.
 同義語置換の七五調候補生成の第1の例

 応答文(変換前)
 (日):今晩は中華そばがおすすめです。
 (ロ):konban ha tyuuka soba ga osusume desu
 (英):Chinese noodle is recommended tonight

 応答文(変換後候補)
 (日):今晩はラーメンがおすすめよ。
 (ロ):konban ha ra-men ga osusume yo
A First Example of Seven-Traditional Candidate Generation of Synonym Substitution

Response statement (before conversion)
(Sun): Chinese Soba is recommended tonight.
(B): konban ha tyuuka soba ga osusume desu
(English): Chinese noodle is recommended tonight

Response sentence (candidate after conversion)
(Sun): I recommend ramen tonight.
(B): konban ha ra-men ga osusume yo
 この同義語置換の七五調候補生成の第1の例では、応答文(変換前)における「中華そば」である語を、「ラーメン」である同義語に置換することで、応答文(変換後候補)が七五調になるようにしている。ただし、この第1の例では、応答文(変換前)における「です」に対して不要部分除去を行い、さらに「よ(終助詞)」である語尾を追加している。 In the first example of the generation of the sloppy candidates for this synonym substitution, the response sentence (post-conversion candidate) is obtained by replacing the word “Chinese buckwheat noodles” in the response sentence (before conversion) with a synonym for “ramen”. ) To be in seventy-five. However, in this first example, unnecessary parts are removed with respect to "is" in the response sentence (before conversion), and an end which is "yo (final particle)" is added.
 同義語置換の七五調候補生成の第2の例

 応答文(変換前)
 (日):明後日は買い物の予定です。
 (ロ):asatte ha kaimono no yotei desu
 (英):I will go shopping the day after tomorrow.

 応答文(変換後候補)
 (日):明後日はショッピングの予定です。
 (ロ):asatte ha syoppingu no yotei desu
A second example of syllabary candidate generation for synonym substitution

Response statement (before conversion)
(Sun): The day after tomorrow will be shopping.
(B): asatte ha kaimono no yotei desu
(English): I will go shopping the day after tomorrow.

Response sentence (candidate after conversion)
(Sun): The day after tomorrow will be shopping.
(B): asatte ha syoppingu no yotei desu
 この同義語置換の七五調候補生成の第2の例では、応答文(変換前)における「買い物」である語を、「ショッピング」である同義語に置換することで、応答文(変換後候補)が七五調になるようにしている。 In the second example of the generation of seven tone candidates of this synonym substitution, the response sentence (post-conversion candidate) is obtained by replacing the word "shopping" in the response sentence (before conversion) with the synonym "shopping". Is supposed to be seventy-five.
(H)第1候補生成処理乃至第7候補生成処理の組み合わせ (H) Combination of first candidate generation processing to seventh candidate generation processing
 上述した第1候補生成処理乃至第7候補生成処理は、単独で、候補生成パターンとすることは勿論、それらを組み合わせた候補生成パターンを用いて、七五調になる応答文(変換後候補)を生成するようにしてもよい。 The first candidate generation process to the seventh candidate generation process described above are independently considered as candidate generation patterns and, of course, using a candidate generation pattern combining them, a response sentence (post-conversion candidate) that becomes swashish is generated. You may do it.
 なお、(A)助詞抜きや(B)不要部分除去の七五調候補生成は、応答文(変換前)に含まれる語を除外する第1のケースとして分類することができる。また、(C)語尾追加や、(D)意味不変語追加、(E)繰り返し追加、(F)オノマトペ追加は、応答文(変換前)に対して語を追加する第2のケースとして分類することができる。さらに、(G)同義語置換は、応答文(変換前)に含まれる語を置き換える第3のケースとして分類することができる。 It should be noted that the formation of the seven tone candidate generation of (A) particle removal and (B) unnecessary part removal can be classified as a first case excluding words included in the response sentence (before conversion). In addition, (C) word addition, (D) semantically invariant word addition, (E) repeated addition, and (F) onomatopoeic addition are classified as a second case in which a word is added to the response sentence (before conversion) be able to. Furthermore, (G) synonym substitution can be classified as a third case of replacing a word included in a response sentence (before conversion).
 以下に、第1候補生成処理乃至第7候補生成処理のいずれかを組み合わせた場合における七五調候補生成時の応答文の一例として、語尾の追加と同義語置換を組み合わせた七五調候補生成時の変換前と変換後候補の応答文の例を示す。 In the following, as an example of a response sentence at the time of seven tone candidate generation in the case of combining any of the first candidate generation processing to the seventh candidate generation process, before conversion at the time of seven tone candidate generation combining word addition and synonym substitution And an example of a response sentence of a candidate after conversion.
 語尾の追加 & 同義語置換の七五調候補生成の例

 応答文(変換前)
 (日):今日の占い結果はとてもいいです。
 (ロ):kyou no uranai kekka ha totemo ii desu
 (英):Today's fortunetelling results are very good.

 応答文(変換後候補)
 (日):今日のね 占い結果は グッドです。
 (ロ):kyou no ne uranai kekka ha guddo desu
Example of Seven Tones Generation with Appending & Synonym Substitution

Response statement (before conversion)
(Sun): Today's horoscope results are very good.
(B): kyou no uranai kekka ha totemo ii desu
(English): Today's fortunetelling results are very good.

Response sentence (candidate after conversion)
(Sun): Today's negotiating result is good.
(B): kyou no ne uranai kekka ha guddo desu
 この語尾の追加 & 同義語置換の七五調候補生成の例では、応答文(変換前)における「今日の」に続いて、「ね」である語尾が追加され、さらに、「とてもいい」である語を、「グッド」である同義語に置換することで、応答文(変換後候補)が七五調になるようにしている。 In this example of addition of endings & generation of synonyms of seven-tone candidate generation, after “today's” in the response sentence (before conversion), an end that is “ne” is added, and further, a word that is “very good” Is replaced with the synonym which is "Good", so that the response sentence (post-conversion candidate) is made to be 75-tone.
(I)日本語以外の他の言語の例 (I) Examples of languages other than Japanese
 上述した説明では、日本語の応答文を七五調に変換する例を説明したが、日本語以外の他の言語に対しても同様に七五調変換を行うことができる。ここでは、他の言語として、英語を一例にして、英語の応答文が、七五調変換される場合を示す。 Although the above-mentioned description demonstrated the example which converts the Japanese response sentence into the seventy-five tone, the seventy-five tone conversion can be similarly performed also to other languages other than Japanese. Here, as another language, taking English as an example, a case where an English response sentence is converted to seventy-five tonality is shown.
 以下に、英語の応答文について、七五調候補生成時の変換前と変換後候補の応答文の例を示す。 In the following, examples of response sentences before conversion and after conversion at the time of generation of the syllabary candidate for English response sentences are shown.
 英語の応答文の七五調候補生成の第1の例

 応答文(変換前)
 (英):Today's weather in Tokyo is rainy.

 応答文(変換後候補)
 (英):In Tokyo today's weather is rainy.
A First Example of the Generation of the Seventy-Five Candidates for the English Response

Response statement (before conversion)
(English): Today's weather in Tokyo is rainy.

Response sentence (candidate after conversion)
(English): In Tokyo today's weather is rainy.
 この英語の応答文の七五調候補生成の第1の例では、応答文(変換前)と応答文(変換後候補)とで、「today's weather」と「in Tokyo」との語順を入れ替えることで、応答文が七五調になるようにしている。 In the first example of the generation of seven-seven-those candidates for this English response sentence, the word order of “today's weather” and “in Tokyo” is exchanged between the response sentence (before conversion) and the response sentence (post-conversion candidate), It is made for the response sentence to be seventy-five.
 英語の応答文の七五調候補生成の第2の例

 応答文(変換前)
 (英):These are maps you want.

 応答文(変換後候補)
 (英):These are maps which you want.
A second example of the formation of seventy-five candidates for the English response sentence

Response statement (before conversion)
(English): These are maps you want.

Response sentence (candidate after conversion)
(English): These are maps which you want.
 この英語の応答文の七五調候補生成の第2の例では、応答文(変換前)における「maps」に続いて、「which」を挿入することで、応答文が七五調になるようにしている。 In the second example of the generation of the seven-seventh tone candidate of the English response sentence, the response sentence is made to have seventy-seven tones by inserting “which” following “maps” in the response sentence (before conversion).
 英語の応答文の七五調候補生成の第3の例

 応答文(変換前)
 (英):This is recommendation for you.

(変換後候補)
 (英):This is a recommended restaurant.
A third example of the generation of seventy-five candidates for the English response sentence

Response statement (before conversion)
(English): This is recommendation for you.

(Candidate after conversion)
(English): This is a recommended restaurant.
 この英語の応答文の七五調候補生成の第3の例では、応答文(変換前)における「for you」を削除するとともに、「a」と、「restaurant」を挿入することで、応答文が七五調になるようにしている。 In the third example of the generation of the seventy-seventh tone candidate of the English response sentence, the response sentence is seventy-seven tones by deleting “for you” in the response sentence (before conversion) and inserting “a” and “restaurant”. I am trying to be
 英語の応答文の七五調候補生成の第4の例

 応答文(変換前)
 (英):You got a mail.

 応答文(変換後候補)
 (英):Just you got a mail you're happy?
A fourth example of the seventy-seven key candidate generation of the English response sentence

Response statement (before conversion)
(English): You got a mail.

Response sentence (candidate after conversion)
(English): Just you got a mail you're happy?
 この英語の応答文の七五調候補生成の第4の例では、応答文(変換前)に対して、「Just」と「you're happy?」を挿入することで、応答文が七五調になるようにしている。 In the fourth example of the generation of seventy-five candidates for this English response sentence, the response sentence becomes seventy-five by inserting "Just" and "you're happy?" Into the response sentence (before conversion) I have to.
 なお、上述した英語など、日本語以外の他の言語においても、七五調は存在しているが、日本語ほど身近ではない言語もあるので、そのような言語に対する処理を行う場合には、ユーザフィードバック情報を用いた閾値処理での閾値を、日本語の場合の閾値に比べて、高めに設定するなどの対処を行うようにしてもよい。 In addition, although there are 75 languages in other languages other than Japanese, such as English mentioned above, there are also languages that are not as familiar as Japanese, so when processing for such languages, user feedback The threshold value in the threshold process using information may be set to be higher than the threshold value in the case of Japanese.
 以上、第1の実施の形態について説明した。 The first embodiment has been described above.
 この第1の実施の形態では、ユーザの発話に対する応答(テキスト情報)を、七五調に変換して出力することで、七五調制約によって、より人間的な発話(例えば心地よい発話)を行うことができるようにしている。 In the first embodiment, by converting the response (text information) to the user's speech into text and outputting it, more human-like speech (for example, comfortable speech) can be performed by the seven-key constraint. I have to.
 すなわち、近年、音声による対話を行う商品やサービスが普及しているが、音声による対話を行う場合に、例えば、「明日の横浜の天気は晴れです。」のように応答が単純で、人間同士が行う対話とは明らかに異なっているものも多い。そうすると、ユーザによっては、例えば、面白みがない、対話を楽しめない、記憶に残りにくい、継続して使いたいとは思わないなどとなることが想定され、より人間的な発話を行うことができるようにすることが求められていた。 That is, in recent years, products and services that perform voice dialogues have become widespread, but when conducting voice dialogues, for example, the response is simple as in “Tomorrow's Yokohama weather is fine.” There are many things that are clearly different from the dialogue that Then, depending on the user, for example, it may be assumed that the user is not entertained, can not enjoy the dialogue, hardly retains in memory, does not want to continue using it, etc., so that more human speech can be performed. It was required to
 そこで、第1の実施の形態では、ユーザの発話に対する応答を七五調で返すことによって、人間味が出てきて、システムとの対話を楽しむことができるようにしている。例えば、上述の「明日の横浜の天気は晴れです。」を、「横浜の明日の天気は晴れなのさ。」のように、5音・7音・5音になるようにすることで、より人間的な対話を行うことができる。 Therefore, in the first embodiment, by returning the response to the user's speech in 75 tones, human taste comes out and it is possible to enjoy the dialog with the system. For example, by making the above-mentioned “The weather in Tomorrow is fine in Yokohama” as “5 sounds, 7 sounds, 5 sounds” as in “Tomorrow's weather in Yokohama is fine.” It can be a human dialogue.
 また、第1の実施の形態では、ユーザフィードバック情報やコンテキスト情報を用いることで、七五調制約を行うに際して、より適切に七五調に変換することができる。 Further, in the first embodiment, by using the user feedback information and the context information, it is possible to more appropriately convert to the seventy-five tone when performing the seventy-five tone constraint.
 すなわち、七五調での応答を行うことで、ユーザによっては、鬱陶しいや煩わしいなど感じて、不快感を抱くケースも想定されるため、システムの発話の結果、現在の状況と似た過去の状況において、ユーザの反応がどうであったか(例えば、良かったのか、悪かったのか)を収集し、ユーザの反応が良かった七五調変換処理を優先的に選択するようにする。これにより、例えば、時と場所、場合(TPO:Time Place Occasion)をわきまえた七五調の応答を行うことができる。 That is, some users may feel uncomfortable or bothersome by giving a response in the seventy-five tone, and a case may be considered uncomfortable, so as a result of the utterance of the system, in the past situation similar to the present situation, The user's reaction (for example, whether it was good or bad) is collected, and it is made to preferentially select a seven-tone conversion process in which the user's reaction is good. This makes it possible, for example, to provide a 75-tone response based on time and place (TPO: Time Place Occasion).
 なお、本技術を用いることで、七五調制約によって、対話システムのエージェントが、より人間的な発話を行うことで、エージェントのキャラクタ(特徴)付けを行うことができる。 In addition, by using the present technology, the agent of the dialogue system can perform the character (characteristic) attachment of the agent by more human-like speech due to the seventy-five tone restriction.
 また、本技術を用いることで、仮に、音声合成部157による音声合成(TTS)の精度が低い(例えばイントネーションの不安定さなどがある)場合でも、七五調制約を行うことでその精度の低さを隠すことができる。さらに、本技術を用いることで、仮に、発話意図理解部152で、ユーザの意図を解析できない場合でも、七五調で応答を返すことで、システムが意図を理解できていないことを、ユーザが許容する可能性を高めることができる。 In addition, even if the accuracy of the speech synthesis (TTS) by the speech synthesis unit 157 is low (for example, due to instability of intonation) by using the present technology, the accuracy is low by performing the 75-tone restriction. Can hide it. Furthermore, by using the present technology, even if the speech intention understanding unit 152 can not analyze the user's intention, the user accepts that the system can not understand the intention by returning the response in 75 tones. The possibilities can be increased.
 なお、上述した七五調候補生成処理は一例であって、応答文(変換前)を七五調に変換できるものであれば、いずれの処理を採用してもよい。例えば、ユーザが「クラシックの曲をかけて。」と発話した場合に、通常であれば、システムは、「クラシックの曲は入っていません。」などと応答するが、ここでは、格フレーム辞書を利用して、「かけてもいいの マヨネーズ。」などと応答するようにしてもよい。 Note that the above-described seven tone candidate generation process is an example, and any process may be adopted as long as the response sentence (before conversion) can be converted into the seven tone pattern. For example, when the user utters "I play a song of classical music", the system usually responds such as "I have no classical music", but here the case frame dictionary May be used to respond, such as "Mayonnaise.
 すなわち、「かける」という単語には、「音楽をかける」という意味のほかに、例えば、「マヨネーズ」等の「調味料をかける」という意味もあるため、ここでは、あえて、「かける」を違う意味で用いることで、人間的な対話が行われるようにしている。なお、格フレームとは、用言とそれに関係する名詞を、用言の用法ごとに整理したものである。また、応答文(変換前)を七五調に変換するに際しては、全体的に口語調を優先させるようにしてもよい。 That is, in addition to the meaning of "putting music", the word "putting" also has the meaning of "putting seasoning" such as, for example, "mayonnaise". By using it in the sense, human dialogue is made to take place. The case frame is a list of words and nouns related to them according to the usage of words. In addition, when converting the response sentence (before conversion) into the Japanese syllabary, the speaking style may be given priority as a whole.
<2.第2の実施の形態> <2. Second embodiment>
 ところで、上述した第1の実施の形態では、ユーザとの対話、すなわち、ユーザの発話の内容を解析し、その発話内容に対する応答を出力する際に、七五調制約によって、より人間的な応答が行われるようにした。 By the way, in the first embodiment described above, when the user's dialogue, that is, the content of the user's utterance is analyzed and the response to the content of the utterance is outputted, the more human-like response is performed by the 75-degree constraint. It was made to be known.
 本技術は、このような対話システムに限らず、例えば、アバタ等のキャラクタが、ニュースや天気予報等の原稿(テキスト)を読み上げるシーンなど、様々な音声発話のシーンに適用することができる。そこで、以下、第2の実施の形態として、本技術をニュース番組制作システムに適用した場合を説明する。 The present technology is not limited to such a dialogue system, and can be applied to various speech utterance scenes, for example, a scene in which a character such as avatar reads a document (text) such as news or weather forecast. Therefore, hereinafter, a case where the present technology is applied to a news program production system will be described as a second embodiment.
(ニュース番組制作システムの例)
 図11は、本技術を適用したニュース番組制作システムの例を示している。
(Example of a news program production system)
FIG. 11 shows an example of a news program production system to which the present technology is applied.
 図11において、情報処理装置10は、ニュース番組制作システムの一部として構成されており、例えば、街中や駅前などに設置される大型ビジョンで、女性のキャラクタが、ニュースや天気予報のテキスト情報を、音声合成により読み上げている。 In FIG. 11, the information processing apparatus 10 is configured as a part of a news program production system, and for example, in a large vision installed in a city or in front of a station, a female character has text information of news or weather forecast. , Read aloud by speech synthesis.
 このとき、例えば、ニュースの合間や、番組の最後などのタイミングで、女性のキャラクタが、本技術を適用して七五調に変換されたテキスト情報を読み上げるようにする。 At this time, a female character reads the text information converted into the seventy-five tone by applying the present technology, for example, at intervals of news, at the timing of the end of the program, or the like.
 このように、七五調制約によって、より人間的な発話が行われるようにすることで、例えば、ぼけたキャラクタを演出して、ユーザに対し、意外な一面があることを印象付けることで、女性のキャラクタに興味を持つユーザを増やし、結果として、ニュース番組の視聴者を増加させることができる。 In this way, by causing a more human-like speech to be performed by the seventy-five tone restriction, for example, a blurred character is directed to impress that the user has an unexpected side, so that the female's The number of users interested in the character can be increased, and as a result, the viewer of the news program can be increased.
 ここで、本技術をニュース番組制作システムに適用した場合における、ユーザフィードバック情報であるが、例えば、情報処理装置10に設けられたカメラ111により撮像された撮像画像を解析して、街中等に設置された大型ビジョンを観ている通行人の表情などから、候補生成パターンごとのスコアを算出することができる。 Here, user feedback information in the case where the present technology is applied to a news program production system, for example, analyzes a captured image captured by a camera 111 provided in the information processing apparatus 10 and installs it in a town etc. The score for each candidate generation pattern can be calculated from the expression of the passerby who is watching the large-sized vision.
 なお、ここでも、上述した顔や画像の認識用のAPIを提供するサービスを利用して、多数の通行人の顔を含む撮像画像を送ることで、例えば、喜びや驚きなど、通行人の表情や感情に関する情報を得ることができる。 Also here, by using the service for providing the above-described API for recognition of the face and image, by sending a captured image including the faces of a large number of passersby, for example, expressions of the passersby such as pleasure or surprise You can get information about emotions.
 例えば、多くの通行人が、楽しそうな表情をしていることが認識された場合には、スコアが加算される一方で、例えば、多くの通行人がつまらなそうな表情をしていることが認識された場合には、スコアが減算される。 For example, when it is recognized that many passers are having a pleasant expression, for example, many passers have a sloppy expression while the score is added. If recognized, the score is subtracted.
 なお、例えば、ユーザが各家庭で、テレビ受像機やスマートフォンなどにより、当該ニュース番組を視聴している場合には、リモートコントローラや、スマートフォンで起動されたアプリケーションなどを、ユーザが操作することで、女性のキャラクタの七五調の発話に対する投票(例えば、良い又は悪いなど)などが行われるようにしてもよい。 Note that, for example, when the user views the news program at each home using a television receiver or a smartphone, the user operates the remote controller or an application activated by the smartphone. A vote (for example, good or bad) or the like may be made to the seventy-five utterances of the female character.
 また、ここでも、コンテキスト情報としては、時刻情報や位置情報のほか、例えば、情報処理装置10に設けられたカメラ111により撮像された撮像画像の解析結果から得られる情報を用いることができる。 Also here, as the context information, other than time information and position information, for example, information obtained from an analysis result of a captured image captured by the camera 111 provided in the information processing apparatus 10 can be used.
 なお、本技術を適用したニュース番組制作システムでは、ユーザの発話を認識したり、応答を生成したりする必要はないため、図2に示した情報処理部150の機能(音声認識部151乃至ユーザフィードバック収集部158)のうち、例えば、コンテキスト取得部155、七五調変換部156、音声合成部157、及びユーザフィードバック収集部158に応じた機能を含むようにして構成されればよい。 In the news program production system to which the present technology is applied, there is no need to recognize the user's speech or generate a response, so the functions of the information processing unit 150 shown in FIG. Of the feedback collection unit 158), for example, functions may be included according to the context acquisition unit 155, the 75-tone conversion unit 156, the speech synthesis unit 157, and the user feedback collection unit 158.
 また、上述した説明では、女性のキャラクタによる音声発話を例に説明したが、音声発話に限らず、ニュースや天気予報の内容、七五調の発話の内容が、テキスト情報として、大型ビジョンやディスプレイ等の画面に表示されるようにしてもよい。 Further, in the above description, the voice uttering by the female character has been described as an example, but not limited to voice uttering, the contents of news and weather forecast, and the contents of uttered seventy-five tones are text information such as large vision and display It may be displayed on the screen.
 以上、第2の実施の形態について説明した。 The second embodiment has been described above.
 この第2の実施の形態では、音声合成により読み上げられることを目的としたテキスト情報(例えばニュースの合間の発話など)を、七五調に変換して出力することで、七五調制約によって、より人間的な発話(例えば親近感がわく発話)を行うことができるようにしている。また、第2の実施の形態においても、ユーザフィードバック情報やコンテキスト情報を用いることで、七五調制約を行うに際して、より適切に七五調に変換することができる。 In the second embodiment, text information (for example, an utterance between news pieces) intended to be read out by speech synthesis is converted to seventy-five tones and outputted, thereby making the human being more human by the seventy-five constraints. It makes it possible to make an utterance (for example, an utterance with a sense of closeness). Further, also in the second embodiment, by using the user feedback information and the context information, it is possible to more appropriately convert to the seventy-five tone when performing the seventy-five tone constraint.
<3.第3の実施の形態> <3. Third embodiment>
 また、対話システム以外の構成として、上述した第2の実施の形態では、ニュース番組制作システムを説明したが、その他の構成として、例えば、デジタルサイネージにて、CMを流すシーンなどにも適用することができる。そこで、以下、第3の実施の形態として、本技術をデジタルサイネージシステムに適用した場合を説明する。 Further, although the news program production system has been described in the second embodiment described above as a configuration other than the dialogue system, the present invention may be applied to, for example, a scene in which CM is streamed by digital signage as another configuration. Can. Therefore, the case where the present technology is applied to a digital signage system will be described below as a third embodiment.
(デジタルサイネージシステムの例)
 図12は、本技術を適用したデジタルサイネージシステムの例を示している。
(Example of digital signage system)
FIG. 12 shows an example of a digital signage system to which the present technology is applied.
 図12において、情報処理装置10は、デジタルサイネージシステムの一部として構成されており、例えば、駅や商業施設などの屋内に設置され、広告や案内等の情報を表示している。 In FIG. 12, the information processing apparatus 10 is configured as a part of a digital signage system, for example, installed indoors at a station or a commercial facility, and displays information such as an advertisement or guidance.
 このとき、例えば、CMとCMの間などのタイミングで、本技術を適用して七五調に変換されたテキスト情報を読み上げるようにする。より具体的には、図12に示すように、ある時刻に流れる自動車のCMと、その後の時刻に流れる洗剤のCMとの間に、デジタルサイネージの近くを歩いている通行人が興味を引くような、例えば、ぼけた内容の七五調の発話の音声が出力されるようにする。 At this time, for example, at the timing between CM and CM, the present technology is applied to read out the text information converted into the seventy-five tone. More specifically, as shown in FIG. 12, a passerby who is walking near digital signage gets interested in between the CM of a car flowing at a certain time and the CM of a detergent flowing at a later time For example, the voice of the 75 tone speech of the blurred content is output.
 このように、七五調制約によって、より人間的な発話が行われるようにすることで、例えば、通行人に対し、CMの対象となる商品を印象付けて、その商品に興味を持たせることができる。 In this way, by enabling the human speech to be performed by the seventy-five-tone restriction, for example, it is possible to impress the goods targeted for CM and make the goods interested in the passersby .
 なお、ここでは、音声発話を一例に説明したが、音声発話に限らず、七五調に変換されたテキスト情報が、デジタルサイネージの画面に表示されるようにしてもよい。 In addition, although voice uttering was demonstrated to an example here, you may make it the text information converted not only into voice uttering but into the seventy-five tone be displayed on the screen of digital signage.
 ここで、本技術をデジタルサイネージシステムに適用した場合における、ユーザフィードバック情報であるが、例えば、情報処理装置10に設けられたカメラ111により撮像された撮像画像を解析して、駅等の屋内に設置されたデジタルサイネージを観ている通行人の表情などから、候補生成パターンごとのスコアを算出することができる。 Here, user feedback information in the case where the present technology is applied to a digital signage system is, for example, analyzing a captured image captured by a camera 111 provided in the information processing apparatus 10 and using it indoors at a station or the like. The score for each candidate generation pattern can be calculated from the expression of the passerby viewing the digital signage installed.
 なお、ここでも、上述した顔や画像の認識用のAPIを提供するサービスを利用して、多数の通行人の顔を含む撮像画像を送ることで、例えば、喜びや驚きなど、通行人の表情や感情に関する情報を得ることができる。 Also here, by using the service for providing the above-described API for recognition of the face and image, by sending a captured image including the faces of a large number of passersby, for example, expressions of the passersby such as pleasure or surprise You can get information about emotions.
 例えば、多くの通行人が、楽しそうな表情をしていることが認識された場合には、スコアが加算される一方で、例えば、多くの通行人がつまらなそうな表情をしていることが認識された場合には、スコアが減算される。 For example, when it is recognized that many passers are having a pleasant expression, for example, many passers have a sloppy expression while the score is added. If recognized, the score is subtracted.
 また、ここでも、コンテキスト情報としては、時刻情報や位置情報のほか、例えば、情報処理装置10に設けられたカメラ111により撮像された撮像画像の解析結果から得られる情報を用いることができる。 Also here, as the context information, other than time information and position information, for example, information obtained from an analysis result of a captured image captured by the camera 111 provided in the information processing apparatus 10 can be used.
 なお、本技術を適用したデジタルサイネージシステムにおいても、ユーザの発話を認識したり、応答を生成したりする必要はないため、図2に示した情報処理部150の機能(音声認識部151乃至ユーザフィードバック収集部158)のうち、例えば、コンテキスト取得部155、七五調変換部156、音声合成部157、及びユーザフィードバック収集部158に応じた機能を含むようにして構成されればよい。 In the digital signage system to which the present technology is applied, there is no need to recognize the user's speech or to generate a response, so the functions of the information processing unit 150 shown in FIG. Of the feedback collection unit 158), for example, functions may be included according to the context acquisition unit 155, the 75-tone conversion unit 156, the speech synthesis unit 157, and the user feedback collection unit 158.
 以上、第3の実施の形態について説明した。 The third embodiment has been described above.
 この第3の実施の形態では、音声合成により読み上げられることを目的としたテキスト情報(例えばCMとCMの間に出力される発話など)を、七五調に変換して出力することで、七五調制約によって、より人間的な発話(例えば商品に興味を持たせるような発話)を行うことができるようにしている。また、第3の実施の形態においても、ユーザフィードバック情報やコンテキスト情報を用いることで、七五調制約を行うに際して、より適切に七五調に変換することができる。 In the third embodiment, text information (for example, an utterance output between CMs and the like) intended to be read out by speech synthesis is converted into seventy-five tones and output, thereby the seven-five tones restriction is applied. Make it possible to perform more human-like speech (for example, speech that gives interest to goods). Also in the third embodiment, the user feedback information and the context information can be used to more appropriately convert to the seventy-five tone when performing the seventy-five tone constraint.
<4.変形例> <4. Modified example>
(対話システムの構成例)
 上述した説明では、情報処理装置10(の情報処理部150)により対話処理が実行されることで、対話サービスが実現される場合を例示したが、このような対話サービスを実現するための構成として、例えば、図13に示すような構成を採用することができる。
(Example of configuration of dialogue system)
In the above description, the case where the interactive service is realized by executing the interactive process by (the information processing unit 150 of) the information processing apparatus 10 is exemplified, but as a configuration for realizing such an interactive service For example, a configuration as shown in FIG. 13 can be employed.
 図13において、対話システム1は、ユーザ宅等のローカル側に設置され、対話サービスのユーザインターフェースとして機能する情報処理装置10と、データセンタ等のクラウド側に設置され、対話サービスの対話機能の実現するための処理を行うサーバ20とから構成されている。 In FIG. 13, the dialogue system 1 is installed on the local side such as a user home and is installed on the information processing apparatus 10 functioning as a user interface of the dialogue service and on the cloud side such as a data center to realize the dialogue function of the dialogue service. It comprises the server 20 which performs the process for doing.
 この対話システム1において、情報処理装置10とサーバ20とは、インターネット30を介して相互に接続されている。 In the dialogue system 1, the information processing apparatus 10 and the server 20 are mutually connected via the Internet 30.
 情報処理装置10は、例えば、例えば、家庭内LAN等のネットワークに接続可能なスピーカであって、いわゆるスマートスピーカやホームエージェントなどとも称される。この種のスピーカは、音楽の再生のほか、例えば、ユーザとの音声対話や、照明器具や空調設備などの機器に対する音声操作などを行うことができる。 The information processing apparatus 10 is, for example, a speaker that can be connected to a network such as a home LAN, and is also called a so-called smart speaker or a home agent. This type of speaker can perform, for example, voice dialogue with the user and voice operation to devices such as lighting fixtures and air conditioners in addition to reproduction of music.
 なお、情報処理装置10は、スピーカに限らず、例えば、スマートフォンや携帯電話機等のモバイル機器や、タブレット型のコンピュータ、パーソナルコンピュータ、テレビ受像機、ゲーム機等の電子機器として構成されるようにしてもよい。 The information processing apparatus 10 is not limited to a speaker, and may be configured as, for example, a mobile device such as a smartphone or a mobile phone, or an electronic device such as a tablet computer, a personal computer, a television receiver, or a game machine. It is also good.
 情報処理装置10は、インターネット30を介してサーバ20と連携することで、ユーザに対し、対話サービス(のユーザインターフェース)を提供することができる。 The information processing apparatus 10 can provide a dialog service (a user interface of the user) to the user by cooperating with the server 20 via the Internet 30.
 すなわち、情報処理装置10は、ユーザから発せられた音声(ユーザ発話)を収音し、その音声データを、インターネット30を介して、サーバ20に送信する。また、情報処理装置10は、インターネットを介してサーバ20から送信されてくる処理データを受信し、その処理データに応じた音声を出力する。 That is, the information processing apparatus 10 picks up the voice (user's utterance) emitted from the user, and transmits the voice data to the server 20 via the Internet 30. Further, the information processing apparatus 10 receives processing data transmitted from the server 20 via the Internet, and outputs a voice corresponding to the processing data.
 サーバ20は、クラウドベースの対話サービスを提供するサーバである。サーバ20は、インターネット30を介して情報処理装置10から送信されてくる音声データを、テキスト情報に変換するための音声認識処理を行う。また、サーバ20は、テキスト情報に対し、ユーザの意図に応じた対話処理などの処理を行い、その処理の結果得られる処理データを、インターネット30を介して情報処理装置10に送信する。 The server 20 is a server that provides a cloud-based dialog service. The server 20 performs voice recognition processing for converting voice data transmitted from the information processing apparatus 10 via the Internet 30 into text information. Further, the server 20 performs processing such as interactive processing according to the user's intention on the text information, and transmits processing data obtained as a result of the processing to the information processing apparatus 10 via the Internet 30.
 なお、図13に示したローカル側とクラウド側からなる構成では、対話システム1として、ユーザの発話に対する応答を生成するシステムについて説明したが、上述したような、ニュース番組制作システムやデジタルサイネージシステム等のテキスト情報を音声合成により読み上げるシステムとして構成されるようにしてもよい。 In the configuration including the local side and the cloud side shown in FIG. 13, although a system for generating a response to the user's speech has been described as the dialogue system 1, the above-mentioned news program production system, digital signage system, etc. The system may be configured as a system for reading out the text information of the above by speech synthesis.
 このように、上述した説明では、図2の情報処理部150の機能(音声認識部151乃至ユーザフィードバック収集部158)が、情報処理装置10に組み込まれるとして説明したが、図2の情報処理部150の機能が、サーバ20の機能として組み込まれるようにしてもよい。すなわち、図2の情報処理部150の機能(音声認識部151乃至ユーザフィードバック収集部158)のそれぞれは、情報処理装置10、及びサーバ20のうち、いずれの機器に組み込まれてもよい。 As described above, in the above description, the functions (voice recognition unit 151 to user feedback collection unit 158) of the information processing unit 150 in FIG. 2 are described as being incorporated in the information processing apparatus 10. The functions of 150 may be incorporated as the functions of the server 20. That is, each of the functions (the speech recognition unit 151 to the user feedback collection unit 158) of the information processing unit 150 in FIG. 2 may be incorporated in any of the information processing apparatus 10 and the server 20.
 例えば、図2の情報処理部150の機能のうち、音声認識部151乃至応答生成部154が、クラウド側のサーバ20に組み込まれ、コンテキスト取得部155乃至ユーザフィードバック収集部158が、ローカル側の情報処理装置10に組み込まれるようにすることができる。 For example, among the functions of the information processing unit 150 in FIG. 2, the speech recognition unit 151 to the response generation unit 154 are incorporated in the server 20 on the cloud side, and the context acquisition unit 155 to the user feedback collection unit 158 are information on the local side. It can be incorporated into the processing device 10.
 なお、いずれの構成を採用した場合でも、ユーザフィードバック情報DB202や、語尾リスト211、意味不変語リスト212、オノマトペリスト213、同義語辞書214などのデータベースは、インターネット30上のサーバ20が管理することができる。 Note that, regardless of which configuration is adopted, the server 20 on the Internet 30 manages databases such as the user feedback information DB 202, the ending list 211, the meaning-invariant word list 212, the onomatopolist 213, and the synonym dictionary 214. Can.
 以上のように、本技術は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。 As described above, the present technology can have a cloud computing configuration in which one function is shared and processed by a plurality of devices via a network.
(コンピュータの構成)
 上述した一連の処理(例えば、図3乃至図4に示した七五調変換出力処理)は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。図1及び図2の構成に示したように、一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、情報処理装置10(コンピュータ)にインストールされる。
(Computer configuration)
The above-described series of processes (for example, the conversion process of the conversion into seventy-five shown in FIGS. 3 to 4) can be performed by hardware or can be performed by software. As shown in the configurations of FIG. 1 and FIG. 2, when a series of processes are executed by software, a program constituting the software is installed in the information processing apparatus 10 (computer).
 図1の情報処理装置10(CPU101)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体に記録して提供することができる。なお、リムーバブル記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等から構成される。 The program executed by the information processing apparatus 10 (CPU 101) of FIG. 1 can be provided by being recorded on, for example, a removable recording medium as a package medium or the like. The removable recording medium is composed of, for example, a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
 また、プログラムは、インターネット30のほか、ローカルエリアネットワーク、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。 Also, the program can be provided via a wired or wireless transmission medium such as a local area network or digital satellite broadcasting besides the Internet 30.
 図1の情報処理装置10では、プログラムは、リムーバブル記録媒体を、ドライブ(不図示)に装着することにより、情報アクセス部104を介して、ハードディスク105等の記録装置にインストールすることができる。 In the information processing apparatus 10 of FIG. 1, the program can be installed in a recording apparatus such as the hard disk 105 via the information access unit 104 by attaching a removable recording medium to a drive (not shown).
 また、プログラムは、有線又は無線の伝送媒体を介して、通信I/F116で受信し、ハードディスク105等の記録装置にインストールすることができる。その他、プログラムは、ROM102や記録装置などに、あらかじめインストールしておくことができる。 Further, the program can be received by the communication I / F 116 via a wired or wireless transmission medium, and can be installed in a recording device such as the hard disk 105 or the like. In addition, the program can be installed in advance in the ROM 102, a recording device, or the like.
 ここで、本明細書において、図1の情報処理装置10(CPU101)がプログラムに従って行う処理は、必ずしも図3乃至図4に示したフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、図1の情報処理装置10(CPU101)がプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。 Here, in the present specification, the processing performed by the information processing apparatus 10 (CPU 101) of FIG. 1 according to the program does not necessarily need to be performed chronologically in the order described as the flowcharts shown in FIGS. Absent. That is, the processing performed by the information processing apparatus 10 (CPU 101) of FIG. 1 according to the program includes processing (for example, parallel processing or processing by an object) executed in parallel or individually.
 また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。すなわち、図3乃至図4に示した七五調変換出力処理の各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。 Further, the program may be processed by one computer (processor) or may be distributed and processed by a plurality of computers. That is, each step of the heptatonic conversion output process shown in FIG. 3 to FIG. 4 can be executed by a plurality of devices in addition to being executed by one device. Furthermore, in the case where a plurality of processes are included in one step, the plurality of processes included in one step can be executed by being shared by a plurality of devices in addition to being executed by one device.
 なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。 Note that the embodiments of the present technology are not limited to the above-described embodiments, and various modifications can be made without departing from the scope of the present technology.
 また、本技術は、以下のような構成をとることができる。 Further, the present technology can have the following configurations.
(1)
 入力されたテキスト情報を、七五調に変換して出力する処理部を備える
 情報処理装置。
(2)
 前記処理部は、ユーザからのフィードバックで得られるユーザフィードバック情報に基づいて、前記テキスト情報を七五調に変換する
 前記(1)に記載の情報処理装置。
(3)
 前記処理部は、前記テキスト情報に対するコンテキスト情報に基づいて、前記テキスト情報を七五調に変換する
 前記(1)又は(2)に記載の情報処理装置。
(4)
 前記処理部は、
  前記ユーザフィードバック情報を参照して、前記コンテキスト情報に適合した七五調変換処理を選定し、
  前記テキスト情報に対し、選定された七五調変換処理を実行する
 前記(3)に記載の情報処理装置。
(5)
 前記ユーザフィードバック情報は、七五調の候補を生成する候補生成パターンごとに、過去の環境情報と前記ユーザの反応とをスコア値化した情報を含み、
 前記コンテキスト情報は、現在の環境情報を含み、
 前記処理部は、前記過去の環境情報のうち、前記現在の環境情報と同一又は類似する過去の環境情報のスコアが、閾値以上となる候補生成パターンを選定する
 前記(4)に記載の情報処理装置。
(6)
 前記処理部は、複数の候補生成パターンが選定可能な場合に、ランダムに1つの候補生成パターンを選定する
 前記(5)に記載の情報処理装置。
(7)
 前記候補生成パターンは、
  助詞を抜いて七五調になる候補を生成する助詞抜き、
  意味的に不要な部分を除去して七五調になる候補を生成する不要部分除去、
  語尾を追加して七五調になる候補を生成する語尾追加、
  意味的に変わらない語を追加して七五調になる候補を生成する意味不変語追加、
  ある語を繰り返して七五調になる候補を生成する繰り返し追加、
  オノマトペを追加して七五調になる候補を生成するオノマトペ追加、及び
  同義語に置換して七五調になる候補を生成する同義語追加
 による七五調候補生成のうち、1つの七五調候補生成、又は複数の七五調候補生成の組み合わせを含む
 前記(5)又は(6)に記載の情報処理装置。
(8)
 前記コンテキスト情報は、時間帯、場所、話者、同席者、及び場の雰囲気を示す情報のうち、少なくとも1つの情報を含む
 前記(5)乃至(7)のいずれかに記載の情報処理装置。
(9)
 前記テキスト情報は、ユーザの発話に対する応答である
 前記(1)乃至(8)のいずれかに記載の情報処理装置。
(10)
 前記テキスト情報は、音声合成により読み上げられることを目的とした情報である
 前記(1)乃至(8)のいずれかに記載の情報処理装置。
(11)
 情報処理装置の情報処理方法において、
 前記情報処理装置が、
 入力されたテキスト情報を、七五調に変換して出力する
 情報処理方法。
(1)
An information processing apparatus, comprising: a processing unit that converts input text information into seventy-five tones and outputs the converted information.
(2)
The information processing apparatus according to (1), wherein the processing unit converts the text information into a heptad according to user feedback information obtained by feedback from a user.
(3)
The information processing apparatus according to (1) or (2), wherein the processing unit converts the text information into a heptad according to context information on the text information.
(4)
The processing unit is
The seven-to-five conversion process adapted to the context information is selected with reference to the user feedback information,
The information processing apparatus according to (3), which executes selected seven-toned conversion processing on the text information.
(5)
The user feedback information includes information obtained by scoring the past environment information and the reaction of the user for each candidate generation pattern for generating seventy-five candidates.
The context information includes current environment information,
The processing unit selects a candidate generation pattern in which a score of past environmental information that is the same as or similar to the current environmental information is equal to or higher than a threshold among the past environmental information. apparatus.
(6)
The information processing apparatus according to (5), wherein the processing unit randomly selects one candidate generation pattern when a plurality of candidate generation patterns can be selected.
(7)
The candidate generation pattern is
Remove the particle and generate a candidate that becomes 75 grade, without the particle,
Unnecessary part elimination, which removes candidates that are meaningless by eliminating semantically unnecessary parts
Add endings, add endings to generate candidates that become 75-tone,
Add semantically invariant words, adding semantically unchanged words to generate candidates that become 75-tone,
Repeat additions to generate a candidate that will repeat the word and become 75-tone,
One of the seven tone candidate generation or a plurality of seven tone candidates out of seven tone candidate generation by onomatopoeia adding the onomatopoeia and generating the seventy five candidate, and synonym addition adding the synonym substitution and generating the seven fifth tone candidate The information processing apparatus according to (5) or (6), including a combination of generation.
(8)
The information processing apparatus according to any one of (5) to (7), wherein the context information includes at least one piece of information indicating a time zone, a place, a speaker, an attendant, and an atmosphere of a place.
(9)
The information processing apparatus according to any one of (1) to (8), wherein the text information is a response to an utterance of a user.
(10)
The information processing apparatus according to any one of (1) to (8), wherein the text information is information intended to be read out by speech synthesis.
(11)
In an information processing method of an information processing apparatus,
The information processing apparatus
An information processing method that converts input text information into seventy-five tone and outputs it.
 1 対話システム, 10 情報処理装置, 20 サーバ, 30 インターネット, 100 制御部, 101 CPU, 102 ROM, 103 RAM, 150 情報処理部, 151 音声認識部, 152 発話意図理解部, 153 アプリケーション/サービス実行部, 154 応答生成部, 155 コンテキスト取得部, 156 七五調変換部, 157 音声合成部, 158 ユーザフィードバック収集部, 201 コンテキスト情報DB, 202 ユーザフィードバック情報DB, 211 語尾リスト, 212 意味不変語リスト, 213 オノマトペリスト, 214 同義語リスト Reference Signs List 1 dialogue system, 10 information processing apparatus, 20 server, 30 internet, 100 control unit, 101 CPU, 102 ROM, 103 RAM, 150 information processing unit, 151 speech recognition unit, 152 utterance intention understanding unit, 153 application / service execution unit , 154 response generation unit, 155 context acquisition unit, 156 seventy-five conversion unit, 157 speech synthesis unit, 158 user feedback collection unit, 201 context information DB, 202 user feedback information DB, 211 tail list, 212 semantic invariant word list, 213 onomatopoeia Lists, 214 Synonym Lists

Claims (11)

  1.  入力されたテキスト情報を、七五調に変換して出力する処理部を備える
     情報処理装置。
    An information processing apparatus, comprising: a processing unit that converts input text information into seventy-five tones and outputs the converted information.
  2.  前記処理部は、ユーザからのフィードバックで得られるユーザフィードバック情報に基づいて、前記テキスト情報を七五調に変換する
     請求項1に記載の情報処理装置。
    The information processing apparatus according to claim 1, wherein the processing unit converts the text information into a heptad according to user feedback information obtained by feedback from a user.
  3.  前記処理部は、前記テキスト情報に対するコンテキスト情報に基づいて、前記テキスト情報を七五調に変換する
     請求項2に記載の情報処理装置。
    The information processing apparatus according to claim 2, wherein the processing unit converts the text information into a heptad according to context information on the text information.
  4.  前記処理部は、
      前記ユーザフィードバック情報を参照して、前記コンテキスト情報に適合した七五調変換処理を選定し、
      前記テキスト情報に対し、選定された七五調変換処理を実行する
     請求項3に記載の情報処理装置。
    The processing unit is
    The seven-to-five conversion process adapted to the context information is selected with reference to the user feedback information,
    The information processing apparatus according to claim 3, wherein the selected seven-to-five conversion process is performed on the text information.
  5.  前記ユーザフィードバック情報は、七五調の候補を生成する候補生成パターンごとに、過去の環境情報と前記ユーザの反応とをスコア値化した情報を含み、
     前記コンテキスト情報は、現在の環境情報を含み、
     前記処理部は、前記過去の環境情報のうち、前記現在の環境情報と同一又は類似する過去の環境情報のスコアが、閾値以上となる候補生成パターンを選定する
     請求項4に記載の情報処理装置。
    The user feedback information includes information obtained by scoring the past environment information and the reaction of the user for each candidate generation pattern for generating seventy-five candidates.
    The context information includes current environment information,
    The information processing apparatus according to claim 4, wherein the processing unit selects a candidate generation pattern in which a score of past environmental information that is the same as or similar to the current environmental information is equal to or higher than a threshold among the past environmental information. .
  6.  前記処理部は、複数の候補生成パターンが選定可能な場合に、ランダムに1つの候補生成パターンを選定する
     請求項5に記載の情報処理装置。
    The information processing apparatus according to claim 5, wherein the processing unit randomly selects one candidate generation pattern when a plurality of candidate generation patterns can be selected.
  7.  前記候補生成パターンは、
      助詞を抜いて七五調になる候補を生成する助詞抜き、
      意味的に不要な部分を除去して七五調になる候補を生成する不要部分除去、
      語尾を追加して七五調になる候補を生成する語尾追加、
      意味的に変わらない語を追加して七五調になる候補を生成する意味不変語追加、
      ある語を繰り返して七五調になる候補を生成する繰り返し追加、
      オノマトペを追加して七五調になる候補を生成するオノマトペ追加、及び
      同義語に置換して七五調になる候補を生成する同義語追加
     による七五調候補生成のうち、1つの七五調候補生成、又は複数の七五調候補生成の組み合わせを含む
     請求項5に記載の情報処理装置。
    The candidate generation pattern is
    Remove the particle and generate a candidate that becomes 75 grade, without the particle,
    Unnecessary part elimination, which removes candidates that are meaningless by eliminating semantically unnecessary parts
    Add endings, add endings to generate candidates that become 75-tone,
    Add semantically invariant words, adding semantically unchanged words to generate candidates that become 75-tone,
    Repeat additions to generate a candidate that will repeat the word and become 75-tone,
    One of the seven tone candidate generation or a plurality of seven tone candidates out of seven tone candidate generation by onomatopoeia adding the onomatopoeia and generating the seventy five candidate, and synonym addition adding the synonym substitution and generating the seven fifth tone candidate The information processing apparatus according to claim 5, comprising a combination of generation.
  8.  前記コンテキスト情報は、時間帯、場所、話者、同席者、及び場の雰囲気を示す情報のうち、少なくとも1つの情報を含む
     請求項5に記載の情報処理装置。
    The information processing apparatus according to claim 5, wherein the context information includes at least one piece of information indicating a time zone, a place, a speaker, an attendant, and an atmosphere of a place.
  9.  前記テキスト情報は、ユーザの発話に対する応答である
     請求項1に記載の情報処理装置。
    The information processing apparatus according to claim 1, wherein the text information is a response to an utterance of a user.
  10.  前記テキスト情報は、音声合成により読み上げられることを目的とした情報である
     請求項1に記載の情報処理装置。
    The information processing apparatus according to claim 1, wherein the text information is information intended to be read out by speech synthesis.
  11.  情報処理装置の情報処理方法において、
     前記情報処理装置が、
     入力されたテキスト情報を、七五調に変換して出力する
     情報処理方法。
    In an information processing method of an information processing apparatus,
    The information processing apparatus
    An information processing method that converts input text information into seventy-five tone and outputs it.
PCT/JP2018/030487 2017-08-31 2018-08-17 Information processing device and information processing method WO2019044534A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019539360A JPWO2019044534A1 (en) 2017-08-31 2018-08-17 Information processing device and information processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-166869 2017-08-31
JP2017166869 2017-08-31

Publications (1)

Publication Number Publication Date
WO2019044534A1 true WO2019044534A1 (en) 2019-03-07

Family

ID=65525571

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/030487 WO2019044534A1 (en) 2017-08-31 2018-08-17 Information processing device and information processing method

Country Status (2)

Country Link
JP (1) JPWO2019044534A1 (en)
WO (1) WO2019044534A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020155041A (en) * 2019-03-22 2020-09-24 emol株式会社 Information processor and program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07160709A (en) * 1993-12-03 1995-06-23 Nippon Telegr & Teleph Corp <Ntt> Natural-language sentence analyzer, sentence rhythm pattern selector, and sentence generator
JP2002041084A (en) * 2000-07-26 2002-02-08 Victor Co Of Japan Ltd Interactive speech processing system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07160709A (en) * 1993-12-03 1995-06-23 Nippon Telegr & Teleph Corp <Ntt> Natural-language sentence analyzer, sentence rhythm pattern selector, and sentence generator
JP2002041084A (en) * 2000-07-26 2002-02-08 Victor Co Of Japan Ltd Interactive speech processing system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020155041A (en) * 2019-03-22 2020-09-24 emol株式会社 Information processor and program
JP7011840B2 (en) 2019-03-22 2022-01-27 emol株式会社 Information processing equipment and programs

Also Published As

Publication number Publication date
JPWO2019044534A1 (en) 2020-11-19

Similar Documents

Publication Publication Date Title
EP3438972B1 (en) Information processing system and method for generating speech
JP6802005B2 (en) Speech recognition device, speech recognition method and speech recognition system
US20200279553A1 (en) Linguistic style matching agent
CN107077841B (en) Superstructure recurrent neural network for text-to-speech
Taylor Text-to-speech synthesis
US11308938B2 (en) Synthesizing speech recognition training data
US8027837B2 (en) Using non-speech sounds during text-to-speech synthesis
EP3832644B1 (en) Neural speech-to-meaning translation
KR20210103002A (en) Speech synthesis method and apparatus based on emotion information
Dhanjal et al. An automatic machine translation system for multi-lingual speech to Indian sign language
Wang et al. Computer-assisted audiovisual language learning
Delgado et al. Spoken, multilingual and multimodal dialogue systems: development and assessment
JP2024508033A (en) Instant learning of text-speech during dialogue
CN116917984A (en) Interactive content output
WO2019044534A1 (en) Information processing device and information processing method
KR102389153B1 (en) Method and device for providing voice responsive e-book
JP2005128711A (en) Emotional information estimation method, character animation creation method, program using the methods, storage medium, emotional information estimation apparatus, and character animation creation apparatus
Mittal et al. Speaker-independent automatic speech recognition system for mobile phone applications in Punjabi
WO2020110744A1 (en) Information processing device, information processing method, and program
Giyatmi et al. Word formation of messaging applications found in Play Store
TWI603259B (en) Animation synthesis system and mouth shape animation synthesis method
KR20190106011A (en) Dialogue system and dialogue method, computer program for executing the method
JP7244473B2 (en) LEARNING DEVICE, PREDICTION DEVICE, LEARNING METHOD AND LEARNING PROGRAM
US20230017892A1 (en) Injecting Text in Self-Supervised Speech Pre-training
Tunold Captioning for the DHH

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18850550

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019539360

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18850550

Country of ref document: EP

Kind code of ref document: A1