WO2020031292A1 - 音声aiモデル切替システム、音声aiモデル切替方法、及びプログラム - Google Patents

音声aiモデル切替システム、音声aiモデル切替方法、及びプログラム Download PDF

Info

Publication number
WO2020031292A1
WO2020031292A1 PCT/JP2018/029786 JP2018029786W WO2020031292A1 WO 2020031292 A1 WO2020031292 A1 WO 2020031292A1 JP 2018029786 W JP2018029786 W JP 2018029786W WO 2020031292 A1 WO2020031292 A1 WO 2020031292A1
Authority
WO
WIPO (PCT)
Prior art keywords
model
audio
voice
speaker
user
Prior art date
Application number
PCT/JP2018/029786
Other languages
English (en)
French (fr)
Inventor
将仁 谷口
Original Assignee
株式会社ウフル
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ウフル filed Critical 株式会社ウフル
Priority to PCT/JP2018/029786 priority Critical patent/WO2020031292A1/ja
Publication of WO2020031292A1 publication Critical patent/WO2020031292A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Definitions

  • the present invention relates to a sound AI model used by an AI (Artificial Intelligence) speaker, and is used in the field of IoT (Internet of Things).
  • AI Artificial Intelligence
  • IoT Internet of Things
  • Patent Literature 1 discloses a technique for making a voice dialogue with a user a natural content according to the user and effectively proceeding with the voice dialogue.
  • an object of the present invention is to change the tone and tone of the voice uttered by an AI speaker.
  • the present invention relates to a voice AI model switching system for switching from a cloud to an AI speaker to a voice AI model corresponding to a user's request for switching a voice AI model, wherein each person uses the AI speaker.
  • a presentation means for presenting a plurality of voice AI models responding with the voice or tone of each character; and a reception means for receiving a selection of a voice AI model from the user from the presented plurality of voice AI models;
  • First control means for controlling the AI speaker corresponding to the user to obtain the selected audio AI model from the cloud; and other control already applied to the AI speaker corresponding to the user. Control to switch from the audio AI model to the acquired audio AI model.
  • the presenting means may present the audio AI model according to a priority order for each of the plurality of audio AI models.
  • the selection of the audio AI model may be a selection based on a result of analyzing a user's voice input to the AI speaker.
  • the selection of the audio AI model may be a selection based on a result of analyzing an image of a user.
  • the selection of the audio AI model may be the selection of the audio AI model corresponding to the voiceprint of the audio input to the AI speaker based on a database in which the voiceprint of each user is associated with the audio AI model. Good.
  • the present invention is a voice AI model switching method for switching from a cloud to an AI speaker to a voice AI model corresponding to a user's request for switching a voice AI model, wherein the method is used for the AI speaker.
  • the present invention also provides a computer with a plurality of audio AI models that respond to the voice or tone of each person or each character for use with the AI speakers from the cloud to the AI speakers,
  • the tone and tone of the voice uttered by the AI speaker can be changed.
  • FIG. 2 is a diagram illustrating an example of a hardware configuration of an AI speaker.
  • FIG. 3 is a diagram illustrating an example of a hardware configuration of the audio AI model providing device.
  • FIG. 2 is a diagram illustrating a functional configuration of a voice AI model switching system.
  • FIG. 7 is a sequence diagram showing the flow of the operation of the audio AI model switching system.
  • FIG. 1 is a diagram showing a configuration of an audio AI (Artificial Intelligence) model switching system 1 according to the present embodiment.
  • the audio AI model switching system 1 includes an AI speaker 10, an audio AI model providing device 20, and a network 40 that connects these to enable communication.
  • the audio AI model switching system 1 functions as a system for switching from the cloud to the AI speaker 10 to an audio AI model corresponding to a user's request to switch the audio AI model.
  • the audio AI model switching system 1 may include a plurality of AI speakers 10, the audio AI model providing device 20, and the network 40.
  • the AI speaker 10 inputs a user's voice by a microphone or the like, utters a voice by a dynamic speaker, an electrostatic speaker, or the like according to a voice AI model for performing a dialogue according to the input voice, and further, if necessary, The user instructs a desired process to an external device (for example, various electric appliances) through a dialogue with the user.
  • the AI speaker 10 is also called, for example, a smart speaker or a home speaker.
  • the audio AI model providing device 20 is a cloud system that stores a plurality of audio AI models having different timbres or tone of utterances, and provides the audio AI models to the AI speaker 10 via the network 40.
  • the tone is the tone and feel of the voice.
  • the tone is a characteristic expressed in the tone of words when spoken, the way of saying things, the way of speaking out, the use of words, and the like.
  • the voice AI model includes algorithms related to voice recognition and voice interaction, and realizes voice-based interaction with the user.
  • the voice AI model is a model for interacting with various uttering voices or tones such as characters such as entertainers and athletes, animations, and characters of fictional creatures.
  • Various audio AI models are registered in the audio AI model providing device 20 by a vendor (not shown). These speech AI models are subjected to machine learning such as deep learning and data mining.
  • the network 40 is a communication line for communicably connecting the AI speaker 10 and the audio AI model providing device 20, and is, for example, the Internet.
  • FIG. 2 is a diagram illustrating an example of the configuration of the AI speaker 10.
  • the AI speaker 10 includes a control unit 101, a storage unit 102, a communication unit 103, an input unit 104, and an output unit 105.
  • the control unit 101 has a CPU (Central Processing Unit), a ROM (Read Only Memory), and a RAM (Random Access Memory), and the CPU reads a computer program (hereinafter simply referred to as a program) stored in the ROM and the storage unit 102. By executing this, each part of the AI speaker 10 is controlled.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the storage unit 102 is a large-capacity storage unit such as a solid-state drive or a hard disk drive, and stores various programs and data read by the CPU of the control unit 101.
  • the communication unit 103 is a communication circuit that connects to the network 40 by wire or wirelessly.
  • the AI speaker 10 exchanges information with the audio AI model providing device 20 connected to the network 40 by the communication unit 103.
  • the input unit 104 is a microphone or the like for inputting a voice, and sends a voice signal indicating the input voice to the control unit 101.
  • the output unit 105 is, for example, a dynamic speaker, an electrostatic speaker, or the like, and emits sound in accordance with a signal instructed by the control unit 101.
  • FIG. 3 is a diagram illustrating an example of a configuration of the audio AI model providing device 20.
  • the audio AI model providing device 20 includes a control unit 201, a storage unit 202, and a communication unit 203.
  • the control unit 201 has a CPU, a ROM, and a RAM, and the CPU reads and executes a computer program (hereinafter, simply referred to as a program) stored in the ROM and the storage unit 202 to execute each unit of the audio AI model providing apparatus 20. Control.
  • the storage unit 202 is a large-capacity storage unit such as a solid-state drive or a hard disk drive, and stores various programs and data read by the CPU of the control unit 201.
  • the storage unit 202 stores, for example, a voice AI model database (hereinafter, referred to as a DB) including a plurality of voice AI models.
  • a voice AI model database hereinafter, referred to as a DB
  • the communication unit 203 is a communication circuit that connects to the network 40 by wire or wirelessly.
  • the audio AI model providing device 20 exchanges information with the AI speaker 10 connected to the network 40 by the communication unit 203.
  • FIG. 4 is a diagram showing the audio AI model DB stored in the storage unit 202.
  • the name of the audio AI model is associated with the data identifier of the data file of the audio AI model.
  • the data identifier of the voice AI model for interacting with the voice and tone of the animation character "Son Goku" is "A001".
  • the data identifier of the voice AI model is “A002”.
  • the data identifier of the voice AI model for interacting with the voice and tone of “Kenji Aoki” who is a person (actor) is “A003”.
  • the data identifier of the voice AI model for interacting with the voice and tone of the person (idol) “Seiya Kimura” is “A004”. These speech AI models have been machine-learned based on dialogue with the user.
  • the audio AI model DB includes a data file of the audio AI model identified by these data identifiers.
  • FIG. 5 is a diagram illustrating a functional configuration of the audio AI model switching system 1.
  • the control unit 201 of the audio AI model providing apparatus 20 reads and executes the program stored in the storage unit 202, the audio AI model providing apparatus 20 registers the registration unit 21, the presentation unit 22, the reception unit 23, and the first The functions of the control means 24 and the second control means 25 are realized.
  • the registration unit 21 receives registration of a sound AI model having a different tone or tone from the AI speaker 10.
  • the presentation unit 22 presents a plurality of audio AI models that respond with the tone or tone of each person or each character to be used by the AI speaker 10.
  • the receiving unit 23 receives a selection of a voice AI model from a plurality of presented voice AI models from the user.
  • the first control unit 24 controls the AI speaker 10 corresponding to the user to acquire the selected audio AI model from the cloud.
  • the second control unit 25 controls the AI speaker 10 corresponding to the user to switch from another audio AI model already applied to the acquired audio AI model.
  • FIG. 6 is a sequence chart showing the operation flow of the audio AI model switching system 1.
  • the registration unit 21 of the audio AI model providing device 20 accepts registration of an audio AI model from a vendor (step S10). Specifically, when the audio AI model input to the communication device of the vendor (not shown) is transmitted to the audio AI model providing device 20 via the network 40, the registration unit 21 stores the received audio AI model in the storage unit. 202 is stored in the audio AI model DB.
  • the audio AI model includes the name of the audio AI model, and the registration unit 21 stores the name of the audio AI model in the audio AI model DB in association with the audio AI model and its data identifier.
  • the presenting unit 22 causes a plurality of audio AI models responding with the tone or tone of each person or each character to be used by the AI speaker 10 (step S11). Specifically, the presentation unit 22 causes the AI speaker to output the names of the audio AI models included in the audio AI model DB in order. If the user can use a display device (for example, a smart phone) that can be connected to the audio AI model providing device 20 by communication, the presentation unit 22 displays the name of the audio AI model included in the audio AI model DB on the display device. Send and display in list format.
  • a display device for example, a smart phone
  • the accepting unit 23 of the audio AI model providing device 20 accepts the selection (step S13). For example, when the user says “in the voice of Son Goku”, the AI speaker 10 recognizes the speech and transmits a speech recognition result including the name of the speech AI model “Son Goku” to the speech AI model providing device 20.
  • the accepting unit 23 specifies the selected audio AI model from the plurality of registered audio AI models. Specifically, the reception unit 23 compares the speech recognition result transmitted from the AI speaker 10 with the name of the speech AI model in the speech AI model DB. In the above example, the accepting unit 23 specifies the name of the audio AI model “Son Goku”, and specifies the audio AI model and its data identifier.
  • the first control means 24 of the audio AI model providing device 20 controls the AI speaker 10 to acquire the selected audio AI model from the cloud (step S14). That is, in response to a request from the AI speaker 10, the first control unit 24 reads out the audio AI model “Son Goku” from the audio AI model DB using the data identifier as a key, and transmits it to the AI speaker 10.
  • the second control means 25 of the audio AI model providing device 20 switches the AI speaker 10 corresponding to the user from another already applied audio AI model to the acquired audio AI model. Control is performed (step S15). That is, the second control unit 25 instructs to switch to the audio AI model transmitted to the AI speaker 10.
  • the AI speaker 10 sets the received audio AI model “Son Goku” as the audio AI model to be used instead of the other audio AI model already applied (step S16), and the audio AI model A dialogue with the user is started according to the model (step S17). This allows the user to interact with, for example, the voice and tone of the animation character “Son Goku” as the other party.
  • the above embodiment it is possible to change the tone and tone of the voice uttered by the AI speaker 10 to those desired by the user.
  • a voice AI model is prepared in the cloud and a voice AI model desired by the user is applied each time, there is an advantage that the limit number of voice AI models does not depend on the performance of an AI speaker as an edge device. .
  • the accepting unit 23 selects one of the plurality of audio AI models. For example, the reception unit 23 determines a priority order for each of the plurality of registered audio AI models, presents the audio AI model to the user according to the determined priority order, and sets the audio AI model designated by the user. May be selected.
  • the priorities are classified, for example, by classifying each audio AI model according to the interests and preferences of the user, and assigning the voice AI model having a tone or tone that matches the interests and preferences of a certain user to a higher order for the user. It may be one that has been made.
  • the priorities may be such that each user can assign an evaluation point to each audio AI model after use, and the audio AI model having a higher evaluation point has a higher priority. Good.
  • the accepting unit 23 may select an audio AI model based on the result of analyzing the user's audio input to the AI speaker 10. For example, the reception unit 23 analyzes the voice of the user input to the AI speaker 10 and specifies the tone or tone of the voice. On the other hand, for each audio AI model, the voice color or tone of the user assumed to use the audio AI model is determined in advance and stored in the audio AI model DB. The accepting unit 23 selects a voice AI model corresponding to the tone or tone of the voice obtained by analyzing the voice of the user input to the AI speaker 10. For example, the reception unit 23 analyzes the voice of the user input to the AI speaker 10 and specifies the emotion of the user.
  • the emotion of the user assumed to use the audio AI model is determined in advance and stored in the audio AI model DB.
  • the accepting unit 23 selects a voice AI model corresponding to an emotion obtained by analyzing the voice of the user input to the AI speaker 10. This selection corresponds to the user selecting a voice AI model from a plurality of presented voice AI models.
  • the reception unit 23 may select the audio AI model based on the result of analyzing the image of the user. For example, the reception unit 23 captures an image of the user who has input the voice to the AI speaker 10 with a camera or the like, analyzes the image, and specifies the emotion from the facial expression of the user. On the other hand, for each audio AI model, the emotion of the user assumed to use the audio AI model is determined in advance and stored in the audio AI model DB. The receiving unit 23 selects a voice AI model corresponding to the emotion obtained by analyzing the image of the user.
  • the reception unit 23 captures an image of the user who has input the voice to the AI speaker 10 with a camera or the like, analyzes the image, and specifies attributes (sex, age, etc.) of the user.
  • the attributes (sex, age, etc.) of the user assumed to use the audio AI model are determined in advance and stored in the audio AI model DB.
  • the receiving unit 23 selects a voice AI model corresponding to the emotion obtained by analyzing the image of the user. This selection corresponds to the user selecting a voice AI model from a plurality of presented voice AI models.
  • the audio AI model providing device 20 may select the audio AI model based on time or position. For example, for each audio AI model, a time or position suitable for assuming that the audio AI model is used is stored in advance in the audio AI model DB. The audio AI model providing device 20 selects an audio AI model corresponding to the time or position at which the dialogue starts. This time is specified by a time measuring device such as a timer. The position is specified by a positioning device such as a GPS unit.
  • the receiving unit 23 may select a voice AI model corresponding to the voiceprint of the input voice by referring to a database in which the voiceprint of each user is associated with the voice AI model. For example, the reception unit 23 analyzes the voice of the user input to the AI speaker 10 and specifies the voice print. On the other hand, for each voice AI model, a voiceprint of the voice of the user determined to use the voice AI model is determined in advance and stored in the voice AI model DB. The accepting unit 23 selects a voice AI model corresponding to a voiceprint obtained by analyzing the user's voice input to the AI speaker 10. This selection corresponds to the user selecting a voice AI model from a plurality of presented voice AI models.
  • ⁇ Modification 6> part of the functional configuration illustrated in FIG. 5 may be omitted, or another function may be added.
  • the function shown in FIG. 5 may be implemented by any device belonging to the audio AI model switching system 1. Also, a group of computer devices physically consisting of a plurality of devices may cooperate to implement functions equivalent to those shown in FIG.
  • the processing performed in the audio AI model switching system can be thought of as an audio AI model switching method. That is, the present invention is a voice AI model switching method for switching from a cloud to an AI speaker to a voice AI model corresponding to a user's request for switching a voice AI model, the method being used for the AI speaker.
  • Switch from the other audio AI model to the acquired audio AI model may be provided as a method and a second control step of performing control to. Note that the steps of the processing performed in the audio AI model switching system 1 are not limited to the example described in the above embodiment. The steps of this process may be interchanged as long as there is no inconsistency.
  • the program executed by the control unit 101 of the AI speaker 10 is a computer-readable recording medium such as a magnetic recording medium such as a magnetic tape and a magnetic disk, an optical recording medium such as an optical disk, a magneto-optical recording medium, and a semiconductor memory. May be provided in a state stored therein. Further, the program may be downloaded via a communication line such as the Internet.
  • Various devices other than the CPU may be applied as the control means exemplified by the control unit 101 described above. For example, a dedicated processor or the like is used.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

例えばユーザが「孫悟空の声で」というと、AIスピーカー10はその音声を認識し、「孫悟空」という音声AIモデルの呼称を含む音声認識結果を音声AIモデル提供装置20に送信する。受付手段23は、登録された複数の音声AIモデルのうち、選択された音声AIモデルを特定する。具体的には、受付手段23は、AIスピーカー10から送信されてくる音声認識結果と音声AIモデルDB内の音声AIモデルの呼称とを比較する。上記の例では、受付手段23は、「孫悟空」という音声AIモデルの呼称を特定し、その音声AIモデル及びそのデータ識別子を特定する。

Description

音声AIモデル切替システム、音声AIモデル切替方法、及びプログラム
 本発明は、AI(ArtificialIntelligence)スピーカーが用いる音声AIモデルに関し、IoT(Internet of Things)の分野で利用される。
 ユーザの音声による指示を受け付けてユーザが望む動作を行うAIスピーカーが開発されている。特許文献1には、ユーザと音声対話を行うに際して、その音声対話をそのユーザに応じた自然な内容にし、効果的に対話を進めるための技術が開示されている。
特開2004-021121号公報
 AIスピーカーの普及に伴い、ユーザが望むあらゆるサービスがAIスピーカーシステムによって実現されることが期待されている。例えば、AIスピーカーが発声する音声の声色や口調等が様々な状況に応じて変化すれば、ユーザがAIスピーカーと対話するときの面白みが増すことになる。
 そこで、本発明の目的は、AIスピーカーが発声する音声の声色や口調を変化させることにある。
 本発明は、クラウドからAIスピーカーに対して、ユーザからの音声AIモデルの切り替えの要望に対応する音声AIモデルに切り替える音声AIモデル切替システムであって、前記AIスピーカーで使用するための、各人物または各キャラクターの声色又は口調で応答する複数の音声AIモデルを提示させる提示手段と、前記提示された複数の音声AIモデルの中から、音声AIモデルの選択を前記ユーザから受け付ける受付手段と、前記ユーザに対応するAIスピーカーに対して、前記選択された音声AIモデルをクラウドから取得させるように制御を行う第1制御手段と、前記ユーザに対応するAIスピーカーに対して、既に適用されている他の音声AIモデルから、前記取得された音声AIモデルに切り替えるように制御を行う第2制御手段とを備える音声AIモデル切替システムを提供する。
 前記提示手段は、前記複数の音声AIモデルの各々に対する優先順位に応じて前記音声AIモデルを提示させるようにしてもよい。
 前記音声AIモデルの選択は、前記AIスピーカーに入力されたユーザの音声を解析した結果に基づく選択であってもよい。
 前記音声AIモデルの選択は、ユーザを撮像した画像を解析した結果に基づく選択であってもよい。
 前記音声AIモデルの選択は、それぞれのユーザの声紋と前記音声AIモデルとを対応付けたデータベースに基づく、前記AIスピーカーに入力された音声の声紋に対応する前記音声AIモデルの選択であってもよい。
 また、本発明は、クラウドからAIスピーカーに対して、ユーザからの音声AIモデルの切り替えの要望に対応する音声AIモデルに切り替える音声AIモデル切替方法であって、前記AIスピーカーで使用するための、各人物または各キャラクターの声色又は口調で応答する複数の音声AIモデルを提示させる提示ステップと、前記提示された複数の音声AIモデルの中から、音声AIモデルの選択を前記ユーザから受け付ける受付ステップと、前記ユーザに対応するAIスピーカーに対して、前記選択された音声AIモデルをクラウドから取得させるように制御を行う第1制御ステップと、前記ユーザに対応するAIスピーカーに対して、既に適用されている他の音声AIモデルから、前記取得された音声AIモデルに切り替えるように制御を行う第2制御ステップとを備える音声AIモデル切替方法を提供する。
 また、本発明は、コンピュータに、クラウドからAIスピーカーに対して、当該AIスピーカーで使用するための、各人物または各キャラクターの声色又は口調で応答する複数の音声AIモデルを提示させる提示ステップと、前記提示された複数の音声AIモデルの中から、音声AIモデルの選択を前記ユーザから受け付ける受付ステップと、クラウドから前記ユーザに対応するAIスピーカーに対して、前記選択された音声AIモデルをクラウドから取得させるように制御を行う第1制御ステップと、クラウドから前記ユーザに対応するAIスピーカーに対して、既に適用されている他の音声AIモデルから、前記取得された音声AIモデルに切り替えるように制御を行う第2制御ステップとを実行させるためのプログラムを提供する。
 本発明によれば、AIスピーカーが発声する音声の声色や口調を変化させることができる。
本実施形態に係る音声AIモデル切替システムの構成を示す図。 AIスピーカーのハードウェア構成の一例を示す図。 音声AIモデル提供装置のハードウェア構成の一例を示す図。 音声AIモデルDBの一例を示す図。 音声AIモデル切替システムの機能構成を示す図。 音声AIモデル切替システムの動作の流れを示すシーケンス図。
1…音声AIモデル切替システム、10…AIスピーカー、101…制御部、102…記憶部、103…通信部、104…入力部、105…出力部、20…音声AIモデル提供装置、201…制御部、202…記憶部、203…通信部、11…取得手段、21…登録手段、12,22…選択手段、13,23…切替手段、14…発声手段
、13…発声手段
<実施形態>
<音声AIモデル切替システムの全体構成>
 図1は、本実施形態に係る音声AI(Artificial Intelligence)モデル切替システム1の構成を示す図である。音声AIモデル切替システム1は、AIスピーカー10と、音声AIモデル提供装置20と、これらを通信可能に接続するネットワーク40とを有する。音声AIモデル切替システム1は、クラウドからAIスピーカー10に対して、ユーザからの音声AIモデルの切り替えの要望に対応する音声AIモデルに切り替えるシステムとして機能する。この音声AIモデル切替システム1は、AIスピーカー10、音声AIモデル提供装置20及びネットワーク40のそれぞれを複数有してもよい。
 AIスピーカー10は、マイクロフォン等によってユーザの音声を入力し、その入力音声に応じた対話を行うための音声AIモデルに従ってダイナミックスピーカーや静電スピーカー等によって音声を発声し、さらに必要に応じて、ユーザとの対話を通じてそのユーザが所望する処理を外部装置(例えば各種の電化製品)等に指示する。AIスピーカー10は、例えばスマートスピーカーとかホームスピーカーとも呼ばれる。
 音声AIモデル提供装置20は、発声の声色又は口調が異なる複数の音声AIモデルを蓄積し、ネットワーク40を介してAIスピーカー10に音声AIモデルを提供するクラウドシステムである。声色とは、声の調子や感じである。口調とは、口に出したときの言葉の調子や、ものの言い方の様子或いは声の出し方や言葉の使い方などに表れた特徴である。音声AIモデルは、音声認識や音声対話に関するアルゴリズムを含み、音声によるユーザとの対話を実現する。この音声AIモデルは、例えば芸能人やスポーツ選手等の人物やアニメや架空生物のキャラクターといった、様々な発話主体の声色又は口調の音声で対話するためのモデルである。これらの音声AIモデルとして様々なものが、図示せぬベンダーによって音声AIモデル提供装置20に登録される。これらの音声AIモデルは、ディープラーニングやデータマイニング等の機械学習がなされている。
 ネットワーク40は、AIスピーカー10及び音声AIモデル提供装置20を通信可能に接続する通信回線であり、例えばインターネット等である。
<AIスピーカーの構成>
 図2は、AIスピーカー10の構成の一例を示す図である。AIスピーカー10は、制御部101、記憶部102、通信部103、入力部104及び出力部105を有する。
 制御部101は、CPU(CentralProcessing Unit)、ROM(Read OnlyMemory)、RAM(Random AccessMemory)を有し、CPUがROM及び記憶部102に記憶されているコンピュータプログラム(以下、単にプログラムという)を読み出して実行することによりAIスピーカー10の各部を制御する。
 記憶部102は、例えばソリッドステートドライブやハードディスクドライブ等の大容量の記憶手段であり、制御部101のCPUに読み込まれる各種のプログラムやデータ等を記憶する。
 通信部103は、有線又は無線によりネットワーク40に接続する通信回路である。AIスピーカー10は、通信部103によりネットワーク40に接続された音声AIモデル提供装置20と情報をやり取りする。
 入力部104は、音声を入力するマイクロフォン等であり、入力した音声を示す音声信号を制御部101に送る。
 出力部105は、例えばダイナミックスピーカーや静電スピーカー等であり、制御部101により指示された信号に応じて放音する。
<音声AIモデル提供装置の構成>
 図3は、音声AIモデル提供装置20の構成の一例を示す図である。音声AIモデル提供装置20は、制御部201、記憶部202及び通信部203を有する。
 制御部201は、CPU、ROM、RAMを有し、CPUがROM及び記憶部202に記憶されているコンピュータプログラム(以下、単にプログラムという)を読み出して実行することにより音声AIモデル提供装置20の各部を制御する。
 記憶部202は、例えばソリッドステートドライブやハードディスクドライブ等の大容量の記憶手段であり、制御部201のCPUに読み込まれる各種のプログラムやデータ等を記憶する。この、記憶部202は、例えば複数の音声AIモデルを含む音声AIモデルデータベース(以下、データベースをDBという)を記憶する。
 通信部203は、有線又は無線によりネットワーク40に接続する通信回路である。音声AIモデル提供装置20は、通信部203によりネットワーク40に接続されたAIスピーカー10と情報をやり取りする。
 図4は、記憶部202に記憶されている音声AIモデルDBを示す図である。音声AIモデルDBにおいては、音声AIモデルの呼称と、その音声AIモデルのデータファイルのデータ識別子とが対応付けられている。例えばアニメキャラクターである「孫悟空」の声色及び口調の音声で対話するための音声AIモデルのデータ識別子は「A001」であり、例えばアニメキャラクターである「アンパンマン」の声色及び口調の音声で対話するための音声AIモデルのデータ識別子は「A002」であり、例えば人物(俳優)である「青木健二」の声色及び口調の音声で対話するための音声AIモデルのデータ識別子は「A003」であり、例えば人物(アイドル)である「木村誠也」の声色及び口調の音声で対話するための音声AIモデルのデータ識別子は「A004」である。これらの音声AIモデルは、ユーザとの対話に基づく機械学習が実施されたものである。音声AIモデルDBはこれらのデータ識別子によって識別される音声AIモデルのデータファイルを含んでいる。
<音声AIモデル切替システムの機能的構成>
 図5は、音声AIモデル切替システム1の機能的構成を示す図である。音声AIモデル提供装置20の制御部201が記憶部202に記憶されているプログラムを読み出して実行することにより、音声AIモデル提供装置20は、登録手段21、提示手段22、受付手段23、第1制御手段24及び第2制御手段25という機能を実現する。
 登録手段21は、AIスピーカー10における発声の声色又は口調が異なる音声AIモデルの登録を受け付ける。
 提示手段22は、AIスピーカー10で使用するための、各人物または各キャラクターの声色又は口調で応答する複数の音声AIモデルを提示させる。
 受付手段23は、提示された複数の音声AIモデルの中から、音声AIモデルの選択をユーザから受け付ける。
 第1制御手段24は、ユーザに対応するAIスピーカー10に対して、選択された音声AIモデルをクラウドから取得させるように制御を行う。
 第2制御手段25は、ユーザに対応するAIスピーカー10に対して、既に適用されている他の音声AIモデルから、取得された音声AIモデルに切り替えるように制御を行う。
<音声AIモデル切替システムの動作>
 図6は、音声AIモデル切替システム1の動作の流れを示すシーケンスチャートである。まず、音声AIモデル提供装置20の登録手段21は、ベンダーから音声AIモデルの登録を受け付ける(ステップS10)。具体的には、図示せぬベンダーの通信装置に入力された音声AIモデルがネットワーク40経由で音声AIモデル提供装置20に送信されてくると、登録手段21は、受信した音声AIモデルを記憶部202の音声AIモデルDBに格納する。この音声AIモデルには音声AIモデルの呼称が含まれており、登録手段21は、音声AIモデルの呼称を、音声AIモデル及びそのデータ識別子に対応付けて音声AIモデルDBに格納する。
 次に、提示手段22は、AIスピーカー10で使用するための、各人物または各キャラクターの声色又は口調で応答する複数の音声AIモデルを提示させる(ステップS11)。具体的には、提示手段22は、音声AIモデルDBに含まれる音声AIモデルの呼称を順番にAIスピーカーから音声出力させる。また、ユーザが音声AIモデル提供装置20に通信接続可能な表示装置(例えばスマートホン)を利用可能な場合は、提示手段22は、音声AIモデルDBに含まれる音声AIモデルの呼称を表示装置に送信してリスト形式で表示させる。
 AIスピーカー10において、ユーザが音声AIモデルを選択すると(ステップS12)、音声AIモデル提供装置20の受付手段23はその選択を受け付ける(ステップS13)。例えばユーザが「孫悟空の声で」というと、AIスピーカー10はその音声を認識し、「孫悟空」という音声AIモデルの呼称を含む音声認識結果を音声AIモデル提供装置20に送信する。受付手段23は、登録された複数の音声AIモデルのうち、選択された音声AIモデルを特定する。具体的には、受付手段23は、AIスピーカー10から送信されてくる音声認識結果と音声AIモデルDB内の音声AIモデルの呼称とを比較する。上記の例では、受付手段23は、「孫悟空」という音声AIモデルの呼称を特定し、その音声AIモデル及びそのデータ識別子を特定する。
 次に、音声AIモデル提供装置20の第1制御手段24は、AIスピーカー10において、選択された音声AIモデルをクラウドから取得させるように制御を行う(ステップS14)。つまり、第1制御手段24は、AIスピーカー10からの要求に応じて、「孫悟空」という音声AIモデルをそのデータ識別子をキーにして音声AIモデルDBから読み出してAIスピーカー10に送信する。
 次に、音声AIモデル提供装置20の第2制御手段25は、ユーザに対応するAIスピーカー10に対して、既に適用されている他の音声AIモデルから、取得された音声AIモデルに切り替えるように制御を行う(ステップS15)。つまり、第2制御手段25は、AIスピーカー10に送信した音声AIモデルに切り替えるよう指示する。AIスピーカー10は、その指示に従い、既に適用されている他の音声AIモデルに代えて、受信した「孫悟空」という音声AIモデルを、使用する音声AIモデルに設定し(ステップS16)、その音声AIモデルに従いユーザとの対話を開始する(ステップS17)。これにより、ユーザは、例えばアニメキャラクターである「孫悟空」の声色及び口調の音声を相手方として対話することができる。
 以上の実施形態によれば、AIスピーカー10が発声する音声の声色や口調をユーザの好みのものに変化させることが可能となる。また、クラウドにて音声AIモデルを用意しておき、都度、ユーザが所望する音声AIモデルを適用するので、音声AIモデルの限界個数はエッジデバイスであるAIスピーカーの性能に依存しないという利点がある。
<変形例>
 以上が実施形態の説明であるが、この実施形態の内容は以下のように変形し得る。また、以下の変形例を組合せてもよい。
<変形例1>
 受付手段23が複数の音声AIモデルのうちいずれかを選択するときの方法は幾つかのものが考えられる。例えば、受付手段23は、登録された複数の音声AIモデルの各々に対して優先順位を決定し、決定した優先順位に応じて音声AIモデルをユーザに提示し、ユーザによって指定された音声AIモデルを選択するようにしてもよい。その優先順位は、例えば各音声AIモデルをユーザの興味や嗜好に応じて分類しておき、或るユーザの興味や嗜好に合った声色又は口調の音声AIモデルをそのユーザに対してより高い順位にしたものであってもよい。また、その優先順位は、例えば各音声AIモデルに対して各ユーザが使用後に評価点を付与し得るようにしておき、その評価点が高い音声AIモデルをより高い順位にしたものであってもよい。
<変形例2>
 受付手段23は、AIスピーカー10に入力されたユーザの音声を解析した結果に基づいて音声AIモデルを選択するようにしてもよい。例えば、受付手段23は、AIスピーカー10に入力されたユーザの音声を解析して、その音声の声色又は口調を特定する。一方、各音声AIモデルに対しては、その音声AIモデルを利用すると想定されているユーザの声色又は口調が予め決められて音声AIモデルDBに格納されている。受付手段23は、AIスピーカー10に入力されたユーザの音声を解析して得られたその音声の声色又は口調に対応する音声AIモデルを選択する。例えば、受付手段23は、AIスピーカー10に入力されたユーザの音声を解析して、そのユーザの感情を特定する。一方、各音声AIモデルに対しては、その音声AIモデルを利用すると想定されているユーザの感情が予め決められて音声AIモデルDBに格納されている。受付手段23は、AIスピーカー10に入力されたユーザの音声を解析して得られた感情に対応する音声AIモデルを選択する。この選択は、提示された複数の音声AIモデルの中からユーザが音声AIモデルを選択することに相当する。
<変形例3>
 受付手段23は、ユーザを撮像した画像を解析した結果に基づいて音声AIモデルを選択するようにしてもよい。例えば、受付手段23は、AIスピーカー10に音声を入力したユーザの画像をカメラ等で撮像してこれを解析し、そのユーザの顔の表情等から感情を特定する。一方、各音声AIモデルに対しては、その音声AIモデルを利用すると想定されているユーザの感情が予め決められて音声AIモデルDBに格納されている。受付手段23は、ユーザの画像を解析して得られた感情に対応する音声AIモデルを選択する。また、例えば、受付手段23は、AIスピーカー10に音声を入力したユーザの画像をカメラ等で撮像してこれを解析し、そのユーザの属性(性別、年齢等)を特定する。一方、各音声AIモデルに対しては、その音声AIモデルを利用すると想定されているユーザの属性(性別、年齢等)が予め決められて音声AIモデルDBに格納されている。受付手段23は、ユーザの画像を解析して得られた感情に対応する音声AIモデルを選択する。この選択は、提示された複数の音声AIモデルの中からユーザが音声AIモデルを選択することに相当する。
<変形例4>
 音声AIモデル提供装置20は、時間又は位置に基づいて音声AIモデルを選択するようにしてもよい。例えば、各音声AIモデルに対しては、その音声AIモデルを利用すると想定されているのに適した時間又は位置が予め決められて音声AIモデルDBに格納されている。音声AIモデル提供装置20は、対話を開始するときの時間又は位置に対応する音声AIモデルを選択する。この時間は例えばタイマ等の計時装置により特定される。また、位置は例えばGPSユニット等の測位装置により特定される。
<変形例5>
 受付手段23は、それぞれのユーザの声紋と音声AIモデルとを対応付けたデータベースを参照し、入力された音声の声紋に対応する音声AIモデルを選択するようにしてもよい。例えば、受付手段23は、AIスピーカー10に入力されたユーザの音声を解析して、その声紋を特定する。一方、各音声AIモデルに対しては、その音声AIモデルを利用すると決められているユーザの音声の声紋が予め決められて音声AIモデルDBに格納されている。受付手段23は、AIスピーカー10に入力されたユーザの音声を解析して得られた声紋に対応する音声AIモデルを選択する。この選択は、提示された複数の音声AIモデルの中からユーザが音声AIモデルを選択することに相当する。
<変形例6>
 例えば図5で例示した機能構成の一部は省略されてもよいし、さらに別の機能が追加されてもよい。図5に示した機能は、音声AIモデル切替システム1に属するいずれかの装置が実装していればよい。また、物理的に複数の装置からなるコンピュータ装置群が連携して、図5に示したのと同等の機能を実装してもよい。
<変形例7>
 音声AIモデル切替システムにおいて実行される処理は、音声AIモデル切替方法として観念され得る。すなわち、本発明は、クラウドからAIスピーカーに対して、ユーザからの音声AIモデルの切り替えの要望に対応する音声AIモデルに切り替える音声AIモデル切替方法であって、前記AIスピーカーで使用するための、各人物または各キャラクターの声色又は口調で応答する複数の音声AIモデルを提示させる提示ステップと、前記提示された複数の音声AIモデルの中から、音声AIモデルの選択を前記ユーザから受け付ける受付ステップと、前記ユーザに対応するAIスピーカーに対して、前記選択された音声AIモデルをクラウドから取得させるように制御を行う第1制御ステップと、前記ユーザに対応するAIスピーカーに対して、既に適用されている他の音声AIモデルから、前記取得された音声AIモデルに切り替えるように制御を行う第2制御ステップとを備える方法として提供されてもよい。なお、音声AIモデル切替システム1において行われる処理のステップは、上述した実施形態で説明した例に限定されない。この処理のステップは、矛盾のない限り、入れ替えられてもよい。
<変形例8>
 AIスピーカー10の制御部101によって実行されるプログラムは、磁気テープ及び磁気ディスク等の磁気記録媒体、光ディスク等の光記録媒体、光磁気記録媒体、半導体メモリ等の、コンピュータ装置が読取り可能な記録媒体に記憶された状態で提供し得る。また、このプログラムを、インターネット等の通信回線経由でダウンロードさせてもよい。なお、上述した制御部101によって例示した制御手段としてはCPU以外にも種々の装置が適用される場合があり、例えば、専用のプロセッサ等が用いられる。

Claims (7)

  1.  クラウドからAIスピーカーに対して、ユーザからの音声AIモデルの切り替えの要望に対応する音声AIモデルに切り替える音声AIモデル切替システムであって、
     前記AIスピーカーで使用するための、各人物または各キャラクターの声色又は口調で応答する複数の音声AIモデルを提示させる提示手段と、
     前記提示された複数の音声AIモデルの中から、音声AIモデルの選択を前記ユーザから受け付ける受付手段と、
     前記ユーザに対応するAIスピーカーに対して、前記選択された音声AIモデルをクラウドから取得させるように制御を行う第1制御手段と、
     前記ユーザに対応するAIスピーカーに対して、既に適用されている他の音声AIモデルから、前記取得された音声AIモデルに切り替えるように制御を行う第2制御手段と
     を備える音声AIモデル切替システム。
  2.  前記提示手段は、前記複数の音声AIモデルの各々に対する優先順位に応じて前記音声AIモデルを提示させる
     請求項1記載の音声AIモデル切替システム。
  3.  前記音声AIモデルの選択は、前記AIスピーカーに入力されたユーザの音声を解析した結果に基づく選択である
     ことを特徴とする請求項1記載の音声AIモデル切替システム。
  4.  前記音声AIモデルの選択は、ユーザを撮像した画像を解析した結果に基づく選択である
     ことを特徴とする請求項1記載の音声AIモデル切替システム。
  5.  前記音声AIモデルの選択は、それぞれのユーザの声紋と前記音声AIモデルとを対応付けたデータベースに基づく、前記AIスピーカーに入力された音声の声紋に対応する前記音声AIモデルの選択である
     ことを特徴とする請求項1に記載の音声AIモデル切替システム。
  6.  クラウドからAIスピーカーに対して、ユーザからの音声AIモデルの切り替えの要望に対応する音声AIモデルに切り替える音声AIモデル切替方法であって、
     前記AIスピーカーで使用するための、各人物または各キャラクターの声色又は口調で応答する複数の音声AIモデルを提示させる提示ステップと、
     前記提示された複数の音声AIモデルの中から、音声AIモデルの選択を前記ユーザから受け付ける受付ステップと、
     前記ユーザに対応するAIスピーカーに対して、前記選択された音声AIモデルをクラウドから取得させるように制御を行う第1制御ステップと、
     前記ユーザに対応するAIスピーカーに対して、既に適用されている他の音声AIモデルから、前記取得された音声AIモデルに切り替えるように制御を行う第2制御ステップと
     を備える音声AIモデル切替方法。
  7.  コンピュータに、
     クラウドからAIスピーカーに対して、当該AIスピーカーで使用するための、各人物または各キャラクターの声色又は口調で応答する複数の音声AIモデルを提示させる提示ステップと、
     前記提示された複数の音声AIモデルの中から、音声AIモデルの選択を前記ユーザから受け付ける受付ステップと、
     クラウドから前記ユーザに対応するAIスピーカーに対して、前記選択された音声AIモデルをクラウドから取得させるように制御を行う第1制御ステップと、
     クラウドから前記ユーザに対応するAIスピーカーに対して、既に適用されている他の音声AIモデルから、前記取得された音声AIモデルに切り替えるように制御を行う第2制御ステップと
     を実行させるためのプログラム。
PCT/JP2018/029786 2018-08-08 2018-08-08 音声aiモデル切替システム、音声aiモデル切替方法、及びプログラム WO2020031292A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/029786 WO2020031292A1 (ja) 2018-08-08 2018-08-08 音声aiモデル切替システム、音声aiモデル切替方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/029786 WO2020031292A1 (ja) 2018-08-08 2018-08-08 音声aiモデル切替システム、音声aiモデル切替方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2020031292A1 true WO2020031292A1 (ja) 2020-02-13

Family

ID=69414056

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/029786 WO2020031292A1 (ja) 2018-08-08 2018-08-08 音声aiモデル切替システム、音声aiモデル切替方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2020031292A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022538702A (ja) * 2020-05-27 2022-09-06 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 音声パケット推薦方法、装置、電子機器およびプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108362A (ja) * 2001-07-23 2003-04-11 Matsushita Electric Works Ltd コミュニケーション支援装置およびコミュニケーション支援システム
JP2005147925A (ja) * 2003-11-18 2005-06-09 Hitachi Ltd 車載端末装置および車両向け情報提示方法
WO2015040751A1 (ja) * 2013-09-20 2015-03-26 株式会社東芝 音声選択支援装置、音声選択方法、およびプログラム
JP2018036397A (ja) * 2016-08-30 2018-03-08 シャープ株式会社 応答システムおよび機器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108362A (ja) * 2001-07-23 2003-04-11 Matsushita Electric Works Ltd コミュニケーション支援装置およびコミュニケーション支援システム
JP2005147925A (ja) * 2003-11-18 2005-06-09 Hitachi Ltd 車載端末装置および車両向け情報提示方法
WO2015040751A1 (ja) * 2013-09-20 2015-03-26 株式会社東芝 音声選択支援装置、音声選択方法、およびプログラム
JP2018036397A (ja) * 2016-08-30 2018-03-08 シャープ株式会社 応答システムおよび機器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"List of Amazon Echo (Alexa) skills by genre! Introducing recommended and useful skills", TECHS LIFE, 8 December 2017 (2017-12-08), XP055684544, Retrieved from the Internet <URL:https://freelifetech.com/amazon-echo-alexa-skills-recommendation> [retrieved on 20180911] *
ANONYMOUS: "Amazon's Latest Smart Speaker that Uses AI to Communicate All Kinds of Information in Audio and Display Formats", REVIEW OF ''AMAZON ECHO SPOT, 11 September 2018 (2018-09-11), XP055684543, Retrieved from the Internet <URL:https://gigazine.net/news/20180801-amazon-echo-spot> *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022538702A (ja) * 2020-05-27 2022-09-06 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 音声パケット推薦方法、装置、電子機器およびプログラム
JP7240505B2 (ja) 2020-05-27 2023-03-15 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 音声パケット推薦方法、装置、電子機器およびプログラム

Similar Documents

Publication Publication Date Title
US11915707B1 (en) Outcome-oriented dialogs on a speech recognition platform
US11468889B1 (en) Speech recognition services
US11468885B2 (en) System and method for conversational agent via adaptive caching of dialogue tree
JP6084654B2 (ja) 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法
US11682393B2 (en) Method and system for context association and personalization using a wake-word in virtual personal assistants
CN105940446B (zh) 机器与人类的对话方法、计算机存储介质和仿人机器人
CN107748500A (zh) 用于控制智能设备的方法和装置
JPWO2017200072A1 (ja) 対話方法、対話システム、対話装置、およびプログラム
US11600266B2 (en) Network-based learning models for natural language processing
JP6904361B2 (ja) 情報処理装置、及び情報処理方法
JP6166889B2 (ja) 対話支援装置、対話システム、対話支援方法及びプログラム
JP2018171683A (ja) ロボットの制御プログラム、ロボット装置、及びロボットの制御方法
CN111587413A (zh) 信息处理装置、信息处理系统、信息处理方法和程序
CN111933135A (zh) 终端控制方法、装置、智能终端及计算机可读存储介质
WO2020031292A1 (ja) 音声aiモデル切替システム、音声aiモデル切替方法、及びプログラム
US10140981B1 (en) Dynamic arc weights in speech recognition models
CN110524547B (zh) 会话装置、机器人、会话装置控制方法以及存储介质
CN110660393A (zh) 语音交互方法、装置、设备及存储介质
KR20210042520A (ko) 전자 장치 및 이의 제어 방법
JP7310907B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
US11461779B1 (en) Multi-speechlet response
JP7286303B2 (ja) 会議支援システム及び会議用ロボット
US11893996B1 (en) Supplemental content output
US11914923B1 (en) Computer system-based pausing and resuming of natural language conversations
CN116741143B (zh) 基于数字分身的个性化ai名片的交互方法及相关组件

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18929097

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18929097

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP