WO2022180882A1 - 音声制御方法、サーバ装置、及び、発話体 - Google Patents

音声制御方法、サーバ装置、及び、発話体 Download PDF

Info

Publication number
WO2022180882A1
WO2022180882A1 PCT/JP2021/026612 JP2021026612W WO2022180882A1 WO 2022180882 A1 WO2022180882 A1 WO 2022180882A1 JP 2021026612 W JP2021026612 W JP 2021026612W WO 2022180882 A1 WO2022180882 A1 WO 2022180882A1
Authority
WO
WIPO (PCT)
Prior art keywords
utterance
voice
output
timing
outputting
Prior art date
Application number
PCT/JP2021/026612
Other languages
English (en)
French (fr)
Inventor
由暉 大橋
悟 松永
将史 鳥飼
和宏 黒山
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Priority to EP21895917.9A priority Critical patent/EP4328902A1/en
Priority to CN202180006434.0A priority patent/CN115244615A/zh
Priority to JP2021576424A priority patent/JPWO2022180882A1/ja
Priority to US17/782,139 priority patent/US20230117212A1/en
Publication of WO2022180882A1 publication Critical patent/WO2022180882A1/ja
Priority to JP2023056203A priority patent/JP2023089039A/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Definitions

  • the present disclosure relates to a voice control method, a server device, and an utterance body.
  • Patent Document 1 Conventionally, in electronic devices such as home appliances, there is a device that outputs (utters) voice (see Patent Document 1, for example).
  • Japanese Patent Laid-Open No. 2002-200001 discloses a server that creates voice data for an electronic device to speak based on characteristic information set based on at least one of attribute information of a user of the electronic device and attribute information of the electronic device.
  • An apparatus is disclosed.
  • the present disclosure provides a voice control method and the like that allows a speaker to notify information by voice at appropriate timing.
  • a voice control method includes a determination step of determining whether each of a plurality of utterances capable of outputting voice is outputting voice, and based on the determination result of the determination step, At least one of the plurality of utterances is caused to immediately output a voice, or the at least one utterance is made after waiting until the utterance that is outputting the voice finishes outputting the voice. and an output step of causing the at least one speaker to output sound at the timing of causing the body to output sound.
  • a server device includes a determination unit that determines whether each of a plurality of utterances capable of outputting voice is outputting voice, and based on the determination result of the determination unit, At least one of the plurality of utterances is caused to immediately output a voice, or the at least one utterance is made after waiting until the utterance that is outputting the voice finishes outputting the voice. and an output unit that causes the at least one speaker to output sound at the timing of causing the body to output sound.
  • an utterance body includes a voice output unit that outputs voice, a communication unit that communicates with a server device, and based on voice information received from the server device via the communication unit: , and an audio control unit that outputs audio from the audio output unit, wherein the audio control unit transmits audio output information indicating whether or not audio is output from the audio output unit via the communication unit transmitting the audio information to the server device, receiving the audio information and timing information indicating the timing of outputting the audio from the server device via the communication unit, and outputting the audio information at a timing based on the received timing information; to the audio output unit.
  • FIG. 1 is a schematic diagram showing a specific configuration of a speech utterance system according to an embodiment.
  • FIG. 2 is a block diagram showing the configuration of the server device according to the embodiment.
  • FIG. 3 is a diagram for explaining a first example of a processing method for determining the timing at which the server device according to the embodiment causes the utterance body to output an utterance sentence as voice.
  • FIG. 4 is a diagram for explaining a second example of the processing method for determining the timing at which the server device according to the embodiment causes the utterance body to output the utterance sentence as voice.
  • FIG. 5 is a diagram for explaining a third example of the processing method for determining the timing at which the server device according to the embodiment causes the utterance body to output the utterance sentence as voice.
  • FIG. 1 is a schematic diagram showing a specific configuration of a speech utterance system according to an embodiment.
  • FIG. 2 is a block diagram showing the configuration of the server device according to the embodiment.
  • FIG. 3 is a
  • FIG. 6 is a diagram for explaining a fourth example of the processing method for determining the timing at which the server device according to the embodiment causes the utterance body to output the utterance sentence as voice.
  • FIG. 7 is a diagram for explaining a fifth example of the processing method for determining the timing at which the server device according to the embodiment causes the utterance body to output the utterance sentence as voice.
  • FIG. 8 is a flow chart showing a processing procedure of the server device according to the embodiment.
  • FIG. 9 is a flow chart showing a processing procedure for an utterance body according to the embodiment.
  • each figure is a schematic diagram and is not necessarily strictly illustrated. Moreover, in each figure, the same code
  • FIG. 1 is a schematic diagram showing a specific configuration of voice utterance system 500 according to the embodiment.
  • the voice utterance system 500 notifies the user of information indicating that the state of processing has changed in the device 600, information notifying of failure, information prompting the user to replace parts such as filters, and functions of the device 600.
  • information such as information for (recommendation notification) is output
  • the device notifies (outputs) the information to the user by voice (in other words, utters the information).
  • voice in other words, utters the information.
  • device 600 transmits to server device 100 operation information indicating that washing has ended.
  • the server device 100 receives the operation information
  • the server device 100 sends a voice file (voice data).
  • the utterance body 200 has, for example, a device such as a speaker for outputting sound, and outputs (i.e., utters) an utterance sentence such as "The laundry is finished" based on the received sound file. ).
  • the voice utterance system 500 includes one or more devices 600, a server device 100, and one or more speakers 200.
  • the device 600 is, for example, a refrigerator, a washing machine, a microwave oven, a lighting device, an electric appliance such as a door phone, and the like, and is a device (information source device) capable of outputting information of the device 600 . More specifically, for example, the device 600 is a communicable electrical appliance (household appliance) in the user's home.
  • the device 600 includes, for example, identification information that is a unique identifier that indicates the device 600, device information that indicates the performance (specifications) of the device 600, operation information that indicates the content of processing (operation), and information about the device 600 such as a failure. State information or the like indicating the state is transmitted to the server device 100 .
  • the action information may include device information indicating the device 600 that executed the action indicated by the action information.
  • the device 600 transmits information indicating the user of the device 600 to the server device 100, for example.
  • Information indicating the user is received from the user via, for example, a reception unit such as a touch panel (not shown) of the device 600 that receives input from the user.
  • the device 600 is, for example, a device different from a mobile terminal such as a smart phone.
  • the device 600 is, for example, a device that can be used by a plurality of users (for example, is assumed to be used by a plurality of users), unlike a mobile terminal.
  • Mobile terminals such as smartphones are used by specific users. Therefore, when the mobile terminal notifies the user of information, even if the mobile terminal notifies the user of other information, the user of the mobile terminal is only the user who is the target of the notification. Since it is assumed that the terminal is occupied by the user, even when the mobile terminal gives a plurality of notifications to the user, the plurality of notifications may be sent in order.
  • home appliances are not necessarily occupied by the user who is the target of the notification, such as being shared by family members, and may be occupied by other users. Therefore, in order to notify a specific user of information about the device 600 which is such a home appliance, there is a problem that it is necessary to suspend the notification when it is occupied by someone other than the user.
  • the device 600 for example, notifies the user of the device 600 together with the device information and operation information of the device 600 so that the information about the device 600 can be appropriately notified to the user of the device 600.
  • the information shown is transmitted to the server device 100 .
  • the device 600 includes, for example, a communication interface for communicating with the server device 100, an execution unit for executing processing such as refrigeration, washing, and heating, and a detection unit realized by a sensor or the like for detecting the state of the device 600. and a control unit implemented by a processor, memory, or the like that controls various processes of the device 600 .
  • the server device 100 determines an utterance sentence (scenario) to be output by the utterance body 200 based on the information received from the device 600, and causes the utterance body 200 to output the created utterance sentence by voice. For example, when receiving motion information from the device 600, the server device 100 selects an audio file (audio data) corresponding to the motion information, and uses the selected audio file as notification information (also referred to as audio information) as an utterance. 200, the utterance body 200 outputs the voice based on the voice file.
  • audio file audio data
  • notification information also referred to as audio information
  • the utterance sentences include a sentence indicating that the device 600 has started operation, a sentence indicating that the device 600 has finished operating, a sentence indicating that the device 600 has operated in cooperation with another device 600, and a prompt for the user to upgrade. , a text for recommending the user to use the functions of the device 600, a text indicating a failure, and the like.
  • the server device 100 includes, for example, a communication interface for communicating with devices such as the device 600 and the speaker 200, a non-volatile memory storing programs, a volatile memory that is a temporary storage area for executing programs, It is implemented by a computer having an input/output port for transmitting and receiving signals, a processor for executing programs, and the like.
  • the utterance body 200 is an electric appliance such as an air conditioner (air conditioner), a television (television), an autonomously running vacuum cleaner (a so-called robot cleaner), or the like, and includes a component capable of outputting sound such as a speaker. It is a device (home appliance with a speaker).
  • the speaker 200 when voice information such as a voice file is received from the server device 100, the speaker 200 outputs voice based on the received voice information.
  • the number of devices 600 included in the voice utterance system 500 may be one or more, and is not particularly limited.
  • the number of utterance bodies 200 provided in the voice utterance system 500 may be one or more, and is not particularly limited.
  • the server device 100 is communicably connected to each of the three devices 600 and the three speakers 200 via a network such as the Internet.
  • the server device 100 and each of the three devices 600 and the three utterance bodies 200 may be communicably connected via a LAN (Local Area Network) or the like, or may be communicably connected. good.
  • LAN Local Area Network
  • the communication standard used for communication between the server apparatus 100 and each of the three devices 600 and the three utterance bodies 200 is not particularly limited.
  • Examples of communication standards include Wi-Fi (registered trademark), Bluetooth (registered trademark), ZigBee (registered trademark), and the like.
  • each of the three devices 600 and the three utterance bodies 200 is placed inside the house where the user lives.
  • the server device 100 is arranged outside the house, for example.
  • FIG. 2 is a block diagram showing the server device 100 according to the embodiment.
  • FIG. 2 shows only one device 600 as a representative, and also shows three utterance bodies 200 in FIG.
  • An utterance body 202 and an utterance body 203 are denoted by reference numerals.
  • the server device 100 includes an acquisition unit 110 , a scenario determination unit 120 , an utterance body determination unit 130 , a determination unit 140 , a timing determination unit 150 , an output unit 160 and a storage unit 170 .
  • the acquisition unit 110 is a processing unit that acquires device information such as the performance, type and model number of the device 600 and information related to the device 600 such as operation information indicating the operation history (operation details) of the device 600 .
  • the acquisition unit 110 acquires device information and/or operation information by communicating with the device 600 via a communication unit such as a communication interface (not shown) included in the server device 100, for example.
  • the communication unit is, for example, a communication interface for communicating with the device 600 and the speaker 200 .
  • the communication unit is realized by a connector or the like to which a communication line is connected, and when performing wireless communication, it is realized by an antenna, a wireless communication circuit, or the like.
  • the server device 100 is provided with a reception device such as a mouse or keyboard that receives input from the user, the device information and/or operation information may be acquired via the reception device.
  • a reception device such as a mouse or keyboard that receives input from the user
  • the acquisition unit 110 stores the acquired device information and operation information in the storage unit 170 and outputs them to the scenario determination unit 120 .
  • the scenario determination unit 120 is a processing unit that determines whether or not the motion information acquired by the acquisition unit 110 satisfies a predetermined condition, and determines an utterance sentence to be uttered by the utterance body 200 . Specifically, the scenario determination unit 120 determines whether an event that causes the utterance body 200 to output sound has occurred based on the motion information acquired by the acquisition unit 110 .
  • the storage unit 170 stores operation details according to the type of the device 600 that determines that an event has occurred (that is, satisfies a predetermined condition).
  • the scenario determination unit 120 determines that the operation information indicated by the operation information acquired by the acquisition unit 110 matches the operation content according to the type of the device 600 that is stored in the storage unit 170 and determined that the event has occurred. By determining whether or not, it is determined whether or not an event causing the utterance body 200 to output voice has occurred.
  • Examples of the predetermined conditions are that the device 600 has started operating, that the device 600 has finished operating, that it has operated in cooperation with another device 600, that it has become possible to upgrade, and that it has broken down.
  • the predetermined condition may be arbitrarily determined in advance.
  • the scenario determination unit 120 determines an utterance sentence according to the motion information.
  • the storage unit 170 stores an utterance sentence associated with the action content, and by selecting the utterance sentence associated with the action content indicated by the action information, an utterance to be output as a voice by the utterance body 200 is selected. Decide on a sentence.
  • the utterance body determination unit 130 is a processing unit that determines which utterance body 200 out of the plurality of utterance bodies 200 is to output the utterance sentence determined by the scenario determination unit 120 as voice.
  • the device information indicating the device 600 and the utterance body information indicating the utterance body 200 are linked in advance and stored in the storage unit 170 .
  • the acquisition unit 110 acquires the operation information of the first device, the utterance The body 201 and the utterance body 202 output an utterance sentence corresponding to the motion information by voice.
  • the utterance body 201 when the device information of the second device, which is another example of the device 600, and the utterance body information of the utterance body 201 are linked, when the acquisition unit 110 acquires the operation information of the second device , the utterance body 201 outputs an utterance sentence corresponding to the motion information by voice.
  • the storage unit 170 stores owner information indicating the owner of the device 600 and the utterance body 200 in association with the device information and the utterance body information.
  • the utterance body determination unit 130 causes the utterance body 200 owned by the same device 600 to output an utterance sentence corresponding to the operation information by voice.
  • Determine the utterance 200 as follows.
  • the utterance body determination unit 130 may convert the utterance sentence determined by the scenario determination unit 120 based on the device information, the utterance body information, and the owner information to a plurality of utterance bodies provided in the voice utterance system 500. It determines which utterance body 200 out of 200 is to be output by voice.
  • the owner information may be stored in the storage unit 170 in advance.
  • the acquisition unit 110 acquires owner information received from a user by a reception device such as a smartphone (not shown) via the communication unit (not shown), and causes the storage unit 170 to store the acquired owner information.
  • the determination unit 140 is a processing unit that determines whether or not each of the plurality of utterance bodies 200 is outputting voice. For example, the determination unit 140 determines whether or not each of the utterance bodies 201, 202, and 203 is outputting sound.
  • whether or not the plurality of utterance bodies 200 are outputting voice indicates, for example, whether or not the server device 100 is outputting the utterance text to the utterance body 200 as voice.
  • the voice may be output in order to notify information of its own device, or when the utterance body 200 is a television, the voice may be output in accordance with the video.
  • the sound output by the utterance body 200 determined by the determination unit 140 does not include the sound other than the sound (speech based on the utterance sentence) that the server device 100 causes the utterance body 200 to output. may or may not be included.
  • the determination unit 140 determines whether the utterance sentence determined by the scenario determination unit 120 is output by voice to each of the utterance bodies 201, 202, and 203. For example, based on the timing determined by the timing determining unit 150 (to be described later) and the length of the utterance sentence determined by the scenario determining unit 120, the determining unit 140 determines that each of the utterances 201, 202, and 203 Determines whether audio is being output. For example, the voice output time corresponding to the length of the utterance sentence may be stored in the storage unit 170 in advance, or information indicating the time required for outputting one sound may be stored in the storage unit 170 in advance.
  • the time required to output the utterance sentence as a voice may be calculated from the information and the utterance sentence.
  • the determination unit 140 communicates with the utterance body 201, the utterance body 202, and the utterance body 203 via the above-described communication unit (not shown) provided in the above-described server device 100, thereby Information (speech output information) indicating whether or not each of the utterance body 202 and the utterance body 203 is speaking may be acquired.
  • the timing determination unit 150 causes at least one utterance body 200 among the plurality of utterance bodies 200 to immediately output voice, or determines the utterance body 200 that is outputting voice.
  • the timing determination unit 150 Among the plurality of utterance bodies 200, for the first utterance body that is not outputting voice, the timing for immediately outputting voice to the first utterance body is determined, and the second utterance that is outputting voice among the plurality of utterance bodies 200 is determined. As for the body, after waiting until the end of the output of the voice, the timing for outputting the voice by the second voice body is determined.
  • the timing determination unit 150 determines that the plurality of utterance bodies 200, when at least one of the utterance bodies 200 is outputting a voice, the timing of causing the at least one utterance body 200 to output voice after the at least one of the utterance bodies 200 finishes outputting voice. to decide.
  • the timing determination unit 150 acquires owner information indicating the owner of each of the plurality of utterance bodies 200, and determines whether at least one of the plurality of utterance bodies 200 is owned by the same owner as at least one utterance body 200 to output voice.
  • the timing for outputting the voice to the at least one utterance body 200 after the said utterance body 200 finishes outputting the voice is determined.
  • the timing determination unit 150 selects at least one of the plurality of utterance bodies 200 that is the same as at least one utterance body 200 that is owned by the user who is the target of the utterance sentence to be output as voice.
  • the utterance body 200 owned by the owner is outputting the voice
  • the timing for outputting the voice to the at least one utterance body 200 after the said utterance body finishes outputting the voice is determined.
  • the server device 100 transmits an utterance based on the motion information to the user who is the owner of the device 600.
  • the utterance body 200 owned by the user who is to be notified), that is, the utterance body 200 of the same owner as the owner of the device 600 is made to output by voice.
  • the timing determining unit 150 determines that at least one utterance body 200 (for example, utterance body 201) whose utterance sentence is to be output as voice and the utterance body 200 (for example, utterance body 200) whose owner is the same user 202) is outputting a sound, the timing for causing the at least one speaker 200 (for example, the speaker 201) to output a sound is determined.
  • the timing determining unit 150 acquires owner information indicating the owners of each of the plurality of utterance bodies 200, and determines whether the owner of at least one utterance body 200 to output voice is the first user and the second user. , when the utterance body 200 owned by at least one of the first user and the second user among the plurality of utterance bodies 200 outputs voice, the utterance body 200 owned by at least one of the first user and the second user After finishing the output of voice, the timing of outputting voice to at least one speaker 200, at least one of which is the owner, is determined.
  • the timing determination unit 150 acquires owner information indicating the owner of each of the plurality of utterance bodies 200, and at least one utterance body 200 to output voice is selected from among the first user and the second user.
  • the first user is the owner and the second user owns at least one of the plurality of utterance bodies 200 among the one or more utterance bodies 200 owned by the first user
  • the second user When the utterance body 200 owned by the user is outputting the voice, the utterance body 200 owned by the second user is made to output the voice after the utterance body 200 owned by the second user finishes outputting the voice, and then the voice is output to at least one utterance body 200. determine the timing.
  • the timing determination unit 150 uses information indicating that the voice is to be output immediately or information indicating an instruction to output the voice after waiting until the speaker 200 finishes outputting the voice as timing information. may be output to the output unit 160, which will be described later. Alternatively, for example, the timing determination unit 150 outputs information indicating the time at which the sound is output, or information indicating the time from the reception of the sound information until the sound is output, as timing information together with the sound information to the output unit 160. can be output to
  • the output unit 160 is a processing unit that controls the output of the voice of the speaker 200 . Specifically, based on the determination result of the determination unit 140, the output unit 160 causes at least one of the plurality of utterances 200 to immediately output the voice, or is outputting the voice. At the timing when the at least one speaker 200 is to output the voice after waiting until the speaker 200 finishes outputting the voice, the at least one speaker 200 is caused to output the voice. More specifically, the output unit 160 outputs the utterance sentence determined by the scenario determination unit 120 to at least one utterance body 200 determined by the utterance body determination unit 130 at the timing determined by the timing determination unit 150 by voice. output.
  • the output unit 160 outputs voice information, which is information for causing one or more utterance bodies 200 to output the utterance sentence as voice, and timing information indicating the timing determined by the timing determination unit 150, to the server device 100. It is transmitted to one or more utterance bodies 200 determined by the utterance body determination part 130 via the above-described communication unit (not shown).
  • the voice information is information for causing the utterance body 200 to output a voice sentence corresponding to the operation information of the device 600 .
  • the audio information is an audio file (audio data) corresponding to operation information of the device 600 .
  • the audio file is stored in the storage unit 170 in association with the operation content, for example.
  • the output unit 160 acquires from the storage unit 170 an audio file corresponding to an utterance sentence determined by the scenario determination unit 120 based on the motion information acquired by the acquisition unit 110, and uses the acquired audio file as audio information. output (send) to 200;
  • the utterance body determination unit 130 determines whether the utterance sentence set (selected) by the user satisfies a predetermined condition (for example, the device 600 has performed a predetermined operation, entered a predetermined state, etc.).
  • a predetermined condition for example, the device 600 has performed a predetermined operation, entered a predetermined state, etc.
  • the utterance body determination unit 130 The utterance sentence is output as voice from the determined one or more utterance bodies 200 at the timing determined by the timing determining unit 150 .
  • the server device 100 may receive the above-described voice information from a computer such as another server device different from the server device 100 .
  • the storage unit 170 may store information indicating a URL (Uniform Resource Locator) corresponding to an audio file.
  • the scenario determination unit 120 acquires the voice information by transmitting information indicating a URL corresponding to the voice information corresponding to the determined utterance sentence to the other server device. good too.
  • Each of the acquisition unit 110, the scenario determination unit 120, the utterance body determination unit 130, the determination unit 140, the timing determination unit 150, and the output unit 160 includes a memory and a control program stored in the memory. and a processor such as a CPU (Central Processing Unit) that executes the control program. Also, these processing units may be implemented by one memory and one processor, or may be implemented by multiple memories and multiple processors in different or arbitrary combinations. Also, these processing units may be realized by, for example, a dedicated electronic circuit or the like.
  • the storage unit 170 stores device information indicating the device 600, utterance body information indicating the utterance body 200, owner information indicating the owner of the device 600 and the utterance body 200, and information indicating a plurality of utterance sentences (scenario information). and a storage device for storing. Also, the storage unit 170 may store a voice file corresponding to the utterance sentence.
  • the storage unit 170 is realized by, for example, an HDD (Hard Disk Drive), flash memory, or the like.
  • the storage unit 170 may store setting information indicating an utterance sentence to be output as a voice.
  • the setting information is information indicating an utterance sentence set by the user to be output as a voice among one or more utterance sentences (more specifically, information indicating utterance sentences) stored in the storage unit 170. .
  • the acquisition unit 110 acquires, as setting information, information indicating whether or not to output an utterance received by a reception device such as a smart phone (not shown) from the user via the communication unit (not shown) as setting information.
  • the acquired setting information is stored in the storage unit 170 .
  • the scenario determination unit 120 determines whether or not to cause the utterance body 200 to output the utterance sentence related to the motion information by voice based on the setting information stored in the storage unit 170. It may be determined whether The setting information may be set for each user.
  • the utterance body 200 is, for example, an air conditioner, a television, an electric appliance such as an autonomously running vacuum cleaner, or the like, and is a device equipped with a component capable of outputting sound such as a speaker.
  • the speaker 200 outputs voice based on voice information such as a voice file received from the server device 100, for example.
  • the utterance sentence and the voice file corresponding to the utterance sentence may be stored in a storage unit (not shown) such as an HDD, and the utterance unit 200 may include the storage unit.
  • the output unit 160 may transmit, to the utterance body 200, information indicating an utterance sentence to be output as voice by the utterance body 200 or information indicating an audio file associated with the utterance sentence as voice information.
  • the utterance body 200 selects a voice file for outputting voice from one or more voice files stored in the storage unit based on the received voice information, and selects the selected voice file. outputs audio based on
  • the utterance body 200 includes, for example, a speaker, an amplifier, a memory storing a control program for outputting a sound from the speaker based on the voice information received from the server device 100, a processor for executing the control program, and the server device 100.
  • a communication interface for communication is provided.
  • the communication interface is realized by a connector or the like to which a communication line is connected, and when the speaker 200 communicates wirelessly, it is realized by an antenna, a wireless communication circuit, or the like.
  • the speaker 200 includes, for example, a communication unit 210, a voice control unit 220, and a voice output unit 230.
  • the communication unit 210 is a communication interface for communicating with the server device 100 .
  • the audio control unit 220 is a processing unit that outputs audio from the audio output unit 230 based on audio information received (acquired) from the server device 100 (more specifically, the output unit 160) via the communication unit 210. be. Specifically, the audio control unit 220 transmits audio output information indicating whether or not audio is being output from the audio output unit 230 to the server device 100 via the communication unit 210, and transmits the audio information from the server device 100. and timing information indicating the timing for outputting the audio are received via the communication unit 210, and the audio output unit 230 is caused to output the audio based on the audio information at the timing based on the received timing information.
  • the voice control unit 220 is implemented by a memory, a control program stored in the memory, and a processor such as a CPU that executes the control program. Also, the audio control unit 220 may be realized by, for example, a dedicated electronic circuit or the like.
  • the audio output unit 230 is a device that outputs audio under the control of the audio control unit 220 .
  • the audio output unit 230 is realized by a speaker or the like, for example.
  • FIG. 3 is a diagram for explaining a first example of a processing method for determining the timing at which server device 100 according to the embodiment causes utterance body 200 to output an utterance sentence as voice.
  • the utterance body 202 and the utterance body 203 are to output an utterance sentence in voice, and the utterance body 202 is outputting voice. That is, in this example, the utterance body 202 and the utterance body 203 are utterance candidates, and the utterance body 202 is speaking.
  • the timing determination unit 150 determines the timing so that the utterance body 202 that is speaking will output the sound after waiting until the utterance ends. On the other hand, the timing determination unit 150 determines the timing so that the utterance body 203, which is not speaking, immediately utters the utterance sentence. Therefore, in this example, the utterance body 202 and the utterance body 203, which utter the same utterance sentence, utter the utterance sentence at different timings.
  • the timing determination unit 150 causes the first utterance body, which is not outputting voice among the two or more utterance bodies 200, to immediately output voice. , and out of the two or more utterance bodies 200, for the second utterance body that is outputting the voice, wait until the output of the voice is finished, and then output the voice to the second utterance body. determine the timing to allow
  • the utterance body 200 which is a candidate for utterance, may be owned by either the user A or the user B, and the owner is not particularly limited.
  • the utterance body 200 may be at least one of the utterance body 202 and the utterance body 203 owned by user B.
  • FIG. 4 is a diagram for explaining a second example of a processing method for determining the timing at which server device 100 according to the embodiment causes utterance body 200 to output an utterance sentence as voice.
  • the utterance body 202 and the utterance body 203 are to output an utterance sentence in voice, and the utterance body 202 is outputting voice. That is, in this example, the utterance body 202 and the utterance body 203 are utterance candidates, and the utterance body 202 is speaking.
  • the timing determining unit 150 determines the timing so that the utterance body 202 in the middle of speaking waits until the end of the utterance and then speaks.
  • the timing determination unit 150 also determines the timing for the utterance body 203 that is not speaking to speak after waiting until the utterance of the utterance body 202 ends. Therefore, in this example, the utterance body 202 and the utterance body 203, which utter the same utterance sentence, utter the utterance sentence at the same timing.
  • the timing determination unit 150 determines that at least one of the utterance bodies 200 is The timing is determined so that two or more utterance bodies 200 output the voice after the utterance body 200 finishes outputting the voice (for example, the same utterance sentence is output at the same time as voice).
  • FIG. 5 is a diagram for explaining a third example of a processing method for determining the timing at which server device 100 according to the embodiment causes utterance body 200 to output an utterance sentence as voice.
  • the utterance body 203 is to output an utterance sentence in voice, and the utterance body 202 is outputting voice. That is, in this example, the utterance body 203 is the utterance candidate, and the utterance body 202 is speaking.
  • the timing determination unit 150 acquires the owner information of each of the utterance body 201, the utterance body 202, and the utterance body 203, so that the utterance body 203 whose owner is the same user B as the utterance body 203 is acquired. identify. In this example, the timing determination unit 150 identifies the utterance body 202 whose owner is the same user B as the utterance body 203 . Further, for example, when the utterance candidate utterance body 203 and the utterance body 202 whose owner is the same as the utterance candidate utterance body 203 are uttering, the timing determination unit 150 sets the timing so that the utterance body 203 is made to speak after the utterance body 202 finishes speaking. to decide.
  • the timing determination unit 150 determines that the utterance candidate utterance body 203 and the utterance candidate utterance body 202 whose owner is the same are not uttering and the utterance candidate utterance body 203 and the utterance candidate utterance body 201 whose owner is different are uttering. The timing is determined so that the utterance body 203 speaks immediately even if the utterance body 203 is already there.
  • the timing determination unit 150 acquires the owner information indicating the owner of each of the plurality of utterance bodies 200, and selects at least one utterance for which a voice is to be output among the plurality of utterance bodies 200.
  • the timing is set so that the at least one utterance body 200 outputs the voice after the utterance body 200 finishes outputting the voice. decide.
  • the determining unit 140 acquires the owner information of each of the utterance body 201, the utterance body 202, and the utterance body 203. It may be determined whether or not each of the bodies 202 is speaking, and all of the utterance bodies provided in the voice utterance system 500, i. You may determine whether it is inside.
  • FIG. 6 is a diagram for explaining a fourth example of a processing method for determining the timing at which server device 100 according to the embodiment causes utterance body 200 to output an utterance sentence as voice.
  • the utterance body 202 is to output an utterance sentence in voice, and the utterance body 201 is outputting voice. That is, in this example, the utterance body 202 is the utterance candidate, and the utterance body 201 is speaking.
  • the timing determination unit 150 acquires the owner information of each of the utterance body 201, the utterance body 202, and the utterance body 203, so that at least the user A and the user B having the same owner as the utterance body 202 On the one hand, a speaker 200 is identified. In this example, the timing determination unit 150 identifies the utterance body 201 whose owner is the same user A as the utterance body 202 and the utterance body 203 whose owner is the same user B as the utterance body 202 .
  • the timing determination unit 150 determines that the utterance candidate utterance body 202 is uttered after the utterance body 201 finishes uttering.
  • the timing determination unit 150 determines that the utterance candidate utterance body 202 and the owner are not uttered by at least one utterance candidate utterance body 201, and that the utterance candidate utterance body 202 and the owner When at least one person is uttering the same utterance body 203, the timing is determined so that the utterance body 202 is made to speak after the utterance body 203 finishes speaking.
  • the timing determination unit 150 acquires owner information indicating the owner of each of the plurality of utterance bodies 200, and determines that the owner of at least one utterance body 200 to output voice is the first owner.
  • the timing is determined so that at least one speaker 200, at least one of which is the owner, outputs the voice.
  • FIG. 7 is a diagram for explaining a fifth example of a processing method for determining the timing at which server device 100 according to the embodiment causes utterance body 200 to output an utterance sentence as voice.
  • the utterance body 203 is to output an utterance sentence in voice, and the utterance body 201 is outputting voice. That is, in this example, the utterance body 203 is the utterance candidate, and the utterance body 201 is speaking.
  • the timing determining unit 150 acquires the owner information of each of the utterance bodies 201, 202, and 203, thereby determining whether the utterance body 203 and the utterance body 203 belong to the same owner as the user B. 202 and utterance body 203, it is determined whether or not there is an owner other than user B.
  • the utterance body 202 owned by the user B is also owned by the user A, so it is determined that the utterance body 202 and the utterance body 203 owned by the user B have owners other than the user B.
  • the timing determination unit 150 identifies the utterance body 200 owned by the owner other than the user B. do. In this example, the timing determination unit 150 identifies the utterance body 201 owned by the user A, who is the owner other than the user B, for the utterance body 202 and the utterance body 203 owned by the user B. FIG. Further, for example, when the specified utterance body 200 is speaking, the timing determination unit 150 determines the timing so that the utterance body 203 is made to speak after the specified utterance body 200 finishes speaking. In this example, since the specified utterance body 201 is speaking, the timing determination unit 150 determines the timing so that the utterance body 203 is made to speak after the specified utterance body 201 finishes speaking.
  • the timing determination unit 150 acquires owner information indicating the owner of each of the plurality of utterance bodies 200, and at least one utterance body 200 to output voice is the first user ( For example, among user B) and a second user (for example, user A), the first user is the owner, and among the plurality of utterances 200, among the one or more utterances 200 owned by the first user,
  • the second user owns at least one of the utterance bodies 200, and when the utterance body 200 owned by the second user is outputting voice, the utterance body 200 owned by the second user stops outputting voice.
  • the timing is determined so that at least one utterance body 200 to output the voice outputs the voice.
  • first, second, third, fourth, and fifth examples described above may be arbitrarily combined within a possible range.
  • the second user when outputting voice from one utterance body 200 owned by the first user, it is determined whether or not another utterance body 200 owned by the first user is speaking. may be broken. For example, when the other utterance body 200 is speaking, the one utterance body 200 is caused to output the voice after waiting until the other utterance body 200 finishes outputting the voice.
  • the owner of the one utterance body 200 includes not only the first user but also the second user, when the other utterance body 200 owned by the first user is not speaking, the second user may be determined whether the utterance body 200 owned by is speaking.
  • the voice is output to the one utterance body 200.
  • the one utterance body 200 is caused to output the voice after waiting until the utterance body 200 owned by the second user finishes outputting the voice. .
  • FIG. 8 is a flow chart showing the processing procedure of the server device 100 according to the embodiment.
  • the scenario determination unit 120 determines whether the acquisition unit 110 has acquired the operation information of the device 600 from the device 600 (S101).
  • the process returns to step S101.
  • the scenario determination unit 120 determines that the acquisition unit 110 has acquired the motion information (Yes in S101)
  • the scenario determination unit 120 determines an utterance sentence based on the motion information (S102).
  • the utterance body determination unit 130 selects at least one utterance body 200 for outputting the utterance sentence determined by the scenario determination unit 120, for example, based on the device information indicating the device 600 that executed the action indicated by the motion information. is determined (S103).
  • the determination unit 140 determines whether a plurality of utterance bodies 200 provided in the voice utterance system 500 (more specifically, the utterance bodies 200 whose utterance body information indicating the utterance bodies 200 is stored in the storage unit 170) produce speech. It is determined whether or not the data is being output (S104).
  • the timing determination unit 150 causes at least one utterance unit 200 among the plurality of utterance units 200 to immediately output the voice, or is outputting the voice. After waiting until the plurality of utterance bodies 200 finish outputting the corresponding voice, the timing of outputting the voice to at least one utterance body 200 is determined (S105).
  • the timing determining unit 150 uses any one of the determination methods of the first to fifth examples described above to determine the timing at which at least one uttering body 200 determined by the uttering body determining unit 130 is to output the voice. .
  • the output unit 160 causes at least one utterance body 200 determined by the utterance body determination unit 130 to output the utterance sentence determined by the scenario determination unit 120 as voice at the timing determined by the timing determination unit 150 ( S106).
  • the information handled in step S101 is not limited to operation information of device 600, but can be arbitrary information as long as it is information for notifying the user, such as information indicating version upgrade of device 600 or information indicating failure. good.
  • information for notifying the user such as information indicating that the device 600 has been upgraded, information indicating that the device 600 has broken down, etc. It may be output by voice.
  • FIG. 9 is a flow chart showing the processing procedure of the utterance body 200 according to the embodiment.
  • the audio control unit 220 transmits audio output information indicating whether audio is being output from the audio output unit 230 to the server device 100 via the communication unit 210 (S201).
  • the timing at which the voice control unit 220 executes step S201 is not particularly limited.
  • the audio control unit 220 may repeatedly execute step S201 at an arbitrarily determined predetermined cycle, or may execute step S201 when information requesting audio output information is received from the server apparatus 100. .
  • voice control unit 220 transmits information indicating that the speech has ended (that is, that the voice has been output from voice output unit 230) as voice output information to server device 100 via communication unit 210.
  • the server device 100 can also grasp that the utterance body 200 has started to speak, the server device 100 can determine whether or not each utterance body 200 is speaking if it is known when the utterance ends. 100 can be reasonably determined.
  • the server device 100 may determine that the utterance of the utterance body 200 has ended when the voice output information indicating that the utterance has ended is not received for a predetermined period of time.
  • the server device 100 executes step S104 shown in FIG. 8 based on the received audio output information, and further transmits audio information such as an audio file and timing information.
  • the audio control unit 220 receives audio information and timing information indicating timing for outputting audio from the server device 100 via the communication unit 210 (S202).
  • the audio control unit 220 causes the audio output unit 230 to output audio based on the audio information at the timing based on the timing information received in step S202 (S203).
  • the voice control method includes the determination step (S104) of determining whether or not a plurality of utterances 200 capable of outputting voice are outputting voice, and the determination result of the determination step. Based on, at least one speaker 200 out of the plurality of speakers 200 is caused to immediately output speech, or after waiting until the speaker 200 that is outputting speech finishes outputting the speech and an output step (S106) of causing the at least one utterance body 200 to output voice at the timing of causing the at least one utterance body 200 to output voice.
  • the speaker 200 can notify information by voice at appropriate timing.
  • the voice control method further includes, based on the determination result in the determination step, causing at least one utterance body 200 among the plurality of utterance bodies 200 to immediately output voice, or , a timing determination step (S105) of determining the timing of outputting the voice to the at least one utterance body 200 after waiting until the utterance body 200 outputting the voice finishes outputting the voice.
  • a timing determination step S105 of determining the timing of outputting the voice to the at least one utterance body 200 after waiting until the utterance body 200 outputting the voice finishes outputting the voice.
  • the at least one speaker 200 is caused to output voice.
  • At least one of the plurality of utterance bodies 200 is caused to immediately output the voice based on the determination result in the determination step, or the utterance body that is outputting the voice
  • the at least one utterance body 200 can be caused to output the voice at the timing of causing the at least one utterance body 200 to output the voice after waiting until the at least one utterance body 200 finishes outputting the voice.
  • the timing determination step for a first utterance body that is not outputting voice among the plurality of utterance bodies 200, the timing for immediately outputting voice to the first utterance body is determined, and the plurality of utterances are determined.
  • the timing for outputting the voice to the second utterance body is decided after waiting until the output of the voice is finished.
  • the timing determination step when at least one of the plurality of utterance bodies 200 is outputting a voice, after at least one of the utterance bodies 200 finishes outputting voice, The timing at which the at least one utterance body 200 is caused to output a voice is determined.
  • users can listen to the same information at the same timing. Therefore, it is possible to prevent the user from misunderstanding or making the user feel uncomfortable by hearing the same information at the same timing.
  • the timing determination step owner information indicating the owner of each of the plurality of utterance bodies 200 is obtained, and at least one of the plurality of utterance bodies 200 is owned by the same owner as at least one of the plurality of utterance bodies 200 whose voice is to be output.
  • the utterance body 200 owned by is outputting the voice
  • the timing of outputting the voice to at least one utterance body after the utterance body 200 outputting the voice finishes outputting the voice is determined.
  • the utterance bodies 200 owned by the same user are highly likely to output information for the user in voice. Therefore, if different utterance sentences are output at the same timing from each of a plurality of utterance bodies 200 owned by the same user, the user needs to listen to a plurality of information at the same time, and there is a possibility that the information cannot be heard correctly. Therefore, when at least one utterance body 200 owned by the same owner as at least one utterance body 200 to output voice among the plurality of utterance bodies 200 is outputting voice, the utterance body 200 stops outputting voice. Then, by determining the timing so that the at least one speaker 200 outputs the voice, it is possible to prevent different information from being notified to the same user at the same timing.
  • the timing determination step among the plurality of utterance bodies 200, the utterance body 200 owned by the same owner as the at least one utterance body 200 owned by the user who is the target of the utterance sentence to be output as voice is voiced. is being output, the timing is determined for causing the at least one utterance body 200 to output the voice after the utterance body 200 finishes outputting the voice.
  • owner information indicating the owner of each of the plurality of utterance bodies 200 is acquired, and the owner of at least one utterance body 200 to output voice is the first user and the second user.
  • the utterance body 200 outputting the voice is The timing for outputting the voice to the at least one speaker 200 after finishing the output of the voice is determined.
  • owner information indicating the owner of each of the plurality of utterance bodies 200 is acquired, and at least one utterance body 200 to output voice is the first user among the first user and the second user. If one user is the owner and a second user owns at least one of the plurality of utterance bodies 200 among the one or more utterance bodies 200 owned by the first user, the second user When the utterance body 200 owned by is outputting the voice, the timing for outputting the voice to the at least one utterance body 200 after the utterance body 200 that is outputting the voice finishes outputting the voice is determined. .
  • At least one utterance body 200 for outputting voice is owned by the first user among the first user and the second user, and among the plurality of utterance bodies 200, one or more
  • the second user owns at least one of the utterance bodies 200 among the utterance bodies 200
  • the utterance body 200 owned by the second user is outputting voice
  • the utterance body 200 owned by the second user is output.
  • the server device 100 includes a determination unit 140 that determines whether or not each of the plurality of utterances 200 capable of outputting voice is outputting voice, and based on the determination result of the determination unit 140, , at least one utterance body 200 out of the plurality of utterance bodies 200 is caused to immediately output the voice, or the at least and an output unit 160 that causes at least one utterance body 200 to output voice at the timing of causing one utterance body 200 to output voice.
  • a determination unit 140 that determines whether or not each of the plurality of utterances 200 capable of outputting voice is outputting voice, and based on the determination result of the determination unit 140, at least one utterance body 200 out of the plurality of utterance bodies 200 is caused to immediately output the voice, or the at least and an output unit 160 that causes at least one utterance body 200 to output voice at the timing of causing one utterance body 200 to output voice.
  • utterance body 200 includes voice output unit 230 for outputting voice, communication unit 210 for communicating with server device 100, and voice information received from server device 100 via communication unit 210. and an audio control unit 220 for outputting audio from the audio output unit 230 based on the audio output unit 230 .
  • the audio control unit 220 transmits audio output information indicating whether audio is output from the audio output unit 230 to the server device 100 via the communication unit 210, and outputs audio information and audio from the server device 100.
  • Timing information indicating the timing to make the sound to be made is received via the communication unit 210, and the sound based on the sound information is output to the sound output unit 230 at the timing based on the received timing information.
  • the utterance body 200 can suppress outputting the voice based on the voice information received from the server device 100 together with other voices, making it difficult for the user to hear.
  • the device 600 and the utterance body 200 may be the same device or different devices.
  • a device that transmits device information, operation information, and the like to server device 100 and a device that is controlled by server device 100 and outputs an uttered sentence as voice may be the same device or different devices.
  • the server device 100 may acquire the device information and operation information regarding the device 600 from another server device or the like instead of the device 600 .
  • the server device 100 acquires information such as transportation services used by the user of the device 600, weather information, or disaster prevention information from the other server device, and transmits this information to the utterance body 200.
  • the server device 100 may cause the utterance unit 200 owned by the user to utter service information such as the above-described transportation service used by the user.
  • the server device 100 outputs a voice such as "There is one parcel scheduled to be delivered tomorrow morning" to the utterance body 200 owned by the user.
  • the server device 100 may receive information about services used by users from smartphones, tablet terminals, personal computers, etc. owned by users. In this case, the speech utterance system does not have to include the device 600 .
  • the server device 100 may determine an utterance sentence based on device information and operation information acquired from the device 600 and information acquired from the other server device. For example, if the device 600 is a washing machine, the server device 100 receives the information obtained from the washing machine indicating that the washing machine has completed the selection, and the weather information obtained from the other server device. , the utterance body 200 may utter an utterance that recommends the user to dry the washing machine.
  • the plurality of utterances 200 determined by the determination unit 140 may be all the utterances 200 included in the voice utterance system 500, or among all the utterances 200 included in the voice utterance system 500, the timing determination unit 150 There may be multiple utterances 200 that are required by to determine the timing.
  • user A and user B each own two utterance bodies 200, and user A and user B share utterance body 202 among the plurality of utterance bodies 200.
  • the number of utterance bodies 200 owned by user A and user B, respectively, and the number of utterance bodies 200 shared by user A and user B may each be one, a plurality, the same, or different. It can be optional.
  • the utterance waiting for utterance starts a new utterance after the utterance of the utterance currently being uttered ends.
  • one utterance may interrupt the utterance of another utterance and start speaking.
  • the utterance content may be arbitrarily determined in advance and is not particularly limited.
  • all or part of the components of the processing units such as the acquisition unit 110, the scenario determination unit 120, the utterance body determination unit 130, etc. included in the server device 100 are configured by dedicated hardware. Alternatively, it may be implemented by executing a software program suitable for each component. Each component may be implemented by a program execution unit such as a CPU or processor reading and executing a software program recorded in a recording medium such as an HDD or a semiconductor memory.
  • the constituent elements of the processing unit may be composed of one or more electronic circuits.
  • Each of the one or more electronic circuits may be a general-purpose circuit or a dedicated circuit.
  • One or more electronic circuits may include, for example, a semiconductor device, an IC (Integrated Circuit), or an LSI (Large Scale Integration).
  • An IC or LSI may be integrated on one chip or may be integrated on a plurality of chips. Although they are called ICs or LSIs here, they may be called system LSIs, VLSIs (Very Large Scale Integration), or ULSIs (Ultra Large Scale Integration) depending on the degree of integration.
  • An FPGA Field Programmable Gate Array
  • all or part of the components of the processing unit such as the voice control unit 220 provided in the speaker 200 may be configured with dedicated hardware, or a software program suitable for each component may be executed. may be realized by Each component may be implemented by a program execution unit such as a CPU or processor reading and executing a software program recorded in a recording medium such as an HDD or a semiconductor memory.
  • constituent elements of the processing unit may be composed of one or more electronic circuits.
  • general or specific aspects of the present disclosure may be implemented as a system, apparatus, method, integrated circuit, or computer program. Alternatively, it may be realized by a computer-readable non-temporary recording medium such as an optical disc, HDD, or semiconductor memory storing the computer program. Also, any combination of systems, devices, methods, integrated circuits, computer programs and recording media may be implemented.
  • the present disclosure can be applied to devices that control devices capable of outputting audio.
  • server device 110 acquisition unit 120 scenario determination unit 130 utterance body determination unit 140 determination unit 150 timing determination unit 160 output unit 170 storage unit 200, 201, 202, 203 utterance body 210 communication unit 220 voice control unit 230 voice output unit 500 voice Speech system 600 device

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本開示に係る音声制御方法は、音声を出力可能な複数の発話体のそれぞれが音声を出力しているか否かを判定する判定ステップ(S104)と、判定ステップでの判定結果に基づいて、当該複数の発話体のうち、少なくとも1つの発話体に音声をすぐに出力させるか、又は、音声を出力している発話体が当該音声の出力を終了するまで待機した後で当該少なくとも1つの発話体に音声を出力させるかのタイミングで、当該少なくとも1つの発話体に音声を出力させる出力ステップ(S106)と、を含む。

Description

音声制御方法、サーバ装置、及び、発話体
 本開示は、音声制御方法、サーバ装置、及び、発話体に関する。
 従来、家電等の電子機器において、音声を出力(発話)する装置がある(例えば、特許文献1参照)。
 特許文献1には、電子機器のユーザの属性情報と当該電子機器の属性情報との少なくとも一方に基づいて設定された特性情報に基づいて、当該電子機器が発話するための音声データを作成するサーバ装置が開示されている。
特開2015-164251号公報
 特許文献1に開示されているサーバ装置を備えるシステムのように、例えば、電化製品等の情報を音声でユーザに通知するシステムがある。この種のシステムには、ユーザにとって情報が聞き取りやすいことが要求される。そのためには、情報を音声でユーザに通知する発話体が、適切なタイミングで情報を音声でユーザに通知する必要がある。
 本開示は、発話体が適切なタイミングで情報を音声で通知できる音声制御方法等を提供する。
 本開示の一態様に係る音声制御方法は、音声を出力可能な複数の発話体のそれぞれが音声を出力しているか否かを判定する判定ステップと、前記判定ステップでの判定結果に基づいて、前記複数の発話体のうち、少なくとも1つの発話体に音声をすぐに出力させるか、又は、音声を出力している発話体が当該音声の出力を終了するまで待機した後で前記少なくとも1つの発話体に音声を出力させるかのタイミングで、前記少なくとも1つの発話体に音声を出力させる出力ステップと、を含む。
 また、本開示の一態様に係るサーバ装置は、音声を出力可能な複数の発話体のそれぞれが音声を出力しているか否かを判定する判定部と、前記判定部の判定結果に基づいて、前記複数の発話体のうち、少なくとも1つの発話体に音声をすぐに出力させるか、又は、音声を出力している発話体が当該音声の出力を終了するまで待機した後で前記少なくとも1つの発話体に音声を出力させるかのタイミングで、前記少なくとも1つの発話体に音声を出力させる出力部と、を備える。
 また、本開示の一態様に係る発話体は、音声を出力する音声出力部と、サーバ装置と通信するための通信部と、前記通信部を介して前記サーバ装置から受信した音声情報に基づいて、前記音声出力部から音声を出力させる音声制御部と、を備え、前記音声制御部は、前記音声出力部から音声を出力させているか否かを示す音声出力情報を、前記通信部を介して前記サーバ装置に送信し、前記サーバ装置から前記音声情報と、音声を出力させるタイミングを示すタイミング情報とを、前記通信部を介して受信し、受信した前記タイミング情報に基づくタイミングで、前記音声情報に基づく音声を前記音声出力部に出力させる。
 なお、これらの包括的又は具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なCD-ROM等の記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
 本開示によれば、発話体が適切なタイミングで情報を音声で通知できる音声制御方法等を提供できる。
図1は、実施の形態に係る音声発話システムの具体的な構成を示す模式図である。 図2は、実施の形態に係るサーバ装置の構成を示すブロック図である。 図3は、実施の形態に係るサーバ装置が発話体に発話文を音声で出力させるタイミングを決定する処理方法の第1例を説明するための図である。 図4は、実施の形態に係るサーバ装置が発話体に発話文を音声で出力させるタイミングを決定する処理方法の第2例を説明するための図である。 図5は、実施の形態に係るサーバ装置が発話体に発話文を音声で出力させるタイミングを決定する処理方法の第3例を説明するための図である。 図6は、実施の形態に係るサーバ装置が発話体に発話文を音声で出力させるタイミングを決定する処理方法の第4例を説明するための図である。 図7は、実施の形態に係るサーバ装置が発話体に発話文を音声で出力させるタイミングを決定する処理方法の第5例を説明するための図である。 図8は、実施の形態に係るサーバ装置の処理手順を示すフローチャートである。 図9は、実施の形態に係る発話体の処理手順を示すフローチャートである。
 以下では、本開示の実施の形態について、図面を用いて詳細に説明する。なお、以下に説明する実施の形態は、いずれも本開示の一具体例を示すものである。したがって、以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置及び接続形態、ステップ及びステップの順序等は、一例であり、本開示を限定する趣旨ではない。よって、以下の実施の形態における構成要素のうち、本開示の最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
 また、各図は、模式図であり、必ずしも厳密に図示されたものではない。また、各図において、同じ構成部材については同じ符号を付している。
 (実施の形態)
 [構成]
 図1は、実施の形態に係る音声発話システム500の具体的な構成を示す模式図である。
 音声発話システム500は、機器600において、処理の状態が変わったことを示す情報、故障を通知する情報、フィルタ等の部品の交換をユーザに促すための情報、機器600が有する機能をユーザに通知(おすすめ通知)するための情報等の情報が出力された場合に、当該情報を音声でユーザに通知(出力)する(言い換えると、当該情報を発話する)装置である。例えば、機器600が洗濯機であり、洗濯が終了したとする。この場合、例えば、機器600は、洗濯が終了したことを示す動作情報をサーバ装置100に送信する。サーバ装置100は、当該動作情報を受信した場合、音声を出力可能な機器である発話体200に、例えば、「洗濯が終わりましたよ」等の発話文を音声で出力するための音声ファイル(音声データ)を送信する。発話体200は、例えば、音声を出力するためのスピーカ等の機器を有し、受信した音声ファイルに基づいて、「洗濯が終わりましたよ」等の発話文を音声で出力する(つまり、発話する)。
 音声発話システム500は、1以上の機器600と、サーバ装置100と、1以上の発話体200と、を備える。
 機器600は、例えば、冷蔵庫、洗濯機、電子レンジ、照明装置、ドアホン等の電化製品等であって、機器600の情報を出力可能な機器(情報元機器)である。より具体的に例えば、機器600は、ユーザの宅内にある通信可能な電化製品(家電)である。機器600は、例えば、機器600を示す固有の識別子である識別情報、機器600の性能(スペック)等を示す機器情報、及び、処理(動作)した内容を示す動作情報、故障等の機器600の状態を示す状態情報等をサーバ装置100に送信する。なお、動作情報には、当該動作情報が示す動作内容を実行した機器600を示す機器情報が含まれていてもよい。
 また、機器600は、例えば、機器600のユーザを示す情報をサーバ装置100に送信する。当該ユーザを示す情報は、例えば、機器600が有する図示しないタッチパネル等のユーザからの入力を受け付ける受付部を介してユーザから受け付ける。
 なお、機器600は、例えば、スマートホン等の携帯端末とは異なる機器である。具体的には、機器600は、例えば、携帯端末とは異なり、複数のユーザに利用され得る(例えば、複数のユーザが利用することが想定された)機器である。
 スマートホン等の携帯端末は、利用するユーザが特定されている。そのため、携帯端末によってユーザに情報を通知する際に、携帯端末が別の情報をユーザに通知していたとしても、携帯端末のユーザが当該通知の対象者であるユーザだけである、つまり、携帯端末をユーザが占有していることが想定されるため、携帯端末は、ユーザに複数の通知をする場合においても、当該複数の通知を順番に行えばよい。
 一方、家電機器は、家族で共有されている等、通知の対象者であるユーザが占有しているとは限らず、他のユーザに占有されている可能性がある。そのため、このような家電機器である機器600に関する情報を特定のユーザに通知を行うためには、ユーザ以外に占有されている場合に通知を保留させる必要がある等の課題がある。
 そこで、音声発話システム500では、機器600のユーザに対して、適切に機器600に関する情報を通知できるように、例えば、機器600は、機器600の機器情報及び動作情報等とともに、機器600のユーザを示す情報をサーバ装置100に送信する。
 機器600は、例えば、サーバ装置100と通信するための通信インターフェースと、冷蔵、洗濯、加熱等の処理を実行する実行部と、機器600の状態を検出するためのセンサ等により実現される検出部と、機器600の各種処理を制御するプロセッサ及びメモリ等により実現される制御部と、を備える。
 サーバ装置100は、機器600から受信した情報に基づいて、発話体200に出力させる発話文(シナリオ)を決定し、作成した発話文を発話体200に音声で出力させる。例えば、サーバ装置100は、機器600から動作情報を受信した場合に、動作情報に応じた音声ファイル(音声データ)を選択して、選択した音声ファイルを通知情報(音声情報ともいう)として発話体200に送信することで、発話体200から当該音声ファイルに基づく音声を出力させる。
 発話文としては、機器600が動作を開始したことを示す文章、機器600が動作を終了したことを示す文章、他の機器600と連係して動作したことを示す文章、バージョンアップをユーザに促すための文章、機器600が有する機能の利用をユーザにおすすめするための文章、故障したことを示す文章等が例示される。
 サーバ装置100は、例えば、機器600、発話体200等の装置と通信するための通信インターフェース、プログラムが格納された不揮発性メモリ、プログラムを実行するための一時的な記憶領域である揮発性メモリ、信号の送受信をするための入出力ポート、プログラムを実行するプロセッサ等を備えるコンピュータにより実現される。
 発話体200は、エアコン(エアコンディショナ)、テレビ(テレビジョン)、自律走行型掃除機(いわゆる、ロボット掃除機)等の電化製品等であって、スピーカ等の音声を出力可能な部品を備える機器(スピーカ搭載家電)である。
 発話体200は、例えば、サーバ装置100から音声ファイル等の音声情報を受信した場合に、受信した音声情報に基づく音声を出力する。
 なお、図1には、機器600を3つ図示しているが、音声発話システム500が備える機器600の数は、1つでもよいし、複数でもよく、特に限定されない。
 また、図1には、発話体200を3つ図示しているが、音声発話システム500が備える発話体200の数は、1つでもよいし、複数でもよく、特に限定されない。
 サーバ装置100は、3つの機器600及び3つの発話体200のそれぞれと、インターネット等のネットワークを介して通信可能に接続されている。
 サーバ装置100と、3つの機器600及び3つの発話体200のそれぞれとは、LAN(Local Area Network)等を介して通信可能に接続されていてもよいし、無線通信可能に接続されていてもよい。
 また、サーバ装置100と、3つの機器600及び3つの発話体200のそれぞれとの通信に用いられる通信規格は、特に限定されない。通信規格としては、Wi-Fi(登録商標)、Bluetooth(登録商標)、又は、ZigBee(登録商標)等が例示される。
 3つの機器600及び3つの発話体200のそれぞれは、例えば、ユーザが居住する家屋内に配置されている。また、サーバ装置100は、例えば、家屋の外部に配置されている。
 図2は、実施の形態に係るサーバ装置100を示すブロック図である。なお、図2には、機器600を1つのみ代表して示しまた、図2には、発話体200を3つ示しているが、3つの発話体200を区別するために、発話体201、発話体202、発話体203と符号を付している。
 サーバ装置100は、取得部110と、シナリオ決定部120と、発話体決定部130と、判定部140と、タイミング決定部150と、出力部160と、記憶部170と、を備える。
 取得部110は、機器600の性能、種類、型番等の機器情報、及び、機器600の動作履歴(動作した内容)を示す動作情報等の機器600に関する情報を取得する処理部である。取得部110は、例えば、サーバ装置100が備える図示しない通信インターフェース等の通信部を介して機器600と通信することで、機器情報及び/又は動作情報を取得する。当該通信部は、例えば、機器600及び発話体200と通信するための通信インターフェースである。当該通信部は、例えば、発話体200及び機器600と有線通信する場合、通信線が接続されるコネクタ等により実現され、無線通信する場合、アンテナ及び無線通信回路等により実現される。
 なお、サーバ装置100がユーザからの入力を受け付けるマウス、キーボード等の受付装置を備える場合、当該受付装置を介して機器情報及び/又は動作情報を取得してもよい。
 取得部110は、取得した機器情報及び動作情報を記憶部170に記憶させたり、シナリオ決定部120に出力したりする。
 シナリオ決定部120は、取得部110が取得した動作情報が所定の条件を満たすか否かを判定し、発話体200に発話させる発話文を決定する処理部である。具体的には、シナリオ決定部120は、取得部110が取得した動作情報に基づいて、発話体200に音声を出力させるイベントが発生したか否かを判定する。例えば、記憶部170には、イベントが発生した(つまり、所定の条件を満たす)と判定する機器600の種類に応じた動作内容が記憶されている。例えば、シナリオ決定部120は、取得部110が取得した動作情報が示す動作内容と、記憶部170に記憶されているイベントが発生したと判定する機器600の種類に応じた動作内容とが一致するか否かを判定することで、発話体200に音声を出力させるイベントが発生したか否かを判定する。
 所定の条件は、機器600が動作を開始した、機器600が動作を終了した、他の機器600と連係して動作した、バージョンアップが可能となった、故障した等が例示される。
 なお、所定の条件は、予め任意に定められてよい。
 シナリオ決定部120は、例えば、取得部110が取得した動作情報が示す動作内容が所定の条件を満たすと判定した場合、当該動作情報に応じた発話文を決定する。例えば記憶部170には、動作内容と紐付けられた発話文が記憶されており、動作情報が示す動作内容が紐付けられた発話文を選択することで、発話体200に音声で出力させる発話文を決定する。
 発話体決定部130は、シナリオ決定部120が決定した発話文を複数の発話体200のうちのどの発話体200に音声で出力させるかを決定する処理部である。例えば、記憶部170には、機器600を示す機器情報と、発話体200を示す発話体情報とは、予め紐付けられて記憶されている。例えば、機器600の一例である第1機器の機器情報と、発話体201、202の発話体情報とが紐付けられている場合、第1機器の動作情報を取得部110が取得したとき、発話体201と発話体202とが当該動作情報に応じた発話文を音声で出力する。また、例えば、機器600の別の一例である第2機器の機器情報と、発話体201の発話体情報とが紐付けられている場合、第2機器の動作情報を取得部110が取得したとき、発話体201が当該動作情報に応じた発話文を音声で出力する。
 また、例えば、記憶部170には、機器600及び発話体200の所有者を示す所有者情報が機器情報及び発話体情報に紐付けられて記憶されている。この場合、例えば、発話体決定部130は、機器600の動作情報を取得部110が取得したと、機器600と所有者が同じ発話体200に当該動作情報に応じた発話文を音声で出力させるように、発話体200を決定する。このように、例えば、発話体決定部130は、機器情報、発話体情報、及び、所有者情報に基づいて、シナリオ決定部120が決定した発話文を、音声発話システム500が備える複数の発話体200のうちのどの発話体200に音声で出力させるかを決定する。
 なお、所有者情報は、予め記憶部170に記憶されていてもよい。或いは、例えば、取得部110は、ユーザから図示しないスマートホン等の受付装置で受け付けた所有者情報を上記した図示しない通信部を介して取得し、取得した所有者情報を記憶部170に記憶させてもよい。
 判定部140は、複数の発話体200のそれぞれが音声を出力しているか否かを判定する処理部である。例えば、判定部140は、発話体201、発話体202、及び、発話体203のそれぞれが、音声を出力しているか否かを判定する。
 なお、ここでいう複数の発話体200が音声を出力しているか否かとは、例えば、サーバ装置100が発話文を発話体200に音声で出力されているか否かを示す。例えば、発話体200によっては、自装置の情報を通知するために音声を出力していたり、発話体200がテレビである場合には、映像にあわせて音声を出力している場合がある。このように、判定部140が判定する発話体200が出力している音声は、サーバ装置100が発話体200に出力させている音声(発話文に基づく音声)以外の音声については、含まれていてもよいし、含まれていなくてもよい。
 例えば、判定部140は、発話体201、発話体202、及び、発話体203のそれぞれに、シナリオ決定部120が決定した発話文を音声で出力させているか否かを判定する。例えば、判定部140は、後述するタイミング決定部150が決定したタイミングと、シナリオ決定部120が決定した発話文の長さとから、発話体201、発話体202、及び、発話体203のそれぞれが、音声を出力しているか否かを判定する。発話文の長さに応じた音声の出力時間は、例えば、予め記憶部170に記憶されていてもよいし、一音を出力するために係る時間等を示す情報が予め記憶部170に記憶されていて、当該情報と発話文とから発話文を音声で出力するために係る時間を算出してもよい。或いは、判定部140は、上記したサーバ装置100が備える上記した図示しない通信部を介して発話体201、発話体202、及び、発話体203のそれぞれと通信することで、発話体201、発話体202、及び、発話体203のそれぞれが発話しているか否かを示す情報(音声出力情報)を取得してもよい。
 タイミング決定部150は、判定部140の判定結果に基づいて、複数の発話体200のうち、少なくとも1つの発話体200に音声をすぐに出力させるか、又は、音声を出力している発話体200が当該音声の出力を終了するまで待機した後で少なくとも1つの発話体200に音声を出力させるかのタイミングを決定する処理部である。
 例えば、タイミング決定部150は、発話体決定部130が複数の発話体200に発話文(より具体的には、同じ発話文)を音声で出力させると決定した場合、当該複数の発話体200のうち、音声を出力していない第1発話体については、当該第1発話体にすぐに音声を出力させるタイミングを決定し、当該複数の発話体200のうち、音声を出力している第2発話体については、当該音声の出力を終了するまで待機した後で当該第2発話体に音声を出力させるタイミングを決定する。
 或いは、例えば、タイミング決定部150は、発話体決定部130が複数の発話体200に発話文(より具体的には、同じ発話文)を音声で出力させると決定した場合、当該複数の発話体200のうち、少なくともいずれかの発話体200が音声を出力しているとき、当該少なくともいずれかの発話体200が音声の出力を終了してから当該少なくとも1つの発話体200に音声を出力させるタイミングを決定する。
 或いは、例えば、タイミング決定部150は、複数の発話体200のそれぞれの所有者を示す所有者情報を取得し、複数の発話体200のうち、音声を出力させる少なくとも1つの発話体200と同じ所有者が所有する発話体200が音声を出力している場合、当該発話体200が音声の出力を終了してから当該少なくとも1つの発話体200に音声を出力させるタイミングを決定する。
 この場合、例えば、タイミング決定部150は、複数の発話体200のうち、音声で出力させる発話文の対象となるユーザが所有する、当該発話文を音声で出力させる少なくとも1つの発話体200と同じ所有者が所有する発話体200が音声を出力している場合、当該発話体が音声の出力を終了してから当該少なくとも1つの発話体200に音声を出力させるタイミングを決定する。サーバ装置100は、例えば、機器600から動作情報を取得した場合、当該動作情報に基づく発話文を、機器600の所有者であるユーザに当該発話文を通知するために、当該発話文の対象(通知対象)となるユーザが所有する発話体200、つまり、機器600の所有者と同じ所有者の発話体200に音声で出力させる。例えば、このようなときに、タイミング決定部150は、発話文を音声で出力させる少なくとも1つの発話体200(例えば、発話体201)と所有者が同じユーザである発話体200(例えば、発話体202)が音声を出力しているか否かに基づいて、当該少なくとも1つの発話体200(例えば、発話体201)に音声を出力させるタイミングを決定する。
 或いは、例えば、タイミング決定部150は、複数の発話体200のそれぞれの所有者を示す所有者情報を取得し、音声を出力させる少なくとも1つの発話体200の所有者が第1ユーザ及び第2ユーザである場合、複数の発話体200のうち、第1ユーザ及び第2ユーザの少なくとも一方が所有者である発話体200が音声を出力しているとき、当該少なくとも一方が所有者である発話体200が音声の出力を終了してから、少なくとも一方が所有者である少なくとも1つの発話体200に音声を出力させるタイミングを決定する。
 或いは、例えば、タイミング決定部150は、複数の発話体200のそれぞれの所有者を示す所有者情報を取得し、音声を出力させる少なくとも1つの発話体200が、第1ユーザ及び第2ユーザのうち第1ユーザが所有者であって、複数の発話体200において、第1ユーザが所有する1以上の発話体200のうち、少なくともいずれかの発話体200を第2ユーザが所有する場合、第2ユーザが所有する発話体200が音声を出力しているとき、当該第2ユーザが所有する発話体200が音声の出力を終了してから音声を出力させる少なくとも1つの発話体200に音声を出力させるタイミングを決定する。
 なお、タイミング決定部150は、音声をすぐに出力させることを示す情報、又は、発話体200が音声の出力を終了するまで待機した後で音声を出力させる指示を示す情報をタイミング情報として音声情報とともに後述する出力部160に出力させてもよい。或いは、例えば、タイミング決定部150は、音声を出力させる時刻を示す情報、又は、音声情報を受信してからの音声を出力させるまでの時間を示す情報等をタイミング情報として音声情報とともに出力部160に出力させてもよい。
 タイミング決定部150が発話体200に発話文を音声で出力させるタイミングを決定する処理方法の具体例については、後述する。
 出力部160は、発話体200の音声の出力を制御する処理部である。具体的には、出力部160は、判定部140の判定結果に基づいて、複数の発話体200のうち、少なくとも1つの発話体に音声をすぐに出力させるか、又は、音声を出力している発話体200が当該音声の出力を終了するまで待機した後で当該少なくとも1つの発話体200に音声を出力させるかのタイミングで、当該少なくとも1つの発話体200に音声を出力させる。より具体的には、出力部160は、シナリオ決定部120が決定した発話文を、発話体決定部130が決定した少なくとも1つの発話体200に、タイミング決定部150が決定したタイミングで、音声で出力させる。例えば、出力部160は、当該発話文を音声で1以上の発話体200に出力させるための情報である音声情報と、タイミング決定部150が決定したタイミングを示すタイミング情報とを、サーバ装置100が備える上記した図示しない通信部を介して、発話体決定部130が決定した1以上の発話体200に送信する。
 音声情報は、機器600の動作情報に応じた発話文を発話体200に音声で出力させるための情報である。例えば、音声情報は、機器600の動作情報に応じた音声ファイル(音声データ)である。音声ファイルは、例えば、動作内容と紐付けられて記憶部170に記憶されている。
 例えば、出力部160は、取得部110が取得した動作情報に基づいてシナリオ決定部120が決定した発話文に応じた音声ファイルを記憶部170から取得し、取得した音声ファイルを音声情報として発話体200に出力(送信)する。
 これにより、ユーザによって設定(選択)された発話文は、所定の条件(例えば、機器600が所定の動作を実行した、所定の状態になった等)を満たす場合に、発話体決定部130が決定した1以上の発話体200から当該発話文が音声としてタイミング決定部150が決定したタイミングで出力される。
 なお、サーバ装置100は、上記した音声情報をサーバ装置100とは異なる他のサーバ装置等のコンピュータから音声情報を受信してもよい。例えば、記憶部170は、音声ファイルに対応したURL(Uniform Resource Locator)を示す情報を記憶していてもよい。例えば、シナリオ決定部120は、発話文を決定した後に、決定した発話文に応じた音声情報に対応するURLを示す情報を当該他のサーバ装置に送信することで、当該音声情報を取得してもよい。
 取得部110と、シナリオ決定部120と、発話体決定部130と、判定部140と、タイミング決定部150と、出力部160との各処理部は、メモリと、当該メモリに記憶された制御プログラムと、当該制御プログラムを実行するCPU(Central Processing Unit)等のプロセッサとから実現される。また、これらの処理部は、1つのメモリ及び1つのプロセッサから実現されてもよいし、互いに異なる又は任意の組み合わせで複数のメモリ及び複数のプロセッサによって実現されてもよい。また、これらの処理部は、例えば、専用の電子回路等により実現されてもよい。
 記憶部170は、機器600を示す機器情報と、発話体200を示す発話体情報と、機器600及び発話体200の所有者を示す所有者情報と、複数の発話文を示す情報(シナリオ情報)と、を記憶する記憶装置である。また、記憶部170は、発話文に応じた音声ファイルを記憶していてもよい。
 記憶部170は、例えば、HDD(Hard Disk Drive)、又は、フラッシュメモリ等により実現される。
 なお、例えば、記憶部170には、音声で出力させる発話文を示す設定情報が記憶されていてもよい。設定情報は、記憶部170に記憶されている1以上の発話文(より具体的には、発話文を示す情報)のうち、ユーザによって音声で出力させると設定された発話文を示す情報である。ユーザによっては、音声で通知されたい情報と音声で通知される必要がない情報とがある場合がある。そこで、例えば、取得部110は、ユーザから図示しないスマートホン等の受付装置で受け付けた発話文を音声で出力するか否かを示す情報を設定情報として上記した図示しない通信部を介して取得し、取得した設定情報を記憶部170に記憶させる。例えば、シナリオ決定部120は、取得部110が動作情報を取得した場合、記憶部170に記憶されている設定情報に基づいて、当該動作情報に関する発話文を発話体200に音声で出力させるか否かを判定してもよい。設定情報は、ユーザごとに設定されていてもよい。
 発話体200は、上記した通り、例えば、エアコン、テレビ、自律走行型掃除機等の電化製品等であって、スピーカ等の音声を出力可能な部品を備える機器である。発話体200は、例えば、サーバ装置100から受信した音声ファイル等の音声情報に基づく音声を出力する。
 なお、発話文及び当該発話文に応じた音声ファイルは、HDD等の図示しない記憶部に記憶され、当該記憶部を発話体200が備えてもよい。この場合、例えば、出力部160は、発話体200に音声で出力させる発話文を示す情報、又は、当該発話文と紐付く音声ファイルを示す情報を音声情報として発話体200に送信してもよい。この場合、例えば、発話体200は、当該記憶部に記憶している1以上の音声ファイルの中から、音声を出力するための音声ファイルを受信した音声情報に基づいて選択し、選択した音声ファイルに基づく音声を出力する。
 発話体200は、例えば、スピーカ、アンプ、サーバ装置100から受信した音声情報に基づく音声を当該スピーカから出力させるための制御プログラムが記憶されたメモリ、当該制御プログラムを実行するプロセッサ、サーバ装置100と通信するための通信インターフェースを備える。当該通信インターフェースは、例えば、発話体200がサーバ装置100と有線通信する場合、通信線が接続されるコネクタ等により実現され、無線通信する場合、アンテナ及び無線通信回路等により実現される。
 発話体200は、例えば、通信部210と、音声制御部220と、音声出力部230と、を備える。
 通信部210は、サーバ装置100と通信するための通信インターフェースである。
 音声制御部220は、通信部210を介してサーバ装置100(より具体的には、出力部160)から受信(取得)した音声情報に基づいて、音声出力部230から音声を出力させる処理部である。具体的には、音声制御部220は、音声出力部230から音声を出力させているか否かを示す音声出力情報を、通信部210を介してサーバ装置100に送信し、サーバ装置100から音声情報と、音声を出力させるタイミングを示すタイミング情報とを、通信部210を介して受信し、受信したタイミング情報に基づくタイミングで、音声情報に基づく音声を音声出力部230に出力させる。
 音声制御部220は、メモリと、当該メモリに記憶された制御プログラムと、当該制御プログラムを実行するCPU等のプロセッサとから実現される。また、音声制御部220は、例えば、専用の電子回路等により実現されてもよい。
 音声出力部230は、音声制御部220によって制御されて音声を出力する装置である。音声出力部230は、例えば、スピーカ等により実現される。
 [具体例]
 続いて、タイミング決定部150が発話体200に発話文を音声で出力させるタイミングを決定する処理方法の具体例について説明する。なお、以下で説明する第1例~第5例では、発話体201と発話体202とは、ユーザAが所有者であるとして説明する。また、以下で説明する第1例~第5例では、発話体202と発話体203とは、ユーザBが所有者であるとして説明する。つまり、発話体202は、ユーザAとユーザBとに共有されている。また、以下で説明する第1例~第5例では、ユーザBに対して情報を音声で出力させる場合を示す。
 <第1例>
 図3は、実施の形態に係るサーバ装置100が発話体200に発話文を音声で出力させるタイミングを決定する処理方法の第1例を説明するための図である。
 本例では、発話体202及び発話体203に発話文を音声でこれから出力させ、且つ、発話体202が音声を出力しているとする。つまり、本例では、発話体202及び発話体203が発話候補であり、且つ、発話体202が発話中である。
 この場合、タイミング決定部150は、発話中の発話体202には、発話が終了するまで待機した後に音声を出力させるようにタイミングを決定する。一方、タイミング決定部150は、発話していない発話体203には、発話文をすぐに発話させるようにタイミングを決定する。そのため、本例では、同じ発話文を発話する発話体202と発話体203とは、異なるタイミングで発話文を発話する。
 このように、第1例では、タイミング決定部150は、2以上の発話体200のうち、音声を出力していない第1発話体については、当該第1発話体にすぐに音声を出力させるようにタイミングを決定し、当該2以上の発話体200のうち、音声を出力している第2発話体については、当該音声の出力を終了するまで待機した後で当該第2発話体に音声を出力させるようにタイミングを決定する。
 なお、発話候補となる発話体200は、所有者がユーザAでもユーザBでもよく、所有者が特に限定されない。例えば、ユーザBに対しての情報を音声で出力させる場合、発話体200は、ユーザBが所有する発話体202及び発話体203の少なくとも一方であるとよい。
 <第2例>
 図4は、実施の形態に係るサーバ装置100が発話体200に発話文を音声で出力させるタイミングを決定する処理方法の第2例を説明するための図である。
 本例では、発話体202及び発話体203に発話文を音声でこれから出力させ、且つ、発話体202が音声を出力しているとする。つまり、本例では、発話体202及び発話体203が発話候補であり、且つ、発話体202が発話中である。
 この場合、タイミング決定部150は、発話中の発話体202には、発話が終了するまで待機した後に発話させるようにタイミングを決定する。また、タイミング決定部150は、発話していない発話体203についても、発話体202の発話が終了するまで待機した後に発話させるようにタイミングを決定する。そのため、本例では、同じ発話文を発話する発話体202と発話体203とは、同じタイミングで発話文を発話する。
 このように、第2例では、タイミング決定部150は、いずれも発話候補である2以上の発話体200のうち、少なくともいずれかの発話体200が音声を出力している場合、当該少なくともいずれかの発話体200が音声の出力を終了してから2以上の発話体200に音声を出力させるように(例えば、同じ発話文が音声で出力されるタイミングが同時になるように)タイミングを決定する。
 <第3例>
 図5は、実施の形態に係るサーバ装置100が発話体200に発話文を音声で出力させるタイミングを決定する処理方法の第3例を説明するための図である。
 本例では、発話体203に発話文を音声でこれから出力させ、且つ、発話体202が音声を出力しているとする。つまり、本例では、発話体203が発話候補であり、且つ、発話体202が発話中である。
 本例では、タイミング決定部150は、発話体201、発話体202、及び、発話体203のそれぞれの所有者情報を取得することで、発話体203と所有者が同じユーザBである発話体200を特定する。本例では、タイミング決定部150は、発話体203と所有者が同じユーザBである発話体202を特定する。また、例えば、タイミング決定部150は、発話候補の発話体203と所有者が同じ発話体202が発話している場合、発話体202が発話を終了してから発話体203に発話させるようにタイミングを決定する。一方、例えば、タイミング決定部150は、発話候補の発話体203と所有者が同じ発話体202が発話しておらず、且つ、発話候補の発話体203と所有者が異なる発話体201が発話しているとしても、すぐに発話体203に発話させるようにタイミングを決定する。
 このように、第3例では、タイミング決定部150は、複数の発話体200のそれぞれの所有者を示す所有者情報を取得し、複数の発話体200のうち、音声を出力させる少なくとも1つの発話体200と同じ所有者が所有する発話体200が音声を出力している場合、当該発話体200が音声の出力を終了してから当該少なくとも1つの発話体200に音声を出力させるようにタイミングを決定する。
 なお、例えば、判定部140は、発話体201、発話体202、及び、発話体203のそれぞれの所有者情報を取得し、発話体203と、発話体203と所有者が同じユーザBである発話体202とのそれぞれが発話中であるか否かを判定してもよいし、音声発話システム500が備える全ての発話体である発話体201、発話体202、及び、発話体203のそれぞれについて発話中であるか否かを判定してもよい。
 <第4例>
 図6は、実施の形態に係るサーバ装置100が発話体200に発話文を音声で出力させるタイミングを決定する処理方法の第4例を説明するための図である。
 本例では、発話体202に発話文を音声でこれから出力させ、且つ、発話体201が音声を出力しているとする。つまり、本例では、発話体202が発話候補であり、且つ、発話体201が発話中である。
 本例では、タイミング決定部150は、発話体201、発話体202、及び、発話体203のそれぞれの所有者情報を取得することで、発話体202と所有者が同じユーザA及びユーザBの少なくとも一方である発話体200を特定する。本例では、タイミング決定部150は、発話体202と所有者が同じユーザAである発話体201と、発話体202と所有者が同じユーザBである発話体203と、を特定する。また、例えば、タイミング決定部150は、発話候補の発話体202と所有者が少なくとも1人は同じ発話体201及び発話体203の少なくとも一方が発話している場合、発話体201及び発話体203の両方が発話を終了してから発話体202に発話させるようにタイミングを決定する。本例では、タイミング決定部150は、発話候補の発話体202と所有者が少なくとも1人は同じ発話体201が発話しているため、発話体201が発話を終了してから発話体202に発話させるようにタイミングを決定する。そのため、本例では、例えば、タイミング決定部150は、発話候補の発話体202と所有者が少なくとも1人は同じ発話体201が発話しておらず、且つ、発話候補の発話体202と所有者が少なくとも1人は同じ発話体203が発話している場合には、発話体203が発話を終了してから発話体202に発話させるようにタイミングを決定する。
 このように、第4例では、タイミング決定部150は、複数の発話体200のそれぞれの所有者を示す所有者情報を取得し、音声を出力させる少なくとも1つの発話体200の所有者が第1ユーザ及び第2ユーザである場合、複数の発話体200のうち、第1ユーザ及び第2ユーザの少なくとも一方が所有者である発話体200が音声を出力しているとき、当該少なくとも一方が所有者である発話体200が音声の出力を終了してから、少なくとも一方が所有者である少なくとも1つの発話体200に音声を出力させるようにタイミングを決定する。
 <第5例>
 図7は、実施の形態に係るサーバ装置100が発話体200に発話文を音声で出力させるタイミングを決定する処理方法の第5例を説明するための図である。
 本例では、発話体203に発話文を音声でこれから出力させ、且つ、発話体201が音声を出力しているとする。つまり、本例では、発話体203が発話候補であり、且つ、発話体201が発話中である。
 本例では、タイミング決定部150は、発話体201、発話体202、及び、発話体203のそれぞれの所有者情報を取得することで、発話体203と所有者が同じユーザBが所有する発話体202及び発話体203について、ユーザB以外の所有者がいるか否かを判定する。本例では、ユーザBが所有する発話体202は、ユーザAも所有しているため、ユーザBが所有する発話体202及び発話体203について、ユーザB以外の所有者がいると判定する。さらに、タイミング決定部150は、ユーザBが所有する発話体202及び発話体203について、ユーザB以外の所有者がいると判定した場合、当該ユーザB以外の所有者が所有する発話体200を特定する。本例では、タイミング決定部150は、ユーザBが所有する発話体202及び発話体203について、ユーザB以外の所有者であるユーザAが所有する発話体201を特定する。また、例えば、タイミング決定部150は、特定した発話体200が発話している場合、特定した発話体200が発話を終了してから発話体203に発話させるようにタイミングを決定する。本例では、タイミング決定部150は、特定した発話体201が発話しているため、特定した発話体201が発話を終了してから発話体203に発話させるようにタイミングを決定する。
 このように、第5例では、タイミング決定部150は、複数の発話体200のそれぞれの所有者を示す所有者情報を取得し、音声を出力させる少なくとも1つの発話体200が、第1ユーザ(例えば、ユーザB)及び第2ユーザ(例えば、ユーザA)のうち、第1ユーザが所有者であって、複数の発話体200において、第1ユーザが所有する1以上の発話体200のうち、少なくともいずれかの発話体200を第2ユーザが所有する場合、第2ユーザが所有する発話体200が音声を出力しているとき、当該第2ユーザが所有する発話体200が音声の出力を終了してから音声を出力させる少なくとも1つの発話体200に音声を出力させるようにタイミングを決定する。
 なお、上記した第1例、第2例、第3例、第4例、及び、第5例は、可能な範囲で任意に組み合わされて実現されてもよい。
 例えば、上記した第5例において、第1ユーザが所有する一の発話体200から音声を出力させる場合に、第1ユーザが所有する他の発話体200が発話中である否かの判定が行われてもよい。例えば、当該他の発話体200が発話中である場合、当該他の発話体200が音声の出力を終了するまで待機した後で当該一の発話体200に音声を出力させる。ここで、当該一の発話体200の所有者が第1ユーザだけでなく第2ユーザも含まれる場合、第1ユーザが所有する他の発話体200が発話中ではないとき、さらに、第2ユーザが所有する発話体200が発話中である否かの判定が行われてもよい。この場合、例えば、第1ユーザが所有する他の発話体200が発話中ではなく、且つ、第2ユーザが所有する発話体200が発話中ではないとき、当該一の発話体200に音声を出力させる。一方、第2ユーザが所有する発話体200が発話中である場合、第2ユーザが所有する発話体200が音声の出力を終了するまで待機した後で当該一の発話体200に音声を出力させる。
 [処理手順]
 続いて、サーバ装置100が実行する処理の処理手順について説明する。
 図8は、実施の形態に係るサーバ装置100の処理手順を示すフローチャートである。
 まず、シナリオ決定部120は、取得部110が、機器600から機器600の動作情報を取得したか否かを判定する(S101)。
 シナリオ決定部120は、取得部110が動作情報を取得していないと判定した場合(S101でNo)、処理をステップS101に戻す。
 一方、シナリオ決定部120は、取得部110が動作情報を取得したと判定した場合(S101でYes)、動作情報に基づいて、発話文を決定する(S102)。
 次に、発話体決定部130は、例えば、動作情報が示す動作を実行した機器600を示す機器情報に基づいて、シナリオ決定部120が決定した発話文を音声で出力させる少なくとも1つの発話体200を決定する(S103)。
 次に、判定部140は、音声発話システム500が備える複数の発話体200(より具体的には、記憶部170に発話体200を示す発話体情報が記憶されている発話体200)が音声を出力しているか否かを判定する(S104)。
 次に、タイミング決定部150は、判定部140の判定結果に基づいて、複数の発話体200のうち、少なくとも1つの発話体200に音声をすぐに出力させるか、又は、音声を出力している複数の発話体200が当該音声の出力を終了するまで待機した後で少なくとも1つの発話体200に音声を出力させるかのタイミングを決定する(S105)。タイミング決定部150は、例えば、上記した第1例~第5例のいずれかの判定方法を用いて、発話体決定部130が決定した少なくとも1つの発話体200に音声を出力させるタイミングを決定する。
 次に、出力部160は、シナリオ決定部120が決定した発話文を、発話体決定部130が決定した少なくとも1つの発話体200に、タイミング決定部150が決定したタイミングで、音声で出力させる(S106)。
 なお、ステップS101で扱う情報は、機器600の動作情報だけではなく、機器600のバージョンアップを示す情報、故障したことを示す情報等、ユーザに通知するための情報であれば、任意の情報でよい。ステップS102以降の処理についても、機器600のバージョンアップを示す情報、故障したことを示す情報等、ユーザに通知するための情報に基づいて、発話文を決定して当該発話文を発話体200から音声で出力させてもよい。
 続いて、発話体200が実行する処理の処理手順について説明する。
 図9は、実施の形態に係る発話体200の処理手順を示すフローチャートである。
 まず、音声制御部220は、音声出力部230から音声を出力させているか否かを示す音声出力情報を、通信部210を介してサーバ装置100に送信する(S201)。音声制御部220がステップS201を実行するタイミングは、特に限定されない。音声制御部220は、予め任意に定められる所定の周期で繰り返しステップS201を実行してもよいし、サーバ装置100から音声出力情報を要求する情報を受信した場合にステップS201を実行してもよい。
 なお、音声制御部220は、発話が終了したこと(つまり、音声出力部230から音声を出力させ終わったこと)を示す情報を音声出力情報として、通信部210を介してサーバ装置100に送信してもよい。
 これによれば、発話体200に発話を開始させたことはサーバ装置100でも把握できるため、いつ発話が終了したかさえ分かれば、それぞれの発話体200が発話中であるか否かをサーバ装置100が適切に判定できる。
 また、サーバ装置100は、発話が終了したことを示す音声出力情報が所定の時間受信されない場合、発話体200の発話が終了していると判定してもよい。
 サーバ装置100は、例えば、受信した音声出力情報に基づいて、図8に示すステップS104を実行し、さらに、音声ファイル等の音声情報及びタイミング情報を送信する。
 次に、音声制御部220は、サーバ装置100から音声情報と、音声を出力させるタイミングを示すタイミング情報とを、通信部210を介して受信する(S202)。
 次に、音声制御部220は、ステップS202で受信したタイミング情報に基づくタイミングで、音声情報に基づく音声を音声出力部230に出力させる(S203)。
 [効果等]
 以上のように、実施の形態に係る音声制御方法は、音声を出力可能な複数の発話体200が音声を出力しているか否かを判定する判定ステップ(S104)と、判定ステップでの判定結果に基づいて、複数の発話体200のうち、少なくとも1つの発話体200に音声をすぐに出力させるか、又は、音声を出力している発話体200が当該音声の出力を終了するまで待機した後で当該少なくとも1つの発話体200に音声を出力させるかのタイミングで、当該少なくとも1つの発話体200に音声を出力させる出力ステップ(S106)と、を含む。
 これによれば、例えば、複数の発話体200から同時に音声を出力させることで、ユーザが音声を聞き取りにくくなるようなタイミングを避けて発話体200から音声を出力させることができる。このように、実施の形態に係る音声制御方法によれば、発話体200が適切なタイミングで情報を音声で通知できる。
 また、例えば、実施の形態に係る音声制御方法は、さらに、判定ステップでの判定結果に基づいて、複数の発話体200のうち、少なくとも1つの発話体200に音声をすぐに出力させるか、又は、音声を出力している発話体200が当該音声の出力を終了するまで待機した後で当該少なくとも1つの発話体200に音声を出力させるかのタイミングを決定するタイミング決定ステップ(S105)を含む。この場合、例えば、出力ステップでは、タイミング決定ステップで決定したタイミングで、当該少なくとも1つの発話体200に音声を出力させる。
 これにより、出力ステップでは、判定ステップでの判定結果に基づいて、複数の発話体200のうち、少なくとも1つの発話体200に音声をすぐに出力させるか、又は、音声を出力している発話体200が当該音声の出力を終了するまで待機した後で当該少なくとも1つの発話体200に音声を出力させるかのタイミングで、当該少なくとも1つの発話体200に音声を出力させることができる。
 また、例えば、タイミング決定ステップでは、複数の発話体200のうち、音声を出力していない第1発話体については、当該第1発話体にすぐに音声を出力させるタイミングを決定し、複数の発話体200のうち、音声を出力している第2発話体については、当該音声の出力を終了するまで待機した後で当該第2発話体に音声を出力させるタイミングを決定する。
 これによれば、発話文を音声で出力させる際に、現在音声を出力しているか否かにより発話体200が音声を出力するか否かが決定される、そのため、タイミング決定の処理が簡便になる。
 また、例えば、タイミング決定ステップでは、複数の発話体200のうち、少なくともいずれかの発話体200が音声を出力している場合、当該少なくともいずれかの発話体200が音声の出力を終了してから当該少なくとも1つの発話体200に音声を出力させるタイミングを決定する。
 これによれば、ユーザは、同じ情報を同じタイミングで聞くことができる。そのため、同じ情報を同じタイミングで聞くことによってユーザに誤解が生じたり、ユーザに不快に感じさせたりすることが抑制される。
 また、例えば、タイミング決定ステップでは、複数の発話体200のそれぞれの所有者を示す所有者情報を取得し、複数の発話体200のうち、音声を出力させる少なくとも1つの発話体200と同じ所有者が所有する発話体200が音声を出力している場合、当該音声を出力している発話体200が音声の出力を終了してから当該少なくとも1つの発話体に音声を出力させるタイミングを決定する。
 複数の発話体200のうち、同じユーザが所有する発話体200からは、当該ユーザに対する情報が音声で出力されている可能性が高い。そのため、同じユーザが所有する複数の発話体200のそれぞれから異なる発話文を同じタイミングで音声で出力させると、ユーザは複数の情報を同時に聞く必要があり、情報を正しく聞き取れなくなる可能性がある。そこで、複数の発話体200のうち、音声を出力させる少なくとも1つの発話体200と同じ所有者が所有する発話体200が音声を出力している場合、当該発話体200が音声の出力を終了してから当該少なくとも1つの発話体200に音声を出力させるようにタイミングを決定することで、同じユーザに対して異なる情報を同じタイミングで通知してしまうことが抑制される。
 また、例えば、タイミング決定ステップでは、複数の発話体200のうち、音声で出力させる発話文の対象となるユーザが所有する当該少なくとも1つの発話体200と同じ所有者が所有する発話体200が音声を出力している場合、当該発話体200が音声の出力を終了してから当該少なくとも1つの発話体200に音声を出力させるタイミングを決定する。
 これによれば、同じユーザに対して異なる情報を同じタイミングで通知してしまうことがさらに抑制される。
 また、例えば、タイミング決定ステップでは、複数の発話体200のそれぞれの所有者を示す所有者情報を取得し、音声を出力させる少なくとも1つの発話体200の所有者が第1ユーザ及び第2ユーザである場合、当該複数の発話体200のうち、第1ユーザ及び第2ユーザの少なくとも一方が所有者である発話体200が音声を出力しているとき、当該音声を出力している発話体200が音声の出力を終了してから当該少なくとも1つの発話体200に音声を出力させるタイミングを決定する。
 例えば、図6に示すように、所有者がユーザAである発話体201が音声を出力しているときに、さらに、ユーザAも所有する発話体202から音声を出力させると、ユーザAは、発話体202から出力させる音声の情報がユーザBに対する情報であったとしても、音声が聞き取りにくくなる懸念がある。そこで、複数の発話体200のうち、第1ユーザ及び第2ユーザの少なくとも一方が所有者である発話体200が音声を出力しているとき、当該少なくとも一方が所有者である発話体200が音声の出力を終了してから、少なくとも一方が所有者である少なくとも1つの発話体200に音声を出力させるようにタイミングを決定することで、第1ユーザ及び第2ユーザのいずれにとっても情報が正しく聞き取れなくなることが抑制され得る。
 また、例えば、タイミング決定ステップでは、複数の発話体200のそれぞれの所有者を示す所有者情報を取得し、音声を出力させる少なくとも1つの発話体200が、第1ユーザ及び第2ユーザのうち第1ユーザが所有者であって、複数の発話体200において、第1ユーザが所有する1以上の発話体200のうち、少なくともいずれかの発話体200を第2ユーザが所有する場合、第2ユーザが所有する発話体200が音声を出力しているとき、当該音声を出力している発話体200が音声の出力を終了してから当該少なくとも1つの発話体200に音声を出力させるタイミングを決定する。
 例えば、図7に示すように、ユーザAとユーザBとが同じ発話体202を共有している場合、ユーザAとユーザBとは、同じ空間にいることが多い可能性が高い。つまり、ユーザAが所有している発話体200とユーザBが所有している発話体200とは、同じ空間に配置されている可能性が高い。そのため、ユーザAが所有している発話体200とユーザBが所有している発話体200とに同時に音声を出力させると、ユーザAに対する情報であってもユーザBに対する情報であっても聞き取りにくくなる可能性がある。そこで、音声を出力させる少なくとも1つの発話体200が、第1ユーザ及び第2ユーザのうち、第1ユーザが所有者であって、複数の発話体200において、第1ユーザが所有する1以上の発話体200のうち、少なくともいずれかの発話体200を第2ユーザが所有する場合、第2ユーザが所有する発話体200が音声を出力しているとき、当該第2ユーザが所有する発話体200が音声の出力を終了してから音声を出力させる少なくとも1つの発話体200に音声を出力させるようにタイミングを決定することで、同じ空間に位置する発話体200から同時に音声を出力させてしまうことを抑制できる。
 また、実施の形態に係るサーバ装置100は、音声を出力可能な複数の発話体200のそれぞれが音声を出力しているか否かを判定する判定部140と、判定部140の判定結果に基づいて、複数の発話体200のうち、少なくとも1つの発話体200に音声をすぐに出力させるか、又は、音声を出力している発話体200が当該音声の出力を終了するまで待機した後で当該少なくとも1つの発話体200に音声を出力させるかのタイミングで、当該少なくとも1つの発話体200に音声を出力させる出力部160と、を備える。
 これによれば、上記した実施の形態に係る音声制御方法と同様の効果を奏する。
 また、実施の形態に係る発話体200は、音声を出力する音声出力部230と、サーバ装置100と通信するための通信部210と、通信部210を介してサーバ装置100から受信した音声情報に基づいて、音声出力部230から音声を出力させる音声制御部220と、を備える。音声制御部220は、音声出力部230から音声を出力させているか否かを示す音声出力情報を、通信部210を介してサーバ装置100に送信し、サーバ装置100から音声情報と、音声を出力させるタイミングを示すタイミング情報とを、通信部210を介して受信し、受信したタイミング情報に基づくタイミングで、音声情報に基づく音声を音声出力部230に出力させる。
 これによれば、発話体200は、サーバ装置100から受信した音声情報に基づく音声を、他の音声ととも出力してユーザに聞き取りにくくさせてしまうことを抑制できる。
 (その他の実施の形態)
 以上、本開示に係る音声制御方法等について、実施の形態に基づいて説明したが、本開示は、上記実施の形態に限定されるものではない。
 例えば、機器600と発話体200とは、同じ機器でもよいし、異なる機器でもよい。つまり、機器情報及び動作情報等をサーバ装置100に送信する装置と、サーバ装置100に制御されて発話文を音声で出力する装置とは、同じ装置でもよいし、異なる装置でもよい。
 また、例えば、サーバ装置100は、機器600に関する機器情報及び動作情報を、機器600ではなく他のサーバ装置等から取得してもよい。また、サーバ装置100は、当該他のサーバ装置から、機器600を利用しているユーザが利用する運輸サービス、天気情報、又は、防災情報等の情報を取得して、これらの情報を発話体200から発話させてもよい。また、例えば、サーバ装置100は、ユーザが利用している、上記した運輸サービス等のサービス情報をユーザが所有する発話体200に発話させてもよい。例えば、サーバ装置100は、他のサーバ装置等から上記したサービス情報を受信した場合、「明日の午前中にお届け予定の荷物が1つあります」等の音声を、ユーザが所有する発話体200から発話させてもよい。サーバ装置100は、ユーザが利用しているサービスに関する情報を、ユーザが所有するスマートホン、タブレット端末、パーソナルコンピュータ等から受信してもよい。この場合、音声発話システムは、機器600を備えなくてもよい。
 また、例えば、サーバ装置100は、機器600から取得する機器情報及び動作情報と、当該他のサーバ装置から取得する情報とに基づいて、発話文を決定してもよい。例えば、機器600が洗濯機である場合、サーバ装置100は、当該洗濯機から取得した当該洗濯機による選択が終了したことを示す情報と、当該他のサーバ装置から取得した天気情報とに基づいて、当該洗濯機の乾燥運転をユーザに推奨する発話文を発話体200に発話させてもよい。
 また、例えば、判定部140が判定する複数の発話体200は、音声発話システム500が備える全ての発話体200でもよいし、音声発話システム500が備える全ての発話体200のうち、タイミング決定部150がタイミングを決定するために必要とする複数の発話体200でもよい。
 また、例えば、図3~図8では、ユーザA及びユーザBがそれぞれ2つの発話体200の所有者であり、且つ、複数の発話体200のうち発話体202をユーザA及びユーザBが共有している例について説明した。ユーザA及びユーザBがそれぞれ所有する発話体200の数、及び、ユーザA及びユーザBが共有する発話体200の数は、それぞれ1つでもよいし、複数でもよいし、同じでもよいし、異なっていてもよく、任意でよい。
 また、例えば、上記実施の形態では、発話待機中の発話体は、現在発話中の発話体の発話が終了してから新たな発話を開始する。しかしながら、一の発話体は、発話内容によっては、他の発話体の発話中に割り込んで発話を開始してもよい。当該発話内容は、予め任意に定められてよく、特に限定されない。
 また、例えば、上記実施の形態において、サーバ装置100が備える取得部110、シナリオ決定部120、発話体決定部130等の処理部の構成要素の全部又は一部は、専用のハードウェアで構成されてもよく、或いは、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサ等のプログラム実行部が、HDD又は半導体メモリ等の記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
 また、例えば、上記処理部の構成要素は、1つ又は複数の電子回路で構成されてもよい。1つ又は複数の電子回路は、それぞれ、汎用的な回路でもよいし、専用の回路でもよい。
 1つ又は複数の電子回路には、例えば、半導体装置、IC(Integrated Circuit)又はLSI(Large Scale Integration)等が含まれてもよい。IC又はLSIは、1つのチップに集積されてもよく、複数のチップに集積されてもよい。ここでは、IC又はLSIと呼んでいるが、集積の度合いによって呼び方が変わり、システムLSI、VLSI(Very Large Scale Integration)、又は、ULSI(Ultra Large Scale Integration)と呼ばれるかもしれない。また、LSIの製造後にプログラムされるFPGA(Field Programmable Gate Array)も同じ目的で使うことができる。
 また、発話体200が備える音声制御部220等の処理部の構成要素の全部又は一部は、専用のハードウェアで構成されてもよく、或いは、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサ等のプログラム実行部が、HDD又は半導体メモリ等の記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
 また、例えば、上記処理部の構成要素は、1つ又は複数の電子回路で構成されてもよい。
 また、本開示の全般的又は具体的な態様は、システム、装置、方法、集積回路又はコンピュータプログラムで実現されてもよい。或いは、当該コンピュータプログラムが記憶された光学ディスク、HDD若しくは半導体メモリ等のコンピュータ読み取り可能な非一時的記録媒体で実現されてもよい。また、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
 その他、本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の範囲内に含まれる。
 本開示は、音声を出力可能な機器を制御する装置に適用できる。
 100 サーバ装置
 110 取得部
 120 シナリオ決定部
 130 発話体決定部
 140 判定部
 150 タイミング決定部
 160 出力部
 170 記憶部
 200、201、202、203 発話体
 210 通信部
 220 音声制御部
 230 音声出力部
 500 音声発話システム
 600 機器

Claims (10)

  1.  音声を出力可能な複数の発話体のそれぞれが音声を出力しているか否かを判定する判定ステップと、
     前記判定ステップでの判定結果に基づいて、前記複数の発話体のうち、少なくとも1つの発話体に音声をすぐに出力させるか、又は、音声を出力している発話体が当該音声の出力を終了するまで待機した後で前記少なくとも1つの発話体に音声を出力させるかのタイミングで、前記少なくとも1つの発話体に音声を出力させる出力ステップと、を含む
     音声制御方法。
  2.  さらに、前記判定ステップでの判定結果に基づいて、前記複数の発話体のうち、前記少なくとも1つの発話体に音声をすぐに出力させるか、又は、音声を出力している発話体が当該音声の出力を終了するまで待機した後で前記少なくとも1つの発話体に音声を出力させるかのタイミングを決定するタイミング決定ステップを含み、
     前記出力ステップでは、前記タイミング決定ステップで決定した前記タイミングで、前記少なくとも1つの発話体に音声を出力させる
     請求項1に記載の音声制御方法。
  3.  前記タイミング決定ステップでは、
     前記複数の発話体のうち、音声を出力していない第1発話体については、当該第1発話体にすぐに音声を出力させる前記タイミングを決定し、
     前記複数の発話体のうち、音声を出力している第2発話体については、当該音声の出力を終了するまで待機した後で当該第2発話体に音声を出力させる前記タイミングを決定する
     請求項2に記載の音声制御方法。
  4.  前記タイミング決定ステップでは、
     前記複数の発話体のうち、少なくともいずれかの発話体が音声を出力している場合、当該少なくともいずれかの発話体が音声の出力を終了してから前記少なくとも1つの発話体に音声を出力させる前記タイミングを決定する
     請求項2に記載の音声制御方法。
  5.  前記タイミング決定ステップでは、
     前記複数の発話体のそれぞれの所有者を示す所有者情報を取得し、
     前記複数の発話体のうち、前記少なくとも1つの発話体と同じ所有者が所有する発話体が音声を出力している場合、当該発話体が音声の出力を終了してから前記少なくとも1つの発話体に音声を出力させる前記タイミングを決定する
     請求項2に記載の音声制御方法。
  6.  前記タイミング決定ステップでは、前記複数の発話体のうち、音声で出力させる発話文の対象となるユーザが所有する前記少なくとも1つの発話体と同じ所有者が所有する発話体が音声を出力している場合、当該発話体が音声の出力を終了してから前記少なくとも1つの発話体に音声を出力させる前記タイミングを決定する
     請求項5に記載の音声制御方法。
  7.  前記タイミング決定ステップでは、
     前記複数の発話体のそれぞれの所有者を示す所有者情報を取得し、
     前記少なくとも1つの発話体の所有者が第1ユーザ及び第2ユーザである場合、前記複数の発話体のうち、前記第1ユーザ及び前記第2ユーザの少なくとも一方が所有者である発話体が音声を出力しているとき、当該発話体が音声の出力を終了してから前記少なくとも1つの発話体に音声を出力させる前記タイミングを決定する
     請求項2に記載の音声制御方法。
  8.  前記タイミング決定ステップでは、
     前記複数の発話体のそれぞれの所有者を示す所有者情報を取得し、
     前記少なくとも1つの発話体が、第1ユーザ及び第2ユーザのうち前記第1ユーザが所有者であって、前記複数の発話体において、前記第1ユーザが所有する1以上の発話体のうち、少なくともいずれかの発話体を前記第2ユーザが所有する場合、前記第2ユーザが所有する発話体が音声を出力しているとき、当該発話体が音声の出力を終了してから前記少なくとも1つの発話体に音声を出力させる前記タイミングを決定する
     請求項2に記載の音声制御方法。
  9.  音声を出力可能な複数の発話体のそれぞれが音声を出力しているか否かを判定する判定部と、
     前記判定部の判定結果に基づいて、前記複数の発話体のうち、少なくとも1つの発話体に音声をすぐに出力させるか、又は、音声を出力している発話体が当該音声の出力を終了するまで待機した後で前記少なくとも1つの発話体に音声を出力させるかのタイミングで、前記少なくとも1つの発話体に音声を出力させる出力部と、を備える
     サーバ装置。
  10.  音声を出力する音声出力部と、
     サーバ装置と通信するための通信部と、
     前記通信部を介して前記サーバ装置から受信した音声情報に基づいて、前記音声出力部から音声を出力させる音声制御部と、を備え、
     前記音声制御部は、
      前記音声出力部から音声を出力させているか否かを示す音声出力情報を、前記通信部を介して前記サーバ装置に送信し、
      前記サーバ装置から前記音声情報と、音声を出力させるタイミングを示すタイミング情報とを、前記通信部を介して受信し、
     受信した前記タイミング情報に基づくタイミングで、前記音声情報に基づく音声を前記音声出力部に出力させる
     発話体。
PCT/JP2021/026612 2021-02-25 2021-07-15 音声制御方法、サーバ装置、及び、発話体 WO2022180882A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP21895917.9A EP4328902A1 (en) 2021-02-25 2021-07-15 Speech control method, server device, and speaking body
CN202180006434.0A CN115244615A (zh) 2021-02-25 2021-07-15 声音控制方法、服务器装置、以及发声体
JP2021576424A JPWO2022180882A1 (ja) 2021-02-25 2021-07-15
US17/782,139 US20230117212A1 (en) 2021-02-25 2021-07-15 Voice control method, server apparatus, and utterance object
JP2023056203A JP2023089039A (ja) 2021-02-25 2023-03-30 音声制御方法及びサーバ装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021029247 2021-02-25
JP2021-029247 2021-02-25

Publications (1)

Publication Number Publication Date
WO2022180882A1 true WO2022180882A1 (ja) 2022-09-01

Family

ID=83048735

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/026612 WO2022180882A1 (ja) 2021-02-25 2021-07-15 音声制御方法、サーバ装置、及び、発話体

Country Status (5)

Country Link
US (1) US20230117212A1 (ja)
EP (1) EP4328902A1 (ja)
JP (2) JPWO2022180882A1 (ja)
CN (1) CN115244615A (ja)
WO (1) WO2022180882A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009265278A (ja) * 2008-04-23 2009-11-12 Konica Minolta Business Technologies Inc 音声出力管理システムおよび音声出力装置
JP2015164251A (ja) 2014-02-28 2015-09-10 シャープ株式会社 音声サーバ
JP2017069836A (ja) * 2015-09-30 2017-04-06 シャープ株式会社 音声配信サーバ、その制御方法、および制御プログラム
JP2017203967A (ja) * 2016-05-13 2017-11-16 シャープ株式会社 音声出力制御装置、電子機器、および音声出力制御装置の制御方法
WO2019087546A1 (ja) * 2017-10-30 2019-05-09 ソニー株式会社 情報処理装置及び情報処理方法
WO2019188393A1 (ja) * 2018-03-29 2019-10-03 ソニー株式会社 情報処理装置、情報処理方法、送信装置、及び送信方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4881934B2 (ja) * 2008-10-30 2012-02-22 株式会社コナミデジタルエンタテインメント ゲーム装置、ゲーム処理方法、ならびに、プログラム
JP2010186028A (ja) * 2009-02-12 2010-08-26 Seiko Epson Corp コマンド送信制御装置、集積回路装置、音再生評価システム及び音再生装置のテスト方法
JP2011163778A (ja) * 2010-02-04 2011-08-25 Navitime Japan Co Ltd ナビゲーション装置、ナビゲーションシステム、端末装置、ナビゲーションサーバ、ナビゲーション方法、および、プログラム
JP4875766B1 (ja) * 2010-12-09 2012-02-15 株式会社eVOICE 音声データ通信システム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009265278A (ja) * 2008-04-23 2009-11-12 Konica Minolta Business Technologies Inc 音声出力管理システムおよび音声出力装置
JP2015164251A (ja) 2014-02-28 2015-09-10 シャープ株式会社 音声サーバ
JP2017069836A (ja) * 2015-09-30 2017-04-06 シャープ株式会社 音声配信サーバ、その制御方法、および制御プログラム
JP2017203967A (ja) * 2016-05-13 2017-11-16 シャープ株式会社 音声出力制御装置、電子機器、および音声出力制御装置の制御方法
WO2019087546A1 (ja) * 2017-10-30 2019-05-09 ソニー株式会社 情報処理装置及び情報処理方法
WO2019188393A1 (ja) * 2018-03-29 2019-10-03 ソニー株式会社 情報処理装置、情報処理方法、送信装置、及び送信方法

Also Published As

Publication number Publication date
JPWO2022180882A1 (ja) 2022-09-01
CN115244615A (zh) 2022-10-25
US20230117212A1 (en) 2023-04-20
EP4328902A1 (en) 2024-02-28
JP2023089039A (ja) 2023-06-27

Similar Documents

Publication Publication Date Title
US10621980B2 (en) Execution of voice commands in a multi-device system
US10403280B2 (en) Lamp device for inputting or outputting voice signal and method of driving the same
CN111447123B (zh) 一种智慧家居的配置方法、装置、电子设备及介质
US10115396B2 (en) Content streaming system
EP3077921B1 (en) Natural language control of secondary device
US20160372113A1 (en) Configuration of Voice Controlled Assistant
JP7033713B2 (ja) 情報処理装置、音声認識システム、及び、情報処理方法
JP2018169624A (ja) 音声対話制御方法
JP6783339B2 (ja) 音声を処理する方法及び装置
JP2020504413A (ja) 人工知能自動話者識別方法を用いる個人カスタマイズ型音声認識サービスの提供方法及びこれに使用されるサービス提供サーバ
JP2018120203A (ja) 情報処理方法及びプログラム
US10062386B1 (en) Signaling voice-controlled devices
WO2022180882A1 (ja) 音声制御方法、サーバ装置、及び、発話体
US11908464B2 (en) Electronic device and method for controlling same
JP7456387B2 (ja) 情報処理装置、及び情報処理方法
US20170013118A1 (en) Electronic device and notification method thereof
JP2016206249A (ja) 対話装置、対話システム、及び対話装置の制御方法
JP2019144836A (ja) 音声出力装置、プログラム、および、プログラムの記録媒体
CN113314115A (zh) 终端设备的语音处理方法、终端设备及可读存储介质
CN112187701A (zh) 一种控制方法和装置
WO2023013094A1 (ja) 管理装置、管理システム、管理方法、及び、プログラム
JP7303091B2 (ja) 制御装置、電子機器、制御装置の制御方法および制御プログラム
JP2019144835A (ja) 音声出力装置、プログラム、および、プログラムの記録媒体
WO2019100352A1 (zh) 音频处理方法及相关产品
JP2019215442A (ja) 音声認識システム、情報出力方法、及び、プログラム

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2021576424

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21895917

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2021895917

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021895917

Country of ref document: EP

Effective date: 20230925