WO2018173295A1 - ユーザインタフェース装置及び方法、並びに音操作システム - Google Patents

ユーザインタフェース装置及び方法、並びに音操作システム Download PDF

Info

Publication number
WO2018173295A1
WO2018173295A1 PCT/JP2017/012170 JP2017012170W WO2018173295A1 WO 2018173295 A1 WO2018173295 A1 WO 2018173295A1 JP 2017012170 W JP2017012170 W JP 2017012170W WO 2018173295 A1 WO2018173295 A1 WO 2018173295A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
voice
user interface
recognition
interface device
Prior art date
Application number
PCT/JP2017/012170
Other languages
English (en)
French (fr)
Inventor
卓朗 曽根
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to PCT/JP2017/012170 priority Critical patent/WO2018173295A1/ja
Priority to US15/902,370 priority patent/US10592204B2/en
Publication of WO2018173295A1 publication Critical patent/WO2018173295A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Definitions

  • the present invention relates to a user interface device and method, and a sound operation system, and more particularly to a user interface using a voice recognition system.
  • voice (speech) recognition systems provided on networks have been increasingly used, and various electronic devices can be operated by voice using such voice recognition systems as well as smartphones and computers. Is progressing.
  • a user When operating various electronic devices by voice using a voice recognition system, it is usually necessary for a user to utter a fixed trigger word called a wake word, and then utter the contents of instructions specifically.
  • a fixed trigger word called a wake word
  • the present invention has been made in view of the above problems, and an object thereof is to provide a user interface device and method using a simpler sound and a sound operation system.
  • the user interface method includes a step of acquiring an input sound, a step of acquiring a result of a predetermined recognition process for the acquired sound, and a recognition system corresponding to the result of the recognition process.
  • the method includes a step of generating a sound to be recognized and a step of outputting the generated sound.
  • the sound operation system generates a sound corresponding to a result of the recognition process, a means for acquiring the input sound, a means for acquiring a result of a predetermined recognition process for the acquired sound. Means, means for outputting the generated sound, and means for controlling the device according to the recognition result of the output sound by the voice recognition system.
  • FIG. 1 is a diagram illustrating an overall configuration of a first sound operation system including an electronic apparatus according to a first embodiment of the present invention. It is a block diagram of the electronic device which concerns on the 1st Embodiment of this invention. It is an operation
  • speech means a sound that is a recognition target of the speech recognition system, and includes a language sound generated through a human vocal organ or a speaker.
  • sound means any sound acquired by sound collection by a microphone or input of an electrical signal, and includes sounds that are not recognized as well as sounds that are recognized by the speech recognition system.
  • FIG. 1 is a diagram showing an overall configuration of the first sound operation system.
  • the first sound operation system shown in the figure includes a user interface device 10, a voice recognition system 30, a device control system 40, and a controllable device 60 according to the first embodiment of the present invention.
  • the user interface device 10, the voice recognition system 30, the device control system 40, and the controllable device 60 are all connected to a communication network 20 such as the Internet.
  • This sound operation system enables operation of the controllable device 60 from the user interface device 10 not only by sound but also by performance sound of the musical instrument 51 and the like.
  • the controllable device 60 may be any device that can be connected to the communication network 20 such as an electronic musical instrument, an audio device, a video device, a smartphone, a personal computer, an air conditioner, and a water heater.
  • the user interface device 10 is an input device that operates the controllable device 60 by voice or other sounds. Note that the user interface device 10 may be integrated with the controllable device 60. Further, the user interface device 10 may be configured as a sound generation device such as an electronic musical instrument that generates a sound by a user operation.
  • the voice recognition system 30 and the device control system 40 each include one or more computers, and may be realized using, for example, cloud computing.
  • the voice recognition system 30 When the voice recognition system 30 receives voice (voice data) from the user interface device 10 through the communication network 20, the voice recognition system 30 performs a known voice recognition process on the voice.
  • the recognition result is output as data indicating the content of the speech (for example, text describing the utterance content).
  • the recognition result of the voice recognition system 30 is transmitted to the device control system 40 via the communication network 20.
  • the device control system 40 Upon receiving the recognition result of the voice recognition system 30 through the communication network 20, the device control system 40 converts it into a control command for the controllable device 60 and transmits it to the controllable device 60 via the communication network 20.
  • this control command is an automatic performance start command, an automatic performance stop command, or the like.
  • the automatic performance start command may include designation of a song to be played.
  • this control command is a music playback command, a music stop command, or the like.
  • the music playback command may include designation of the music to be played back.
  • this control command is a video output start command, a video output stop command, or the like.
  • the video output start command may include designation of a video to be output.
  • controllable device 60 is an audio device.
  • the controllable device 60 is an audio device.
  • the sound is transmitted to the speech recognition system 30.
  • XXX is a trigger word (for example, “ALEX”)
  • YYY is a song title (for example, “The Beatles Yesterday”).
  • command phrase The utterance part after “YYY” is hereinafter referred to as “command phrase”.
  • the voice recognition system 30 performs a recognition process on the received voice, and transmits a recognition result (text indicating the utterance content) to the device control system 40.
  • the device control system 40 converts this recognition result into a control command for the controllable device 60 and transmits it to the controllable device 60.
  • the controllable device 60 starts to reproduce the music “YYY” in response to the control command. For example, the music data of the song “YYY” stored in the controllable device 60 in advance may be reproduced and output, or the music data of the song “YYY” received from the communication network 20 may be reproduced and output. Good.
  • the controllable device 60 can be operated from the user interface device 10. For example, a chord or melody predetermined by the musical instrument 51 is played in front of the microphone 11 and, for example, “Please play YYY” at the timing before or after the chord or melody. Utters a command phrase in front of the microphone 11, the user interface device 10 automatically supplements the utterance content of the trigger word “XXX” immediately before the command phrase, and says “Please play XXX, YYY”. The voice is transmitted to the voice recognition system 30. As a result, in the same manner as when the user 50 utters “Please play XXX, YYY”, the controllable device 60 starts playing the song “YYY”.
  • FIG. 2 is a configuration diagram of the user interface device 10 regarding operation input using the microphone 11.
  • the user interface device 10 includes a microphone 11, a voice buffer 12, a trigger word recognition unit 13, a sound recognition unit 14, a control unit 15, a switch 16, a voice generation unit 17, and a communication unit 18.
  • the user interface device 10 is mainly configured by a computer and control software, for example.
  • the microphone 11 picks up the voice of the user 50 and the sound of the musical instrument 51 and converts it into an electric signal.
  • the audio buffer 12 is a memory that records sound data collected by the microphone 11 for the latest fixed time.
  • the trigger word recognition unit 13 monitors the sound collected by the microphone 11 and determines whether or not a predetermined trigger word has been collected. If the trigger word is picked up, the control unit 15 is notified immediately.
  • the sound recognition unit 14 performs a predetermined recognition process on the sound collected by the microphone 11.
  • This recognition process may be various as described later.
  • the recognition process is a process for determining whether or not the microphone 11 has collected a trigger sound such as a predetermined chord or melody. And In this process, for example, the similarity between the feature amount of the sound collected by the microphone 11 and the feature amount of the trigger sound is calculated, and it is determined whether or not the similarity is a predetermined value or more. is there.
  • the sound recognizing unit 14 determines that the trigger sound has been collected by the microphone 11, the sound recognizing unit 14 immediately notifies the control unit 15 to that effect.
  • the switch 16 has an audio buffer 12 and an audio generation unit 17 connected to the input side, and a communication unit 18 connected to the output side.
  • the switch 16 switches whether the input data is the voice stored in the voice buffer 12 or the voice generated by the voice generation unit 17 in accordance with an instruction from the control unit 15.
  • the voice generation unit 17 synthesizes a voice corresponding to the recognition result in the sound recognition unit 14 in accordance with an instruction from the control unit 15 and outputs the synthesized voice to the switch 16.
  • Various speech synthesis techniques can be used for speech synthesis. Further, if the types of sounds to be output are finite, the finite sounds may be stored in advance and selectively read out.
  • the voice control unit 17 outputs a voice of a trigger word (for example, “ALEX”) stored in advance to the switch 16 in accordance with an instruction from the control unit 15.
  • the communication unit 18 outputs the sound output from the switch 16 to the outside. Here, the voice is stream-transmitted to the voice recognition system 30. Note that a speaker may be provided instead of using the communication unit 18 and the sound output from the switch 16 may be generated. Then, the sound may be collected by another device and transmitted to the speech recognition system 30.
  • the control unit 15 switches the switch 16 to the voice buffer 12 side (A in the figure), and the communication unit 18 starts from the trigger word.
  • the starting voice is transmitted to the voice recognition system 30.
  • the control unit 15 stops the transmission of the voice to the voice recognition system 30 if a predetermined end condition is satisfied such that a predetermined time limit elapses or a silent state elapses for a predetermined time. Thereafter, as described above, the control target device 60 receives a control command from the device control system 40 and performs an operation according to the control command.
  • the control unit 15 performs the process shown in FIG. That is, when the sound recognition unit 14 determines that the trigger sound is collected by the microphone 11 (S101), the control unit 15 switches the switch 16 to the voice generation unit 17 side (B in the figure) (S102), and the communication unit 18 Thus, the voice of the trigger word output by the voice generation unit 17 is transmitted to the voice recognition system 30 (S103). After the trigger word voice ends, the control unit 15 switches the switch 16 to the voice buffer 12 side (A in the figure) (S104), and the communication unit 18 transmits the voice stored in the voice buffer 12 to the voice recognition system 30. (S105).
  • control part 15 will stop transmission of the audio
  • predetermined end conditions such as progress of a predetermined time limit, or a silence state for a predetermined time
  • a series of sounds is transmitted to the voice recognition system 30 in a single streaming session.
  • the controllable device 60 receives a control command from the device control system 40 and performs an operation according to the control command.
  • the user 50 emits a trigger sound with the musical instrument 51 and then the user 50 speaks a command phrase.
  • the command phrase is generated before the trigger sound. May be uttered, or may be uttered overlapping the trigger sound.
  • the sound recognizing unit 14 recognizes the sound collection section of the trigger sound by the musical instrument 51 and the speech section by the user 50.
  • the utterance section of the user 50 can be, for example, a section where sound in the frequency range of the voice of the user 50 is collected.
  • control unit 15 selects an utterance section closest to the sound collection section of the trigger sound by the musical instrument 51 from the voices stored in the voice buffer 12, and starts from the head of the selected utterance section.
  • the voice is transmitted to the voice recognition system 40.
  • the user interface device 10 can generate a trigger sound predetermined by the musical instrument 51 such as a guitar or a piano.
  • the controllable device 60 can be operated.
  • the trigger sound is not limited to the sound of the musical instrument 51, and may be various sounds as long as it is different from the trigger word. For example, various sounds such as the user's 50 singing voice and nose song, a sound of tapping a desk, and a sound of tapping the floor can be adopted as the trigger sound.
  • the trigger sound may be a sound that is output electronically by another sounding device.
  • a chime sound or the like may be output from another sounding device and used as a trigger sound.
  • the trigger sound may be a non-audible sound.
  • the user 50 may operate the portable device 52 to output a predetermined inaudible sound, and the sound recognition unit 14 of the user interface device 10 may recognize the sound as a trigger sound.
  • a non-audible sound in which predetermined data is encoded may be output from the portable device 52 as a trigger sound.
  • the sound recognition unit 14 of the user interface device 10 may determine that the trigger sound has been collected if the sound collected by the microphone 11 is decoded and the predetermined data is obtained.
  • the speech recognition system 30 may erroneously recognize the contents of the command phrase. There is an advantage of lowering.
  • FIG. 5 is a diagram showing an overall configuration of the second sound operation system.
  • the second sound operation system not only replaces the trigger word with a trigger sound but also replaces a command phrase with a command sound such as a performance sound of the musical instrument 51.
  • the user 50 operates the portable device 52 to output a non-audible sound as a trigger sound in front of the microphone 11 of the user interface device 10a, and before and after the output section.
  • the music piece can be reproduced by the controllable device 60. That is, in the second sound operation system, the musical sound played by the musical instrument 51 is recognized as a command sound by the user interface device 10a.
  • the user interface device 10a has the configuration shown in FIG. 2 described above, and in particular, the functions and operations of the sound recognition unit 14, the control unit 15, and the voice generation unit 17 are as follows. These are different from those of the user interface device 10. That is, the sound recognition unit 14 of the user interface device 10a not only determines whether the sound collected by the microphone 11 is a trigger sound, but also performs recognition processing on the sound collected by the microphone 11. The music corresponding to the acquired sound is specified. For example, the sound recognizing unit 14 calculates a feature amount of the acquired sound (for example, information indicating various features such as a chord pattern, a melody, a rhythm, and an acoustic pattern).
  • a feature amount of the acquired sound for example, information indicating various features such as a chord pattern, a melody, a rhythm, and an acoustic pattern.
  • a database is prepared in advance that stores a number of pieces of music in association with the characteristic quantities of the music. Then, the sound recognizing unit 14 identifies a music piece having a feature amount similar to the calculated feature amount from the database.
  • This database may be stored inside the user interface device 10a or may be stored in another computer accessible via the communication network 20. If the sound recognition unit 14 can acquire the final recognition processing result, part or all of the recognition processing by the sound recognition unit 14 is performed by another computer accessible via the communication network 20. It's okay.
  • the sound generation unit 17 of the user interface device 10a When the sound recognition unit 14 recognizes the trigger sound, the sound generation unit 17 of the user interface device 10a outputs the sound of the trigger word (for example, “XXX”). Further, if the music is identified by the sound recognition unit 14, the voice of the command phrase instructing the reproduction of the music (for example, “Please play YYY”) is synthesized and output. Specifically, for example, the voice generation unit 17 may synthesize and output the music title text output by the voice recognition unit 14 and then output a fixed phrase such as “Please play”. . Such a fixed phrase may be synthesized each time, or a previously stored phrase may be read out. In this way, the entire voice command “Please play XXX, YYY” is transmitted to the voice recognition system 30.
  • the control unit 15 of the user interface device 10a performs the operation shown in FIG. That is, as shown in the figure, the control unit 15 waits until the sound recognition unit 14 determines that the trigger sound has been collected (S201). If the trigger sound is collected, the sound recognition unit 14 is caused to perform recognition processing for the sound collected by the microphone 11 (S202). Thereafter, the control unit 15 switches the switch 16 to the voice generation unit 17 side (B in the figure) (S203), and transmits the voice of the trigger word output from the voice generation unit 17 to the voice recognition system 30 (S204). Subsequently, the voice of the command phrase output from the voice generation unit 17 is transmitted to the voice recognition system 30 (S205). A series of sounds is transmitted to the voice recognition system 30 in a single streaming session. Thereafter, as described above, the user interface device 10 receives a control command from the device control system 40 and performs an operation according to the control command.
  • a command phrase is not limited to the thing containing the information which pinpoints music uniquely.
  • the sound recognition unit 14 may recognize music attributes such as chord progression, rhythm, and tempo of the collected sound, and the sound generation unit 17 may output the voice of the command phrase including the recognized music attribute.
  • the device control system 40 may transmit, for example, a control command instructing reproduction of a music group having such music attributes to the controllable device 60.
  • the command sound may be generated by a device other than the musical instrument 51. For example, the singing voice or nose song of the user 50 may be used as the command sound.
  • the sound recognition unit 14 recognizes attributes such as the age and sex of the user 50, and the voice generation unit 17 includes the recognized content in the voice of the command phrase. Good.
  • the device control system 40 can generate a control command that instructs an operation (for example, reproduction of a music preferred by a young man) suitable for the attribute of the user 50 and transmit it to the controllable device 60. it can.
  • FIG. 7 is a diagram showing an overall configuration of the third sound operation system.
  • a part of the trigger sound and the command sound is input from the electronic musical instrument 53 to the user interface device 10b according to the third embodiment of the present invention.
  • the remaining part of the command sound is spoken by the user 50 and input from the microphone 11 to the user interface device 10b.
  • the electronic musical instrument 53 is provided with a special button, and by pressing this button, a predetermined trigger sound can be output in a line.
  • the electronic musical instrument 53 may be played, and a predetermined chord or melody may be output as a line as a trigger sound.
  • the user 50 plays a part of the music piece with the electronic musical instrument 53 and inputs a musical sound to the user interface device 10b. Further, the processing content (such as “playback”) for the specified music is uttered by the user 50 and input into the microphone.
  • the voice of the trigger word generated by the voice generation unit 17 for example, “XXX”
  • the voice of the command phrase that is generated by the voice generation unit 17 and identifies the music for example, “YYY”
  • the voice of the user 50 for example, “Please play”
  • the user interface device 10b also has the configuration shown in FIG. As shown in the figure, in the user interface device 10b, the voice recognition unit 14 is provided with an external input terminal 19, to which an electronic musical instrument 53 such as an electronic keyboard is connected.
  • the electronic musical instrument 53 may be connected to the user interface device 10b wirelessly. In any case, a trigger sound or a command sound is input from the electronic musical instrument 53 to the user interface device 10b as an electric signal.
  • the control unit 15 of the user interface device 10b performs the operation shown in FIG. That is, as shown in the figure, the control unit 15 waits until the sound recognition unit 14 determines that a trigger sound has been input (S301). If there is an input of a trigger sound, the control unit 15 next causes the sound recognition unit 14 to execute a recognition process for the sound input on the line (S302). Thereafter, the control unit 15 switches the switch 16 to the voice generation unit 17 side (B in the figure) (S303), and transmits the voice of the trigger word output from the voice generation unit 17 to the voice recognition system 30 (S304). Subsequently, the voice of the command phrase output from the voice generation unit 17 is transmitted to the voice recognition system 30 (S305).
  • the control unit 15 then switches the switch 16 to the voice buffer 16 side (A in the figure), and transmits the voice stored in the voice buffer 12 to the voice recognition system 30 by the communication unit 18 (S307). Then, the control unit 15 stops the transmission of the voice to the voice recognition system 30 if a predetermined end condition such that the predetermined time limit has elapsed or the silent state has elapsed for a predetermined time (S808) is satisfied. A series of sounds is transmitted to the voice recognition system 30 in a single streaming session. Thereafter, as described above, the controllable device 60 receives a control command from the device control system 40 and performs an operation according to the control command.
  • the voice recognition unit 14 can perform recognition processing without being affected by noise.
  • a portion that is appropriate to be instructed by playing the musical instrument can be instructed by the performance of the electronic musical instrument 53, and a portion that is appropriate to be uttered can be instructed by utterance.
  • the user interface device 10b may be integrally provided with the electronic musical instrument 53. In this case, an acoustic signal generated from the functional part of the electronic musical instrument 53 is internally input to the functional part of the interface device 10b.
  • the microphone 11 may collect sound emitted from the speaker. Therefore, as in the user interface device 10c shown in FIG. 10, an echo canceller 70 may be provided in the preceding stage of the audio buffer 12, and an input signal from the external input terminal 19 may be supplied to the echo canceller 70. By doing so, the echo canceller 70 can remove the sound of the input signal from the external input terminal 19 from the sound input from the microphone 11. In this way, the instrument sound can be reduced and the voice of the user 50 can be transmitted to the voice recognition system 30, and the voice recognition rate in the voice recognition system 30 can be improved.
  • the input sound is converted into a sound that can be received by the voice recognition system 30, and the controllable device 60 is changed from the user interface device 10, 10 a, 10 b by a sound such as a musical sound that cannot be received by the voice recognition system 10. It can be operated.
  • a sound such as a musical sound that cannot be received by the voice recognition system 10.
  • FIG. 11 shows some of these patterns.
  • Si indicates a trigger sound input by the musical instrument 51 or the like
  • V indicates a command phrase sound issued by the user 50.
  • S indicates a command sound input by the musical instrument 51 or the like.
  • Vi indicates the voice of the trigger word
  • Vs indicates the voice of the command phrase generated by the electronic musical instrument 10 or the like based on the command sound input by the musical instrument 51 or the like (hereinafter referred to as “synthetic command phrase voice”). .).
  • the input pattern “Si + V” is for inputting the sound of the trigger sound and the command phrase (the order is not limited; the same applies hereinafter).
  • the input pattern “Vi + S” is for inputting a trigger word voice and a command sound, but this is converted into an output pattern “Vi + Vs”, that is, a trigger word voice and a synthesized command phrase voice are sequentially output ( Pattern P2).
  • the input pattern “Si + S” is used to input a trigger sound and a command sound, and is also converted into an output pattern “Vi + Vs” (pattern P3).
  • the input pattern “S” is an input of a command sound that also serves as a trigger sound, and this is also converted to an output pattern “Vi + Vs” (pattern P4).
  • the input pattern “S + V” is for inputting a command sound and a command phrase sound that also serves as a trigger sound. Are sequentially output (pattern P5).
  • the input pattern “Si + V + S” is used to input a trigger sound, a command phrase sound, and a command sound, which are also converted by the output pattern “Vi + Vs + V” (pattern P6).
  • any of the above patterns P1 to P6 may be converted.
  • the voice (Vi) of the trigger word may be omitted if the voice recognition system 30 does not require it.

Abstract

ユーザにとって簡便なユーザインタフェースを備える電子機器を提供すること。電子機器は、入力される音を取得する音入力部(11)と、取得される音に対する所定の認識処理の結果を取得する音認識部(14)と、前記認識処理の結果に対応する音声を生成する音声生成部(17)と、前記音声生成部により生成される音声を出力する音声送信部(18)と、を含む。

Description

ユーザインタフェース装置及び方法、並びに音操作システム
 本発明はユーザインタフェース装置及び方法、並びに音操作システムに関し、特に音声認識システムを利用するユーザインタフェースに関する。
 近年、ネットワーク上に設けられた音声(スピーチ)認識システムの利用が進んでおり、スマートフォンやコンピュータのみならず、各種電子機器も、こうした音声認識システムを利用して、音声により操作できるようにする取り組みが進んでいる。
 音声認識システムを利用して音声により各種電子機器を操作する場合には、通常、ユーザはウェイクワードと呼ばれる固定のトリガワードを発声し、続けて指示内容を具体的に発声する必要がある。例えば、米国アマゾン社の音声認識システムでは、トリガワードである「アレクサ」に続けて、ローンチフレーズ、スキルネーム、アタランスといったコマンド内容を構成する言葉を、順に発声する必要がある。しかしながら、このように固定のトリガワードやコマンド内容を具体的に発声するのはユーザにとって面倒である。
 本発明は上記課題に鑑みてなされたものであって、その目的は、より簡便な音によるユーザインタフェース装置及び方法、並びに音操作システムを提供することにある。
 上記課題を解決するために、本発明に係る電子機器は、入力される音を取得する音入力部と、取得される音に対する所定の認識処理の結果を取得する音認識部と、前記認識処理の結果に対応する音声を生成する音声生成部と、前記音声生成部により生成される音声を出力する音声出力部と、を含む。
 また、本発明に係るユーザインタフェース方法は、入力される音を取得するステップと、取得される音に対する所定の認識処理の結果を取得するステップと、前記認識処理の結果に対応する、認識システムの認識対象である音を生成するステップと、生成される音を出力するステップと、を含む。
 また、本発明に係る音操作システムは、入力される音を取得する手段と、取得される音に対する所定の認識処理の結果を取得する手段と、前記認識処理の結果に対応する音声を生成する手段と、生成される音声を出力する手段と、前記出力される音の音声認識システムによる認識結果に従って機器を制御する手段と、を含む。
本発明の第1の実施形態に係る電子機器を含む、第1の音操作システムの全体構成を示す図である。 本発明の第1の実施形態に係る電子機器の構成図である。 本発明の第1の実施形態に係る電子機器の動作フロー図である。 第1の音操作システムの変形例を示す図である。 本発明の第2の実施形態に係る電子機器を含む、第2の音操作システムの全体構成を示す図である。 本発明の第2の実施形態に係る電子機器の動作フロー図である。 本発明の第3の実施形態に係る電子機器を含む、第3の音操作システムの全体構成を示す図である。 本発明の第3の実施形態に係る電子機器の構成図である。 本発明の第3の実施形態に係る電子機器の動作フロー図である。 本発明の第3の実施形態に係る電子機器の変形例を示す図である。 本発明による電子機器の音操作の各種パターンを示す図である。
 以下、本発明の実施形態について図面に基づき詳細に説明する。
 なお、本明細書においては「音声」とは、音声認識システムの認識対象である音を意味し、人の発声器官を通じて、或はスピーカーを通じて発生される言語音を含む。一方、「音」とは、マイクによる収音や電気信号の入力により取得される、あらゆる音を意味し、音声認識システムの認識対象である音の他、その認識対象外の音を含む。また、以下の説明において、既に説明した要素については、同一の符号を付して詳細な説明を適宜省略する。
 図1は、第1の音操作システムの全体構成を示す図である。同図に示す第1の音操作システムは、本発明の第1の実施形態に係るユーザインタフェース装置10、音声認識システム30、機器制御システム40及び制御可能機器60を含んでいる。ユーザインタフェース装置10、音声認識システム30、機器制御システム40及び制御可能機器60は、いずれもインターネット等の通信ネットワーク20に接続されている。この音操作システムは、音声のみならず、楽器51の演奏音などにより、ユーザインタフェース装置10から制御可能機器60の操作を可能とするものである。
 制御可能機器60は、例えば電子楽器、オーディオ機器、映像機器、スマートフォン、パーソナルコンピュータ、空調装置、給湯器など、通信ネットワーク20に接続可能なあらゆる機器であってよい。また、ユーザインタフェース装置10は、制御可能機器60を音声その他の音により操作する入力デバイスである。なお、ユーザインタフェース装置10は制御可能機器60と一体化されてもよい。また、ユーザインタフェース装置10は、ユーザの操作により音を発生する、電子楽器等の音発生装置として構成されてもよい。
 音声認識システム30及び機器制御システム40は、いずれも1以上のコンピュータを含み、例えばクラウドコンピューティングを利用して実現されてもよい。
 音声認識システム30は、通信ネットワーク20を通じてユーザインタフェース装置10から音声(音声データ)を受信すると、その音声に対して公知の音声認識処理を施す。認識結果は、音声の内容を示すデータ(例えば発話内容を記述したテキスト)として出力される。特に、認識結果に、制御可能機器60の制御内容が含まれる場合、音声認識システム30の認識結果は、通信ネットワーク20を介して機器制御システム40に送信される。
 機器制御システム40は、通信ネットワーク20を通じて音声認識システム30の認識結果を受信すると、それを制御可能機器60の制御コマンドに変換し、通信ネットワーク20を介して制御可能機器60に送信する。制御可能機器60が電子楽器である場合、この制御コマンドは、自動演奏の開始コマンド、自動演奏の停止コマンド等である。自動演奏の開始コマンドは、演奏する曲の指定を含んでよい。制御可能機器60がオーディオ機器である場合、この制御コマンドは、楽曲の再生コマンド、楽曲の停止コマンド等である。楽曲の再生コマンドは、再生する曲の指定を含んでよい。さらに、制御可能機器60が映像機器である場合、この制御コマンドは、映像出力の開始コマンド、映像出力の停止コマンド等である。映像出力の開始コマンドは、出力する映像の指定を含んでよい。
 ここでは制御可能機器60がオーディオ機器である場合について説明する。この音操作システムでは、一例として、ユーザ50がユーザインタフェース装置10に設けられたマイク11の前で「XXX,YYYを再生して下さい。」と発話すると、その音声が音声認識システム30に送信される。ここで、「XXX」は、トリガワード(例えば「ALEX」)であり、「YYY」は楽曲名(例えば、「ビートルズのイエスタディ」)である。なお、「YYY」以降の発話部分を、以下では「コマンドフレーズ」という。
 音声認識システム30は受信した音声に認識処理を施し、認識結果(発話内容を示すテキスト)を機器制御システム40に送信する。機器制御システム40は、この認識結果を制御可能機器60の制御コマンドに変換し、制御可能機器60に送信する。制御可能機器60は、制御コマンドに応じて、楽曲「YYY」の再生を開始する。例えば、あらかじめ制御可能機器60に保存している楽曲「YYY」の音楽データを再生出力してもよいし、通信ネットワーク20から楽曲「YYY」の音楽データを受信し、それを再生出力してもよい。
 第1の音操作システムでは、このようにトリガワードをユーザ50が声に出さなくても、ギターやピアノなどの楽器51で予め決められた音(以下、「トリガ音」という。)を出すことで、ユーザインタフェース装置10から制御可能機器60の操作をすることができるものである。例えばマイク11の前で、楽器51により予め定められた和音やメロディを弾き、その前後のタイミングで、又はその和音やメロディと重なるタイミングで、例えば「YYYを再生して下さい。」と、ユーザ50がマイク11の前でコマンドフレーズを発話すると、ユーザインタフェース装置10はトリガワードである「XXX」の発話内容をコマンドフレーズの直前に自動的に補い、「XXX,YYYを再生して下さい。」という音声を音声認識システム30に送信する。その結果、ユーザ50が「XXX,YYYを再生して下さい。」と自ら発話した場合と同様にして、制御可能機器60で楽曲「YYY」の再生が開始される。
 図2は、マイク11を利用した操作入力に関する、ユーザインタフェース装置10の構成図である。同図に示すようにユーザインタフェース装置10は、マイク11、音声バッファ12、トリガワード認識部13、音認識部14、制御部15、スイッチ16、音声生成部17、通信部18を含んでいる。ユーザインタフェース装置10は、例えばコンピュータ及び制御ソフトウェアを中心に構成される。
 マイク11は、ユーザ50の声や楽器51の音を収音して、それを電気信号に変換する。音声バッファ12は、マイク11により収音された、直近の一定時間の音のデータを記録するメモリである。トリガワード認識部13は、マイク11により収音された音を監視し、所定のトリガワードが収音されたか否かを判定するものである。トリガワードが収音されれば、直ちにその旨を制御部15に通知する。
 音認識部14は、マイク11により収音された音に対して所定の認識処理を施す。この認識処理は、後述するように種々のものであってよいが、ここでは一例として、予め定められた和音やメロディといったトリガ音をマイク11が収音したか否かを判定する処理であるものとする。この処理は、例えば、マイク11により収音された音の特徴量と、トリガ音の特徴量と、の類似度を計算し、この類似度が所定値以上であるか否かを判定するものである。音認識部14は、マイク11により、トリガ音が収音されたと判定すると、直ちにその旨を制御部15に通知する。
 スイッチ16は、音声バッファ12及び音声生成部17が入力側に接続されており、通信部18が出力側に接続されている。スイッチ16は、制御部15の指示に応じて、入力データを、音声バッファ12に記憶された音声とするか、音声生成部17により生成された音声とするか、を切り替えている。
 音声生成部17は、制御部15の指示に応じて、音認識部14での認識結果に対応する音声を合成し、スイッチ16に出力するものである。音声の合成には、種々の音声合成技術を利用することができる。また、出力すべき音声の種類が有限であれば、それら有限の音声を事前に記憶しておき、選択的に読み出す構成としてもよい。ここでは、音声制御部17は、制御部15の指示に応じて、予め記憶されているトリガワード(例えば「ALEX」)の音声をスイッチ16に出力する。通信部18は、スイッチ16から出力される音声を外部に出力する。ここでは、音声を音声認識システム30にストリーム送信する。なお、通信部18を用いる代わりにスピーカを設け、スイッチ16から出力される音声を発音してもよい。そして、他の装置により、この音声を収音して音声認識システム30に送信してよい。
 制御部15は、トリガワード認識部13がマイク11によりトリガワードが収音されたと判断した場合には、スイッチ16を音声バッファ12側(図中A)に切り替え、通信部18により、トリガワードから始まる音声を音声認識システム30に送信する。制御部15は、所定の制限時間の経過、又は無音状態が所定時間経過するといった、所定の終了条件を満足すれば、音声認識システム30への音声の送信を停止する。その後、上述したように、制御対象機器60は、機器制御システム40から制御コマンドを受信し、該制御コマンドに応じた動作を行う。
 また、制御部15は、音認識部14がマイク11によりトリガ音が収音されたと判断した場合には、図3に示す処理を実行する。すなわち、トリガ音がマイク11により収音されたと音認識部14が判断すると(S101)、制御部15は、スイッチ16を音声生成部17側(図中B)に切り替え(S102)、通信部18により、音声生成部17により出力されるトリガワードの音声を音声認識システム30に送信する(S103)。トリガワードの音声の終了後、制御部15はスイッチ16を音声バッファ12側(図中A)に切り替え(S104)、通信部18により、音声バッファ12に記憶された音声を音声認識システム30に送信する(S105)。そして、制御部15は、所定の制限時間の経過、又は無音状態が所定時間経過するといった、所定の終了条件を満足すれば(S106)、音声認識システム30への音声の送信を停止する。なお、一連の音声は、単一のストリーミングセッションで音声認識システム30に送信される。その後、上述したように、制御可能機器60は、機器制御システム40から制御コマンドを受信し、該制御コマンドに応じた動作を行う。
 なお、図3に示す処理では、ユーザ50が楽器51でトリガ音を出し、その後にユーザ50がコマンドフレーズを発話することを前提としているが、上述のように、コマンドフレーズは、トリガ音の前に発話されてもよいし、トリガ音と重なって発話されてもよい。この場合、音認識部14は、楽器51によるトリガ音の収音区間、ユーザ50による発話区間を認識する。ユーザ50の発話区間は、例えばユーザ50の声の周波数域の音が収音されている区間とすることができる。上記のS105の処理では、制御部15は、音声バッファ12に記憶されている音声のうち、楽器51によるトリガ音の収音区間に最も近い発話区間を選択し、選択された発話区間の先頭から音声を音声認識システム40に送信する。
 以上説明した音操作システムによれば、トリガワードをユーザ50が声に出さなくても、代わりに、ギターやピアノなどの楽器51で予め決められたトリガ音を出すことで、ユーザインタフェース装置10から制御可能機器60の操作をすることができる。なお、トリガ音は楽器51の音に限定されず、トリガワードと異なるものであれば、種々の音であってよい。例えば、ユーザ50の歌声や鼻歌、机を叩く音、床をタップする音など、様々な音をトリガ音に採用することができる。
 また、トリガ音は、他の発音機器により電子的に出力される音であってよい。例えば、チャイムの音などを他の発音機器により出力し、これをトリガ音としてもよい。また、トリガ音は非可聴音であってもよい。図4に示すように、ユーザ50が携帯機器52を操作して、所定の非可聴音を出力し、この音をユーザインタフェース装置10の音認識部14がトリガ音として認識してもよい。また、所定データがエンコードされた非可聴音をトリガ音として携帯機器52から出力してもよい。この場合、ユーザインタフェース装置10の音認識部14は、マイク11で収音された音をデコードし、上記の所定データが得られれば、トリガ音が収音されたと判定してよい。トリガ音として非可聴音を採用すれば、トリガ音とコマンドフレーズが重複して発せられ、音声認識システム30に送信されたとしても、音声認識システム30がコマンドフレーズの内容を誤認識する可能性が低くなるという利点がある。
 次に、図5は、第2の音操作システムの全体構成を示す図である。第2の音操作システムは、トリガワードをトリガ音で代替するだけでなく、コマンドフレーズも、楽器51の演奏音などのコマンド音で代替するというものである。一例として、第2の音操作システムによれば、ユーザ50は携帯機器52を操作してトリガ音である非可聴音をユーザインタフェース装置10aのマイク11の前で出力し、その出力区間の前後のタイミング、又はその出力区間と重なるタイミングで、楽器51により楽曲の一部を演奏することにより、その楽曲を制御可能機器60で再生することができる。すなわち、第2の音操作システムでは、楽器51により演奏された楽音は、ユーザインタフェース装置10aによりコマンド音として認識される。
 本発明の第2の実施形態に係るユーザインタフェース装置10aは、既に説明した図2に示す構成を有しているが、特に音認識部14、制御部15及び音声生成部17の機能及び動作は、ユーザインタフェース装置10のそれらとは異なっている。すなわちユーザインタフェース装置10aの音認識部14は、マイク11で収音された音がトリガ音であるか否かを判定するだけでなく、さらに、マイク11で収音された音に認識処理を施し、取得された音に対応する楽曲を特定する。例えば、音認識部14は、取得された音の特徴量(例えば和音パターン、メロディ、リズム、音響パターンなどの各種特徴を示す情報)を演算する。一方、事前に、多数の楽曲のそれぞれに、その楽曲の特徴量を関連づけて記憶したデータベースを用意されている。そして、音認識部14は、演算された特徴量に類似する特徴量を有する楽曲をデータベースから特定する。なお、このデータベースは、ユーザインタフェース装置10aの内部に記憶されてもよいし、通信ネットワーク20を介してアクセス可能な他のコンピュータに記憶されてよい。また、最終的な認識処理の結果を音認識部14が取得できるのであれば、音認識部14による認識処理の一部又は全部は、通信ネットワーク20を介してアクセス可能な他のコンピュータにより行われてよい。
 ユーザインタフェース装置10aの音声生成部17は、音認識部14によりトリガ音が認識されれば、トリガワードの音声(例えば、「XXX」)を出力する。さらに、音認識部14により楽曲が特定されれば、その楽曲の再生を指示するコマンドフレーズの音声(例えば、「YYYを再生して下さい。」)を合成し、出力する。具体的には、音声生成部17は、例えば音声認識部14により出力される楽曲名のテキストを音声合成して出力し、続けて「を再生して下さい。」といった固定フレーズを出力すればよい。こうした固定フレーズは、都度合成してもよいし、予め記憶されたものを読み出してもよい。こうして、「XXX,YYYを再生して下さい。」という、音声コマンド全体が音声認識システム30に送信されることになる。
 ユーザインタフェース装置10aの制御部15は、図6に示す動作を行う。すなわち、同図に示すように制御部15は、音認識部14によりトリガ音の収音があったと判定されるまで待機する(S201)。トリガ音の収音があれば、次に、音認識部14に、マイク11で収音される音に対する認識処理を実行させる(S202)。その後、制御部15はスイッチ16を音声生成部17側(図中B)に切り替え(S203)、音声生成部17から出力されるトリガワードの音声を音声認識システム30に送信する(S204)。続いて、音声生成部17から出力されるコマンドフレーズの音声を音声認識システム30に送信する(S205)。なお、一連の音声は、単一のストリーミングセッションで音声認識システム30に送信される。その後、上述したように、ユーザインタフェース装置10は、機器制御システム40から制御コマンドを受信し、該制御コマンドに応じた動作を行う。
 以上説明した第2の音操作システムによれば、ユーザ50が発話しなくとも、希望する楽曲を制御可能機器60で再生することができる。なお、コマンドフレーズは、楽曲を一意に特定する情報を含むものに限定されない。例えば、収音される音のコード進行、リズム、テンポなどの楽曲属性を音認識部14が認識し、音声生成部17は、認識された楽曲属性を含むコマンドフレーズの音声を出力してよい。この場合、機器制御システム40は、例えばそうした楽曲属性を有する楽曲群の再生を指示する制御コマンドを制御可能機器60に送信してよい。また、コマンド音は楽器51以外で発せられてもよい。例えば、ユーザ50の歌声や鼻歌をコマンド音としてよい。コマンド音をユーザ50の歌声や鼻歌とする場合、音認識部14はユーザ50の年齢や性別等の属性を認識し、音声生成部17は、その認識内容をコマンドフレーズの音声に含めるようにしてよい。こうすれば、機器制御システム40は、ユーザ50の属性に適合した動作(例えば、若い男性が好む楽曲の再生など)を指示する制御コマンドを生成し、それを制御可能機器60に送信することができる。
 次に、図7は、第3の音操作システムの全体構成を示す図である。第3の音操作システムでは、トリガ音及びコマンド音の一部が電子楽器53から本発明の第3の実施形態に係るユーザインタフェース装置10bにライン入力される。また、コマンド音の残りの部分はユーザ50が発話して、マイク11からユーザインタフェース装置10bに入力する。
 例えば、電子楽器53には特別のボタンが設けられており、このボタンを押すことにより、予め決まったトリガ音をライン出力することができる。もちろん、電子楽器53を演奏して、予め決まった和音やメロディをトリガ音としてライン出力するようにしてもよい。楽曲特定のため、ユーザ50が電子楽器53により楽曲の一部を演奏し、楽音をユーザインタフェース装置10bにライン入力する。また、特定された楽曲に対する処理内容(「再生」など)については、ユーザ50が発話してマイク入力する。こうすると、ユーザインタフェース装置10bからは、音声生成部17により生成されるトリガワードの音声(例えば、「XXX」)、音声生成部17により生成される、楽曲を特定するコマンドフレーズの音声(例えば、「YYY」)、その楽曲の処理内容を示すユーザ50の音声(例えば、「再生して下さい。」)、が順に音声認識システム30に送信されることになる。
 ユーザインタフェース装置10bも、図8に示す構成を有している。同図に示すように、ユーザインタフェース装置10bでは、音声認識部14に外部入力端子19が設けられており、ここに電子キーボードなどの電子楽器53が接続される。なお、電子楽器53は無線によりユーザインタフェース装置10bに接続されてもよい。いずれにしても、電子楽器53からは、ユーザインタフェース装置10bにトリガ音やコマンド音が電気信号により入力される。
 ユーザインタフェース装置10bの制御部15は、図9に示す動作を行う。すなわち、同図に示すように制御部15は、音認識部14によりトリガ音の入力があったと判定されるまで待機する(S301)。トリガ音の入力があれば、次に制御部15は、音認識部14に、ライン入力される音に対する認識処理を実行させる(S302)。その後、制御部15はスイッチ16を音声生成部17側(図中B)に切り替え(S303)、音声生成部17から出力されるトリガワードの音声を音声認識システム30に送信する(S304)。続いて、音声生成部17から出力されるコマンドフレーズの音声を音声認識システム30に送信する(S305)。
 制御部15は、次にスイッチ16を音声バッファ16側(図中A)に切り替え、通信部18により、音声バッファ12に記憶された音声を音声認識システム30に送信する(S307)。そして、制御部15は、所定の制限時間の経過、又は無音状態が所定時間経過するといった、所定の終了条件を満足すれば(S808)、音声認識システム30への音声の送信を停止する。なお、一連の音声は、単一のストリーミングセッションで音声認識システム30に送信される。その後、上述したように、制御可能機器60は、機器制御システム40から制御コマンドを受信し、該制御コマンドに応じた動作を行う。
 以上説明した第3の音操作システムによれば、音声コマンドをライン入力できるので、音声認識部14はノイズの影響を受けることなく認識処理を行うことができる。また、コマンドの内容のうち、楽器演奏により指示するのが相応しい部分については電子楽器53の演奏により指示し、発話によるのが相応しい部分については発話により指示することができ、利便性が向上する。なお、ユーザインタフェース装置10bが電子楽器53を一体的に備えるようにしてもよい。この場合、電子楽器53の機能部分から生成される音響信号が、内部的にインタフェース装置10bの機能部分に入力される。
 また、電子楽器53がスピーカーを備える場合には、マイク11はそのスピーカーにより発せられる音を収音することが考えられる。そこで、図10に示すユーザインタフェース装置10cのように、音声バッファ12の前段にエコーキャンセラ70を設けるとともに、このエコーキャンセラ70に外部入力端子19からの入力信号を供給してよい。こうすれば、エコーキャンセラ70にて、外部入力端子19からの入力信号の音を、マイク11から入力される音から除去することができる。こうすれば、楽器音を低減してユーザ50の声を音声認識システム30に送信することができ、音声認識システム30での音声認識率を向上させることができる。
 本実施形態は、入力音を音声認識システム30が受付可能な音声に変換し、楽音等、音声認識システム10が受付不能な音により、ユーザインタフェース装置10,10a,10bから、制御可能機器60を操作可能とするものである。この変換には種々のパターンが存在する。図11はそれらパターンの一部を示している。同図において、Siは楽器51等により入力されるトリガ音を示しており、Vはユーザ50により発せられるコマンドフレーズの音声を示している。Sは楽器51等により入力されるコマンド音を示している。また、Viはトリガワードの音声を示しており、Vsは、楽器51等により入力されるコマンド音に基づいて電子楽器10等で生成されるコマンドフレーズの音声(以下、「合成コマンドフレーズ音声」という。)を示している。
 まず、入力パターン「Si+V」は、トリガ音及びコマンドフレーズの音声を入力するものであるが(順序は問わない。以下同様。)、これは出力パターン「Vi+V」、すなわちトリガワードの音声及びコマンドフレーズの音声を順に出力するものに変換される(パターンP1)。入力パターン「Vi+S」は、トリガワードの音声及びコマンド音を入力するものであるが、これは出力パターン「Vi+Vs」、すなわちトリガワードの音声及び合成コマンドフレーズ音声を順に出力するものに変換される(パターンP2)。入力パターン「Si+S」は、トリガ音及びコマンド音を入力するものであるが、これも出力パターン「Vi+Vs」に変換される(パターンP3)。入力パターン「S」は、トリガ音を兼ねたコマンド音の入力であり、これも出力パターン「Vi+Vs」に変換される(パターンP4)。入力パターン「S+V」は、トリガ音を兼ねたコマンド音、コマンドフレーズの音声を入力するものであるが、これは出力パターン「Vi+Vs+V」、すなわちトリガワードの音声、合成コマンドフレーズ音声、コマンドフレーズの音声を順に出力するものに変換される(パターンP5)。入力パターン「Si+V+S」は、トリガ音、コマンドフレーズの音声、コマンド音を入力するものであるが、これも出力パターン「Vi+Vs+V」で変換される(パターンP6)。
 音操作システムでは、以上のパターンP1~P6のいずれの変換を行ってもよい。なお、いずれの出力パターンにおいても、トリガワードの音声(Vi)は、音声認識システム30が必須としないならば省略してもよい。

 

Claims (10)

  1.  入力される音を取得する音入力部と、
     取得される音に対する所定の認識処理の結果を取得する音認識部と、
     前記認識処理の結果に対応する音声を生成する音声生成部と、前記音声生成部により生成される音声を出力する音声出力部と、を含むユーザインタフェース装置。
  2.  請求項1に記載のユーザインタフェース装置において、
     前記音声出力部は、前記音声生成部により生成される音声を音声認識システムに送信する、ユーザインタフェース装置。
  3.  請求項2に記載のユーザインタフェース装置において、
     前記音声認識システムによる、前記音声生成部により生成される音声の認識結果に基づいて制御可能機器が制御される、ユーザインタフェース装置。
  4.  請求項1乃至3のいずれかに記載のユーザインタフェース装置において、
     前記音入力部は、マイクによる収音及び/又は電気信号の入力により音を取得する、ユーザインタフェース装置。
  5.  請求項1乃至4のいずれかに記載のユーザインタフェース装置において、
     前記音入力部は、音声以外の音を取得する、ユーザインタフェース装置。
  6.  請求項5に記載のユーザインタフェース装置において、
     前記音入力部は、所定データが符号化された非可聴音を取得する、ユーザインタフェース装置。
  7.  請求項1乃至6のいずれかに記載のユーザインタフェース装置において、
     前記音認識部は、取得される音を外部の音認識システムに送信し、該音認識システムから送信される前記認識処理の結果を取得する、ユーザインタフェース装置。
  8.  請求項1乃至7のいずれかに記載の電子機器において、
     前記音声出力部は、前記音声生成部により生成される音声と、前記音入力部により取得される音の一部と、を予め定められた順序で出力する、ユーザインタフェース装置。
  9.  入力される音を取得するステップと、
     取得される音に対する所定の認識処理の結果を取得するステップと、
     前記認識処理の結果に対応する、認識システムの認識対象である音を生成するステップと、
     生成される音を出力するステップと、
     を含むユーザインタフェース方法。
  10.  入力される音を取得する手段と、
     取得される音に対する所定の認識処理の結果を取得する手段と、
     前記認識処理の結果に対応する音声を生成する手段と、
     生成される音声を出力する手段と、
     前記出力される音の音声認識システムによる認識結果に従って機器を制御する手段と、
     を含む音操作システム。

     
PCT/JP2017/012170 2017-03-24 2017-03-24 ユーザインタフェース装置及び方法、並びに音操作システム WO2018173295A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2017/012170 WO2018173295A1 (ja) 2017-03-24 2017-03-24 ユーザインタフェース装置及び方法、並びに音操作システム
US15/902,370 US10592204B2 (en) 2017-03-24 2018-02-22 User interface device and method, and sound-enabled operation system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/012170 WO2018173295A1 (ja) 2017-03-24 2017-03-24 ユーザインタフェース装置及び方法、並びに音操作システム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/902,370 Continuation US10592204B2 (en) 2017-03-24 2018-02-22 User interface device and method, and sound-enabled operation system

Publications (1)

Publication Number Publication Date
WO2018173295A1 true WO2018173295A1 (ja) 2018-09-27

Family

ID=63583406

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/012170 WO2018173295A1 (ja) 2017-03-24 2017-03-24 ユーザインタフェース装置及び方法、並びに音操作システム

Country Status (2)

Country Link
US (1) US10592204B2 (ja)
WO (1) WO2018173295A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020136892A1 (ja) * 2018-12-28 2020-07-02 ローランド株式会社 制御装置、電子楽器システム、および制御方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11269592B2 (en) * 2020-02-19 2022-03-08 Qualcomm Incorporated Systems and techniques for processing keywords in audio data

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5724193A (en) * 1980-07-21 1982-02-08 Matsushita Electric Ind Co Ltd Remote control device
JPH03262398A (ja) * 1990-03-13 1991-11-22 Pioneer Electron Corp 学習機能付リモートコントロール装置
JPH08265440A (ja) * 1995-03-28 1996-10-11 Mitsubishi Electric Corp 音声認識応答装置
JP2012141449A (ja) * 2010-12-28 2012-07-26 Toshiba Corp 音声処理装置、音声処理システム及び音声処理方法
JP2015146055A (ja) * 2015-05-21 2015-08-13 シャープ株式会社 音声認識システム、および音声処理装置

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0307193B1 (en) * 1987-09-11 1993-11-18 Kabushiki Kaisha Toshiba Telephone apparatus
JPH09293083A (ja) 1996-04-26 1997-11-11 Toshiba Corp 楽曲検索装置および検索方法
JPH10301567A (ja) 1997-04-22 1998-11-13 Kawai Musical Instr Mfg Co Ltd 電子楽器の音声制御装置
JPH1195788A (ja) 1997-09-16 1999-04-09 Ricoh Co Ltd 音楽再生装置
JPH11265190A (ja) 1998-03-18 1999-09-28 Ricoh Co Ltd 音楽演奏装置
JPH11296182A (ja) 1998-04-08 1999-10-29 Matsushita Electric Ind Co Ltd カラオケ装置
JP2001324987A (ja) 2000-05-15 2001-11-22 Victor Co Of Japan Ltd カラオケ装置
US7149691B2 (en) * 2001-07-27 2006-12-12 Siemens Corporate Research, Inc. System and method for remotely experiencing a virtual environment
JP2004094424A (ja) 2002-08-30 2004-03-25 Toppan Printing Co Ltd 楽曲検索システムとそれに用いられるサーバ及び端末
JP4705023B2 (ja) * 2004-06-10 2011-06-22 パナソニック株式会社 音声認識装置、音声認識方法、及びプログラム
EP1785891A1 (en) 2005-11-09 2007-05-16 Sony Deutschland GmbH Music information retrieval using a 3D search algorithm
US8654868B2 (en) 2006-04-18 2014-02-18 Qualcomm Incorporated Offloaded processing for wireless applications
US7576605B2 (en) 2006-04-20 2009-08-18 Qualcomm Incorporated Low power output stage
CN101433052B (zh) * 2006-04-26 2013-04-24 高通股份有限公司 设备功能和资源管理的动态分配
US8406794B2 (en) * 2006-04-26 2013-03-26 Qualcomm Incorporated Methods and apparatuses of initiating communication in wireless networks
US8289159B2 (en) 2006-04-26 2012-10-16 Qualcomm Incorporated Wireless localization apparatus and method
JP5082760B2 (ja) 2007-10-23 2012-11-28 ヤマハ株式会社 音制御装置およびプログラム
JP5638479B2 (ja) * 2011-07-26 2014-12-10 株式会社東芝 書き起こし支援システムおよび書き起こし支援方法
US20130201316A1 (en) * 2012-01-09 2013-08-08 May Patents Ltd. System and method for server based control
BR112015018905B1 (pt) * 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
EP3053068A1 (en) 2013-09-30 2016-08-10 Koninklijke Philips N.V. System and method for content-based medical macro sorting and search system
JP6080978B2 (ja) * 2013-11-20 2017-02-15 三菱電機株式会社 音声認識装置および音声認識方法
US11321890B2 (en) * 2016-11-09 2022-05-03 Microsoft Technology Licensing, Llc User interface for generating expressive content

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5724193A (en) * 1980-07-21 1982-02-08 Matsushita Electric Ind Co Ltd Remote control device
JPH03262398A (ja) * 1990-03-13 1991-11-22 Pioneer Electron Corp 学習機能付リモートコントロール装置
JPH08265440A (ja) * 1995-03-28 1996-10-11 Mitsubishi Electric Corp 音声認識応答装置
JP2012141449A (ja) * 2010-12-28 2012-07-26 Toshiba Corp 音声処理装置、音声処理システム及び音声処理方法
JP2015146055A (ja) * 2015-05-21 2015-08-13 シャープ株式会社 音声認識システム、および音声処理装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020136892A1 (ja) * 2018-12-28 2020-07-02 ローランド株式会社 制御装置、電子楽器システム、および制御方法

Also Published As

Publication number Publication date
US20180275959A1 (en) 2018-09-27
US10592204B2 (en) 2020-03-17

Similar Documents

Publication Publication Date Title
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JPH096390A (ja) 音声認識対話処理方法および音声認識対話装置
JPWO2008142836A1 (ja) 声質変換装置および声質変換方法
US20180130462A1 (en) Voice interaction method and voice interaction device
JP2006201749A (ja) 音声による選択装置、及び選択方法
JP2006517037A (ja) 韻律的模擬語合成方法および装置
JP2022071098A (ja) 電子楽器、方法及びプログラム
WO2018173295A1 (ja) ユーザインタフェース装置及び方法、並びに音操作システム
WO2020136892A1 (ja) 制御装置、電子楽器システム、および制御方法
JP6474518B1 (ja) 簡易操作声質変換システム
JP6569588B2 (ja) 音声対話装置およびプログラム
JP3914612B2 (ja) 通信システム
JP2019132979A (ja) カラオケ装置
US11172527B2 (en) Routing of communications to a device
JP7331645B2 (ja) 情報提供方法および通信システム
JP6252420B2 (ja) 音声合成装置、及び音声合成システム
JP2016186646A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
US10854196B1 (en) Functional prerequisites and acknowledgments
JP2017106988A (ja) 音声対話装置およびプログラム
JP2017106989A (ja) 音声対話装置およびプログラム
JP2017106990A (ja) 音声対話装置およびプログラム
JP2015187738A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP2001195058A (ja) 演奏装置
JP6252517B2 (ja) 音声合成装置、及びプログラム
JP4877112B2 (ja) 音声処理装置およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17902214

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17902214

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP