WO2020129695A1 - 情報処理装置、制御方法、情報処理端末、情報処理方法 - Google Patents

情報処理装置、制御方法、情報処理端末、情報処理方法 Download PDF

Info

Publication number
WO2020129695A1
WO2020129695A1 PCT/JP2019/047779 JP2019047779W WO2020129695A1 WO 2020129695 A1 WO2020129695 A1 WO 2020129695A1 JP 2019047779 W JP2019047779 W JP 2019047779W WO 2020129695 A1 WO2020129695 A1 WO 2020129695A1
Authority
WO
WIPO (PCT)
Prior art keywords
microphone
information processing
voice
user
terminal
Prior art date
Application number
PCT/JP2019/047779
Other languages
English (en)
French (fr)
Inventor
慎平 亀岡
浅津 英樹
山地 秀典
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to EP19898317.3A priority Critical patent/EP3902281A4/en
Priority to KR1020217017235A priority patent/KR20210104689A/ko
Priority to US17/297,782 priority patent/US20220053228A1/en
Publication of WO2020129695A1 publication Critical patent/WO2020129695A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • H04N21/4221Dedicated function buttons, e.g. for the control of an EPG, subtitles, aspect ratio, picture-in-picture or teletext
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • H04N21/42222Additional components integrated in the remote control device, e.g. timer, speaker, sensors for detecting position, direction or movement of the remote control, microphone or battery charging device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops

Definitions

  • the present technology relates to an information processing device, a control method, an information processing terminal, and an information processing method, and in particular, an information processing device capable of detecting a voice to be recognized by using a microphone according to a user's intention,
  • the present invention relates to a control method, an information processing terminal, and an information processing method.
  • the user can operate the TV, search for programs, search for videos distributed by the video distribution service, and speak keywords.
  • the user speaks after pressing the microphone button provided on the remote controller.
  • the user's utterance is detected by a microphone provided in the remote controller and transmitted to the TV.
  • the present technology is made in view of such a situation, and makes it possible to detect a voice to be recognized by using a microphone according to a user's intention.
  • the information processing device includes a main body microphone, which is a microphone provided in a housing, and detection of voice to be recognized, in the main body microphone and an information processing terminal used for user operation.
  • a control unit that controls which of a terminal microphone that is a provided microphone and which microphone is used based on a state of an operation of the user on the information processing terminal is provided.
  • a voice to be recognized is detected by any one of a main body microphone and a terminal microphone that is a microphone provided in an information processing terminal used for a user operation. Is controlled based on the state of the user's operation on the information processing terminal.
  • An information processing terminal includes a terminal microphone that is a microphone provided in a housing, and a predetermined button that is operated when the voice that is a recognition target is detected by the terminal microphone.
  • An operation unit used for operating the information processing apparatus, and which microphone, out of the microphone included in the information processing apparatus and the terminal microphone, performs the detection of the voice to be recognized is selected by the predetermined button.
  • a communication unit that transmits a voice detected by the terminal microphone to the information processing device in response to a detection request transmitted from the information processing device that is controlled based on a state of a user operation. ..
  • which of the microphone included in the information processing device and the terminal microphone is used to detect the voice to be recognized is determined by the user with respect to the predetermined button.
  • the voice detected by the terminal microphone is transmitted to the information processing device in response to the detection request transmitted from the information processing device controlled based on the state of the operation.
  • FIG. 19 is a block diagram illustrating a configuration example of a computer.
  • FIG. 1 is a diagram illustrating voice recognition of a TV according to an embodiment of the present technology.
  • a display 11 is provided on the front surface of the housing of the TV 1, and a microphone 12 is provided below the display 11.
  • the microphone 12 is used, for example, to detect the voice of the user.
  • the -TV1 has a voice assistant function.
  • the user can perform various operations of the TV 1 such as a program search, a video search distributed by the video distribution service, a Web site search, a setting change, and a channel change by voice.
  • the operation of an external device connected to the TV 1 can be performed by voice.
  • the voice data representing the voice detected by the microphone 12 is transmitted to the voice recognition server 32 via the Internet 31.
  • Voice recognition is performed in the voice recognition server 32, and information indicating the voice recognition result is transmitted to the TV 1.
  • the TV 1 receives the information transmitted from the voice recognition server 32 and performs processing according to the voice recognition result.
  • the TV 1 that can be operated using voice is also provided with the remote controller 2 as an information processing terminal used for operating the TV 1.
  • the user can also operate the TV 1 by using the remote controller 2.
  • the remote controller 2 has a housing that the user can hold with one hand.
  • Examples of the shape of the housing include an elongated shape and a rectangular parallelepiped shape.
  • Various buttons such as a power button, a volume button, a channel button, a cursor button, and an enter button are provided on the surface of the housing of the remote controller 2.
  • a signal representing the content of the user's operation is transmitted to the TV 1 by infrared communication or wireless communication using radio waves such as Bluetooth (registered trademark) and wireless LAN.
  • a microphone 22 is provided in the remote controller 2. The user can input a voice using the microphone 22 by pressing the microphone button 21 provided side by side with other buttons.
  • the voice data representing the voice detected by the microphone 22 is transmitted to the TV 1 and subjected to the same processing as the voice detected by the microphone 12.
  • the voice data transmitted from the remote controller 2 is transmitted from the TV 1 to the voice recognition server 32 and is the target of voice recognition in the voice recognition server 32.
  • the remote controller 2 is an external device for the TV 1.
  • the TV 1 is provided with two microphones as a microphone for inputting voice, that is, a microphone 12 provided in the main body and a microphone 22 provided in an external device for the TV 1.
  • the microphone 12 provided in the main body of the TV 1 is referred to as a main body microphone as appropriate.
  • the microphone 22 provided in the remote controller 2 is called a remote control microphone.
  • FIG. 2 is a diagram showing an example of an operation using the main body microphone.
  • the user can use the voice assistant function by speaking the activation word.
  • "OKTV" is set as the activation word.
  • the user's utterance after the activation word is detected by the microphone of the main unit and is subject to voice recognition.
  • the user is uttering “Add 4 channels”.
  • the voice data representing the voice “with 4 channels” detected by the main body microphone is transmitted to the voice recognition server 32.
  • the operation of switching the receiving channel to 4 channels is performed based on the result of the voice recognition by the voice recognition server 32.
  • the user can perform various operations by activating the voice assistant function by speaking the activation word and inputting voice into the main body microphone without using the remote controller 2.
  • the remote controller 2 is placed next to the user.
  • FIG. 3 is a diagram showing an example of an operation using the remote control microphone.
  • FIG. 4 is a diagram showing an example of exchanges after pressing the microphone button 21.
  • the TV 1 that has received the information indicating that the microphone button 21 has been pressed transmits a voice detection request that is a request to start voice detection.
  • the voice is detected by the remote control microphone.
  • Voice data representing the voice of the user detected by the remote control microphone is transmitted to the TV 1 as indicated by an arrow A3.
  • the transmission of a voice detection request from the TV 1 to the remote controller 2 and the transmission of voice data from the remote controller 2 to the TV 1 are performed by wireless communication using radio waves.
  • the information indicating that the microphone button 21 is pressed from the remote controller 2 to the TV 1 is transmitted by infrared communication or wireless communication using radio waves.
  • the utterance of the user after pressing the microphone button 21 is detected by the remote control microphone, and becomes the target of voice recognition.
  • the user utters “search for baseball program”.
  • the voice data representing the voice of "search for baseball program" detected by the remote control microphone is transmitted to the voice recognition server 32 via the TV 1.
  • an operation for searching for a baseball program is performed based on the result of the voice recognition by the voice recognition server 32.
  • the user can perform various operations by pressing the microphone button 21 to activate the remote control microphone and inputting voice to the remote control microphone.
  • FIG. 5 is a diagram showing an example of the display screen of the TV 1.
  • the program guide application is activated and the screen of the program guide application is displayed on the display 11.
  • a thumbnail image of a program or the like is displayed in each tile-shaped area.
  • TV1 is a device equipped with a general-purpose OS (Operating System).
  • OS Operating System
  • the screen of the active application is displayed on the display 11.
  • the voice recognition icon 51 is displayed on the screen of the program guide application.
  • the voice recognition icon 51 is an image operated when performing voice recognition.
  • the user can put a cursor on the voice recognition icon 51 by operating, for example, the cursor button of the remote controller 2 and press the enter button to make the voice input possible.
  • the user can also enter a voice by operating the display of a GUI (Graphical User Interface) for voice recognition such as the voice recognition icon 51.
  • GUI Graphic User Interface
  • the user's utterance after the operation of the voice recognition icon 51 is detected by the microphone of the main body and becomes the target of voice recognition. That is, the remote control microphone is not activated.
  • FIG. 6 is a diagram showing an example of switching microphones used for voice detection.
  • the subsequent sound is detected by the main body microphone provided in the TV 1, as indicated by the tip of the arrow A11.
  • the voice recognition request from the application is output from, for example, the active application when the microphone button 21 is pressed by the user or when the display of the voice recognition GUI is operated by the user.
  • the microphone button pressing determination which is the determination of whether or not the microphone button 21 is pressed, is performed by the program module that receives the voice recognition request output from the application.
  • the program module that determines whether or not the microphone button has been pressed is provided, for example, as part of the OS or as a driver.
  • the remote control microphone provided in the remote controller 2 is enabled and the subsequent sound is detected by the remote control microphone, as indicated by the tip of arrow A13. To be done.
  • the voice detected by the remote control microphone is the target of voice recognition.
  • the voice recognition request from the application is output in response to the display of the voice recognition GUI being operated. If so, the subsequent voice is detected by the main body microphone as indicated by the tip of the arrow A14.
  • the TV 1 enters a state in which the remote control microphone detects sound only when the operation of pressing the microphone button 21 is performed, and enters a state in which the main body microphone detects sound when the other two operations are performed. ..
  • the operation of pressing the microphone button 21 is an operation of holding the remote controller 2 in hand and checking the microphone button 21 with the eyes, the intention of inputting voice with the remote control microphone provided in the remote controller 2 is intended. It is considered that the user has.
  • the operation of the TV 1 that detects sound with the remote control microphone when the operation of pressing the microphone button 21 is performed can be said to be an operation using a microphone according to the user's intention.
  • the operation of uttering the activation word is mainly an operation of turning the face toward the TV 1, it is considered that the user has the intention of inputting voice through the main body microphone.
  • the operation using the display of the GUI for voice recognition is an operation performed by looking at the screen of the TV 1, it is considered that the user has the intention of inputting voice with the main body microphone.
  • the operation of the TV1 that detects voice with the main body microphone when the operation to speak the activation word or the operation using the GUI for voice recognition is performed can also be said to be the operation using the microphone according to the user's intention.
  • FIG. 7 is a diagram showing an example of the application structure of the TV 1.
  • TVOS1 for TV is installed on TV1.
  • Various applications running on the TV OS 61 are installed on the TV 1.
  • a TV viewing application 71, a program guide application 72, a web browser 73, and a content viewing application 74 are shown.
  • the TV viewing application 71 is an application that manages viewing of broadcast programs. While the TV viewing application 71 is running, the user can operate the remote controller 2 or the like to select a predetermined channel and watch the program broadcast on the selected channel.
  • the program guide application 72 is an application that manages a program guide that summarizes the program broadcasting schedule. While the program guide application 72 is running, the user can switch the display of the screen of the program guide displayed on the display 11 by operating the remote controller 2 or the like.
  • the web browser 73 is an application used when connecting to the Internet 31 and browsing a web page. While the web browser 73 is running, the user can browse a predetermined web page by operating the remote controller 2 or the like.
  • the content viewing application 74 is an application for using a distribution service provided by a distribution server (not shown).
  • the TV 1 displays the main screen of the distribution service based on the information transmitted from the distribution server. On the main screen, information about viewable contents such as titles and thumbnail images is displayed. The user can select a desired content by operating the remote controller 2 or the like. When the user selects a predetermined content, the distribution of the content is started.
  • TV1 various applications like this are installed on TV1. For example, when the display of the GUI for voice recognition is operated, the voice recognition request is output from the running application.
  • the TV 1 is also provided with a program module that switches microphones in response to a voice recognition request output from an application.
  • FIG. 8 is a block diagram showing a hardware configuration example of the TV 1.
  • the tuner 101 receives a broadcast wave signal supplied from an antenna (not shown) or a broadcast wave signal supplied from a set top box of satellite broadcasting or cable TV, and extracts a signal of a channel selected by the user.
  • the tuner 101 performs various processes such as A/D conversion and demodulation on the extracted signal, and outputs program data acquired by performing various processes to the decoder 102.
  • the decoder 102 decodes the video stream forming the program data, and outputs the data of each picture obtained by the decoding to the signal processing unit 103.
  • the decoder 102 also decodes an audio stream forming the program data and outputs the program audio data to the signal processing unit 103.
  • the decoder 102 When reproducing the content of a predetermined distribution service, the decoder 102 decodes the video stream and audio stream of the content received by the communication unit 110 and supplied via the bus 105. The decoder 102 outputs the data of each picture obtained by decoding the video stream of the content and the audio data obtained by decoding the audio stream to the signal processing unit 103.
  • the signal processing unit 103 adjusts the image quality of each picture supplied from the decoder 102 under the control of the CPU 106.
  • the signal processing unit 103 outputs the picture whose image quality has been adjusted to the display 11 to display a video of a program or content.
  • the signal processing unit 103 also performs D/A conversion of the audio data supplied from the decoder 102, outputs the audio of the program or content from the speaker 104 in synchronization with the video.
  • the display 11 is composed of an LCD (Liquid Crystal Display), an organic EL display, and the like.
  • a CPU (Central Processing Unit) 106, a ROM (Read Only Memory) 107, and a RAM (Random Access Memory) 108 are connected to each other by a bus 105.
  • the CPU 106 executes the program recorded in the ROM 107 or the recording unit 109 by using the RAM 108, and controls the overall operation of the TV 1.
  • the recording unit 109 is composed of a recording medium such as an HDD (Hard Disk Drive) and an SSD (Solid State Drive).
  • the recording unit 109 records various data such as program data, contents, EPG data, and programs.
  • the communication unit 110 is an interface of the Internet 31.
  • the communication unit 110 communicates with the voice recognition server 32.
  • the operation I/F unit 111 receives the information transmitted from the remote controller 2 by infrared communication.
  • the operation I/F unit 111 also communicates with the remote controller 2 by wireless communication using radio waves.
  • Information such as voice data transmitted from the remote controller 2 and received by the operation I/F unit 111 is output to the CPU 106 via the bus 105.
  • the operation I/F unit 111 functions as a communication unit that communicates with the remote controller 2.
  • the camera 112 appropriately captures the situation in front of the TV 1.
  • FIG. 9 is a block diagram showing a configuration example of the remote controller 2.
  • the operation I/F unit 121 transmits information to the TV 1 by infrared communication.
  • the operation I/F unit 121 also communicates with the TV 1 by wireless communication using radio waves.
  • the information received by the operation I/F unit 121 is output to the controller 122.
  • the controller 122 is composed of a CPU, ROM, and RAM.
  • the controller 122 executes a predetermined program and controls the entire remote controller 2.
  • the controller 122 transmits to the TV 1 via the operation I/F unit 121, voice data indicating a voice detected by the microphone 22 or information indicating the content of the user's operation supplied from the operation unit 123.
  • the microphone 22 detects the voice of the user and outputs voice data representing the detected voice to the controller 122.
  • the operation unit 123 detects an operation by the user and outputs information indicating the content of the detected operation to the controller 122.
  • FIG. 10 is a block diagram showing a functional configuration example of the TV 1.
  • At least a part of the functional units shown in FIG. 10 is realized by the CPU 106 of FIG. 8 executing various programs including the TV OS 61.
  • an operation detection unit 131 As shown in FIG. 10, in the TV 1, an operation detection unit 131, a startup word detection unit 132, a microphone control unit 133, a voice reception control unit 134, an application execution unit 135, and a voice recognition control unit 136 are realized.
  • the voice data representing the voice detected by the main body microphone configured by the microphone 12 is input to the activation word detection unit 132 and the microphone control unit 133.
  • the operation detection unit 131 controls the operation I/F unit 111 and detects a user operation performed using the remote controller 2. Various operations such as pressing the microphone button 21 and moving the cursor displayed on the screen are detected by the operation detection unit 131. Information indicating the content of the user's operation detected by the operation detection unit 131 is supplied to the microphone control unit 133, the voice reception control unit 134, and the application execution unit 135.
  • the activation word detection unit 132 detects the utterance of the activation word based on the voice data supplied from the main body microphone. When the activation word detection unit 132 detects that the user uttered the activation word, the activation word detection unit 132 outputs information indicating this to the microphone control unit 133.
  • the microphone control unit 133 switches the microphone used to detect the voice targeted for voice recognition. For example, when it is detected that the activation word is uttered, the microphone control unit 133 outputs the voice detected by the main body microphone to the voice recognition control unit 136 as a voice recognition target.
  • the microphone control unit 133 recognizes the voice detected by the main body microphone as voice recognition. It is output to the voice recognition control unit 136 as a target.
  • the sound detected by the microphone of the main unit is not always recorded.
  • the voice detected by the main body microphone is always recorded, and when it is off, no recording is performed.
  • the display of the GUI for voice recognition is operated, a request is issued to the main body microphone, and the voice detected by the main body microphone does not pass through the activation word detection unit 132 in response to the request, It is supplied to the control unit 133.
  • the microphone control unit 133 sets the remote control microphone to the valid state, and information indicating that is input to the voice reception control unit. Output to 134.
  • the microphone control unit 133 outputs the voice data supplied from the voice reception control unit 134 after activating the remote control microphone to the voice recognition control unit 136 as a voice recognition target.
  • the voice reception control unit 134 controls the operation I/F unit 111 and controls the detection of voice by the remote control microphone. For example, the voice reception control unit 134 transmits a voice detection request to the remote controller 2 when the microphone control unit 133 supplies information indicating that the remote control microphone is enabled.
  • the voice reception control unit 134 receives the voice data transmitted from the remote controller 2 after transmitting the voice detection request, and outputs the voice data to the microphone control unit 133.
  • the application execution unit 135 controls the execution of the application according to the user's operation represented by the information supplied from the operation detection unit 131.
  • the application execution unit 135 outputs a voice recognition request to the microphone control unit 133 when the display of the voice recognition GUI is operated while a predetermined application is in an active state.
  • the application execution unit 135 controls the execution of the application based on the result of the voice recognition supplied from the voice recognition control unit 136.
  • the voice recognition control unit 136 controls the communication unit 110 to communicate with the voice recognition server 32 and control the voice recognition function of the TV 1.
  • the voice recognition control unit 136 transmits the voice data supplied from the microphone control unit 133 to the voice recognition server 32.
  • the voice recognition control unit 136 receives the voice recognition result transmitted from the voice recognition server 32.
  • the result of the voice recognition received by the voice recognition control unit 136 is output to the application execution unit 135.
  • step S1 the activation word detection unit 132 of the TV 1 determines whether or not the activation word utterance is detected, based on the audio data supplied from the main body microphone.
  • step S1 If it is determined in step S1 that the utterance of the activation word is detected, the microphone control unit 133 enables the main body microphone in step S2. When the detection setting of the activation word is on, the main body microphone is originally effective, and therefore the main body microphone is continuously enabled here.
  • step S3 the microphone control unit 133 acquires the voice data supplied from the main body microphone as a target of voice recognition.
  • the voice data acquired by the microphone control unit 133 is supplied to the voice recognition control unit 136.
  • step S4 the voice recognition control unit 136 transmits the voice data supplied from the microphone control unit 133 to the voice recognition server 32.
  • voice recognition is performed on the voice detected by the main body microphone, and the result of the voice recognition is transmitted to the TV 1.
  • the result of the voice recognition transmitted from the voice recognition server 32 is received by the voice recognition control unit 136 and output to the application execution unit 135.
  • step S5 the microphone control unit 133 determines whether or not the voice recognition request is output from the application executed by the application execution unit 135. To do.
  • the microphone control unit 133 determines in step S6 based on the information supplied from the operation detection unit 131 whether or not the microphone button 21 is pressed.
  • step S6 If it is determined in step S6 that the microphone button 21 has not been pressed, the process proceeds to step S2, and the same processing as the above processing is performed. That is, the main body microphone is enabled, and the voice of the user is detected using the main body microphone.
  • step S6 If it is determined in step S6 that the microphone button 21 is pressed, the microphone control unit 133 enables the remote control microphone in step S7.
  • the voice reception control unit 134 transmits a voice detection request to the remote controller 2.
  • step S8 the voice reception control unit 134 receives the voice data transmitted from the remote controller 2 after transmitting the voice detection request, and outputs the voice data to the microphone control unit 133.
  • the microphone control unit 133 outputs the voice data supplied from the voice reception control unit 134 to the voice recognition control unit 136 as a target of voice recognition.
  • step S 9 the voice recognition control unit 136 transmits the voice data supplied from the microphone control unit 133 to the voice recognition server 32.
  • voice recognition is performed on the voice detected by the remote control microphone, and the result of the voice recognition is transmitted to the TV 1.
  • the result of the voice recognition transmitted from the voice recognition server 32 is received by the voice recognition control unit 136 and output to the application execution unit 135.
  • step S4 After the voice data is transmitted in step S4 or step S9, or when it is determined in step S5 that the voice recognition request is not output, the process returns to step S1 and the above process is repeated.
  • the TV 1 can detect the user's voice by using the microphone according to the user's intention.
  • the TV 1 can more accurately listen to and respond to the user's voice by selecting a microphone suitable for the user's intention.
  • the TV 1 can detect the voice of the user by using the remote control microphone.
  • the TV 1 turns on the main body microphone. It can be used to detect the user's voice.
  • the information processing terminal used for operating the TV 1 is the remote controller 2, it may be another device such as a smartphone or a tablet terminal.
  • FIG. 12 is a diagram showing an example of a smartphone as an information processing terminal.
  • a remote control application which is an application for operating the smartphone 201 as a remote controller of the TV 1, is installed on the smartphone 201.
  • the screen displayed on the display of the smartphone 201 of FIG. 12 is the screen of the remote control application.
  • the user can operate the TV 1 by using the display on the screen of the remote control application.
  • buttons having the same functions as the buttons provided on the remote controller 2, such as the power button, volume button, channel button, cursor button, and enter button, are displayed.
  • a microphone button 211 is also displayed on the screen of the remote control application as shown in FIG.
  • the microphone button 211 When the microphone button 211 is pressed, as in the case where the microphone button 21 of the remote controller 2 is pressed, the microphone 212 provided in the smartphone 201 becomes valid and the voice can be input.
  • the TV 1 will be subject to voice recognition of the voice data detected by the microphone 212 and transmitted from the smartphone 201.
  • voice recognition request is output in response to the activation word being uttered, and when the voice recognition request is output using the GUI for voice recognition, the main unit microphone detects the voice as described above. Used for.
  • the microphone button provided on the smartphone 201 the microphone button 211 displayed on the screen of the remote control application may be used, or a physically provided button may be used.
  • FIG. 13 is a diagram showing an example of another information processing terminal.
  • the information processing terminal used for operating the TV 1 may be an agent device as shown in A of FIG. 13 or a smart speaker having a voice assistant function as shown in B of FIG. ..
  • the agent device A of FIG. 13 and the smart speaker B of FIG. 13 have basically the same functions as the smartphone 201.
  • the information processing terminal used for operating the TV 1 it is possible to use various devices having a microphone and an operation unit used for an operation for instructing to use the microphone for voice detection. ..
  • the device to be operated by voice is the TV 1
  • the above-described technology can be applied to the case of operating various devices having a microphone by voice.
  • the voice recognition control unit 136 in FIG. 10 performs voice recognition by itself on the voice data supplied from the microphone control unit 133, and outputs the result of the voice recognition to the application execution unit 135.
  • the intention of the user who wants to input a voice using the remote control microphone may be determined based on various states of the user other than pressing the microphone button 21.
  • the remote control microphone may be enabled.
  • the remote control microphone may be enabled.
  • the remote control microphone may be enabled when it is detected that the user is near the remote controller 2 or when the user holds the remote controller 2 in his/her hand.
  • the microphone button 21 is set to be effective when an utterance such as “input voice with remote control microphone” that can be estimated that the user has an intention to input voice with the remote control microphone is made. May be.
  • the user may be allowed to set the operation state of the user when enabling the remote control microphone and the operation state of the user when enabling the main body microphone.
  • the remote controller 2 is provided with a switch used for such setting.
  • the main body microphone when it is detected that the user is near the TV 1, it may be determined that the user has the intention of inputting voice by the main body microphone, and the main body microphone may be enabled.
  • the user may be able to preset which microphone to use in which case.
  • the microphone used for detecting the voice that is, the valid microphone may be presented to the user.
  • FIG. 14 is a diagram showing an example of a screen display.
  • a message indicating that voice detection is being performed using the main body microphone is displayed at the lower right of the screen.
  • information indicating a valid microphone may be presented.
  • an icon may be displayed as the information indicating a valid microphone.
  • a valid microphone may be presented by turning on the LED.
  • the LED provided at a predetermined position on the housing of the TV 1 lights up, and when the remote control microphone is enabled, a predetermined housing of the remote controller 2 is provided. The LED provided at the position lights up.
  • Both the LED that lights up when the main body microphone is enabled and the LED that lights up when the remote control microphone is enabled may be provided in the housing of the TV 1.
  • FIG. 15 is a block diagram showing a configuration example of hardware of a computer that executes the series of processes described above by a program.
  • the CPU 1001, ROM 1002, and RAM 1003 are connected to each other by a bus 1004.
  • An input/output interface 1005 is further connected to the bus 1004.
  • the input/output interface 1005 is connected to an input unit 1006 including a keyboard and a mouse, and an output unit 1007 including a display and a speaker. Further, the input/output interface 1005 is connected with a storage unit 1008 including a hard disk and a non-volatile memory, a communication unit 1009 including a network interface, and a drive 1010 that drives the removable medium 1011.
  • the CPU 1001 loads the program stored in the storage unit 1008 into the RAM 1003 via the input/output interface 1005 and the bus 1004 and executes the program, thereby performing the series of processes described above. Is done.
  • the program executed by the CPU 1001 is recorded in the removable medium 1011 or provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital broadcasting, and installed in the storage unit 1008.
  • a wired or wireless transmission medium such as a local area network, the Internet, or digital broadcasting
  • the program executed by the computer may be a program in which processing is performed in time series in the order described in the present specification, or in parallel or at a necessary timing such as when a call is made. It may be a program for processing.
  • the present technology can be configured as cloud computing in which one function is shared by a plurality of devices via a network and jointly processes.
  • each step described in the above flow chart can be executed by one device or shared by a plurality of devices.
  • one step includes a plurality of processes
  • the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • a main body microphone that is a microphone provided in the housing, Which of the microphones of the main body microphone and the terminal microphone, which is a microphone provided in the information processing terminal used for the user's operation, is used to detect the voice to be recognized is set to the information processing terminal.
  • An information processing apparatus comprising: a control unit that controls based on a state of a user operation.
  • the information processing apparatus according to (1) further including a communication unit that receives a voice detected by the terminal microphone and transmitted from the information processing terminal.
  • the voice recognition request is made when the predetermined button is pressed during execution of the predetermined application, and an operation for performing voice recognition is performed by the user using the screen of the predetermined application.
  • the information processing device which is output in this case.
  • the information processing apparatus according to any one of (1) to (9), wherein the control unit presents whether the microphone used for voice detection is the main body microphone or the terminal microphone. .. (11)
  • An information processing device including a main body microphone, which is a microphone provided in a housing, Which of the microphones of the main body microphone and the terminal microphone, which is a microphone provided in the information processing terminal used for the user's operation, is used to detect the voice to be recognized is set to the information processing terminal.
  • a control method that controls based on the state of user operation.
  • a terminal microphone that is a microphone provided in the housing
  • An operation unit used for operating the information processing apparatus including a predetermined button operated when the voice to be recognized is detected by the terminal microphone, The information for controlling which of the microphone included in the information processing device and the terminal microphone the detection of the voice to be recognized is performed based on the state of the user's operation on the predetermined button.
  • An information processing terminal comprising: a communication unit that transmits a voice detected by the terminal microphone to the information processing device in response to a detection request transmitted from the processing device.
  • a terminal microphone that is a microphone provided in the housing
  • An information processing terminal comprising: an operation unit used for operating the information processing apparatus, including a predetermined button operated when the voice to be recognized is detected by the terminal microphone, The information for controlling which of the microphone included in the information processing device and the terminal microphone the detection of the voice to be recognized is performed based on the state of the user's operation on the predetermined button.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Selective Calling Equipment (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本技術は、認識対象となる音声をユーザの意図に応じたマイクロフォンを用いて検出することができるようにする情報処理装置、制御方法、情報処理端末、情報処理方法に関する。 本技術の一側面の情報処理装置は、筐体に設けられたマイクロフォンである本体マイクロフォンと、認識対象となる音声の検出を、本体マイクロフォンと、ユーザの操作に用いられる情報処理端末に設けられたマイクロフォンである端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、情報処理端末に対するユーザの操作の状態に基づいて制御する。本技術は、マイクロフォンを有するTVに適用することができる。

Description

情報処理装置、制御方法、情報処理端末、情報処理方法
 本技術は、情報処理装置、制御方法、情報処理端末、情報処理方法に関し、特に、認識対象となる音声をユーザの意図に応じたマイクロフォンを用いて検出することができるようにした情報処理装置、制御方法、情報処理端末、情報処理方法に関する。
 近年、音声アシスタント機能を搭載したTV(テレビジョン受像機)が販売されている。音声アシスタント機能は、機器の操作を音声で行うことができるようにするものである。
 ユーザは、音声アシスタント機能を利用することにより、例えば、TVの操作や、番組の検索、動画配信サービスが配信する動画の検索を、キーワードなどを発話することによって行うことができる。
特開2018-117311号公報
 音声アシスタント機能を利用する場合、ユーザは、リモートコントローラに設けられたマイクボタンを押してから発話を行う。ユーザの発話は、リモートコントローラに設けられたマイクロフォンにより検出され、TVに対して送信される。
 TVの本体にマイクロフォンを搭載するモデルもある。この場合、ユーザの音声を、本体に設けられたマイクロフォンにより検出するのか、リモートコントローラに設けられたマイクロフォンにより検出するのかを適切に切り替える必要がある。
 本技術はこのような状況に鑑みてなされたものであり、認識対象となる音声をユーザの意図に応じたマイクロフォンを用いて検出することができるようにするものである。
 本技術の第1の側面の情報処理装置は、筐体に設けられたマイクロフォンである本体マイクロフォンと、認識対象となる音声の検出を、前記本体マイクロフォンと、ユーザの操作に用いられる情報処理端末に設けられたマイクロフォンである端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記情報処理端末に対する前記ユーザの操作の状態に基づいて制御する制御部とを備える。
 本技術の第1の側面においては、認識対象となる音声の検出を、本体マイクロフォンと、ユーザの操作に用いられる情報処理端末に設けられたマイクロフォンである端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかが、情報処理端末に対するユーザの操作の状態に基づいて制御される。
 本技術の第2の側面の情報処理端末は、筐体に設けられたマイクロフォンである端末マイクロフォンと、認識対象となる音声の検出を前記端末マイクロフォンにより行うときに操作される所定のボタンを含む、情報処理装置の操作に用いられる操作部と、認識対象となる音声の検出を、前記情報処理装置が有するマイクロフォンと、前記端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記所定のボタンに対するユーザの操作の状態に基づいて制御する前記情報処理装置から検出要求が送信されてくることに応じて、前記端末マイクロフォンにより検出された音声を前記情報処理装置に対して送信する通信部とを備える。
 本技術の第2の側面においては、認識対象となる音声の検出を、前記情報処理装置が有するマイクロフォンと、前記端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記所定のボタンに対するユーザの操作の状態に基づいて制御する前記情報処理装置から検出要求が送信されてくることに応じて、前記端末マイクロフォンにより検出された音声が前記情報処理装置に対して送信される。
本技術の一実施形態に係るTVの音声認識について説明する図である。 本体マイクを用いた操作の例を示す図である。 リモコンマイクを用いた操作の例を示す図である。 マイクボタンの押下後のやりとりの例を示す図である。 TVの表示画面の例を示す図である。 音声の検出に用いられるマイクロフォンの切り替えの例を示す図である。 TVのアプリケーション構造の例を示す図である。 TVのハードウェア構成例を示すブロック図である。 リモートコントローラの構成例を示すブロック図である。 TVの機能構成例を示すブロック図である。 TVのマイク制御処理について説明するフローチャートである。 情報処理端末としてのスマートフォンの例を示す図である。 他の情報処理端末の例を示す図である。 画面表示の例を示す図である。 コンピュータの構成例を示すブロック図である。
 以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
 1.TVの音声認識機能
 2.アプリケーション構造
 3.TVの構成と動作
 4.変形例
<<TVの音声認識機能>>
 図1は、本技術の一実施形態に係るTVの音声認識について説明する図である。
 図1に示すように、TV1の筐体正面にはディスプレイ11が設けられ、ディスプレイ11の下にはマイクロフォン12が設けられる。マイクロフォン12は、例えばユーザの音声を検出するために用いられる。
 TV1には音声アシスタント機能が搭載されている。ユーザは、番組の検索、動画配信サービスが配信する動画の検索、Webサイトの検索、設定変更、チャンネルの切り替えなどのTV1の各種の操作を音声により行うことができる。TV1に接続された外部のデバイスの操作なども、音声により行うことが可能とされる。
 マイクロフォン12により検出された音声を表す音声データは、インターネット31を介して音声認識サーバ32に送信される。音声認識サーバ32においては音声認識が行われ、音声認識結果を表す情報がTV1に対して送信される。
 TV1は、音声認識サーバ32から送信されてきた情報を受信し、音声認識結果に応じた処理を行うことになる。
 このように音声を用いた操作が可能なTV1には、TV1の操作に用いる情報処理端末としてのリモートコントローラ2も用意される。ユーザは、リモートコントローラ2を用いることによっても、TV1を操作することができる。
 リモートコントローラ2は、ユーザが片手で持つことが可能な筐体を有する。筐体の形状としては、例えば、細長状、直方体状などが挙げられる。リモートコントローラ2の筐体の表面には、電源ボタン、音量ボタン、チャンネルボタン、カーソルボタン、決定ボタンなどの各種のボタンが設けられる。ユーザの操作の内容を表す信号は、赤外線通信により、または、Bluetooth(登録商標)、無線LANなどの電波を用いた無線通信によりTV1に対して送信される。
 リモートコントローラ2にはマイクロフォン22が設けられる。ユーザは、他のボタンとともに並べて設けられたマイクボタン21を押下することにより、マイクロフォン22を用いて音声を入力することができる。
 マイクロフォン22により検出された音声を表す音声データはTV1に対して送信され、マイクロフォン12により検出された音声と同様の処理が施される。リモートコントローラ2から送信された音声データは、TV1から音声認識サーバ32に対して送信され、音声認識サーバ32において音声認識の対象となる。
 リモートコントローラ2は、TV1用の外部の機器である。TV1には、音声を入力するためのマイクロフォンとして、本体に設けられたマイクロフォン12と、TV1用の外部の機器に設けられたマイクロフォン22との2つのマイクロフォンが用意されていることになる。
 以下、適宜、TV1の本体に設けられたマイクロフォン12を本体マイクという。また、リモートコントローラ2に設けられたマイクロフォン22をリモコンマイクという。
 図2は、本体マイクを用いた操作の例を示す図である。
 図2の吹き出しに示すように、ユーザは、起動ワードを発話することにより音声アシスタント機能を利用することができる。図2の例においては「OK TV」が起動ワードとされている。
 起動ワード後のユーザの発話が本体マイクにより検出され、音声認識の対象となる。図2の例においては、「4チャンネルつけて」の発話がユーザにより行われている。
 本体マイクにより検出された「4チャンネルつけて」の音声を表す音声データが音声認識サーバ32に送信される。TV1においては、音声認識サーバ32による音声認識の結果に基づいて、受信するチャンネルを4チャンネルに切り替える動作が行われる。
 このように、ユーザは、起動ワードを発話することにより音声アシスタント機能を起動させ、リモートコントローラ2を用いずに、本体マイクに音声を入力することによって各種の操作を行うことができる。図2の例においては、リモートコントローラ2はユーザの隣に置かれている。
 図3は、リモコンマイクを用いた操作の例を示す図である。
 マイクボタン21を押下した後に操作が可能となるから、リモコンマイクを用いた操作を行う場合、図3に示すように、ユーザはリモートコントローラ2を持った状態で操作を行うことになる。
 図4は、マイクボタン21の押下後のやりとりの例を示す図である。
 マイクボタン21が押下された場合、矢印A1に示すように、マイクボタン21が押下されたことを表す情報がリモートコントローラ2からTV1に対して送信される。
 マイクボタン21が押下されたことを表す情報を受信したTV1からリモートコントローラ2に対しては、矢印A2に示すように、音声の検出を開始することの要求である音声検出リクエストが送信される。
 音声検出リクエストを受信したリモートコントローラ2においては、リモコンマイクによる音声の検出が行われる。リモコンマイクにより検出されたユーザの音声を表す音声データは、矢印A3に示すようにTV1に対して送信される。
 なお、TV1からリモートコントローラ2に対する音声検出リクエストの送信と、リモートコントローラ2からTV1に対する音声データの送信は、電波を用いた無線通信により行われる。
 また、リモートコントローラ2からTV1に対する、マイクボタン21が押下されたことを表す情報の送信は、赤外線通信により、または電波を用いた無線通信により行われる。
 図3の説明に戻り、マイクボタン21の押下後のユーザの発話がリモコンマイクにより検出され、音声認識の対象となる。図3の例においては、「野球の番組を検索して」の発話がユーザにより行われている。
 リモコンマイクにより検出された「野球の番組を検索して」の音声を表す音声データがTV1を介して音声認識サーバ32に送信される。TV1においては、音声認識サーバ32による音声認識の結果に基づいて、野球の番組を検索するための動作が行われる。
 このように、ユーザは、マイクボタン21を押下することによってリモコンマイクを有効な状態とし、リモコンマイクに音声を入力することによって各種の操作を行うことができる。
 図5は、TV1の表示画面の例を示す図である。
 図5の例においては、番組表アプリケーションがアクティブとなり、番組表アプリケーションの画面がディスプレイ11に表示されている。それぞれのタイル状の領域には、番組のサムネイル画像などが表示される。画面に表示されるカーソルを移動させることにより、ユーザは所定の番組を選択し、詳細な情報を表示させたりすることができる。
 後述するように、汎用のOS(Operating System)を搭載した機器であるTV1には各種のアプリケーションがインストールされている。実行中のアプリケーションのうち、アクティブな状態になっているアプリケーションの画面がディスプレイ11に表示される。
 右下に示すように、番組表アプリケーションの画面には音声認識アイコン51が表示される。音声認識アイコン51は、音声認識を行うときに操作される画像である。
 ユーザは、リモートコントローラ2の例えばカーソルボタンを操作してカーソルを音声認識アイコン51にあて、決定ボタンを押下することによって、音声の入力を行うことができる状態にすることができる。このように、ユーザは、音声認識アイコン51などの、音声認識用のGUI(Graphical User Interface)の表示を操作することによっても、音声の入力が可能な状態にすることができる。
 音声認識アイコン51の操作後のユーザの発話は、本体マイクにより検出され、音声認識の対象となる。すなわち、リモコンマイクは有効な状態にならない。
 図6は、音声の検出に用いられるマイクロフォンの切り替えの例を示す図である。
 図6の右側に示すように、ユーザが起動ワードを発話したことが検出された場合、その後の音声は、矢印A11の先に示すように、TV1に設けられた本体マイクにより検出される。
 図6の左側に示すように、アプリケーションから音声認識要求が出力された場合、矢印A12の先に示すように、マイクボタン21をユーザが押下したか否かの判定が行われる。
 アプリケーションからの音声認識要求は、マイクボタン21がユーザにより押下された場合、または、音声認識用のGUIの表示がユーザにより操作された場合に、例えばアクティブな状態のアプリケーションから出力される。
 マイクボタン21を押下したか否かの判定であるマイクボタン押下判定は、アプリケーションから出力された音声認識要求を受信したプログラムモジュールにより行われる。マイクボタン押下判定を行うプログラムモジュールは、例えばOSの一部やドライバとして設けられる。
 マイクボタン押下判定により、マイクボタン21がユーザにより押下されたと判定された場合、矢印A13の先に示すように、リモートコントローラ2に設けられたリモコンマイクが有効となり、その後の音声がリモコンマイクにより検出される。リモコンマイクにより検出された音声が音声認識の対象となる。
 一方、マイクボタン押下判定により、マイクボタン21がユーザにより押下されていないと判定された場合、すなわち、アプリケーションからの音声認識要求が、音声認識用のGUIの表示が操作されたことに応じて出力された場合、その後の音声は、矢印A14の先に示すように本体マイクにより検出される。
 このように、音声を入力するためのユーザの操作として、マイクボタン21を押下する操作、起動ワードを発話する操作、および、音声認識用のGUIの表示を用いた操作の3種類の操作が用意される。
 TV1は、マイクボタン21を押下する操作が行われた場合のみ、リモコンマイクにより音声を検出する状態となり、他の2つの操作が行われた場合には、本体マイクにより音声を検出する状態となる。
 マイクボタン21を押下する操作は、リモートコントローラ2を手に持ち、目でマイクボタン21を確認して行う操作であるから、リモートコントローラ2に設けられているリモコンマイクにより音声を入力しようとする意図をユーザが有していると考えられる。
 マイクボタン21を押下する操作が行われた場合にリモコンマイクにより音声を検出するTV1の動作は、ユーザの意図に応じたマイクロフォンを用いた動作といえる。
 一方、起動ワードを発話する操作は、主にTV1に顔を向けて行う操作であるから、本体マイクにより音声を入力しようとする意図をユーザが有していると考えられる。同様に、音声認識用のGUIの表示を用いた操作は、TV1の画面を見て行う操作であるから、本体マイクにより音声を入力しようとする意図をユーザが有していると考えられる。
 起動ワードを発話する操作や音声認識用のGUIの表示を用いた操作が行われた場合に本体マイクにより音声を検出するTV1の動作も、ユーザの意図に応じたマイクロフォンを用いた動作といえる。
 音声の検出に用いるマイクロフォンを以上のようにして切り替えるTV1の一連の処理については後述する。
<<アプリケーション構造>>
 図7は、TV1のアプリケーション構造の例を示す図である。
 TV1には、TV用OS61が搭載される。TV用OS61上で動作する各種のアプリケーションがTV1にインストールされる。図7の例においては、TV視聴アプリケーション71、番組表アプリケーション72、Webブラウザ73、コンテンツ視聴アプリケーション74が示されている。
 TV視聴アプリケーション71は、放送された番組の視聴を管理するアプリケーションである。TV視聴アプリケーション71の起動中、ユーザは、リモートコントローラ2を操作するなどして所定のチャンネルを選択し、選択したチャンネルで放送されている番組を視聴することができる。
 番組表アプリケーション72は、番組の放送の予定をまとめた番組表を管理するアプリケーションである。番組表アプリケーション72の起動中、ユーザは、リモートコントローラ2を操作するなどして、ディスプレイ11に表示される番組表の画面の表示を切り替えることができる。
 Webブラウザ73は、インターネット31に接続し、Webページを閲覧するときなどに使用するアプリケーションである。Webブラウザ73の起動中、ユーザは、リモートコントローラ2を操作するなどして所定のWebページを閲覧することができる。
 コンテンツ視聴アプリケーション74は、図示せぬ配信サーバにより提供される配信サービスを利用するためのアプリケーションである。
 例えばコンテンツ視聴アプリケーション74の起動時、TV1には、配信サーバから送信されてきた情報に基づいて、配信サービスのメイン画面が表示される。メイン画面には、タイトルやサムネイル画像などの、視聴可能なコンテンツに関する情報が表示される。ユーザは、リモートコントローラ2を操作するなどして、好みのコンテンツを選択することができる。ユーザが所定のコンテンツを選択したとき、コンテンツの配信が開始される。
 このような各種のアプリケーションがTV1にはインストールされる。例えば音声認識用のGUIの表示が操作された場合、音声認識要求が実行中のアプリケーションから出力される。アプリケーションから出力された音声認識要求に応じてマイクロフォンの切り替えを行うプログラムモジュールもTV1には用意される。
<<TVの構成と動作>>
<TVの構成>
 図8は、TV1のハードウェア構成例を示すブロック図である。
 図8に示す構成のうち、上述した構成には同じ符号を付してある。重複する説明については適宜省略する。
 チューナ101は、図示せぬアンテナから供給された放送波信号、または、衛星放送やケーブルテレビのセットトップボックスから供給された放送波信号を受信し、ユーザにより選択されたチャンネルの信号を抽出する。チューナ101は、抽出した信号に対して、A/D変換、復調などの各種の処理を施し、各種の処理を施すことによって取得した番組のデータをデコーダ102に出力する。
 デコーダ102は、番組のデータを構成するビデオストリームをデコードし、デコードして得られた各ピクチャのデータを信号処理部103に出力する。また、デコーダ102は、番組のデータを構成するオーディオストリームをデコードし、番組の音声データを信号処理部103に出力する。
 デコーダ102は、所定の配信サービスのコンテンツを再生する場合、通信部110において受信され、バス105を介して供給されたコンテンツのビデオストリームとオーディオストリームをデコードする。デコーダ102は、コンテンツのビデオストリームをデコードして得られた各ピクチャのデータと、オーディオストリームをデコードして得られた音声データを信号処理部103に出力する。
 信号処理部103は、CPU106による制御に従って、デコーダ102から供給された各ピクチャの画質調整を行う。信号処理部103は、画質調整後のピクチャをディスプレイ11に出力し、番組やコンテンツの映像を表示させる。
 また、信号処理部103は、デコーダ102から供給された音声データのD/A変換等を行い、映像に同期させて、番組やコンテンツの音声をスピーカ104から出力させる。
 ディスプレイ11は、LCD(Liquid Crystal Display)、有機ELディスプレイなどにより構成される。
 CPU(Central Processing Unit)106、ROM(Read Only Memory)107、RAM(Random Access Memory)108は、バス105により相互に接続される。CPU106は、ROM107や記録部109に記録されているプログラムをRAM108を用いて実行し、TV1の全体の動作を制御する。
 記録部109は、HDD(Hard Disk Drive)やSSD(Solid State Drive)などの記録媒体により構成される。記録部109は、番組のデータ、コンテンツ、EPGデータ、プログラムなどの各種のデータを記録する。
 通信部110は、インターネット31のインタフェースである。通信部110は、音声認識サーバ32との間で通信を行う。
 操作I/F部111は、赤外線通信によってリモートコントローラ2から送信されてきた情報を受信する。また、操作I/F部111は、電波を用いた無線通信によって、リモートコントローラ2との間で通信を行う。リモートコントローラ2から送信され、操作I/F部111により受信された音声データなどの情報は、バス105を介してCPU106に出力される。操作I/F部111は、リモートコントローラ2との間で通信を行う通信部として機能する。
 カメラ112は、TV1の正面の状況を適宜撮影する。
 図9は、リモートコントローラ2の構成例を示すブロック図である。
 操作I/F部121は、赤外線通信によってTV1に情報を送信する。また、操作I/F部121は、電波を用いた無線通信によって、TV1との間で通信を行う。操作I/F部121により受信された情報はコントローラ122に出力される。
 コントローラ122は、CPU、ROM、RAMから構成される。コントローラ122は、所定のプログラムを実行し、リモートコントローラ2の全体を制御する。コントローラ122は、マイクロフォン22により検出された音声を表す音声データ、または、操作部123から供給された、ユーザの操作の内容を表す情報を、操作I/F部121を介してTV1に送信する。
 マイクロフォン22は、ユーザの音声を検出し、検出した音声を表す音声データをコントローラ122に出力する。
 操作部123は、ユーザによる操作を検出し、検出した操作の内容を表す情報をコントローラ122に出力する。
 図10は、TV1の機能構成例を示すブロック図である。
 図10に示す機能部のうちの少なくとも一部は、図8のCPU106により、TV用OS61を含む各種のプログラムが実行されることによって実現される。
 図10に示すように、TV1においては、操作検出部131、起動ワード検出部132、マイク制御部133、音声受信制御部134、アプリケーション実行部135、および音声認識制御部136が実現される。マイクロフォン12により構成される本体マイクにより検出された音声を表す音声データは、起動ワード検出部132とマイク制御部133に入力される。
 操作検出部131は、操作I/F部111を制御し、リモートコントローラ2を用いて行われるユーザの操作を検出する。マイクボタン21の押下、画面に表示されたカーソルの移動などの各種の操作が操作検出部131により検出される。操作検出部131により検出された、ユーザの操作の内容を表す情報は、マイク制御部133、音声受信制御部134、およびアプリケーション実行部135に供給される。
 起動ワード検出部132は、本体マイクから供給された音声データに基づいて起動ワードの発話を検出する。起動ワード検出部132は、ユーザが起動ワードを発話したことを検出した場合、そのことを表す情報をマイク制御部133に出力する。
 マイク制御部133は、音声認識の対象とする音声の検出に用いるマイクロフォンを切り替える。例えば、マイク制御部133は、起動ワードを発話したことが検出された場合、本体マイクにより検出された音声を、音声認識の対象として音声認識制御部136に出力する。
 また、マイク制御部133は、音声認識用のGUIの表示が操作されることに応じて、アプリケーション実行部135から音声認識要求が供給された場合、本体マイクにより検出された音声を、音声認識の対象として音声認識制御部136に出力する。
 なお、本体マイクにより検出された音声は、常時録音されている訳ではない。起動ワードの検出設定がオンの場合は、本体マイクにより検出された音声は常時録音され、オフの場合は録音が行われない。音声認識用のGUIの表示が操作された場合、本体マイクに対してリクエストが出され、そのリクエストに応じて、本体マイクにより検出された音声が、起動ワード検出部132を経由せずに、マイク制御部133に供給される。
 マイク制御部133は、マイクボタン21が押下されることに応じて、アプリケーション実行部135から音声認識要求が供給された場合、リモコンマイクを有効な状態とし、そのことを表す情報を音声受信制御部134に出力する。マイク制御部133は、リモコンマイクを有効な状態にした後に音声受信制御部134から供給された音声データを、音声認識の対象として音声認識制御部136に出力する。
 音声受信制御部134は、操作I/F部111を制御し、リモコンマイクによる音声の検出を制御する。例えば、音声受信制御部134は、リモコンマイクを有効な状態にすることを表す情報がマイク制御部133から供給された場合、音声検出リクエストをリモートコントローラ2に対して送信する。
 また、音声受信制御部134は、音声検出リクエストを送信した後にリモートコントローラ2から送信されてきた音声データを受信し、マイク制御部133に出力する。
 アプリケーション実行部135は、操作検出部131から供給された情報により表されるユーザの操作に応じて、アプリケーションの実行を制御する。
 例えば、アプリケーション実行部135は、所定のアプリケーションをアクティブな状態としている場合において、音声認識用のGUIの表示が操作された場合、音声認識要求をマイク制御部133に出力する。
 また、アプリケーション実行部135は、音声認識制御部136から供給された、音声認識の結果に基づいてアプリケーションの実行を制御する。
 音声認識制御部136は、通信部110を制御して音声認識サーバ32と通信を行い、TV1における音声認識機能を制御する。音声認識制御部136は、マイク制御部133から供給された音声データを音声認識サーバ32に送信する。
 また、音声認識制御部136は、音声認識サーバ32から送信されてきた音声認識の結果を受信する。音声認識制御部136により受信された音声認識の結果はアプリケーション実行部135に出力される。
<TVの動作>
 ここで、図11のフローチャートを参照して、以上のような構成を有するTV1のマイク制御処理について説明する。
 ステップS1において、TV1の起動ワード検出部132は、本体マイクから供給された音声データに基づいて、起動ワードの発話が検出されたか否かを判定する。
 起動ワードの発話が検出されたとステップS1において判定された場合、ステップS2において、マイク制御部133は、本体マイクを有効にする。なお、起動ワードの検出設定がオンの場合、本体マイクは元々有効であるため、ここでは、引き続き、本体マイクが有効とされる。
 ステップS3において、マイク制御部133は、本体マイクから供給された音声データを、音声認識の対象として取得する。マイク制御部133により取得された音声データは、音声認識制御部136に供給される。
 ステップS4において、音声認識制御部136は、マイク制御部133から供給された音声データを音声認識サーバ32に送信する。
 音声認識サーバ32においては、本体マイクにより検出された音声を対象として音声認識が行われ、音声認識の結果がTV1に対して送信される。音声認識サーバ32から送信された音声認識の結果は、音声認識制御部136において受信され、アプリケーション実行部135に出力される。
 一方、起動ワードの発話が検出されていないとステップS1において判定された場合、ステップS5において、マイク制御部133は、アプリケーション実行部135が実行するアプリケーションから音声認識要求が出力されたか否かを判定する。
 音声認識要求が出力されたとステップS5において判定した場合、ステップS6において、マイク制御部133は、操作検出部131から供給された情報に基づいて、マイクボタン21が押下されたか否かを判定する。
 マイクボタン21が押下されていないとステップS6において判定された場合、ステップS2に進み、以上の処理と同様の処理が行われる。すなわち、本体マイクが有効とされ、ユーザの音声の検出が本体マイクを用いて行われる。
 マイクボタン21が押下されたとステップS6において判定した場合、ステップS7において、マイク制御部133は、リモコンマイクを有効にする。音声受信制御部134は、音声検出リクエストをリモートコントローラ2に対して送信する。
 ステップS8において、音声受信制御部134は、音声検出リクエストを送信した後にリモートコントローラ2から送信されてきた音声データを受信し、マイク制御部133に出力する。マイク制御部133は、音声受信制御部134から供給された音声データを、音声認識の対象として音声認識制御部136に出力する。
 ステップS9において、音声認識制御部136は、マイク制御部133から供給された音声データを音声認識サーバ32に送信する。
 音声認識サーバ32においては、リモコンマイクにより検出された音声を対象として音声認識が行われ、音声認識の結果がTV1に対して送信される。音声認識サーバ32から送信された音声認識の結果は、音声認識制御部136において受信され、アプリケーション実行部135に出力される。
 ステップS4またはステップS9において音声データが送信された後、または、ステップS5において、音声認識要求が出力されていないと判定された場合、ステップS1に戻り、以上の処理が繰り返し行われる。
 以上の処理により、TV1は、ユーザの意図に応じたマイクロフォンを用いて、ユーザの音声を検出することができる。TV1は、ユーザの意図にあったマイクロフォンを選択することにより、ユーザの音声をより正確に聞き取り、応答することが可能となる。
 すなわち、マイクボタン21を押下することによって、リモコンマイクを用いて音声を入力しようとする意図をユーザが有している場合、TV1は、リモコンマイクを用いてユーザの音声を検出することができる。
 また、起動ワードを発話したり、音声認識用のGUIの表示を操作したりして、本体マイクを用いて音声を入力しようとする意図をユーザが有している場合、TV1は、本体マイクを用いてユーザの音声を検出することができる。
 ユーザとしても、自分の意図に応じたマイクロフォンから音声を入力することができる。
<<変形例>>
<情報処理端末の例>
 TV1の操作に用いられる情報処理端末がリモートコントローラ2であるものとしたが、スマートフォン、タブレット端末などの他のデバイスであってもよい。
 図12は、情報処理端末としてのスマートフォンの例を示す図である。
 スマートフォン201には、スマートフォン201をTV1のリモートコントローラとして動作させるためのアプリケーションであるリモコンアプリがインストールされている。図12のスマートフォン201のディスプレイに表示されている画面はリモコンアプリの画面である。ユーザは、リモコンアプリの画面の表示を用いて、TV1の操作を行うことができる。
 リモコンアプリの画面には、電源ボタン、音量ボタン、チャンネルボタン、カーソルボタン、決定ボタンなどの、リモートコントローラ2に設けられるボタンと同様の機能を有する各種のボタンが表示される。リモコンアプリの画面には、図12に示すようにマイクボタン211も表示される。
 マイクボタン211が押下された場合、リモートコントローラ2のマイクボタン21が押下された場合と同様に、スマートフォン201に設けられたマイクロフォン212が有効となり、音声を入力できる状態となる。
 TV1は、マイクロフォン212において検出され、スマートフォン201から送信されてきた音声データを音声認識の対象とすることになる。起動ワードが発話されたことに応じて音声認識要求が出力された場合、および、音声認識用のGUIの表示を用いて音声認識要求が出力された場合、上述したように本体マイクが音声の検出に用いられる。
 なお、スマートフォン201に設けられるマイクボタンとして、リモコンアプリの画面に表示されるマイクボタン211が用いられるようにしてもよいし、物理的に設けられたボタンが用いられるようにしてもよい。
 図13は、他の情報処理端末の例を示す図である。
 TV1の操作に用いられる情報処理端末は、図13のAに示すようなエージェントデバイスであってもよいし、図13のBに示すような、音声アシスタント機能を搭載したスマートスピーカであってもよい。図13のAのエージェントデバイスと図13のBのスマートスピーカは、基本的にスマートフォン201と同様の機能を有する。
 このように、TV1の操作に用いられる情報処理端末として、マイクロフォンとともに、そのマイクロフォンを音声の検出に用いることを指示するための操作に用いられる操作部を有する各種のデバイスを用いることが可能である。
 また、音声による操作の対象となるデバイスがTV1であるものとしたが、マイクロフォンを有する各種のデバイスを音声で操作する場合にも、上述した技術を適用することが可能である。
<システム構成例>
 TV1により検出された音声の認識が音声認識サーバ32において行われるものとしたが、TV1内において行われるようにしてもよい。
 この場合、図10の音声認識制御部136は、マイク制御部133から供給された音声データを対象として自ら音声認識を行い、音声認識の結果をアプリケーション実行部135に出力することになる。
<ユーザの意図の判定例>
 リモコンマイクにより音声を入力しようとするユーザの意図が、マイクボタン21を押下すること以外の、ユーザの各種の状態に基づいて判定されるようにしてもよい。
 例えば、ユーザがリモートコントローラ2を持ち続けている場合に、リモコンマイクにより音声を入力しようとする意図をユーザが有していると判定され、リモコンマイクが有効となるようにしてもよい。
 また、カメラ112により撮影された画像を解析し、所定のジェスチャーをユーザがとっていることが検出された場合に、リモコンマイクにより音声を入力しようとする意図をユーザが有していると判定され、リモコンマイクが有効となるようにしてもよい。
 他にも、ユーザがリモートコントローラ2の近くにいることが検出された場合や、リモートコントローラ2を手に持っていることが検出された場合にリモコンマイクが有効となるようにしてもよい。
 このように、カメラ112により撮影された画像を解析することによって、ユーザの意図が判定されるようにすることが可能である。
 当然、「リモコンマイクにより音声を入力」などの、リモコンマイクにより音声を入力しようとする意図をユーザが有していると推定できる発話が行われた場合に、マイクボタン21が有効となるようにしてもよい。
 リモコンマイクを有効にするときのユーザの操作の状態と、本体マイクを有効にするときのユーザの操作の状態とを、それぞれユーザが設定することができるようにしてもよい。この場合、リモートコントローラ2には、そのような設定に用いられるスイッチが設けられる。
 また、ユーザがTV1の近くにいることが検出された場合、本体マイクにより音声を入力しようとする意図をユーザが有していると判定され、本体マイクが有効になるようにしてもよい。
 また、どのような場合にどのマイクを使用するかをユーザが予め設定することができるようにしてもよい。
<有効なマイクロフォンの提示の例>
 音声の検出に用いられているマイクロフォン、すなわち、有効なマイクロフォンがどのマイクロフォンであるのかがユーザに対して提示されるようにしてもよい。
 図14は、画面表示の例を示す図である。
 図14のAの例においては、本体マイクを用いて音声の検出が行われていることを表すメッセージが画面の右下に表示されている。
 一方、図14のBの例では、リモコンマイクを用いて音声の検出が行われていることを表すメッセージが画面の右下に表示されている。
 このように、有効なマイクロフォンを表す情報が提示されるようにしてもよい。有効なマイクロフォンを表す情報として、メッセージではなく、アイコンが表示されるようにしてもよい。
 また、有効なマイクロフォンが、LEDの点灯によって提示されるようにしてもよい。この場合、例えば、本体マイクが有効になっているときには、TV1の筐体の所定の位置に設けられたLEDが点灯し、リモコンマイクが有効になっているときには、リモートコントローラ2の筐体の所定の位置に設けられたLEDが点灯する。
 本体マイクが有効になっているときに点灯するLEDと、リモコンマイクが有効になっているときに点灯するLEDの両方のLEDがTV1の筐体に設けられるようにしてもよい。
 このように、どのマイクロフォンが有効になっているかをユーザに対して示すことにより、ユーザビリティを向上させることが可能となる。ユーザも、有効なマイクに適した発話をすることが可能となる。
<コンピュータの構成例>
 上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
 図15は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 CPU1001、ROM1002、RAM1003は、バス1004により相互に接続されている。
 バス1004には、さらに、入出力インタフェース1005が接続されている。入出力インタフェース1005には、キーボード、マウスなどよりなる入力部1006、ディスプレイ、スピーカなどよりなる出力部1007が接続される。また、入出力インタフェース1005には、ハードディスクや不揮発性のメモリなどよりなる記憶部1008、ネットワークインタフェースなどよりなる通信部1009、リムーバブルメディア1011を駆動するドライブ1010が接続される。
 以上のように構成されるコンピュータでは、CPU1001が、例えば、記憶部1008に記憶されているプログラムを入出力インタフェース1005及びバス1004を介してRAM1003にロードして実行することにより、上述した一連の処理が行われる。
 CPU1001が実行するプログラムは、例えばリムーバブルメディア1011に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部1008にインストールされる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
 本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
<構成の組み合わせ例>
 本技術は、以下のような構成をとることもできる。
(1)
 筐体に設けられたマイクロフォンである本体マイクロフォンと、
 認識対象となる音声の検出を、前記本体マイクロフォンと、ユーザの操作に用いられる情報処理端末に設けられたマイクロフォンである端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記情報処理端末に対する前記ユーザの操作の状態に基づいて制御する制御部と
 を備える情報処理装置。
(2)
 前記端末マイクロフォンにより検出され、前記情報処理端末から送信された音声を受信する通信部をさらに備える
 前記(1)に記載の情報処理装置。
(3)
 前記制御部は、前記ユーザの操作の状態として、前記情報処理端末に設けられた所定のボタンを前記ユーザが押下したか否かを判定する
 前記(1)または(2)に記載の情報処理装置。
(4)
 前記制御部は、前記所定のボタンを前記ユーザが押下したと判定した場合、前記端末マイクロフォンにより音声の検出を行う
 前記(3)に記載の情報処理装置。
(5)
 前記制御部は、前記所定のボタンを前記ユーザが押下していないと判定した場合、前記本体マイクロフォンにより音声の検出を行う
 前記(4)に記載の情報処理装置。
(6)
 所定のアプリケーションを実行するアプリケーション実行部をさらに備え、
 前記制御部は、音声認識の要求が前記所定のアプリケーションから出力されたことに応じて、前記所定のボタンを前記ユーザが押下したか否かの判定を行う
 前記(3)乃至(5)のいずれかに記載の情報処理装置。
(7)
 前記音声認識の要求は、前記所定のアプリケーションの実行中に前記所定のボタンが押下された場合、および、音声認識を行うための操作が前記所定のアプリケーションの画面を用いて前記ユーザにより行われた場合に出力される
 前記(6)に記載の情報処理装置。
(8)
 前記本体マイクロフォンまたは前記端末マイクロフォンにより検出された音声をサーバに送信し、前記サーバによる音声認識の結果を受信する音声認識制御部をさらに備える
 前記(1)乃至(7)のいずれかに記載の情報処理装置。
(9)
 前記制御部は、前記ユーザの操作の状態として、前記情報処理端末を前記ユーザが持っているか否かを判定する
 前記(1)または(2)に記載の情報処理装置。
(10)
 前記制御部は、音声の検出に用いられているマイクロフォンが前記本体マイクロフォンであるか、または、前記端末マイクロフォンであるかを提示する
 前記(1)乃至(9)のいずれかに記載の情報処理装置。
(11)
 筐体に設けられたマイクロフォンである本体マイクロフォンを備える情報処理装置が、
 認識対象となる音声の検出を、前記本体マイクロフォンと、ユーザの操作に用いられる情報処理端末に設けられたマイクロフォンである端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記情報処理端末に対する前記ユーザの操作の状態に基づいて制御する
 制御方法。
(12)
 筐体に設けられたマイクロフォンである端末マイクロフォンと、
 認識対象となる音声の検出を前記端末マイクロフォンにより行うときに操作される所定のボタンを含む、情報処理装置の操作に用いられる操作部と、
 認識対象となる音声の検出を、前記情報処理装置が有するマイクロフォンと、前記端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記所定のボタンに対するユーザの操作の状態に基づいて制御する前記情報処理装置から検出要求が送信されてくることに応じて、前記端末マイクロフォンにより検出された音声を前記情報処理装置に対して送信する通信部と
 を備える情報処理端末。
(13)
 筐体に設けられたマイクロフォンである端末マイクロフォンと、
 認識対象となる音声の検出を前記端末マイクロフォンにより行うときに操作される所定のボタンを含む、情報処理装置の操作に用いられる操作部と
 を備える情報処理端末が、
 認識対象となる音声の検出を、前記情報処理装置が有するマイクロフォンと、前記端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記所定のボタンに対するユーザの操作の状態に基づいて制御する前記情報処理装置から検出要求が送信されてくることに応じて、前記端末マイクロフォンにより検出された音声を前記情報処理装置に対して送信する
 情報処理方法。
 1 TV, 2 リモートコントローラ, 11 ディスプレイ, 12 マイクロフォン, 21 マイクボタン, 22 マイクロフォン, 31 インターネット, 32 音声認識サーバ, 121 操作I/F部, 122 コントローラ, 123 操作部, 131 操作検出部, 132 起動ワード検出部, 133 マイク制御部, 134 音声受信制御部, 135 アプリケーション実行部, 136 音声認識制御部, 201 スマートフォン

Claims (13)

  1.  筐体に設けられたマイクロフォンである本体マイクロフォンと、
     認識対象となる音声の検出を、前記本体マイクロフォンと、ユーザの操作に用いられる情報処理端末に設けられたマイクロフォンである端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記情報処理端末に対する前記ユーザの操作の状態に基づいて制御する制御部と
     を備える情報処理装置。
  2.  前記端末マイクロフォンにより検出され、前記情報処理端末から送信された音声を受信する通信部をさらに備える
     請求項1に記載の情報処理装置。
  3.  前記制御部は、前記ユーザの操作の状態として、前記情報処理端末に設けられた所定のボタンを前記ユーザが押下したか否かを判定する
     請求項1に記載の情報処理装置。
  4.  前記制御部は、前記所定のボタンを前記ユーザが押下したと判定した場合、前記端末マイクロフォンにより音声の検出を行う
     請求項3に記載の情報処理装置。
  5.  前記制御部は、前記所定のボタンを前記ユーザが押下していないと判定した場合、前記本体マイクロフォンにより音声の検出を行う
     請求項4に記載の情報処理装置。
  6.  所定のアプリケーションを実行するアプリケーション実行部をさらに備え、
     前記制御部は、音声認識の要求が前記所定のアプリケーションから出力されたことに応じて、前記所定のボタンを前記ユーザが押下したか否かの判定を行う
     請求項3に記載の情報処理装置。
  7.  前記音声認識の要求は、前記所定のアプリケーションの実行中に前記所定のボタンが押下された場合、および、音声認識を行うための操作が前記所定のアプリケーションの画面を用いて前記ユーザにより行われた場合に出力される
     請求項6に記載の情報処理装置。
  8.  前記本体マイクロフォンまたは前記端末マイクロフォンにより検出された音声をサーバに送信し、前記サーバによる音声認識の結果を受信する音声認識制御部をさらに備える
     請求項1に記載の情報処理装置。
  9.  前記制御部は、前記ユーザの操作の状態として、前記情報処理端末を前記ユーザが持っているか否かを判定する
     請求項1に記載の情報処理装置。
  10.  前記制御部は、音声の検出に用いられているマイクロフォンが前記本体マイクロフォンであるか、または、前記端末マイクロフォンであるかを提示する
     請求項1に記載の情報処理装置。
  11.  筐体に設けられたマイクロフォンである本体マイクロフォンを備える情報処理装置が、
     認識対象となる音声の検出を、前記本体マイクロフォンと、ユーザの操作に用いられる情報処理端末に設けられたマイクロフォンである端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記情報処理端末に対する前記ユーザの操作の状態に基づいて制御する
     制御方法。
  12.  筐体に設けられたマイクロフォンである端末マイクロフォンと、
     認識対象となる音声の検出を前記端末マイクロフォンにより行うときに操作される所定のボタンを含む、情報処理装置の操作に用いられる操作部と、
     認識対象となる音声の検出を、前記情報処理装置が有するマイクロフォンと、前記端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記所定のボタンに対するユーザの操作の状態に基づいて制御する前記情報処理装置から検出要求が送信されてくることに応じて、前記端末マイクロフォンにより検出された音声を前記情報処理装置に対して送信する通信部と
     を備える情報処理端末。
  13.  筐体に設けられたマイクロフォンである端末マイクロフォンと、
     認識対象となる音声の検出を前記端末マイクロフォンにより行うときに操作される所定のボタンを含む、情報処理装置の操作に用いられる操作部と
     を備える情報処理端末が、
     認識対象となる音声の検出を、前記情報処理装置が有するマイクロフォンと、前記端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記所定のボタンに対するユーザの操作の状態に基づいて制御する前記情報処理装置から検出要求が送信されてくることに応じて、前記端末マイクロフォンにより検出された音声を前記情報処理装置に対して送信する
     情報処理方法。
PCT/JP2019/047779 2018-12-21 2019-12-06 情報処理装置、制御方法、情報処理端末、情報処理方法 WO2020129695A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP19898317.3A EP3902281A4 (en) 2018-12-21 2019-12-06 INFORMATION PROCESSING DEVICE, CONTROL METHOD, INFORMATION PROCESSING TERMINAL AND INFORMATION PROCESSING METHOD
KR1020217017235A KR20210104689A (ko) 2018-12-21 2019-12-06 정보 처리 장치, 제어 방법, 정보 처리 단말기, 정보 처리 방법
US17/297,782 US20220053228A1 (en) 2018-12-21 2019-12-06 Information Processing Apparatus, Control Method, Information Processing Terminal, And Information Processing Method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-239329 2018-12-21
JP2018239329A JP2022028094A (ja) 2018-12-21 2018-12-21 情報処理装置、制御方法、情報処理端末、情報処理方法

Publications (1)

Publication Number Publication Date
WO2020129695A1 true WO2020129695A1 (ja) 2020-06-25

Family

ID=71101734

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/047779 WO2020129695A1 (ja) 2018-12-21 2019-12-06 情報処理装置、制御方法、情報処理端末、情報処理方法

Country Status (5)

Country Link
US (1) US20220053228A1 (ja)
EP (1) EP3902281A4 (ja)
JP (1) JP2022028094A (ja)
KR (1) KR20210104689A (ja)
WO (1) WO2020129695A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148772A (ja) * 1998-11-09 2000-05-30 Minolta Co Ltd 静止画像出力装置
JP2012047924A (ja) * 2010-08-26 2012-03-08 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
JP2014130566A (ja) * 2013-08-21 2014-07-10 Pioneer Electronic Corp 携帯端末装置、車載器、情報提示方法及び情報提示プログラム
WO2015146017A1 (ja) * 2014-03-28 2015-10-01 パナソニックIpマネジメント株式会社 音声検索装置、音声検索方法、および表示装置
WO2018100743A1 (ja) * 2016-12-02 2018-06-07 ヤマハ株式会社 制御装置および機器制御システム
JP2018117311A (ja) 2017-01-20 2018-07-26 ソニー株式会社 制御方法、プログラム、および制御装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180024927A (ko) * 2016-08-31 2018-03-08 삼성전자주식회사 디스플레이 장치 및 디스플레이 장치의 제어 방법
US11140450B2 (en) * 2017-11-28 2021-10-05 Rovi Guides, Inc. Methods and systems for recommending content in context of a conversation
KR102443079B1 (ko) * 2017-12-06 2022-09-14 삼성전자주식회사 전자 장치 및 그의 제어 방법
WO2020085794A1 (en) * 2018-10-23 2020-04-30 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same
KR20200063521A (ko) * 2018-11-28 2020-06-05 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11152001B2 (en) * 2018-12-20 2021-10-19 Synaptics Incorporated Vision-based presence-aware voice-enabled device

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148772A (ja) * 1998-11-09 2000-05-30 Minolta Co Ltd 静止画像出力装置
JP2012047924A (ja) * 2010-08-26 2012-03-08 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
JP2014130566A (ja) * 2013-08-21 2014-07-10 Pioneer Electronic Corp 携帯端末装置、車載器、情報提示方法及び情報提示プログラム
WO2015146017A1 (ja) * 2014-03-28 2015-10-01 パナソニックIpマネジメント株式会社 音声検索装置、音声検索方法、および表示装置
WO2018100743A1 (ja) * 2016-12-02 2018-06-07 ヤマハ株式会社 制御装置および機器制御システム
JP2018117311A (ja) 2017-01-20 2018-07-26 ソニー株式会社 制御方法、プログラム、および制御装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3902281A4

Also Published As

Publication number Publication date
KR20210104689A (ko) 2021-08-25
EP3902281A4 (en) 2022-02-16
JP2022028094A (ja) 2022-02-15
US20220053228A1 (en) 2022-02-17
EP3902281A1 (en) 2021-10-27

Similar Documents

Publication Publication Date Title
US20220084160A1 (en) Picture display device, and setting modification method and setting modification program therefor
US9733895B2 (en) Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same
AU2012293065B2 (en) Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same
JP5746111B2 (ja) 電子装置及びその制御方法
JP6111030B2 (ja) 電子装置及びその制御方法
US20130033644A1 (en) Electronic apparatus and method for controlling thereof
JP2013037689A (ja) 電子装置及びその制御方法
WO2018135314A1 (ja) 制御方法、プログラム、および制御装置
KR20190051379A (ko) 전자 장치 및 그 제어 방법
KR20210025812A (ko) 전자장치, 디스플레이장치 및 그 제어방법
JP5081207B2 (ja) テレビジョン装置及びその操作方法
WO2020129695A1 (ja) 情報処理装置、制御方法、情報処理端末、情報処理方法
KR102066564B1 (ko) 전자 장치 및 그의 제어 방법
KR102359163B1 (ko) 전자 장치 및 이의 음성 인식 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19898317

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019898317

Country of ref document: EP

Effective date: 20210721

NENP Non-entry into the national phase

Ref country code: JP