WO2018101458A1 - 収音機器、コンテンツ再生機器、及びコンテンツ再生システム - Google Patents

収音機器、コンテンツ再生機器、及びコンテンツ再生システム Download PDF

Info

Publication number
WO2018101458A1
WO2018101458A1 PCT/JP2017/043269 JP2017043269W WO2018101458A1 WO 2018101458 A1 WO2018101458 A1 WO 2018101458A1 JP 2017043269 W JP2017043269 W JP 2017043269W WO 2018101458 A1 WO2018101458 A1 WO 2018101458A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
information
determination result
sound collection
control unit
Prior art date
Application number
PCT/JP2017/043269
Other languages
English (en)
French (fr)
Inventor
須山 明彦
田中 克明
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Publication of WO2018101458A1 publication Critical patent/WO2018101458A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Definitions

  • the present invention relates to a sound collection device, a content reproduction device, and a content reproduction system.
  • a sound collection device includes a sound collection unit that acquires sound information including operation instruction information and user-specific information, a control unit that acquires a user determination result related to the user-specific information, and the user determination result as content. And a communication unit that transmits the operation instruction information directly or indirectly to the content reproduction device.
  • a content playback device includes a communication unit that receives a user determination result from a sound collection device and receives a command signal from a server, and a control unit that performs an operation using the user determination result and the command signal. Including.
  • the content reproduction system acquires audio information including operation instruction information and user-specific information, acquires a user determination result regarding the user-specific information, and transmits the user determination result;
  • a content reproduction device that receives the user discrimination result from the sound collection device and performs an operation using the user discrimination result.
  • FIG. 1 is a schematic diagram of a content reproduction system according to the first embodiment.
  • FIG. 2 is a block diagram of the sound collection device according to the first embodiment.
  • FIG. 3 is a conceptual diagram illustrating a user list of a sound collection device according to the present disclosure.
  • FIG. 4 is a block diagram of the content reproduction device according to the first embodiment.
  • FIG. 5 is a flowchart showing an operation example of the content reproduction system according to the first embodiment.
  • FIG. 6 is a conceptual diagram of a content reproduction system according to the second embodiment.
  • FIG. 7 is a block diagram of a sound collection device according to the second embodiment.
  • FIG. 8 is a block diagram of a content reproduction device according to the second embodiment.
  • FIG. 9 is a flowchart showing an operation example of the content reproduction system according to the second embodiment.
  • FIG. 1 is a conceptual diagram of a content reproduction system 300 according to the present embodiment.
  • the content reproduction system 300 includes a sound collection device 100 and a content reproduction device 200.
  • the content reproduction device 200 is connected to the sound collection device 100 via the network 1.
  • the content in the present disclosure includes, for example, audio and video.
  • the network 1 includes a wireless local area network (LAN), a wired LAN, a wide area network (WAN), infrared rays, radio waves, Bluetooth (registered trademark), and the like, and transmits signals between the content reproduction device 200 and the sound collection device 100. Used as a route.
  • LAN local area network
  • WAN wide area network
  • infrared rays radio waves
  • Bluetooth registered trademark
  • the sound collection device 100 includes a communication unit that supports, for example, wireless LAN, wired LAN, WAN, infrared rays, radio waves, Bluetooth (registered trademark), and the like, and transmits signals to and from the content reproduction device 200 via the network 1.
  • a communication unit that supports, for example, wireless LAN, wired LAN, WAN, infrared rays, radio waves, Bluetooth (registered trademark), and the like, and transmits signals to and from the content reproduction device 200 via the network 1.
  • the sound collection unit 30 is, for example, a microphone built in the sound collection device 100.
  • the sound collection unit 30 collects sound emitted by the user and transmits information related to the sound to the control unit 50.
  • the audio information includes user-specific information such as a voice print.
  • the audio information includes operation instruction information from the user such as “Play playlist 1”.
  • a voiceprint is used as an example of user-specific information, but other user-specific information may be used.
  • the storage unit 40 is realized as an HDD (Hard Disc Drive), for example.
  • Various recording media such as a solid-state memory such as a flash memory, a memory card incorporating a solid-state memory, an optical disk, a magneto-optical disk, and a hologram memory, can be considered, and the storage unit 40 can perform recording and reproduction according to the recording medium employed. What is necessary is just to be set as a structure.
  • the storage unit 40 stores a program 42 used by the control unit 50.
  • the control unit 50 compares the user specific information such as a voiceprint possessed by the voice with the user specific information of each user stored in the storage unit 40. .
  • the control unit 50 determines the user by selecting the user specific information closest to the newly acquired voice user specific information from among the plurality of user specific information stored in the storage unit 40, and the user determination Generate and get results.
  • the control unit 50 generates a user discrimination result by comparing the voiceprint waveforms.
  • This user discrimination result means, for example, a result of discriminating who is the user A, user B, or user C described in the user list stored in the storage unit 40, who has made a voice. To do.
  • the control unit 50 performs the user discrimination again, generates a new user discrimination result that “the speaker is the user A”, and the red LED based on the user discrimination result is generated. Instructs the user discrimination result display unit 80 to emit light.
  • the user determination result display unit 80 causes the red LED to emit light and the user A determines that the sound collection device 100 has correctly recognized himself / herself, for example, when the silent state continues for 2 seconds, the control unit 50
  • the final user discrimination result is determined as “speaker is user A”, and a command signal including the user discrimination result is transmitted to the content reproduction device 200.
  • the current word is selected from the user list stored in the storage unit 40. It is also possible to change the current user discrimination result based on the user list, for example, by estimating that a user other than the user candidate is speaking and selecting the next most likely user.
  • control unit 50 determines a trigger word for starting speech recognition in advance and the control unit 50 determines that the user has issued the trigger word
  • a user determination result is generated based on the voice information after the trigger word.
  • a command signal may be generated based on voice information after the trigger word. For example, an expression such as “start” may be set as the trigger word.
  • the control unit 50 may be configured to prompt correct user recognition by continuously speaking the trigger word toward the sound collection device 100.
  • the trigger word does not include operation instruction information regarding specific operation execution contents, it is desirable that the sound collection device 100 does not transmit the trigger word to the content reproduction device 200 described later. . With such a configuration, it is possible to suppress the occurrence of unnecessary communication between the sound collection device 100 and the content reproduction device 200.
  • determination result is demonstrated using the luminescent color of LED
  • the configuration for displaying the user determination result is not limited to these configurations.
  • FIG. 4 is a block diagram of the content reproduction device 200 according to the present embodiment.
  • the content playback device 200 is an audio device that plays back audio, a video playback device that plays back video content such as moving images, and the like.
  • the content reproduction device 200 includes a storage unit 140, a control unit 150, a communication unit 160, and the like, and the control unit 150 is connected to the content output unit 180.
  • the content reproduction device 200 may include the content output unit 180.
  • the content reproduction device 200 is a computer that executes a content reproduction step S7 described later based on a program 142 stored in the storage unit 140.
  • the program 142 may be installed from various recording media regardless of the type such as optical and magnetic, and may be downloaded via the Internet.
  • the storage unit 140 is realized as an HDD (Hard Disc Drive), for example.
  • Various recording media such as a solid-state memory such as a flash memory, a memory card incorporating a solid-state memory, an optical disk, a magneto-optical disk, a hologram memory, and the like can be considered. What is necessary is just to be set as a structure.
  • the storage unit 140 stores a program 142 used by the control unit 150.
  • the storage unit 140 stores each user's reproduction list and various contents corresponding to the reproduction list, and transmits content data to the control unit 150 in accordance with an instruction from the control unit 150.
  • the control unit 150 includes a CPU and a memory.
  • the control unit 150 controls operations of the storage unit 140, the communication unit 160, and the content output unit 180 by the program 142 stored in the storage unit 140.
  • the control unit 150 can send and receive signals to and from the sound collection device 100 via the network 1.
  • the control unit 150 performs content reproduction based on a command signal from the sound collection device 100.
  • the content output unit 180 connected to the control unit 150 outputs content such as video, audio, and text.
  • the content output unit 180 is a speaker or a display device, and outputs content such as video, audio, and text according to instructions from the control unit 150.
  • the playlist 1 of the user A is output in response to an instruction from the control unit 150.
  • FIG. 5 is a flowchart showing an operation example of the content reproduction system 300 in the present embodiment.
  • the sound collection unit 30 of the sound collection device 100 collects sound emitted by the user and acquires sound information.
  • the voice information includes operation instruction information from the user and user-specific information such as the user's voiceprint.
  • the sound collection unit 30 collects “play playlist 1”, which is a sound produced by the user A, and transmits information related to the sound to the control unit 50.
  • the audio information includes user-specific information such as a voice print.
  • the control unit 50 that has received the voice information stores the voice information in the storage unit 40.
  • a trigger word may be determined and stored in the storage unit 40 in advance, and the voice after the control unit 50 determines that the user has issued the trigger word may be stored in the storage unit 40 as voice information. Good.
  • the control unit 50 acquires the voice information uttered by the user A from the sound collection unit 30, and says that “the speaker is the user B” from the user-specific information such as the voiceprint of the voice.
  • the user-specific information such as the voiceprint of the voice.
  • a voiceprint is used as an example of user-specific information.
  • a user discrimination result may be generated using other user-specific information.
  • the control unit 50 recognizes from the user list stored in the storage unit 40 that the LED emission color corresponding to B is green, and displays the user determination result display unit 80 included in the sound collection device 100. Then, a command signal for causing the green LED of the user discrimination result display unit 80 to emit light is transmitted.
  • the user A since the user A determines that the display result of the user discrimination result display unit 80 is the light emission of the green LED and does not recognize himself / herself correctly, the user A continues the utterance such as “No mistake” Suppose that Therefore, the flow returns to the voice information acquisition step S1. If the user A does not continue speaking, the process proceeds to a user determination result determination step S5 described later without returning to the voice information acquisition step S1.
  • the control unit 50 newly makes a user determination from the voice information input from the sound collection unit 30. This time, the control unit 50 recognizes that the user A is speaking correctly from the user-specific information such as the voice print of the collected voice, and determines the user determination result that “the speaker is the user A”. It transmits to the result display part 80.
  • the user discrimination result display unit 80 selects an LED to be lit based on the user discrimination result regenerated in the above-described user discrimination result acquisition step S2.
  • the green LED that has been emitted based on the previous user discrimination result is turned off, and the red LED is caused to emit light based on the current user discrimination result that “the speaker is user A”.
  • the user A determines that the display result of the user discrimination result display unit 80 is the red LED light emission and recognizes himself / herself correctly. It is assumed that the sound collection unit 30 has not collected any speech for 2 seconds. When the sound collection device 100 receives this silent state, the flow proceeds to the user determination result determination step S5.
  • the control unit 50 includes the storage unit Based on the 40 user list, the user discrimination result that “the speaker is the user A” is determined.
  • the control unit 50 generates a command signal including not only the user determination result but also the user determination result, and transmits the command signal to the content reproduction device 200.
  • the user determination result determined in the present embodiment is “speaker is user A”, and the utterance content collected by the sound collection unit 30 is the operation instruction information “play playlist 1”. Therefore, the control unit 50 generates a command signal “Play playlist 1 of user A”. Then, the control unit 50 transmits a command signal including a user determination result to the content reproduction device 200 via the network 1. That is, the transmission of the command signal is not only the user determination result transmission step S6 but also the operation instruction information transmission step.
  • the content reproduction device 200 receives the command signal “play the user A's playlist 1” transmitted from the sound collection device 100, and the control unit 150 of the content reproduction device 200 stores the storage unit.
  • the content corresponding to the playlist 1 of the user A is called out from the plurality of playlists stored in 140 and reproduced.
  • the content output unit 180 outputs the playlist 1 of the user A.
  • the system 300 may further include a server, and the sound collection device 100 may indirectly transmit the user determination result and the command signal to the content reproduction device 200 via the server.
  • Network 1 Since the network 1 has the same configuration as that of the first embodiment, the description thereof is omitted.
  • the sound collection device 100B includes a communication unit that supports, for example, wireless LAN, wired LAN, WAN, infrared rays, radio waves, Bluetooth (registered trademark), and the like, via the network 1 and the server 250 and the content reproduction device 200B. Signal transmission.
  • FIG. 7 is a block diagram of the sound collecting device 100B according to the present embodiment.
  • the sound collection device 100B includes a sound collection unit 30, a storage unit 40B, a control unit 50B, a communication unit 60, and a user discrimination result display unit 80.
  • the sound collection device 100B is based on the program 42B stored in the storage unit 40B, and includes a sound information acquisition step S1, a user determination result acquisition step S2, a user determination result display step S3, a speech continuation presence / absence determination step S4, and a user.
  • the computer executes a determination result determination step S5, a user determination result transmission step S6B, a voice information transmission step S8, and the like.
  • the program 42B may be installed from various recording media regardless of the type such as optical and magnetic, and may be downloaded via the Internet.
  • Storage unit 40B Since the storage unit 40B has the same configuration as that of the first embodiment except that the program 42B used by the control unit 50B is stored, the description thereof is omitted.
  • the control unit 50B transmits the audio information including the operation instruction information received from the sound collection unit 30 to the server 250 via the network 1, and transmits the user determination result to the content reproduction device 200B. .
  • the control unit 50B adds the first signal identification information to the operation instruction information included in the audio information transmitted to the server 250, and the first signal identification is included in the user discrimination result transmitted to the content reproduction device 200B.
  • Second signal identification information corresponding to the information is added.
  • the first signal identification information and the second signal identification information may be the same or different from each other, but the content reproduction device 200B, which will be described later, has added the server 250 to the operation instruction information included in the audio information. Any configuration that can associate the command signal generated based on the user determination result received from the sound collection device 100 ⁇ / b> B may be used.
  • control unit 50B recognizes from the user list stored in the storage unit 40B that, for example, the LED emission color corresponding to the user A is red, and the user determination result display unit 80 Then, a command signal for causing the red LED of the user discrimination result display unit 80 to emit light is transmitted.
  • control unit 50B is configured to accept correction of the user discrimination result as in the first embodiment.
  • the detailed description is the same as that of the first embodiment, and will be omitted.
  • Communication unit 60 Since the communication unit 60 has the same configuration as that of the first embodiment, the description thereof is omitted.
  • the server 250 generates a command signal from the operation instruction information “Play playlist 1” received from the sound collection device 100.
  • the command signal generated by the server 250 includes the first signal identification information. Yes.
  • FIG. 8 is a block diagram of the content reproduction device 200B according to the present embodiment.
  • the content reproduction device 200B is an audio device that reproduces audio, a video reproduction device that reproduces video content such as a moving image, or the like.
  • the content reproduction device 200B includes a storage unit 140B, a control unit 150B, a communication unit 160, and the like, and the control unit 150B is connected to the content output unit 180.
  • the content reproduction device 200B may include the content output unit 180.
  • the content reproduction device 200B is a computer that executes a content reproduction step S7B, which will be described later, based on a program 142B stored in the storage unit 140B.
  • the program 142B may be installed from various recording media regardless of the type such as optical and magnetic, and may be downloaded via the Internet.
  • the storage unit 140B is basically configured in common with the first embodiment except that the program 142B used by the control unit 150B is stored, and thus the description thereof is omitted.
  • the storage unit 140B may or may not store various content data. However, in this embodiment, the storage unit 140B stores content data. explain.
  • Control unit 150B includes a CPU and a memory.
  • the control unit 150B controls operations of the storage unit 140B, the communication unit 160, and the content output unit 180 by the program 142B stored in the storage unit 140B.
  • the control unit 150B can send and receive signals to and from the sound collection device 100B and the server 250 via the network 1.
  • the control unit 150B performs content reproduction based on the user determination result from the sound collection device 100B and the command signal from the server 250.
  • the content output unit 180 connected to the control unit 150B outputs content such as video, audio, and text.
  • the content output unit 180 is a speaker or a display device, and outputs content such as video, audio, and text in accordance with an instruction from the control unit 150B.
  • the playlist 1 of the user A is output in response to an instruction from the control unit 150B.
  • control unit 50B does not transmit a command signal to the content reproduction device 200, unlike the first embodiment.
  • the control unit 50 ⁇ / b> B of the sound collection device 100 ⁇ / b> B transmits the sound information acquired by the sound collection unit 30 to the server 250.
  • This audio information includes operation instruction information from the user. That is, in the present embodiment, this voice information transmission step S9 corresponds to the operation instruction information transmission step.
  • the flow from the voice information transmission step S8 to the command signal transmission step S10 described later can be performed in parallel with the flow from the user determination result acquisition step S2 to the user determination result transmission step S6B described above. .
  • a trigger word may be determined in advance, and the sound collection device 100B may transmit to the server 250 the sound information after the control unit 50B determines that the user has issued the trigger word.
  • the control unit 50B of the sound collection device 100B adds the first signal identification information to the audio information including the operation instruction information and transmits it to the server 250.
  • the control unit 50B of the sound collection device 100B converts the first signal identification information into an audio signal, and then adds the audio signal to the audio information. Just send it to.
  • Command signal generation step S9 the server 250 generates a command signal based on the operation instruction information included in the audio information received from the sound collection device 100B.
  • the server 250 generates a command signal to “play the playlist 1”.
  • the command signal includes the first signal identification information described above.
  • command signal transmission step S10 In command signal transmission step S10, server 250 transmits the command signal generated in command signal generation step S9 to content reproduction device 200B.
  • the control unit 150B of the content reproduction device 200B confirms the correspondence relationship between the first signal identification information and the second signal identification information, thereby determining the user determination result that “the speaker is the user A” and “ The command signal “play playlist 1” is associated. Then, based on the associated user determination result and the command signal, the content corresponding to the playlist 1 of the user A is called out and reproduced from the plurality of playlists stored in the storage unit 140B.
  • the server 250 By adopting such a method, it becomes possible for the server 250 to generate a command signal from the operation instruction information using the time during which the sound collection device 100B performs the user determination, and to transmit the command signal to the content reproduction device 200B. It is possible to shorten the time from the sound generation by the user to the content reproduction by the content reproduction device 200B.
  • the server 250 transmits the content source to the content playback device 200B.
  • the content playback device 200B that receives the content source may play back the content.
  • the sound collection device 100B transmits the user determination result to the content reproduction device 200B and transmits the operation instruction information to the server 250, so that the sound collection device 100B determines the user.
  • the server 250 can generate a command signal from the operation instruction information using the remaining time, and the time until the content reproduction by the content reproduction device 200B can be shortened.
  • the sound collection device 100B transmits both the operation instruction information and the user determination result to the server 250, and the server 250 generates a command signal including the user determination result based on these, and sends the command signal to the content reproduction device 200B.
  • An example of transmission is also conceivable.
  • the sound collection device 100B generates a user determination result using only the trigger word described above, and transmits the user instruction result to the server 250 before transmitting the operation instruction information from the user to the server 250. Is desirable to send. With this configuration, it is possible to shorten the time until the server 250 generates the command signal, and as a result, the time from the sound generation by the user to the content reproduction by the content reproduction device 200B is shortened. It becomes possible to do.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本開示にかかる収音機器は、動作指示情報とユーザー固有情報とを含む音声情報を取得する収音部と、前記ユーザー固有情報に関するユーザー判別結果を取得する制御部と、前記ユーザー判別結果をコンテンツ再生機器に送信し、且つ前記動作指示情報を直接的又は間接的にコンテンツ再生機器に送信する通信部と、を含む。このような構成により、収音機器よりユーザー判別結果を受信したコンテンツ再生機器が、各ユーザーに適した動作遂行を行うことができる。

Description

収音機器、コンテンツ再生機器、及びコンテンツ再生システム
 本発明は、収音機器、コンテンツ再生機器、及びコンテンツ再生システムに関する。
 下記特許文献1には、マイクから入力された音声を認識する音声認識モジュールを備え、この音声認識モジュールが認識した音声を適用して予め設定された動作の遂行をアシストする技術が開示されている。
特開2014-78007号公報
 しかし、従来のコンテンツ再生機器を複数のユーザーが使用する場合において、ユーザーからの音声指示を受けた従来のコンテンツ再生機器が、各ユーザーに適した動作遂行をすることが難しかった。
 本発明は、上記問題点に鑑みてなされたものであり、その目的は、コンテンツ再生機器が、ユーザーからの音声指示に対して、各ユーザーに適した動作遂行を行うことを可能にすることである。
 本開示に係る収音機器は、動作指示情報とユーザー固有情報とを含む音声情報を取得する収音部と、前記ユーザー固有情報に関するユーザー判別結果を取得する制御部と、前記ユーザー判別結果をコンテンツ再生機器に送信し、且つ前記動作指示情報を直接的又は間接的にコンテンツ再生機器に送信する通信部と、を含む。
 本開示に係るコンテンツ再生機器は、収音機器からユーザー判別結果を受信し、サーバーからコマンド信号を受信する通信部と、前記ユーザー判別結果と前記コマンド信号を用いて動作遂行する制御部と、を含む。
 本開示に係るコンテンツ再生システムは、動作指示情報とユーザー固有情報とを含む音声情報を取得し、前記ユーザー固有情報に関するユーザー判別結果を取得し、前記ユーザー判別結果を送信する収音機器と、前記収音機器からの前記ユーザー判別結果を受信し、前記ユーザー判別結果を用いて動作遂行するコンテンツ再生機器と、を含む。
 本開示に係る収音機器の制御方法は、動作指示情報とユーザー固有情報とを含む音声情報を取得するステップと、前記ユーザー固有情報に関するユーザー判別結果を取得するステップと、前記ユーザー判別結果をコンテンツ再生機器に送信するステップと、前記動作指示情報を直接的又は間接的にコンテンツ再生機器に送信するステップと、を含む。
図1は第1の実施形態に係るコンテンツ再生システムの概要図である。 図2は第1の実施形態に係る収音機器のブロック図である。 図3は本開示に係る収音機器のユーザーリストを示す概念図である。 図4は第1の実施形態に係るコンテンツ再生機器のブロック図である。 図5は第1の実施形態に係るコンテンツ再生システムの動作例を示すフローチャートである。 図6は第2の実施形態に係るコンテンツ再生システムの概念図である。 図7は第2の実施形態に係る収音機器のブロック図である。 図8は第2の実施形態に係るコンテンツ再生機器のブロック図である。 図9は第2の実施形態に係るコンテンツ再生システムの動作例を示すフローチャートである。
[第1の実施形態]
 第1の実施形態について、図面を用いて以下に説明する。
[コンテンツ再生システム300]
 図1は、本実施形態に係るコンテンツ再生システム300の概念図である。本実施形態において、コンテンツ再生システム300は、収音機器100と、コンテンツ再生機器200とを有している。コンテンツ再生機器200は、ネットワーク1を介して収音機器100に接続されている。なお、本開示におけるコンテンツとは、例えば音声や映像などを含む。
[ネットワーク1]
 ネットワーク1は、無線LAN(Local Area Network)、有線LAN、WAN(Wide Area Network)、赤外線、電波、Bluetooth(登録商標)などを含み、コンテンツ再生機器200と収音機器100との間の信号伝達経路として利用される。
[収音機器100]
 収音機器100は、例えば、無線LAN、有線LAN、WAN、赤外線、電波、Bluetooth(登録商標)などに対応した通信部を有し、ネットワーク1を介して、コンテンツ再生機器200との信号伝達を行う。
 図2は、本実施形態に係る収音機器100のブロック図である。本実施形態において、収音機器100は、収音部30、記憶部40、制御部50、通信部60、ユーザー判別結果表示部80を有している。収音機器100は、記憶部40に保存されたプログラム42に基づいて、後述する音声情報取得ステップS1、ユーザー判別結果取得ステップS2、ユーザー判別結果表示ステップS3、発話継続の有無判定ステップS4、ユーザー判別結果確定ステップS5、ユーザー判別結果送信ステップS6などを実行するコンピュータである。当該プログラム42は、光学的、磁気的等の種類を問わず、様々な記録媒体からインストールされてよく、インターネットを介してダウンロードされてもよい。
[収音部30]
 収音部30は、例えば収音機器100に内蔵されたマイクである。収音部30は、ユーザーが発した音声を収音するとともに、当該音声に関する情報を制御部50に送信する。当該音声情報には、例えば声紋などのユーザー固有情報が含まれる。また、当該音声情報には、例えば「プレイリスト1を再生する。」などの、ユーザーからの動作指示情報が含まれる。なお、本実施形態においては、ユーザー固有情報の例として声紋を用いるが、その他のユーザー固有情報を用いてもかまわない。
[記憶部40]
 記憶部40は、例えばHDD(Hard Disc Drive)として実現される。記録媒体としては、フラッシュメモリ等の固体メモリ、固体メモリを内蔵したメモリカード、光ディスク、光磁気ディスク、ホログラムメモリなど各種考えられ、記憶部40としては採用する記録媒体に応じて記録再生を実行できる構成とされればよい。記憶部40には、制御部50が使用するプログラム42が保存されている。
 また、本実施形態においては、記憶部40が図3に示すようなユーザーリストを保存しており、このユーザーリストには、後述するユーザー判別結果表示部80が、制御部50により生成し、取得されたユーザー判別結果に基づいて表示するLEDの発光色が記録されている。更に、記憶部40には、このユーザーリストに記載されている各ユーザーの声紋などのユーザー固有情報が記憶されている。
[制御部50]
 制御部50はCPUとメモリを含む。制御部50は、記憶部40に保存されたプログラム42を用いて、収音部30、記憶部40、通信部60、ユーザー判別結果表示部80の動作を制御する。
 制御部50は、収音部30からのユーザーが発した音声情報を取得すると、その音声が持つ声紋などのユーザー固有情報と、記憶部40に記憶された各ユーザーのユーザー固有情報とを比較する。制御部50は、新たに取得した音声のユーザー固有情報に最も近いユーザー固有情報を、記憶部40に記憶された複数のユーザー固有情報の中らから選択するなどしてユーザーを判別し、ユーザー判別結果を生成し、取得する。ユーザー固有情報が声紋である場合は、制御部50は、声紋の波形を比較することでユーザー判別結果を生成する。このユーザー判別結果とは、例えば、音声を発したユーザーが、記憶部40に記憶されているユーザーリストに記載されたユーザーA、ユーザーB、ユーザーCの内の誰なのかを判別した結果を意味する。
 本実施形態においては、制御部50は、記憶部40に記憶されたユーザーリストから、例えばユーザーAに対応するLED発光色が赤色であることを認識し、ユーザー判別結果表示部80に対して、ユーザー判別結果表示部80が有する赤色LEDを発光させる旨の命令信号を送信する。
 更に、本実施の形態においては、制御部50が、当該ユーザー判別結果の修正を受け付ける構成としている。例えば、実際にはユーザーAが発言しているにも関わらず、制御部50が誤ってユーザーBが発言していると認識し、「発言者はユーザーBである」というユーザー判別結果を生成し、取得したとする。そうすると、制御部50は記憶部40のユーザーリストから、ユーザーBに対応するLED発光色が緑色であることを認識し、ユーザー判別結果表示部80に、緑色LEDを発光させる命令信号を送信する。この命令信号を受けたユーザー判別結果表示部80が緑色LEDを発光させると、この緑色LEDの発光を見たユーザーAは、収音機器100が自分を正しく認識していないと判断し、収音機器100に向けて発言を続ける。ユーザーAからの発言が継続されると、制御部50はユーザー判別を再度行い、「発言者はユーザーAである」という新たなユーザー判別結果を生成し、当該ユーザー判別結果に基づいた赤色LEDの発光をユーザー判別結果表示部80に指示する。ユーザー判別結果表示部80が赤色LEDを発光させ、ユーザーAが、収音機器100が自分を正しく認識したと判断した時点で発言を止め、例えば2秒間の無音状態が続くと、制御部50は最終的なユーザー判別結果を「発言者はユーザーAである」に確定し、当該ユーザー判別結果を含むコマンド信号をコンテンツ再生機器200に送信する。
 あるいは、例えば「ちがうちがう」等の特定ワードを、予め記憶部40に記憶させておき、ユーザーが当該特定ワードを発言した場合には、記憶部40に保存されているユーザーリストから、現時点で選択しているユーザー候補以外のユーザーが発言していると推定し、次に可能性が高いユーザーを選択するなど、現時点のユーザー判別結果を当該ユーザーリストに基づいて変更することも可能である。
 また、本実施形態においては、制御部50は、収音部30から受信した音声情報に含まれる動作指示情報から、上記ユーザー判別結果を含んだコマンド信号を生成する。例えば、ユーザーAが動作指示情報として「プレイリスト1を再生」と発言した場合、制御部50が「発言者はユーザーAである」というユーザー判別結果を生成し、取得するとともに、受信した音声情報である「プレイリスト1を再生する。」にユーザー判別結果を追加して、「ユーザーAのプレイリスト1を再生する。」というコマンド信号を生成する。そして、制御部50は、ネットワーク1を経由して、コンテンツ再生機器200にユーザー判別結果を含むコマンド信号を送信する。
 なお、予め制御部50が音声認識を開始するトリガーワードを定めておき、制御部50が、ユーザーが当該トリガーワードを発したと判断すると、トリガーワード以降の音声情報に基づきユーザー判別結果を生成し、取得するとともに、トリガーワード以降の音声情報に基づきコマンド信号を生成する構成としてもよい。トリガーワードとしては、例えば「開始」などの表現を設定すればよい。
 なお、予め上述したトリガーワードを定めている場合には、ユーザーが収音機器100に向けて当該トリガーワードを継続して発言することにより、制御部50に正しいユーザー認識を促す構成としてもよい。その場合、当該トリガーワードには具体的な動作遂行内容に関する動作指示情報が含まれていないため、収音機器100がトリガーワードを後述するコンテンツ再生機器200に対して送信しない構成とすることが望ましい。このような構成とすることにより、収音機器100とコンテンツ再生機器200との間における不要な通信の発生を抑制することが可能となる。
[通信部60]
 通信部60は、無線LAN、有線LAN、WAN、赤外線、電波、Bluetooth(登録商標)などに対応しており、ネットワーク1を介して、コンテンツ再生機器200との信号伝達を行う。
[ユーザー判別結果表示部80]
 ユーザー判別結果表示部80は、例えば、複数のLEDを有しており、制御部50からの指示に基づいて、該当する発光色を有するLEDを発光させる。また、制御部50から、ユーザー判別結果が変更された場合には、その変更に応じて発光させるLEDを切り替える。
 なお、本実施形態においては、LEDの発光色を用いて、ユーザー判別結果の表示する構成を説明しているが、液晶表示部を有し、ユーザー名をテキスト形式で液晶に表示する構成など、ユーザー判別結果を表示する構成は、これらの構成に限定されない。
[コンテンツ再生機器200]
 図4は、本実施形態に係るコンテンツ再生機器200のブロック図である。本実施形態において、コンテンツ再生機器200は、オーディオを再生するオーディオ機器や、動画等の映像コンテンツを再生する映像再生機器などである。コンテンツ再生機器200は、記憶部140、制御部150、通信部160等を有しており、制御部150がコンテンツ出力部180に接続されている。なお、コンテンツ再生機器200がコンテンツ出力部180を含む構成としてもよい。コンテンツ再生機器200は、記憶部140に保存されたプログラム142に基づいて、後述するコンテンツ再生ステップS7などを実行するコンピュータである。当該プログラム142は、光学的、磁気的等の種類を問わず、様々な記録媒体からインストールされてよく、インターネットを介してダウンロードされてもよい。
[記憶部140]
 記憶部140は、例えばHDD(Hard Disc Drive)として実現される。記録媒体としては、フラッシュメモリ等の固体メモリ、固体メモリを内蔵したメモリカード、光ディスク、光磁気ディスク、ホログラムメモリなど各種考えられ、記憶部140としては採用する記録媒体に応じて記録再生を実行できる構成とされればよい。記憶部140には、制御部150が使用するプログラム142が保存されている。
 また、記憶部140には、各ユーザーの再生リストと、当該再生リストに対応する各種コンテンツが保存されており、制御部150の指示に応じてコンテンツのデータを制御部150に送信する。
[制御部150]
 制御部150はCPUとメモリを含む。制御部150は、記憶部140に保存されたプログラム142により、記憶部140、通信部160、コンテンツ出力部180の動作を制御する。
 制御部150は、ネットワーク1を経由して、収音機器100との信号の送受信を行うことが可能である。制御部150は、収音機器100からのコマンド信号に基づいてコンテンツ再生を行う。制御部150がコンテンツ再生を行う際には、制御部150に接続されたコンテンツ出力部180から映像、音声、テキストなどのコンテンツを出力する。
 例えば、本実施形態において制御部150が、ネットワーク1を介して、収音機器100から「ユーザーAのプレイリスト1を再生する。」というコマンド信号を受信した場合、記憶部140に保存された複数のプレイリストの中から、ユーザーAのプレイリスト1に対応するコンテンツを呼び出し、再生する。
[コンテンツ出力部180]
 コンテンツ出力部180は、スピーカやディスプレイ装置であり、制御部150の指示に応じて映像、音声、テキストなどのコンテンツを出力する。本実施形態においては、制御部150の指示に応じて、ユーザーAのプレイリスト1を出力する。
[コンテンツ再生システム300の動作例]
 次に、図5を用いて、本実施形態のコンテンツ再生システム300の動作例について説明する。図5は、本実施形態におけるコンテンツ再生システム300の動作例を示すフローチャートである。
[音声情報取得ステップS1]
 音声情報取得ステップS1において、収音機器100の収音部30は、ユーザーが発した音声を収音し、音声情報を取得する。音声情報には、ユーザーからの動作指示情報と、ユーザーの声紋などのユーザー固有情報が含まれる。
 本実施形態においては、収音機器100に対して、ユーザーAが動作指示情報として「プレイリスト1を再生」という音声を発した場合について説明する。
 収音部30は、ユーザーAが発した音声である「プレイリスト1を再生」を収音するとともに、当該音声に関する情報を制御部50に送信する。当該音声情報には、例えば声紋などのユーザー固有情報が含まれている。音声情報を受け取った制御部50は、記憶部40に当該音声情報を保存する。
 なお、予めトリガーワードを定めて記憶部40に保存しておき、制御部50が、ユーザーが当該トリガーワードを発したと判断した以降の音声を、音声情報として記憶部40に保存する方法としてもよい。
[ユーザー判別結果取得ステップS2]
 ユーザー判別結果取得ステップS2において、収音機器100の制御部50は、収音部30から取得し、記憶部40に保存した音声情報に含まれるユーザー固有情報からユーザー判別結果を生成し、取得する。なお、記憶部40に保存した音声情報全てにおけるユーザー固有情報からユーザー判別結果を生成してもよく、トリガーワードを設定している場合は、音声情報における当該トリガーワードの部分のみのユーザー固有情報からユーザー判別結果を生成してもよい。ユーザー判別結果とは、例えば、音声を発したユーザーが、記憶部40に記憶されているユーザーリストに記載されたユーザーA、ユーザーB、ユーザーCの内の誰なのかを判別した結果を意味する。
 本実施形態においては、制御部50は、収音部30からのユーザーAが発した音声情報を取得し、その音声が持つ声紋などのユーザー固有情報から、「発言者はユーザーBである」という誤ったユーザー判別結果を生成し、取得した例について説明する。なお、本実施形態においては、ユーザー固有情報の例として声紋を用いて説明するが、その他のユーザー固有情報を用いてユーザー判別結果を生成してもかまわない。
 制御部50は、記憶部40に記憶されたユーザーリストから、ユーザーにBに対応するLED発光色が緑色であることを認識し、収音機器100に含まれるユーザー判別結果表示部80に対して、ユーザー判別結果表示部80が有する緑色LEDを発光させる命令信号を送信する。
[ユーザー判別結果表示ステップS3]
 ユーザー判別結果表示ステップS3において、上記命令信号を受信したユーザー判別結果表示部80は、当該命令信号に基づき、緑色LEDを発光する。
[発話継続の有無判定ステップS4]
 発話継続の有無判定ステップS4において、制御部50は、ユーザー判別結果表示ステップS3の後も、ユーザーが発話を継続しているか否かを判定する。
 ここで、本実施形態においては、ユーザーAが、ユーザー判別結果表示部80の表示結果が緑色LEDの発光であり、自分を正しく認識していないと判断したため、「ちがうちがう」等の発話を継続したとする。そのため、フローは音声情報取得ステップS1に戻る。なお、ユーザーAが発話を継続しない場合には、音声情報取得ステップS1に戻ることなく、後述するユーザー判別結果確定ステップS5へと移る。
[音声情報取得ステップS1]
 音声情報取得ステップS1において、収音機器100の収音部30は、再度ユーザーが発した音声を収音し、音声情報を取得する。
 本実施形態においては、収音機器100に対して、ユーザーAが「ちがうちがう」という音声を発した場合について説明する。
 収音部30は、ユーザーAが発した音声である「ちがうちがう」を収音するとともに、当該音声に関する情報を制御部50に送信する。当該音声情報には、例えば声紋などのユーザー固有情報が含まれている。音声情報を受け取った制御部50は、記憶部40に当該音声情報を保存する。
[ユーザー判別結果取得ステップS2]
 ユーザー判別結果取得ステップS2において、収音機器100の制御部50は、収音部30から取得し、記憶部40に保存した音声情報に含まれるユーザー固有情報からユーザー判別結果を再生成する。即ち、制御部50は、ユーザー判別結果の修正を受け付ける。
 上述したとおり、本実施の形態においては、ユーザー判別結果表示部80の表示内容を見たユーザーAが、収音機器100が自分を正しく認識していないと判断し、発言を継続している。そのため、制御部50は、収音部30から入力される音声情報から新たにユーザー判別を行う。今回は、制御部50が、収音した音声の声紋等のユーザー固有情報から、正しくユーザーAが発言していることを認識し、「発言者はユーザーAである」というユーザー判別結果をユーザー判別結果表示部80へと送信する。
 なお、「ちがうちがう」等の特定ワードを記憶部40に記憶させておき、ユーザーが当該特定ワードを発言した場合には、記憶部40に保存されているユーザーリストから、現時点で選択しているユーザー候補であるユーザーB以外のユーザーが発言していると推定し、次に可能性が高いユーザーを、ユーザーリストに含まれるユーザーA、ユーザーCのいずれかから選択するなどの方法により、ユーザー判別結果を切り替える方法としてもよい。
[ユーザー判別結果表示ステップS3]
 上記ユーザー判別結果取得ステップS2を経た後、フローは再度、ユーザー判別結果表示ステップS3に移る。
 ユーザー判別結果表示ステップS3において、ユーザー判別結果表示部80は、上述したユーザー判別結果取得ステップS2において再生成されたユーザー判別結果に基づいて、発光させるLEDを選択する。本実施形態においては、前のユーザー判別結果に基づいて発光させていた緑色LEDを消灯するとともに、今回の「発言者はユーザーAである」というユーザー判別結果に基づいて赤色LEDを発光させる。
 なお、本実施形態においては、LEDの発光色を用いて、ユーザー判別結果の表示する方法を説明しているが、液晶表示部を有し、ユーザー名をテキスト形式で液晶に表示する方法など、ユーザー判別結果の表示方法は、これらの方法に限定されない。
[発話継続の有無判定ステップS4]
 発話継続の有無判定ステップS4において、制御部50は、ユーザー判別結果表示ステップS3の後も、ユーザーが発話を継続しているか否かを判定する。
 ここで、本実施形態においては、ユーザーAが、ユーザー判別結果表示部80の表示結果が赤色LED発光であり、自分を正しく認識していると判断したため、それ以降の発言を継続せず、例えば2秒間、収音部30がなんらの発言も収音しなかったとする。収音機器100がこの無音状態を受けて、フローは、ユーザー判別結果確定ステップS5へと移る。
[ユーザー判別結果確定ステップS5]
 ユーザー判別結果確定ステップS5において、制御部50は、ユーザー判別結果を確定する。
 本実施形態においては、上記ユーザー判別結果表示ステップS3において、ユーザー判別結果表示部80が赤色LEDを発光させている時点で、ユーザーからの発言の収音が止まったため、制御部50は、記憶部40のユーザーリストに基づき、「発言者はユーザーAである」とのユーザー判別結果を確定する。
[ユーザー判別結果送信ステップS6]
 ユーザー判別結果送信ステップS6において、収音機器100の制御部50は、上記ユーザー判別結果確定ステップS5において確定されたユーザー判別結果を、ネットワーク1を介して、コンテンツ再生機器200に送信する。
 なお、本実施形態においては、制御部50は、ユーザー判別結果のみならず、当該ユーザー判別結果を含むコマンド信号を生成し、当該コマンド信号をコンテンツ再生機器200に送信する。具体的には、本実施形態において確定したユーザー判別結果は「発言者はユーザーAである」であり、収音部30が収音した発言内容は「プレイリスト1を再生」という動作指示情報であったため、制御部50は、「ユーザーAのプレイリスト1を再生する。」というコマンド信号を生成する。そして、制御部50は、ネットワーク1を経由して、コンテンツ再生機器200にユーザー判別結果を含むコマンド信号を送信する。即ち、このコマンド信号の送信は、ユーザー判別結果送信ステップS6であると同時に、動作指示情報送信ステップでもある。
[コンテンツ再生ステップS7]
 コンテンツ再生ステップS7において、コンテンツ再生機器200の制御部150は、ネットワーク1を介して受信したコマンド信号に基づき、記憶部140に保存されたコンテンツを再生する。
 本実施形態においては、収音機器100が送信した「ユーザーAのプレイリスト1を再生する。」というコマンド信号を、コンテンツ再生機器200が受信し、コンテンツ再生機器200の制御部150が、記憶部140に保存された複数のプレイリストの中から、ユーザーAのプレイリスト1に対応するコンテンツを呼び出し、再生する。そして、制御部150によるプレイリストの再生を受け、コンテンツ出力部180が、ユーザーAのプレイリスト1を出力する。
 なお、本実施形態においては、ユーザー判別結果送信ステップS6において、収音機器100の制御部50が、ユーザー判別結果とコマンド信号を直接、コンテンツ再生機器200に送信する例を説明したが、コンテンツ再生システム300が更にサーバーを含み、収音機器100が、当該サーバーを介して、ユーザー判別結果とコマンド信号を間接的にコンテンツ再生機器200に送信する構成としてもかまわない。
 なお、コンテンツ再生システム300がサーバーを含む場合は、当該サーバーに上述したユーザーリスト、特定ワード、トリガーワード等を記憶させておき、当該サーバーが、収音機器100により収音され、送信されたユーザーの音声情報に含まれるユーザー固有情報を用いてユーザー判別結果を生成し、当該ユーザー判別結果を収音機器100に送信する構成としてもかまわない。そして、サーバーにより生成されたユーザー判別結果を収音機器100が受信し、収音機器100の制御部50が当該ユーザー判別結果を取得し、収音機器100のユーザー判別結果表示部80が、このユーザー判別結果に基づき、発光させるLEDを選択する構成としてもよい。
[第2の実施形態]
 第2の実施形態について、図面を用いて以下に説明する。なお、第1の実施形態と共通する構成要素については、同一の符号を付して、その説明を省略することがある。
[コンテンツ再生システム300B]
 図6は、本実施形態に係るコンテンツ再生システム300Bの概念図である。本実施形態において、コンテンツ再生システム300Bは、収音機器100B、コンテンツ再生機器200B、及びサーバー250を有している。収音機器100B、コンテンツ再生機器200B、及びサーバー250は、それぞれネットワーク1を介して、互いに接続されている。なお、本開示におけるコンテンツとは、例えば音声や映像などを含む。
[ネットワーク1]
 ネットワーク1は、第1の実施形態と共通する構成のため、その説明を省略する。
[収音機器100B]
 収音機器100Bは、例えば、無線LAN、有線LAN、WAN、赤外線、電波、Bluetooth(登録商標)などに対応した通信部を有し、ネットワーク1を介して、サーバー250、及びコンテンツ再生機器200Bとの信号伝達を行う。
 図7は、本実施形態に係る収音機器100Bのブロック図である。本実施形態において、収音機器100Bは、収音部30、記憶部40B、制御部50B、通信部60、ユーザー判別結果表示部80を有している。収音機器100Bは、記憶部40Bに保存されたプログラム42Bに基づいて、後述する音声情報取得ステップS1、ユーザー判別結果取得ステップS2、ユーザー判別結果表示ステップS3、発話継続の有無判定ステップS4、ユーザー判別結果確定ステップS5、ユーザー判別結果送信ステップS6B、音声情報送信ステップS8などを実行するコンピュータである。当該プログラム42Bは、光学的、磁気的等の種類を問わず、様々な記録媒体からインストールされてよく、インターネットを介してダウンロードされてもよい。
[収音部30]
 収音部30は、第1の実施形態と共通する構成のため、その説明を省略する。
[記憶部40B]
 記憶部40Bは、制御部50Bが使用するプログラム42Bが保存されている点を除き、第1の実施形態と共通する構成のため、その説明を省略する。
[制御部50B]
 制御部50BはCPUとメモリを含む。制御部50Bは、記憶部40Bに保存されたプログラム42Bを用いて、収音部30、記憶部40B、通信部60、ユーザー判別結果表示部80の動作を制御する。
 制御部50Bは、収音部30からのユーザーが発した音声情報を取得すると、その音声が持つ声紋などのユーザー固有情報から、ユーザーを判別し、ユーザー判別結果を生成し、取得する。このユーザー判別結果の定義は、第1の実施形態と同様である。
 本実施形態においては、制御部50Bは、ネットワーク1を経由して、収音部30から受信した動作指示情報を含む音声情報をサーバー250に送信し、ユーザー判別結果をコンテンツ再生機器200Bに送信する。その際、制御部50Bは、サーバー250へ送信する音声情報に含まれた動作指示情報に第1の信号識別情報を付加し、コンテンツ再生機器200Bに送信するユーザー判別結果には第1の信号識別情報に対応する第2の信号識別情報を付加する。ここで、第1の信号識別情報と第2の信号識別情報とは同一でもよく、あるいは異なってもよいが、後述するコンテンツ再生機器200Bが、サーバー250が音声情報に含まれた動作指示情報に基づき生成するコマンド信号と、収音機器100Bより受信するユーザー判別結果とを対応付けることができる構成であればよい。
 制御部50Bは、第1の実施形態と同様、記憶部40Bに記憶されたユーザーリストから、例えばユーザーAに対応するLED発光色が赤色であることを認識し、ユーザー判別結果表示部80に対して、ユーザー判別結果表示部80が有する赤色LEDを発光させる旨の命令信号を送信する。
 また、制御部50Bは、第1の実施形態と同様、ユーザー判別結果の修正を受け付ける構成としている。詳細の説明については、第1の実施形態と同様のため省略する。
[通信部60]
 通信部60は、第1の実施形態と共通する構成のため、その説明を省略する。
[ユーザー判別結果表示部80]
 ユーザー判別結果表示部80は、第1の実施形態と共通する構成のため、その説明を省略する。
[サーバー250]
 サーバー250は、ネットワーク1を介して、収音機器100からの音声情報を受信する。サーバー250は、受信した音声情報に含まれた動作指示情報に基づきコマンド信号を作成し、ネットワーク1を介して、コマンド信号をコンテンツ再生機器200に送信する。サーバー250は、サーバー250内に保存されたプログラムに基づいて、後述するコマンド信号生成ステップS9、コマンド信号送信ステップS10などを実行するコンピュータである。当該プログラムは、光学的、磁気的等の種類を問わず、様々な記録媒体からインストールされてよく、インターネットを介してダウンロードされてもよい。
 本実施形態において、サーバー250は、収音機器100から受信した「プレイリスト1を再生する」との動作指示情報からコマンド信号生成する。また、本実施形態においては、収音機器100が当該動作指示情報に第1の信号識別情報を付加しているため、サーバー250が生成したコマンド信号が、この第1の信号識別情報が含んでいる。
[コンテンツ再生機器200]
 図8は、本実施形態に係るコンテンツ再生機器200Bのブロック図である。本実施形態において、コンテンツ再生機器200Bは、オーディオを再生するオーディオ機器や、動画等の映像コンテンツを再生する映像再生機器などである。コンテンツ再生機器200Bは、記憶部140B、制御部150B、通信部160等を有しており、制御部150Bがコンテンツ出力部180に接続されている。なお、コンテンツ再生機器200Bがコンテンツ出力部180を含む構成としてもよい。コンテンツ再生機器200Bは、記憶部140Bに保存されたプログラム142Bに基づいて、後述するコンテンツ再生ステップS7Bなどを実行するコンピュータである。当該プログラム142Bは、光学的、磁気的等の種類を問わず、様々な記録媒体からインストールされてよく、インターネットを介してダウンロードされてもよい。
[記憶部140B]
 記憶部140Bは、制御部150Bが使用するプログラム142Bが保存されている点を除き、第1の実施形態と基本的に共通する構成のため、その説明を省略する。
 なお、本実施形態において、記憶部140Bは各種コンテンツのデータを記憶していても、記憶していなくてもよいが、本実施形態においては記憶部140Bがコンテンツのデータを記憶している例を説明する。
[制御部150B]
 制御部150BはCPUとメモリを含む。制御部150Bは、記憶部140Bに保存されたプログラム142Bにより、記憶部140B、通信部160、コンテンツ出力部180の動作を制御する。
 制御部150Bは、ネットワーク1を経由して、収音機器100B、及びサーバー250との信号の送受信を行うことが可能である。制御部150Bは、収音機器100Bからのユーザー判別結果と、サーバー250からのコマンド信号に基づいてコンテンツ再生を行う。制御部150Bがコンテンツ再生を行う際には、制御部150Bに接続されたコンテンツ出力部180から映像、音声、テキストなどのコンテンツを出力する。
 具体的には、例えば制御部150Bが、ネットワーク1を介して、収音機器100Bから「発言者はユーザーAである」とのユーザー判別結果と、サーバー250からの「プレイリスト1を再生する」というコマンド信号を受信した場合、コマンド信号に含まれる第1の信号識別情報と、ユーザー判別結果に含まれる第2の信号識別情報との対応関係を確認することにより、「発言者はユーザーAである」とのユーザー判別結果と、「プレイリスト1を再生する」とのコマンド信号とを対応付ける。そして、対応付けられたユーザー判別結果と、コマンド信号に基づき、記憶部140Bに保存された複数のプレイリストの中から、ユーザーAのプレイリスト1に対応するコンテンツを呼び出し、再生する。
 なお、記憶部140Bが各種コンテンツを記憶していない、あるいは、ユーザーによって記憶部140Bが記憶していないコンテンツの再生を指示された場合、サーバー250が当該コンテンツソースをコンテンツ再生機器200Bに送信し、当該コンテンツソースを受信したコンテンツ再生機器200Bが当該コンテンツを再生する構成としてもかまわない。
[コンテンツ出力部180]
 コンテンツ出力部180は、スピーカやディスプレイ装置であり、制御部150Bの指示に応じて映像、音声、テキストなどのコンテンツを出力する。本実施形態においては、制御部150Bの指示に応じて、ユーザーAのプレイリスト1を出力する。
[コンテンツ再生システム300Bの動作例]
 次に、図9を用いて、本実施形態のコンテンツ再生システム300Bの動作例について説明する。図9は、本実施形態におけるコンテンツ再生システム300Bの動作例を示すフローチャートである。
[音声情報取得ステップS1~ユーザー判別結果確定ステップS5]
 音声情報取得ステップS1からユーザー判別結果確定ステップS5までのステップは、第1の実施形態と共通する方法であるため、その説明を省略する。
[ユーザー判別結果送信ステップS6B]
 ユーザー判別結果送信ステップS6Bにおいて、収音機器100の制御部50は、上記ユーザー判別結果確定ステップS5において確定されたユーザー判別結果を、ネットワーク1を介して、コンテンツ再生機器200に送信する。
 なお、本実施形態においては、制御部50Bは、第1の実施形態と異なり、コンテンツ再生機器200に対してコマンド信号を送信しない。
 また、本実施形態においては、制御部50Bは、第2の信号識別情報をユーザー判別結果に付加して、コンテンツ再生機器200に送信する。この第2の信号識別情報は上述したとおり、第1の信号識別情報に対応する情報であり、第1の信号識別情報と第2の信号識別情報とは同一でもよく、あるいは異なってもよい。後述するコンテンツ再生ステップS7Bにおいて、コンテンツ再生機器200Bが、サーバー250より受信するコマンド信号と、収音機器100Bより受信するユーザー判別結果とを対応付けることができればよい。
[音声情報送信ステップS8]
 音声情報送信ステップS8において、収音機器100Bの制御部50Bは、収音部30が取得した音声情報を、サーバー250に送信する。この音声情報には、ユーザーからの動作指示情報が含まれている。即ち、本実施形態においては、この音声情報送信ステップS9が動作指示情報送信ステップに該当する。なお、この音声情報送信ステップS8から、後述するコマンド信号送信ステップS10までのフローは、上述したユーザー判別結果取得ステップS2からユーザー判別結果送信ステップS6Bまでのフローと並行して行うことが可能である。
 本実施形態においては、収音機器100Bの制御部50Bは、「プレイリスト1を再生する」という動作指示情報が含まれた音声情報をサーバー250に送信する。
 なお、予めトリガーワードを定めておき、制御部50Bが、ユーザーが当該トリガーワードを発したと判断した以降の音声情報を、収音機器100Bがサーバー250に送信する方法としてもよい。
 また、本実施形態においては、収音機器100Bの制御部50Bが、この動作指示情報が含まれた音声情報に第1の信号識別情報を付加してサーバー250に送信する。サーバー250が音声信号のみに基づきコマンド信号を生成する場合には、収音機器100Bの制御部50Bが当該第1の信号識別情報を音声信号に変換した上で、音声情報に付加してサーバー250に送信すればよい。
[コマンド信号生成ステップS9]
 コマンド信号生成ステップS9において、サーバー250は、収音機器100Bから受信した音声情報に含まれる動作指示情報に基づき、コマンド信号を生成する。
 本実施形態においては、サーバー250は、「プレイリスト1を再生する」旨のコマンド信号を生成する。なお、このコマンド信号には上述した第1の信号識別情報が含まれている。
[コマンド信号送信ステップS10]
 コマンド信号送信ステップS10において、サーバー250は、コマンド信号生成ステップS9において生成したコマンド信号を、コンテンツ再生機器200Bに送信する。
[コンテンツ再生ステップS7B]
 コンテンツ再生ステップS7Bにおいて、コンテンツ再生機器200Bの制御部150Bは、ネットワーク1を介して受信したユーザー判別結果とコマンド信号とに基づき、記憶部140Bに保存されたコンテンツを再生する。
 本実施形態において、コンテンツ再生機器200Bは、第1の信号識別情報が含まれた、「プレイリスト1を再生する」旨のコマンド信号をサーバー250より受信するとともに、第2の信号識別情報が含まれた「発言者はユーザーAである」旨のユーザー判別結果を収音機器100Bより受信する。
 コンテンツ再生機器200Bの制御部150Bは、第1の信号識別情報と第2の信号識別情報との対応関係を確認することにより、「発言者はユーザーAである」とのユーザー判別結果と、「プレイリスト1を再生する」とのコマンド信号とを対応付ける。そして、対応付けられたユーザー判別結果と、コマンド信号に基づき、記憶部140Bに保存された複数のプレイリストの中から、ユーザーAのプレイリスト1に対応するコンテンツを呼び出し、再生する。
 このような方法とすることにより、収音機器100Bがユーザー判別をしている時間を用いて、サーバー250が動作指示情報からコマンド信号を生成し、コンテンツ再生機器200Bに送信することが可能となり、ユーザーによる音声発生から、コンテンツ再生機器200Bによるコンテンツ再生までの時間を短縮することが可能となる。
 なお、記憶部140Bが各種コンテンツを記憶していない場合、あるいは、ユーザーから記憶部140Bが記憶していないコンテンツの再生を指示された場合、サーバー250が当該コンテンツソースをコンテンツ再生機器200Bに送信し、当該コンテンツソースを受信したコンテンツ再生機器200Bが当該コンテンツを再生する方法としてもかまわない。
 なお、本実施形態においては、収音機器100Bが、ユーザー判別結果をコンテンツ再生機器200Bに送信し、動作指示情報をサーバー250に送信する構成とすることにより、収音機器100Bがユーザー判別をしている時間を用いて、サーバー250が動作指示情報からコマンド信号を生成することが可能となり、コンテンツ再生機器200Bによるコンテンツ再生までの時間を短縮することが可能となる例を示した。しかし、収音機器100Bが動作指示情報及びユーザー判別結果の双方をサーバー250に送信し、サーバー250が、これらに基づきユーザー判別結果を含むコマンド信号を生成し、当該コマンド信号をコンテンツ再生機器200Bに送信する例も考えられる。その場合においては、収音機器100Bが、上述したトリガーワードのみを用いてユーザー判別結果を生成し、ユーザーからの動作指示情報をサーバー250に送信するよりも先に、サーバー250に当該ユーザー判別結果を送信することが望ましい。このような構成とすることにより、サーバー250がコマンド信号を生成するまでの時間を短縮することが可能となり、その結果として、ユーザーによる音声発生から、コンテンツ再生機器200Bによるコンテンツ再生までの時間を短縮することが可能となる。

 

Claims (20)

  1.  動作指示情報とユーザー固有情報とを含む音声情報を取得する収音部と、
     前記ユーザー固有情報に関するユーザー判別結果を取得する制御部と、
     前記ユーザー判別結果をコンテンツ再生機器に送信し、且つ前記動作指示情報を直接的又は間接的にコンテンツ再生機器に送信する通信部と、
     を含む、収音機器。
  2.  前記通信部が、前記動作指示情報を、サーバーを介して前記コンテンツ再生機器に送信する、
     請求項1に記載の収音機器。
  3.  前記動作指示情報に第1の信号識別情報を付加し、前記ユーザー判別結果に前記第1の信号識別情報に対応する第2の信号識別情報を付加する、
     請求項1又は2に記載の収音機器。
  4.  前記制御部が、前記ユーザー判別結果の修正を受け付ける、
     請求項1乃至3のいずれか一つに記載の収音機器。
  5.  前記収音部が音声情報を取得している間、
     前記制御部が前記ユーザー判別結果の再生成を繰り返し行うことにより、前記ユーザー判別結果の修正を受け付ける、
     請求項4に記載の収音機器。
  6.  複数のユーザー情報と特定ワードを記憶する記憶部を更に備え、
     前記収音部が、前記特定ワードを収音した場合には、
     前記制御部が、前記ユーザー判別結果を前記複数のユーザー情報に基づき変更する、
     請求項4に記載の収音機器。
  7.  前記ユーザー判別結果を表示するユーザー判別結果表示部を更に含む、
     請求項4乃至6のいずれか一つに記載の収音機器。
  8.  前記制御部が、前記ユーザー判別結果の修正を受け付けた場合には、
     前記ユーザー判別結果表示部が、前記ユーザー判別結果の表示を変更する、
     請求項7に記載の収音機器。
  9.  収音機器からユーザー判別結果を受信し、サーバーからコマンド信号を受信する通信部と、
     前記ユーザー判別結果と前記コマンド信号を用いて動作遂行する制御部と、
     を含む、コンテンツ再生機器。
  10.  前記コマンド信号が、第1の信号識別情報を含み、
     前記ユーザー判別結果が、前記第1の信号識別情報に対応した第2の信号識別情報を含む、
     請求項9に記載のコンテンツ再生機器。
  11.  動作指示情報とユーザー固有情報とを含む音声情報を取得し、前記ユーザー固有情報に関するユーザー判別結果を取得し、前記ユーザー判別結果を送信する収音機器と、
     前記収音機器からの前記ユーザー判別結果を受信し、前記ユーザー判別結果を用いて動作遂行するコンテンツ再生機器と、
     を含む、コンテンツ再生システム。
  12.  前記収音機器が前記動作指示情報を送信し、
     前記動作指示情報を受信して、前記動作指示情報からコマンド信号を生成し、前記コマンド信号を送信するサーバーを更に備え、
     前記コンテンツ再生機器が、前記サーバーからの前記コマンド信号を受信し、前記ユーザー判別結果と前記コマンド信号とを用いて動作遂行を行う、
     請求項11に記載のコンテンツ再生システム。
  13.  複数のユーザー情報と特定ワードを記憶するサーバーを更に備え、
     前記収音機器が、前記特定ワードを収音した場合には、
     前記サーバーが、前記ユーザー判別結果を前記複数のユーザー情報に基づき変更する、
     請求項11に記載のコンテンツ再生システム。
  14.  動作指示情報とユーザー固有情報とを含む音声情報を取得するステップと、
     前記ユーザー固有情報に関するユーザー判別結果を取得するステップと、
     前記ユーザー判別結果をコンテンツ再生機器に送信するステップと、
     前記動作指示情報を直接的又は間接的にコンテンツ再生機器に送信するステップと、
     を含む、収音機器の制御方法。
  15.  前記動作指示情報を前記コンテンツ再生機器に送信するステップにおいて、前記動作指示情報は、サーバーを介して前記コンテンツ再生機器に送信する、
     請求項14に記載の収音機器の制御方法。
  16.  前記動作指示情報に第1の信号識別情報を付加するステップと、
     前記ユーザー判別結果に前記第1の信号識別情報に対応する第2の信号識別情報を付加するステップと、
     を更に含む、請求項14又は15に記載の収音機器の制御方法。
  17.  前記ユーザー判別結果の修正を受け付けるステップを更に含む、
     請求項14乃至16のいずれか一つに記載の収音機器の制御方法。
  18.  前記音声情報を取得するステップにおいて、特定ワードを収音した場合には、前記ユーザー判別結果を複数のユーザー情報に基づき変更するステップを更に含む、
     請求項17に記載の収音機器の制御方法。
  19.  前記ユーザー判別結果を表示するステップを更に含む、
     請求項17又は18に記載の収音機器の制御方法。
  20.  前記ユーザー判別結果の修正を受け付けた場合には、前記ユーザー判別結果の表示を変更するステップを更に含む、
     請求項19に記載の収音機器の制御方法。
     

     
PCT/JP2017/043269 2016-12-02 2017-12-01 収音機器、コンテンツ再生機器、及びコンテンツ再生システム WO2018101458A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-235438 2016-12-02
JP2016235438 2016-12-02

Publications (1)

Publication Number Publication Date
WO2018101458A1 true WO2018101458A1 (ja) 2018-06-07

Family

ID=62241763

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/043269 WO2018101458A1 (ja) 2016-12-02 2017-12-01 収音機器、コンテンツ再生機器、及びコンテンツ再生システム

Country Status (1)

Country Link
WO (1) WO2018101458A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112822331A (zh) * 2019-10-30 2021-05-18 阿尔派株式会社 电子装置以及信息输入控制方法
JP2022115825A (ja) * 2021-01-28 2022-08-09 東莞維升電子製品有限公司 インテリジェント音声ウェイクアップ制御方法及びその制御装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61138999A (ja) * 1984-12-12 1986-06-26 株式会社神戸製鋼所 音声認識装置
JPH11311996A (ja) * 1997-10-23 1999-11-09 Sony Internatl Europ Gmbh 音声装置及び遠隔制御可能なネットワーク機器
JP2000099076A (ja) * 1998-09-25 2000-04-07 Fujitsu Ltd 音声認識を活用した実行環境設定装置及び方法
JP2003195939A (ja) * 2001-12-26 2003-07-11 Toshiba Corp プラント監視制御システム
JP2005078072A (ja) * 2003-09-03 2005-03-24 Samsung Electronics Co Ltd 音声認識及び話者認識を通じて個別化されたサービスを提供するav装置及びその方法
WO2014199596A1 (ja) * 2013-06-10 2014-12-18 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 話者識別方法、話者識別装置及び話者識別システム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61138999A (ja) * 1984-12-12 1986-06-26 株式会社神戸製鋼所 音声認識装置
JPH11311996A (ja) * 1997-10-23 1999-11-09 Sony Internatl Europ Gmbh 音声装置及び遠隔制御可能なネットワーク機器
JP2000099076A (ja) * 1998-09-25 2000-04-07 Fujitsu Ltd 音声認識を活用した実行環境設定装置及び方法
JP2003195939A (ja) * 2001-12-26 2003-07-11 Toshiba Corp プラント監視制御システム
JP2005078072A (ja) * 2003-09-03 2005-03-24 Samsung Electronics Co Ltd 音声認識及び話者認識を通じて個別化されたサービスを提供するav装置及びその方法
WO2014199596A1 (ja) * 2013-06-10 2014-12-18 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 話者識別方法、話者識別装置及び話者識別システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112822331A (zh) * 2019-10-30 2021-05-18 阿尔派株式会社 电子装置以及信息输入控制方法
JP2022115825A (ja) * 2021-01-28 2022-08-09 東莞維升電子製品有限公司 インテリジェント音声ウェイクアップ制御方法及びその制御装置
JP7339373B2 (ja) 2021-01-28 2023-09-05 東莞維升電子製品有限公司 インテリジェント音声ウェイクアップ制御方法及びその制御装置

Similar Documents

Publication Publication Date Title
KR101818980B1 (ko) 다중 화자 음성 인식 수정 시스템
JP6044553B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP6725006B2 (ja) 制御装置および機器制御システム
JP2013200423A (ja) 音声対話支援装置、方法、およびプログラム
WO2005094437A2 (en) System and method for automatically cataloguing data by utilizing speech recognition procedures
JP6276503B2 (ja) オーディオ装置
WO2018101458A1 (ja) 収音機器、コンテンツ再生機器、及びコンテンツ再生システム
US9412380B2 (en) Method for processing data and electronic device thereof
JPWO2019155717A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
EP3637244A1 (en) Content playback system
JP5111343B2 (ja) 再生装置
TW200810530A (en) Information processing apparatus, information processing method, and computer program
JP2012248259A (ja) 再生装置
JP2012032817A (ja) マーカー設定方法およびマーカー設定装置
JP2020064300A (ja) 備忘録作成システム、備忘録作成方法、および備忘録作成システムのログ管理サーバのプログラム
JP2009260718A (ja) 画像再生装置及び画像再生処理プログラム
JP4829184B2 (ja) 車載装置および音声認識方法
WO2019202351A1 (ja) 機器制御装置及び機器を制御する制御方法
JP2016126436A (ja) 画像認識評価システム及び画像認識評価装置
JP2006227954A (ja) 情報処理装置及び情報処理方法等
WO2018100742A1 (ja) コンテンツ再生機器、コンテンツ再生システム、及びコンテンツ再生機器の制御方法
JP6851491B2 (ja) 音声対話制御装置および音声対話制御方法
JP2016014897A (ja) 音声対話支援装置、方法、およびプログラム
WO2012017525A1 (ja) 処理装置及びコマンド入力支援方法
JP2008033017A (ja) データ呼出制御装置、データ呼出システム、データ呼出制御装置の音声認識語彙登録方法および車両

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17876128

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17876128

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP