WO2019054199A1 - 情報処理装置、及び情報処理方法 - Google Patents

情報処理装置、及び情報処理方法 Download PDF

Info

Publication number
WO2019054199A1
WO2019054199A1 PCT/JP2018/032323 JP2018032323W WO2019054199A1 WO 2019054199 A1 WO2019054199 A1 WO 2019054199A1 JP 2018032323 W JP2018032323 W JP 2018032323W WO 2019054199 A1 WO2019054199 A1 WO 2019054199A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio
token
content
information processing
voice
Prior art date
Application number
PCT/JP2018/032323
Other languages
English (en)
French (fr)
Inventor
山岸 靖明
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to CN201880057831.9A priority Critical patent/CN111052231B/zh
Priority to EP18856338.1A priority patent/EP3683792A4/en
Priority to AU2018333668A priority patent/AU2018333668B2/en
Priority to MX2020002591A priority patent/MX2020002591A/es
Priority to US16/645,058 priority patent/US11600270B2/en
Priority to JP2019541990A priority patent/JP7227140B2/ja
Priority to SG11202001429XA priority patent/SG11202001429XA/en
Priority to CA3075249A priority patent/CA3075249A1/en
Priority to KR1020207006277A priority patent/KR102607192B1/ko
Publication of WO2019054199A1 publication Critical patent/WO2019054199A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/043Distributed expert systems; Blackboards
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H20/00Arrangements for broadcast or for distribution combined with broadcast
    • H04H20/28Arrangements for simultaneous broadcast of plural pieces of information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • the present technology relates to an information processing apparatus and an information processing method, and more particularly to an information processing apparatus and an information processing method capable of improving the convenience of an audio AI assistance service used in cooperation with content.
  • voice AI assistance services are rapidly spreading. For example, by using the voice AI assistance service, when the end user asks "Where are you here?", The answer "I am in Central Park.” Is returned based on the current position of the end user ( For example, refer to Patent Document 1).
  • the present technology has been made in view of such a situation, and is intended to improve the convenience of the audio AI assistance service used in cooperation with content.
  • An information processing apparatus is an information processing apparatus including an insertion unit that inserts a token related to use of an audio AI assistance service linked to content into an audio stream of the content.
  • the information processing apparatus may be an independent apparatus or an internal block constituting one apparatus. Further, an information processing method according to a first aspect of the present technology is an information processing method corresponding to the above-described information processing apparatus according to the first aspect of the present technology.
  • a token relating to the use of the audio AI assistance service linked to the content is inserted into the audio stream of the content.
  • An information processing apparatus is an information processing apparatus including a detection unit that detects, from an audio stream of content, a token related to use of an audio AI assistance service linked to the content.
  • the information processing apparatus may be an independent apparatus or an internal block constituting one apparatus. Further, an information processing method according to a second aspect of the present technology is an information processing method corresponding to the above-described information processing apparatus according to the second aspect of the present technology.
  • a token relating to the use of the audio AI assistance service linked to the content is detected from the audio stream of the content.
  • voice AI assistance services are rapidly spreading.
  • This type of service is detected or collected by an application executed by a device (for example, a smart speaker) having a voice detection or sound collecting function or a mobile device (for example, a smartphone or a tablet computer) having a microphone function.
  • Speech recognition is performed based on the sounded audio data. Then, based on the speech recognition obtained in this way, the user answers the end user's question or the like.
  • Alexa registered trademark
  • Amazon Echo registered trademark
  • Alexa Voice Service AVS
  • ASK Alexa Skills Kit
  • Alexa Skills Kit for example, what kind of speech to respond to, what kind of word is used as a parameter and what function to execute, or how to return the returned answer to Alexa, etc.
  • a package or an API (Application Programming Interface) group that defines the part of which a part is actually executed is called a skill.
  • an end user throws the following words toward a local device having voice detection and sound collection functions such as a smart speaker.
  • the first word "Alexa” is called Wake Word, and when the microphone of the device on the local side detects this word, it starts communication with the server on the cloud side, and the subsequent words are audio data. Will be sent to the server on the cloud side.
  • the next word “ask” is called a launch phrase, and tells the cloud server that the next word is the skill name. In this example, "Anime Facts" is the skill name.
  • the start phrase is, for example, "tell”, “launch”, “load”, “begin”, “open”, “start”, etc. in addition to “ask”. It can not be used.
  • Another method is to use a conjunction to indicate the skill name. For example, in the above-mentioned example, even when calling “Alexa, can you give me a fact from Anime Facts”, “Anime Facts” that is the skill is recognized by recognizing the word “from”. It can be determined that it is the first name.
  • the final "for a fact” is called Utterance, and the Alexa Skills Kit establishes the correspondence between Utterance and the process, procedure, or function actually executed. That is, by saying “for a fact", the server on the cloud side determines which process, procedure, or function the Utterance "for a fact" is to be connected to.
  • the present technology makes it possible to improve the convenience of the audio AI assistance service when using such an audio AI assistance service in conjunction with a content such as a CM or a program.
  • FIG. 1 is a block diagram showing a configuration example of a content / voice AI cooperation system to which the present technology is applied.
  • the content-speech AI cooperation system 1 of FIG. 1 is a system for distributing contents, and it is possible to use the speech AI assistance service in cooperation with the distributed contents.
  • the content / voice AI cooperation system 1 includes a server device 10, a broadcast system 11, a net distribution system 12, a client device 20, a voice processing device 30, and a server device 40.
  • the client device 20 and the voice processing device 30 installed in the viewer's house can be connected to the network distribution system 12 and the server device 40 installed in a data center or the like via the Internet 50. Can exchange various data.
  • the server device 10 stores contents to be distributed.
  • the content to be distributed is, for example, content such as a CM or a program.
  • the programs include, for example, dramas, news, shopping channels, animations, sports and the like.
  • the server device 10 processes a stream of content to be distributed, and supplies the stream to the broadcast system 11 or the net distribution system 12 according to the content distribution method.
  • the broadcast system 11 includes one or more broadcast servers and the like.
  • the broadcast system 11 performs processing (for example, modulation processing, etc.) according to a predetermined broadcast system on the content supplied from the server device 10, and provides data obtained as a result as a broadcast wave at the transmission station. Transmit from the antenna.
  • the net distribution system 12 includes one or more communication servers and the like.
  • the net distribution system 12 processes the content supplied from the server device 10 according to a predetermined communication method, and distributes (streams and distributes) the data (packet) obtained as a result thereof through the Internet 50. .
  • the client device 20 is configured as, for example, a fixed receiver such as a television receiver or a personal computer, or a mobile receiver such as a smartphone, a mobile phone, or a tablet computer.
  • a fixed receiver such as a television receiver or a personal computer
  • a mobile receiver such as a smartphone, a mobile phone, or a tablet computer.
  • the client device 20 receives and processes a broadcast wave transmitted from the broadcast system 11, thereby reproducing content and outputting video and audio such as a CM or a program.
  • the client device 20 receives and processes data distributed from the Internet distribution system 12 via the Internet 50 to reproduce content, and outputs video and audio such as CMs and programs.
  • the voice processing device 30 is, for example, a speaker connectable to a network such as a home LAN (Local Area Network), and is also referred to as a smart speaker or a home agent.
  • This type of speaker can function, for example, as a user interface of an audio AI assistance service, or can perform audio operations on devices such as lighting fixtures and air conditioners, in addition to music reproduction.
  • the voice processing device 30 can provide the voice AI assistance service to the end user (the viewer of the content) by working alone or in cooperation with the server device 40 on the cloud side.
  • the voice AI assistance service is, for example, a function or service that appropriately answers or operates an end user's inquiry or request by combining processing such as voice recognition processing and natural language analysis processing. It means that.
  • a sound collection module and a voice recognition module are, for example, a sound collection module and a voice recognition module, but even if all of these functions are implemented in the voice processing apparatus 30 on the local side. Alternatively, some of the functions may be implemented in the server device 40 on the cloud side.
  • the server device 40 is installed in a data center or the like, and has a function for providing a voice AI assistance service, various databases, and the like. In response to the request from the voice processing device 30, the server device 40 performs processing regarding the voice AI assistance service, and returns the processing result to the voice processing device 30 via the Internet 50.
  • the content / voice AI cooperation system 1 is configured as described above.
  • one client device 20 for example, a television receiver
  • one voice processing device 30 for example, a smart speaker
  • the client device 20 and the voice processing device 30 can be installed at each viewer's home. Further, in the viewer's home, the client device 20 and the voice processing device 30 are assumed to be installed in the same room, but may be installed in different rooms.
  • server apparatus 10 and one server apparatus 40 have functions.
  • a plurality of units may be provided for each company and each company.
  • the client device 20 is provided on the reception side (viewer side) with respect to the server device 10 provided on the transmission side (broadcast station side). Further, with respect to the server device 40 provided on the cloud side, the audio processing device 30 will be described as provided on the local side.
  • the CM of a hamburger chain store that is XYZ reproduced by a client device 20 such as a television receiver, supplements the contents of the CM, for example, the CM of "XYZ burger" "Service A, ask Hamburger It is assumed that a voice message of "restaurant XYZ” What's XYZ Burger "” is intentionally flowed in the voice of the CM to force the voice AI assistance service to answer this question.
  • the case is not limited to the voice of the CM, and, for example, the case of being performed by an application or the like that is provided in broadcast by being associated with the CM is also included.
  • “intention” here means that there is no consent of the viewer.
  • the voice AI assistance service is notified of how to speak (question).
  • the contents of the former CM are contents authorized by some authority or censorship institution or the like.
  • the voice AI assistance service will explain the information that the viewer does not want to know in detail. It may be extra care (high possibility). In addition, there is a possibility that the viewer may be annoyed (high possibility) for the viewer's profile information to be stored as the user is interested in the content of this CM.
  • the audio AI assistance service responds only to the content of the question uttered by the end user. You may want to limit it.
  • a coping method in such a case, for example, there is a method of pre-registering a voice model of an end user and specifying a uttering user of a conversation (specifying a question of a recognition target voice user), but such a utterer
  • voice AI assistance service without specific function, a list of questions that should not be reacted as a blacklist (for example, a list of text strings) to recognize CM speech but not respond to the question
  • a blacklist for example, a list of text strings
  • the blacklist including the question is managed so as not to process it. It will be done.
  • the blacklist to be managed may become huge, and the blacklist is held for a certain period or for a long time in the future, and matching evaluation is immediately performed on all the questions (for example, Real-time database search etc.), which is not realistic.
  • the holding period of the blacklist means, for example, a period in which a question may be thrown from an end user.
  • the method of identifying the uttered user of the above-mentioned conversation is implemented, for example, by Google Home (registered trademark) which is another representative example of the voice AI assistance service.
  • the present technology it is proposed to insert a token for prohibiting or permitting the speech recognition process by the speech AI assistance service linked to the content into the audio stream of the content as the audio watermark.
  • the voice processing device 30 provided locally as the sound collection device for the audio AI assistance service, or the server device 40 provided on the cloud side that analyzes the collected audio stream, Implement watermark detection function.
  • any method for the audio watermark may be used as long as a necessary and sufficient token can be superimposed on the target audio stream.
  • FIG. 2 is a diagram showing an example of a speech recognition process prohibition token embedded as an audio watermark in a baseband audio stream.
  • the audio stream of a CM or program contains audio that should not be passed on to subsequent processing as a valid speech recognition result after performing speech recognition processing of the speech AI assistance service. It is assumed that
  • the server apparatus 10 on the transmitting side decodes all the audio streams into baseband audio streams, and the token generated by the token generator by the audio WM insertion module (voice recognition processing Insert the forbidden token) as an audio watermark into the baseband audio stream.
  • the audio recognition process prohibition token inserted as an audio watermark can be inserted not only in the transmitting server apparatus 10 but also in the receiving client apparatus 20. Therefore, an audio watermark is inserted below. Will be described on the transmission side and the reception side.
  • FIG. 3 is a block diagram showing a first example of the configuration of the content-voice AI cooperation system 1 according to the first embodiment.
  • the content / voice AI cooperation system 1 of FIG. 3 includes a server device 10A, a client device 20A, and a voice processing device 30A.
  • processing on an audio stream is mainly described, but processing on a video stream is also performed in the server device 10A, the client device 20A, and the like. .
  • the server device 10A includes a CM / program bank 101, an audio decoder 102, a token generator 103, an audio WM insertion module 104, and an audio encoder 105.
  • the CM / program bank 101 stores a large number of contents such as CMs and programs.
  • the CM / program bank 101 includes an audio stream of a CM or a program (hereinafter referred to as a CM / program audio stream) in an CM or a stream of programs (hereinafter referred to as a CM / program stream) to be distributed.
  • the data is supplied to the decoder 102.
  • the audio obtained from the CM / program audio stream may include audio for which the speech recognition process should be prohibited.
  • the audio decoder 102 decodes the CM / program audio stream supplied from the CM / program bank 101, and supplies the baseband CM / program audio stream obtained as a result of the decoding to the audio WM insertion module 104.
  • the token generator 103 generates a speech recognition process prohibition token based on the token generation data and supplies the token to the audio WM insertion module 104. Also, the speech recognition process prohibition token is notified to the audio WM detection module 302 of the speech processing device 30A.
  • the token generation data is, for example, data for generating a token or the like for preventing reaction to a question even if a specific voice flows in the CM of the hamburger chain store which is XYZ.
  • the entity of the voice AI assistance service or other operators.
  • the notification method of the speech recognition process prohibition token in addition to notification via communication via the Internet 50, for example, notification via broadcast or voice recognition processing to a recording medium such as a semiconductor memory or an optical disc
  • a recording medium such as a semiconductor memory or an optical disc
  • the speech recognition process prohibition token generated by the token generator 103 may be notified to the audio WM detection module 302 of the speech processing device 30A, and the method of the notification is arbitrary.
  • the audio WM insertion module 104 inserts (encodes), as an audio watermark, a speech recognition process prohibition token supplied from the token generator 103 to the baseband CM / program audio stream supplied from the audio decoder 102.
  • the data is supplied to the encoder 105.
  • the audio encoder 105 encodes a baseband CM / program audio stream supplied from the audio WM insertion module 104 (a stream in which a speech recognition process prohibition token is inserted as an audio watermark on the transmitting side).
  • the server device 10A sends the CM / program audio stream obtained as a result of the encoding by the audio encoder 105 to the broadcast system 11 or the net delivery system 12 according to the delivery method of the content.
  • the broadcast system 11 processes the CM / program stream (a stream in which the speech recognition process prohibition token is inserted as an audio watermark on the transmitting side) sent from the server device 10A, and the data obtained as a result of the process is broadcast Send as.
  • the net distribution system 12 processes the CM / program stream (a stream in which the speech recognition process prohibition token is inserted as an audio watermark on the transmitting side) sent from the server device 10A, and data (packet) obtained as a result of the process Distributed over the Internet 50.
  • the client device 20A receives the CM / program stream distributed by the broadcast system 11 or the net distribution system 12.
  • the client device 20A is configured to include an audio decoder 201 and an audio speaker 202.
  • the audio decoder 201 decodes the CM / program audio stream received from the broadcast system 11 or the net distribution system 12, and supplies the resultant baseband CM / program audio stream to the audio speaker 202.
  • the audio speaker 202 outputs audio corresponding to the baseband CM / program audio stream supplied from the audio decoder 201.
  • the CM / program video stream is also decoded by the video decoder and the CM or program corresponding to the baseband CM / program video stream Is displayed on the display.
  • the speech processing device 30A includes a sound collection module 301, an audio WM detection module 302, and a speech recognition module 303 as the function of the speech AI assistance service. Also, the sound collection module 301 includes an audio microphone 311.
  • the audio microphone 311, the audio WM detection module 302, and the voice recognition module 303 of the sound collection module 301 respond to the voice input from the client device 20A or the voice input from the viewer 2. It constitutes a series.
  • the audio WM detection module 302 holds, in advance, the speech recognition process prohibition token notified from (the token generator 103 of) the server device 10A.
  • the audio microphone 311 picks up the sound output from the audio speaker 202 of the client device 20A, and supplies the resultant audio stream to the audio WM detection module 302 and the voice recognition module 303.
  • the audio WM detection module 302 detects the audio watermark inserted in the audio stream supplied from the audio microphone 311, and the voice recognition processing prohibition token notified from the server device 10A is inserted as the audio watermark. Determine if there is.
  • the speech recognition module 303 performs speech recognition processing on the audio stream supplied from the audio microphone 311.
  • the speech recognition module 303 supplies the speech recognition result to the subsequent processing unit that performs the subsequent processing.
  • the subsequent processing unit performs subsequent processing related to the voice AI assistance service based on the voice recognition result supplied from the voice recognition module 303.
  • the voice recognition module 303 does not pass the voice recognition result to the subsequent processing unit. Do.
  • the audio microphone 311 also picks up the voice of the viewer 2's speech, and supplies the audio stream obtained as a result to the audio WM detection module 302 and the voice recognition module 303.
  • the audio WM detection module 302 detects the audio watermark inserted in the audio stream supplied from the audio microphone 311, and the voice recognition processing prohibition token notified from the server device 10A is inserted as the audio watermark. Determine if there is.
  • the audio WM detection module 302 does not always insert the speech recognition process prohibition token. judge.
  • the speech recognition module 303 performs speech recognition processing on the audio stream supplied from the audio microphone 311.
  • the speech recognition module 303 Since it is determined by the audio WM detection module 302 that the speech recognition process prohibition token is not inserted at all times, the speech recognition module 303 supplies the speech recognition result to the subsequent processing unit that performs the subsequent processing. Therefore, the subsequent processing unit always performs the subsequent processing related to the voice AI assistance service based on the voice recognition result supplied from the voice recognition module 303.
  • the voice processing unit 30A on the local side performs all processing of the voice AI assistance service for convenience of explanation, a part of the processing of the voice AI assistance service is executed by the server on the cloud side. It may be performed by the device 40.
  • the voice AI assistance service is realized by cooperation of the voice processing device 30A and the server device 40.
  • the speech recognition process prohibition token is basically one type of token, for example, a token for preventing reaction to the question even if a specific voice flows in the CM of a hamburger chain store that is XYZ. Although it is sufficient, it may be limited to several types and used as needed.
  • FIG. 4 is a flowchart showing the flow of processing on the transmission side executed by the server device 10A and the broadcast system 11 or the net distribution system 12.
  • FIG. 5 is a flowchart showing the flow of processing on the receiving side executed by the client device 20A and the voice processing device 30A.
  • step S101 the CM / program bank 101 sends out a stream of CM / program stored therein.
  • the CM / program audio stream is sent to the audio decoder 102.
  • step S102 the token generator 103 generates a speech recognition process prohibition token based on the token generation data.
  • a speech recognition processing prohibition token for example, even if the voice “Service A, ask Hamburger restaurant XYZ“ What's XYZ Burger ”flows in the CM of the hamburger chain store which is XYZ, Tokens are generated to prevent reaction.
  • the speech recognition process prohibition token is notified in advance to the audio WM detection module 302 of the speech processing device 30 via communication or the like.
  • step S103 the audio decoder 102 decodes the CM / program audio stream transmitted in the process of step S101. As a result of this decoding, a baseband CM / program audio stream is obtained.
  • step S105 the audio WM insertion module 104 inserts, as an audio watermark, the speech recognition process prohibition token obtained in the process of step S102 into the baseband CM / program audio stream obtained in the process of step S103. ).
  • step S104 the audio encoder 105 encodes the baseband CM / program audio stream into which the audio watermark has been inserted, obtained in the process of step S105.
  • CM / program audio stream is described, but in the server device 10A, processing is performed by multiplexing with other streams such as CM / program video stream as necessary. Be done.
  • the CM / program stream (a stream obtained by inserting the speech recognition process prohibition token as an audio watermark on the transmitting side) obtained by the server device 10A is distributed by the broadcast system 11 or the net according to the content distribution method. It is delivered to the system 12.
  • the broadcast system 11 mixes the CM / program stream (stream in which the speech recognition process prohibition token is inserted as the audio watermark on the transmitting side) sent from the server device 10A. Process and send out data obtained as a result of the process as a broadcast wave.
  • the net distribution system 12 transmits the CM / program stream sent from the server device 10A (a stream in which a speech recognition process prohibition token is inserted as an audio watermark on the transmitting side) And distribute data obtained as a result of the processing via the Internet 50.
  • the CM / program stream distributed by the broadcast system 11 or the net distribution system 12 is received by the client device 20A in FIG.
  • the client device 20A the CM / program stream is processed, and the CM / program audio stream is input to the audio decoder 201.
  • the client device 20A adjusts the audio output volume of the audio speaker 202 so that the volume output from the audio speaker 202 is sufficient (S201).
  • the audio speaker 202 is controlled such that the audio microphone 311 incorporated in the audio processing device 30A can pick up the sound.
  • the client device 20A instructs the viewer 2 to adjust the volume (increase the volume).
  • This instruction may be made, for example, by voice from the audio speaker 202, or a message to that effect may be presented on the screen.
  • step S202 the audio decoder 201 decodes the CM / program audio stream. As a result of this decoding, a baseband CM / program audio stream is obtained.
  • step S203 the audio speaker 202 outputs audio corresponding to the baseband CM / program audio stream obtained in the process of step S202.
  • the CM / program audio stream is described here to simplify the description, but in the client device 20A, the CM / program video stream is also decoded by the video decoder and the baseband CM / program video is An image of a CM or a program corresponding to the stream is displayed on the display.
  • the audio output from the audio speaker 202 of the client device 20A is collected by the audio microphone 311 of the audio processing device 30A.
  • an audio stream corresponding to the voice collected by the audio microphone 311 is supplied to the audio WM detection module 302 and the voice recognition module 303. It is assumed that the speech recognition process prohibition token has been notified to the audio WM detection module 302 in advance from the server device 10A via communication or the like.
  • step S301 the audio WM detection module 302 detects an audio watermark inserted in the audio stream according to the audio collected by the audio microphone 311 (audio output from the client device 20A).
  • step S302 the voice recognition module 303 performs voice recognition processing on an audio stream according to the voice collected by the audio microphone 311 (voice output from the client device 20A).
  • step S303 based on the detection result obtained in the process of step S301, the audio WM detection module 302 uses the voice recognition process prohibition token notified from the server device 10A as the audio watermark inserted in the audio stream. Determine if it has been inserted.
  • step S303 If it is determined in step S303 that no voice recognition process prohibition token is inserted as an audio watermark, the process proceeds to step S304.
  • step S304 the speech recognition module 303 passes the speech recognition result obtained in the process of step S302 to the subsequent process in accordance with the determination result of the process of step S303.
  • step S303 when it is determined in step S303 that a speech recognition process prohibition token is inserted as an audio watermark, the process of step S304 is skipped. That is, in this case, the speech recognition result of the audio stream is regarded as invalid, and the speech recognition result is not passed on to the subsequent processing (discarding the speech recognition result).
  • the voice processing apparatus 30A when the voice recognition process prohibition token is inserted in the audio stream, the voice recognition result of the audio stream is invalidated.
  • the voice processing device 30A When the viewer 2 speaks (S11), the following processing is performed in the voice processing device 30A. That is, the voice of the viewer 2's speech is collected by the audio microphone 311 of the voice processing device 30A.
  • an audio stream corresponding to the voice collected by the audio microphone 311 (a voice of the speech of the viewer 2) is supplied to the audio WM detection module 302 and the voice recognition module 303. It is assumed that the speech recognition process prohibition token has been notified to the audio WM detection module 302 in advance from the server device 10A.
  • step S306 the audio WM detection module 302 detects an audio watermark on the audio stream corresponding to the sound collected by the audio microphone 311.
  • the audio WM detection module 302 can not detect the speech recognition process prohibition token.
  • step S307 the speech recognition module 303 performs speech recognition processing on an audio stream according to the speech collected by the audio microphone 311.
  • step S308 the speech recognition module 303 considers that the speech recognition result of the audio stream is valid and passes it to the subsequent process, since no speech recognition process prohibition token is always inserted in the audio stream. .
  • the speech recognition process prohibition token is not detected, so the speech recognition result by the speech recognition module 303 becomes valid, and the subsequent process is always performed. It will be.
  • the flow of the audio AI processing according to the viewer's utterance has been described above.
  • the transmitting side performs the watermark insertion described above
  • the token not only the processing process of the speech recognition result is forcibly invalidated but, for example, the intention of the viewer 2 is once It can also be a token that can be heard. That is, in this case, two types of tokens are prepared, one is forcibly a token that invalidates the process of processing speech recognition results, and the other is invalidating the process of processing speech recognition results. It is a token which makes the audience 2 talk about whether it is possible to go through the processing process just before doing.
  • the latter token is detected in the audio WM detection module 302 of the audio AI assistance service, for example, may it be permitted to use the audio AI assistance service by audio of this CM?
  • the intention of the viewer 2 is confirmed by outputting such a confirmation message by voice from the voice processing device 30A.
  • the watermark insertion process is performed by the server apparatus 10 on the transmission side (broadcasting station side), but may be performed by the client apparatus 20 on the reception side (for example, a television receiver).
  • the process of inserting a watermark is performed by the client device 20 on the receiving side, it can be realized, for example, by executing an application such as a broadcast application accompanying a broadcast.
  • the server apparatus 10 on the transmitting side performs the process of inserting a watermark
  • the same audio for example, CM or audio of a program
  • Control can not be performed in accordance with the intentions of the above, but, for example, the following can be achieved by adopting a configuration in which the client device 20 on the receiving side executes the application and inserts the watermark. Is made feasible.
  • the viewer's intention can be reflected in the continuity of the processing process of the speech recognition result of the speech AI assistance service, and personalization can be performed.
  • the intention of the viewer can be confirmed, for example, by displaying a confirmation message as shown in FIG.
  • FIG. 8 is a block diagram showing a second example of the configuration of the content-voice AI cooperation system 1 according to the first embodiment.
  • the content / voice AI cooperation system 1 of FIG. 8 includes a server device 10B, a client device 20B, and a voice processing device 30B.
  • the server device 10 ⁇ / b> B includes a CM / program bank 101, a token generator 103, and an application generator 111.
  • an application generator 111 is newly provided instead of the audio decoder 102, the audio WM insertion module 104, and the audio encoder 105, as compared with the server device 10A of FIG.
  • the application generator 111 generates an application based on the application generation data. In addition, when generating the application, the application generator 111 embeds the speech recognition process prohibition token generated by the token generator 103 in hard code.
  • the server device 10B sends the application generated by the application generator 111 to the broadcast system 11 or the net distribution system 12 according to the distribution method of the application.
  • the broadcast system 11 sends out, as a broadcast wave, data of at least one of a CM / program stream sent from the server device 10B and an application. Also, the net distribution system 12 distributes, via the Internet 50, data of at least one of the CM / program stream and the application sent from the server device 10B.
  • the client device 20B receives the CM / program stream and the application distributed by the broadcast system 11 or the net distribution system 12.
  • the client device 20B includes an audio decoder 201, an audio speaker 202, an application execution environment 211, and an audio WM insertion module 212.
  • the client device 20B of FIG. 8 is newly provided with an application execution environment 211 and an audio WM insertion module 212.
  • the application execution environment 211 executes an application received from the broadcast system 11 or the net distribution system 12.
  • the application execution environment 211 acquires the speech recognition process prohibition token and supplies the token to the audio WM insertion module 212.
  • the audio WM insertion module 212 inserts (encodes), as an audio watermark, a speech recognition process prohibition token supplied from the application execution environment 211 to a baseband CM / program audio stream supplied from the audio decoder 201.
  • An audio speaker 202 is supplied.
  • the audio speaker 202 outputs audio corresponding to a baseband CM / program audio stream (a stream in which a speech recognition process prohibition token is inserted as an audio watermark on the receiving side) supplied from the audio WM insertion module 212.
  • the speech processing device 30B of FIG. 8 has the same configuration as the speech processing device 30A of FIG. 3, the description thereof will be omitted here.
  • the voice processing device 30B on the local side may cooperate with the server device 40 on the cloud side so that part of the processing of the voice AI assistance service is performed by the server device 40.
  • FIG. 9 is a flowchart showing a flow of processing on the transmission side executed by the server device 10B and the broadcast system 11 or the net distribution system 12.
  • FIG. 10 is a flowchart showing the flow of processing on the receiving side executed by the client device 20B and the voice processing device 30B.
  • step S 111 the CM / program bank 101 sends the CM / program stream stored therein to the broadcast system 11 or the net distribution system 12.
  • the voice corresponding to the CM / program audio stream includes voice for which the voice recognition process should be prohibited.
  • step S112 the token generator 103 generates a speech recognition process prohibition token based on the token generation data.
  • step S113 the application generator 111 generates an application based on the application generation data.
  • the speech recognition process prohibition token obtained in the process of step S112 can be embedded in hard code.
  • the speech recognition process prohibition token is embedded in the hard code
  • transmission is performed via the Internet 50.
  • the speech recognition process prohibition token may be acquired from (the token generator 103 of) the server device 10B on the side.
  • step S114 the application generator 111 sends the application obtained in the process of step S113 to the broadcast system 11 or the net distribution system 12.
  • the CM / program stream obtained by the server device 10B and the application are sent out to the broadcast system 11 or the net delivery system 12 according to the delivery method of content.
  • the broadcast system 11 processes the CM / program stream sent from the server device 10B and the application, and the data obtained as a result of the processing is broadcasted. Send as.
  • the internet distribution system 12 processes the CM / program stream sent from the server device 10B and the application, and the data obtained as a result of the processing is the Internet Deliver through 50.
  • the CM / program stream and the application may be multiplexed in the same broadcast stream, the CM / program stream may be distributed via broadcasting and the application may be distributed via communication.
  • the client device 20B on the receiving side accesses the Internet distribution system 12 via the Internet 50 immediately before or simultaneously with the start of the CM or the program to acquire the application.
  • the CM / program stream and application distributed by the broadcast system 11 or the net distribution system 12 are received by the client device 20B.
  • the client device 20 B the CM / program stream is processed, and the CM / program audio stream is input to the audio decoder 201.
  • an application is input to the application execution environment 211.
  • step S211 the audio decoder 201 decodes the CM / program audio stream. As a result of this decoding, a baseband CM / program audio stream is obtained.
  • step S213 the application execution environment 211 executes the application.
  • the speech recognition process prohibition token is embedded in hard code in the application, the application execution environment 211 can acquire the speech recognition process prohibition token.
  • the application displays the confirmation message 251 shown in FIG. 7 described above, the application does not insert the watermark by hand, but once the intention of the viewer 2 is confirmed, the audio is displayed. Watermark insertion processing can be performed.
  • the “NG button” is operated by the viewer 2 and the application execution environment 211 instructs to insert a watermark. Accept (S214). In this case, a process of inserting an audio watermark will be performed.
  • the intention confirmation is performed in advance by an initial setting menu or the like, and the application executed by the application execution environment 211 can be referred to the viewer intention information. It may be stored in the initial setting database.
  • a menu such as “audio AI assistance service self-use restriction” is added, and a dialog as shown in FIG. 7 is displayed. It may be made to confirm self-use of voice AI assistance service by.
  • the application may perform watermark insertion control based on the viewer intention information instead of displaying the confirmation message 251 shown in FIG. 7 each time by referring to the initial setting database. it can.
  • Audio watermarks may be inserted in sections of all commercials and programs.
  • step S212 the audio WM insertion module 212 inserts, as an audio watermark, a speech recognition process prohibition token obtained in the process of step S213 into the baseband CM / program audio stream obtained in the process of step S211. ).
  • the audio output volume of the audio speaker 202 is adjusted so that the volume output from the audio speaker 202 is sufficient (S215).
  • the audio speaker 202 is controlled such that the audio microphone 311 built in the audio processing device 30B can pick up the sound.
  • step S216 the audio speaker 202 outputs audio corresponding to the baseband CM / program audio stream (stream in which the speech recognition process prohibition token is inserted as an audio watermark on the receiving side) obtained in the process of step S212. .
  • CM / program audio stream is described here to simplify the description, but in the client device 20B, the CM / program video stream is also decoded by the video decoder and the baseband CM / program audio is An image of a CM or program corresponding to the stream is displayed on the display.
  • the audio output from the audio speaker 202 of the client device 20B is collected by the audio microphone 311 of the audio processing device 30B.
  • the speech recognition result is passed to the subsequent process (S314).
  • the speech recognition result is not passed to the subsequent process.
  • a voice recognition process prohibition token is inserted as an audio watermark in the server apparatus 10 on the transmitting side or the client apparatus 20 on the receiving side, and the voice processing apparatus 30 on the local side or the cloud side
  • the speech AI assistance service can be used after confirming the legitimacy of the speech recognition target data. As a result, more practical voice AI assistance service can be provided.
  • the wording of speech recognition processing prohibition is expanded as a blacklist in a database, and the cost of checking whether the wording can be checked in real time in the speech AI assistance service It can be avoided.
  • the blacklist is updated frequently and the amount of data is large, this cost may put pressure on the operation cost, which in turn leads to the degradation of the performance of the voice AI assistance service. It is because the possibility is high.
  • the client device 20 such as a television receiver or mobile receiver. It can prevent the use of meaningless (convenient) services for the viewer.
  • a plurality of types of tokens may be prepared, or a configuration may be implemented such that an application executed by the client device 20 on the receiving side (for example, the television receiver side) performs a process of inserting a watermark.
  • the transmitting side for example, a broadcasting station or an audio AI assistance service entity
  • the voice of all CM and program sections except for the CM and the section of the program (the section in which the processing process of the speech recognition result is always effective)
  • the audio stream of the above may be decoded into a baseband audio stream, and the speech recognition process prohibition token generated by the token generator 103 may be inserted as an audio watermark.
  • the audio stream of the speech is decoded into a baseband audio stream, and the speech recognition processing permission token May be inserted as an audio watermark. That is, in contrast to the speech recognition process prohibition token described above, this speech recognition process permission token continues the subsequent processing based on the speech recognition result of the audio stream when it is included in the collected speech. It can be said that it is a token of
  • a television broadcast such as a CM or a program presents how the viewer should utter to the audio AI assistance service.
  • Alexa registered trademark
  • the character string obtained by combining the launch phrase (Launch phrase) the skill name, and the Utterance becomes very long, for example, “ It is assumed that there are occasions such as ask, Drama Facts, for any private information on the casts of XXX DRAMA by XXX CHANNEL ".
  • the concatenated string such as the activation phrase becomes very long, for example, it is assumed that there is a case where an utterance such as “ask, shoppingApp, my personal account number is 1234567890” is prompted. However, in the example of this utterance, all or part of the utterance (for example, the part of "1234567890") is generated by an application executed by the client device 20 (for example, a television receiver or the like) of the viewer's house. Assume a case.
  • the token itself may be viewed or falsified before it reaches the sound collection module of the voice AI assistance service or on the way to the subsequent processing of the voice AI assistance service. I have to make sure there is no such thing.
  • the message itself may need to be concealed on the route from the token generator to the subsequent processing of the voice AI assistance service.
  • the present technology proposes, as a second embodiment, that a parameter delivered to an audio AI assistance service linked to content is inserted into an audio stream of content as an audio watermark.
  • the voice processing device 30 provided locally as the sound collection device for the audio AI assistance service or the server device 40 provided on the cloud side that analyzes the collected audio stream, Implement watermark detection function.
  • any method for the audio watermark may be used as long as a necessary and sufficient token can be superimposed on the target audio stream.
  • FIG. 11 is a diagram showing an example of a service delivery parameter embedded as an audio watermark in a baseband audio stream.
  • a string indicating how the viewer should speak to the audio AI assistance service eg, “ask, Drama Facts, for any private information on the It is assumed that an instruction to utter "casts of XXX DRAMA by XXX CHANNEL" is given.
  • the server apparatus 10 on the transmitting side decodes the audio stream in a certain time interval between the target CM and the program before transmitting the CM and the stream of the program, and then performs baseband audio Make it a stream. Then, the server device 10 causes the audio WM insertion module to insert the token (service delivery parameter) generated by the token generator into the audio stream of the baseband as an audio watermark.
  • a service delivery parameter of “ask, DramaFacts, for any private information on the casts of XXXDRAMA by XXXCHANNEL” is generated, and is inserted as an audio watermark into the baseband audio stream. It should be noted that the embedding of the service delivery parameter is inserted into the baseband audio stream repeatedly several times.
  • the content (message) of the token is encrypted or tampered with.
  • the signature for this can be generated and then inserted as an audio watermark.
  • the content (message) of the token “ask, DramaFacts, for any private information on the casts of XXXDRAMA by XXXCHANNEL” is stored in the Message element. Then, by applying, for example, an XML encryption or an XML signature to the message stored in the Message element, the contents of the token can be concealed or tampering can be prevented.
  • FIG. 13 shows an example in which an XML signature is applied to the message stored in the above-mentioned Message element.
  • the XML signature is a type of electronic signature attached to electronic data such as an XML (Extensible Markup Language) document.
  • URI "" which is an attribute value of the ds: Reference element, indicates that the entire Message element is to be signed.
  • the service delivery parameter inserted as an audio watermark can be inserted not only by the server apparatus 10 on the transmission side but also by the client apparatus 20 on the reception side, the insertion of the audio watermark will hereinafter be described.
  • the configuration performed on the transmission side and the configuration performed on the reception side will be described respectively.
  • FIG. 14 is a block diagram showing a first example of the configuration of the content-voice AI cooperation system 1 according to the second embodiment.
  • the content / voice AI cooperation system 1 of FIG. 14 includes a server device 10C, a client device 20C, and a voice processing device 30C.
  • the server device 10C includes a CM / program bank 101, an audio decoder 102, a token generator 103, an audio WM insertion module 104, and an audio encoder 105.
  • the token generator 103 generates a service delivery parameter based on the token generation data, and supplies it to the audio WM insertion module 104.
  • the token generation data is, for example, data for generating a token (service delivery parameter) such as “ask, DramaFacts, for any private information on the casts of XXXDRAMA by XXXCHANNEL”. It is considered that the station, the voice AI assistance service entity, or other operators are determined.
  • the audio WM insertion module 104 inserts (encodes), as an audio watermark, the service handover parameter supplied from the token generator 103 to the baseband CM / program audio stream supplied from the audio decoder 102. Supply to
  • the audio encoder 105 encodes a baseband CM / program audio stream supplied from the audio WM insertion module 104 (a stream in which a service delivery parameter is inserted as an audio watermark on the transmitting side).
  • the client device 20 ⁇ / b> C is configured to include an audio decoder 201 and an audio speaker 202 as in the client device 20 ⁇ / b> A shown in FIG. 3.
  • the voice processing device 30C is configured to include a sound collection module 301, an audio WM detection module 302, and a voice recognition module 303 as a function of the voice AI assistance service.
  • the sound collection module 301 includes an audio microphone 311.
  • the audio microphone 311 picks up the wake word uttered by the viewer 2 or the sound output from the audio speaker 202 of the client device 20.
  • the sound collection module 301 starts an audio AI assistance service when the wake word utterance by the viewer 2 is recognized based on the sound collected by the audio microphone 311, and the service delivery by the audio WM detection module 302 is performed. Enable parameter detection.
  • the audio WM detection module 302 detects an audio watermark inserted in the audio stream from the audio microphone 311, and determines whether a service delivery parameter is inserted as an audio watermark.
  • the audio WM detection module 302 supplies the service delivery parameter as a speech recognition result to the subsequent processing unit that performs the subsequent processing.
  • the subsequent processing unit performs the subsequent processing on the voice AI assistance service based on the voice recognition result supplied from the audio WM detection module 302.
  • the audio WM detection module 302 prevents the voice recognition result from being delivered to the subsequent processing unit.
  • the speech recognition module 303 performs speech recognition processing on the audio stream supplied from the audio microphone 311. In the configuration shown in FIG. 14, the speech recognition module 303 is not necessarily required.
  • the wake word is uttered by the viewer 2, for example, the voice instruction message 261 as shown in FIG. It is possible to prompt a wakeword to activate the assistance service.
  • the voice processing device 30C on the local side performs all processing of the voice AI assistance service
  • a part of the processing of the voice AI assistance service is performed by the server on the cloud side. It may be performed by the device 40.
  • the voice AI assistance service is realized by cooperation of the voice processing device 30C and the server device 40.
  • token generator 103 is described as being included in the server device 10C in FIG. 14, the token generator 103 may be included in another device other than the server device 10C.
  • FIG. 16 is a flowchart showing the flow of processing on the transmission side executed by the server device 10C and the broadcast system 11 or the net distribution system 12.
  • FIG. 17 is a flowchart showing a flow of processing on the receiving side executed by the client device 20C and the voice processing device 30C.
  • step S121 the CM / program bank 101 sends out a CM / program stream.
  • the CM / program audio stream is sent to the audio decoder 102.
  • step S122 the token generator 103 generates a service delivery parameter as a token based on the token generation data.
  • the service delivery parameter for example, how should the viewer 2 speak to the audio AI assistance service, which is “ask, Drama Facts, for any private information on the casts of XXX DRAMA by XXX CHANNEL”
  • a string (message) indicating is generated.
  • an XML signature or the like is applied to this message, and the contents of the token can be concealed or tampering can be prevented.
  • step S123 the audio decoder 102 decodes the CM / program audio stream transmitted in the process of step S121 to obtain a baseband CM / program audio stream.
  • step S125 the audio WM insertion module 104 inserts (encodes), as an audio watermark, the service delivery parameter obtained in the process of step S122 into the baseband CM / program audio stream obtained in the process of step S123. .
  • step S124 the audio encoder 105 encodes the baseband CM / program audio stream into which the audio watermark has been inserted, obtained in the process of step S125.
  • CM / program audio stream is described to simplify the explanation, but in the server device 10C, processing is performed by multiplexing with other streams such as the CM / program video stream as necessary. Be done.
  • the CM / program stream (a stream in which the service delivery parameter is inserted as an audio watermark on the transmitting side) obtained by the server device 10C is transmitted to the broadcast system 11 or the net distribution system 12 according to the content distribution method.
  • the CM / program stream distributed by the broadcast system 11 or the net distribution system 12 is received by the client device 20C in FIG.
  • the client device 20C the CM / program stream is processed, and the CM / program audio stream is input to the audio decoder 201.
  • the client device 20C adjusts the audio output volume of the audio speaker 202 so that the volume output from the audio speaker 202 is sufficient (S221).
  • the client device 20C instructs the viewer 2 to speak a wake word (for example, "Service A") for activating the audio AI assistance service (S222).
  • a wake word for example, "Service A”
  • the speech instruction message 261 (FIG. 15) which is "Please say” Service A "if you want to know the private information of the cast of this program” is CM or
  • the audio stream of the program is displayed in the section where the audio watermark is inserted. And the viewer 2 who confirmed this display will utter a wake word (S21).
  • step S223 the audio decoder 201 decodes the CM / program audio stream to obtain a baseband CM / program audio stream.
  • step S224 the audio speaker 202 outputs audio corresponding to the baseband CM / program audio stream obtained in the process of step S223.
  • the CM / program audio stream is described here to simplify the description, but in the client device 20C, the CM / program video stream is also decoded by the video decoder and the baseband CM / program video is An image of a CM or program corresponding to the stream is displayed on the display.
  • the wake word uttered by the viewer 2 and the sound output from the audio speaker 202 of the client device 20C are collected by the audio microphone 311 of the audio processing device 30.
  • step S 322 the sound collection module 301 recognizes the wakeword uttered by the viewer 2 from the audio stream corresponding to the sound collected by the audio microphone 311.
  • the sound collection module 301 activates the voice AI assistance service to validate the detection of the service delivery parameter (S323).
  • the processing of step S 321 by the audio WM detection module 302 is started with the activation of the detection of the service delivery parameter.
  • step S321 the audio WM detection module 302 detects an audio watermark inserted in the audio stream from the audio microphone 311 in step S301.
  • step S324 the audio WM detection module 302 determines, based on the detection result obtained in the process of step S321, whether a service handover parameter is inserted as an audio watermark inserted in the audio stream.
  • step S324 If it is determined in step S324 that the service handover parameter is inserted as an audio watermark, the process proceeds to step S325.
  • step S325 the audio WM detection module 302 passes the service delivery parameter obtained in the process of step S321 to the subsequent process as a speech recognition result.
  • step S324 when it is determined in step S324 that no service delivery parameter is inserted as an audio watermark, the process of step S325 is skipped. That is, in this case, the speech recognition result of the audio stream is regarded as invalid, and the speech recognition result is not passed to the subsequent processing (do nothing).
  • a string for example, "ask, Drama Facts, for any private information on the casts of XXX DRAMA by XXX CHANNEL"
  • this message is passed to subsequent processing as a speech recognition result. Therefore, for example, it is possible to avoid a situation where the viewer 2 who uses the audio AI assistance service can not remember the phrase because the phrase is too long.
  • the watermark insertion process is performed by the server apparatus 10 on the transmission side (broadcasting station side), but may be performed by the client apparatus 20 on the reception side (for example, a television receiver).
  • the process of inserting a watermark is performed by the client device 20 on the receiving side, it can be realized, for example, by executing an application such as a broadcast application accompanying a broadcast.
  • the server apparatus 10 on the transmitting side performs the process of inserting a watermark
  • the same audio for example, CM or audio of a program
  • Control can not be performed in accordance with the intentions of the above, but, for example, the following can be achieved by adopting a configuration in which the client device 20 on the receiving side executes the application and inserts the watermark. Is made feasible.
  • the viewer-specific attribute information for example, the viewer's account information etc. necessary for the purchase of a product etc.
  • FIG. 18 is a block diagram showing a second example of the configuration of the content-voice AI cooperation system 1 according to the second embodiment.
  • the content / voice AI cooperation system 1 of FIG. 18 includes a server device 10D, a client device 20D, and a voice processing device 30D.
  • the server device 10D is configured to include a CM / program bank 101 and an application generator 111.
  • the application generator 111 generates an application based on the application generation data.
  • the application generated here has a token generator function (function equivalent to the above-described token generator 103).
  • the server device 10D sends the application generated by the application generator 111 to the broadcast system 11 or the net distribution system 12 according to the distribution method of the application.
  • the client device 20D includes an audio decoder 201, an audio speaker 202, an application execution environment 211, and an audio WM insertion module 212.
  • the application execution environment 211 executes an application received from the broadcast system 11 or the net distribution system 12.
  • the application since the application has a token generator function, the token (service passing parameter) generated by the application is supplied to the audio WM insertion module 212.
  • the audio WM insertion module 212 inserts (encodes), as an audio watermark, a service transfer parameter generated by an application of the application execution environment 211, to a baseband CM / program audio stream supplied from the audio decoder 201.
  • An audio speaker 202 is supplied.
  • the audio speaker 202 outputs audio corresponding to a baseband CM / program audio stream (a stream in which a service delivery parameter is inserted as an audio watermark on the receiving side) supplied from the audio WM insertion module 212.
  • the audio processing device 30D of FIG. 18 has the same configuration as the audio processing device 30C of FIG. 14, so the description thereof is omitted here.
  • the voice processing device 30D on the local side may cooperate with the server device 40 on the cloud side so that part of the processing of the voice AI assistance service is performed by the server device 40.
  • the wake word is uttered by the viewer 2 with respect to the voice processing device 30D, for example, by displaying the speech instruction message 271 as shown in FIG. 19 in the client device 20D, the viewer 2 On the other hand, it is possible to prompt the utterance of a wake word for activating the voice AI assistance service.
  • FIG. 20 is a flowchart showing a flow of processing on the transmission side executed by the server device 10D and the broadcast system 11 or the net distribution system 12.
  • FIG. 21 is a flowchart showing a flow of processing on the receiving side executed by the client device 20D and the voice processing device 30D.
  • step S 131 the CM / program bank 101 sends the CM / program stream to the broadcast system 11 or the net distribution system 12.
  • step S133 the application generator 111 generates an application based on the application generation data.
  • the application has a token generator function (function equivalent to the above-described token generator 103).
  • a part of the service delivery parameter for example, common information other than the attribute information unique to the viewer may be embedded in the hard code.
  • step S134 the application generator 111 sends the application obtained in the process of step S133 to the broadcast system 11 or the net distribution system 12.
  • the CM / program stream and the application obtained by the server device 10D are sent out by the broadcast system 11 or the net delivery system 12 according to the delivery method of the content.
  • the CM / program stream and the application distributed by the broadcast system 11 or the net distribution system 12 are received by the client device 20D in FIG.
  • the client device 20D the CM / program audio stream is input to the audio decoder 201, and the application is input to the application execution environment 211.
  • step S231 the audio decoder 201 decodes the CM / program audio stream to obtain a baseband CM / program audio stream.
  • step S233 the application execution environment 211 executes the application.
  • the application since the application has a token generator function, it can generate and obtain a service delivery parameter as a token.
  • a string (message indicating how the viewer 2 should speak to the voice AI assistance service, which is “ask, shoppingApp, my personal account number is 1234567890”. ) Is generated.
  • the application itself executed in the application execution environment 211 has viewer-specific attribute information (for example, an account number “1234567890”) that is related to the privacy of the viewer 2 Is acquired from a database (for example, a database in which information specific to the viewer is set by the initial setting menu of the client device 20), and the service delivery parameter is generated based on the information.
  • viewer-specific attribute information for example, an account number “1234567890”
  • a database for example, a database in which information specific to the viewer is set by the initial setting menu of the client device 20
  • the application displays the confirmation message 251 shown in FIG. 7 described above, the application does not insert the watermark by hand, but once the intention of the viewer 2 is confirmed, the audio is displayed. Watermark insertion processing can be performed.
  • the intention confirmation may be performed in advance, and the viewer's intention information may be stored in the initial setting database and used. Also, the audio watermark insertion process may be forcibly executed without performing the process of step S234.
  • step S232 the audio WM insertion module 212 inserts (encodes), as an audio watermark, the service handover parameter obtained in the process of step S233 into the baseband CM / program audio stream obtained in the process of step S231. .
  • the audio output volume of the audio speaker 202 is adjusted such that the volume output from the audio speaker 202 is sufficient (S235).
  • the client device 20D instructs the viewer 2 to speak a wake word (for example, "Service A") for activating the voice AI assistance service (S236).
  • a wake word for example, "Service A”
  • the speech instruction message 271 (FIG. 19), which is "If you want to purchase the item introduced in this program, just say” Service A ""
  • the audio stream of the program is displayed in the section in which the audio watermark is inserted. And the viewer 2 who confirmed this display will utter a wake word (S31).
  • step S 237 the audio speaker 202 outputs audio corresponding to the baseband CM / program audio stream (a stream obtained by inserting the service delivery parameter as an audio watermark on the receiving side) obtained in the process of step S 232.
  • CM / program audio stream is described to simplify the description, but in the client device 20D, the CM / program video stream is also decoded by the video decoder and the baseband CM / program video is An image of a CM or program corresponding to the stream is displayed on the display.
  • the wake word uttered by the viewer 2 and the sound output from the audio speaker 202 of the client device 20D are collected by the audio microphone 311 of the audio processing device 30D.
  • steps S331 to S335 as in steps S321 to S325 in FIG. 17, when the wake word uttered by the viewer 2 is recognized, the voice AI assistance service is activated, and the detection of the service delivery parameter is effective. It is determined whether or not the service delivery parameter is inserted as an audio watermark that has been converted and inserted into the audio stream from the audio microphone 311.
  • the service delivery parameter is passed to the subsequent processing as the speech recognition result (S335).
  • the speech recognition result is not passed to the subsequent processing.
  • the audio processing device 30D when a character string (message) “for example,“ ask, shoppingApp, my personal account number is 1234567890 ”is inserted in the audio stream as the service delivery parameter, this is the case. Messages are passed on to subsequent processing as speech recognition results. Therefore, for example, it is possible to avoid the situation that the viewer 2 using the audio AI assistance service can not remember the phrase because it is too long, or that the user is required to utter the content related to privacy and security. it can.
  • a character string “for example,“ ask, shoppingApp, my personal account number is 1234567890 ”
  • the server apparatus 10 on the transmission side or the client apparatus 20 on the reception side inserts a service delivery parameter as an audio watermark, and the voice processing apparatus 30 on the local side or the server apparatus on the cloud side
  • a service delivery parameter as an audio watermark
  • the voice processing apparatus 30 on the local side or the server apparatus on the cloud side By detecting this service delivery parameter at 40, even if the viewer can not make the utterance as instructed correctly or if the content includes such as uttering the utterance, accuracy and security can be obtained.
  • voice AI assistance service can be used. As a result, more practical voice AI assistance service can be provided.
  • the user may confirm the utterance of the wake word as the intention to use the audio AI assistance service to the viewer, and start obtaining the voice AI assistance service after obtaining the consent of the viewer. it can.
  • a service delivery parameter is not inserted as an audio watermark, for example, it is necessary to utter content that is too long for the viewer to speak correctly, as shown below.
  • the service delivery parameter is inserted as the audio watermark, for example, the viewer who has confirmed the speech instruction message 261 of FIG. Since it is sufficient to utter only the wake word, it is possible to utter accurately.
  • a service delivery parameter is not inserted as an audio watermark, for example, if the content of the utterance includes private information of the viewer as shown below, the viewer will hear the utterance It is also assumed.
  • the service delivery parameter is inserted as the audio watermark, for example, the viewer who confirms the speech instruction message 271 in FIG. Since it is only necessary to utter the wake word, it is not necessary to utter the viewer-specific attribute information.
  • the token is inserted into the audio stream as an audio watermark, but the audio watermark is an example, and another method may be used to embed the token.
  • the token may be embedded using fingerprint information which is a feature amount extracted from an audio stream of content such as a CM or a program.
  • Non-Patent Documents 1 and 2 The details of the audio watermark are shown in, for example, Non-Patent Documents 1 and 2 below.
  • Non-Patent Documents 1 and 2 audio watermarks in Advanced Television Systems Committee (ATSC) 3.0, which is one of the next-generation terrestrial broadcast standards, are defined.
  • ATSC Advanced Television Systems Committee
  • Non Patent Literature 1 ATSC Standard: Audio Watermark Emission (A / 334)
  • Non Patent Literature 2 ATSC Standard: Content Recovery in Redistribution Scenarios (A / 336)
  • the application is not limited to an application (an application executed on a browser) developed with a markup language such as HTML5 (HyperText Markup Language 5) or a script language such as JavaScript (registered trademark), for example, Java (registration It may be an application developed in a programming language such as a trademark).
  • a markup language such as HTML5 (HyperText Markup Language 5)
  • a script language such as JavaScript (registered trademark)
  • Java registered trademark
  • Java registered trademark
  • the application executed by the client device 20 is not limited to one obtained via broadcast, and may be obtained from a server on the Internet 50 via communication. Further, the content described above is not limited to a CM or a program, and can include any content such as music, video, electronic book, game, advertisement, and the like. Furthermore, CMs and programs may be assumed to be all or part of a service or a channel.
  • the hardware configuration of the client device 20 is not particularly described in the above description, for example, the following configuration can be employed. That is, since the client device 20 is configured as, for example, a television receiver, in addition to the audio decoder 201 and the audio speaker 202, for example, a CPU (Central Processing Unit), a memory, a tuner, a demultiplexer, a video decoder, a display, communication It can be configured to include an I / F and the like.
  • a CPU Central Processing Unit
  • the hardware configuration of the audio processing device 30 is not particularly described, for example, the following configuration can be employed. That is, since the voice processing device 30 is configured as, for example, a smart speaker, it can be configured to include, for example, a CPU, a memory, a speaker, a communication I / F, etc. in addition to the audio microphone 311.
  • the client device 20 and the voice processing device 30 are described as being configured as separate devices, a device in which the client device 20 and the voice processing device 30 are integrated (packaged device ) May be configured.
  • a device in which the client device 20 and the voice processing device 30 are integrated packetaged device
  • the function of the voice processing device 30 as a voice processing module and including it in the function of the client device 20, it can be configured as a bundled device.
  • the server device 10 the client device 20, the voice processing device 30, and the server device 40 are information processing devices.
  • the client device 20 is described as a fixed receiver such as a television receiver or a mobile receiver such as a smartphone.
  • the client device 20 may be a head mounted display (HMD). Or the like.
  • the client device 20 may be, for example, a device mounted on a car such as a car-mounted television, a set top box (STB: Set Top Box), a game machine, or the like. That is, the client device 20 may be any device as long as it can play back and record content.
  • HMD head mounted display
  • STB Set Top Box
  • game machine or the like. That is, the client device 20 may be any device as long as it can play back and record content.
  • the broadcast system of the broadcast system 11 is not particularly referred to, but as the broadcast system, for example, ATSC (especially, ATSC 3.0) which is a system adopted in the United States etc., Japan, etc. are adopted. It is possible to adopt ISDB (Integrated Services Digital Broadcasting), which is a system to be used, DVB (Digital Video Broadcasting), which is a system adopted by European countries and the like.
  • ATSC ATSC 3.0
  • DVB Digital Video Broadcasting
  • satellite broadcast using cable broadcasting satellite (BS: Broadcasting Satellite), communication satellite (CS: Communications Satellite), etc. besides cable broadcasting (CATV) Or the like may be wired broadcasting.
  • the names used herein are by way of example and in practice other names may be used. However, the difference between these names is a formal difference, not the substantial content of the subject.
  • the wake word described above may be referred to as an activation keyword, a command word, or the like.
  • FIG. 24 is a diagram showing an example of a hardware configuration of a computer that executes the series of processes described above according to a program.
  • a central processing unit (CPU) 1001, a read only memory (ROM) 1002, and a random access memory (RAM) 1003 are mutually connected by a bus 1004.
  • An input / output interface 1005 is further connected to the bus 1004.
  • An input unit 1006, an output unit 1007, a recording unit 1008, a communication unit 1009, and a drive 1010 are connected to the input / output interface 1005.
  • the input unit 1006 includes a keyboard, a mouse, a microphone and the like.
  • the output unit 1007 includes a display, a speaker, and the like.
  • the recording unit 1008 includes a hard disk, a non-volatile memory, and the like.
  • the communication unit 1009 includes a network interface or the like.
  • the drive 1010 drives a removable recording medium 1011 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 1001 loads the program stored in the ROM 1002 or the recording unit 1008 into the RAM 1003 via the input / output interface 1005 and the bus 1004, and executes the program. A series of processing is performed.
  • the program executed by the computer 1000 can be provided by being recorded on, for example, a removable recording medium 1011 as a package medium or the like. Also, the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the recording unit 1008 via the input / output interface 1005 by attaching the removable recording medium 1011 to the drive 1010. Also, the program can be received by the communication unit 1009 via a wired or wireless transmission medium and installed in the recording unit 1008. In addition, the program can be installed in advance in the ROM 1002 or the recording unit 1008.
  • the processing performed by the computer according to the program does not necessarily have to be performed chronologically in the order described as the flowchart. That is, the processing performed by the computer according to the program includes processing executed in parallel or separately (for example, parallel processing or processing by an object). Further, the program may be processed by one computer (processor) or may be distributed and processed by a plurality of computers.
  • the present technology can have the following configurations.
  • An information processing apparatus comprising: an insertion unit that inserts a token related to use of an audio AI assistance service linked to content into an audio stream of the content.
  • the token is a token for prohibiting or permitting speech recognition processing by the speech AI assistance service on an audio stream of the content.
  • the information processing apparatus according to (1), wherein the token is a parameter delivered to the voice AI assistance service.
  • It further comprises a generation unit that generates the token, The information processing apparatus according to any one of (1) to (3), wherein the insertion unit inserts the token generated by the generation unit into an audio stream of content to be distributed.
  • the information processing apparatus inserts the token as an audio watermark into an audio stream of the content distributed via broadcast or communication.
  • the system further comprises an execution unit that executes an application having a function of generating the token.
  • the information processing apparatus according to any one of (1) to (3), wherein the insertion unit inserts the token generated by the application being executed into an audio stream of content to be reproduced.
  • the insertion unit inserts, as an audio watermark, the token generated by the application distributed via broadcast or communication into the audio stream of the content distributed via broadcast or communication (6)
  • the information processing apparatus according to claim 1.
  • the information processing apparatus is notified in advance to a side that detects the token inserted in the audio stream of the content.
  • the information processing apparatus (9) The information processing apparatus according to (3), wherein the parameter is encrypted or a signature for tampering detection is added. (10) In an information processing method of an information processing apparatus, The information processing apparatus An information processing method for inserting, into an audio stream of content, a token related to use of an audio AI assistance service linked to content. (11) An information processing apparatus comprising: a detection unit that detects, from an audio stream of content, a token related to use of an audio AI assistance service linked to the content. (12) The information processing apparatus according to (11), wherein the token is a token for inhibiting speech recognition processing by the speech AI assistance service on an audio stream of the content.
  • the information processing apparatus (13) It further comprises a voice recognition unit that performs voice recognition processing on the audio stream of the content, The information processing apparatus according to (12), wherein the detection unit invalidates the speech recognition result obtained by the speech recognition process when the token notified in advance is detected from the audio stream of the content.
  • the token is a token for permitting speech recognition processing by the speech AI assistance service on the audio stream.
  • the information processing apparatus 11), wherein the token is a parameter delivered to the voice AI assistance service.
  • the information processing apparatus wherein the detection unit passes the parameter to a subsequent process when the parameter is detected from the audio stream of the content.
  • the detection unit detects the token inserted in the audio stream of the content when the wake word of the audio AI assistance service is uttered from the viewer who views the content (16) or (17)
  • the information processing apparatus according to the above.
  • It further comprises a sound collection unit that collects the sound of the content output from another information processing apparatus that reproduces the content distributed via broadcast or communication.
  • the detection unit detects the token inserted as an audio watermark in an audio stream of the sound of the content collected by the sound collection unit according to any one of (11) to (18).
  • Information processing device (20)
  • the information processing apparatus An information processing method for detecting, from an audio stream of content, a token related to use of a voice AI assistance service linked to the content.
  • SYMBOLS 1 Content / voice AI cooperation system 10, 10A, 10B, 10C, 10D server apparatus, 11 broadcast system, 12 net delivery system, 20, 20A, 20B, 20C, 20D Client apparatus, 30, 30A, 30B, 30C, 30D Audio processing unit, 40 server units, 50 Internet, 101 CM / program bank, 102 audio decoder, 103 token generator, 104 audio WM insertion module, 105 audio encoder, 111 application generator, 201 audio decoder, 202 audio speaker, 211 application execution Environment, 212 Audio WM Insertion Module, 301 Sound Collection Module, 302 Audio O WM detection module, 303 speech recognition module, 311 audio microphone, 1000 computer, 1001 CPU

Abstract

本技術は、コンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させることができるようにする情報処理装置、及び情報処理方法に関する。 コンテンツに連携した音声AIアシスタンスサービスの利用に関するトークンを、コンテンツのオーディオストリームに挿入する挿入部を備える第1の情報処理装置と、コンテンツのオーディオストリームから、挿入されたトークンを検出する検出部を備える第2の情報処理装置が提供されることで、コンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させることができる。本技術は、例えば、音声AIアシスタンスサービスと連携したシステムに適用することができる。

Description

情報処理装置、及び情報処理方法
 本技術は、情報処理装置、及び情報処理方法に関し、特に、コンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させることができるようにした情報処理装置、及び情報処理方法に関する。
 近年、音声AIアシスタンスサービスが急速に普及している。例えば、音声AIアシスタンスサービスを利用することで、エンドユーザが、「ここどこですか?」と質問したとき、エンドユーザの現在位置に基づき、「セントラルパークにいます。」という回答が返ってくる(例えば、特許文献1参照)。
特開2016-4270号公報
 ところで、テレビ受像機やモバイル受信機などの受信機で再生されるコンテンツに連携して、音声AIアシスタンスサービスを利用したいという要求がある。しかしながら、そのような技術方式は確立されておらず、コンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させるための技術が求められていた。
 本技術はこのような状況に鑑みてなされたものであり、コンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させることができるようにするものである。
 本技術の第1の側面の情報処理装置は、コンテンツに連携した音声AIアシスタンスサービスの利用に関するトークンを、前記コンテンツのオーディオストリームに挿入する挿入部を備える情報処理装置である。
 本技術の第1の側面の情報処理装置は、独立した装置であってもよいし、1つの装置を構成している内部ブロックであってもよい。また、本技術の第1の側面の情報処理方法は、上述した本技術の第1の側面の情報処理装置に対応する情報処理方法である。
 本技術の第1の側面の本技術の一側面の情報処理装置、及び情報処理方法においては、コンテンツに連携した音声AIアシスタンスサービスの利用に関するトークンが、前記コンテンツのオーディオストリームに挿入される。
 本技術の第2の側面の情報処理装置は、コンテンツのオーディオストリームから、前記コンテンツに連携した音声AIアシスタンスサービスの利用に関するトークンを検出する検出部を備える情報処理装置である。
 本技術の第2の側面の情報処理装置は、独立した装置であってもよいし、1つの装置を構成している内部ブロックであってもよい。また、本技術の第2の側面の情報処理方法は、上述した本技術の第2の側面の情報処理装置に対応する情報処理方法である。
 本技術の第2の側面の本技術の一側面の情報処理装置、及び情報処理方法においては、コンテンツのオーディオストリームから、前記コンテンツに連携した音声AIアシスタンスサービスの利用に関するトークンが検出される。
 本技術の第1の側面及び第2の側面によれば、コンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させることができる。
 なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術を適用したコンテンツ・音声AI連携システムの構成例を示すブロック図である。 ベースバンドストリームに、オーディオウォータマークとして埋め込まれる音声認識処理禁止トークンの例を示す図である。 第1の実施の形態のコンテンツ・音声AI連携システムの構成の第1の例を示すブロック図である。 ウォータマークの挿入を送信側で行う場合のコンテンツ・音声AI連携処理の流れを説明するフローチャートである。 ウォータマークの挿入を送信側で行う場合のコンテンツ・音声AI連携処理の流れを説明するフローチャートである。 視聴者発話に応じた音声AI処理の流れを説明するフローチャートである。 音声AIアシスタンスサービスの利用の確認メッセージの例を示す図である。 第1の実施の形態のコンテンツ・音声AI連携システムの構成の第2の例を示すブロック図である。 ウォータマークの挿入を受信側で行う場合のCM/番組・音声AI連携の流れを説明するフローチャートである。 ウォータマークの挿入を受信側で行う場合のCM/番組・音声AI連携の流れを説明するフローチャートである。 ベースバンドのオーディオストリームに、オーディオウォータマークとして埋め込まれるサービス引き渡しパラメタの例を示す図である。 Message要素に格納されるメッセージの例を示す図である。 Message要素に格納されるメッセージに対し、XML署名を適用した場合の例を示す図である。 第2の実施の形態のコンテンツ・音声AI連携システムの構成の第1の例を示すブロック図である。 ウェイクワードの発話を促す発話指示メッセージの例を示す図である。 ウォータマークの挿入を送信側で行う場合のコンテンツ・音声AI連携処理の流れを説明するフローチャートである。 ウォータマークの挿入を送信側で行う場合のコンテンツ・音声AI連携処理の流れを説明するフローチャートである。 第2の実施の形態のコンテンツ・音声AI連携システムの構成の第2の例を示すブロック図である。 ウェイクワードの発話を促す発話指示メッセージの例を示す図である。 ウォータマークの挿入を受信側で行う場合のCM/番組・音声AI連携の流れを説明するフローチャートである。 ウォータマークの挿入を受信側で行う場合のCM/番組・音声AI連携の流れを説明するフローチャートである。 ウォータマークを挿入しないと仮定した場合の発話指示メッセージの例を示す図である。 ウォータマークを挿入しないと仮定した場合の発話指示メッセージの例を示す図である。 コンピュータの構成例を示す図である。
 以下、図面を参照しながら本技術の実施の形態について説明する。なお、説明は以下の順序で行うものとする。
1.システムの構成
2.本技術の実施の形態
(1)第1の実施の形態:WMによる音声AIアシスタンス認識対象選別
 (A)ウォータマークの挿入を送信側で行う構成
 (B)ウォータマークの挿入を受信側で行う構成
(2)第2の実施の形態:WMによる音声AIアシスタンスへの発話補完
 (C)ウォータマークの挿入を送信側で行う構成
 (D)ウォータマークの挿入を受信側で行う構成
3.変形例
4.コンピュータの構成
<1.システムの構成>
 近年、音声AIアシスタンスサービスが急速に普及している。この種のサービスでは、音声検出や収音機能を有するデバイス(例えば、スマートスピーカ等)や、マイク機能を有するモバイルデバイス(例えば、スマートフォンやタブレット型のコンピュータ等)により実行されるアプリケーションで検出又は収音したオーディオデータに基づいた音声認識が行われる。そして、このようにして得られる音声認識に基づき、エンドユーザの質問などに返答したりすることになる。
 例えば、代表的な音声AIアシスタンスサービスである、Amazon Echo(登録商標)に搭載されているAlexa(登録商標)には、2つのフレームワークがあり、1つが、音声認識や自然言語解析等を行うAlexa Voice Service(AVS)で、もう1つが、様々な別の機能をスキル(Skill)という形で、パッケージングして、Alexa Serviceと繋げるAlexa Skills Kit(ASK)である。
 ここで、Alexa Skills Kitは、例えば、どのような音声に反応するのか、どのような単語をパラメタにしてどの機能を実行するのか、あるいは、返ってきた答えをどのように、Alexaに戻すのかなどを定義したパッケージやAPI(Application Programming Interface)群であって、そのうち、実際に実行される部分を、スキル(Skill)と呼ぶ。
 例えば、スマートスピーカ等の音声検出や収音機能を有するローカル側のデバイスに向けて、エンドユーザが、以下のような言葉を投げかけた場合を想定する。
 「Alexa, ask Anime Facts for a fact」
 最初の「Alexa」である単語は、ウェイクワード(Wake Word)と呼ばれ、ローカル側のデバイスのマイクロフォンがこの言葉を検出すると、クラウド側のサーバと通信を開始し、以降の言葉が、オーディオデータとして、クラウド側のサーバに送られる。次の「ask」である単語は、起動フレーズ(Launchフレーズ)と呼ばれ、この次にくる単語が、スキル名であることを、クラウド側のサーバに伝えるものである。この例では、「Anime Facts」がスキル名とされる。
 なお、起動フレーズは、「ask」以外にも、例えば、「tell」や「launch」,「load」,「begin」,「open」,「start」等があり、これらの単語を、スキル名に使うことはできない。この他に、接続詞を用いてスキル名を示す方法もある。例えば、上述の例で言えば、「Alexa, can you give me a fact from Anime Facts」と呼びかけた場合も、「from」である単語を認識することで、その後ろの「Anime Facts」が、スキル名であると判断することができる。
 最後の「for a fact」は、Utteranceと言われ、Alexa Skills Kitによって、Utteranceと実際に実行される処理や手続、関数の対応関係が設定される。つまり、ここで、「for a fact」と言うことによって、「for a fact」というUtteranceが、どの処理や手続、関数と結び付くのかを、クラウド側のサーバが判断する。
 「ask Anime Facts for a fact」は、「アニメの豆知識的なものを教えてほしい」という意味なので、「fact」が、「trivia」等でも、同じ意味であると解釈して、クラウド側のサーバは、「for a fact」というUtteranceが設定されているところと同じ処理や続き、関数を起動する。この処理の内容として、例えば、アニメの豆知識の内容をオーディオデータとして、ローカル側のデバイスに返すようにしておくことで、ローカル側のデバイスを介して、エンドユーザに、その内容を音声で伝えることができる。
 本技術は、このような音声AIアシスタンスサービスを、CMや番組等のコンテンツに連動して利用するに際して、音声AIアシスタンスサービスの利便性を向上させることができるようにするものである。
(コンテンツ・音声AI連携システムの構成例)
 図1は、本技術を適用したコンテンツ・音声AI連携システムの構成例を示すブロック図である。
 図1のコンテンツ・音声AI連携システム1は、コンテンツを配信するためのシステムであって、配信されたコンテンツと連携して音声AIアシスタンスサービスを利用することが可能である。
 図1において、コンテンツ・音声AI連携システム1は、サーバ装置10、放送システム11、ネット配信システム12、クライアント装置20、音声処理装置30、及びサーバ装置40から構成される。また、図1において、視聴者宅に設置されるクライアント装置20と音声処理装置30は、インターネット50を介して、ネット配信システム12や、データセンタ等に設置されるサーバ装置40と接続可能であって、各種のデータをやり取りすることができる。
 サーバ装置10は、配信対象のコンテンツを蓄積している。ここで、配信対象のコンテンツは、例えば、CMや番組等のコンテンツである。なお、番組には、例えば、ドラマやニュース、ショッピングチャンネル、アニメ、スポーツ等の番組を含む。
 サーバ装置10は、配信対象のコンテンツのストリームを処理し、コンテンツの配信方式に応じて、放送システム11又はネット配信システム12に供給する。
 放送システム11は、1又は複数の放送サーバ等から構成される。放送システム11は、サーバ装置10から供給されるコンテンツに対して、所定の放送方式に応じた処理(例えば変調処理等)を施し、その結果得られるデータを、放送波として、送信所に設けられたアンテナから送出する。
 ネット配信システム12は、1又は複数の通信サーバ等から構成される。ネット配信システム12は、サーバ装置10から供給されるコンテンツに対して、所定の通信方式に応じた処理を施し、その結果得られるデータ(パケット)を、インターネット50を介して配信(ストリーミング配信)する。
 クライアント装置20は、例えば、テレビ受像機やパーソナルコンピュータなどの固定受信機、あるいはスマートフォンや携帯電話機、タブレット型コンピュータなどのモバイル受信機として構成される。
 クライアント装置20は、放送システム11から送信されてくる放送波を受信して処理することで、コンテンツを再生し、CMや番組等の映像と音声を出力する。また、クライアント装置20は、インターネット50を介してネット配信システム12から配信されるデータを受信して処理することで、コンテンツを再生し、CMや番組等の映像と音声を出力する。
 音声処理装置30は、例えば、家庭内LAN(Local Area Network)等のネットワークに接続可能なスピーカであって、スマートスピーカやホームエージェントなどとも称される。この種のスピーカは、音楽の再生のほか、例えば、音声AIアシスタンスサービスのユーザインターフェースとして機能したり、あるいは、照明器具や空調設備などの機器に対する音声操作を行ったりすることができる。
 音声処理装置30は、単独で、又はクラウド側のサーバ装置40と連携することで、エンドユーザ(コンテンツの視聴者)に対し、音声AIアシスタンスサービスを提供することができる。
 ここで、音声AIアシスタンスサービスとは、例えば、音声認識処理や自然言語解析処理等の処理を組み合わせて、エンドユーザの問いかけや要求に対し、適切に回答したり、動作したりする機能やサービスのことをいう。
 この音声AIアシスタンスサービスを提供するための機能としては、例えば、収音モジュールや音声認識モジュールなどがあるが、それらの機能のすべてが、ローカル側の音声処理装置30に実装されるようにしてもよいし、それらの機能の一部が、クラウド側のサーバ装置40に実装されるようにしてもよい。
 サーバ装置40は、データセンタ等に設置され、音声AIアシスタンスサービスを提供するための機能や、各種のデータベースなどを有している。サーバ装置40は、音声処理装置30からの要求に応じて、音声AIアシスタンスサービスに関する処理を行い、その処理結果を、インターネット50を介して、音声処理装置30に返答する。
 コンテンツ・音声AI連携システム1は、以上のように構成される。
 なお、図1のコンテンツ・音声AI連携システム1においては、視聴者宅で、1台のクライアント装置20(例えばテレビ受像機)と、1台の音声処理装置30(例えば、スマートスピーカ)とが設置される場合を図示しているが、例えば、視聴者宅ごとに、クライアント装置20と音声処理装置30をそれぞれ設置することができる。また、視聴者宅において、クライアント装置20と音声処理装置30は、同一の部屋に設置されることが想定されるが、異なる部屋に設置してもよい。
 また、図1のコンテンツ・音声AI連携システム1においては、1台のサーバ装置10と、1台のサーバ装置40とが設けられた場合を図示しているが、これらのサーバ装置は、例えば機能や事業者ごとに、複数台設けるようにしてもよい。
 なお、以下の説明では、送信側(放送局側)に設けられるサーバ装置10に対し、クライアント装置20は、受信側(視聴者側)に設けられるとして説明する。また、クラウド側に設けられるサーバ装置40に対し、音声処理装置30は、ローカル側に設けられるとして説明する。
<2.本技術の実施の形態>
(1)第1の実施の形態
 例えば、テレビ受像機等のクライアント装置20で再生される、XYZであるハンバーガーチェーン店のCM等で、そのCMの内容、例えば、"XYZバーガー"のCMを補完するような「Service A, ask Hamburger restaurant XYZ "What's XYZ Burger"」である音声メッセージを、CMの音声の中で、故意に流して、音声AIアシスタンスサービスに、この質問に強制的に返答させるという使い方をする場合を想定する。
 なお、ここでは、CMの音声に限らず、例えば、CMに関連付けられて放送提供されるアプリケーション等によって行われる場合も含まれる。また、ここでの「故意」とは、視聴者の同意がないことを意味する。
 このような使い方としては、例えば、次のような意図(事故的なものも含む)が想定される。
 すなわち、第1に、CMの内容では伝えきれない情報を、音声AIアシスタンスサービス経由で伝えるためであったり、第2に、視聴者に対し、その視聴者が後でそのCMで流された商品の内容を、音声AIアシスタンスサービス経由で知りたいと思うときに、音声AIアシスタンスサービスに対してどのように発話(質問)したらよいのかを知らせるためであったりする。なお、前者のCMの内容は、何らかのオーソリティや検閲機関等によって、オーソライズされた内容とされる。
 さらに、第3に、音声AIアシスタンスサービス側で管理しているかもしれない視聴者のプロファイル情報(嗜好情報)に、このCMの内容に関心があると記憶させるためであったり、第4に、悪意のある放送番組やアプリケーションが、その放送の同期型一斉同報配信特性を利用した音声AIアシスタンスサービスへのDoS攻撃(Denial of Service attack)のためであったりなど、様々な意図が想定される。
 ただし、このCMの音声と、音声AIアシスタンスサービスとのやりとりは、視聴者の合意なしに行われるため、視聴者にとってはそこまで詳しく知りたくもない情報を、音声AIアシスタンスサービスが解説するのは、余計なお世話となる可能性がある(可能性が高い)。また、勝手に視聴者のプロファイル情報に、このCMの内容に関心があると記憶されるのも、視聴者にとっては迷惑になる可能性がある(可能性が高い)。
 このような視聴者不在の音声AIアシスタンスサービス連携(いわば、ただ乗り)が頻繁に行われるのを防ぐために、音声AIアシスタンスサービス側としては、エンドユーザが発話した質問の内容だけに反応するように制限したい場合がある。
 このような場合の対処方法としては、例えば、エンドユーザの音声モデルを事前に登録して会話の発話ユーザを特定する(認識対象音声ユーザの質問を特定する)という方法があるが、そういった発話者特定機能のない音声AIアシスタンスサービスでは、CMの音声を認識しても、その質問に反応しないようにするため、反応してはいけない質問のリストを、ブラックリスト(例えばテキスト文字列のリスト)として管理するという方法をとることが考えられる。
 例えば、上述した例でいえば、「Service A, ask Hamburger restaurant XYZ "What's XYZ Burger"」である質問が検出されても、対応処理をしないようにするために、当該質問を含むブラックリストを管理することになる。
 ただし、この方法であると、管理対象のブラックリストが膨大になる可能性があり、そのブラックリストを、ある期間内又は未来永劫にわたって保持し、すべての質問に対して即座にマッチング評価(例えば、リアルタイムのデータベース検索等)しなければならず、現実的ではない。なお、ここでのブラックリストの保持期間は、例えば、エンドユーザから質問が投げられる可能性がある期間を意味する。
 同様に、反応しても構わない質問のリストを、ホワイトリスト(例えばテキスト文字列のリスト)として管理するという方法をとることも想定されるが、この場合にも、ホワイトリストが膨大になる可能性があり、非現実的である。
 なお、上述の会話の発話ユーザを特定する方法は、例えば、音声AIアシスタンスサービスの他の代表例であるGoogle Home(登録商標)で実装されている。
 本技術では、第1の実施の形態として、コンテンツに連携した音声AIアシスタンスサービスによる音声認識処理を禁止又は許可するためのトークンを、オーディオウォータマークとして、コンテンツのオーディオストリームに挿入することを提案する。
 すなわち、第1の実施の形態では、音声AIアシスタンスサービスの収音デバイスとして、ローカル側に設けられる音声処理装置30、又は収音されたオーディオストリームを解析するクラウド側に設けられるサーバ装置40に、ウォータマーク検出機能を実装する。
 これによって、あるトークン(音声認識処理禁止トークン)が、オーディオウォータマークとして、収音された音声に含まれる場合には、そのオーディオストリームの音声認識結果に基づいた後続の処理を継続することができないもの、とみなすようにする。
 なお、オーディオウォータマークには、様々な方式があるが、必要十分なトークンが対象のオーディオストリームに重畳できるものであれば、方式を問わない。
(音声認識処理禁止トークンの例)
 図2は、ベースバンドのオーディオストリームに、オーディオウォータマークとして埋め込まれる音声認識処理禁止トークンの例を示す図である。
 例えば、あるCMや番組(又はその一部)のオーディオストリームの中に、音声AIアシスタンスサービスの音声認識処理を行った後に正当な音声認識結果として後続の処理に渡してはならない音声が含まれている場合を想定する。
 この場合に、送信側(放送局側)のサーバ装置10では、すべてのオーディオストリームをデコードして、ベースバンドのオーディオストリームとし、オーディオWM挿入モジュールによって、トークンジェネレータにより生成されたトークン(音声認識処理禁止トークン)を、オーディオウォータマークとして、そのベースバンドのオーディオストリームに挿入する。
 なお、オーディオウォータマークとして挿入される音声認識処理禁止トークンは、送信側のサーバ装置10に限らず、受信側のクライアント装置20にて挿入することも可能となるため、以下、オーディオウォータマークの挿入を、送信側で行う構成と、受信側で行う構成について、それぞれ説明する。
(A)ウォータマークの挿入を送信側で行う構成
(システム構成例)
 図3は、第1の実施の形態のコンテンツ・音声AI連携システム1の構成の第1の例を示すブロック図である。
 図3のコンテンツ・音声AI連携システム1は、サーバ装置10A、クライアント装置20A、及び音声処理装置30Aを含んで構成される。
 なお、以下の説明では、CMや番組等のコンテンツを構成するコンポーネントのうち、オーディオストリームに対する処理を中心に説明するが、サーバ装置10Aやクライアント装置20A等では、ビデオストリームに対する処理も行われている。
 図3において、サーバ装置10Aは、CM/番組バンク101、オーディオデコーダ102、トークンジェネレータ103、オーディオWM挿入モジュール104、及びオーディオエンコーダ105を含んで構成される。
 CM/番組バンク101は、CMや番組等の多数のコンテンツを蓄積している。CM/番組バンク101は、配信対象のCM又は番組のストリーム(以下、CM/番組ストリームと記述する)のうち、CM又は番組のオーディオストリーム(以下、CM/番組オーディオストリームと記述する)を、オーディオデコーダ102に供給する。
 なお、このCM/番組オーディオストリームから得られる音声には、音声認識処理が禁止されるべき音声が含まれている可能性があるものとする。
 オーディオデコーダ102は、CM/番組バンク101から供給されるCM/番組オーディオストリームをデコードし、そのデコードの結果得られるベースバンドのCM/番組オーディオストリームを、オーディオWM挿入モジュール104に供給する。
 トークンジェネレータ103は、トークン生成用データに基づいて、音声認識処理禁止トークンを生成し、オーディオWM挿入モジュール104に供給する。また、音声認識処理禁止トークンは、音声処理装置30AのオーディオWM検出モジュール302に対して通知される。
 ここで、トークン生成用データは、例えば、XYZであるハンバーガーチェーン店のCMの中で、特定の音声が流れても、その質問に反応しないようするためのトークンなどを生成するためのデータであって、例えば、放送局や音声AIアシスタンスサービスのエンティティ、その他の事業者の決定に応じたものなどとされる。
 また、音声認識処理禁止トークンの通知方法であるが、インターネット50を介して、通信経由で通知するほか、例えば、放送経由で通知したり、あるいは、半導体メモリや光ディスクなどの記録媒体に音声認識処理禁止トークンを記録して提供することで、音声処理装置30Aに読み込ませたりするなど、様々な方法を採用することができる。
 要は、トークンジェネレータ103により生成された音声認識処理禁止トークンが、音声処理装置30AのオーディオWM検出モジュール302に対して通知されればよいのであって、その通知の方法は、任意である。
 オーディオWM挿入モジュール104は、オーディオデコーダ102から供給されるベースバンドのCM/番組オーディオストリームに対し、トークンジェネレータ103から供給される音声認識処理禁止トークンを、オーディオウォータマークとして挿入(エンコード)し、オーディオエンコーダ105に供給する。
 オーディオエンコーダ105は、オーディオWM挿入モジュール104から供給されるベースバンドのCM/番組オーディオストリーム(送信側にて音声認識処理禁止トークンをオーディオウォータマークとして挿入したストリーム)をエンコードする。
 そして、サーバ装置10Aは、オーディオエンコーダ105によるエンコードの結果得られるCM/番組オーディオストリームを、コンテンツの配信方式に応じて、放送システム11又はネット配信システム12に送出する。
 放送システム11は、サーバ装置10Aから送出されたCM/番組ストリーム(送信側にて音声認識処理禁止トークンをオーディオウォータマークとして挿入したストリーム)を処理し、その処理の結果得られるデータを、放送波として送出する。
 ネット配信システム12は、サーバ装置10Aから送出されたCM/番組ストリーム(送信側にて音声認識処理禁止トークンをオーディオウォータマークとして挿入したストリーム)を処理し、その処理の結果得られるデータ(パケット)を、インターネット50を介して配信する。
 クライアント装置20Aは、放送システム11又はネット配信システム12によって配信されたCM/番組ストリームを受信する。図3において、クライアント装置20Aは、オーディオデコーダ201、及びオーディオスピーカ202を含んで構成される。
 オーディオデコーダ201は、放送システム11又はネット配信システム12から受信したCM/番組オーディオストリームをデコードし、その結果得られるベースバンドのCM/番組オーディオストリームを、オーディオスピーカ202に供給する。
 オーディオスピーカ202は、オーディオデコーダ201から供給されるベースバンドのCM/番組オーディオストリームに応じた音声を出力する。
 なお、ここでは、CM/番組オーディオストリームについてのみ述べているが、クライアント装置20Aでは、CM/番組ビデオストリームについても、ビデオデコーダによってデコードされ、ベースバンドのCM/番組ビデオストリームに応じたCMや番組の映像が、ディスプレイに表示される。
 図3において、音声処理装置30Aは、音声AIアシスタンスサービスの機能として、収音モジュール301、オーディオWM検出モジュール302、音声認識モジュール303とを含んでいる。また、収音モジュール301は、オーディオマイク311を含んでいる。
 すなわち、音声処理装置30Aにおいて、収音モジュール301のオーディオマイク311と、オーディオWM検出モジュール302と、音声認識モジュール303とが、クライアント装置20Aからの音声入力又は視聴者2からの音声入力に応じた系列を構成している。
 なお、上述したように、オーディオWM検出モジュール302は、サーバ装置10A(のトークンジェネレータ103)から通知される音声認識処理禁止トークンを、あらかじめ保持している。
 オーディオマイク311は、クライアント装置20Aのオーディオスピーカ202から出力された音声を収音し、その結果得られるオーディオストリームを、オーディオWM検出モジュール302及び音声認識モジュール303に供給する。
 オーディオWM検出モジュール302は、オーディオマイク311から供給されるオーディオストリームに挿入されているオーディオウォータマークの検出を行い、オーディオウォータマークとして、サーバ装置10Aから通知された音声認識処理禁止トークンが挿入されているかどうかを判定する。
 音声認識モジュール303は、オーディオマイク311から供給されるオーディオストリームに対する音声認識処理を行う。
 音声認識モジュール303は、オーディオWM検出モジュール302により、オーディオウォータマークとして、音声認識処理禁止トークンが挿入されていないと判定された場合、音声認識結果を、後続の処理を行う後続処理部に供給する。この場合、後続処理部は、音声認識モジュール303から供給される音声認識結果に基づいて、音声AIアシスタンスサービスに関する後続の処理を行う。
 また、音声認識モジュール303は、オーディオWM検出モジュール302により、オーディオウォータマークとして、音声認識処理禁止トークンが挿入されていると判定された場合、音声認識結果を、後続処理部には渡さないようにする。
 また、オーディオマイク311は、視聴者2の発話の音声を収音し、その結果得られるオーディオストリームを、オーディオWM検出モジュール302及び音声認識モジュール303に供給する。
 オーディオWM検出モジュール302は、オーディオマイク311から供給されるオーディオストリームに挿入されているオーディオウォータマークの検出を行い、オーディオウォータマークとして、サーバ装置10Aから通知された音声認識処理禁止トークンが挿入されているかどうかを判定する。
 ここで、視聴者2の発話の音声に応じたオーディオストリームには、オーディオウォータマークが挿入されることはないので、オーディオWM検出モジュール302は、常に、音声認識処理禁止トークンが挿入されていないと判定する。
 音声認識モジュール303は、オーディオマイク311から供給されるオーディオストリームに対する音声認識処理を行う。
 音声認識モジュール303は、オーディオWM検出モジュール302により、常に、音声認識処理禁止トークンが挿入されていないと判定されるため、音声認識結果を、後続の処理を行う後続処理部に供給する。そのため、常に、後続処理部は、音声認識モジュール303から供給される音声認識結果に基づいて、音声AIアシスタンスサービスに関する後続の処理を行うことになる。
 なお、図3においては、説明の都合上、ローカル側の音声処理装置30Aが、音声AIアシスタンスサービスのすべての処理を行うとしたが、音声AIアシスタンスサービスの一部の処理を、クラウド側のサーバ装置40が行うようにしてもよい。
 例えば、ローカル側の音声処理装置30Aが、収音モジュール301の機能を有し、クラウド側のサーバ装置40が、オーディオWM検出モジュール302と、音声認識モジュール303と、後続処理部の機能を有する場合には、音声処理装置30Aとサーバ装置40とが連携することで、音声AIアシスタンスサービスが実現されることになる。
 また、音声認識処理禁止トークンは、例えば、XYZであるハンバーガーチェーン店のCMの中で、特定の音声が流れても、その質問に反応しないようするためのトークンなど、基本的には1種類で十分であるが、必要に応じて数種に限定して運用するようにしてもよい。
(コンテンツ・音声AI連携処理の流れ)
 次に、図4乃至図5のフローチャートを参照して、ウォータマークの挿入を送信側で行う場合のコンテンツ・音声AI連携処理の流れを説明する。
 なお、図4は、サーバ装置10Aと、放送システム11又はネット配信システム12により実行される送信側の処理の流れを示すフローチャートである。一方で、図5は、クライアント装置20Aと音声処理装置30Aにより実行される受信側の処理の流れを示すフローチャートである。
 ステップS101において、CM/番組バンク101は、そこに蓄積されているCM/番組のストリームを送出する。ここでは、CM/番組オーディオストリームが、オーディオデコーダ102に送出される。
 ステップS102において、トークンジェネレータ103は、トークン生成用データに基づいて、音声認識処理禁止トークンを生成する。
 ここで、音声認識処理禁止トークンとしては、例えば、XYZであるハンバーガーチェーン店のCMの中で、「Service A, ask Hamburger restaurant XYZ "What's XYZ Burger"」である音声が流れても、その質問に反応しないようするためのトークンなどが生成される。また、音声認識処理禁止トークンは、音声処理装置30のオーディオWM検出モジュール302に対し、通信経由などで、あらかじめ通知されるようにする。
 ステップS103において、オーディオデコーダ102は、ステップS101の処理で送出されるCM/番組オーディオストリームをデコードする。このデコードの結果、ベースバンドのCM/番組オーディオストリームが得られる。
 ステップS105において、オーディオWM挿入モジュール104は、ステップS103の処理で得られるベースバンドのCM/番組オーディオストリームに対し、ステップS102の処理で得られる音声認識処理禁止トークンを、オーディオウォータマークとして挿入(エンコード)する。
 ステップS104において、オーディオエンコーダ105は、ステップS105の処理で得られる、オーディオウォータマークが挿入されたベースバンドのCM/番組オーディオストリームをエンコードする。
 なお、ここでは、説明を簡略化するため、CM/番組オーディオストリームについてのみ述べているが、サーバ装置10Aでは、必要に応じて、CM/番組ビデオストリーム等の他のストリームと多重化されて処理される。
 このようにして、サーバ装置10Aで得られるCM/番組ストリーム(送信側にて音声認識処理禁止トークンをオーディオウォータマークとして挿入したストリーム)は、コンテンツの配信方式に応じて、放送システム11又はネット配信システム12に送出される。
 すなわち、CM/番組ストリームを放送経由で配信する場合、放送システム11は、サーバ装置10Aから送出されるCM/番組ストリーム(送信側にて音声認識処理禁止トークンをオーディオウォータマークとして挿入したストリーム)を処理し、その処理の結果得られるデータを、放送波として送出する。
 また、CM/番組ストリームを通信経由で配信する場合、ネット配信システム12は、サーバ装置10Aから送出されるCM/番組ストリーム(送信側にて音声認識処理禁止トークンをオーディオウォータマークとして挿入したストリーム)を処理し、その処理の結果得られるデータを、インターネット50を介して配信する。
 このように、図4において、放送システム11又はネット配信システム12によって配信されたCM/番組ストリームは、図5において、クライアント装置20Aにより受信される。クライアント装置20Aでは、CM/番組ストリームが処理され、CM/番組オーディオストリームが、オーディオデコーダ201に入力される。
 なお、クライアント装置20Aでは、オーディオスピーカ202から出力される音量が十分なものとなるように、オーディオスピーカ202のオーディオ出力音量を調整する(S201)。ここでは、音声処理装置30Aに内蔵されたオーディオマイク311により収音可能なレベルになるように、オーディオスピーカ202を制御する。
 そのため、必要であれば、クライアント装置20Aは、視聴者2に対し、音量調整(音量アップ)の指示を行う。この指示は、例えば、オーディオスピーカ202からの音声により行ってもよいし、あるいはその旨のメッセージが画面上に提示されるようにしてもよい。
 ステップS202において、オーディオデコーダ201は、CM/番組オーディオストリームをデコードする。このデコードの結果、ベースバンドのCM/番組オーディオストリームが得られる。
 ステップS203において、オーディオスピーカ202は、ステップS202の処理で得られるベースバンドのCM/番組オーディオストリームに応じた音声を出力する。
 なお、ここでも、説明を簡略化するため、CM/番組オーディオストリームについてのみ述べているが、クライアント装置20Aでは、CM/番組ビデオストリームについても、ビデオデコーダによってデコードされ、ベースバンドのCM/番組ビデオストリームに応じたCMや番組の映像が、ディスプレイに表示される。
 クライアント装置20Aのオーディオスピーカ202から出力された音声は、音声処理装置30Aのオーディオマイク311により収音される。
 そして、オーディオマイク311により収音された音声に応じたオーディオストリームは、オーディオWM検出モジュール302及び音声認識モジュール303に供給される。なお、オーディオWM検出モジュール302には、通信経由などで、あらかじめ音声認識処理禁止トークンが、サーバ装置10Aから通知されているものとする。
 ステップS301において、オーディオWM検出モジュール302は、オーディオマイク311により収音された音声(クライアント装置20Aから出力された音声)に応じたオーディオストリームに挿入されているオーディオウォータマークを検出する。
 ステップS302において、音声認識モジュール303は、オーディオマイク311により収音された音声(クライアント装置20Aから出力された音声)に応じたオーディオストリームに対する音声認識処理を行う。
 ステップS301,S302の処理が終了すると、処理は、ステップS303に進められる。ステップS303において、オーディオWM検出モジュール302は、ステップS301の処理で得られる検出結果に基づいて、オーディオストリームに挿入されているオーディオウォータマークとして、サーバ装置10Aから通知されている音声認識処理禁止トークンが挿入されているかどうかを判定する。
 ステップS303において、オーディオウォータマークとして、音声認識処理禁止トークンが挿入されていないと判定された場合、処理は、ステップS304の処理に進められる。ステップS304において、音声認識モジュール303は、ステップS303の処理の判定結果に従い、ステップS302の処理で得られる音声認識結果を、後続の処理に渡すようにする。
 一方で、ステップS303において、オーディオウォータマークとして、音声認識処理禁止トークンが挿入されていると判定された場合、ステップS304の処理は、スキップされる。すなわち、この場合には、オーディオストリームの音声認識結果を無効であるとみなして、音声認識結果を後続の処理に渡さないようにする(音声認識結果を破棄する)。
 このように、音声処理装置30Aでは、オーディオストリームに、音声認識処理禁止トークンが挿入されている場合には、当該オーディオストリームの音声認識結果が無効とされるため、例えば、XYZであるハンバーガーチェーン店のCMの中で、「Service A, ask Hamburger restaurant XYZ "What's XYZ Burger"」である音声が流れても、音声認識処理禁止トークンとして管理しておけば、音声AIアシスタンスサービスで、CMの音声を認識しても、その質問に反応しないようにすることができる。
 以上、ウォータマークの挿入を送信側で行う場合のコンテンツ・音声AI連携処理の流れについて説明した。
(視聴者発話に応じた音声AI処理の流れ)
 次に、図6のフローチャートを参照して、視聴者発話に応じた音声AI処理の流れを説明する。
 視聴者2が発話を行う(S11)と、音声処理装置30Aでは、次のような処理が行われる。すなわち、視聴者2の発話の音声は、音声処理装置30Aのオーディオマイク311により収音される。
 そして、オーディオマイク311により収音された音声(視聴者2が発話の音声)に応じたオーディオストリームは、オーディオWM検出モジュール302及び音声認識モジュール303に供給される。なお、オーディオWM検出モジュール302には、あらかじめ音声認識処理禁止トークンが、サーバ装置10Aから通知されているものとする。
 ステップS306において、オーディオWM検出モジュール302は、オーディオマイク311により収音された音声に応じたオーディオストリームに対し、オーディオウォータマークの検出を行う。
 しかしながら、視聴者2の発話の音声に応じたオーディオストリームには、オーディオウォータマークが挿入されていないので、オーディオWM検出モジュール302は、音声認識処理禁止トークンを検出することはできない。
 ステップS307において、音声認識モジュール303は、オーディオマイク311により収音された音声に応じたオーディオストリームに対する音声認識処理を行う。
 ステップS306,S307の処理が終了すると、処理は、ステップS308に進められる。ステップS308において、音声認識モジュール303は、オーディオストリームには常に、音声認識処理禁止トークンが挿入されていないので、オーディオストリームの音声認識結果を有効であるとみなして、後続の処理に渡すようにする。
 このように、視聴者2が発話した場合には、音声認識処理禁止トークンが検出されることはないので、音声認識モジュール303による音声認識結果は有効になって、常に、後続の処理が行われることになる。以上、視聴者発話に応じた音声AI処理の流れについて説明した。
 なお、上述したウォータマークの挿入を送信側で行う構成において、トークンのバリエーションとしては、強制的に、音声認識結果の処理プロセスを無効にするばかりでなく、例えば、一度、視聴者2の意向を打診するようなトークンとすることもできる。すなわち、ここでは、トークンを2種類用意して、1つは強制的に、音声認識結果の処理プロセスを無効とするトークンであるものとし、もう1つは、音声認識結果の処理プロセスを無効とする直前に、処理プロセスにかけてもよいかについて、視聴者2に打診させるトークンである。
 そして、音声AIアシスタンスサービスのオーディオWM検出モジュール302において、後者のトークンが検出された場合には、例えば、「このCMの音声による音声AIアシスタンスサービスの勝手利用を許可してもいいですか」のような確認メッセージを音声によって、音声処理装置30Aから出力することで、視聴者2の意向を確認する。
 この確認メッセージに対して、視聴者2が、「はい」と発話した場合には、音声認識結果の処理プロセスを有効であるとして、音声認識結果を後続の処理に渡すようにする。一方で、視聴者2が、「いいえ」と発話した場合には、音声認識結果の処理プロセスを無効であるとして、音声認識結果を後続の処理に渡さないようにする。
(B)ウォータマークの挿入を受信側で行う構成
 上述した説明では、ウォータマークを挿入する処理を送信側(放送局側)のサーバ装置10で行う場合を説明したが、受信側のクライアント装置20(例えばテレビ受像機)で行うようにしてもよい。ウォータマークを挿入する処理を受信側のクライアント装置20で行う場合には、例えば、放送付随の放送アプリケーション等のアプリケーションを実行することで、実現することができる。
 ここで、送信側のサーバ装置10で、ウォータマークを挿入する処理を行う場合には、すべての視聴者に対して、同一の音声(例えばCMや番組の音声)が送られるため、視聴者個別の意向を酌んだ制御を行うことはできないが、受信側のクライアント装置20で、アプリケーションを実行して、ウォータマークを挿入する処理を行うという構成をとることにより、例えば、次のようなことが実現可能とされる。
 すなわち、音声AIアシスタンスサービスの音声認識結果の処理プロセスの継続可否に、視聴者の意向を反映させて、パーソナライズすることができる。ここで、視聴者の意向は、例えば、図7に示すような確認メッセージを表示させることで確認することができる。
 図7においては、確認メッセージ251として、「このCMの音声による音声AIアシスタンスサービスの勝手利用を許可してもいいですか?」が表示されている。この確認メッセージ251に対し、視聴者は、勝手利用を許可してもいい場合には、「OKボタン」を操作することで、オーディオウォータマークを挿入する処理は行われないことになる。一方で、視聴者は、勝手利用を許可しない場合には、「NGボタン」を操作することで、オーディオウォータマークを挿入する処理が行われることになる。
 以下、ウォータマークの挿入を受信側のクライアント装置20で行う場合の構成と処理の流れを示す。
(システム構成例)
 図8は、第1の実施の形態のコンテンツ・音声AI連携システム1の構成の第2の例を示すブロック図である。
 図8のコンテンツ・音声AI連携システム1は、サーバ装置10B、クライアント装置20B、及び音声処理装置30Bを含んで構成される。
 なお、図8のコンテンツ・音声AI連携システム1の構成において、上述した図3のコンテンツ・音声AI連携システム1の構成と対応する部分については、同一の符号を付してあり、その説明は繰り返しになるため、適宜省略するものとする。
 図8において、サーバ装置10Bは、CM/番組バンク101、トークンジェネレータ103、及びアプリケーションジェネレータ111を含んで構成される。
 すなわち、図8のサーバ装置10Bは、図3のサーバ装置10Aと比べて、オーディオデコーダ102、オーディオWM挿入モジュール104、及びオーディオエンコーダ105の代わりに、アプリケーションジェネレータ111が新たに設けられている。
 アプリケーションジェネレータ111は、アプリ生成用データに基づいて、アプリケーションを生成する。また、アプリケーションジェネレータ111は、アプリケーションを生成する際に、トークンジェネレータ103により生成された音声認識処理禁止トークンを、ハードコードで埋め込むようにする。
 そして、サーバ装置10Bは、アプリケーションジェネレータ111により生成されるアプリケーションを、アプリケーションの配信方式に応じて、放送システム11又はネット配信システム12に送出する。
 放送システム11は、サーバ装置10Bから送出されたCM/番組ストリーム、及びアプリケーションの少なくとも一方のデータを、放送波として送出する。また、ネット配信システム12は、サーバ装置10Bから送出されたCM/番組ストリーム、及びアプリケーションの少なくとも一方のデータを、インターネット50を介して配信する。
 クライアント装置20Bは、放送システム11又はネット配信システム12によって配信されたCM/番組ストリームとアプリケーションを受信する。図8において、クライアント装置20Bは、オーディオデコーダ201、オーディオスピーカ202、アプリケーション実行環境211、及びオーディオWM挿入モジュール212を含んで構成される。
 すなわち、図8のクライアント装置20Bは、図3のクライアント装置20Aと比べて、アプリケーション実行環境211とオーディオWM挿入モジュール212が新たに設けられている。
 アプリケーション実行環境211は、放送システム11又はネット配信システム12から受信したアプリケーションを実行する。ここで、アプリケーションには、音声認識処理禁止トークンがハードコードで埋め込まれているため、アプリケーション実行環境211は、音声認識処理禁止トークンを取得し、オーディオWM挿入モジュール212に供給する。
 オーディオWM挿入モジュール212は、オーディオデコーダ201から供給されるベースバンドのCM/番組オーディオストリームに対し、アプリケーション実行環境211から供給される音声認識処理禁止トークンを、オーディオウォータマークとして挿入(エンコード)し、オーディオスピーカ202に供給する。
 オーディオスピーカ202は、オーディオWM挿入モジュール212から供給されるベースバンドのCM/番組オーディオストリーム(受信側にて音声認識処理禁止トークンをオーディオウォータマークとして挿入したストリーム)に応じた音声を出力する。
 なお、図8の音声処理装置30Bは、図3の音声処理装置30Aと同様の構成を有しているため、ここではその説明を省略する。ただし、ローカル側の音声処理装置30Bは、クラウド側のサーバ装置40と連携することで、音声AIアシスタンスサービスの一部の処理が、サーバ装置40により行われるようにしてもよい。
(コンテンツ・音声AI連携処理の流れ)
 次に、図9乃至図10のフローチャートを参照して、ウォータマークの挿入を受信側で行う場合のCM/番組・音声AI連携の流れを説明する。
 なお、図9は、サーバ装置10Bと、放送システム11又はネット配信システム12により実行される送信側の処理の流れを示すフローチャートである。一方で、図10は、クライアント装置20Bと音声処理装置30Bにより実行される受信側の処理の流れを示すフローチャートである。
 ステップS111において、CM/番組バンク101は、そこに蓄積されているCM/番組ストリームを、放送システム11又はネット配信システム12に送出する。なお、CM/番組オーディオストリームに応じた音声には、音声認識処理が禁止されるべき音声が含まれている。
 ステップS112において、トークンジェネレータ103は、トークン生成用データに基づいて、音声認識処理禁止トークンを生成する。
 ステップS113において、アプリケーションジェネレータ111は、アプリ生成用データに基づいて、アプリケーションを生成する。ここで、アプリケーションを生成する際には、ステップS112の処理で得られる音声認識処理禁止トークンを、ハードコードで埋め込むことができる。
 なお、ここでは、アプリケーションに対し、音声認識処理禁止トークンがハードコードで埋め込まれる場合を例示するが、例えば、受信側のクライアント装置20Bで、アプリケーションが実行される際に、インターネット50経由で、送信側のサーバ装置10B(のトークンジェネレータ103)から音声認識処理禁止トークンが取得されるようにしてもよい。
 ステップS114において、アプリケーションジェネレータ111は、ステップS113の処理で得られるアプリケーションを、放送システム11又はネット配信システム12に送出する。
 このようにして、サーバ装置10Bで得られるCM/番組ストリームと、アプリケーションは、コンテンツの配信方式に応じて、放送システム11又はネット配信システム12に送出される。
 すなわち、CM/番組ストリームとアプリケーションを放送経由で配信する場合、放送システム11は、サーバ装置10Bから送出されるCM/番組ストリームと、アプリケーションを処理し、その処理の結果得られるデータを、放送波として送出する。
 また、CM/番組ストリームとアプリケーションを通信経由で配信する場合、ネット配信システム12は、サーバ装置10Bから送出されるCM/番組ストリームと、アプリケーションを処理し、その処理の結果得られるデータを、インターネット50を介して配信する。
 なお、CM/番組ストリームとアプリケーションは、同一の放送ストリームに多重化される場合もあれば、CM/番組ストリームを放送経由で配信するとともに、アプリケーションを通信経由で配信するようにしてもよい。この場合、受信側のクライアント装置20Bは、CM又は番組の開始直前に又は同時に、インターネット50を介してネット配信システム12にアクセスして、アプリケーションを取得することになる。
 図10において、放送システム11又はネット配信システム12によって配信されたCM/番組ストリームとアプリケーションは、クライアント装置20Bにより受信される。クライアント装置20Bでは、CM/番組ストリームが処理され、CM/番組オーディオストリームが、オーディオデコーダ201に入力される。また、アプリケーションが、アプリケーション実行環境211に入力される。
 ステップS211において、オーディオデコーダ201は、CM/番組オーディオストリームをデコードする。このデコードの結果、ベースバンドのCM/番組オーディオストリームが得られる。
 ステップS213において、アプリケーション実行環境211は、アプリケーションを実行する。ここで、アプリケーションには、音声認識処理禁止トークンがハードコードで埋め込まれているため、アプリケーション実行環境211は、音声認識処理禁止トークンを取得することができる。
 このとき、例えば、アプリケーションが、上述の図7に示した確認メッセージ251を表示することで、アプリケーションが勝手にウォータマークを挿入するのではなく、一度視聴者2の意向を確認した上で、オーディオウォータマークの挿入処理を行うことができる。
 図7の確認メッセージ251に対し、CMの音声による音声AIアシスタンスサービスの勝手利用を許可しない場合には、視聴者2により「NGボタン」が操作され、アプリケーション実行環境211は、ウォータマーク挿入指示を受け付ける(S214)。この場合には、オーディオウォータマークを挿入する処理が行われることになる。
 ここで、例えば、CMが開始する前や、番組を選局する度に、視聴者2の意向確認を行うと、視聴者2によっては煩わしいと感じる者も出てくる。そのため、逐次視聴者2の意向確認を行うのではなく、初期設定メニューなどによって、あらかじめ意向確認を行っておき、その視聴者意向情報を、アプリケーション実行環境211により実行されるアプリケーションが参照可能となる初期設定データベースに格納しておくようにしてもよい。
 このとき、初期設定メニューにおいて、例えば、「音声AIアシスタンスサービス勝手利用制限」のようなメニューを追加して、図7に示したようなダイアログを表示し、視聴者2に対して、CMの音声による音声AIアシスタンスサービスの勝手利用を確認させるというようにしてもよい。このように、アプリケーションが、初期設定データベースを参照することで、図7に示した確認メッセージ251をその都度表示するのではなく、視聴者意向情報に基づき、ウォータマークの挿入可否制御を行うことができる。
 なお、ここでは、図7に示した確認メッセージ251を表示したり、初期設定データベースを参照して視聴者意向情報を利用したりする例を説明したが、そのほかの実装を行ってもよく、例えば、すべてのCMや番組の区間において、オーディオウォータマークが挿入されるようにしてもよい。
 ステップS212において、オーディオWM挿入モジュール212は、ステップS211の処理で得られるベースバンドのCM/番組オーディオストリームに対し、ステップS213の処理で得られる音声認識処理禁止トークンを、オーディオウォータマークとして挿入(エンコード)する。
 ここで、クライアント装置20Bでは、オーディオスピーカ202から出力される音量が十分なものとなるように、オーディオスピーカ202のオーディオ出力音量を調整する(S215)。ここでは、音声処理装置30Bに内蔵されたオーディオマイク311により収音可能なレベルになるように、オーディオスピーカ202を制御する。
 ステップS216において、オーディオスピーカ202は、ステップS212の処理で得られるベースバンドのCM/番組オーディオストリーム(受信側にて音声認識処理禁止トークンをオーディオウォータマークとして挿入したストリーム)に応じた音声を出力する。
 なお、ここでも、説明を簡略化するため、CM/番組オーディオストリームについてのみ述べているが、クライアント装置20Bでは、CM/番組ビデオストリームについても、ビデオデコーダによってデコードされ、ベースバンドのCM/番組オーディオストリームに応じたCMや番組の映像がディスプレイに表示される。
 クライアント装置20Bのオーディオスピーカ202から出力された音声は、音声処理装置30Bのオーディオマイク311により収音される。
 ステップS311乃至S314においては、図5のステップS301乃至S304と同様に、オーディオウォータマークの検出結果に基づき、オーディオストリームに挿入されているオーディオウォータマークとして、サーバ装置10Bから通知されている音声認識処理禁止トークンが挿入されているかどうかが判定される。
 そして、オーディオウォータマークとして、音声認識処理禁止トークンが挿入されていないと判定された場合には、音声認識結果が、後続の処理に渡される(S314)。一方で、オーディオウォータマークとして、音声認識処理禁止トークンが挿入されていると判定された場合には、音声認識結果が、後続の処理に渡されないようにする。
 以上、ウォータマークの挿入を受信側で行う場合のコンテンツ・音声AI連携処理の流れについて説明した。
 なお、図8の音声処理装置30Bで実行される視聴者発話に応じた音声AI処理は、上述した図6の視聴者発話に応じた音声AI処理と同様であるため、ここではその説明を省略する。
 以上、第1の実施の形態について説明した。この第1の実施の形態では、送信側のサーバ装置10又は受信側のクライアント装置20で、オーディオウォータマークとして、音声認識処理禁止トークンを挿入して、ローカル側の音声処理装置30又はクラウド側のサーバ装置40で、この音声認識処理禁止トークンが検出されるようにすることで、音声認識対象のデータの正当性を確認した上で、音声AIアシスタンスサービスを利用することができる。その結果として、より実用性の高い音声AIアシスタンスサービスを提供することができる。
 また、第1の実施の形態の構成を採用することで、音声認識処理禁止の文言を、ブラックリストとしてデータベースに展開し、音声AIアシスタンスサービスにおいて、リアルタイムに、文言の可否をチェックするというコストを避けることができる。すなわち、ブラックリストが頻繁に更新され、かつ、膨大なデータ量になるような場合には、このコストが、運用コストを圧迫する可能性があり、ひいては、音声AIアシスタンスサービスのパフォーマンスのデグレードに繋がる可能性が高くなるからである。
 さらに、視聴者の発話による音声AIアシスタンスサービスの利用命令と、テレビ受像機やモバイル受信機などのクライアント装置20を経由して出力された音声AIアシスタンスサービスの利用命令とを区別することができ、視聴者にとって、意味のない(不利益な)サービスの利用を防ぐことができる。
 また、トークンに複数の種類を用意したり、あるいは、ウォータマークを挿入する処理を受信側のクライアント装置20(例えばテレビ受像機側)で実行されるアプリケーションが行うような構成を実装したりすることで、送信側の事業者(例えば放送局や音声AIアシスタンスサービスのエンティティ)のコントロールのもとに、CMや番組から発声される、音声AIアシスタンスサービスの勝手利用の可否について、視聴者の意向を反映させることも可能となる。
 なお、上述した説明では、音声AIアシスタンスサービスの音声認識処理禁止の文言を、ブラックリストとして管理するのと同等な方法を説明したが、ここでは、音声AIアシスタンスサービスの音声認識処理禁止の文言を、ホワイトリストとして管理するのと同等な方法に応用するようにしてもよい。
 例えば、あるCMや番組の区間のみに含まれることが分かっている、すなわち、事前に、放送局側や音声AIアシスタンスサービスのエンティティ側に、その旨が告知されて双方の同意がなされている、音声AIアシスタンスサービスの音声認識処理可能な音声の音声認識結果の処理プロセスを、常に有効にするには、例えば、次のような処理が行うことで実現される。
 すなわち、送信側(放送局側)のサーバ装置10では、そのCMや番組の区間(音声認識結果の処理プロセスを常に有効とする区間)を除く、すべてのCMや番組の区間に対し、その音声のオーディオストリームをデコードして、ベースバンドのオーディオストリームとし、トークンジェネレータ103により生成された音声認識処理禁止トークンが、オーディオウォータマークとして挿入されるようにすればよい。
 また、ここでは、そのCMや番組の区間(音声認識結果の処理プロセスを常に有効とする区間)に対し、その音声のオーディオストリームをデコードして、ベースバンドのオーディオストリームとし、音声認識処理許可トークンが、オーディオウォータマークとして挿入されるようにしてもよい。つまり、この音声認識処理許可トークンは、上述した音声認識処理禁止トークンとは反対に、収音された音声に含まれる場合に、そのオーディオストリームの音声認識結果に基づいた後続の処理を継続させるためのトークンであると言える。
 このように、音声認識処理可能の文言を、ホワイトリストとしてデータベースに展開し、音声AIアシスタンスサービスにおいて、リアルタイムに、文言の可否をチェックするというコストを避けることができる。すなわち、音声認識処理可能の文言が頻繁に生成、更新されることで、ホワイトリストが頻繁に更新され、かつ、膨大なデータ量になるような場合には、このコストが、運用コストを圧迫する可能性があり、ひいては、音声AIアシスタンスサービスのパフォーマンスのデグレードに繋がる可能性が高くなるからである。
(2)第2の実施の形態
 ここで、音声AIアシスタンスサービスに対して、視聴者がどのように発話したらよいかを、CMや番組等のテレビ放送が提示するユースケースを想定する。例えば、上述のAlexa(登録商標)の例で、起動フレーズ(Launchフレーズ)と、スキル名と、Utteranceとの結合により得られる文字列が、非常に長くなってしまうような場合に、例えば、「ask, Drama Facts, for any private information on the casts of XXXDRAMA by XXXCHANNEL」のような発話を促すようなときがあるものとする。
 また、起動フレーズ等の連結文字列が非常に長くなる場合としては、例えば、「ask, shoppingApp, my personal account number is 1234567890」のような発話を促すときがあるものとする。ただし、この発話の例で、発話の全部又は一部(例えば「1234567890」の部分)は、視聴者宅のクライアント装置20(例えばテレビ受像機等)により実行されるアプリケーションが生成しているようなケースを想定する。
 このような場合に、視聴者にとっては、例えば、フレーズが長すぎて覚えきれないときとか、あるいはプライバシーやセキュリティにかかわるような内容の発話が要求されるようなサービスのときには、これらを回避するための手段が必要となる。
 さらに、プライバシーの保護のためには、トークンそのものが、音声AIアシスタンスサービスの収音モジュールに至る前に、あるいは、音声AIアシスタンスサービスの後続の処理に至る途中経路において、盗み見や改ざんされるようなことがないようにしなければならない。ここでは、勿論、プライバシーの保護にかかわらず、トークンジェネレータから、音声AIアシスタンスサービスの後続の処理に至る経路上で、メッセージそのものの秘匿が必要になる場合もある。
 本技術は、第2の実施の形態として、コンテンツに連携した音声AIアシスタンスサービスに引き渡されるパラメタを、オーディオウォータマークとして、コンテンツのオーディオストリームに挿入することを提案する。
 すなわち、第2の実施の形態では、音声AIアシスタンスサービスの収音デバイスとして、ローカル側に設けられる音声処理装置30、又は収音されたオーディオストリームを解析するクラウド側に設けられるサーバ装置40に、ウォータマーク検出機能を実装する。
 これによって、あるトークン(サービス引き渡しパラメタ)が、オーディオウォータマークとして、収音された音声に含まれる場合には、そのオーディオストリームの音声認識結果に基づいた後続の処理に、オーディオウォータマークとして検出されたトークン(サービス引き渡しパラメタ)を渡すことができるようにする。
 なお、オーディオウォータマークには、様々な方式があるが、必要十分なトークンが対象のオーディオストリームに重畳できるものであれば、方式を問わない。
(サービス引き渡しパラメタの例)
 図11は、ベースバンドのオーディオストリームに、オーディオウォータマークとして埋め込まれるサービス引き渡しパラメタの例を示す図である。
 例えば、あるCMや番組(又はその一部)において、音声AIアシスタンスサービスに対し、視聴者がどのように発話したらよいかを示す文字列、例えば、「ask, Drama Facts, for any private information on the casts of XXXDRAMA by XXXCHANNEL」を発話するような指示がなされる場合を想定する。
 この場合に、送信側(放送局側)のサーバ装置10では、CMや番組のストリームを送出する前に、対象のCMや番組のとある時間区間のオーディオストリームをデコードして、ベースバンドのオーディオストリームとする。そして、サーバ装置10は、オーディオWM挿入モジュールによって、トークンジェネレータにより生成されたトークン(サービス引き渡しパラメタ)を、オーディオウォータマークとして、そのベースバンドのオーディオストリームに挿入する。
 ここでは、トークンとして、「ask, Drama Facts, for any private information on the casts of XXXDRAMA by XXXCHANNEL」であるサービス引き渡しパラメタが生成され、オーディオウォータマークとして、ベースバンドのオーディオストリームに挿入される。なお、このサービス引き渡しパラメタの埋め込みは、複数回繰り返して、ベースバンドのオーディオストリームに挿入される。
 なお、ここでは、このオーディオウォータマークとして挿入されるトークン(引き渡しパラメタ)の内容そのものを秘匿したり、改ざんを防止したりするために、トークンの内容(メッセージ)を暗号化するか、又は改ざん検出用の署名を生成してから、オーディオウォータマークとして挿入することができる。
 例えば、図12に示すように、「ask, Drama Facts, for any private information on the casts of XXXDRAMA by XXXCHANNEL」であるトークンの内容(メッセージ)を、Message要素に格納する。そして、このMessage要素に格納されるメッセージに対し、例えば、XML暗号やXML署名などを適用することで、トークンの内容を秘匿したり、改ざんを防止したりすることができる。
 図13は、上述のMessage要素に格納されるメッセージに対し、XML署名を適用した場合の例を示している。ここで、XML署名は、XML(Extensible Markup Language)文書などの電子データに対して付けられる電子署名の一種である。
 図13の例において、ds:Reference要素の属性値であるURI=""は、Message要素全体が署名対象であることを示している。また、図13の例では、<ds:Transform Algorithm = ...enveloped-signature../>の記述によって、ds:Signature要素が、署名対象から除外される。このようなXML署名が適用されたメッセージ全体が、オーディオウォータマークとして埋め込まれることになる。
 なお、オーディオウォータマークとして挿入されるサービス引き渡しパラメタは、送信側のサーバ装置10に限らず、受信側のクライアント装置20にて挿入することも可能となるため、以下、オーディオウォータマークの挿入を、送信側で行う構成と、受信側で行う構成について、それぞれ説明する。
(C)ウォータマークの挿入を送信側で行う構成
(システム構成例)
 図14は、第2の実施の形態のコンテンツ・音声AI連携システム1の構成の第1の例を示すブロック図である。
 図14のコンテンツ・音声AI連携システム1は、サーバ装置10C、クライアント装置20C、及び音声処理装置30Cを含んで構成される。
 なお、図14のコンテンツ・音声AI連携システム1の構成において、上述した図3及び図8のコンテンツ・音声AI連携システム1の構成と対応する部分については、同一の符号を付してあり、その説明は繰り返しになるため、適宜省略するものとする。
 図14において、サーバ装置10Cは、CM/番組バンク101、オーディオデコーダ102、トークンジェネレータ103、オーディオWM挿入モジュール104、及びオーディオエンコーダ105を含んで構成される。
 トークンジェネレータ103は、トークン生成用データに基づいて、サービス引き渡しパラメタを生成し、オーディオWM挿入モジュール104に供給する。
 ここで、トークン生成用データは、例えば、「ask, Drama Facts, for any private information on the casts of XXXDRAMA by XXXCHANNEL」等のトークン(サービス引き渡しパラメタ)を生成するためのデータであって、例えば、放送局や音声AIアシスタンスサービスのエンティティ、その他の事業者の決定に応じたものなどとされる。
 オーディオWM挿入モジュール104は、オーディオデコーダ102から供給されるベースバンドのCM/番組オーディオストリームに対し、トークンジェネレータ103から供給されるサービス引き渡しパラメタを、オーディオウォータマークとして挿入(エンコード)し、オーディオエンコーダ105に供給する。
 オーディオエンコーダ105は、オーディオWM挿入モジュール104から供給されるベースバンドのCM/番組オーディオストリーム(送信側にてサービス引き渡しパラメタをオーディオウォータマークとして挿入したストリーム)をエンコードする。
 図14において、クライアント装置20Cは、図3に示したクライアント装置20Aと同様に、オーディオデコーダ201、及びオーディオスピーカ202を含んで構成される。
 また、図14において、音声処理装置30Cは、音声AIアシスタンスサービスの機能として、収音モジュール301、オーディオWM検出モジュール302、及び音声認識モジュール303を含んで構成される。また、収音モジュール301は、オーディオマイク311を含んでいる。
 オーディオマイク311は、視聴者2により発話されたウェイクワード、又はクライアント装置20のオーディオスピーカ202から出力された音声を収音する。
 収音モジュール301は、オーディオマイク311により収音された音声に基づいて、視聴者2によるウェイクワードの発話が認識された場合、音声AIアシスタンスサービスを起動して、オーディオWM検出モジュール302によるサービス引き渡しパラメタの検出を有効化する。
 オーディオWM検出モジュール302は、オーディオマイク311からのオーディオストリームに挿入されているオーディオウォータマークの検出を行い、オーディオウォータマークとして、サービス引き渡しパラメタが挿入されているかどうかを判定する。
 オーディオWM検出モジュール302は、オーディオウォータマークとして、サービス引き渡しパラメタが挿入されていると判定された場合、サービス引き渡しパラメタを、音声認識結果として、後続の処理を行う後続処理部に供給する。この場合、後続処理部は、オーディオWM検出モジュール302から供給される音声認識結果に基づいて、音声AIアシスタンスサービスに関する後続の処理を行う。
 また、オーディオWM検出モジュール302は、オーディオウォータマークとして、サービス引き渡しパラメタが挿入されていないと判定された場合、音声認識結果を、後続処理部には渡さないようにする。
 音声認識モジュール303は、オーディオマイク311から供給されるオーディオストリームに対する音声認識処理を行う。なお、図14に示した構成においては、音声認識モジュール303を必ずしも設ける必要はない。
 ここで、視聴者2によるウェイクワードの発話であるが、例えば、クライアント装置20Cにおいて、図15に示すような発話指示メッセージ261が表示されるようにすることで、視聴者2に対し、音声AIアシスタンスサービスを起動するためのウェイクワードの発話を促すことができる。
 図15においては、発話指示メッセージ261として、「もしこの番組のキャストのプライベートな情報を知りたければ、"Service A"とだけ言ってください。」が表示されている。そして、この発話指示メッセージ261を確認した視聴者2は、"Service A"であるウェイクワードを発話することになる。
 なお、図14においては、説明の都合上、ローカル側の音声処理装置30Cが、音声AIアシスタンスサービスのすべての処理を行うとしたが、音声AIアシスタンスサービスの一部の処理を、クラウド側のサーバ装置40が行うようにしてもよい。
 例えば、ローカル側の音声処理装置30Cが、収音モジュール301の機能を有し、クラウド側のサーバ装置40が、オーディオWM検出モジュール302と、音声認識モジュール303と、後続処理部の機能を有する場合には、音声処理装置30Cとサーバ装置40とが連携することで、音声AIアシスタンスサービスが実現されることになる。
 また、図14においては、トークンジェネレータ103が、サーバ装置10Cに含まれるとして説明したが、トークンジェネレータ103は、サーバ装置10C以外の他の装置が有するようにしてもよい。
(コンテンツ・音声AI連携処理の流れ)
 次に、図16乃至図17のフローチャートを参照して、ウォータマークの挿入を送信側で行う場合のコンテンツ・音声AI連携処理の流れを説明する。
 なお、図16は、サーバ装置10Cと、放送システム11又はネット配信システム12により実行される送信側の処理の流れを示すフローチャートである。一方で、図17は、クライアント装置20Cと音声処理装置30Cにより実行される受信側の処理の流れを示すフローチャートである。
 ステップS121において、CM/番組バンク101は、CM/番組ストリームを送出する。ここでは、CM/番組オーディオストリームが、オーディオデコーダ102に送出される。
 ステップS122において、トークンジェネレータ103は、トークン生成用データに基づいて、トークンとしてのサービス引き渡しパラメタを生成する。
 ここで、サービス引き渡しパラメタとしては、例えば、「ask, Drama Facts, for any private information on the casts of XXXDRAMA by XXXCHANNEL」である、音声AIアシスタンスサービスに対し、視聴者2がどのように発話したらよいかを示す文字列(メッセージ)が生成される。また、上述したように、このメッセージに対し、例えばXML署名などが適用され、トークンの内容を秘匿したり、改ざんを防止したりすることができる。
 ステップS123において、オーディオデコーダ102は、ステップS121の処理で送出されるCM/番組オーディオストリームをデコードして、ベースバンドのCM/番組オーディオストリームを得る。
 ステップS125において、オーディオWM挿入モジュール104は、ステップS123の処理で得られるベースバンドのCM/番組オーディオストリームに対し、ステップS122の処理で得られるサービス引き渡しパラメタを、オーディオウォータマークとして挿入(エンコード)する。
 ステップS124において、オーディオエンコーダ105は、ステップS125の処理で得られる、オーディオウォータマークが挿入されたベースバンドのCM/番組オーディオストリームをエンコードする。
 なお、ここでも、説明を簡略化するため、CM/番組オーディオストリームについてのみ述べているが、サーバ装置10Cでは、必要に応じて、CM/番組ビデオストリーム等の他のストリームと多重化されて処理される。
 このようにして、サーバ装置10Cで得られるCM/番組ストリーム(送信側にてサービス引き渡しパラメタをオーディオウォータマークとして挿入したストリーム)は、コンテンツの配信方式に応じて、放送システム11又はネット配信システム12によって送出される。
 そして、図16において、放送システム11又はネット配信システム12によって配信されたCM/番組ストリームは、図17において、クライアント装置20Cにより受信される。クライアント装置20Cでは、CM/番組ストリームが処理され、CM/番組オーディオストリームが、オーディオデコーダ201に入力される。
 なお、クライアント装置20Cでは、オーディオスピーカ202から出力される音量が十分なものとなるように、オーディオスピーカ202のオーディオ出力音量を調整する(S221)。
 また、このとき、クライアント装置20Cでは、視聴者2に対して、音声AIアシスタンスサービスを起動するためのウェイクワード(例えば、「Service A」)の発話指示を行う(S222)。
 ここでは、クライアント装置20Cにおいて、例えば、「もしこの番組のキャストのプライベートな情報を知りたければ、"Service A"とだけ言ってください。」である発話指示メッセージ261(図15)が、CM又は番組のオーディオストリームに、オーディオウォータマークが挿入されている区間に表示されるようにする。そして、この表示を確認した視聴者2は、ウェイクワードを発話することになる(S21)。
 ステップS223において、オーディオデコーダ201は、CM/番組オーディオストリームをデコードして、ベースバンドのCM/番組オーディオストリームを得る。
 ステップS224において、オーディオスピーカ202は、ステップS223の処理で得られるベースバンドのCM/番組オーディオストリームに応じた音声を出力する。
 なお、ここでも、説明を簡略化するため、CM/番組オーディオストリームについてのみ述べているが、クライアント装置20Cでは、CM/番組ビデオストリームについても、ビデオデコーダによってデコードされ、ベースバンドのCM/番組ビデオストリームに応じたCMや番組の映像がディスプレイに表示される。
 視聴者2により発話されたウェイクワードと、クライアント装置20Cのオーディオスピーカ202から出力された音声は、音声処理装置30のオーディオマイク311により収音される。
 ステップS322において、収音モジュール301は、オーディオマイク311により収音された音声に応じたオーディオストリームから、視聴者2により発話されたウェイクワードを認識する。
 また、収音モジュール301は、ウェイクワードが認識された場合に、音声AIアシスタンスサービスを起動して、サービス引き渡しパラメタの検出を有効化する(S323)。このサービス引き渡しパラメタの検出の有効化に伴い、オーディオWM検出モジュール302によるステップS321の処理が開始される。
 ステップS321において、ステップS301において、オーディオWM検出モジュール302は、オーディオマイク311からのオーディオストリームに挿入されているオーディオウォータマークを検出する。
 ステップS324において、オーディオWM検出モジュール302は、ステップS321の処理で得られる検出結果に基づいて、オーディオストリームに挿入されているオーディオウォータマークとして、サービス引き渡しパラメタが挿入されているかどうかを判定する。
 ステップS324において、オーディオウォータマークとして、サービス引き渡しパラメタが挿入されていると判定された場合、処理は、ステップS325の処理に進められる。ステップS325において、オーディオWM検出モジュール302は、ステップS321の処理で得られたサービス引き渡しパラメタを、音声認識結果として、後続の処理に渡すようにする。
 一方で、ステップS324において、オーディオウォータマークとして、サービス引き渡しパラメタが挿入されていないと判定された場合、ステップS325の処理は、スキップされる。すなわち、この場合には、オーディオストリームの音声認識結果を無効であるとみなして、音声認識結果を後続の処理に渡さないようにする(何もしない)。
 このように、音声処理装置30Cでは、オーディオストリームに、サービス引き渡しパラメタとして、例えば、「ask, Drama Facts, for any private information on the casts of XXXDRAMA by XXXCHANNEL」である文字列(メッセージ)が挿入されている場合には、このメッセージを、音声認識結果として、後続の処理に渡すようにする。そのため、例えば、音声AIアシスタンスサービスを利用する視聴者2が、フレーズが長すぎて覚えることができない、といった状況を回避することができる。
 以上、ウォータマークの挿入を送信側で行う場合のコンテンツ・音声AI連携処理の流れについて説明した。
(D)ウォータマークの挿入を受信側で行う構成
 上述した説明では、ウォータマークを挿入する処理を送信側(放送局側)のサーバ装置10で行う場合を説明したが、受信側のクライアント装置20(例えばテレビ受像機)で行うようにしてもよい。ウォータマークを挿入する処理を受信側のクライアント装置20で行う場合には、例えば、放送付随の放送アプリケーション等のアプリケーションを実行することで、実現することができる。
 ここで、送信側のサーバ装置10で、ウォータマークを挿入する処理を行う場合には、すべての視聴者に対して、同一の音声(例えばCMや番組の音声)が送られるため、視聴者個別の意向を酌んだ制御を行うことはできないが、受信側のクライアント装置20で、アプリケーションを実行して、ウォータマークを挿入する処理を行うという構成をとることにより、例えば、次のようなことが実現可能とされる。
 すなわち、例えば、視聴者のプライバシーにかかわる視聴者固有の属性情報(例えば、商品購入に必要な視聴者のアカウント情報等)をウォータマークに反映させて、パーソナライズすることができる。
 以下、ウォータマークの挿入を受信側のクライアント装置20で行う場合の構成と処理の流れを示す。
(システム構成例)
 図18は、第2の実施の形態のコンテンツ・音声AI連携システム1の構成の第2の例を示すブロック図である。
 図18のコンテンツ・音声AI連携システム1は、サーバ装置10D、クライアント装置20D、及び音声処理装置30Dを含んで構成される。
 なお、図18のコンテンツ・音声AI連携システム1の構成において、上述した図3、図8、及び図14のコンテンツ・音声AI連携システム1の構成と対応する部分については、同一の符号を付してあり、その説明は繰り返しになるため、適宜省略するものとする。
 図18において、サーバ装置10Dは、CM/番組バンク101、及びアプリケーションジェネレータ111を含んで構成される。
 アプリケーションジェネレータ111は、アプリ生成用データに基づいて、アプリケーションを生成する。ここで生成されるアプリケーションは、トークンジェネレータ機能(上述のトークンジェネレータ103と同等の機能)を有している。
 そして、サーバ装置10Dは、アプリケーションジェネレータ111により生成されるアプリケーションを、アプリケーションの配信方式に応じて、放送システム11又はネット配信システム12に送出する。
 図18において、クライアント装置20Dは、オーディオデコーダ201、オーディオスピーカ202、アプリケーション実行環境211、及びオーディオWM挿入モジュール212を含んで構成される。
 アプリケーション実行環境211は、放送システム11又はネット配信システム12から受信したアプリケーションを実行する。ここで、アプリケーションは、トークンジェネレータ機能を有しているため、当該アプリケーションにより生成されたトークン(サービス引き渡しパラメタ)を、オーディオWM挿入モジュール212に供給する。
 オーディオWM挿入モジュール212は、オーディオデコーダ201から供給されるベースバンドのCM/番組オーディオストリームに対し、アプリケーション実行環境211のアプリケーションにより生成されたサービス引き渡しパラメタを、オーディオウォータマークとして挿入(エンコード)し、オーディオスピーカ202に供給する。
 オーディオスピーカ202は、オーディオWM挿入モジュール212から供給されるベースバンドのCM/番組オーディオストリーム(受信側にてサービス引き渡しパラメタをオーディオウォータマークとして挿入したストリーム)に応じた音声を出力する。
 なお、図18の音声処理装置30Dは、図14の音声処理装置30Cと同様の構成を有しているため、ここではその説明を省略する。ただし、ローカル側の音声処理装置30Dは、クラウド側のサーバ装置40と連携することで、音声AIアシスタンスサービスの一部の処理が、サーバ装置40により行われるようにしてもよい。
 ここで、音声処理装置30Dに対する視聴者2によるウェイクワードの発話であるが、例えば、クライアント装置20Dにおいて、図19に示すような発話指示メッセージ271が表示されるようにすることで、視聴者2に対し、音声AIアシスタンスサービスを起動するためのウェイクワードの発話を促すことができる。
 図19においては、発話指示メッセージ271として、「もしこの番組で紹介されている商品を購入したければ、"Service A"とだけ言ってください。」が表示されている。そして、この発話指示メッセージ271を確認した視聴者2は、"Service A"であるウェイクワードを発話することになる。
(コンテンツ・音声AI連携処理の流れ)
 次に、図20乃至図21のフローチャートを参照して、ウォータマークの挿入を受信側で行う場合のコンテンツ・音声AI連携処理の流れを説明する。
 なお、図20は、サーバ装置10Dと、放送システム11又はネット配信システム12により実行される送信側の処理の流れを示すフローチャートである。一方で、図21は、クライアント装置20Dと音声処理装置30Dにより実行される受信側の処理の流れを示すフローチャートである。
 ステップS131において、CM/番組バンク101は、CM/番組ストリームを、放送システム11又はネット配信システム12に送出する。
 ステップS133において、アプリケーションジェネレータ111は、アプリ生成用データに基づいて、アプリケーションを生成する。
 ここで、アプリケーションは、トークンジェネレータ機能(上述のトークンジェネレータ103と同等の機能)を有している。なお、アプリケーションを生成する際には、サービス引き渡しパラメタの一部(例えば、視聴者固有の属性情報以外の共通の情報)を、ハードコードで埋め込むようにしてもよい。
 ステップS134において、アプリケーションジェネレータ111は、ステップS133の処理で得られるアプリケーションを、放送システム11又はネット配信システム12に送出する。
 このようにして、サーバ装置10Dで得られるCM/番組ストリームとアプリケーションは、コンテンツの配信方式に応じて、放送システム11又はネット配信システム12によって送出される。
 そして、図20において、放送システム11又はネット配信システム12によって配信されたCM/番組ストリームとアプリケーションは、図21において、クライアント装置20Dにより受信される。クライアント装置20Dにおいては、CM/番組オーディオストリームが、オーディオデコーダ201に入力され、アプリケーションが、アプリケーション実行環境211に入力される。
 ステップS231において、オーディオデコーダ201は、CM/番組オーディオストリームをデコードして、ベースバンドのCM/番組オーディオストリームを得る。
 ステップS233において、アプリケーション実行環境211は、アプリケーションを実行する。このとき、アプリケーションは、トークンジェネレータ機能を有しているため、トークンとしてのサービス引き渡しパラメタを生成して取得することができる。
 ここで、サービス引き渡しパラメタとしては、例えば、「ask, shoppingApp, my personal account number is 1234567890」である、音声AIアシスタンスサービスに対し、視聴者2がどのように発話したらよいかを示す文字列(メッセージ)が生成される。
 なお、サービス引き渡しパラメタを生成する際には、アプリケーション実行環境211にて実行されるアプリケーション自身が、視聴者2のプライバシーにかかわるような視聴者固有の属性情報(例えば、"1234567890"であるアカウント番号)を、データベース(例えば、クライアント装置20の初期設定メニューにより視聴者特有な情報が設定されたデータベースなど)から取得し、その情報に基づき、サービス引き渡しパラメタを生成することになる。
 このとき、例えば、アプリケーションが、上述の図7に示した確認メッセージ251を表示することで、アプリケーションが勝手にウォータマークを挿入するのではなく、一度視聴者2の意向を確認した上で、オーディオウォータマークの挿入処理を行うことができる。
 例えば、図7の確認メッセージ251に対し、CMや番組の音声による音声AIアシスタンスサービスの勝手利用を許可する場合には、視聴者2により「OKボタン」が操作され、アプリケーション実行環境211は、ウォータマーク挿入指示を受け付ける(S234)。この場合には、オーディオウォータマークを挿入する処理が行われることになる。
 なお、上述したように、あらかじめ意向確認を行っておき、その視聴者意向情報を、初期設定データベースに格納してそれを利用するようにしてもよい。また、ステップS234の処理を行わずに、強制的に、オーディオウォータマークの挿入処理が実行されるようにしてもよい。
 ステップS232において、オーディオWM挿入モジュール212は、ステップS231の処理で得られるベースバンドのCM/番組オーディオストリームに対し、ステップS233の処理で得られるサービス引き渡しパラメタを、オーディオウォータマークとして挿入(エンコード)する。
 なお、クライアント装置20Dでは、オーディオスピーカ202から出力される音量が十分なものとなるように、オーディオスピーカ202のオーディオ出力音量を調整する(S235)。
 また、このとき、クライアント装置20Dでは、視聴者2に対して、音声AIアシスタンスサービスを起動するためのウェイクワード(例えば、「Service A」)の発話指示を行う(S236)。
 ここでは、クライアント装置20Dにおいて、例えば、「もしこの番組で紹介されている商品を購入したければ、"Service A"とだけ言ってください。」である発話指示メッセージ271(図19)が、CM又は番組のオーディオストリームに、オーディオウォータマークが挿入されている区間に表示されるようにする。そして、この表示を確認した視聴者2は、ウェイクワードを発話することになる(S31)。
 ステップS237において、オーディオスピーカ202は、ステップS232の処理で得られるベースバンドのCM/番組オーディオストリーム(受信側にてサービス引き渡しパラメタをオーディオウォータマークとして挿入したストリーム)に応じた音声を出力する。
 なお、ここでも、説明を簡略化するため、CM/番組オーディオストリームについてのみ述べているが、クライアント装置20Dでは、CM/番組ビデオストリームについても、ビデオデコーダによってデコードされ、ベースバンドのCM/番組ビデオストリームに応じたCMや番組の映像がディスプレイに表示される。
 視聴者2により発話されたウェイクワードと、クライアント装置20Dのオーディオスピーカ202から出力された音声は、音声処理装置30Dのオーディオマイク311により収音される。
 ステップS331乃至S335においては、図17のステップS321乃至S325と同様に、視聴者2により発話されたウェイクワードが認識された場合に、音声AIアシスタンスサービスが起動されて、サービス引き渡しパラメタの検出が有効化され、オーディオマイク311からのオーディオストリームに挿入されているオーディオウォータマークとして、サービス引き渡しパラメタが挿入されているかどうかが判定される。
 そして、オーディオウォータマークとして、サービス引き渡しパラメタが挿入されていると判定された場合には、サービス引き渡しパラメタが、音声認識結果として、後続の処理に渡される(S335)。一方で、オーディオウォータマークとして、サービス引き渡しパラメタが挿入されていないと判定された場合には、音声認識結果が、後続の処理に渡されないようにする。
 このように、音声処理装置30Dでは、オーディオストリームに、サービス引き渡しパラメタとして、例えば、「ask, shoppingApp, my personal account number is 1234567890」である文字列(メッセージ)が挿入されている場合には、このメッセージを、音声認識結果として、後続の処理に渡すようにしている。そのため、例えば、音声AIアシスタンスサービスを利用する視聴者2が、フレーズが長すぎて覚えることができないことや、プライバシーやセキュリティにかかわるような内容の発話が要求される、といった状況を回避することができる。
 以上、ウォータマークの挿入を受信側で行う場合のコンテンツ・音声AI連携処理の流れについて説明した。
 以上、第2の実施の形態について説明した。この第2の実施の形態では、送信側のサーバ装置10又は受信側のクライアント装置20で、オーディオウォータマークとして、サービス引き渡しパラメタを挿入して、ローカル側の音声処理装置30又はクラウド側のサーバ装置40で、このサービス引き渡しパラメタが検出されるようにすることで、視聴者が発話を指示通り正確にできない、あるいは、発話を躊躇するような内容が含まれる場合においても、精度よく、かつ、セキュリティを考慮に入れて、音声AIアシスタンスサービスを利用することができる。その結果として、より実用性の高い音声AIアシスタンスサービスを提供することができる。
 その際に、視聴者に対し、音声AIアシスタンスサービスを利用するという意志表示としてのウェイクワードの発話を確認して、視聴者の同意を得てから、音声AIアシスタンスサービスの利用を開始することができる。
 ここで、仮に、オーディオウォータマークとして、サービス引き渡しパラメタが挿入されていなければ、例えば、次に示すような、視聴者にとって、正確に発話するには、長すぎる内容を発話しなければならない。
 すなわち、上述した(C)の「ウォータマークの挿入を送信側で行う構成」の例の場合、図22に示すように、発話指示メッセージ281として、「もしこの番組のキャストのプライベートな情報を知りたければ、"Service A, ask, Drama Facts, for any private information on the casts of XXXDRAMA by XXXCHANNEL"と言ってください。」が表示され、この長い内容を、視聴者が発話する必要が出てくる。
 それに対して、第2の実施の形態では、オーディオウォータマークとして、サービス引き渡しパラメタが挿入されているため、例えば、上述した図15の発話指示メッセージ261を確認した視聴者は、単に"Service A"であるウェイクワードのみを発話すればよいため、正確に発話することが可能となる。
 また、仮に、オーディオウォータマークとして、サービス引き渡しパラメタが挿入されていなければ、例えば、次に示すような、発話内容に視聴者のプライベートな情報が含まれる場合には、視聴者が発話を躊躇することも想定される。
 すなわち、上述した(D)の「ウォータマークの挿入を受信側で行う構成」の例の場合、図23に示すように、発話指示メッセージ291として、「もしこの番組で紹介されている商品を購入したければ、"Service A, ask, shoppingApp, my personal account number is 1234567890"と言ってください。」が、表示され、この視聴者固有の属性情報(例えば、"1234567890"であるアカウント番号)を、視聴者が発話する必要が出てくる。
 それに対して、第2の実施の形態では、オーディオウォータマークとして、サービス引き渡しパラメタが挿入されているため、例えば、上述した図19の発話指示メッセージ271を確認した視聴者は、単に"Service A"であるウェイクワードのみを発話すればよいため、視聴者固有の属性情報を発話する必要はない。
<3.変形例>
(トークンの挿入の他の例)
 上述した説明では、トークンが、オーディオウォータマークとして、オーディオストリームに挿入される場合を示したが、オーディオウォータマークは一例であって、トークンを埋め込む方法としては、他の方法を用いるようにしてもよい。ここでは、例えば、CMや番組等のコンテンツのオーディオストリームから抽出される特徴量であるフィンガプリント(Finger Print)情報を利用して、トークンが埋め込まれるようにしてもよい。
 なお、オーディオウォータマークとしては、例えば、下記の非特許文献1,2にその詳細な内容が示されている。非特許文献1,2は、次世代地上波放送規格の1つである、ATSC(Advanced Television Systems Committee)3.0における、オーディオウォータマークが規定されている。
 非特許文献1:ATSC Standard:Audio Watermark Emission (A/334)
 非特許文献2:ATSC Standard:Content Recovery in Redistribution Scenarios (A/336)
(アプリケーションの例)
 上述した説明では、クライアント装置20のアプリケーション実行環境211にて実行されるアプリケーションとして、ブラウザにより実行される放送付随の放送アプリケーションを一例に説明したが、例えば、OS(Operating System)環境(提示制御環境)などで実行されるネイティブアプリケーションなどの他のアプリケーションであってもよい。
 また、アプリケーションは、HTML5(HyperText Markup Language 5)などのマークアップ言語やJavaScript(登録商標)等のスクリプト言語で開発されたアプリケーション(ブラウザ上で実行されるアプリケーション)に限らず、例えば、Java(登録商標)などのプログラミング言語で開発されたアプリケーションであってもよい。
 なお、クライアント装置20で実行されるアプリケーションは、放送経由で取得されるものに限らず、インターネット50上のサーバから、通信経由で取得されるようにしてもよい。また、上述したコンテンツは、CMや番組に限らず、例えば、音楽や動画、電子書籍やゲーム、広告など、あらゆるコンテンツを含めることができる。さらに、CMや番組は、サービス又はチャンネル全体、若しくはその一部という場合も想定される。
(受信側とローカル側の機器のハードウェア構成)
 上述した説明では、クライアント装置20のハードウェア構成について、特に述べていないが、例えば、次のような構成とすることができる。すなわち、クライアント装置20は、例えば、テレビ受像機として構成されるため、オーディオデコーダ201とオーディオスピーカ202のほか、例えば、CPU(Central Processing Unit)やメモリ、チューナ、デマルチプレクサ、ビデオデコーダ、ディスプレイ、通信I/Fなどを含んで構成することができる。
 また、音声処理装置30のハードウェア構成について、特に述べていないが、例えば、次のような構成とすることができる。すなわち、音声処理装置30は、例えば、スマートスピーカとして構成されるため、オーディオマイク311のほか、例えば、CPUやメモリ、スピーカ、通信I/Fなどを含んで構成することができる。
 なお、上述した説明では、クライアント装置20と音声処理装置30とは、別々の機器として構成されるとして説明したが、クライアント装置20と音声処理装置30とが一体化された機器(同梱型デバイス)として構成されるようにしてもよい。例えば、音声処理装置30の機能を、音声処理モジュールとして提供し、クライアント装置20の機能に含めることで、同梱型デバイスとして構成することができる。
 また、サーバ装置10、クライアント装置20、音声処理装置30、及びサーバ装置40は、情報処理装置であるとも言える。
 また、上述した説明では、クライアント装置20は、テレビ受像機等の固定受信機、又はスマートフォン等のモバイル受信機であるとして説明したが、クライアント装置20は、ヘッドマウントディスプレイ(HMD:Head Mounted Display)などのウェアラブルコンピュータであってもよい。さらに、クライアント装置20は、例えば車載テレビなどの自動車に搭載される機器や、セットトップボックス(STB:Set Top Box)、ゲーム機などであってもよい。すなわち、クライアント装置20は、コンテンツの再生や録画が可能な機器であれば、いずれの機器であってもよい。
(放送方式の例)
 上述した説明では、放送システム11の放送方式について特に言及していないが、放送方式としては、例えば、米国等で採用されている方式であるATSC(特に、ATSC3.0)や、日本等が採用する方式であるISDB(Integrated Services Digital Broadcasting)、欧州の各国等が採用する方式であるDVB(Digital Video Broadcasting)などを採用することができる。また、放送経由の配信の場合の伝送路としては、地上波放送のほか、放送衛星(BS:Broadcasting Satellite)や通信衛星(CS:Communications Satellite)等を利用した衛星放送や、ケーブルテレビ(CATV)等の有線放送であってもよい。
(その他)
 本明細書で使用している名称は、一例であって、実際には、他の名称が用いられる場合がある。ただし、これらの名称の違いは、形式的な違いであって、対象のものの実質的な内容が異なるものではない。例えば、上述したウェイクワードは、アクティベーションキーワードや、コマンドワードなどと称される場合がある。
<4.コンピュータの構成>
 上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。図24は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示す図である。
 コンピュータ1000において、CPU(Central Processing Unit)1001、ROM(Read Only Memory)1002、RAM(Random Access Memory)1003は、バス1004により相互に接続されている。バス1004には、さらに、入出力インターフェース1005が接続されている。入出力インターフェース1005には、入力部1006、出力部1007、記録部1008、通信部1009、及び、ドライブ1010が接続されている。
 入力部1006は、キーボード、マウス、マイクロフォンなどよりなる。出力部1007は、ディスプレイ、スピーカなどよりなる。記録部1008は、ハードディスクや不揮発性のメモリなどよりなる。通信部1009は、ネットワークインターフェースなどよりなる。ドライブ1010は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体1011を駆動する。
 以上のように構成されるコンピュータ1000では、CPU1001が、ROM1002や記録部1008に記録されているプログラムを、入出力インターフェース1005及びバス1004を介して、RAM1003にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ1000(CPU1001)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体1011に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。
 コンピュータ1000では、プログラムは、リムーバブル記録媒体1011をドライブ1010に装着することにより、入出力インターフェース1005を介して、記録部1008にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部1009で受信し、記録部1008にインストールすることができる。その他、プログラムは、ROM1002や記録部1008に、あらかじめインストールしておくことができる。
 ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。
 なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 また、本技術は、以下のような構成をとることができる。
(1)
 コンテンツに連携した音声AIアシスタンスサービスの利用に関するトークンを、前記コンテンツのオーディオストリームに挿入する挿入部を備える
 情報処理装置。
(2)
 前記トークンは、前記コンテンツのオーディオストリームに対する前記音声AIアシスタンスサービスによる音声認識処理を禁止又は許可するためのトークンである
 前記(1)に記載の情報処理装置。
(3)
 前記トークンは、前記音声AIアシスタンスサービスに引き渡されるパラメタである
 前記(1)に記載の情報処理装置。
(4)
 前記トークンを生成する生成部をさらに備え、
 前記挿入部は、前記生成部により生成された前記トークンを、配信対象のコンテンツのオーディオストリームに挿入する
 前記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)
 前記挿入部は、前記トークンを、オーディオウォータマークとして、放送経由又は通信経由で配信される前記コンテンツのオーディオストリームに挿入する
 前記(4)に記載の情報処理装置。
(6)
 前記トークンを生成する機能を有するアプリケーションを実行する実行部をさらに備え、
 前記挿入部は、実行中の前記アプリケーションにより生成された前記トークンを、再生対象のコンテンツのオーディオストリームに挿入する
 前記(1)乃至(3)のいずれかに記載の情報処理装置。
(7)
 前記挿入部は、放送経由又は通信経由で配信された前記アプリケーションにより生成された前記トークンを、オーディオウォータマークとして、放送経由又は通信経由で配信された前記コンテンツのオーディオストリームに挿入する
 前記(6)に記載の情報処理装置。
(8)
 前記トークンは、前記コンテンツのオーディオストリームに挿入された前記トークンの検出を行う側に、あらかじめ通知される
 前記(2)に記載の情報処理装置。
(9)
 前記パラメタは、暗号化されるか、又は改ざん検出用の署名が付与される
 前記(3)に記載の情報処理装置。
(10)
 情報処理装置の情報処理方法において、
 前記情報処理装置が、
 コンテンツに連携した音声AIアシスタンスサービスの利用に関するトークンを、前記コンテンツのオーディオストリームに挿入する
 情報処理方法。
(11)
 コンテンツのオーディオストリームから、前記コンテンツに連携した音声AIアシスタンスサービスの利用に関するトークンを検出する検出部を備える
 情報処理装置。
(12)
 前記トークンは、前記コンテンツのオーディオストリームに対する前記音声AIアシスタンスサービスによる音声認識処理を禁止するためのトークンである
 前記(11)に記載の情報処理装置。
(13)
 前記コンテンツのオーディオストリームに対する音声認識処理を行う音声認識部をさらに備え、
 前記検出部は、前記コンテンツのオーディオストリームから、あらかじめ通知された前記トークンが検出された場合、前記音声認識処理で得られる音声認識結果を無効にする
 前記(12)に記載の情報処理装置。
(14)
 前記トークンは、前記オーディオストリームに対する前記音声AIアシスタンスサービスによる音声認識処理を許可するためのトークンである
 前記(11)に記載の情報処理装置。
(15)
 前記コンテンツのオーディオストリームに対する音声認識処理を行う音声認識部をさらに備え、
 前記検出部は、前記コンテンツのオーディオストリームから、あらかじめ通知された前記トークンが検出された場合、前記音声認識処理で得られる音声認識結果を、後続の処理に渡す
 前記(14)に記載の情報処理装置。
(16)
 前記トークンは、前記音声AIアシスタンスサービスに引き渡されるパラメタである
 前記(11)に記載の情報処理装置。
(17)
 前記検出部は、前記コンテンツのオーディオストリームから、前記パラメタが検出された場合、当該パラメタを、後続の処理に渡す
 前記(16)に記載の情報処理装置。
(18)
 前記検出部は、前記コンテンツを視聴する視聴者から、前記音声AIアシスタンスサービスのウェイクワードが発話された場合、前記コンテンツのオーディオストリームに挿入された前記トークンの検出を行う
 前記(16)又は(17)に記載の情報処理装置。
(19)
 放送経由又は通信経由で配信された前記コンテンツの再生を行う他の情報処理装置から出力される前記コンテンツの音声を収音する収音部をさらに備え、
 前記検出部は、前記収音部により収音された前記コンテンツの音声のオーディオストリームに、オーディオウォータマークとして挿入されている前記トークンを検出する
 前記(11)乃至(18)のいずれかに記載の情報処理装置。
(20)
 情報処理装置の情報処理方法において、
 前記情報処理装置が、
 コンテンツのオーディオストリームから、前記コンテンツに連携した音声AIアシスタンスサービスの利用に関するトークンを検出する
 情報処理方法。
 1 コンテンツ・音声AI連携システム, 10,10A,10B,10C,10D サーバ装置, 11 放送システム, 12 ネット配信システム, 20,20A,20B,20C,20D クライアント装置, 30,30A,30B,30C,30D 音声処理装置, 40 サーバ装置, 50 インターネット, 101 CM/番組バンク, 102 オーディオデコーダ, 103 トークンジェネレータ, 104 オーディオWM挿入モジュール, 105 オーディオエンコーダ, 111 アプリケーションジェネレータ, 201 オーディオデコーダ, 202 オーディオスピーカ, 211 アプリケーション実行環境, 212 オーディオWM挿入モジュール, 301 収音モジュール, 302 オーディオWM検出モジュール, 303 音声認識モジュール, 311 オーディオマイク, 1000 コンピュータ, 1001 CPU

Claims (20)

  1.  コンテンツに連携した音声AIアシスタンスサービスの利用に関するトークンを、前記コンテンツのオーディオストリームに挿入する挿入部を備える
     情報処理装置。
  2.  前記トークンは、前記コンテンツのオーディオストリームに対する前記音声AIアシスタンスサービスによる音声認識処理を禁止又は許可するためのトークンである
     請求項1に記載の情報処理装置。
  3.  前記トークンは、前記音声AIアシスタンスサービスに引き渡されるパラメタである
     請求項1に記載の情報処理装置。
  4.  前記トークンを生成する生成部をさらに備え、
     前記挿入部は、前記生成部により生成された前記トークンを、配信対象のコンテンツのオーディオストリームに挿入する
     請求項1に記載の情報処理装置。
  5.  前記挿入部は、前記トークンを、オーディオウォータマークとして、放送経由又は通信経由で配信される前記コンテンツのオーディオストリームに挿入する
     請求項4に記載の情報処理装置。
  6.  前記トークンを生成する機能を有するアプリケーションを実行する実行部をさらに備え、
     前記挿入部は、実行中の前記アプリケーションにより生成された前記トークンを、再生対象のコンテンツのオーディオストリームに挿入する
     請求項1に記載の情報処理装置。
  7.  前記挿入部は、放送経由又は通信経由で配信された前記アプリケーションにより生成された前記トークンを、オーディオウォータマークとして、放送経由又は通信経由で配信された前記コンテンツのオーディオストリームに挿入する
     請求項6に記載の情報処理装置。
  8.  前記トークンは、前記コンテンツのオーディオストリームに挿入された前記トークンの検出を行う側に、あらかじめ通知される
     請求項2に記載の情報処理装置。
  9.  前記パラメタは、暗号化されるか、又は改ざん検出用の署名が付与される
     請求項3に記載の情報処理装置。
  10.  情報処理装置の情報処理方法において、
     前記情報処理装置が、
     コンテンツに連携した音声AIアシスタンスサービスの利用に関するトークンを、前記コンテンツのオーディオストリームに挿入する
     情報処理方法。
  11.  コンテンツのオーディオストリームから、前記コンテンツに連携した音声AIアシスタンスサービスの利用に関するトークンを検出する検出部を備える
     情報処理装置。
  12.  前記トークンは、前記コンテンツのオーディオストリームに対する前記音声AIアシスタンスサービスによる音声認識処理を禁止するためのトークンである
     請求項11に記載の情報処理装置。
  13.  前記コンテンツのオーディオストリームに対する音声認識処理を行う音声認識部をさらに備え、
     前記検出部は、前記コンテンツのオーディオストリームから、あらかじめ通知された前記トークンが検出された場合、前記音声認識処理で得られる音声認識結果を無効にする
     請求項12に記載の情報処理装置。
  14.  前記トークンは、前記オーディオストリームに対する前記音声AIアシスタンスサービスによる音声認識処理を許可するためのトークンである
     請求項11に記載の情報処理装置。
  15.  前記コンテンツのオーディオストリームに対する音声認識処理を行う音声認識部をさらに備え、
     前記検出部は、前記コンテンツのオーディオストリームから、あらかじめ通知された前記トークンが検出された場合、前記音声認識処理で得られる音声認識結果を、後続の処理に渡す
     請求項14に記載の情報処理装置。
  16.  前記トークンは、前記音声AIアシスタンスサービスに引き渡されるパラメタである
     請求項11に記載の情報処理装置。
  17.  前記検出部は、前記コンテンツのオーディオストリームから、前記パラメタが検出された場合、当該パラメタを、後続の処理に渡す
     請求項16に記載の情報処理装置。
  18.  前記検出部は、前記コンテンツを視聴する視聴者から、前記音声AIアシスタンスサービスのウェイクワードが発話された場合、前記コンテンツのオーディオストリームに挿入された前記トークンの検出を行う
     請求項17に記載の情報処理装置。
  19.  放送経由又は通信経由で配信された前記コンテンツの再生を行う他の情報処理装置から出力される前記コンテンツの音声を収音する収音部をさらに備え、
     前記検出部は、前記収音部により収音された前記コンテンツの音声のオーディオストリームに、オーディオウォータマークとして挿入されている前記トークンを検出する
     請求項11に記載の情報処理装置。
  20.  情報処理装置の情報処理方法において、
     前記情報処理装置が、
     コンテンツのオーディオストリームから、前記コンテンツに連携した音声AIアシスタンスサービスの利用に関するトークンを検出する
     情報処理方法。
PCT/JP2018/032323 2017-09-15 2018-08-31 情報処理装置、及び情報処理方法 WO2019054199A1 (ja)

Priority Applications (9)

Application Number Priority Date Filing Date Title
CN201880057831.9A CN111052231B (zh) 2017-09-15 2018-08-31 信息处理设备和信息处理方法
EP18856338.1A EP3683792A4 (en) 2017-09-15 2018-08-31 INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING PROCESS
AU2018333668A AU2018333668B2 (en) 2017-09-15 2018-08-31 Information processing device and information processing method
MX2020002591A MX2020002591A (es) 2017-09-15 2018-08-31 Aparato de procesamiento de la informacion y metodo de procesamiento de informacion.
US16/645,058 US11600270B2 (en) 2017-09-15 2018-08-31 Information processing apparatus and information processing method
JP2019541990A JP7227140B2 (ja) 2017-09-15 2018-08-31 情報処理装置、情報処理方法、音声処理装置、及び音声処理方法
SG11202001429XA SG11202001429XA (en) 2017-09-15 2018-08-31 Information processing apparatus and information processing method
CA3075249A CA3075249A1 (en) 2017-09-15 2018-08-31 Information processing apparatus and information processing method
KR1020207006277A KR102607192B1 (ko) 2017-09-15 2018-08-31 정보 처리 장치, 및 정보 처리 방법

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-177754 2017-09-15
JP2017177754 2017-09-15

Publications (1)

Publication Number Publication Date
WO2019054199A1 true WO2019054199A1 (ja) 2019-03-21

Family

ID=65722792

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/032323 WO2019054199A1 (ja) 2017-09-15 2018-08-31 情報処理装置、及び情報処理方法

Country Status (10)

Country Link
US (1) US11600270B2 (ja)
EP (1) EP3683792A4 (ja)
JP (1) JP7227140B2 (ja)
KR (1) KR102607192B1 (ja)
CN (1) CN111052231B (ja)
AU (1) AU2018333668B2 (ja)
CA (1) CA3075249A1 (ja)
MX (1) MX2020002591A (ja)
SG (1) SG11202001429XA (ja)
WO (1) WO2019054199A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020128552A1 (ja) * 2018-12-18 2020-06-25 日産自動車株式会社 音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム
JP2020185618A (ja) * 2019-05-10 2020-11-19 株式会社スター精機 機械動作方法,機械動作設定方法及び機械動作確認方法
WO2021100555A1 (ja) * 2019-11-21 2021-05-27 ソニーグループ株式会社 情報処理システム、情報処理装置、情報処理方法及びプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240038249A1 (en) * 2022-07-27 2024-02-01 Cerence Operating Company Tamper-robust watermarking of speech signals

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003044069A (ja) * 2001-07-19 2003-02-14 Samsung Electronics Co Ltd 音声認識による誤動作の防止及び音声認識率の向上が可能な電子機器及び方法
JP2005338454A (ja) * 2004-05-27 2005-12-08 Toshiba Tec Corp 音声対話装置
JP2008305371A (ja) * 2007-05-08 2008-12-18 Softbank Bb Corp 分散処理により膨大なコンテンツの検査を行う装置と方法、およびコンテンツの検査結果にもとづいて利用者間の自律的なコンテンツ流通とコンテンツ利用を制御するコンテンツ配信システム
JP2013160883A (ja) * 2012-02-03 2013-08-19 Yamaha Corp 通信端末、プログラム、コンテンツサーバおよび通信システム
JP2016004270A (ja) 2014-05-30 2016-01-12 アップル インコーポレイテッド 手動始点/終点指定及びトリガフレーズの必要性の低減
US20160358614A1 (en) * 2015-06-04 2016-12-08 Intel Corporation Dialogue system with audio watermark

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720249B2 (en) * 1993-11-18 2010-05-18 Digimarc Corporation Watermark embedder and reader
US6937984B1 (en) * 1998-12-17 2005-08-30 International Business Machines Corporation Speech command input recognition system for interactive computer display with speech controlled display of recognized commands
US9955205B2 (en) 2005-06-10 2018-04-24 Hewlett-Packard Development Company, L.P. Method and system for improving interactive media response systems using visual cues
US7983441B2 (en) * 2006-10-18 2011-07-19 Destiny Software Productions Inc. Methods for watermarking media data
JP5042799B2 (ja) * 2007-04-16 2012-10-03 ソニー株式会社 音声チャットシステム、情報処理装置およびプログラム
JP5332602B2 (ja) 2008-12-26 2013-11-06 ヤマハ株式会社 サービス提供装置
JP2010164992A (ja) * 2010-03-19 2010-07-29 Toshiba Tec Corp 音声対話装置
JP5982791B2 (ja) * 2011-11-16 2016-08-31 ソニー株式会社 情報処理装置及び情報処理方法、情報提供装置、並びに、情報提供システム
CN104956436B (zh) 2012-12-28 2018-05-29 株式会社索思未来 带有语音识别功能的设备以及语音识别方法
US9548053B1 (en) 2014-09-19 2017-01-17 Amazon Technologies, Inc. Audible command filtering
US9924224B2 (en) * 2015-04-03 2018-03-20 The Nielsen Company (Us), Llc Methods and apparatus to determine a state of a media presentation device
US10079024B1 (en) * 2016-08-19 2018-09-18 Amazon Technologies, Inc. Detecting replay attacks in voice-based authentication
US10395650B2 (en) * 2017-06-05 2019-08-27 Google Llc Recorded media hotword trigger suppression

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003044069A (ja) * 2001-07-19 2003-02-14 Samsung Electronics Co Ltd 音声認識による誤動作の防止及び音声認識率の向上が可能な電子機器及び方法
JP2005338454A (ja) * 2004-05-27 2005-12-08 Toshiba Tec Corp 音声対話装置
JP2008305371A (ja) * 2007-05-08 2008-12-18 Softbank Bb Corp 分散処理により膨大なコンテンツの検査を行う装置と方法、およびコンテンツの検査結果にもとづいて利用者間の自律的なコンテンツ流通とコンテンツ利用を制御するコンテンツ配信システム
JP2013160883A (ja) * 2012-02-03 2013-08-19 Yamaha Corp 通信端末、プログラム、コンテンツサーバおよび通信システム
JP2016004270A (ja) 2014-05-30 2016-01-12 アップル インコーポレイテッド 手動始点/終点指定及びトリガフレーズの必要性の低減
US20160358614A1 (en) * 2015-06-04 2016-12-08 Intel Corporation Dialogue system with audio watermark

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3683792A4

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020128552A1 (ja) * 2018-12-18 2020-06-25 日産自動車株式会社 音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム
US11922953B2 (en) 2018-12-18 2024-03-05 Nissan Motor Co., Ltd. Voice recognition device, control method of voice recognition device, content reproducing device, and content transmission/reception system
JP2020185618A (ja) * 2019-05-10 2020-11-19 株式会社スター精機 機械動作方法,機械動作設定方法及び機械動作確認方法
WO2021100555A1 (ja) * 2019-11-21 2021-05-27 ソニーグループ株式会社 情報処理システム、情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
AU2018333668B2 (en) 2023-12-21
JPWO2019054199A1 (ja) 2020-10-22
MX2020002591A (es) 2020-07-13
KR20200053486A (ko) 2020-05-18
AU2018333668A1 (en) 2020-03-26
EP3683792A4 (en) 2020-11-11
KR102607192B1 (ko) 2023-11-29
SG11202001429XA (en) 2020-04-29
EP3683792A1 (en) 2020-07-22
US20200211549A1 (en) 2020-07-02
JP7227140B2 (ja) 2023-02-21
CA3075249A1 (en) 2019-03-21
US11600270B2 (en) 2023-03-07
CN111052231B (zh) 2024-04-12
CN111052231A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
JP7477547B2 (ja) 受信装置、及び情報処理方法
JP7227140B2 (ja) 情報処理装置、情報処理方法、音声処理装置、及び音声処理方法
TWI665659B (zh) 音頻解碼裝置、音頻解碼方法及音頻編碼方法
JP7020799B2 (ja) 情報処理装置、及び情報処理方法
US20200082816A1 (en) Communicating context to a device using an imperceptible audio identifier
US20090265022A1 (en) Playback of multimedia during multi-way communications
KR102586630B1 (ko) 수신 장치, 송신 장치, 및 데이터 처리 방법
JP6569793B2 (ja) 送信装置および送信方法
US11197048B2 (en) Transmission device, transmission method, reception device, and reception method
US11438650B2 (en) Information processing apparatus, information processing method, transmission apparatus, and transmission method
JP6457938B2 (ja) 受信装置、受信方法、及び、送信方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18856338

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019541990

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 3075249

Country of ref document: CA

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018333668

Country of ref document: AU

Date of ref document: 20180831

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2018856338

Country of ref document: EP

Effective date: 20200415