WO2014199602A1 - 話者識別方法、話者識別装置及び情報管理方法 - Google Patents

話者識別方法、話者識別装置及び情報管理方法 Download PDF

Info

Publication number
WO2014199602A1
WO2014199602A1 PCT/JP2014/002992 JP2014002992W WO2014199602A1 WO 2014199602 A1 WO2014199602 A1 WO 2014199602A1 JP 2014002992 W JP2014002992 W JP 2014002992W WO 2014199602 A1 WO2014199602 A1 WO 2014199602A1
Authority
WO
WIPO (PCT)
Prior art keywords
speaker
information
content
voice information
database
Prior art date
Application number
PCT/JP2014/002992
Other languages
English (en)
French (fr)
Inventor
美沙貴 辻川
番場 裕
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority to JP2015522527A priority Critical patent/JP6348903B2/ja
Priority to US14/419,056 priority patent/US9911421B2/en
Publication of WO2014199602A1 publication Critical patent/WO2014199602A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/441Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
    • H04N21/4415Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences

Definitions

  • the present invention relates to a speaker identification method for identifying a speaker, a speaker identification device, and an information management method.
  • viewing content is estimated by estimating the viewer's age, sex and relationship between viewers based on temperature distribution information and voice information, and further considering the degree of matching to a place or a time zone or the like.
  • the method of choice is disclosed. Thereby, it is realized to provide viewing content adapted to the viewer and the place.
  • voice data of a plurality of specific speakers are registered together with speaker identification information that can identify the speakers, and the similarity between the registered voice data and the input voice data is calculated. And performing speech recognition are described.
  • the present invention has been made to solve the above-mentioned problems, and it is an object of the present invention to provide a speaker identification method, a speaker identification device and an information management method capable of easily registering voice information in a database easily. It is
  • a speaker identification method is a speaker identification method for identifying a speaker who is in the vicinity of a device that displays content, comprising the steps of: acquiring voice information of the speaker Determining whether the speaker corresponding to the voice information matches the speaker corresponding to the registered voice information stored in association with the content information related to the content in the database; If it is determined that the corresponding speaker matches the speaker corresponding to the registered voice information stored in the database, the content information on the content displayed on the device at the time of obtaining the voice information is Acquiring, storing the acquired content information in association with the registered voice information, and corresponding to the acquired voice information If the speaker is determined not to match the speaker corresponding to the registered voice information stored in the database, including the steps of: storing in the database the acquired voice information as the registered voice information.
  • the age and gender of the viewer are estimated based on the temperature distribution information and the voice information.
  • Patent Document 1 it is assumed that there is a viewer (speaker) under the assumption that the temperature of an adult male is the lowest and the temperature of an infant is the highest and the temperature of an adult woman is the temperature intermediate between an adult man and an infant.
  • Age and gender are identified by examining the temperature at the location where
  • the viewer (speaker) can be classified into only three categories of "adult male", “adult female” and “infant” and the viewer in more detail. It does not disclose about the method of specifying the age etc. of (speaker).
  • Patent Document 1 discloses a method of estimating the age and gender of a viewer (speaker) by analyzing the spectrum and speech of a voice signal.
  • this method can be classified only into rough categories such as "adult male”, “adult female” and “infant” as in the method using the temperature described above.
  • the viewing content providing system described in Patent Document 1 can roughly classify viewers (speakers). That is, for example, even if a certain audience (speaker) is identified in the category of "adult male", the tastes and preferences of adult males vary, and services specific to each audience (speaker) are provided. It is difficult.
  • voice data and speaker identification information are initially registered, and the similarity between the registered voice data and input voice data is calculated to perform voice recognition. There is.
  • a speaker identification method is a speaker identification method for identifying a speaker who is in the vicinity of a device that displays content, comprising the steps of: acquiring voice information of the speaker Determining whether the speaker corresponding to the voice information matches the speaker corresponding to the registered voice information stored in association with the content information related to the content in the database; If it is determined that the corresponding speaker matches the speaker corresponding to the registered voice information stored in the database, the content information on the content displayed on the device at the time of obtaining the voice information is Acquiring, storing the acquired content information in association with the registered voice information, and corresponding to the acquired voice information If the speaker is determined not to match the speaker corresponding to the registered voice information stored in the database, including the steps of: storing in the database the acquired voice information as the registered voice information.
  • the speaker's database can be constructed and updated without performing troublesome setting operations for the speaker. Further, since only the voice information and the content information are managed in association with each other, only the necessary database can be constructed without accumulating useless information, and the data amount of the database can be reduced.
  • the content information includes the name of the content and a person's name associated with the content.
  • the name of the content and the person's name associated with the content are stored in association with the registered voice information, so that the content viewed by the speaker can be managed.
  • a plurality of contents associated with the registered voice information are classified into a plurality of genres, and a ratio of contents classified into each genre among the plurality of contents is calculated for each of the plurality of genres.
  • the method further includes the step of storing the ratio of the content calculated for each of the plurality of genres in the database in association with the registered voice information.
  • the database associates and stores content information and a service provided to a speaker who viewed the content corresponding to the content information, and the speaker corresponding to the acquired voice information Is determined to match the speaker corresponding to the registered voice information stored in the database, the content information stored in association with the registered voice information is identified, and the identified content information is identified
  • the method further includes the steps of identifying an associated service and providing the identified service to the speaker.
  • the speaker can confirm the available services.
  • the method further comprises the step of storing in the database.
  • the speaker since the service selected by the speaker from among the displayed at least one service candidate is provided to the speaker, the speaker can select a desired service. Also, since the provided service is stored in the database in association with the registered voice information, the service provided to the speaker can be managed.
  • the service includes a service that distributes content to be displayed on the device, or a service that distributes an advertisement to be displayed on the device.
  • the speaker with a service for distributing the content to be displayed on the device or a service for distributing the advertisement to be displayed on the device.
  • a speaker identification device is a speaker identification device for identifying a speaker, and includes a display unit for displaying content and voice information of a speaker who is around the speaker identification device.
  • a speaker corresponding to the voice information acquired by the voice acquisition unit a database for storing a voice acquisition unit to be acquired, registered voice information as registered voice information, and content information related to content in association with each other;
  • a determination unit which determines whether or not the speaker matches the speaker corresponding to the registered voice information stored in association with the content information in the database; and the speaker corresponding to the voice information acquired by the determination unit If it is determined that the speaker matches the speaker corresponding to the registered voice information stored in the database, it is displayed on the display unit when the voice information is acquired.
  • a database updating unit that acquires content information related to the content and stores the acquired content information in association with the registered voice information; and a speaker corresponding to the voice information acquired by the determination unit is stored in the database
  • a database storage unit that stores voice information acquired by the voice acquisition unit as registered voice information in the database when it is determined that the voice information does not match the speaker corresponding to the stored registered voice information.
  • the speaker's database can be constructed and updated without performing troublesome setting operations for the speaker. Further, since only the voice information and the content information are managed in association with each other, only the necessary database can be constructed without accumulating useless information, and the data amount of the database can be reduced.
  • An information management method is an information management method in a speaker identification system for identifying a speaker who is in the vicinity of a device displaying content, the method including the step of receiving voice information of the speaker Determining whether a speaker corresponding to the received voice information matches a speaker corresponding to registered voice information stored in association with content information related to content in the database; If it is determined that the speaker corresponding to the voice information matches the speaker corresponding to the registered voice information stored in the database, the content displayed on the device when the voice information is acquired Acquiring content information related to the content information, and storing the received content information in association with the registered voice information; If it is determined that the speaker corresponding to the received voice information does not match the speaker corresponding to the registered voice information stored in the database, the received voice information is registered in the database as registered voice information. And storing.
  • the database can be constructed and updated without performing troublesome setting operations for the speaker. Further, since only the voice information and the content information are managed in association with each other, only the necessary database can be constructed without accumulating useless information, and the data amount of the database can be reduced.
  • FIG. 1 is a diagram showing an entire configuration of a speaker identification system according to a first embodiment of the present invention.
  • the configuration shown in FIG. 1 is an example, and the speaker identification system may have a configuration other than the configuration shown in FIG. Also, the speaker identification system may lack some of the configurations shown in FIG.
  • the speaker identification system includes a server device 100 and a speaker identification device 110.
  • the speaker identification device 110 is, for example, a content viewing device such as a television or a personal computer installed in each home. As shown in FIG. 1, the server device 100 and the speaker identification device 110 installed in each home are communicably connected to each other via the network 120.
  • one speaker identification device 110 may be connected to the server device 100, and a plurality of speaker identification devices 110 may be connected to the server device 100. Also, a plurality of speaker identification devices 110 may be arranged in each home. Also, the network 120 is, for example, the Internet.
  • the place where the server apparatus 100 is disposed is not particularly limited.
  • the server apparatus 100 may be disposed at a data center that handles big data, or may be disposed at each home.
  • the data center is owned by a company that manages and operates the data center. Further, each configuration of the server apparatus 100 may be integrated in one apparatus or may be arranged in different apparatuses.
  • the server apparatus 100 includes a control unit 101, a communication unit 102, a program information database (DB) 103, a service information database (DB) 104, and a family database (DB) 105.
  • the program information DB 103 and the service information DB 104 are a common database (DB) common to all homes.
  • the family database (DB) 105 is an individual database (DB) constructed for each home.
  • the control unit 101 is a component that performs various controls related to the server device 100, and is not particularly limited.
  • the control unit 101 includes, for example, a CPU (central processing unit).
  • the communication unit 102 is a component for connecting to the network 120, and is not particularly limited. The connection to the network 120 does not matter.
  • the program information database 103 and the service information database 104 which are common databases are databases referred to by all the speaker identification devices 110.
  • the program information database 103 and the service information database 104 are recording devices capable of storing a large amount of information.
  • the program information database 103 and the service information database 104 may be stored in the same device, or may be stored in separate devices.
  • the program information database 103 stores, for example, program information (program name, broadcast time, genre, performers, etc.) related to a television program.
  • the server apparatus 100 may acquire program information on a television program from an external server apparatus.
  • Television programs are provided by terrestrial digital broadcast waves or satellite broadcast waves.
  • the content that the user (speaker) views and listens to is not limited to a television program, but may be content acquired via the Internet.
  • the service information database 104 stores information on services to be provided to the speaker.
  • the family database 105 and the family database 106 which are individual databases are constructed separately for each home.
  • the family database 105 is referenced only from the speaker identification device 110 corresponding to each database.
  • the family database 105 is a recording device capable of accumulating a large amount of information as the common database.
  • the family database 105 corresponds to the speaker identification device 110 in the home A shown in FIG. 1
  • the family database 106 corresponds to the speaker identification device 110 in the home B shown in FIG.
  • Each family database may be stored in the same device or may be stored in separate devices.
  • the speaker identification device 110 includes a control unit 111, a communication unit 112, a voice acquisition unit 113, and a display unit 114. Note that these configurations may be incorporated as part of the configuration of the content viewing device, or may be included in an apparatus connected to the outside of the content viewing device.
  • the speaker identification device 110 may have any of the above-described configurations, and may be, for example, a television for home use, a PC (personal computer), a smartphone, a tablet computer, a mobile phone, or the like. Also, the speaker identification device 110 may be a dedicated device for performing a speaker identification system.
  • control unit 111 and the communication unit 112 have the same configuration as the control unit 101 and the communication unit 102 of the server apparatus 100, and thus the description thereof will be omitted.
  • the voice acquisition unit 113 is a voice recording device provided with a microphone.
  • the display unit 114 is a device having a display function by a monitor or the like.
  • FIG. 1 illustrates a speaker identification system described below by the speaker identification device 110 and the server device 100
  • the present invention is not limited to this.
  • part or all of the configuration of the server apparatus 100 may be included in the speaker identification device 110, or the speaker identification system may be configured with only the speaker identification device 110.
  • FIG. 2 is a block diagram showing the configuration of the speaker identification system in the first embodiment.
  • the speaker identification system includes a voice acquisition unit 201, a viewing content information acquisition unit 202, and a database management unit 203.
  • the speech acquisition unit 201 acquires speech information in a format that can be analyzed for speaker identification.
  • the voice information in a format that can be analyzed may be a sound including the voice of one speaker.
  • the voice acquisition unit 201 may remove noise from the voice information if the voice information includes noise other than human voice. Further, the timing of acquiring the audio information and the time length of the acquired audio information are not particularly limited.
  • the voice acquisition unit 201 may always obtain voice information or may obtain voice information at preset time intervals. Further, the voice acquisition unit 201 may obtain voice information only when a person is producing a voice.
  • the voice acquisition unit 201 automatically detects a voice section, and as a result of analyzing the obtained voice information, outputs voice information that can be identified to the database management unit 203.
  • the viewing content information acquisition unit 202 acquires viewing content information on the content that the speaker is viewing at the timing when the voice acquisition unit 201 acquires the voice information.
  • the viewing content information includes, for example, the genre of the content, the broadcast time, the cast, the viewing time, and the like.
  • the viewing content information may include other information that can be acquired from the content providing source or the content viewing device.
  • the viewing content information acquisition unit 202 outputs the acquired viewing content information to the database management unit 203.
  • the database management unit 203 constructs and manages the family database 105 using the voice information acquired by the voice acquisition unit 201 and the viewing content information acquired by the viewing content information acquisition unit 202.
  • the family database 105 associates and stores registered voice information, which is voice information acquired in the past, and a history of viewing content information of a speaker corresponding to the registered voice information.
  • the registered voice information is registered as a WAV format file.
  • the registered voice information may not necessarily be a WAV format file.
  • the registered voice information may be voice-compressed data such as MPEG format or AIFF format.
  • the registered voice information is automatically encoded, for example, into a compressed file and stored in the family database 105.
  • the database management unit 203 may store the viewing content information acquired by the viewing content information acquisition unit 202 as it is in the family database 105, or the viewing content information acquired by the viewing content information acquisition unit 202 may be stored in the internal memory. After being accumulated, analyzed and classified, the analyzed and classified viewing content information may be accumulated in the family database 105. The information accumulated in the family database 105 will be described later.
  • the database management unit 203 determines whether the speaker corresponding to the voice information acquired by the voice acquisition unit 201 matches the speaker corresponding to the registered voice information stored in the family database 105 in association with the viewing content information. To judge. When it is determined that the speaker corresponding to the acquired voice information matches the speaker corresponding to the registered voice information stored in the family database 105, the database management unit 203 displays the display unit when the voice information is acquired. Viewing content information on the content displayed in 114 is acquired, and the acquired viewing content information is stored in association with the registered voice information. When it is determined that the database management unit 203 does not match the speaker corresponding to the acquired voice information with the speaker corresponding to the registered voice information stored in the family database 105, the database management unit 203 is acquired by the voice acquisition unit 201. Voice information is stored in the family database 105 as registered voice information.
  • FIG. 3 is a flowchart showing the operation of the speaker identification system in the first embodiment of the present invention.
  • the family database update method by the speaker identification system according to the first embodiment will be described with reference to FIG. Note that the processing of the flowchart is continuously performed, and the processing of the flowchart is repeated at the time of voice acquisition.
  • the speech acquisition unit 201 acquires speech information of a speaker (step S1).
  • step S2 based on the result of analyzing (not shown) the acquired voice information, the database management unit 203 matches the acquired voice information with the registered voice information accumulated in the family database 105 in the past? It is determined whether or not it is (step S2). Here, if it is determined that the acquired voice information matches the registered voice information, the process proceeds to step S3. If it is determined that the acquired voice information does not match the registered voice information, the process proceeds to step S5. move on. When the present speaker identification system is used for the first time, there is no family DB, so the process proceeds to step S5.
  • the method of comparing the acquired voice information and the registered voice information is not particularly limited.
  • the database management unit 203 obtains a speaker model from the obtained voice information, and determines the obtained speaker model by comparing the obtained speaker model with the speaker model of the registered voice information.
  • the speaker model is information required to identify a speaker, which is calculated from characteristics unique to an individual such as frequency characteristics of acquired voice information.
  • the database management unit 203 may create a speaker model by calculating a normal distribution from frequency characteristics.
  • the speaker model may be any information for specifying a speaker, and may be other characteristics that can be acquired from voice information or other information that can be calculated from them.
  • the database management unit 203 determines whether the acquired voice information matches the registered voice information stored in the family database 105 in the past, thereby to speak the story corresponding to the acquired voice information. It can be determined whether or not the speaker matches the speaker corresponding to the registered voice information stored in the family database 105 in association with the viewing content information.
  • the viewing content information acquisition unit 202 views the viewing content information related to the content currently being viewed by the speaker by the speaker identification device 110. Are acquired from the program information database 103 (step S3).
  • the database management unit 203 stores the viewing content information acquired by the viewing content information acquisition unit 202 in association with the registered voice information stored in the family database 105 (step S4). This rebuilds the family database.
  • the database management unit 203 stores the newly acquired viewing content information in addition to the viewing content already stored.
  • the database management unit 203 registers (stores) the acquired voice information in the family database 105 as registered voice information. (Step S5). At this time, the database management unit 203 may store a speaker model created from the acquired voice information as registered voice information.
  • the above process is repeated at regular intervals, and updating of the family database 105 is repeated, whereby a database with high accuracy is constructed.
  • FIG. 4 is a sequence diagram showing an example of the operation of the speaker identification system according to Embodiment 1 of the present invention.
  • the voice acquisition unit of the speaker identification device 110 speaks.
  • the step 113 detects that there is an utterance and acquires voice information of the speaker (step S11).
  • control unit 111 analyzes the voice information acquired by the voice acquisition unit 113 (not shown), and the communication unit 112 transmits the voice information analyzed by the control unit 111 to the server device 100.
  • the voice analysis process may be performed by the control unit 111 of the speaker identification device 110 or may be performed by the control unit 101 of the server device 100.
  • the communication unit 102 of the server device 100 receives the voice information transmitted by the speaker identification device 110.
  • the control unit 101 of the server device 100 registers the received voice information in the family database using the voice information received by the communication unit 102 and the family database 105 corresponding to the home A of the server device 100.
  • the voice information is compared (step S13).
  • the control unit 101 determines whether the received voice information matches the registered voice information in the family database. Thus, it can be determined whether the speaker whose speech has been detected is a speaker whose voice information has already been registered.
  • the method of determining whether the received voice information matches the registered voice information is the same as the method described in step S2 of FIG.
  • each family database is managed in association with a device ID for identifying the speaker identification device 110, and This can be determined by adding the device ID. That is, the family database is provided for each device ID for identifying the speaker identification device 110, the speaker identification device 110 adds the device ID to the voice information and transmits it, and the server device 100 receives the device Read the family database corresponding to the ID.
  • the family database may be provided for each viewer ID for identifying a viewer, and the speaker identification device 110 may add the viewer ID to the voice information and transmit it, and the server apparatus 100 May read out a family database corresponding to the received viewer ID.
  • the control unit 101 may compare the acquired voice information with all registered voice information of a plurality of family databases.
  • control unit 101 causes the viewer (speaker) in the home A to view when the voice information is acquired.
  • Viewing content information related to the content (program) being acquired is acquired from the program information database 103 in the server apparatus 100 (step S14).
  • the method by which the control unit 101 of the server apparatus 100 identifies the program being viewed by the viewer (speaker) is not limited.
  • the control unit 101 may sequentially request the speaker identification device 110 to transmit program identification information capable of identifying a viewed program such as a channel number.
  • the speaker identification device 110 may transmit program identification information such as a viewing channel together with the voice information, and the control unit 101 selects viewing content information corresponding to the received program identification information as a program information database. You may acquire from 103.
  • control unit 101 builds and updates the family database 105 for each viewer (speaker) based on the acquired viewing content information (step S15).
  • FIG. 5 is a diagram showing an example of a data structure of a family database according to Embodiment 1 of the present invention.
  • the control unit 101 selects the content that was being viewed when the voice information was acquired.
  • Viewing content information such as genre, main performers and broadcast time is stored in a family database, and the family database is updated.
  • each registration voice information stored in the WAV format is associated with view content information including a broadcast start date and time of a content viewed by a speaker corresponding to the registration voice information, a program name and a cast.
  • the family database may manage the registered voice information in association with the viewing content information on the content viewed by the speaker as it is.
  • the viewing content information may include the name of the content and the name of a person associated with the content, and may not include the broadcast date and time.
  • FIG. 6 is a diagram showing another example of the data structure of the family database in the first embodiment of the present invention.
  • the result of analysis of the content viewed by the speaker corresponding to the registered voice information in the past is associated with each registered voice information stored in the WAV format as the viewed content information and managed.
  • the control unit 101 calculates and manages the ratio of the genre, the performers, and the viewing time zone in the content that the speaker has viewed in the past.
  • the control unit 101 classifies the plurality of contents associated with the registered voice information into a plurality of genres, calculates the ratio of the contents classified into each genre among the plurality of contents for each of the plurality of genres, The ratio of content calculated for each genre may be associated with registered voice information and stored in the family database.
  • control unit 101 extracts performers associated with each of a plurality of contents associated with the registered voice information, counts the number of extracted performers of each performer, and is associated with the registered voice information.
  • the ratio of the number of extractions of each performer to the number of all contents may be calculated, and the ratio of the number of extractions of performer calculated for each performer may be stored in the family database in association with the registered voice information.
  • control unit 101 classifies the plurality of contents associated with the registered voice information into a plurality of viewing time zones, and the contents classified into each viewing time zone among the plurality of contents for each of a plurality of viewing time zones
  • the ratio of content calculated for each of a plurality of viewing time zones may be associated with registered voice information and stored in the family database.
  • the viewing time zones are classified into, for example, four time zones: morning, noon, night and late night.
  • control unit 101 extracts text information from the voice information, and based on the extracted text information
  • the speaker may be determined by analyzing the contents of the statement.
  • the control unit 101 may also determine the speaker by comparing the acquired viewing content information with the viewing content information stored in the family database.
  • the control unit 101 does not update the family database at that time, and stores the acquired voice information in the internal memory. You may accumulate. Then, the control unit 101 newly creates, as registered voice information, voice information determined to be the same person among a plurality of voice information stored in the memory, for example, every week, and stores it in the family database. (Registration) may be performed.
  • the communication unit 102 may transmit the updated information of the constructed family database to the speaker identification device 110 (step S16).
  • the communication unit 112 of the speaker identification device 110 receives the update information of the family database transmitted by the server device 100.
  • the display unit 114 of the speaker identification device 110 may display the updated content of the family database based on the received updated information of the family database (step S17).
  • the display unit 114 may display part or all of the updated family database.
  • the processes of step S16 and step S17 are not essential processes.
  • FIG. 7 is a diagram showing an example of the updated content of the family database displayed on the speaker identification device
  • FIG. 8 is a diagram showing another example of the updated content of the family database displayed on the speaker identification device is there.
  • the display unit 114 may display only the viewing content information corresponding to the user to which the viewing content information has been added. Further, as shown in FIG. 7, the display unit 114 may display the viewing content information as it is. In addition, as shown in FIG. 8, the display unit 114 may display, as viewing content information, a result of analysis of the content that the speaker corresponding to the registered voice information has viewed in the past. In the example illustrated in FIG. 8, the display unit 114 displays the genre, the performers, and the ratio of the viewing time zone in the content that the speaker viewed in the past.
  • the timing for displaying the updated content of the family database may be the timing when the family database 105 (106) is updated, or may be timing when the user has instructed to display the updated content of the family database.
  • the user can grasp the acquired viewing content information.
  • the speaker identification device 110 can further improve the accuracy of the family database by having a function of correcting the erroneous information by some operation when there is an error in the information stored in the family database. it can.
  • the speaker identification device 110 may perform the processing of step S13 and step S15 of FIG.
  • the speaker identification device 110 may include a family database 105.
  • FIG. 9 is a sequence diagram showing another example of the operation of the speaker identification system in the first embodiment of the present invention.
  • step S21 the voice acquisition unit 113 of the speaker identification device 110 detects that there is an utterance and obtains voice information of the speaker (step S21).
  • the process of step S21 is the same as the process of step S11 of FIG. 4.
  • control unit 111 uses the voice information acquired by the voice acquisition unit 113 and the family database 105 corresponding to the home A of the speaker identification device 110 to register the acquired voice information in the family database.
  • the information is compared (step S22).
  • the process of step S22 is the same as the process of step S13 of FIG.
  • the communication unit 112 requests the server device 100 to view content information (step S23).
  • control unit 101 of the server device 100 selects viewing content information on the content (program) that the viewer (speaker) in the home A is watching at the time when the voice information is acquired, in the server device 100. It acquires from the information database 103 (step S24).
  • the process of step S24 is the same as the process of step S14 of FIG.
  • the communication unit 102 transmits the acquired viewing content information to the speaker identification device 110 (step S25).
  • the communication unit 112 of the speaker identification device 110 receives the viewing content information transmitted by the server device 100.
  • control unit 111 constructs and updates the family database 105 for each viewer (speaker) based on the received viewing content information (step S26).
  • the process of step S26 is the same as the process of step S15 of FIG.
  • step S27 the display unit 114 of the speaker identification device 110 may display the updated contents of the family database (step S27).
  • the process of step S27 is the same as the process of step S17 of FIG.
  • the family database can be constructed and updated without performing troublesome setting operations for the user.
  • only the audio information and the viewing content information are associated with each other and managed, only the necessary database can be constructed without accumulating unnecessary information, and the data amount of the database can be reduced.
  • the optimum content can be provided to the user who is watching or the optimum content without acquiring useless information such as the user's age and the user's gender. It can be recommended.
  • personal information such as the user's name, age, and gender is not acquired, the user can use the speaker identification system with confidence.
  • the database management unit 203 acquires Although voice information is registered in the family database, the present invention is not particularly limited thereto.
  • the database management unit 203 acquires voice information of the speaker continuously during a predetermined time (period), and it is determined that the voice information acquired in step S2 does not match the registered voice information of the family database.
  • the number of times may be counted, and the process of step S5 may be performed only when the counted number exceeds a predetermined number. This makes it possible to suppress an increase in data and noise that does not need to be acquired in the family database.
  • control unit 101 may delete the registered voice information from the family database when the voice information matching the registered voice information is not acquired for a predetermined period or more. Thereby, even if voice information of a person other than a family member is registered in the family database, it can be automatically deleted.
  • FIG. 10 is a block diagram showing a configuration of a speaker identification system according to Embodiment 2 of the present invention.
  • the speaker identification system includes a voice acquisition unit 201, a viewing content information acquisition unit 202, a database management unit 203, and a service providing unit 204.
  • FIG. 10 the same components as those of the speaker identification system shown in FIG.
  • the configurations of the voice acquisition unit 201 and the viewing content information acquisition unit 202 are the same as in the first embodiment, and thus the description thereof is omitted.
  • the database management unit 203 constructs a family database based on the acquired voice information and the viewing content information. Furthermore, in the second embodiment, the database management unit 203 outputs the voice information and the viewing content information stored in the family database to the service providing unit 204. In addition, the database management unit 203 acquires information on a service provided to the user from the service providing unit 204 described later, and stores the information in association with the registered voice information. In addition, the database management unit 203 may manage a database that stores information related to service candidates to be provided in association with television content.
  • the service providing unit 204 provides a service suitable for the preference of the viewer (speaker) when a predetermined service providing condition is satisfied, based on the acquired voice information and the viewing content information.
  • the service is a service for recommending content such as viewable television programs or a service for distributing advertisements.
  • the service providing unit 204 may provide other services that can be analogized from the viewing content information.
  • the service is provided to the display unit 114 at the serviceable timing. Also, when a service is presented, a plurality of available service candidates may be presented and selected by the viewer (speaker).
  • the candidate for the service to be provided may be acquired from a database managed by the database management unit 203.
  • the service database (not shown) associates and stores viewing content information and a service provided to a speaker who has viewed content corresponding to the viewing content information.
  • the viewing content information stored in the service database is, for example, the name of the content.
  • the service providing unit 204 is stored in association with the registered voice information.
  • the present content information is identified, the service associated with the identified content information is identified, and the identified service is provided to the speaker.
  • the service providing unit 204 determines whether there is at least one service that can be provided and that it is a predetermined service providing timing. Then, when it is determined that there is a service that can be provided, and it is determined that it is a predetermined service provision timing, the service providing unit 204 displays the candidate of at least one service that can be provided on the speaker identification device 110 Let
  • the service providing unit 204 provides the speaker with a service selected by the speaker from among the displayed at least one service candidate.
  • the database management unit 203 stores the provided service in the family database in association with the registered voice information.
  • the service includes a service for distributing content to be displayed on the speaker identification device 110 or a service for distributing an advertisement to be displayed on the speaker identification device 110.
  • FIG. 11 is a flowchart showing the operation of the speaker identification system in the second embodiment of the present invention.
  • a service providing method by the speaker identification system according to the second embodiment will be described with reference to FIG. Note that the processing of the flowchart is continuously performed, and the processing of the flowchart is repeated at the time of voice acquisition.
  • step S31 and step S32 in FIG. 11 are the same as the processes in step S1 and step S2 in FIG. Further, when it is determined that the voice information acquired in step S32 does not match the registered voice information, the process of step S33 of registering the acquired voice information in the family database is the same as the process of step S5 of FIG. Therefore, the explanation is omitted.
  • the viewing content information acquisition unit 202 When it is determined that the acquired voice information matches the registered voice information of the family database (YES in step S32), the viewing content information acquisition unit 202 relates to the content currently being viewed by the speaker by the speaker identification device 110. Viewing content information is acquired from the program information database 103 (step S34). The process of step S34 is the same as the process of step S3 of FIG.
  • the service providing unit 204 acquires at least one service candidate to be provided from the database management unit 203 (step S35).
  • the at least one service candidate to be provided is, for example, at least one service associated with the viewing content information corresponding to the registered voice information that matches the acquired voice information. That is, at this point in time, at least one service candidate to be acquired is associated with the viewing content information, and therefore, is narrowed down to one that matches the preference of the viewer (speaker).
  • the service providing unit 204 determines whether the service providing condition is satisfied (step S36). If it is determined that the service providing condition is satisfied, the process proceeds to step S34. If it is determined that the service providing condition is not satisfied, the process proceeds to step S40.
  • the service providing condition is a determination as to whether or not there is a service that can be provided, and a determination as to whether it is time to provide a predetermined service. The determination as to whether or not there is a service that can be provided is whether or not at least one service candidate has been acquired in step S35. For example, depending on the content being viewed, there is a possibility that service candidates are not associated. In that case, the process proceeds to step S40.
  • the determination as to whether or not it is the timing to provide the service may be, for example, the provision of the service such as the timing when the power of the speaker identification device 110 is turned on or the timing when the content being watched Is the timing that does not disturb the viewing of the content. If it is the timing to inhibit viewing of the content, the process proceeds to step S40.
  • the timing of service provision may be intentionally selected by the viewer (speaker) or may be automatically determined by the speaker identification system.
  • the service providing unit 204 displays at least one service candidate on the display unit 114 in a selectable state (step S37).
  • the display method may be displayed so as not to disturb viewing of the currently displayed content, or may be switched from the currently displayed content to display service candidates. A display example of service candidates will be described later.
  • the service providing unit 204 provides the selected service (step S38).
  • the process may proceed to step S40.
  • the database management unit 203 associates the information on the selected service with the registered voice information and adds it to the family database (step S39).
  • step S40 the database management unit 203 stores the viewing content information acquired by the viewing content information acquisition unit 202 in association with the registered voice information stored in the family database (step S40). This rebuilds the family database.
  • the process of step S40 is the same as the process of step S4 in FIG.
  • FIG. 12 is a sequence diagram showing an example of the operation of the speaker identification system in the second embodiment of the present invention.
  • the description of the same processing as the speaker identification system in the first embodiment shown in FIG. 4 is omitted.
  • the processes in steps S51 to S54 in FIG. 12 are the same as the processes in steps S11 to S14 in FIG.
  • the voice information of the viewer (speaker) in home A in FIG. 1 is matched with the voice information of the existing speaker in family database 105 by comparing it with the registered voice information in family database 105. Then, the case where it is determined will be described.
  • the control unit 101 of the server device 100 acquires at least one service candidate to be provided from the service information database 104 based on the viewing content information in the family database 105 (step S55).
  • the method of acquiring the provided service candidate will be described.
  • FIG. 13 is a diagram showing an example of a data structure of a family database according to Embodiment 2 of the present invention. As shown in FIG. 13, in the family database 105 according to the second embodiment, viewing voice information and a history of services (service selection history) selected in the past by the speaker are associated with registered voice information. It has been accumulated.
  • FIG. 14 is a diagram showing an example of a data structure of a service information database according to Embodiment 2 of the present invention.
  • candidates for the provided service are stored in association with the name of the content.
  • one service candidate is not necessarily associated with one content name, and a plurality of service candidates may be associated with one content name.
  • the control unit 101 compares the content name included in the viewing content information associated with the registered voice information “0001. wav” with the content name in the service information database 104.
  • the control unit 101 searches the content name in the service information database 104 for a content name that matches the content name included in the viewing content information associated with the registered voice information “0001. wav”.
  • the control unit 101 acquires, from the service information database 104, a candidate for a provided service corresponding to the matching content name.
  • candidates for services content provision or advertisement provision
  • the method of acquiring service candidates is not limited to this.
  • the cast and the provided service candidate may be managed in association with each other.
  • candidates for a service providing content or providing an advertisement related to a performer interested in the speaker are selected.
  • FIG. 15 is a diagram showing another example of the data structure of the service information database according to the second embodiment of the present invention.
  • candidates for provided services are stored in association with the genre of content. .
  • the control unit 101 specifies the genre of the content most viewed in the past by using the viewing content information associated with the registered voice information determined to be identical to the acquired voice information, and the service From the genres in the information database 104, a genre that matches the specified genre is searched. If there is a matched genre, the control unit 101 acquires, from the service information database 104, a candidate for provided service corresponding to the matched genre. As a result, candidates for services (providing content or providing advertisements) related to the genre of the content of interest to the speaker are selected.
  • the voice information is not acquired, if there is information of a service that can be provided based on the viewing content information in the family database 105, the provided service candidate in the service information database 104 may be updated.
  • the communication unit 102 of the server apparatus 100 transmits service information indicating at least one acquired service candidate to the television serving as the speaker identification device 110 (step S56).
  • the communication unit 112 of the speaker identification device 110 receives the service information transmitted by the server device 100.
  • the control unit 111 of the speaker identification device 110 determines whether it is the timing at which service can be provided, and when it is determined that the timing is at which the service can be provided, the display unit 114 of the speaker identification device 110 Displays the service candidate (step S57).
  • the display unit 114 displays, for example, the current viewing position of the viewer (speaker), such as the timing immediately after the television is turned on, the timing when the program guide is displayed, or the timing immediately after some operation on the television is performed. Display candidate services at timings that are not concentrated on content and are likely to be appropriate for selecting a service or changing the content being viewed.
  • control unit 101 of the server apparatus 100 may determine whether it is a serviceable timing, or whether the control unit 111 of the speaker identification device 110 may be a serviceable timing. You may decide Then, the input receiving unit (not shown) of the speaker identification device 110 receives the selection of one service by the viewer (speaker) from among the displayed at least one service candidate.
  • FIG. 16 is a diagram showing an example of a selection screen for selecting service candidates in the second embodiment of the present invention.
  • the display unit 114 displays the acquired available service (advertisement delivery) candidate.
  • FIG. 16 illustrates an example in which a plurality of advertisements are displayed in association with the color of the button on the remote control.
  • the viewer can select the desired service (delivery of advertisement) by pressing the button of the remote control corresponding to the desired service (delivery of advertisement).
  • a desired operation may be performed by selecting a service from the service display portion, and a viewer (speaker) who views the service voluntarily performs those operations. May be
  • FIG. 17 is a diagram showing another example of the selection screen for selecting service candidates in the second embodiment of the present invention.
  • the display unit 114 displays the acquired available service (reproduction of content) candidates.
  • FIG. 17 shows an example in which content (program) recommended to a viewer (speaker) is displayed, for example.
  • the viewer (speaker) can select the desired service (reproduction of content) by pressing the button of the remote control corresponding to the desired service (reproduction of content).
  • the control unit 111 of the speaker identification device 110 provides the selected service (step S58). That is, the control unit 111 causes the display unit 114 to display the selected service. For example, if the selected service is a content for reproducing program content, the control unit 111 reproduces the selected content. If the content to be reproduced is stored in the speaker identification device 110, the control unit 111 reads and reproduces the stored content. In addition, if the content to be reproduced is not stored in the speaker identification device 110 but is stored in the server device 100, the control unit 111 acquires the content from the server device 100 and reproduces the acquired content. Do. In addition, if the selected service is a service that delivers an advertisement, the control unit 111 causes the web page of the selected advertisement to be displayed via the network.
  • the selected service is a service that delivers an advertisement
  • the communication unit 112 transmits service selection information on the selected service to the server device 100 (step S59).
  • the service selection information includes, for example, the date and time when the content was reproduced, the name of the reproduced content, and the performer of the reproduced content.
  • the communication unit 102 of the server device 100 receives the service selection information transmitted by the speaker identification device 110.
  • control unit 101 of the server device 100 updates the family database 105 based on the acquired viewing content information and the received service selection information (step S60).
  • the control unit 101 updates the viewing content information in association with the registered voice information, and also updates the service selection information selected by the viewer (speaker).
  • the control unit 101 updates the service selection history in association with the registered voice information.
  • the communication unit 102 may transmit the updated information of the constructed family database to the speaker identification device 110 (step S61).
  • the communication unit 112 of the speaker identification device 110 receives the update information of the family database transmitted by the server device 100.
  • the display unit 114 of the speaker identification device 110 may display the updated content of the family database based on the received updated information of the family database (step S62).
  • the display unit 114 may display part or all of the updated family database.
  • the processes of step S61 and step S62 are not essential processes.
  • the family database can be constructed without requiring the user to perform troublesome setting operations.
  • Providing a more optimal service to the speaker since information on the preference of the speaker corresponding to the registered voice information can be stored by selecting the optimal service from among at least one service candidate. Can.
  • WO 01/089216 discloses an advertisement distribution method and an advertisement distribution apparatus for transmitting advertisement data to a receiver of each registered viewer.
  • the conventional advertisement distribution apparatus receives, on the transmission side, data characterizing the audience from each registered viewer, receives data characterizing the audience targeting the advertisement data, associates it with the advertisement data, and is registered.
  • the advertisement data to be transmitted to the receiver of the viewer based on the degree of matching between the data characterizing the viewer layer of the viewer and the data characterizing the audience targeted by the advertisement
  • the advertisement data assigned to the viewer is transmitted to the receiver of the viewer for each of the registered viewers selected from among the above and assigned to the viewer.
  • advertisement data distribution is controlled based on the degree of agreement between data characterizing the audience targeted by the advertisement and data characterizing only the already registered viewer. Ru. Therefore, when the contents of registration change, for example, the family configuration of the viewer changes, it is necessary to voluntarily change the registration contents. In addition, there is a problem that it is not possible to receive an appropriate advertisement because it is impossible to judge the degree of coincidence with the data characterizing the audience targeted by the advertisement if the data characterizing the audience demographic of the audience is forgotten. doing.
  • a speaker identification method is a speaker identification method for identifying a speaker, which includes the steps of acquiring voice information of the speaker, and a speaker corresponding to the acquired voice information. Determining whether the database corresponds to the speaker corresponding to the registered voice information stored in association with the speaker information on the speaker in the database; and the speaker corresponding to the acquired voice information is the database Accepting the input of the speaker information by the speaker when it is determined that the speaker does not match the speaker corresponding to the registered voice information stored in the database; and the database including the acquired voice information as registered voice information And storing the received speaker information in the database in association with the registered voice information.
  • the voice information of the speaker is acquired to identify the speaker, and when a new speaker not registered in the database is identified, the user is prompted to register the speaker information to be associated with the new speaker in the database.
  • the registered speaker information is registered in the database. Therefore, a new speaker can be registered in the database without performing troublesome setting operations for the speaker.
  • the step of distributing the content according to the speaker information since the content corresponding to the speaker information is distributed, it is possible to provide the speaker with appropriate content.
  • the speaker information includes at least one of the speaker's age and the speaker's gender.
  • content can be provided according to at least one of the speaker's age and gender.
  • a speaker identification device is a speaker identification device for identifying a speaker, and a voice acquisition unit for obtaining voice information of a speaker who is around the speaker identification device;
  • a database for storing registered voice information, which is voice information, and speaker information on a speaker in association with each other, and a speaker corresponding to the voice information acquired by the
  • a determination unit which determines whether or not the speaker corresponds to the registered voice information stored in association with the personal information, and the speaker corresponding to the acquired voice information is stored in the database
  • the database includes the input reception unit for receiving the input of the speaker information by the speaker, and the acquired voice information as registered voice information.
  • the voice information of the speaker is acquired to identify the speaker, and when a new speaker not registered in the database is identified, the user is prompted to register the speaker information to be associated with the new speaker in the database.
  • the registered speaker information is registered in the database. Therefore, a new speaker can be registered in the database without performing troublesome setting operations for the speaker.
  • An information management method is an information management method in a speaker identification system for identifying a speaker, comprising the steps of: receiving voice information of the speaker; and corresponding to the received voice information Determining whether the target speaker matches the speaker corresponding to the registered voice information stored in the database in association with the speaker information related to the speaker, and the speech corresponding to the received voice information Sending input prompting information prompting the speaker to input speaker information if it is determined that the speaker does not match the speaker corresponding to the registered voice information stored in the database; Receiving the speaker information input by the speaker according to the input promotion information; storing the received voice information as registered voice information in the database; It has been the talker information in association with the registered voice information; and a step of storing in the database.
  • the voice information of the speaker is acquired to identify the speaker, and when a new speaker not registered in the database is identified, the user is prompted to register the speaker information to be associated with the new speaker in the database.
  • the registered speaker information is registered in the database. Therefore, a new speaker can be registered in the database without performing troublesome setting operations for the speaker.
  • a content providing system for providing appropriate content in accordance with viewer information on a viewer
  • various types of content are provided according to the viewer in front of a television (hereinafter also referred to as a terminal device). It shows about the content provision system implemented via communication lines, such as the internet.
  • FIG. 18 is a diagram showing an overall configuration of a content providing system according to Embodiment 3 of the present invention.
  • the content providing system 400 includes a voice acquisition unit 401, a speaker identification unit 402, a viewer configuration management unit 403, an information input unit 404, a content distribution control unit 405, a content distribution unit 406, and a display unit 407. Equipped with
  • the voice acquisition unit 401 obtains a voice signal (voice information) of a viewer (speaker).
  • the speaker identifying unit 402 identifies the speaker from the voice information acquired by the voice acquiring unit 401.
  • the speaker identifying unit 402 determines whether the speaker corresponding to the acquired voice information matches the speaker corresponding to the registered voice information stored in the database in association with the speaker information on the speaker. Do.
  • the speaker information includes, for example, at least one of the speaker's age and the speaker's gender.
  • the viewer configuration management unit 403 manages viewer configuration information using the identification information acquired from the speaker identification unit 402, and when it is determined to be a new viewer, prompts the user to input information related to the new viewer. It receives input information and manages the viewer configuration.
  • the information input unit 404 receives an input of information from the viewer. When it is determined that the speaker corresponding to the acquired voice information does not match the speaker corresponding to the registered voice information stored in the database, the information input unit 404 accepts the input of the speaker information by the speaker .
  • the viewer configuration management unit 403 stores the acquired voice information as registered voice information in the database, and stores the received speaker information in the database in association with the registered voice information.
  • the content delivery control unit 405 controls delivery of content according to the viewer composition information managed by the viewer configuration management unit 403.
  • the content distribution unit 406 is controlled by the content distribution control unit 405, and distributes content according to the viewer configuration information.
  • the content distribution unit 406 distributes content according to the speaker information.
  • the display unit 407 prompts input of information on the viewer and displays the distributed content.
  • the content providing system 400 does not necessarily have to include all of these configurations, and some configurations may be missing.
  • the content providing system 400 can be divided into, for example, a terminal device on the viewer side and a server device for distributing content.
  • a microphone disposed in a television as an example of a terminal device
  • a central processing unit CPU
  • ROM read only memory
  • various communication ICs Integrated Circuits
  • each unit of the server device is realized by hardware such as a CPU configuring a computer, a ROM storing a control program, and an IC for various communications.
  • FIG. 19 is a block diagram showing a configuration of a content providing system according to Embodiment 3 of the present invention.
  • the content providing system 500 in FIG. 19 shows an example of the configuration of the content providing system 400 in FIG.
  • the content providing system 500 and the content providing system 400 are the same system, but are represented by different codes for convenience.
  • the content providing system 500 shown in FIG. 19 includes a server device 510 and a terminal device 520.
  • the server device 510 includes a server communication unit 511, a speaker identification unit 512, a viewer configuration management unit 513, an advertisement distribution control unit 514, a viewer configuration DB (Data Base) 515, and a distribution advertisement DB (Data Base) 516. .
  • the place where the server device 510 is disposed is not particularly limited.
  • the server device 510 may be disposed at a data center that handles big data, or may be disposed at each home.
  • the data center is owned by a company that manages and operates the data center.
  • each configuration of the server device 510 may be integrated in one device or may be arranged in different devices.
  • the terminal device 520 includes a terminal communication unit 521, a voice acquisition unit 522, an information input unit 523, and a display unit 524.
  • the terminal device 520 may be any device having these configurations.
  • the terminal device 520 is configured of, for example, a television in a home, a PC (personal computer), a display connected to the PC, or the like. Further, the terminal device 520 may be configured by a mobile terminal such as a mobile phone, a smartphone, or a tablet terminal.
  • the terminal device 520 may not necessarily include each component inside the terminal device 520. For example, only the voice acquisition unit 522 may be attached to the outside of the terminal device 520.
  • the content providing system 500 may include a plurality of terminal devices 520, and each terminal device 520 may be connected to the server device 510.
  • the server communication unit 511 receives line data via the communication line 530, which is various public lines such as the Internet. Then, the server communication unit 511 extracts the viewer voice signal transmitted by the terminal device 520 from the received line data, and outputs it to the speaker identification unit 512. Further, the server communication unit 511 extracts the viewer tag data transmitted by the terminal device 520 from the received line data, and outputs the viewer tag data to the viewer configuration management unit 513. Also, server communication unit 511 outputs the registration promotion signal and advertisement data generated when a new speaker is detected as line data to communication line 530, and registers the registration promotion signal and advertisement data through communication line 530. Transmit to terminal 520.
  • the speaker identifying unit 512 acquires the viewer voice signal output by the server communication unit 511 to identify the speaker, and outputs the speaker identification result to the viewer configuration managing unit 513.
  • the speaker identifying unit 512 compares the acquired viewer voice signal with the registered voice signal registered in the viewer configuration DB 515 to identify a speaker. At this time, the speaker identification unit 512 detects a new speaker when the acquired viewer voice signal and the registered voice signal registered in the viewer configuration DB 515 do not match.
  • the viewer configuration management unit 513 When the new speaker is detected by the speaker identification unit 512, the viewer configuration management unit 513 outputs a registration promotion signal to the server communication unit 511. That is, when the speaker identified by the speaker identification unit 512 is not registered in the viewer configuration stored in the viewer configuration DB 515, the viewer configuration management unit 513 promotes registration to the server communication unit 511. Output a signal. Also, the viewer configuration management unit 513 acquires the viewer tag data input by the viewer from the server communication unit 511, manages tag information associated with the viewer configuration, and outputs the viewer configuration information.
  • the advertisement distribution control unit 514 selects an advertisement to be distributed to the terminal side from the distribution advertisement DB 516 based on the viewer configuration information, and outputs the selected advertisement to the server communication unit 511.
  • the viewer configuration DB 515 is a database for storing viewer configuration information managed by the viewer configuration management unit 513.
  • the viewer configuration DB is created for each terminal device, and is managed by the IP address or ID corresponding to each terminal device.
  • the distribution advertisement DB 516 is a database for storing advertisement data distributed and managed by the advertisement distribution control unit 514.
  • the terminal communication unit 521 receives line data via the communication line 530, which is various public lines such as the Internet.
  • the terminal communication unit 521 receives the advertisement data and the registration promotion signal transmitted by the server device 510, and outputs the received advertisement data and the registration promotion signal to the display unit 524. Also, the terminal communication unit 521 outputs the viewer voice signal acquired by the voice acquisition unit 522 to the communication line 530, and outputs the viewer tag data input by the information input unit 523 to the communication line 530.
  • the audio acquisition unit 522 acquires a viewer audio signal and outputs the audio signal to the terminal communication unit 521.
  • the information input unit 523 receives the input of the viewer tag data associated with the new viewer when the registration promotion screen by the registration promotion signal is displayed on the display unit 524, and the input viewer tag data is transmitted to the terminal communication unit Output to 521.
  • the display unit 524 displays a screen prompting input of the viewer tag data when the registration promotion signal is received. In addition, the display unit 524 displays the received distribution advertisement data.
  • each device does not necessarily have to have all the configurations described above, and some configurations may be missing.
  • each device may have a configuration having another function.
  • FIG. 20 is a sequence diagram showing an example of the operation of the content providing system 500 according to the third embodiment of the present invention. Note that FIG. 20 shows a case where a new viewer is detected in the terminal device 520.
  • step S71 the audio acquisition unit 522 of the terminal device 520 acquires the audio signal of the viewer of the terminal device 520 (step S71). Note that the process of step S71 corresponds to the process performed by the voice acquisition unit 401 of the content providing system 400 in FIG.
  • the terminal communication unit 521 of the terminal device 520 transmits the acquired viewer voice signal to the server device 510 through the communication line 530 (step S72).
  • the terminal communication unit 521 may transmit other information related to the terminal device 520, such as an ID or an IP address for specifying the user of the terminal device 520, together with the viewer voice signal.
  • the server communication unit 511 of the server device 510 receives the viewer voice signal transmitted by the terminal device 520.
  • the speaker identifying unit 512 of the server device 510 receives the viewer voice signal transmitted from the terminal device 520 via the communication line 530, and the viewer configuration DB 515 corresponding to the terminal device 520 that has obtained the viewer voice signal.
  • the extraction of the viewer configuration DB 515 corresponding to the terminal device 520 may be performed based on information that can specify a storage location such as an IP address sent from the terminal device 520.
  • the process of step S73 corresponds to the process of the speaker identification unit 402 of the content providing system 400 in FIG.
  • the speaker identifying unit 512 detects a new speaker not registered in the viewer configuration DB 515 (step S74). That is, when there is a registered voice signal matching the received viewer voice signal among the registered voice signals registered in the viewer configuration DB 515, the speaker identifying unit 512 speaks the speech corresponding to the viewer voice signal. It is determined that the speaker is the speaker corresponding to the registered voice signal. On the other hand, when the registered voice signal matching the received viewer voice signal does not exist among the registered voice signals registered in the viewer configuration DB 515, the speaker identifying unit 512 speaks the speech corresponding to the viewer voice signal. It is determined that the speaker is a new speaker not registered in the viewer configuration DB 515. Thereby, a new speaker is detected.
  • the server communication unit 511 of the server device 510 transmits a registration promotion signal for prompting the terminal device 520 to register in the database of tag information associated with the new speaker via the communication line 530 (step S75).
  • the terminal communication unit 521 of the terminal device 520 receives the registration promotion signal transmitted via the communication line 530.
  • the detection of a new speaker may be conditional on the sound signal of the new speaker being continuously detected for a predetermined period (several days) or the like. This makes it possible to avoid false identification of a temporary visitor's voice or the like as the voice of a fixed viewer such as a family.
  • the display unit 524 displays a registration prompting screen for promoting entry of tag information in association with the new speaker (step S76).
  • the process of step S76 corresponds to the process of the display unit 407 of the content providing system 400 in FIG.
  • the registration prompting screen may be displayed at a position that does not interfere with viewing of the content, such as an end of a display screen on which content such as a program is displayed.
  • the registration promotion screen may be displayed at a timing that does not hinder the viewing of the content, such as when the terminal device 520 is powered on / off.
  • the information input unit 523 receives an input of new speaker information including a viewer voice signal and information on a viewer (viewer tag data) associated with the viewer voice signal (step S77).
  • the new speaker inputs new speaker information in accordance with the display on the registration promotion screen.
  • the process of step S77 corresponds to the process of the information input unit 404 of the content providing system 400 in FIG.
  • FIG. 21 is a view showing an example of a display screen for inputting a speaker's voice signal at the time of new speaker registration
  • FIG. 22 is for inputting a speaker's age and gender at the time of new speaker registration
  • FIG. 23 is a view showing an example of the display screen of FIG. 23, and FIG. 23 is a view showing an example of the display screen for inputting the nickname of the speaker at the time of new speaker registration.
  • the speech acquisition unit 522 first acquires a speech signal.
  • a voice level meter for surely recording the voice of the user, a vocabulary for uttering, etc. are displayed, and a new talk is made by a simple operation such as operation of the determination button on the remote control. Acquire the voice signal of the person.
  • the information input unit 523 receives an input of tag data to be associated with the speaker.
  • the tag data includes the new speaker's nickname, age and gender.
  • the input of the age and gender is accepted by a simple remote control operation. The user moves to the respective input fields of age and gender, selects the corresponding item displayed on the child screen, and presses the enter button to complete the input.
  • the user inputs his / her nickname using a ten key. After the input of the nickname is completed, the input to the tag data is completed by moving to the completion button and pressing the determination button.
  • the terminal communication unit 521 transmits the viewer tag data and the viewer voice signal of the new speaker to the server device 510 via the communication line 530 (step S78).
  • the server communication unit 511 of the server device 510 receives the viewer tag data and the viewer voice signal transmitted by the terminal device 520.
  • the viewer configuration management unit 513 of the server device 510 updates the viewer configuration DB 515 by storing the viewer tag data and the viewer voice signal received by the server communication unit 511 in the viewer configuration DB 515.
  • the process of step S79 corresponds to the process of the viewer configuration management unit 403 of the content providing system 400 in FIG.
  • FIG. 24 is a view showing an example of the data configuration of the viewer configuration DB 515. As shown in FIG. As shown in FIG. 24, in the viewer configuration DB 515, the age, sex, and the obtained viewer voice signal are associated with each nickname representing the viewer.
  • the database constructed in the viewer configuration DB 515 is not limited to this example.
  • the advertisement distribution control unit 514 of the server device 510 selects, from the distribution advertisement DB 516, advertisement data according to the information on the viewer stored in the viewer configuration DB 515 (step S80).
  • the selection method of the advertisement is not particularly limited.
  • the distribution advertisement DB 516 stores advertisement data to be distributed in association with age and gender. For example, a male in his 40's is associated with an advertisement for a car, a female in his 30's is associated with an advertisement for cosmetics, and the advertisement distribution control unit 514 determines the age and gender of the user. Choose the best ad according to The process of step S80 corresponds to the process of the content distribution control unit 405 of the content providing system 400 in FIG.
  • the distribution advertisement DB 516 may store the advertisement data in association with only the age, or may store the advertisement data in association with only the gender. In addition, the distribution advertisement DB 516 may store advertisement data in association with information on viewers other than age and gender. When the address of the viewer is stored in the viewer configuration DB 515, the distribution advertisement DB 516 stores advertisement data in association with the address, and the advertisement distribution control unit 514 determines the store closest to the address of the viewer. Advertisement data may be selected.
  • the server communication unit 511 transmits the advertisement data selected by the advertisement distribution control unit 514 to the terminal device 520 via the communication line 530 (step S81).
  • the terminal communication unit 521 of the terminal device 520 receives the advertisement data transmitted by the server device 510.
  • step S82 the display unit 524 of the terminal device 520 displays the advertisement data distributed from the server device 510 (step S82).
  • the process of step S82 corresponds to the process of the content distribution unit 406 of the content providing system 400 in FIG.
  • FIG. 25 is a flowchart showing an example of the operation of the server device 510 according to Embodiment 3 of the present invention.
  • the server apparatus 510 starts the operation shown in FIG. 25 when the power switch or a function (not shown in FIG. 19) associated with the power switch is turned on, and the function associated with the power switch or the power switch You may exit when it is turned off.
  • step S 91 the server communication unit 511 of the server device 510 receives line data from the communication line 530. At this time, the server communication unit 511 acquires the viewer voice signal transmitted by the terminal device 520.
  • the speaker identifying unit 512 identifies a speaker corresponding to the acquired viewer voice signal.
  • the speaker identifying unit 512 identifies the speaker by collating the received viewer voice signal with the viewer configuration DB 515 for each terminal device.
  • the speaker identifying unit 512 uses the speaker identification result to determine whether a new speaker has been detected. If the received viewer voice signal is not registered in the viewer configuration DB 515, the speaker identifying unit 512 determines that a new speaker has been detected, and the received viewer voice signal is registered in the viewer configuration DB 515. Then, it is determined that a new speaker has not been detected. Note that the detection of a new speaker may be a condition that the speaker does not exist in the viewer configuration DB 515 for a predetermined period (several days). This makes it possible to prevent the temporary voice of the visitor from being erroneously identified as the voice of a stationary viewer such as a family.
  • step S93 if it is determined that a new speaker has been detected (YES in step S93), the process proceeds to step S94 to register a new speaker. On the other hand, if it is determined that a new speaker has not been detected (NO in step S93), the process proceeds to step S97.
  • step S94 the viewer configuration management unit 513 creates a registration promotion signal for registering information related to a new speaker in the viewer configuration DB 515 and outputs it to the server communication unit 511, and the server communication unit 511 promotes registration. Send a signal.
  • step S95 the viewer configuration management unit 513 determines whether or not the server communication unit 511 receives the viewer tag data and the viewer voice signal of the new speaker.
  • the viewer tag data and the viewer voice signal are not transmitted from the terminal device 520 even though the registration promotion signal is transmitted, that is, the viewer tag data and the viewer voice signal are not received by the server device 510. If it is determined (NO in step S95), the process returns to step S94 in order to continuously promote registration.
  • step S95 when the viewer tag data and the viewer voice signal are transmitted from the terminal device 520, that is, when it is determined that the viewer tag data and the viewer voice signal are received (YES in step S95), the process of step S96. Go to
  • the viewer configuration management unit 513 updates the viewer configuration DB 515 for each terminal device. Specifically, the viewer configuration management unit 513 updates the viewer configuration DB 515 using the viewer tag data input by the information input unit 523 and the viewer voice signal acquired by the voice acquisition unit 522. . As shown in FIG. 24, the viewer configuration DB 515 is updated by storing age, gender and a viewer voice signal in association with each other for each new speaker's nickname. The viewer configuration management unit 513 stores the viewer tag data and the viewer voice signal received by the server communication unit 511 in the viewer configuration DB 515.
  • the viewer voice signal acquired anew is received by the terminal device 520 that receives the registration promotion signal, and the received viewer voice signal is stored in the viewer configuration DB 515, but the present invention
  • the server device 510 receives only the viewer tag data and stores the received viewer tag data in the viewer configuration DB 515 in association with the received viewer voice data. You may
  • step S97 the advertisement distribution control unit 514 selects, from the distribution advertisement DB 516, advertisement data corresponding to the information on the viewer (identified speaker or new speaker) stored in the viewer configuration DB 515. . Specifically, the advertisement distribution control unit 514 extracts advertisement data corresponding to the age and gender of the identified speaker or new speaker in the viewer configuration DB 515 from the distribution advertisement DB 516, and transmits the extracted advertisement data to the server communication Output to the part 511.
  • step S98 the server communication unit 511 transmits the advertisement data selected by the advertisement distribution control unit 514 to the terminal device 520 via the communication line 530.
  • FIG. 26 is a flowchart showing an example of the operation of the terminal device 520 according to Embodiment 3 of the present invention.
  • the terminal device 520 starts, for example, the operation shown in FIG. 26 when the power switch or a function (not shown in FIG. 19) associated with the power switch is turned on, and the function associated with the power switch or power switch is You may exit when it is turned off.
  • the terminal device 520 is a television, there is a function of displaying a broadcast program (content) as a basic function of the television, but in the description of the content providing system, a detailed description of the display of the content is omitted.
  • a broadcast program content
  • step S111 the voice acquisition unit 522 obtains a viewer voice signal representing a voice uttered by a viewer who is in the vicinity of the terminal device 520.
  • the voice acquisition unit 522 outputs the acquired viewer voice signal to the terminal communication unit 521.
  • step S112 the terminal communication unit 521 transmits the viewer voice signal acquired by the voice acquisition unit 522 to the server device 510 via the communication line 530.
  • the terminal communication unit 521 outputs the viewer voice signal to the communication line 530 as line data.
  • step S113 the terminal communication unit 521 determines whether a registration promotion signal transmitted by the server device 510 has been received. If it is determined that the registration promotion signal has been received (YES in step S113), the process proceeds to step S114. The terminal communication unit 521 outputs the received registration promotion signal to the display unit 524. On the other hand, when it is determined that the registration promotion signal is not received (NO in step S113), the process proceeds to step S117.
  • step S114 the display unit 524 displays a registration prompting screen for prompting input of information on a new speaker.
  • the information input unit 523 receives an input of the viewer speech signal of the new speaker and the viewer tag data associated with the viewer speech signal of the new speaker.
  • step S115 the terminal communication unit 521 determines whether or not the input of the viewer voice signal of the new speaker and the viewer tag data associated with the viewer voice signal of the new speaker is completed. . If it is determined that the input is not completed (NO in step S115), the process returns to step S114, and the display unit 524 continues to display the registration promotion screen. If it is determined that the input has been completed (YES in step S115), the process proceeds to step S116.
  • step S116 the terminal communication unit 521 causes the viewer voice signal of the new speaker and the viewer voice signal input by the information input unit 523 such as a remote control according to the registration prompting screen displayed on the display unit 524.
  • the viewer tag data (here, the age, gender, and the nickname) associated with the user ID are transmitted to the server device 510.
  • step S117 the terminal communication unit 521 receives the advertisement data transmitted by the server device 510.
  • step S118 the display unit 524 displays the advertisement data received by the terminal communication unit 521.
  • a voice uttered by the viewer is acquired from the terminal device to identify the speaker, and when the same unknown speaker is identified for a certain period, viewing the speaker using the terminal device As a new member of the Then, registration of the speaker information to be associated with the new speaker in the database is prompted, and the input speaker information is registered in the database.
  • a database for storing information on each member of the family holding the terminal device.
  • a content providing system for delivering an appropriate advertisement according to a viewer.
  • the system in the present embodiment is described as a content providing system for providing content, it may be a viewer configuration DB construction management system for constructing a database.
  • the content delivery control unit 405 and the content delivery unit 406 are not essential components.
  • the advertisement distribution control unit 514 and the distribution advertisement DB 516 are not essential components.
  • the process after step S80 in the flowchart of FIG. 20 is not an essential process.
  • the process after step S97 in the flowchart of FIG. 25 is not an essential process.
  • the process after step S117 in the flowchart of FIG. 26 is not an essential process.
  • Embodiment 4 The content providing system according to the fourth embodiment of the present invention will be described below. In the fourth embodiment, the description of the same configuration as that of the third embodiment will be omitted. Also, the technology of the fourth embodiment can be combined with the technology described in the third embodiment.
  • the voice signal acquired by the terminal device is transmitted to the server device, and the identification of the speaker and the management of the information related to the speaker are performed in the server device.
  • the device identifies the speaker and manages information on the speaker, and only information on the speaker is transmitted from the terminal device to the server device.
  • the content providing system according to the fourth embodiment can reduce the amount of data to be transmitted, and can cope with a low-capacity communication line.
  • FIG. 27 is a block diagram showing an example of a configuration of a content providing system according to Embodiment 4 of the present invention.
  • the same components as in FIG. 19 are assigned the same reference numerals and descriptions thereof will be omitted.
  • the content providing system 800 shown in FIG. 27 includes a server device 550 and a terminal device 560.
  • the server device 550 includes a server communication unit 551, an advertisement delivery control unit 554, and a delivery advertisement DB (Data Base) 516.
  • the terminal device 560 includes a speaker identification unit 512, a terminal communication unit 561, a viewer configuration management unit 562, a viewer configuration DB (Data Base) 515, a voice acquisition unit 522, an information input unit 523, and a display unit 524.
  • a speaker identification unit 512 a terminal communication unit 561, a viewer configuration management unit 562, a viewer configuration DB (Data Base) 515, a voice acquisition unit 522, an information input unit 523, and a display unit 524.
  • the server communication unit 551 receives line data via the communication line 530, which is various public lines such as the Internet. Then, the server communication unit 551 extracts the viewer configuration information transmitted by the terminal device 560 from the received line data, and outputs the viewer configuration information to the advertisement distribution control unit 514. Further, the server communication unit 551 outputs the advertisement data to the communication line 530 as line data, and transmits the advertisement data to the terminal device 520 via the communication line 530.
  • the advertisement distribution control unit 554 selects advertisement data from the distribution advertisement DB 516 based on the viewer configuration information received by the server communication unit 551, and outputs the selected advertisement data to the server communication unit 551.
  • the terminal communication unit 561 receives line data via the communication line 530, which is various public lines such as the Internet.
  • the terminal communication unit 561 receives the advertisement data transmitted by the server device 550, and outputs the received advertisement data to the display unit 524.
  • the terminal communication unit 561 converts the viewer configuration information output by the viewer configuration management unit 562 into line data, and outputs the line data to the communication line 530.
  • the viewer configuration management unit 562 transmits a registration promotion signal to the display unit 524. Also, the viewer configuration management unit 562 acquires the viewer voice signal and the viewer tag data input by the viewer using the information input unit 523, and updates the information of the viewer configuration DB 515. Also, the viewer configuration management unit 562 outputs the viewer configuration information of the viewer configuration DB 515 to the terminal communication unit 561.
  • FIG. 28 is a sequence diagram showing an example of the operation of the content providing system 800 according to the fourth embodiment of the present invention.
  • FIG. 28 shows the case where a new viewer is detected in the terminal device 560.
  • the audio acquisition unit 522 of the terminal device 560 acquires the audio signal of the viewer of the terminal device 560 (step S121). Note that the process of step S121 corresponds to the process performed by the voice acquisition unit 401 of the content providing system 400 in FIG.
  • the voice acquisition unit 522 outputs the acquired viewer voice signal to the speaker identification unit 512.
  • the speaker identifying unit 512 identifies the speaker using the viewer voice signal acquired by the voice acquiring unit 522 and the viewer configuration DB 515 storing the information on the viewer of the terminal device 560 (step S122).
  • the process of step S122 corresponds to the process of the speaker identification unit 402 of the content providing system 400 in FIG.
  • the viewer configuration DB 515 stores only the viewer configuration information of the viewer using the terminal device 560.
  • the viewer configuration information is information in which a nickname, an age, a gender, and an audio signal are associated as shown in FIG.
  • the speaker identifying unit 512 detects a new speaker not registered in the viewer configuration DB 515 (step S123). That is, when there is a registered voice signal matching the received viewer voice signal among the registered voice signals registered in the viewer configuration DB 515, the speaker identifying unit 512 speaks the speech corresponding to the viewer voice signal. It is determined that the speaker is the speaker corresponding to the registered voice signal. On the other hand, when the registered voice signal matching the received viewer voice signal does not exist among the registered voice signals registered in the viewer configuration DB 515, the speaker identifying unit 512 speaks the speech corresponding to the viewer voice signal. It is determined that the speaker is a new speaker not registered in the viewer configuration DB 515. Thereby, a new speaker is detected.
  • the viewer configuration management unit 562 urges the display unit 524 to register the tag information associated with the new speaker in the database. Instruct to display the registration promotion screen of.
  • the detection of a new speaker may be conditional on the sound signal of the new speaker being continuously detected for a predetermined period (several days) or the like. This makes it possible to avoid false identification of a temporary visitor's voice or the like as the voice of a fixed viewer such as a family.
  • the display unit 524 displays a registration promotion screen for promoting input of tag information associated with the new speaker (step S124).
  • the process of step S124 corresponds to the process of the display unit 407 of the content providing system 400 in FIG.
  • the registration prompting screen may be displayed at a position that does not interfere with viewing of the content, such as an end of a display screen on which content such as a program is displayed. Also, the registration prompting screen may be displayed at a timing that does not hinder the viewing of the content, such as when the terminal device 560 is powered on / off.
  • the information input unit 523 receives an input of new speaker information including a viewer voice signal and information on a viewer (viewer tag data) associated with the viewer voice signal (step S125).
  • the new speaker inputs new speaker information in accordance with the display on the registration promotion screen.
  • the process of step S125 corresponds to the process of the information input unit 404 of the content providing system 400 in FIG.
  • the registration prompting screen displayed on the display unit 524 of the terminal device 560 at the time of inputting new speaker information is as already described in the third embodiment using FIGS. Therefore, the detailed description is omitted.
  • the viewer configuration management unit 562 stores the viewer tag data and the viewer voice signal of the new speaker in the viewer configuration DB 515, thereby, as in the first embodiment, the viewer configuration The DB 515 is updated (step S126).
  • the data configuration of the viewer configuration DB 515 is as shown in FIG.
  • the process of step S126 corresponds to the process of the viewer configuration management unit 403 of the content providing system 400 in FIG.
  • the terminal communication unit 561 transmits the viewer configuration information of the speaker identified by the speaker identification unit 512 or the new speaker to the server device 550 via the communication line 530 (step S127).
  • the viewer configuration information transmitted to the server device 550 may be all or part of a plurality of pieces of information associated with the audio signal. That is, the viewer configuration information may be information including at least one of age and gender and capable of specifying an advertisement to be provided to the speaker.
  • terminal communication unit 561 transmits, to server apparatus 550, viewer configuration information including the age and sex of the speaker identified by speaker identification unit 512 or the new speaker.
  • the server communication unit 551 of the server device 550 receives the viewer configuration information transmitted by the terminal device 560.
  • the advertisement distribution control unit 554 of the server device 550 selects advertisement data to be distributed to the terminal device 560 from the distribution advertisement DB 516 based on the received viewer configuration information (step S128).
  • the selection method of the advertisement is not particularly limited.
  • the distribution advertisement DB 516 stores advertisement data to be distributed in association with age and gender. For example, a male in his 40's is associated with an advertisement for a car, a female in his 30's is associated with an advertisement for cosmetics, and the advertisement distribution control unit 514 determines the age and gender of the user. Choose the best ad according to The process of step S128 corresponds to the process of the content distribution control unit 405 of the content providing system 400 in FIG.
  • the server communication unit 551 transmits the advertisement data selected by the advertisement distribution control unit 514 to the terminal device 560 via the communication line 530 (step S129).
  • the terminal communication unit 561 of the terminal device 560 receives the advertisement data transmitted by the server device 550.
  • step S130 the display unit 524 of the terminal device 560 displays the advertisement data distributed from the server device 550 (step S130).
  • the process of step S130 corresponds to the process of the content distribution unit 406 of the content providing system 400 in FIG.
  • FIG. 29 is a flowchart showing an example of the operation of the server apparatus 550 according to Embodiment 4 of the present invention.
  • the server apparatus 550 starts the operation shown in FIG. 29 when the power switch or the function associated with the power switch is turned on, and ends when the function associated with the power switch or the power switch is turned off. May be
  • step S141 the server communication unit 551 of the server device 550 receives line data from the communication line 530. At this time, the server communication unit 551 acquires the viewer configuration information transmitted by the terminal device 560 and outputs the viewer configuration information to the advertisement distribution control unit 554.
  • step S142 the advertisement distribution control unit 554 selects advertisement data from the distribution advertisement DB 516 based on the viewer tag data indicating the age and gender included in the acquired viewer configuration information, and the selected advertisement data Are output to the server communication unit 551.
  • step S143 the server communication unit 551 transmits the advertisement data selected by the advertisement distribution control unit 514 to the terminal device 560 via the communication line 530.
  • FIG. 30 is a flowchart showing an example of the operation of the terminal device 560 according to Embodiment 4 of the present invention.
  • the terminal device 560 starts the operation shown in FIG. 30, for example, when the power switch or the function related to the power switch is turned on, and ends when the function related to the power switch or the power switch is turned off. May be
  • step S151 the voice acquisition unit 522 obtains a viewer voice signal representing a voice uttered by a viewer who is around the terminal device 520.
  • the voice acquisition unit 522 outputs the acquired viewer voice signal to the speaker identification unit 512.
  • the speaker identifying unit 512 identifies a speaker corresponding to the acquired viewer voice signal.
  • the speaker identifying unit 512 identifies the speaker by collating the acquired viewer voice signal with the viewer configuration DB 515.
  • step S153 the speaker identifying unit 512 uses the speaker identification result to determine whether a new speaker has been detected. If the received viewer voice signal is not registered in the viewer configuration DB 515, the speaker identifying unit 512 determines that a new speaker has been detected, and the received viewer voice signal is registered in the viewer configuration DB 515. Then, it is determined that a new speaker has not been detected. Note that the detection of a new speaker may be a condition that the speaker does not exist in the viewer configuration DB 515 for a predetermined period (several days). This makes it possible to prevent the temporary voice of the visitor from being erroneously identified as the voice of a stationary viewer such as a family.
  • step S153 if it is determined that a new speaker has been detected (YES in step S153), the process proceeds to step S154. On the other hand, when it is determined that a new speaker is not detected (NO in step S153), the process proceeds to step S157.
  • step S154 the display unit 524 displays a registration prompting screen for prompting input of information on a new speaker.
  • the information input unit 523 receives an input of the viewer speech signal of the new speaker and the viewer tag data associated with the viewer speech signal of the new speaker.
  • step S155 the viewer configuration management unit 562 determines whether or not the input of the viewer voice signal of the new speaker and the viewer tag data associated with the viewer voice signal of the new speaker is completed. If it is determined that the input has not been completed (NO in step S155), the process returns to step S154, and the display unit 524 continues to display the registration promotion screen. If it is determined that the input has been completed (YES in step S155), the process proceeds to step S156.
  • the viewer configuration management unit 562 updates the viewer configuration DB 515. Specifically, the viewer configuration management unit 562 updates the viewer configuration DB 515 using the viewer tag data input by the information input unit 523 and the viewer voice signal acquired by the voice acquisition unit 522. . As shown in FIG. 24, the viewer configuration DB 515 is updated by storing age, gender and a viewer voice signal in association with each other for each new speaker's nickname.
  • step S 157 the viewer configuration management unit 562 outputs the viewer configuration information to the terminal communication unit 561, and the terminal communication unit 561 transmits the viewer configuration information to the server device 550 via the communication line 530. Send.
  • step S158 the terminal communication unit 561 receives the advertisement data transmitted by the server device 550.
  • step S159 the display unit 524 displays the advertisement data received by the terminal communication unit 561.
  • the identification of the speaker and the management of the information on the speaker are performed in the terminal device by the above operation, only the information on the speaker necessary to select the advertisement data is selected as the data transmitted from the terminal device. Can be reduced to less data. As a result, even when the communication line has a low capacity, it is possible to provide a content providing system that delivers an advertisement appropriate for the viewer.
  • the viewer configuration DB may not only associate the nickname, the age, the gender, and the voice signal with one another, but may further associate information indicating family relationships.
  • the information indicating the family relationship is information indicating whether the viewer is, for example, a father, a mother or a child.
  • the distribution advertisement DB may store the family configuration and the advertisement data in association with each other, and the content distribution control unit 405 acquires information indicating the family configuration of the viewer and corresponds to the acquired family configuration. Advertisement data to be selected may be selected from the distribution advertisement DB.
  • the information indicating the family structure is, for example, information indicating that the family of the viewer is composed of a father, a mother and a child.
  • advertisement data can be distributed according to the family configuration in the home.
  • the viewer configuration DB not only associates the nickname, the age, the gender, and the voice signal with one another, but further associates the information indicating the family relationship with the information on the program viewed by the viewer.
  • the information indicating the family relationship is information indicating whether the viewer is, for example, a father, a mother or a child.
  • the information on a program is, for example, information indicating a program name, a channel number, a broadcast date and time, and a cast of a television program viewed on a terminal device.
  • the content distribution control unit 405 acquires information indicating the family configuration of the viewer, acquires information on programs of other viewers having the same family configuration as the acquired family configuration, and the other viewers view The selected program may be provided to the identified speaker.
  • the advertisement data is provided to the terminal device, but the present invention is not particularly limited to this, and program data may be provided to the terminal device.
  • the speaker identification method, the speaker identification device, and the information management method according to the present invention can construct and update the database without performing troublesome setting operations for the speaker, and the speech existing in the vicinity of the device displaying the content It is useful as a speaker identification method for identifying a person, a speaker identification device, and an information management method.
  • a new speaker can be registered in the database without performing troublesome setting operations for the speaker, and the speaker is identified. It is useful as a speaker identification method, a speaker identification device, and an information management method.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

 話者識別システムは、話者の音声情報を取得する音声取得部(201)と、取得された音声情報に対応する話者が、データベースにコンテンツに関するコンテンツ情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断し、取得された音声情報に対応する話者がデータベースに記憶されている登録音声情報に対応する話者と一致すると判断された場合、音声情報を取得した時点において機器に表示されているコンテンツに関するコンテンツ情報を取得し、取得されたコンテンツ情報を登録音声情報に関連付けて記憶し、取得された音声情報に対応する話者がデータベースに記憶されている登録音声情報に対応する話者と一致しないと判断された場合、取得された音声情報を登録音声情報としてデータベースに記憶するデータベース管理部(203)とを備える。

Description

話者識別方法、話者識別装置及び情報管理方法
 本発明は、話者を識別する話者識別方法、話者識別装置及び情報管理方法に関するものである。
 従来、音声情報からユーザを識別する方法が提案されている。例えば、特許文献1では、温度分布情報と音声情報とに基づいて視聴者の年齢、性別及び視聴者間の関係を推定し、さらに場所又は時間帯等に対する適合度を考慮することにより視聴コンテンツを選択する方法について開示されている。これにより、視聴者及び場所に適合した視聴コンテンツを提供することを実現している。
 また、例えば、特許文献2では、複数の特定の話者の音声データを、話者を特定できる話者識別情報とともに登録しておき、登録された音声データと入力音声データとの類似度を算出して音声認識を行うことが記載されている。
 しかし、より簡易的に音声情報から個人を識別する方法に関しては、検討が進んでいなかった。
特開2006-99195号公報 特開平11-282492号公報
 本発明は、上記の問題を解決するためになされたもので、音声情報を容易にデータベースに初期登録することができる話者識別方法、話者識別装置及び情報管理方法を提供することを目的とするものである。
 本発明の一局面に係る話者識別方法は、コンテンツを表示する機器の周辺にいる話者を識別する話者識別方法であって、前記話者の音声情報を取得するステップと、前記取得された音声情報に対応する話者が、データベースにコンテンツに関するコンテンツ情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断するステップと、前記取得された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致すると判断された場合、前記音声情報を取得した時点において前記機器に表示されている前記コンテンツに関するコンテンツ情報を取得し、前記取得されたコンテンツ情報を前記登録音声情報に関連付けて記憶するステップと、前記取得された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致しないと判断された場合、前記取得された音声情報を登録音声情報として前記データベースに記憶するステップと、を含む。
本発明の実施の形態1に係る話者識別システムの全体構成を示す図である。 本発明の実施の形態1における話者識別システムの構成を示すブロック図である。 本発明の実施の形態1における話者識別システムの動作を示すフローチャートである。 本発明の実施の形態1における話者識別システムの動作の一例を示すシーケンス図である。 本発明の実施の形態1における家族データベースのデータ構造の一例を示す図である。 本発明の実実施の形態1における家族データベースのデータ構造の他の例を示す図である。 話者識別装置に表示される家族データベースの更新内容の一例を示す図である。 話者識別装置に表示される家族データベースの更新内容の他の例を示す図である。 本発明の実施の形態1における話者識別システムの動作の他の例を示すシーケンス図である。 本発明の実施の形態2における話者識別システムの構成を示すブロック図である。 本発明の実施の形態2における話者識別システムの動作を示すフローチャートである。 本発明の実施の形態2における話者識別システムの動作の一例を示すシーケンス図である。 本発明の実施の形態2における家族データベースのデータ構造の一例を示す図である。 本発明の実施の形態2におけるサービス情報データベースのデータ構造の一例を示す図である。 本発明の実施の形態2におけるサービス情報データベースのデータ構造の他の例を示す図である。 本発明の実施の形態2においてサービスの候補を選択する選択画面の一例を示す図である。 本発明の実施の形態2においてサービスの候補を選択する選択画面の他の例を示す図である。 本発明の実施の形態3に係るコンテンツ提供システムの全体構成を示す図である。 本発明の実施の形態3におけるコンテンツ提供システムの構成を示すブロック図である。 本発明の実施の形態3におけるコンテンツ提供システムの動作の一例を示すシーケンス図である。 新規話者登録時において話者の音声信号を入力するための表示画面の一例を示す図である。 新規話者登録時において話者の年齢及び性別を入力するための表示画面の一例を示す図である。 新規話者登録時において話者のニックネームを入力するための表示画面の一例を示す図である。 視聴者構成DBのデータ構成の一例を示す図である。 本発明の実施の形態3におけるサーバ装置の動作の一例を示すフローチャートである。 本発明の実施の形態3における端末装置の動作の一例を示すフローチャートである。 本発明の実施の形態4に係るコンテンツ提供システムの構成の一例を示すブロック図である。 本発明の実施の形態4におけるコンテンツ提供システムの動作の一例を示すシーケンス図である。 本発明の実施の形態4におけるサーバ装置の動作の一例を示すフローチャートである。 本発明の実施の形態4における端末装置の動作の一例を示すフローチャートである。
 (本発明の基礎となった知見)
 特許文献1に記載の視聴コンテンツ提供システムでは、温度分布情報及び音声情報に基づき視聴者(話者)の年齢及び性別を推定している。
 例えば、特許文献1では、成人男性の体温が最も低く幼児の体温が最も高く成人女性の体温が成人男性と幼児の中間の体温であるといった推測のもと、視聴者(話者)がいるとされた位置の温度を調べることで年齢及び性別を特定している。しかし、この方法によって年齢を推定しても、視聴者(話者)を「成人男性」「成人女性」及び「幼児」という3つのカテゴリにしか分類することができず、それ以上詳細に視聴者(話者)の年齢等を特定する方法に関しては開示されていない。
 また、特許文献1では、音声信号のスペクトルと発言とを解析することで、視聴者(話者)の年齢及び性別を推定する方法が開示されている。しかし、この方法も、上述した温度を利用する方法と同様、「成人男性」「成人女性」及び「幼児」といった大まかなカテゴリにしか分類することができない。
 以上のように、特許文献1に記載の視聴コンテンツ提供システムでは、視聴者(話者)を大まかにしか分類することができない。すなわち、例えば、ある視聴者(話者)を「成人男性」というカテゴリに識別したとしても、成人男性の趣味及び嗜好は様々であり、各々の視聴者(話者)に特有のサービスを提供することは困難である。
 一方、特許文献2に記載の音声認識装置では、音声データと話者識別情報とを初期登録しておき、登録された音声データと入力音声データとの類似度を算出して音声認識を行っている。
 このように、音声データとユーザを識別する情報とを予め登録しておけば、特許文献1のように大まかなカテゴリに分類するのではなく、より具体的なカテゴリにユーザを識別することができるかもしれない。
 しかし、このような初期登録作業は、ユーザにとって煩わしい作業である。また、システムを構築する際に、ユーザに初期登録を促すためのアプリケーションを構築する必要がある。
 そこで、本発明者らは、上記検討に基づき、以下の各態様に係る発明を想到するに至った。
 本発明の一局面に係る話者識別方法は、コンテンツを表示する機器の周辺にいる話者を識別する話者識別方法であって、前記話者の音声情報を取得するステップと、前記取得された音声情報に対応する話者が、データベースにコンテンツに関するコンテンツ情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断するステップと、前記取得された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致すると判断された場合、前記音声情報を取得した時点において前記機器に表示されている前記コンテンツに関するコンテンツ情報を取得し、前記取得されたコンテンツ情報を前記登録音声情報に関連付けて記憶するステップと、前記取得された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致しないと判断された場合、前記取得された音声情報を登録音声情報として前記データベースに記憶するステップと、を含む。
 これにより、話者にとって煩わしい設定操作を行うことなく、話者のデータベースを構築及び更新することができる。また、音声情報及びコンテンツ情報のみが関連付けて管理されるので、無駄な情報を蓄積することなく、必要なデータベースのみを構築することができ、データベースのデータ量を削減することができる。
 また、上記態様において、前記コンテンツ情報は、前記コンテンツの名称と、前記コンテンツに関連する人物名とを含むことが好ましい。
 この場合、コンテンツの名称と、コンテンツに関連する人物名とが、登録音声情報に関連付けて記憶されるので、話者が視聴したコンテンツを管理することができる。
 また、上記態様において、前記登録音声情報に関連付けられている複数のコンテンツを複数のジャンルに分類し、前記複数のジャンル毎に前記複数のコンテンツのうちの各ジャンルに分類されたコンテンツの割合を算出し、前記複数のジャンル毎に算出された前記コンテンツの割合を前記登録音声情報に関連付けて前記データベースに記憶するステップをさらに含むことが好ましい。
 この場合、複数のジャンル毎に算出されたコンテンツの割合が登録音声情報に関連付けて記憶されるので、話者がどのようなジャンルのコンテンツを好んで視聴するかを管理することができる。
 また、上記態様において、前記データベースは、コンテンツ情報と、前記コンテンツ情報に対応するコンテンツを視聴した話者に提供されるサービスとを関連付けて記憶し、前記取得された前記音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致すると判断された場合、前記登録音声情報に関連付けられて記憶されている前記コンテンツ情報を特定し、特定した前記コンテンツ情報に関連付けられているサービスを特定し、特定した前記サービスを前記話者に提供するステップをさらに含むことが好ましい。
 この場合、コンテンツ情報に関連付けられているサービスが話者に提供されるので、話者の趣味及び嗜好に応じた適切なサービスを提供することができる。
 また、上記態様において、提供可能な少なくとも1つのサービスが存在し、かつ予め決められているサービス提供タイミングであるか否かを判断するステップと、提供可能なサービスが存在し、かつ予め決められているサービス提供タイミングであると判断された場合、提供可能な前記少なくとも1つのサービスの候補を前記機器に表示するステップとをさらに含むことが好ましい。
 この場合、提供可能な少なくとも1つのサービスの候補が機器に表示されるので、話者は、提供可能なサービスを確認することができる。
 また、上記態様において、表示された前記少なくとも1つのサービスの候補の中から前記話者によって選択されたサービスを前記話者に提供するステップと、提供された前記サービスを前記登録音声情報に関連付けて前記データベースに記憶するステップとをさらに含むことが好ましい。
 この場合、表示された少なくとも1つのサービスの候補の中から話者によって選択されたサービスが話者に提供されるので、話者は、所望のサービスを選択することができる。また、提供されたサービスが登録音声情報に関連付けてデータベースに記憶されるので、話者に提供されたサービスを管理することができる。
 また、上記態様において、前記サービスは、前記機器に表示するコンテンツを配信するサービス、又は前記機器に表示する広告を配信するサービスを含むことが好ましい。
 この場合、機器に表示するコンテンツを配信するサービス、又は機器に表示する広告を配信するサービスを話者に提供することができる。
 本発明の他の局面に係る話者識別装置は、話者を識別する話者識別装置であって、コンテンツを表示する表示部と、前記話者識別装置の周辺にいる話者の音声情報を取得する音声取得部と、登録された音声情報である登録音声情報と、コンテンツに関するコンテンツ情報とを関連付けて記憶するデータベースと、前記音声取得部によって取得された前記音声情報に対応する話者が、前記データベースにコンテンツ情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断する判断部と、前記判断部によって前記取得された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致すると判断された場合、前記音声情報を取得した時点において前記表示部に表示されている前記コンテンツに関するコンテンツ情報を取得し、前記取得されたコンテンツ情報を前記登録音声情報に関連付けて記憶するデータベース更新部と、前記判断部によって前記取得された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致しないと判断された場合、前記音声取得部によって取得された音声情報を登録音声情報として前記データベースに記憶するデータベース記憶部と、を備える。
 これにより、話者にとって煩わしい設定操作を行うことなく、話者のデータベースを構築及び更新することができる。また、音声情報及びコンテンツ情報のみが関連付けて管理されるので、無駄な情報を蓄積することなく、必要なデータベースのみを構築することができ、データベースのデータ量を削減することができる。
 本発明の他の局面に係る情報管理方法は、コンテンツを表示する機器の周辺にいる話者を識別する話者識別システムにおける情報管理方法であって、前記話者の音声情報を受信するステップと、前記受信された音声情報に対応する話者が、データベースにコンテンツに関するコンテンツ情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断するステップと、前記受信された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致すると判断された場合、前記音声情報を取得した時点において前記機器に表示されている前記コンテンツに関するコンテンツ情報を取得し、前記受信されたコンテンツ情報を前記登録音声情報に関連付けて記憶するステップと、前記受信された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致しないと判断された場合、前記受信された音声情報を登録音声情報として前記データベースに記憶するステップと、を含む。
 これにより、話者にとって煩わしい設定操作を行うことなく、データベースを構築及び更新することができる。また、音声情報及びコンテンツ情報のみが関連付けて管理されるので、無駄な情報を蓄積することなく、必要なデータベースのみを構築することができ、データベースのデータ量を削減することができる。
 なお、以下で説明する実施の形態は、いずれも本発明の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ及びステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、本発明の最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施の形態において、各々の内容を組み合わせることもできる。
 (実施の形態1)
 (各装置の構成)
 図1は、本発明の実施の形態1に係る話者識別システムの全体構成を示す図である。なお、図1に記載の構成は一例であり、話者識別システムは、図1に示されている構成以外の構成を備えていてもよい。また、話者識別システムは、図1に示されている構成の一部の構成が欠けていてもよい。
 話者識別システムは、サーバ装置100と、話者識別装置110とを備える。話者識別装置110は、例えば、各家庭に設置されたテレビ又はパーソナルコンピュータなどのコンテンツ視聴機器である。図1に示すようにサーバ装置100と各家庭に設置された話者識別装置110とは、ネットワーク120を介して互いに通信可能に接続される。
 なお、1つの話者識別装置110が、サーバ装置100に接続されていてもよく、また、複数の話者識別装置110が、サーバ装置100に接続されていてもよい。また、各家庭には、複数の話者識別装置110が配置されていてもよい。また、ネットワーク120は、例えばインターネットである。サーバ装置100が配置されている場所に関しては、特に限定しない。サーバ装置100は、ビッグデータを取り扱うデータセンタに配置されていてもよいし、各家庭に配置されていてもよい。データセンタは、データセンタを管理及び運営する会社が保有する。また、サーバ装置100の各構成は、1つの装置内に集約されていてもよいし、各々異なる装置に配置されていてもよい。
 サーバ装置100は、制御部101と、通信部102と、番組情報データベース(DB)103と、サービス情報データベース(DB)104と、家族データベース(DB)105とを備える。番組情報DB103及びサービス情報DB104は、全ての家庭に共通の共通データベース(DB)である。家族データベース(DB)105は、家庭毎に構築される個別データベース(DB)である。
 制御部101は、サーバ装置100に関する様々な制御を行う構成要素であり、特に限定しない。制御部101は、例えばCPU(中央演算処理装置)などで構成される。
 通信部102は、ネットワーク120に接続するための構成要素であり、特に限定しない。ネットワーク120への接続に関してはその方法を問わない。
 共通データベースである番組情報データベース103及びサービス情報データベース104は、全ての話者識別装置110から参照されるデータベースである。番組情報データベース103及びサービス情報データベース104は、大量の情報を蓄積可能な記録装置である。番組情報データベース103及びサービス情報データベース104は、同一の装置内に格納されていてもよいし、別々の装置内に格納されていてもよい。
 番組情報データベース103は、例えばテレビ番組に関する番組情報(番組名、放送時間、ジャンル及び出演者等)を蓄積している。なお、サーバ装置100は、外部のサーバ装置からテレビ番組に関する番組情報を取得してもよい。テレビ番組は、地上デジタル放送波又は衛星放送波により提供される。また、ユーザ(話者)が視聴するコンテンツは、テレビ番組に限定されず、インターネットを介して取得されるコンテンツであってもよい。サービス情報データベース104は、話者に提供するサービスに関する情報を蓄積している。
 個別データベースである家族データベース105及び家族データベース106は、各家庭別に構築される。家族データベース105は、各データベースに対応する話者識別装置110のみから参照される。家族データベース105は、共通データベースと同じく、大量の情報を蓄積可能な記録装置である。例えば家族データベース105は、図1に示す家庭A内の話者識別装置110に対応し、家族データベース106は、図1に示す家庭B内の話者識別装置110に対応している。各家族データベースは、同一の装置内に格納されていてもよいし、別々の装置内に格納されていてもよい。
 話者識別装置110は、制御部111と、通信部112と、音声取得部113と、表示部114とを備える。なお、これらの構成は、コンテンツ視聴機器の構成の一部として内蔵されていてもよいし、コンテンツ視聴機器の外部に接続される装置に内蔵されていてもよい。ここで、話者識別装置110としては、上記した各構成を備えていればよく、例えば一般家庭用のテレビ、PC(パーソナルコンピュータ)、スマートフォン、タブレット型コンピュータ及び携帯電話機などでもよい。また、話者識別装置110は、話者識別システムを行うための専用装置でもよい。
 制御部111及び通信部112は、サーバ装置100の制御部101及び通信部102と同様の構成であるため、その説明は省略する。
 音声取得部113は、マイクを備えた音声記録装置である。表示部114は、モニタなどによる表示機能を持つ装置である。
 なお、図1では、話者識別装置110とサーバ装置100とによって以下に述べる話者識別システムを構成する図を示しているが、本発明はこれに限られない。例えば、サーバ装置100の一部の構成又は全部の構成が、話者識別装置110に含まれていてもよく、話者識別装置110のみで話者識別システムを構成してもよい。
 (話者識別システムの構成)
 図2は、本実施の形態1における話者識別システムの構成を示すブロック図である。
 本実施の形態1における話者識別システムは、音声取得部201と、視聴コンテンツ情報取得部202と、データベース管理部203とを備える。
 音声取得部201は、話者識別のために解析可能な形式の音声情報を取得する。ここで解析可能な形式の音声情報とは、1人の話者の音声を含んでいる音であればよい。音声取得部201は、音声情報中に人の発する音声以外の雑音が含まれている場合は、音声情報から雑音を除去していてもよい。また、音声情報を取得するタイミング及び取得する音声情報の時間長に関しては特に限定しない。音声取得部201は、常に音声情報を取得していてもよいし、予め設定した時間間隔で音声情報を取得してもよい。また、音声取得部201は、人が音声を発しているときだけ音声情報を取得してもよい。音声取得部201は、音声区間を自動で検出し、取得した音声情報を解析した結果、識別可能である音声情報をデータベース管理部203に出力する。
 視聴コンテンツ情報取得部202は、音声取得部201が音声情報を取得したタイミングにおいて話者が視聴しているコンテンツに関する視聴コンテンツ情報を取得する。視聴コンテンツ情報は、例えば、コンテンツのジャンル、放送時刻、出演者及び視聴時間等を含む。なお、視聴コンテンツ情報は、コンテンツの提供元、又はコンテンツ視聴機器から取得できるその他の情報を含んでもよい。視聴コンテンツ情報取得部202は、取得した視聴コンテンツ情報をデータベース管理部203に出力する。
 データベース管理部203は、音声取得部201によって取得された音声情報と、視聴コンテンツ情報取得部202によって取得された視聴コンテンツ情報とを使用して、家族データベース105を構築及び管理する。家族データベース105は、過去に取得された音声情報である登録音声情報と、登録音声情報に対応する話者の視聴コンテンツ情報の履歴とを関連付けて保存している。ここで、登録音声情報は、WAV形式のファイルとして登録されている。なお、登録音声情報は、必ずしもWAV形式のファイルでなくてもよい。例えば、登録音声情報は、MPEG形式又はAIFF形式等の音声圧縮されたデータであってもよい。また、登録音声情報は、例えば自動的に圧縮ファイルにエンコードされ、家族データベース105に格納される。
 データベース管理部203は、視聴コンテンツ情報取得部202によって取得された視聴コンテンツ情報をそのまま家族データベース105に蓄積してもよいし、視聴コンテンツ情報取得部202によって取得された視聴コンテンツ情報を内部メモリに一定量蓄積し、分析及び分類した後、分析及び分類した視聴コンテンツ情報を家族データベース105に蓄積してもよい。なお、家族データベース105に蓄積される情報については、後述する。
 データベース管理部203は、音声取得部201によって取得された音声情報に対応する話者が、家族データベース105に視聴コンテンツ情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断する。データベース管理部203は、取得された音声情報に対応する話者が家族データベース105に記憶されている登録音声情報に対応する話者と一致すると判断された場合、音声情報を取得した時点において表示部114に表示されているコンテンツに関する視聴コンテンツ情報を取得し、取得された視聴コンテンツ情報を登録音声情報に関連付けて記憶する。データベース管理部203は、取得された音声情報に対応する話者が家族データベース105に記憶されている登録音声情報に対応する話者と一致しないと判断された場合、音声取得部201によって取得された音声情報を登録音声情報として家族データベース105に記憶する。
 (話者識別システムの動作)
 図3は、本発明の実施の形態1における話者識別システムの動作を示すフローチャートである。
 図3を用いて、本実施の形態1における話者識別システムによる家族データベース更新方法について説明する。なお、フローチャートの処理は継続的に行われるものとし、音声取得時にフローチャートの処理が繰り返される。
 まず、音声取得部201は、話者の音声情報を取得する(ステップS1)。
 次に、データベース管理部203は、取得された音声情報を解析(図示せず)した結果に基づいて、取得された音声情報が、過去に家族データベース105に蓄積された登録音声情報と一致するか否かを判断する(ステップS2)。ここで、取得された音声情報が登録音声情報と一致すると判断された場合はステップS3の処理に進み、取得された音声情報が登録音声情報と一致しないと判断された場合はステップS5の処理に進む。なお、本話者識別システムが初めて利用される際には、家族DBは存在しないので、ステップS5の処理に進む。
 ここで、取得された音声情報と登録音声情報との比較手法ついては特に限定しない。例えば、データベース管理部203は、取得された音声情報から話者モデルを取得し、取得した話者モデルを登録音声情報の話者モデルと比較することで判断する。話者モデルとは、取得された音声情報の周波数特性などの個人に固有の特性から算出される、話者の特定に必要な情報などである。データベース管理部203は、周波数特性から正規分布を算出することで話者モデルを作成してもよい。なお、話者モデルは、話者を特定するための情報であればよく、音声情報から取得できるその他の特性又はそれらから算出できるその他の情報などでもよい。
 このように、データベース管理部203は、取得された音声情報が、過去に家族データベース105に蓄積された登録音声情報と一致するか否かを判断することにより、取得された音声情報に対応する話者が、家族データベース105に視聴コンテンツ情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断することができる。
 取得された音声情報が登録音声情報と一致すると判断された場合(ステップS2でYES)、視聴コンテンツ情報取得部202は、話者が話者識別装置110で現在視聴しているコンテンツに関する視聴コンテンツ情報を番組情報データベース103より取得する(ステップS3)。
 次に、データベース管理部203は、家族データベース105に記憶されている登録音声情報と関連付けて、視聴コンテンツ情報取得部202によって取得された視聴コンテンツ情報を記憶する(ステップS4)。これにより、家族データベースが再構築される。なお、データベース管理部203は、既に記憶されている視聴コンテンツに加えて、新たに取得された視聴コンテンツ情報を記憶する。
 一方、取得された音声情報が登録音声情報と一致しないと判断された場合(ステップS2でNO)、データベース管理部203は、取得された音声情報を登録音声情報として家族データベース105に登録(記憶)する(ステップS5)。このとき、データベース管理部203は、取得された音声情報から作成した話者モデルを登録音声情報として記憶してもよい。
 以上の処理が一定の間隔にて繰り返し行われ、家族データベース105の更新が繰り返されることで、精度の高いデータベースが構築される。
 (話者識別システムのシーケンス図)
 図4は、本発明の実施の形態1における話者識別システムの動作の一例を示すシーケンス図である。
 図4を用いて、本実施の形態1における各装置間の具体的なデータのやり取りと各装置の具体的な動作例について説明する。なお、図4に示す動作例では、話者識別装置110がテレビである例について説明する。図4に示す動作例は一例であり、本実施の形態を限定するものではない。
 まず、図1における例えば家庭A内の視聴者(話者)が話者識別装置110(テレビ)でコンテンツを視聴している際に視聴者が発話した場合、話者識別装置110の音声取得部113は、発話があったことを検出して話者の音声情報を取得する(ステップS11)。
 次に、制御部111は、音声取得部113によって取得された音声情報を解析処理し(図示せず)、通信部112は、制御部111によって解析処理された音声情報をサーバ装置100へ送信する(ステップS12)。なお、音声の解析処理は、話者識別装置110の制御部111によって行われてもよいし、サーバ装置100の制御部101によって行われてもよい。サーバ装置100の通信部102は、話者識別装置110によって送信された音声情報を受信する。
 次に、サーバ装置100の制御部101は、通信部102によって受信された音声情報とサーバ装置100の家庭Aに対応する家族データベース105とを用いて、受信された音声情報を家族データベース内の登録音声情報と比較する(ステップS13)。制御部101は、受信された音声情報が家族データベース内の登録音声情報と一致するか否かを判断する。これにより、発話が検出された話者が、音声情報が既に登録されている話者であるか否かを判断することができる。受信された音声情報が登録音声情報と一致するか否かの判断方法は、図3のステップS2にて説明した方法と同様であるので説明を省略する。
 なお、複数の家族データベースのうち、どの家庭に対応する家族データベースを用いるかについては、例えば、話者識別装置110を識別するための機器IDに対応付けて各家族データベースを管理し、音声情報に機器IDを付加することにより、判断することができる。すなわち、家族データベースは、話者識別装置110を識別するための機器ID毎に設けられ、話者識別装置110は、音声情報に機器IDを付加して送信し、サーバ装置100は、受信した機器IDに対応する家族データベースを読み出す。また、家族データベースは、視聴者を識別するための視聴者ID毎に設けられてもよく、話者識別装置110は、音声情報に視聴者IDを付加して送信してもよく、サーバ装置100は、受信した視聴者IDに対応する家族データベースを読み出してもよい。また、制御部101は、取得された音声情報と、複数の家族データベースの全ての登録音声情報とを比較してもよい。
 受信された音声情報が家族データベースに既に登録されている登録音声情報と一致すると判断された場合、制御部101は、音声情報が取得された時点で家庭A内の視聴者(話者)が視聴しているコンテンツ(番組)に関する視聴コンテンツ情報をサーバ装置100内の番組情報データベース103から取得する(ステップS14)。
 ここで、サーバ装置100の制御部101が、視聴者(話者)が視聴している番組を特定する方法に関しては限定しない。制御部101は、ステップS13の後に、逐次話者識別装置110に対してチャンネル番号等の視聴した番組を識別することが可能な番組識別情報を送信するように要求してもよい。また、ステップS12において、話者識別装置110は、視聴チャンネル等の番組識別情報を音声情報とともに送信してもよく、制御部101は、受信した番組識別情報に対応する視聴コンテンツ情報を番組情報データベース103から取得してもよい。
 次に、制御部101は、取得された視聴コンテンツ情報に基づいて、視聴者(話者)ごとに家族データベース105を構築及び更新する(ステップS15)。
 図5は、本発明の実施の形態1における家族データベースのデータ構造の一例を示す図である。例えば、取得された音声情報が、家族データベース内の登録音声情報と一致すると判断された場合、制御部101は、図5に示すように、音声情報が取得されたときに視聴していたコンテンツのジャンル、主な出演者及び放送時間などの視聴コンテンツ情報を家族データベースに蓄積し、家族データベースを更新する。図5に示す例では、WAV形式で蓄積された各登録音声情報に、登録音声情報に対応する話者が視聴したコンテンツの放送開始日時、番組名及び出演者を含む視聴コンテンツ情報が、関連付けられて管理されている。このように、家族データベースは、登録音声情報と、話者が視聴したコンテンツに関する視聴コンテンツ情報とをそのまま関連付けて管理してもよい。
 なお、視聴コンテンツ情報は、コンテンツの名称とコンテンツに関連する人物名とを含み、放送日時を含まなくてもよい。
 図6は、本発明の実実施の形態1における家族データベースのデータ構造の他の例を示す図である。図6の例では、WAV形式で蓄積された各登録音声情報に、登録音声情報に対応する話者が過去に視聴したコンテンツを分析した結果が、視聴コンテンツ情報として関連付けられて管理されている。図6に示す例では、制御部101は、話者が過去に視聴したコンテンツにおけるジャンル、出演者及び視聴時間帯のそれぞれの割合を算出し、管理している。
 制御部101は、登録音声情報に関連付けられている複数のコンテンツを複数のジャンルに分類し、複数のジャンル毎に複数のコンテンツのうちの各ジャンルに分類されたコンテンツの割合を算出し、複数のジャンル毎に算出されたコンテンツの割合を登録音声情報に関連付けて家族データベースに記憶してもよい。
 また、制御部101は、登録音声情報に関連付けられている複数のコンテンツのそれぞれに対応付けられている出演者を抽出し、各出演者の抽出数をカウントし、登録音声情報に関連付けられている全てのコンテンツの数のうちの各出演者の抽出回数の割合を算出し、出演者毎に算出された出演者の抽出回数の割合を登録音声情報に関連付けて家族データベースに記憶してもよい。
 また、制御部101は、登録音声情報に関連付けられている複数のコンテンツを複数の視聴時間帯に分類し、複数の視聴時間帯毎に複数のコンテンツのうちの各視聴時間帯に分類されたコンテンツの割合を算出し、複数の視聴時間帯毎に算出されたコンテンツの割合を登録音声情報に関連付けて家族データベースに記憶してもよい。視聴時間帯は、例えば、朝、昼、夜及び深夜の4つの時間帯に分類される。
 なお、家族間で音声情報が酷似しており判別が困難な場合は、個人識別の精度を向上させるために、制御部101は、音声情報からテキスト情報を抽出し、抽出したテキスト情報に基づいて発言内容を分析することにより、話者を判別してもよい。また、制御部101は、取得された視聴コンテンツ情報と家族データベース内に蓄積されている視聴コンテンツ情報とを比較することにより、話者を判別してもよい。
 また、取得された音声情報が、家族データベース内の登録音声情報と一致しないと判断された場合、制御部101は、その時点で家族データベースを更新せず、取得された音声情報を内部のメモリに蓄積してもよい。そして、制御部101は、例えば1週間ごとに、メモリに蓄積された複数の音声情報のうち、同一の人物であると判別される音声情報を新たに登録音声情報として作成して家族データベースに記憶(登録)してもよい。
 以上のステップS11~ステップS15の処理が繰り返される。
 また、ステップS15の処理の後、通信部102は、構築された家族データベースの更新情報を、話者識別装置110に送信してもよい(ステップS16)。話者識別装置110の通信部112は、サーバ装置100によって送信された家族データベースの更新情報を受信する。
 また、話者識別装置110の表示部114は、受信された家族データベースの更新情報に基づいて、家族データベースの更新内容を表示してもよい(ステップS17)。表示部114は、更新された家族データベースの一部又は全部を表示してもよい。なお、ステップS16及びステップS17の処理は必須の処理ではない。
 図7は、話者識別装置に表示される家族データベースの更新内容の一例を示す図であり、図8は、話者識別装置に表示される家族データベースの更新内容の他の例を示す図である。
 図7及び図8に示す表示画面には、視聴コンテンツ情報が追加された家族データベースが表示され、同一の家庭に属する全てのユーザの視聴コンテンツ情報が表示されている。なお、表示部114は、視聴コンテンツ情報が追加されたユーザに対応する視聴コンテンツ情報のみを表示してもよい。また、図7に示すように、表示部114は、視聴コンテンツ情報をそのまま表示してもよい。また、図8に示すように、表示部114は、登録音声情報に対応する話者が過去に視聴したコンテンツを分析した結果を、視聴コンテンツ情報として表示してもよい。図8に示す例では、表示部114は、話者が過去に視聴したコンテンツにおけるジャンル、出演者及び視聴時間帯のそれぞれの割合を表示している。
 家族データベースの更新内容を表示するタイミングは、家族データベース105(106)が更新されたタイミングでもよく、又はユーザから家族データベースの更新内容の表示に関する指示があったタイミングでもよい。このように、家族データベースの更新内容が表示されることで、ユーザは取得された視聴コンテンツ情報を把握できる。また、ユーザの名前、年齢及び性別に関する個人情報が取得されてないことを確認できるので、より一層の安心感をユーザに与えることができる。また、話者識別装置110は、家族データベースに蓄積されている情報に誤りがあった場合に、何らかの操作によって誤った情報を修正する機能を有することにより、家族データベースの精度を更に向上させることができる。
 なお、図9に示すように、図4のステップS13及びステップS15の処理を、話者識別装置110が行ってもよい。この場合、話者識別装置110は、家族データベース105を備えていてもよい。
 図9は、本発明の実施の形態1における話者識別システムの動作の他の例を示すシーケンス図である。
 まず、話者識別装置110の音声取得部113は、発話があったことを検出して話者の音声情報を取得する(ステップS21)。なお、ステップS21の処理は、図4のステップS11の処理と同じである。
 次に、制御部111は、音声取得部113によって取得された音声情報と話者識別装置110の家庭Aに対応する家族データベース105とを用いて、取得された音声情報を家族データベース内の登録音声情報と比較する(ステップS22)。なお、ステップS22の処理は、図4のステップS13の処理と同じである。
 次に、通信部112は、サーバ装置100に対して視聴コンテンツ情報を要求する(ステップS23)。
 次に、サーバ装置100の制御部101は、音声情報が取得された時点で家庭A内の視聴者(話者)が視聴しているコンテンツ(番組)に関する視聴コンテンツ情報をサーバ装置100内の番組情報データベース103から取得する(ステップS24)。なお、ステップS24の処理は、図4のステップS14の処理と同じである。
 次に、通信部102は、取得した視聴コンテンツ情報を話者識別装置110に送信する(ステップS25)。話者識別装置110の通信部112は、サーバ装置100によって送信された視聴コンテンツ情報を受信する。
 次に、制御部111は、受信された視聴コンテンツ情報に基づいて、視聴者(話者)ごとに家族データベース105を構築及び更新する(ステップS26)。なお、ステップS26の処理は、図4のステップS15の処理と同じである。
 次に、話者識別装置110の表示部114は、家族データベースの更新内容を表示してもよい(ステップS27)。なお、ステップS27の処理は、図4のステップS17の処理と同じである。
 以上、本実施の形態によれば、ユーザにとって煩わしい設定操作を行うことなく、家族データベースを構築及び更新することができる。また、音声情報及び視聴コンテンツ情報のみが互いに関連付けられて管理されるので、無駄な情報を蓄積することなく、必要なデータベースのみを構築することができ、データベースのデータ量を削減することができる。例えば、図5又は図6に示すようなデータベースさえ構築できれば、ユーザの年齢及びユーザの性別といった無駄な情報を取得することなく、視聴中のユーザへ最適なコンテンツを提供したり、最適なコンテンツを推奨したりすることができる。また、ユーザの名前、年齢及び性別などの個人情報が取得されないので、ユーザにとっても安心して話者識別システムを利用することができる。
 なお、図3に示す話者識別システムの動作において、取得された音声情報が家族データベースの登録音声情報と一致しないと判断された場合(ステップS2でNO)、データベース管理部203は、取得された音声情報を家族データベースに登録するとしているが、本発明は特にこれに限られない。例えば、データベース管理部203は、一定時間(期間)中に連続して話者の音声情報を取得しており、ステップS2において取得された音声情報が家族データベースの登録音声情報と一致しないと判断された回数をカウントし、カウントされた回数が所定回数を超えた場合のみステップS5の処理を行ってもよい。これにより、家族データベース内に本来取得する必要のないデータ及びノイズが増えることを抑制できる。
 また、本実施の形態において、制御部101は、登録音声情報に一致する音声情報が一定期間以上取得されない場合、当該登録音声情報を家族データベースから削除してもよい。これにより、家族以外の人物の音声情報が家族データベースに登録されたとしても、自動的に削除することができる。
 また、本実施の形態において個人判別のために音声情報のみを用いるシステムでは、過剰なユーザの個人情報を取得することを避けることができる。例えば、カメラなどの撮像装置でユーザの画像を取得した場合、ユーザの顔情報など個人判別に必要な情報を取得することができるが、ユーザの服装及びユーザの部屋の様子など、個人判別に不要な個人情報も取得することになる。しかしながら、本実施の形態のように、個人判別のために音声情報のみを用いるのであれば、本来取得する必要のないデータ及びノイズが増えることを抑制でき、不要にユーザの個人情報を取得しないことでユーザの不快感を低減できる。
 (実施の形態2)
 (話者識別システムの構成)
 図10は、本発明の実施の形態2における話者識別システムの構成を示すブロック図である。
 本実施の形態2における話者識別システムは、音声取得部201と、視聴コンテンツ情報取得部202と、データベース管理部203と、サービス提供部204とを備える。
 なお、図10において、図2に示す話者識別システムと同じ構成要素については同じ符号を用い、説明を省略する。音声取得部201及び視聴コンテンツ情報取得部202の構成は、実施の形態1と同じであるので説明を省略する。
 データベース管理部203は、実施の形態1と同様に、取得した音声情報と視聴コンテンツ情報とに基づいて家族データベースを構築する。さらに、本実施の形態2では、データベース管理部203は、家族データベースに記憶された音声情報及び視聴コンテンツ情報を、サービス提供部204に出力する。また、データベース管理部203は、後述するサービス提供部204から、ユーザに提供されたサービスに関する情報を取得し、登録音声情報に関連付けて記憶する。また、データベース管理部203は、提供するサービスの候補に関する情報を、テレビのコンテンツに関連付けて記憶するデータベースを管理してもよい。
 サービス提供部204は、取得された音声情報及び視聴コンテンツ情報に基づいて、所定のサービス提供条件を満たす場合に視聴者(話者)の嗜好に適したサービスを提供する。ここで、サービスとは、視聴可能なテレビ番組等のコンテンツを推薦するサービス、又は広告を配信するサービスである。なお、サービス提供部204は、視聴コンテンツ情報から類推できるその他のサービスを提供してもよい。サービスは、サービス提供可能なタイミングにおいて、表示部114に提供される。また、サービスが提示される際には、複数の提供可能な複数のサービスの候補が提示され、視聴者(話者)に選択させてもよい。提供するサービスの候補は、データベース管理部203が管理しているデータベースから取得してもよい。
 サービスデータベース(不図示)は、視聴コンテンツ情報と、視聴コンテンツ情報に対応するコンテンツを視聴した話者に提供されるサービスとを関連付けて記憶する。なお、サービスデータベースに格納される視聴コンテンツ情報は、例えば、コンテンツの名称である。
 サービス提供部204は、取得された音声情報に対応する話者が家族データベースに記憶されている登録音声情報に対応する話者と一致すると判断された場合、登録音声情報に関連付けられて記憶されているコンテンツ情報を特定し、特定したコンテンツ情報に関連付けられているサービスを特定し、特定したサービスを話者に提供する。
 また、サービス提供部204は、提供可能な少なくとも1つのサービスが存在し、かつ予め決められているサービス提供タイミングであるか否かを判断する。そして、提供可能なサービスが存在し、かつ予め決められているサービス提供タイミングであると判断された場合、サービス提供部204は、提供可能な少なくとも1つのサービスの候補を話者識別装置110に表示させる。
 また、サービス提供部204は、表示された少なくとも1つのサービスの候補の中から話者によって選択されたサービスを話者に提供する。データベース管理部203は、提供されたサービスを登録音声情報に関連付けて家族データベースに記憶する。
 また、サービスは、話者識別装置110に表示するコンテンツを配信するサービス、又は話者識別装置110に表示する広告を配信するサービスを含む。
 (話者識別システムの動作)
 図11は、本発明の実施の形態2における話者識別システムの動作を示すフローチャートである。
 図11を用いて、本実施の形態2における話者識別システムによるサービス提供方法について説明する。なお、フローチャートの処理は継続的に行われるものとし、音声取得時にフローチャートの処理が繰り返される。
 また、図11に示す実施の形態2における話者識別システムの動作において、図3に示す実施の形態1における話者識別システムと同じ処理については説明を省略する。
 図11のステップS31及びステップS32の処理は、図3のステップS1及びステップS2の処理と同様であるので、説明を省略する。また、ステップS32において取得された音声情報が登録音声情報と一致しないと判断された場合に、取得された音声情報を家族データベースに登録するステップS33の処理は、図3のステップS5の処理と同様であるので、説明を省略する。
 取得された音声情報が家族データベースの登録音声情報と一致すると判断された場合(ステップS32でYES)、視聴コンテンツ情報取得部202は、話者が話者識別装置110で現在視聴しているコンテンツに関する視聴コンテンツ情報を番組情報データベース103より取得する(ステップS34)。なお、ステップS34の処理は、図3のステップS3の処理と同様である。
 次に、サービス提供部204は、データベース管理部203より、提供する少なくとも1つのサービスの候補を取得する(ステップS35)。ここで、提供する少なくとも1つのサービスの候補とは、例えば、取得された音声情報に一致する登録音声情報に対応する視聴コンテンツ情報に関連付けられた、少なくとも1つのサービスである。すなわち、この時点で、取得される少なくとも1つのサービスの候補は、視聴コンテンツ情報に関連付けられているため、視聴者(話者)の嗜好に適合したものに絞られる。
 次に、サービス提供部204は、サービス提供条件を満たすか否かを判断する(ステップS36)。サービス提供条件を満たすと判断された場合はステップS34の処理に進み、サービス提供条件を満たさないと判断された場合はステップS40の処理に進む。サービス提供条件とは、提供可能なサービスが存在するか否かの判断と、予め決められているサービスを提供するタイミングであるか否かの判断とである。提供可能なサービスが存在するか否かの判断は、ステップS35において少なくとも1つのサービスの候補が取得されたか否かである。例えば、視聴していたコンテンツによっては、サービスの候補が関連付けられていない可能性もある。その場合は、ステップS40の処理に進む。また、サービスを提供するタイミングであるか否かの判断とは、例えば、話者識別装置110の電源がONされたタイミング、又は話者が視聴していたコンテンツが切り替えられたタイミングなどサービスの提供がコンテンツの視聴を阻害しないタイミングである。コンテンツの視聴を阻害するタイミングであれば、ステップS40の処理に進む。なお、サービス提供のタイミングについては、視聴者(話者)が意図的に選択してもよいし、話者識別システムが自動で判別してもよい。
 ここで、サービス提供条件を満たすと判断された場合(ステップS36でYES)、サービス提供部204は、少なくとも1つのサービスの候補を選択可能な状態で表示部114に表示する(ステップS37)。表示方法は、例えば、現在表示されているコンテンツの視聴を阻害しないように表示されてもよいし、現在表示されているコンテンツから切り替えてサービスの候補を表示してもよい。なお、サービスの候補の表示例については後述する。
 次に、表示された少なくとも1つのサービス候補のうち、1つのサービスが選択された場合、サービス提供部204は、選択されたサービスを提供する(ステップS38)。なお、表示された少なくとも1つのサービス候補のうち、1つのサービスが選択されない場合、ステップS40の処理に移行してもよい。
 次に、データベース管理部203は選択されたサービスに関する情報を、登録音声情報と関連付けて家族データベースに追加する(ステップS39)。
 次に、データベース管理部203は、家族データベースに記憶されている登録音声情報に関連付けて、視聴コンテンツ情報取得部202によって取得された視聴コンテンツ情報を記憶する(ステップS40)。これにより、家族データベースが再構築される。なお、ステップS40の処理は、図3におけるステップS4の処理と同様である。
 (話者識別システムのシーケンス図)
 図12は、本発明の実施の形態2における話者識別システムの動作の一例を示すシーケンス図である。
 図12を用いて、本実施の形態2における各装置間の具体的なデータのやり取りと各装置の具体的な動作例について説明する。なお、図12に示す動作例では、話者識別装置110がテレビである例について説明する。図12に示す動作例は一例であり、本実施の形態を限定するものではない。
 また、図12に示す実施の形態2における話者識別システムの動作において、図4に示す実施の形態1における話者識別システムと同じ処理については説明を省略する。図12のステップS51~S54の処理は、図4のステップS11~ステップS14の処理と同様であるので、説明を省略する。以下、図1における例えば家庭A内の視聴者(話者)の音声情報が、家族データベース105内の登録音声情報と比較されることによって、家族データベース105内の既存の話者の音声情報と一致すると判別された場合について説明する。
 サーバ装置100の制御部101は、家族データベース105内の視聴コンテンツ情報に基づいて、提供される少なくとも1つのサービスの候補をサービス情報データベース104から取得する(ステップS55)。ここで、図13~図15を用いて、提供されるサービスの候補の取得方法に関して説明する。
 図13は、本発明の実施の形態2における家族データベースのデータ構造の一例を示す図である。図13に示すように、本実施の形態2における家族データベース105には、登録音声情報に対して、視聴コンテンツ情報及び話者によって過去に選択されたサービスの履歴(サービス選択履歴)が関連付けられて蓄積されている。
 図14は、本発明の実施の形態2におけるサービス情報データベースのデータ構造の一例を示す図である。図14に示すように、本実施の形態2におけるサービス情報データベース104には、コンテンツの名称に対して、提供されるサービスの候補(提供サービス候補)が関連付けられて蓄積されている。なお、1つのコンテンツの名称に対して1つのサービスの候補が関連付けられているとは限らず、1つのコンテンツの名称に対して複数のサービスの候補が関連付けられていてもよい。
 ステップS53において音声情報と一致すると判断された登録音声情報が「0001.wav」であったとする。この場合、制御部101は、登録音声情報「0001.wav」に関連付けられている視聴コンテンツ情報に含まれるコンテンツ名と、サービス情報データベース104内のコンテンツ名とを比較する。制御部101は、サービス情報データベース104内のコンテンツ名の中から、登録音声情報「0001.wav」に関連付けられている視聴コンテンツ情報に含まれるコンテンツ名と一致するコンテンツ名を検索する。そして、例えば、図14に示すように、「クイズAA」が一致するコンテンツ名であった場合、制御部101は、一致したコンテンツ名に対応する提供サービスの候補をサービス情報データベース104から取得する。これにより、話者の興味のあるコンテンツに関連するサービス(コンテンツの提供又は広告の提供)の候補が選択される。
 なお、サービスの候補の取得方法はこれに限られない。例えば、コンテンツ名ではなく出演者と提供サービス候補とが関連付けられて管理されていてもよい。これにより、話者の興味のある出演者に関連するサービス(コンテンツの提供又は広告の提供)の候補が選択される。
 図15は、本発明の実施の形態2におけるサービス情報データベースのデータ構造の他の例を示す図である。図15に示すように、本実施の形態2の他の例におけるサービス情報データベース104には、コンテンツのジャンルに対して、提供されるサービスの候補(提供サービス候補)が関連付けられて蓄積されている。
 この場合、制御部101は、取得された音声情報と同一であると判別された登録音声情報に関連付けられた視聴コンテンツ情報を用いて、過去に最も多く視聴されたコンテンツのジャンルを特定し、サービス情報データベース104内のジャンルの中から、特定したジャンルと一致するジャンルを検索する。一致するジャンルが存在する場合、制御部101は、一致したジャンルに対応する提供サービスの候補をサービス情報データベース104から取得する。これにより、話者の興味のあるコンテンツのジャンルに関連するサービス(コンテンツの提供又は広告の提供)の候補が選択される。
 また、音声情報が取得されない場合であっても、家族データベース105内の視聴コンテンツ情報に基づいて提供可能なサービスの情報がある場合、サービス情報データベース104内の提供サービス候補を更新してもよい。
 図12に戻って、サーバ装置100の通信部102は、取得した少なくとも1つのサービスの候補を示すサービス情報を、話者識別装置110であるテレビに送信する(ステップS56)。話者識別装置110の通信部112は、サーバ装置100によって送信されたサービス情報を受信する。
 次に、話者識別装置110の制御部111は、サービス提供可能なタイミングであるか否かを判断し、サービス提供可能なタイミングであると判断された場合、話者識別装置110の表示部114は、サービスの候補を表示する(ステップS57)。表示部114は、例えば、テレビの電源が入れられた直後のタイミング、番組表が表示されたタイミング、又はテレビに対する何らかの操作が行われた直後のタイミングなど、視聴者(話者)が現在の視聴コンテンツに集中しておらず、サービスを選択したり、視聴しているコンテンツを変更したりするのに適切である可能性の高いタイミングにサービスの候補を表示する。また、サーバ装置100の制御部101が、サービス提供可能なタイミングであるか否かを判断してもよいし、話者識別装置110の制御部111が、サービス提供可能なタイミングであるか否かを判断してもよい。そして、話者識別装置110の入力受付部(不図示)は、表示された少なくとも1つのサービスの候補の中から視聴者(話者)による一のサービスの選択を受け付ける。
 図16は、本発明の実施の形態2においてサービスの候補を選択する選択画面の一例を示す図である。例えば、図16に示すように、表示部114は、取得した提供可能なサービス(広告の配信)の候補を表示する。図16では、例えば複数の広告をリモコンのボタンの色に関連付けて表示する例を示している。視聴者(話者)は、所望のサービス(広告の配信)に対応するリモコンのボタンを押すことで、所望のサービス(広告の配信)を選択できる。なお、サービス表示部分からサービスを選択することで所望の操作(チャンネルの変更又はインターネットショッピングなど)ができてもよいし、サービスを見た視聴者(話者)が自発的にそれらの操作を行ってもよい。
 図17は、本発明の実施の形態2においてサービスの候補を選択する選択画面の他の例を示す図である。例えば、図17に示すように、表示部114は、取得した提供可能なサービス(コンテンツの再生)の候補を表示する。図17では、例えば、視聴者(話者)に推奨するコンテンツ(番組)を表示する例を示している。視聴者(話者)は、所望のサービス(コンテンツの再生)に対応するリモコンのボタンを押すことで、所望のサービス(コンテンツの再生)を選択できる。
 次に、話者識別装置110の制御部111は、選択されたサービスを提供する(ステップS58)。すなわち、制御部111は、選択されたサービスを表示部114に表示させる。例えば選択されたサービスが番組コンテンツを再生するコンテンツであれば、制御部111は、選択されたコンテンツを再生する。なお、再生するコンテンツが、話者識別装置110内に記憶されていれば、制御部111は、記憶されているコンテンツを読み出して再生する。また、再生するコンテンツが、話者識別装置110内に記憶されておらず、サーバ装置100内に記憶されていれば、制御部111は、サーバ装置100からコンテンツを取得し、取得したコンテンツを再生する。また、選択されたサービスが広告を配信するサービスであれば、制御部111は、ネットワークを介して、選択された広告のウェブページを表示させる。
 次に、話者識別装置110の制御部111によってサービスが選択されたことが検知された場合、通信部112は、選択されたサービスに関するサービス選択情報をサーバ装置100に送信する(ステップS59)。コンテンツを再生するサービスが選択された場合、サービス選択情報は、例えば、コンテンツが再生された日時、再生されたコンテンツの名称、及び再生されたコンテンツの出演者を含む。サーバ装置100の通信部102は、話者識別装置110によって送信されたサービス選択情報を受信する。
 次に、サーバ装置100の制御部101は、取得された視聴コンテンツ情報及び受信されたサービス選択情報に基づいて、家族データベース105を更新する(ステップS60)。ここで、本実施の形態では、制御部101は、登録音声情報に関連付けて、視聴コンテンツ情報を更新するとともに、視聴者(話者)によって選択されたサービス選択情報も更新する。図13に示すように、制御部101は、登録音声情報に関連付けて、サービス選択履歴を更新する。
 なお、ステップS60の処理の後、通信部102は、構築された家族データベースの更新情報を、話者識別装置110に送信してもよい(ステップS61)。話者識別装置110の通信部112は、サーバ装置100によって送信された家族データベースの更新情報を受信する。
 また、話者識別装置110の表示部114は、受信された家族データベースの更新情報に基づいて、家族データベースの更新内容を表示してもよい(ステップS62)。表示部114は、更新された家族データベースの一部又は全部を表示してもよい。なお、ステップS61及びステップS62の処理は必須の処理ではない。
 これにより、本実施の形態2では、ユーザに煩わしい設定操作を行わせることなく、家族データベースを構築することができる。最適なサービスを少なくとも1つのサービスの候補の中から選択させることで、さらに登録音声情報に対応する話者の嗜好に関する情報を蓄積することができるので、より話者に最適なサービスを提供することができる。
 (実施の形態3)
 従来、テレビなどの表示装置の前にいる視聴者を特徴付けるデータを取得して、適切な広告を配信する方法が提案されている(例えば、国際公開第01/089216号参照)。
 しかしながら、国際公開第01/089216号に記載の発明は、予め登録されている視聴者を特徴付けるデータに関して、視聴者の家族構成が変化した際には使用できない。また、新規の視聴者をデータベースに登録する手段に関して十分な検討がされていなかった。
 国際公開第01/089216号には、登録された各視聴者の受信機へ、広告データを送信する広告配信方法及び広告配信装置について開示されている。従来の広告配信装置は、送信側において、登録された各視聴者から視聴者層を特徴付けるデータを受け取り、広告データが対象とする視聴者層を特徴付けるデータを受け取って広告データに関連付け、登録された各視聴者毎に、視聴者の視聴者層を特徴付けるデータと、広告が対象とする視聴者層を特徴付けるデータとの一致の度合いに基づいて、視聴者の受信機へ送信する広告データを広告データの中から選択して視聴者に割り当て、登録された各視聴者毎に、視聴者に割り当てた広告データを視聴者の受信機へ送信する。
 国際公開第01/089216号に記載の方法では、広告が対象とする視聴者層を特徴付けるデータと、既に登録された視聴者のみを特徴付けるデータとの一致の度合いに基づいて広告データ配信が制御される。そのため、視聴者の家族構成が変化するなど、登録内容が変化した場合は、登録内容の変更手続きを自発的に行う必要がある。また、視聴者の視聴者層を特徴付けるデータを登録し忘れた場合は、広告が対象とする視聴者層を特徴付けるデータとの一致度合いの判断ができないため、適切な広告を受信できないという課題を有している。
 そこで、本発明者らは、上記検討に基づき、以下の各態様に係る発明を想到するに至った。
 本発明の一局面に係る話者識別方法は、話者を識別する話者識別方法であって、前記話者の音声情報を取得するステップと、前記取得された音声情報に対応する話者が、データベースに話者に関する話者情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断するステップと、前記取得された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致しないと判断された場合、前記話者による話者情報の入力を受け付けるステップと、前記取得された音声情報を登録音声情報として前記データベースに記憶するとともに、前記受け付けられた話者情報を前記登録音声情報に関連付けて前記データベースに記憶するステップと、を含む。
 これにより、話者の音声情報を取得して話者を識別し、データベースに登録されていない新規の話者が識別された場合、新規の話者に関連付ける話者情報のデータベースへの登録を促して、入力された話者情報をデータベースに登録する。したがって、話者にとって煩わしい設定操作を行うことなく、新規の話者をデータベースに登録することができる。
 また、上記態様において、前記話者情報に応じたコンテンツを配信するステップをさらに含むことが好ましい。この場合、話者情報に応じたコンテンツが配信されるので、話者に対して適切なコンテンツを提供することができる。
 また、上記態様において、前記話者情報は、話者の年齢及び話者の性別の少なくとも一方を含むことが好ましい。この場合、話者の年齢及び性別の少なくとも一方に応じたコンテンツを提供することができる。
 本発明の他の局面に係る話者識別装置は、話者を識別する話者識別装置であって、前記話者識別装置の周辺にいる話者の音声情報を取得する音声取得部と、登録された音声情報である登録音声情報と、話者に関する話者情報とを関連付けて記憶するデータベースと、前記音声取得部によって取得された音声情報に対応する話者が、前記データベースに話者に関する話者情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断する判断部と、前記取得された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致しないと判断された場合、前記話者による話者情報の入力を受け付ける入力受付部と、前記取得された音声情報を登録音声情報として前記データベースに記憶するとともに、前記入力受付部によって受け付けられた前記話者情報を前記登録音声情報に関連付けて前記データベースに記憶するデータベース記憶部と、を備える。
 これにより、話者の音声情報を取得して話者を識別し、データベースに登録されていない新規の話者が識別された場合、新規の話者に関連付ける話者情報のデータベースへの登録を促して、入力された話者情報をデータベースに登録する。したがって、話者にとって煩わしい設定操作を行うことなく、新規の話者をデータベースに登録することができる。
 本発明の他の局面に係る情報管理方法は、話者を識別する話者識別システムにおける情報管理方法であって、前記話者の音声情報を受信するステップと、前記受信された音声情報に対応する話者が、データベースに話者に関する話者情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断するステップと、前記受信された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致しないと判断された場合、前記話者に対して話者情報の入力を促す入力促進情報を送信するステップと、前記入力促進情報に応じて前記話者により入力された話者情報を受信するステップと、前記受信された音声情報を登録音声情報として前記データベースに記憶するとともに、前記受信された話者情報を前記登録音声情報に関連付けて前記データベースに記憶するステップと、を含む。
 これにより、話者の音声情報を取得して話者を識別し、データベースに登録されていない新規の話者が識別された場合、新規の話者に関連付ける話者情報のデータベースへの登録を促して、入力された話者情報をデータベースに登録する。したがって、話者にとって煩わしい設定操作を行うことなく、新規の話者をデータベースに登録することができる。
 以下、本発明の実施の形態について、図面を参照しながら説明する。
 本発明の実施の形態3では、視聴者に関する視聴者情報に応じて適切なコンテンツを提供するコンテンツ提供システムの例として、テレビ(以下、端末装置とも呼ぶ)の前にいる視聴者に応じて各種インターネット等の通信回線を介して、実施されるコンテンツ提供システムについて示したものである。
 (コンテンツ提供システムの構成)
 まず、本実施の形態におけるコンテンツ提供システムの各構成について説明する。
 図18は、本発明の実施の形態3に係るコンテンツ提供システムの全体構成を示す図である。
 コンテンツ提供システム400は、音声取得部401と、話者識別部402と、視聴者構成管理部403と、情報入力部404と、コンテンツ配信制御部405と、コンテンツ配信部406と、表示部407とを備える。
 音声取得部401は、視聴者(話者)の音声信号(音声情報)を取得する。話者識別部402は、音声取得部401によって取得された音声情報から、話者を識別する。話者識別部402は、取得された音声情報に対応する話者が、データベースに話者に関する話者情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断する。なお、話者情報は、例えば、話者の年齢及び話者の性別の少なくとも一方を含む。
 視聴者構成管理部403は、話者識別部402から取得した識別情報を用いて視聴者構成情報を管理し、新規視聴者と判定された場合に新規視聴者に関連する情報の入力を促し、入力された情報を受信して、視聴者構成を管理する。
 情報入力部404は、視聴者による情報の入力を受け付ける。情報入力部404は、取得された音声情報に対応する話者がデータベースに記憶されている登録音声情報に対応する話者と一致しないと判断された場合、話者による話者情報の入力を受け付ける。視聴者構成管理部403は、取得された音声情報を登録音声情報としてデータベースに記憶するとともに、受け付けられた話者情報を登録音声情報に関連付けてデータベースに記憶する。
 コンテンツ配信制御部405は、視聴者構成管理部403によって管理される視聴者構情報成に応じたコンテンツの配信を制御する。コンテンツ配信部406は、コンテンツ配信制御部405によって制御され、視聴者構成情報に応じたコンテンツを配信する。コンテンツ配信部406は、話者情報に応じたコンテンツを配信する。
 表示部407は、視聴者に関する情報の入力を促し、配信されたコンテンツを表示する。なお、コンテンツ提供システム400は、必ずしもこれらの構成を全て備えている必要はなく、一部の構成が欠けていてもよい。
 コンテンツ提供システム400は、例えば、視聴者側の端末装置と、コンテンツを配信するサーバ装置とに分けることができる。以下に説明する端末装置の各部は、例えば端末装置の一例であるテレビに配置されたマイクロホン、CPU(Central Processing Unit)、制御プログラムを格納したROM(Read Only Memory)、及び各種通信用IC(Integrated Circuit)などのハードウェアにより、実現される。また、サーバ装置の各部は、コンピュータを構成するCPU、制御プログラムを格納したROM、及び各種通信用のICなどのハードウェアにより、実現される。
 以下に、コンテンツ提供システムを実現するための各装置の構成例について、図19に示すコンテンツ提供システム500の処理ブロック図(構成図)を用いて説明する。
 図19は、本発明の実施の形態3におけるコンテンツ提供システムの構成を示すブロック図である。なお、図19のコンテンツ提供システム500は、図18のコンテンツ提供システム400の構成の一例を示している。コンテンツ提供システム500とコンテンツ提供システム400とは、同一のシステムであるが、便宜上、異なる符号で表現している。
 図19に示すコンテンツ提供システム500は、サーバ装置510及び端末装置520を備える。
 サーバ装置510は、サーバ通信部511、話者識別部512、視聴者構成管理部513、広告配信制御部514、視聴者構成DB(Data Base)515、及び配信広告DB(Data Base)516を備える。サーバ装置510が配置されている場所に関しては、特に限定しない。サーバ装置510は、ビッグデータを取り扱うデータセンタに配置されていてもよいし、各家庭に配置されていてもよい。データセンタは、データセンタを管理及び運営する会社が保有する。また、サーバ装置510の各構成は、1つの装置内に集約されていてもよいし、各々異なる装置に配置されていてもよい。
 端末装置520は、端末通信部521、音声取得部522、情報入力部523、及び表示部524を備える。端末装置520としては、これらの構成を備えている機器であればよい。端末装置520は、例えば家庭内のテレビ、PC(パーソナルコンピュータ)、及びPCに接続されたディスプレイ等で構成される。また、端末装置520は、携帯電話機、スマートフォン又はタブレット型端末などの携帯端末で構成されてもよい。また、端末装置520は、各構成を必ずしも端末装置520の内部に備えていなくてもよい。例えば、音声取得部522のみが、端末装置520の外部に取り付けられてもよい。また、コンテンツ提供システム500は、複数の端末装置520を備え、各々の端末装置520がサーバ装置510に接続されていてもよい。
 サーバ通信部511は、インターネット等の各種公衆回線である通信回線530を介して、回線データを受信する。そして、サーバ通信部511は、受信した回線データより、端末装置520によって送信された視聴者音声信号を抽出し、話者識別部512に出力する。また、サーバ通信部511は、受信した回線データより、端末装置520によって送信された視聴者タグデータを抽出し、視聴者構成管理部513に出力する。また、サーバ通信部511は、新規話者が検出された場合に生成される登録促進信号及び広告データを通信回線530へ回線データとして出力し、通信回線530を介して登録促進信号及び広告データを端末装置520へ送信する。
 話者識別部512は、サーバ通信部511によって出力された視聴者音声信号を取得して話者を識別し、話者識別結果を視聴者構成管理部513に出力する。話者識別部512は、取得した視聴者音声信号と、視聴者構成DB515に登録されている登録音声信号とを比較し、話者を識別する。このとき、話者識別部512は、取得した視聴者音声信号と、視聴者構成DB515に登録されている登録音声信号とが一致しない場合、新規話者を検出する。
 視聴者構成管理部513は、話者識別部512によって新規話者が検出された場合は、サーバ通信部511に登録促進信号を出力する。すなわち、視聴者構成管理部513は、話者識別部512によって識別された話者が、視聴者構成DB515に記憶されている視聴者構成に登録されていない場合は、サーバ通信部511に登録促進信号を出力する。また、視聴者構成管理部513は、視聴者によって入力された視聴者タグデータをサーバ通信部511より取得して、視聴者構成と関連付けられるタグ情報を管理し、視聴者構成情報を出力する。
 広告配信制御部514は、配信広告DB516から、視聴者構成情報に基づいて端末側に配信する広告を選択し、サーバ通信部511へ出力する。
 視聴者構成DB515は、視聴者構成管理部513により管理される視聴者構成情報を記憶するデータベースである。ここで、複数の端末装置520が存在する場合、視聴者構成DBは、各端末装置に対して作成されており、各端末装置に対応するIPアドレス又はIDによって管理されている。
 配信広告DB516は、広告配信制御部514により配信及び管理される広告データを記憶するデータベースである。
 端末通信部521は、インターネット等の各種公衆回線である通信回線530を介して、回線データを受信する。端末通信部521は、サーバ装置510によって送信された広告データ及び登録促進信号を受信し、受信した広告データ及び登録促進信号を表示部524へ出力する。また、端末通信部521は、音声取得部522によって取得された視聴者音声信号を通信回線530へ出力するとともに、情報入力部523によって入力された視聴者タグデータを通信回線530へ出力する。
 音声取得部522は、視聴者音声信号を取得し、端末通信部521へ出力する。
 情報入力部523は、表示部524に登録促進信号による登録促進画面が表示されたときに、新規視聴者に関連付けられる視聴者タグデータの入力を受け付け、入力された視聴者タグデータを端末通信部521へ出力する。
 表示部524は、登録促進信号を受信した場合に視聴者タグデータの入力を促す画面を表示する。また、表示部524は、受信した配信広告データを表示する。
 以上でコンテンツ提供システム500における各装置の構成の説明を終える。なお、各装置は上記で説明したすべての構成を必ずしも備えている必要はなく、一部の構成が欠けていてもよい。また、各装置は、他の機能を有する構成を備えていてもよい。
 (コンテンツ提供システムの動作)
 次に、コンテンツ提供システム500の動作について説明する。なお、各装置(端末装置520及びサーバ装置510)の詳細な動作に関しては後述する。ここでは、コンテンツ提供システム500全体の大まかな動作及び処理の流れを説明する。
 図20は、本発明の実施の形態3におけるコンテンツ提供システム500の動作の一例を示すシーケンス図である。なお、図20では、端末装置520に新たな視聴者が検出された場合について示す。
 まず、端末装置520の音声取得部522は、端末装置520の視聴者の音声信号を取得する(ステップS71)。なお、ステップS71の処理は、図18におけるコンテンツ提供システム400の音声取得部401による処理に相当する。
 次に、端末装置520の端末通信部521は、取得した視聴者音声信号を、通信回線530を通じて、サーバ装置510に送信する(ステップS72)。この時、端末通信部521は、視聴者音声信号と合わせて、端末装置520のユーザを特定するID又はIPアドレス等、端末装置520に関する他の情報を送信してもよい。サーバ装置510のサーバ通信部511は、端末装置520によって送信された視聴者音声信号を受信する。
 次に、サーバ装置510の話者識別部512は、端末装置520から通信回線530を介して送信された視聴者音声信号と、視聴者音声信号を取得した端末装置520に対応する視聴者構成DB515とを用いて話者を識別する(ステップS73)。なお、端末装置520に対応する視聴者構成DB515の抽出に関しては、端末装置520から送られてくるIPアドレスなどの記憶位置が特定できる情報に基づいて行ってもよい。ステップS73の処理は、図18におけるコンテンツ提供システム400の話者識別部402による処理に相当する。
 次に、話者識別部512は、視聴者構成DB515に登録されていない新規の話者を検出する(ステップS74)。すなわち、話者識別部512は、視聴者構成DB515に登録されている登録音声信号のうち、受信された視聴者音声信号と一致する登録音声信号が存在する場合、視聴者音声信号に対応する話者が当該登録音声信号に対応する話者であると判断する。一方、話者識別部512は、視聴者構成DB515に登録されている登録音声信号のうち、受信された視聴者音声信号と一致する登録音声信号が存在しない場合、視聴者音声信号に対応する話者が、視聴者構成DB515に登録されていない新規話者であると判断する。これにより、新規の話者が検出される。
 次に、サーバ装置510のサーバ通信部511は、端末装置520に対して通信回線530を介して新規話者に関連付けられるタグ情報のデータベースへの登録を促すための登録促進信号を送信する(ステップS75)。端末装置520の端末通信部521は、通信回線530を介して送信された登録促進信号を受信する。このとき、新規話者の検出は、新規話者の音声信号が所定期間(数日間)継続して検出されることなどを条件としてもよい。これにより、一時的な来客者の声などを、家族のような固定的な視聴者の声であるとして誤って識別してしまうことを回避することができる。
 次に、表示部524は、新規話者に関連付けられタグ情報の入力を促進するための登録促進画面を表示する(ステップS76)。ステップS76の処理は、図18におけるコンテンツ提供システム400の表示部407による処理に相当する。登録促進画面は、番組などのコンテンツが表示される表示画面の端部などのコンテンツの視聴の妨げにならない位置に表示してもよい。また、登録促進画面は、端末装置520の電源ON/OFF時などのコンテンツの視聴の妨げにならないタイミングで表示してもよい。
 次に、情報入力部523は、視聴者音声信号及び視聴者音声信号に関連付けられる視聴者に関する情報(視聴者タグデータ)を含む新規話者情報の入力を受け付ける(ステップS77)。新規話者は、登録促進画面の表示に従い、新規話者情報を入力する。ステップS77の処理は、図18におけるコンテンツ提供システム400の情報入力部404による処理に相当する。
 図21は、新規話者登録時において話者の音声信号を入力するための表示画面の一例を示す図であり、図22は、新規話者登録時において話者の年齢及び性別を入力するための表示画面の一例を示す図であり、図23は、新規話者登録時において話者のニックネームを入力するための表示画面の一例を示す図である。
 新規話者の音声信号とタグ情報との関連性を確実にするために、まず、音声取得部522は、音声信号を取得する。音声取得時の表示画面601(図21)では、ユーザの音声を確実に収録するための音声レベルメータ、及び発話する語彙などが表示され、リモコンの決定ボタンの操作などの簡単な操作で新規話者の音声信号を取得する。
 音声信号を取得した後、情報入力部523は、話者と関連付けるタグデータの入力を受け付ける。ここで、タグデータは、新規話者のニックネーム、年齢及び性別を含む。年齢及び性別入力時の表示画面602(図22)では、年齢及び性別の入力を簡単なリモコン操作で受け付ける。ユーザは、年齢及び性別のそれぞれの入力欄に移動して子画面で表示される該当する項目を選択し、決定ボタンを押して入力を完了する。
 また、ニックネーム入力時の表示画面603(図23)では、ユーザは、テンキーを用いて自身のニックネームを入力する。ニックネームの入力が完了した後、完了ボタンに移動して決定ボタンが押下されることにより、タグデータの入力が完了する。
 入力処理が完了した後、端末通信部521は、新規話者の視聴者タグデータ及び視聴者音声信号を、通信回線530を介してサーバ装置510に送信する(ステップS78)。サーバ装置510のサーバ通信部511は、端末装置520によって送信された視聴者タグデータ及び視聴者音声信号を受信する。
 次に、サーバ装置510の視聴者構成管理部513は、サーバ通信部511によって受信された視聴者タグデータ及び視聴者音声信号を視聴者構成DB515に記憶することにより、視聴者構成DB515を更新する(ステップS79)。ステップS79の処理は、図18におけるコンテンツ提供システム400の視聴者構成管理部403による処理に相当する。
 図24は、視聴者構成DB515のデータ構成の一例を示す図である。図24に示すように、視聴者構成DB515では、視聴者を表すニックネーム毎に、年齢、性別、及び取得した視聴者音声信号が関連付けられている。なお、視聴者構成DB515において構築されるデータベースに関してはこの例に限られない。
 次に、サーバ装置510の広告配信制御部514は、視聴者構成DB515に記憶されている視聴者に関する情報に応じた広告データを、配信広告DB516より選択する(ステップS80)。ここで、広告の選択方法については特に限定しない。例えば、配信広告DB516は、年齢及び性別に対応付けて、配信する広告データを記憶している。例えば、40歳代の男性には、車の広告が対応付けられており、30歳代の女性には、化粧品の広告が対応付けられており、広告配信制御部514は、ユーザの年齢及び性別に応じた最適な広告を選択する。ステップS80の処理は、図18におけるコンテンツ提供システム400のコンテンツ配信制御部405による処理に相当する。
 なお、配信広告DB516は、年齢のみに対応付けて広告データを記憶してもよく、性別のみに対応付けて広告データを記憶してもよい。また、配信広告DB516は、年齢及び性別以外の視聴者に関する情報に対応付けて広告データを記憶してもよい。視聴者構成DB515に視聴者の住所が記憶されている場合、配信広告DB516は、住所に対応付けて広告データを記憶しておき、広告配信制御部514は、視聴者の住所に最も近い店舗の広告データを選択してもよい。
 次に、サーバ通信部511は、広告配信制御部514によって選択された広告データを、通信回線530を介して端末装置520に送信する(ステップS81)。端末装置520の端末通信部521は、サーバ装置510によって送信された広告データを受信する。
 次に、端末装置520の表示部524は、サーバ装置510から配信された広告データを表示する(ステップS82)。ステップS82の処理は、図18におけるコンテンツ提供システム400のコンテンツ配信部406による処理に相当する。
 以上で、コンテンツ提供システム500の動作の説明を終える。
 (サーバ装置の動作)
 次に、本実施の形態3におけるコンテンツ提供システム500のサーバ装置510の動作について説明する。
 図25は、本発明の実施の形態3におけるサーバ装置510の動作の一例を示すフローチャートである。サーバ装置510は、例えば図25に示す動作を、電源スイッチ又は電源スイッチに関連する機能(図19には図示しない)がオンになったときに開始し、電源スイッチ又は電源スイッチに関連する機能がオフになったときに終了してもよい。
 まず、ステップS91において、サーバ装置510のサーバ通信部511は、通信回線530より回線データを受信する。このとき、サーバ通信部511は、端末装置520によって送信された視聴者音声信号を取得する。
 次に、ステップS92において、話者識別部512は、取得した視聴者音声信号に対応する話者を識別する。話者識別部512は、受信した視聴者音声信号と、端末装置ごとの視聴者構成DB515とを照合することで、話者を識別する。
 次に、ステップS93において、話者識別部512は、話者識別結果を用いて、新規話者を検出したか否かを判断する。話者識別部512は、受信した視聴者音声信号が視聴者構成DB515に登録されていなければ、新規話者を検出したと判断し、受信した視聴者音声信号が視聴者構成DB515に登録されていれば、新規話者を検出していないと判断する。なお、新規話者の検出は、所定期間(数日間)にわたり視聴者構成DB515に存在していない話者であることを条件としてもよい。これにより、一時的な来客者の声などを、家族のような固定的な視聴者の声として誤って識別してしまうことを回避することができる。ここで、新規話者を検出したと判断された場合(ステップS93でYES)、新規話者を登録するために、ステップS94の処理へ進む。一方、新規話者を検出していないと判断された場合(ステップS93でNO)、ステップS97の処理へ進む。
 ステップS94において、視聴者構成管理部513は、新規話者に関する情報を視聴者構成DB515に登録するための登録促進信号を作成してサーバ通信部511へ出力し、サーバ通信部511は、登録促進信号を送信する。
 次に、ステップS95において、視聴者構成管理部513は、サーバ通信部511によって新規話者の視聴者タグデータ及び視聴者音声信号が受信されたか否かを判断する。ここで、登録促進信号を送信したにもかかわらず、端末装置520から視聴者タグデータ及び視聴者音声信号が送信されない場合、すなわちサーバ装置510で視聴者タグデータ及び視聴者音声信号が受信されないと判断された場合(ステップS95でNO)、継続して登録を促すために、ステップS94の処理へ戻る。
 一方、端末装置520から視聴者タグデータ及び視聴者音声信号が送信された場合、すなわち視聴者タグデータ及び視聴者音声信号が受信されたと判断された場合(ステップS95でYES)、ステップS96の処理へ進む。
 ステップS96において、視聴者構成管理部513は、端末装置ごとの視聴者構成DB515を更新する。具体的には、視聴者構成管理部513は、情報入力部523によって入力された視聴者タグデータと、音声取得部522によって取得された視聴者音声信号とを用いて視聴者構成DB515を更新する。図24に示すように、視聴者構成DB515は、新規話者のニックネームごとに、年齢、性別及び視聴者音声信号を関連付けて記憶することにより、更新される。視聴者構成管理部513は、サーバ通信部511によって受信された視聴者タグデータ及び視聴者音声信号を視聴者構成DB515に記憶する。
 なお、本実施の形態では、登録促進信号を受けた端末装置520によって改めて取得された視聴者音声信号が受信され、受信された視聴者音声信号が視聴者構成DB515に記憶されるが、本発明は特にこれに限定されず、サーバ装置510は、視聴者タグデータのみを受信し、受信した視聴者タグデータと、ステップS91で受信した視聴者音声信号とを対応付けて視聴者構成DB515に記憶してもよい。
 次に、ステップS97において、広告配信制御部514は、視聴者構成DB515に記憶されている視聴者(識別された話者又は新規話者)に関する情報に対応する広告データを配信広告DB516から選択する。具体的には、広告配信制御部514は、視聴者構成DB515における識別された話者又は新規話者の年齢及び性別に対応する広告データを配信広告DB516から抽出し、抽出した広告データをサーバ通信部511へ出力する。
 次に、ステップS98において、サーバ通信部511は、広告配信制御部514によって選択された広告データを、通信回線530を介して端末装置520へ送信する。
 以上で、サーバ装置510の動作についての説明を終える。
 (端末装置の動作)
 次に、本実施の形態3におけるコンテンツ提供システム500の端末装置520の動作について説明する。
 図26は、本発明の実施の形態3における端末装置520の動作の一例を示すフローチャートである。端末装置520は、例えば図26に示す動作を、電源スイッチ又は電源スイッチに関連する機能(図19には図示しない)がオンになったときに開始し、電源スイッチ又は電源スイッチに関連する機能がオフになったときに終了してもよい。なお、本端末装置520がテレビである場合、テレビの基本機能として放送番組(コンテンツ)を表示する機能が存在するが、本コンテンツ提供システムの説明では、コンテンツの表示に関する詳細な説明は省略し、広告の配信に関する事項のみ説明する。
 まず、ステップS111において、音声取得部522は、端末装置520の周辺にいる視聴者が発話した音声を表す視聴者音声信号を取得する。音声取得部522は、取得した視聴者音声信号を端末通信部521へ出力する。
 次に、ステップS112において、端末通信部521は、音声取得部522によって取得された視聴者音声信号を、通信回線530を介してサーバ装置510へ送信する。端末通信部521は、通信回線530に視聴者音声信号を、回線データとして出力する。
 次に、ステップS113において、端末通信部521は、サーバ装置510によって送信される登録促進信号を受信したか否かを判断する。登録促進信号を受信したと判断された場合(ステップS113でYES)、ステップS114の処理へ進む。端末通信部521は、受信した登録促進信号を表示部524へ出力する。一方、登録促進信号を受信していないと判断された場合(ステップS113でNO)、ステップS117の処理へ進む。
 ステップS114において、表示部524は、新規話者に関する情報の入力を促すための登録促進画面を表示する。ここで、情報入力部523は、新規話者の視聴者音声信号と、新規話者の視聴者音声信号に関連付けられる視聴者タグデータとの入力を受け付ける。
 次に、ステップS115において、端末通信部521は、新規話者の視聴者音声信号と、新規話者の視聴者音声信号に関連付けられる視聴者タグデータとの入力が完了したか否かを判断する。入力が完了していないと判断された場合(ステップS115でNO)、ステップS114の処理へ戻り、表示部524は、継続して登録促進画面を表示する。一方、入力が完了したと判断された場合(ステップS115でYES)、ステップS116の処理へ進む。
 次に、ステップS116において、端末通信部521は、表示部524に表示された登録促進画面に従ってリモコンなどの情報入力部523によって入力された、新規話者の視聴者音声信号と、視聴者音声信号に関連付けられる視聴者タグデータ(ここでは、年齢、性別及びニックネーム)とを、サーバ装置510へ送信する。
 次に、ステップS117において、端末通信部521は、サーバ装置510によって送信された広告データを受信する。
 次に、ステップS118において、表示部524は、端末通信部521によって受信された広告データを表示する。
 以上で、端末装置520の動作についての説明を終える。
 以上のような動作により、端末装置から視聴者が発話した音声を取得して話者を識別し、一定期間同じ未知の話者が識別された場合、その話者を、端末装置を利用する視聴者の新たな構成員とみなす。そして、新規の話者に関連付ける話者情報のデータベースへの登録を促して、入力された話者情報をデータベースに登録する。これにより、端末装置を保有している家族の各構成員に関する情報を格納するデータベースを構築することができる。また、視聴者に応じて適切な広告を配信するコンテンツ提供システムを提供することができる。
 なお、本実施の形態におけるシステムは、コンテンツを提供するコンテンツ提供システムであるとして説明しているが、データベースを構築する視聴者構成DB構築管理システムであってもよい。その場合、図18に記載のシステムにおいて、コンテンツ配信制御部405とコンテンツ配信部406とが必須の構成ではなくなる。また、図19に記載のサーバ装置510において、広告配信制御部514と配信広告DB516とが必須の構成ではなくなる。また、図20のフローチャートにおけるステップS80以降の処理が必須の処理ではなくなる。また、図25のフローチャートにおけるステップS97以降の処理が必須の処理ではなくなる。また、図26のフローチャートにおけるステップS117以降の処理が必須の処理ではなくなる。
 (実施の形態4)
 以下、本発明の実施の形態4におけるコンテンツ提供システムを説明する。なお、本実施の形態4において、実施の形態3と同様の構成については説明を省略する。また、実施の形態4の技術は、実施の形態3に記載の技術と組み合わせることも可能である。
 上記の実施の形態3では、端末装置で取得した音声信号をサーバ装置へ送信し、サーバ装置において話者の識別と話者に関する情報の管理を行っているが、本実施の形態4では、端末装置において話者の識別と話者に関する情報の管理を行い、話者に関する情報のみが、端末装置からサーバ装置へ送信される。これにより、実施の形態4におけるコンテンツ提供システムは、送信するデータ量を削減することができ、低容量の通信回線にも対応することができる。
 以下、本実施の形態4におけるコンテンツ提供システムの構成について説明する。
 (コンテンツ提供システムの構成)
 図27は、本発明の実施の形態4に係るコンテンツ提供システムの構成の一例を示すブロック図である。図27において、図19と同じ構成要素については、同一の符号を付し、説明を省略する。
 図27に示すコンテンツ提供システム800は、サーバ装置550及び端末装置560を備える。
 サーバ装置550は、サーバ通信部551、広告配信制御部554、及び配信広告DB(Data Base)516を備える。
 端末装置560は、話者識別部512、端末通信部561、視聴者構成管理部562、視聴者構成DB(Data Base)515、音声取得部522、情報入力部523、及び表示部524を備える。
 サーバ通信部551は、インターネット等の各種公衆回線である通信回線530を介して、回線データを受信する。そして、サーバ通信部551は、受信した回線データより、端末装置560によって送信された視聴者構成情報を抽出し、広告配信制御部514へ出力する。また、サーバ通信部551は、広告データを通信回線530へ回線データとして出力し、通信回線530を介して広告データを端末装置520へ送信する。
 広告配信制御部554は、サーバ通信部551によって受信された視聴者構成情報に基づいて、配信広告DB516から広告データを選択し、選択した広告データをサーバ通信部551に出力する。
 端末通信部561は、インターネット等の各種公衆回線である通信回線530を介して、回線データを受信する。端末通信部561は、サーバ装置550によって送信された広告データを受信し、受信した広告データを表示部524へ出力する。また、端末通信部561は、視聴者構成管理部562によって出力された視聴者構成情報を回線データに変換し、通信回線530へ出力する。
 視聴者構成管理部562は、話者識別部512によって新規話者が検出された場合は、表示部524に登録促進信号を送信する。また、視聴者構成管理部562は、情報入力部523を用いて視聴者によって入力された視聴者音声信号及び視聴者タグデータを取得し、視聴者構成DB515の情報を更新する。また、視聴者構成管理部562は、視聴者構成DB515の視聴者構成情報を端末通信部561に出力する。
 以上で、コンテンツ提供システム800の構成の説明を終える。
 (コンテンツ提供システムの動作)
 次に、コンテンツ提供システム800の動作について説明する。なお、各装置(端末装置560及びサーバ装置550)の詳細な動作に関しては後述する。ここでは、コンテンツ提供システム800全体の大まかな動作及び処理の流れを説明する。
 図28は、本発明の実施の形態4におけるコンテンツ提供システム800の動作の一例を示すシーケンス図である。なお、図28では、端末装置560に新たな視聴者が検出された場合について示す。
 まず、端末装置560の音声取得部522は、端末装置560の視聴者の音声信号を取得する(ステップS121)。なお、ステップS121の処理は、図18におけるコンテンツ提供システム400の音声取得部401による処理に相当する。音声取得部522は、取得した視聴者音声信号を、話者識別部512に出力する。
 次に、話者識別部512は、音声取得部522によって取得された視聴者音声信号と、端末装置560の視聴者に関する情報を格納する視聴者構成DB515とを用いて話者を識別する(ステップS122)。ステップS122の処理は、図18におけるコンテンツ提供システム400の話者識別部402による処理に相当する。視聴者構成DB515は、端末装置560を利用する視聴者の視聴者構成情報のみを記憶する。視聴者構成情報は、図24に示すように、ニックネーム、年齢、性別及び音声信号を関連付けた情報である。
 次に、話者識別部512は、視聴者構成DB515に登録されていない新規の話者を検出する(ステップS123)。すなわち、話者識別部512は、視聴者構成DB515に登録されている登録音声信号のうち、受信された視聴者音声信号と一致する登録音声信号が存在する場合、視聴者音声信号に対応する話者が当該登録音声信号に対応する話者であると判断する。一方、話者識別部512は、視聴者構成DB515に登録されている登録音声信号のうち、受信された視聴者音声信号と一致する登録音声信号が存在しない場合、視聴者音声信号に対応する話者が、視聴者構成DB515に登録されていない新規話者であると判断する。これにより、新規の話者が検出される。
 視聴者構成DB515に登録されていない新規の話者が検出されると、視聴者構成管理部562は、表示部524に対して、新規話者に関連付けられるタグ情報のデータベースへの登録を促すための登録促進画面を表示するように指示する。このとき、新規話者の検出は、新規話者の音声信号が所定期間(数日間)継続して検出されることなどを条件としてもよい。これにより、一時的な来客者の声などを、家族のような固定的な視聴者の声であるとして誤って識別してしまうことを回避することができる。
 次に、表示部524は、新規話者に関連付けられるタグ情報の入力を促進するための登録促進画面を表示する(ステップS124)。ステップS124の処理は、図18におけるコンテンツ提供システム400の表示部407による処理に相当する。登録促進画面は、番組などのコンテンツが表示される表示画面の端部などのコンテンツの視聴の妨げにならない位置に表示してもよい。また、登録促進画面は、端末装置560の電源ON/OFF時などのコンテンツの視聴の妨げにならないタイミングで表示してもよい。
 次に、情報入力部523は、視聴者音声信号及び視聴者音声信号に関連付けられる視聴者に関する情報(視聴者タグデータ)を含む新規話者情報の入力を受け付ける(ステップS125)。新規話者は、登録促進画面の表示に従い、新規話者情報を入力する。ステップS125の処理は、図18におけるコンテンツ提供システム400の情報入力部404による処理に相当する。なお、新規話者情報入力時に端末装置560の表示部524に表示される登録促進画面については、実施の形態3において図21~図23を用いて既に説明した通りである。そのため、詳細な説明は省略する。
 入力処理が完了した後、視聴者構成管理部562は、新規話者の視聴者タグデータ及び視聴者音声信号を視聴者構成DB515に記憶することにより、実施の形態1と同様に、視聴者構成DB515を更新する(ステップS126)。視聴者構成DB515のデータ構成は、図24に示した通りである。ステップS126の処理は、図18におけるコンテンツ提供システム400の視聴者構成管理部403による処理に相当する。
 次に、端末通信部561は、話者識別部512によって識別された話者又は新規話者の視聴者構成情報を、通信回線530を介してサーバ装置550へ送信する(ステップS127)。サーバ装置550へ送信される視聴者構成情報は、音声信号に関連付けられている複数の情報のうちの全てであってもよいし、一部であってもよい。すなわち、視聴者構成情報は、年齢及び性別のうちの少なくとも1つを含み、話者に提供すべき広告を特定することが可能な情報であればよい。本実施の形態では、端末通信部561は、話者識別部512によって識別された話者又は新規話者の年齢及び性別を含む視聴者構成情報をサーバ装置550へ送信する。サーバ装置550のサーバ通信部551は、端末装置560によって送信された視聴者構成情報を受信する。
 次に、サーバ装置550の広告配信制御部554は、受信した視聴者構成情報に基づいて、端末装置560に配信する広告データを配信広告DB516から選択する(ステップS128)。ここで、広告の選択方法については特に限定しない。例えば、配信広告DB516は、年齢及び性別に対応付けて、配信する広告データを記憶している。例えば、40歳代の男性には、車の広告が対応付けられており、30歳代の女性には、化粧品の広告が対応付けられており、広告配信制御部514は、ユーザの年齢及び性別に応じた最適な広告を選択する。ステップS128の処理は、図18におけるコンテンツ提供システム400のコンテンツ配信制御部405による処理に相当する。
 次に、サーバ通信部551は、広告配信制御部514によって選択された広告データを、通信回線530を介して端末装置560に送信する(ステップS129)。端末装置560の端末通信部561は、サーバ装置550によって送信された広告データを受信する。
 次に、端末装置560の表示部524は、サーバ装置550から配信された広告データを表示する(ステップS130)。ステップS130の処理は、図18におけるコンテンツ提供システム400のコンテンツ配信部406による処理に相当する。
 以上で、コンテンツ提供システム800の動作の説明を終える。
 (サーバ装置の動作)
 次に、本実施の形態4におけるコンテンツ提供システム800のサーバ装置550の動作について説明する。
 図29は、本発明の実施の形態4におけるサーバ装置550の動作の一例を示すフローチャートである。サーバ装置550は、例えば図29に示す動作を、電源スイッチ又は電源スイッチに関連する機能がオンになったときに開始し、電源スイッチ又は電源スイッチに関連する機能がオフになったときに終了してもよい。
 まず、ステップS141において、サーバ装置550のサーバ通信部551は、通信回線530より回線データを受信する。このとき、サーバ通信部551は、端末装置560によって送信された視聴者構成情報を取得し、広告配信制御部554へ出力する。
 次に、ステップS142において、広告配信制御部554は、取得された視聴者構成情報に含まれる年齢及び性別を示す視聴者タグデータに基づき、広告データを配信広告DB516から選択し、選択した広告データをサーバ通信部551に出力する。
 次に、ステップS143において、サーバ通信部551は、広告配信制御部514によって選択された広告データを、通信回線530を介して端末装置560へ送信する。
 以上で、サーバ装置550の動作の説明を終える。
 (端末装置の動作)
 次に、本実施の形態4におけるコンテンツ提供システム800の端末装置560の動作について説明する。
 図30は、本発明の実施の形態4における端末装置560の動作の一例を示すフローチャートである。端末装置560は、例えば図30に示す動作を、電源スイッチ又は電源スイッチに関連する機能がオンになったときに開始し、電源スイッチ又は電源スイッチに関連する機能がオフになったときに終了してもよい。
 まず、ステップS151において、音声取得部522は、端末装置520の周辺にいる視聴者が発話した音声を表す視聴者音声信号を取得する。音声取得部522は、取得した視聴者音声信号を話者識別部512へ出力する。
 次に、ステップS152において、話者識別部512は、取得した視聴者音声信号に対応する話者を識別する。話者識別部512は、取得した視聴者音声信号と、視聴者構成DB515とを照合することで、話者を識別する。
 次に、ステップS153において、話者識別部512は、話者識別結果を用いて、新規話者を検出したか否かを判断する。話者識別部512は、受信した視聴者音声信号が視聴者構成DB515に登録されていなければ、新規話者を検出したと判断し、受信した視聴者音声信号が視聴者構成DB515に登録されていれば、新規話者を検出していないと判断する。なお、新規話者の検出は、所定期間(数日間)にわたり視聴者構成DB515に存在していない話者であることを条件としてもよい。これにより、一時的な来客者の声などを、家族のような固定的な視聴者の声として誤って識別してしまうことを回避することができる。ここで、新規話者を検出したと判断された場合(ステップS153でYES)、ステップS154の処理へ進む。一方、新規話者を検出していないと判断された場合(ステップS153でNO)、ステップS157の処理へ進む。
 次に、ステップS154において、表示部524は、新規話者に関する情報の入力を促すための登録促進画面を表示する。ここで、情報入力部523は、新規話者の視聴者音声信号と、新規話者の視聴者音声信号に関連付けられる視聴者タグデータとの入力を受け付ける。
 ステップS155において、視聴者構成管理部562は、新規話者の視聴者音声信号と、新規話者の視聴者音声信号に関連付けられる視聴者タグデータとの入力が完了したか否かを判断する。入力が完了していないと判断された場合(ステップS155でNO)、ステップS154の処理へ戻り、表示部524は、継続して登録促進画面を表示する。一方、入力が完了したと判断された場合(ステップS155でYES)、ステップS156の処理へ進む。
 次に、ステップS156において、視聴者構成管理部562は、視聴者構成DB515を更新する。具体的には、視聴者構成管理部562は、情報入力部523によって入力された視聴者タグデータと、音声取得部522によって取得された視聴者音声信号とを用いて視聴者構成DB515を更新する。図24に示すように、視聴者構成DB515は、新規話者のニックネームごとに、年齢、性別及び視聴者音声信号を関連付けて記憶することにより、更新される。
 次に、ステップS157において、視聴者構成管理部562は、視聴者構成情報を端末通信部561に出力し、端末通信部561は、視聴者構成情報を、通信回線530を介してサーバ装置550へ送信する。
 次に、ステップS158において、端末通信部561は、サーバ装置550によって送信された広告データを受信する。
 次に、ステップS159において表示部524は、端末通信部561によって受信された広告データを表示する。
 以上で、端末装置560の動作についての説明を終える。
 以上のような動作により、話者の識別と話者に関する情報の管理とが端末装置で行われるので、端末装置から送信されるデータを、広告データを選択するために必要な話者に関する情報のみの少ないデータに削減することができる。これにより、通信回線が低容量である場合でも、視聴者に応じた適切な広告を配信するコンテンツ提供システムを提供することができる。
 なお、実施の形態3,4において、視聴者構成DBは、ニックネーム、年齢、性別及び音声信号を互いに関連付けるだけでなく、家族関係を示す情報をさらに関連付けてもよい。家族関係を示す情報とは、視聴者が例えば父、母及び子供のいずれであるかを示す情報である。この場合、配信広告DBは、家族構成と、広告データとを対応付けて記憶してもよく、コンテンツ配信制御部405は、視聴者の家族構成を示す情報を取得し、取得した家族構成に対応する広告データを配信広告DBから選択してもよい。家族構成を示す情報とは、例えば、視聴者の家族が父、母及び子供で構成されていることを示す情報である。
 これにより、家庭内の家族構成に応じた広告データを配信することができる。
 また、実施の形態3,4において、視聴者構成DBは、ニックネーム、年齢、性別及び音声信号を互いに関連付けるだけでなく、家族関係を示す情報と視聴者によって視聴された番組に関する情報とをさらに関連付けてもよい。家族関係を示す情報とは、視聴者が例えば父、母及び子供のいずれであるかを示す情報である。番組に関する情報とは、例えば、端末装置で視聴されたテレビ番組の番組名、チャンネル番号、放送日時及び出演者を表す情報である。この場合、コンテンツ配信制御部405は、視聴者の家族構成を示す情報を取得し、取得した家族構成と同じ家族構成である他の視聴者の番組に関する情報を取得し、他の視聴者が視聴した番組を、識別された話者に提供してもよい。
 これにより、家族構成が同じ他の視聴者によって視聴された番組を、識別された話者に提供することができる。
 また、本実施の形態では、端末装置に広告データを提供しているが、本発明は特にこれに限定されず、端末装置に番組データを提供してもよい。
 本発明に係る話者識別方法、話者識別装置及び情報管理方法は、話者にとって煩わしい設定操作を行うことなく、データベースを構築及び更新することができ、コンテンツを表示する機器の周辺にいる話者を識別する話者識別方法、話者識別装置及び情報管理方法として有用である。
 また、本発明に係る話者識別方法、話者識別装置及び情報管理方法は、話者にとって煩わしい設定操作を行うことなく、新規の話者をデータベースに登録することができ、話者を識別する話者識別方法、話者識別装置及び情報管理方法として有用である。

Claims (9)

  1.  コンテンツを表示する機器の周辺にいる話者を識別する話者識別方法であって、
     前記話者の音声情報を取得するステップと、
     前記取得された音声情報に対応する話者が、データベースにコンテンツに関するコンテンツ情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断するステップと、
     前記取得された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致すると判断された場合、前記音声情報を取得した時点において前記機器に表示されている前記コンテンツに関するコンテンツ情報を取得し、前記取得されたコンテンツ情報を前記登録音声情報に関連付けて記憶するステップと、
     前記取得された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致しないと判断された場合、前記取得された音声情報を登録音声情報として前記データベースに記憶するステップと、
     を含む話者識別方法。
  2.  前記コンテンツ情報は、前記コンテンツの名称と、前記コンテンツに関連する人物名とを含む、
     請求項1記載の話者識別方法。
  3.  前記登録音声情報に関連付けられている複数のコンテンツを複数のジャンルに分類し、前記複数のジャンル毎に前記複数のコンテンツのうちの各ジャンルに分類されたコンテンツの割合を算出し、前記複数のジャンル毎に算出された前記コンテンツの割合を前記登録音声情報に関連付けて前記データベースに記憶するステップをさらに含む、
     請求項1又は2記載の話者識別方法。
  4.  前記データベースは、コンテンツ情報と、前記コンテンツ情報に対応するコンテンツを視聴した話者に提供されるサービスとを関連付けて記憶し、
     前記取得された前記音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致すると判断された場合、前記登録音声情報に関連付けられて記憶されている前記コンテンツ情報を特定し、特定した前記コンテンツ情報に関連付けられているサービスを特定し、特定した前記サービスを前記話者に提供するステップをさらに含む、
     請求項1~3のいずれかに記載の話者識別方法。
  5.  提供可能な少なくとも1つのサービスが存在し、かつ予め決められているサービス提供タイミングであるか否かを判断するステップと、
     提供可能なサービスが存在し、かつ予め決められているサービス提供タイミングであると判断された場合、提供可能な前記少なくとも1つのサービスの候補を前記機器に表示するステップとをさらに含む、
     請求項4記載の話者識別方法。
  6.  表示された前記少なくとも1つのサービスの候補の中から前記話者によって選択されたサービスを前記話者に提供するステップと、
     提供された前記サービスを前記登録音声情報に関連付けて前記データベースに記憶するステップとをさらに含む、
     請求項5記載の話者識別方法。
  7.  前記サービスは、前記機器に表示するコンテンツを配信するサービス、又は前記機器に表示する広告を配信するサービスを含む、
     請求項4~6のいずれかに記載の話者識別方法。
  8.  話者を識別する話者識別装置であって、
     コンテンツを表示する表示部と、
     前記話者識別装置の周辺にいる話者の音声情報を取得する音声取得部と、
     登録された音声情報である登録音声情報と、コンテンツに関するコンテンツ情報とを関連付けて記憶するデータベースと、
     前記音声取得部によって取得された前記音声情報に対応する話者が、前記データベースにコンテンツ情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断する判断部と、
     前記判断部によって前記取得された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致すると判断された場合、前記音声情報を取得した時点において前記表示部に表示されている前記コンテンツに関するコンテンツ情報を取得し、前記取得されたコンテンツ情報を前記登録音声情報に関連付けて記憶するデータベース更新部と、
     前記判断部によって前記取得された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致しないと判断された場合、前記音声取得部によって取得された音声情報を登録音声情報として前記データベースに記憶するデータベース記憶部と、
     を備える話者識別装置。
  9.  コンテンツを表示する機器の周辺にいる話者を識別する話者識別システムにおける情報管理方法であって、
     前記話者の音声情報を受信するステップと、
     前記受信された音声情報に対応する話者が、データベースにコンテンツに関するコンテンツ情報と関連付けて記憶されている登録音声情報に対応する話者と一致するか否かを判断するステップと、
     前記受信された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致すると判断された場合、前記音声情報を取得した時点において前記機器に表示されている前記コンテンツに関するコンテンツ情報を取得し、前記受信されたコンテンツ情報を前記登録音声情報に関連付けて記憶するステップと、
     前記受信された音声情報に対応する話者が前記データベースに記憶されている前記登録音声情報に対応する話者と一致しないと判断された場合、前記受信された音声情報を登録音声情報として前記データベースに記憶するステップと、
     を含む情報管理方法。
PCT/JP2014/002992 2013-06-10 2014-06-05 話者識別方法、話者識別装置及び情報管理方法 WO2014199602A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015522527A JP6348903B2 (ja) 2013-06-10 2014-06-05 話者識別方法、話者識別装置及び情報管理方法
US14/419,056 US9911421B2 (en) 2013-06-10 2014-06-05 Speaker identification method, speaker identification apparatus, and information management method

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2013-121713 2013-06-10
JP2013-121715 2013-06-10
JP2013121715 2013-06-10
JP2013121713 2013-06-10

Publications (1)

Publication Number Publication Date
WO2014199602A1 true WO2014199602A1 (ja) 2014-12-18

Family

ID=52021919

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/002992 WO2014199602A1 (ja) 2013-06-10 2014-06-05 話者識別方法、話者識別装置及び情報管理方法

Country Status (3)

Country Link
US (1) US9911421B2 (ja)
JP (1) JP6348903B2 (ja)
WO (1) WO2014199602A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020009206A (ja) * 2018-07-09 2020-01-16 ユニ・チャーム株式会社 動画提供装置、ユーザ端末、動画提供方法及び動画提供プログラム
KR20200101934A (ko) * 2017-12-27 2020-08-28 로비 가이드스, 인크. 음성 데이터 및 미디어 소비 데이터에 기초하여 사용자들을 식별하기 위한 시스템들 및 방법들
JP2021002884A (ja) * 2015-03-30 2021-01-07 ロヴィ ガイズ, インコーポレイテッド メディアアセットの部分を識別し記憶するためのシステムおよび方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6721298B2 (ja) * 2014-07-16 2020-07-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声情報制御方法及び端末装置
US10613826B2 (en) * 2014-12-25 2020-04-07 Maxell, Ltd. Head-mounted display system and operating method for head-mounted display device
CN105049882B (zh) * 2015-08-28 2019-02-22 北京奇艺世纪科技有限公司 一种视频推荐方法及装置
EP3698358A1 (en) * 2017-10-18 2020-08-26 Soapbox Labs Ltd. Methods and systems for processing audio signals containing speech data
US11270071B2 (en) 2017-12-28 2022-03-08 Comcast Cable Communications, Llc Language-based content recommendations using closed captions
US11145299B2 (en) 2018-04-19 2021-10-12 X Development Llc Managing voice interface devices
JP7027280B2 (ja) * 2018-08-10 2022-03-01 本田技研工業株式会社 個人識別装置および個人識別方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006324809A (ja) * 2005-05-17 2006-11-30 Sony Corp 情報処理装置,情報処理方法,およびコンピュータプログラム
US20110106744A1 (en) * 2009-04-16 2011-05-05 Ralf Becker Content recommendation device, content recommendation system, content recommendation method, program, and integrated circuit
EP2469843A1 (en) * 2010-12-27 2012-06-27 Kabushiki Kaisha Toshiba System and method for recommending programs

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
JP3865924B2 (ja) 1998-03-26 2007-01-10 松下電器産業株式会社 音声認識装置
US7831930B2 (en) * 2001-11-20 2010-11-09 Universal Electronics Inc. System and method for displaying a user interface for a remote control application
JP2000322088A (ja) * 1999-05-14 2000-11-24 Hitachi Ltd 音声認識マイクおよび音声認識システムならびに音声認識方法
WO2001089216A1 (fr) 2000-05-15 2001-11-22 Dentsu Inc. Procede et appareil permettant de commander la transmission de publicite
DE60120062T2 (de) * 2000-09-19 2006-11-16 Thomson Licensing Sprachsteuerung von elektronischen Geräten
JP2002366166A (ja) * 2001-06-11 2002-12-20 Pioneer Electronic Corp コンテンツ提供システム及び方法、並びにそのためのコンピュータプログラム
US7519534B2 (en) * 2002-10-31 2009-04-14 Agiletv Corporation Speech controlled access to content on a presentation medium
KR20050023941A (ko) * 2003-09-03 2005-03-10 삼성전자주식회사 음성 인식 및 화자 인식을 통한 개별화된 서비스를제공하는 a/v 장치 및 그 방법
WO2005069171A1 (ja) * 2004-01-14 2005-07-28 Nec Corporation 文書対応付け装置、および文書対応付け方法
JP4311322B2 (ja) 2004-09-28 2009-08-12 ソニー株式会社 視聴コンテンツ提供システム及び視聴コンテンツ提供方法
US20070280436A1 (en) * 2006-04-14 2007-12-06 Anthony Rajakumar Method and System to Seed a Voice Database
JP2009296346A (ja) * 2008-06-05 2009-12-17 Sony Corp 番組推薦装置、番組推薦方法及び番組推薦プログラム
JP5172973B2 (ja) * 2009-01-30 2013-03-27 三菱電機株式会社 音声認識装置
US20110099596A1 (en) * 2009-10-26 2011-04-28 Ure Michael J System and method for interactive communication with a media device user such as a television viewer
US20110106536A1 (en) * 2009-10-29 2011-05-05 Rovi Technologies Corporation Systems and methods for simulating dialog between a user and media equipment device
US8682667B2 (en) * 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
JP2011223573A (ja) 2010-03-26 2011-11-04 Sharp Corp 表示装置、テレビジョン受像機、表示装置の制御方法、制御プログラム、および制御プログラムを記録したコンピュータ読み取り可能な記録媒体
US8484219B2 (en) * 2010-09-21 2013-07-09 Sony Computer Entertainment America Llc Developing a knowledge base associated with a user that facilitates evolution of an intelligent user interface
US9262612B2 (en) * 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
CN102781075B (zh) * 2011-05-12 2016-08-24 中兴通讯股份有限公司 一种降低移动终端通话功耗的方法及移动终端
US9092415B2 (en) * 2012-09-25 2015-07-28 Rovi Guides, Inc. Systems and methods for automatic program recommendations based on user interactions

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006324809A (ja) * 2005-05-17 2006-11-30 Sony Corp 情報処理装置,情報処理方法,およびコンピュータプログラム
US20110106744A1 (en) * 2009-04-16 2011-05-05 Ralf Becker Content recommendation device, content recommendation system, content recommendation method, program, and integrated circuit
EP2469843A1 (en) * 2010-12-27 2012-06-27 Kabushiki Kaisha Toshiba System and method for recommending programs

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021002884A (ja) * 2015-03-30 2021-01-07 ロヴィ ガイズ, インコーポレイテッド メディアアセットの部分を識別し記憶するためのシステムおよび方法
JP7153699B2 (ja) 2015-03-30 2022-10-14 ロヴィ ガイズ, インコーポレイテッド メディアアセットの部分を識別し記憶するためのシステムおよび方法
US11563999B2 (en) 2015-03-30 2023-01-24 Rovi Guides, Inc. Systems and methods for identifying and storing a portion of a media asset
JP7423719B2 (ja) 2015-03-30 2024-01-29 ロヴィ ガイズ, インコーポレイテッド メディアアセットの部分を識別し記憶するためのシステムおよび方法
KR20200101934A (ko) * 2017-12-27 2020-08-28 로비 가이드스, 인크. 음성 데이터 및 미디어 소비 데이터에 기초하여 사용자들을 식별하기 위한 시스템들 및 방법들
KR102451348B1 (ko) 2017-12-27 2022-10-06 로비 가이드스, 인크. 음성 데이터 및 미디어 소비 데이터에 기초하여 사용자들을 식별하기 위한 시스템들 및 방법들
US11798565B2 (en) 2017-12-27 2023-10-24 Rovi Guides, Inc. Systems and methods for identifying users based on voice data and media consumption data
JP2020009206A (ja) * 2018-07-09 2020-01-16 ユニ・チャーム株式会社 動画提供装置、ユーザ端末、動画提供方法及び動画提供プログラム

Also Published As

Publication number Publication date
JPWO2014199602A1 (ja) 2017-02-23
JP6348903B2 (ja) 2018-06-27
US20150194155A1 (en) 2015-07-09
US9911421B2 (en) 2018-03-06

Similar Documents

Publication Publication Date Title
WO2014199602A1 (ja) 話者識別方法、話者識別装置及び情報管理方法
US8340974B2 (en) Device, system and method for providing targeted advertisements and content based on user speech data
US9270918B2 (en) Method of recommending broadcasting contents and recommending apparatus therefor
JP5482206B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP4538756B2 (ja) 情報処理装置、情報処理端末、情報処理方法、およびプログラム
US20220286750A1 (en) Reminders of media content referenced in other media content
JP2009140051A (ja) 情報処理装置、情報処理システム、推薦装置、情報処理方法および記憶媒体
JPWO2008081664A1 (ja) 広告配信システム、広告配信サーバ、広告配信方法、プログラム及び記録媒体
KR101495297B1 (ko) 스마트 티비 기반의 상황 인지를 통한 사용자 이력 분석 제공 시스템, 장치, 방법 및 컴퓨터 판독 가능한 기록 매체
JP2003250146A (ja) 番組選択支援情報提供サービスシステムとサーバ装置および端末装置ならびに番組選択支援情報提供方法とプログラムおよび記録媒体
US11687585B2 (en) Systems and methods for identifying a media asset from an ambiguous audio indicator
TW201319981A (zh) 電視廣告產品資訊顯示系統、方法及其記錄媒體
JP2011223571A (ja) 情報処理装置、情報処理システム及びプログラム
KR20160136555A (ko) 멀티모달 정보를 이용하여 사용자의 정보를 획득하는 셋톱박스, 셋톱박스로부터 획득한 사용자의 정보를 관리하는 관리 서버, 그리고 이를 이용한 방법 및 컴퓨터 판독 가능한 기록 매체
JP2010171713A (ja) 広告入出力装置、広告入出力方法、広告入出力プログラム、コンピュータ読取可能な記録媒体、及び録画再生装置
KR102135076B1 (ko) 인공지능 스피커를 이용한 감성 기반의 사용자 맞춤형 뉴스 추천 시스템
TW201322740A (zh) 數位化電視廣告產品資訊顯示系統、方法及其記錄媒體
JP2003006511A (ja) 商品情報提供システム
JP2013141050A (ja) コンテンツ推薦サーバ、コンテンツ表示端末、およびコンテンツ推薦システム
JP2020167669A (ja) 映像と音声を上映するための映像音声管理装置および上映システム
JP2002135221A (ja) 情報受信装置および方法、情報送信装置および方法、情報送受信システムおよび方法、並びに記録媒体
WO2019069831A1 (ja) 映像と音声を上映するための映像音声管理装置および上映システム
CN115866339A (zh) 电视节目推荐方法、装置、智能设备及可读存储介质
CN111788563A (zh) 信息处理装置、信息处理方法及程序
JP2019216355A (ja) 情報処理装置、情報処理方法、及び情報処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14811641

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015522527

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14419056

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14811641

Country of ref document: EP

Kind code of ref document: A1