WO2018088534A1 - 電子機器、電子機器の制御方法及び電子機器の制御プログラム - Google Patents

電子機器、電子機器の制御方法及び電子機器の制御プログラム Download PDF

Info

Publication number
WO2018088534A1
WO2018088534A1 PCT/JP2017/040621 JP2017040621W WO2018088534A1 WO 2018088534 A1 WO2018088534 A1 WO 2018088534A1 JP 2017040621 W JP2017040621 W JP 2017040621W WO 2018088534 A1 WO2018088534 A1 WO 2018088534A1
Authority
WO
WIPO (PCT)
Prior art keywords
command
data
unit
recognition
authentication score
Prior art date
Application number
PCT/JP2017/040621
Other languages
English (en)
French (fr)
Inventor
敏幸 宮崎
Original Assignee
旭化成株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 旭化成株式会社 filed Critical 旭化成株式会社
Priority to JP2018550285A priority Critical patent/JP6682007B2/ja
Priority to US16/348,701 priority patent/US11416593B2/en
Publication of WO2018088534A1 publication Critical patent/WO2018088534A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • the present invention relates to an electronic device, an electronic device control method, and an electronic device control program.
  • the security level for starting an application may be different for each user.
  • Voice operation is one promising method for easy operation of electronic devices, but user authentication is unlocked to perform speaker authentication, and after authentication, an independent voice command is uttered to launch the application. Then, the problem that operation becomes complicated arises.
  • An object of the present invention is to provide an electronic device, an electronic device control method, and an electronic device control program that can prevent an operation for activating a function protected by user authentication from becoming complicated.
  • an electronic device uses identification information for identifying a registrant and a keyword storage unit that associates and stores a registration keyword based on the utterance of the registrant with different identification information.
  • a command that is configured to store a plurality of associated required authentication scores in association with a single command and that defines the operation content, and a required authentication score that is used to determine whether or not to perform the operation specified by the command
  • a command storage unit that stores the data in association with each other, a data creation unit that creates grammar data having a registered keyword acquired from the keyword storage unit and a command acquired from the command storage unit, and the data creation unit
  • the grammar data and the extracted data extracted from the user's utterance are collated, and the registration included in the grammar data is verified.
  • a recognition authentication score indicating the degree of coincidence between a keyword and a part of the extracted data a verification acquisition unit that acquires a recognition command recognized from at least a part of the remaining part of the extracted data, and a recognition acquired by the verification acquisition unit If the required authentication score associated with the command determined to be the same as the command is less than or equal to the recognition authentication score acquired by the verification acquisition unit, it is determined that the command is recognized, and the required authentication score is the recognition authentication And a determination unit that determines that the command has not been recognized when the score is larger than the score.
  • an electronic device control method stores identification information for identifying a registrant and a registered keyword based on the utterance of the registrant in a keyword storage unit in association with each other.
  • the required authentication score to be used is associated and stored in the command storage unit, and the data creation unit creates grammar data having the registered keyword acquired from the keyword storage unit and the command acquired from the command storage unit, and the data generation The grammar data created in the department and the extracted data extracted from the user's utterance
  • the verification acquisition unit acquires a recognition authentication score indicating the degree of coincidence between the registered keyword and a part of the extracted data and a recognition command recognized from at least a part of the remaining part of the extracted data, and the verification acquisition unit acquires the recognition command.
  • the required authentication score associated with the command determined to be the same as the recognized recognition command is equal to or less than the recognition authentication score acquired by the verification acquisition unit, it is determined that the command is recognized, and the required authentication score is It is characterized in that it is determined that the command has not been recognized when the recognition authentication score is greater than the recognition authentication score.
  • an electronic device control program stores a computer in association with identification information for identifying a registrant and a registered keyword based on the utterance of the registrant.
  • a plurality of required authentication scores associated with the different identification information are configured to be associated with a single command so as to be storable and to specify an operation content and whether to execute an operation specified by the command
  • a command storage unit that associates and stores a necessary authentication score used for determination, a data creation unit that creates grammar data having a registered keyword acquired from the keyword storage unit and a command acquired from the command storage unit, and the data generation
  • the grammar data created in the department and the extracted data extracted from the user's utterance A recognition / authentication score indicating a degree of coincidence between a registered keyword included in the grammar data and a part of the extracted data, and a collation acquiring unit that acquires a recognition command recognized from at least a part of the remaining part of the extracted data; If the required authentication score associated with the command determined to be the same as the
  • FIG. 1 is a block diagram illustrating a schematic configuration of an electronic device 1 according to an embodiment of the present invention. It is a block diagram which shows schematic structure of the acoustic analysis production
  • the electronic device 1 according to the present embodiment is, for example, a home robot, a mobile device such as a smartphone, a mobile phone device, a tablet personal computer, or a laptop personal computer, or a stationary personal computer.
  • the electronic device 1 includes a voice input unit 11 into which an utterance of a registrant who registers registration keywords (details will be described later) and an utterance of a user who uses the electronic device 1 are input. And a text input unit 12 capable of input.
  • the voice input unit 11 is constituted by a microphone, for example.
  • the text input unit 12 is configured by, for example, a keyboard or a touch panel provided on a display screen.
  • the electronic device 1 receives the first temporary sequence data composed of the acoustic features input from the voice input unit 11 and obtained by analyzing the utterances of the registrant, and the user's utterances input from the voice input unit 11.
  • An acoustic analysis generation unit 13 that generates second time-series data composed of acoustic feature values obtained by analysis is provided. The detailed configuration of the acoustic analysis generation unit 13 will be described later.
  • the electronic device 1 includes a keyword management database (an example of a keyword storage unit) 14 that stores identification information for identifying a registrant and a registration keyword based on the utterance of the registrant in association with each other.
  • a keyword management database (hereinafter abbreviated as “DB”) 14 is connected to the acoustic analysis generation unit 13 and the text input unit 12.
  • DB keyword management database
  • a registered keyword based on the utterance of the registrant is input from the acoustic analysis generation unit 13 to the keyword management DB 14, and identification information for identifying the registrant is input from the text input unit 12.
  • the keyword management DB 14 stores time series data (an example of first temporary series data) including a registration keyword that is input from the acoustic analysis generation unit 13 and based on the utterance of the registrant as a registration keyword. .
  • time series data an example of first temporary series data
  • the database structure of the keyword management DB 14 will be described later.
  • the electronic device 1 associates and stores a command that defines the operation content of the electronic device 1 and a required authentication score that is used to determine whether or not to perform the operation defined by this command.
  • An example) 15 is provided.
  • the command management DB 15 stores a plurality of commands that prescribe the operation content of the electronic device 1 in advance.
  • the command management DB 15 is configured to store commands input from the text input unit 12. The database structure of the command management DB 15 will be described later.
  • the electronic device 1 includes a data creation unit 16 that creates grammar data (details will be described later) having a registered keyword acquired from the keyword management DB 14 and a command acquired from the command management DB 15.
  • the data creation unit 16 acquires the registered keyword converted into the time series data analyzed and extracted by the acoustic analysis generation unit 13. The detailed configuration of the data creation unit 16 will be described later.
  • the electronic device 1 collates the grammar data created by the data creation unit 16 with the extracted data extracted from the speech of the user of the electronic device 1, and the registered keyword included in the grammar data and a part of the extracted data And a recognition / acquisition score indicating the degree of coincidence and a verification acquisition unit 17 for acquiring a recognition command recognized from at least a part of the remaining portion of the extracted data.
  • the extracted data extracted from the user's utterance is time-series data (second time-series data) of acoustic features obtained by the acoustic analysis generation unit 13 analyzing the user's utterance. That is, the collation acquisition unit 17 acquires the recognition authentication score and the recognition command using the second time series data input from the acoustic analysis generation unit 13 as the extracted data.
  • the recognition command acquired by the verification acquisition unit 17 is a command in which the operation content requested by the user to the electronic device 1 is specified.
  • the recognition / authentication score acquired by the verification acquisition unit 17 is a score for determining whether or not to allow the user to execute an operation requested by the electronic device 1. The detailed configuration of the verification acquisition unit 17 will be described later.
  • the electronic device 1 recognizes the necessary authentication score associated with the command determined to be the same as the recognition command acquired by the verification acquisition unit 17 (hereinafter also referred to as “acquisition command”) acquired by the verification acquisition unit 17.
  • acquisition command acquired by the verification acquisition unit 17.
  • a determination unit 18 determines that this command has been recognized if it is below the authentication score, and determines that this command has not been recognized if this required authentication score is greater than this recognition authentication score.
  • the required authentication score to be compared with the recognition authentication score acquired by the verification acquisition unit 17 is a score indicating the degree of coincidence of the user necessary for executing the operation requested for the electronic device 1. The detailed configuration of the determination unit 18 will be described later.
  • the electronic device 1 includes an acoustic model storage unit 10 that stores acoustic model data used when extracting commands included in time-series data based on speech input from the speech input unit 11.
  • the acoustic model storage unit 10 is composed of, for example, a nonvolatile memory.
  • the acoustic model storage unit 10 may be configured by a random access memory configured to be able to write acoustic model data from the outside of the electronic device 1.
  • the electronic device 1 includes a voice input unit 11, a text input unit 12, a keyword management DB 14, a command management DB 15, a data creation unit 16, a collation acquisition unit 17, a determination unit 18, an acoustic model storage unit 10, and other components constituting the electronic device 1.
  • the control part 19 which controls this component (not shown) collectively is provided.
  • a voice input unit 11 a keyword management DB 14, a collation acquisition unit 17, and a control unit 19 provided in the electronic device 1 and connected to the acoustic analysis generation unit 13 are illustrated together. Yes.
  • the acoustic analysis generation unit 13 includes a voice section detection unit 131 that is connected to the voice input unit 11 and detects a voice section of a voice input from the voice input unit 11.
  • the voice section detection unit 131 detects a plurality of voice sections for the voice input from the voice input unit 11 based on the utterances of a registrant who registers a registered keyword or a user who uses the electronic device 1.
  • the speech segment detection unit 131 detects a speech segment until the speech segment detection algorithm detects a speech termination.
  • the acoustic analysis generation unit 13 includes a time-series data generation unit 133 that generates time-series data of acoustic features extracted from the speech section output from the speech section detection unit 131.
  • the time-series data generation unit 133 extracts an acoustic feature amount for each of the plurality of speech sections output from the speech section detection unit 131.
  • the time-series data generation unit 133 extracts an acoustic feature quantity such as MFCC (Mel Frequency Cepstrum Coefficient) from the voice section.
  • MFCC Mel Frequency Cepstrum Coefficient
  • the type of acoustic feature amount is not particularly limited.
  • the time-series data generation unit 133 extracts an acoustic feature amount for keyword speech input under silence without noise.
  • the acoustic analysis generation unit 13 includes an output unit 135 that outputs the time series data generated by the time series data generation unit 133.
  • the output unit 135 is controlled by the control unit 19 to output time series data (an example of first series data) based on the utterances of the registrant who registers the registered keyword to the keyword management DB 14, and the user of the electronic device 1.
  • Time-series data (an example of second time-series data) based on the utterance of
  • the acoustic analysis generation unit 13 may be configured to use the same acoustic feature parameter in order to extract the registered keyword and command from the user's utterance. In this case, since the acoustic feature parameter for extracting the registered keyword from the user's utterance and the acoustic feature parameter for extracting the command from the user's utterance can be shared, the acoustic analysis generating unit 13 The configuration is simplified. The acoustic analysis generation unit 13 may be configured to use different acoustic feature parameters in order to extract the registered keyword and command from the user's utterance.
  • the acoustic feature parameter optimized to extract the registered keyword from the user's utterance can be used, and the acoustic feature parameter optimized to extract the command from the user's utterance Can be used. For this reason, the registered keyword and command can be extracted with high accuracy from the user's utterance.
  • FIG. 3 shows a state in which four sets of registrant identification information and acoustic feature quantity time-series data are stored in the keyword management DB 14, but the keyword management DB 14 includes five or more such sets. Is configured to be able to save.
  • the keyword management DB 14 has a database structure that can store a “user ID” and a “feature amount time series” in association with each other.
  • “User ID” indicates identification information for identifying the registrant who registered the registration keyword.
  • the “feature amount time series” indicates time series data of acoustic feature amounts input from the acoustic analysis generation unit 13.
  • the control unit 19 determines that the keyword registration by the registrant has been performed when the voice is input to the voice input unit 11 after the identification information about the registrant is input from the text input unit 12, and is generated.
  • the acoustic analysis generation unit 13 is controlled so as to transmit the time-series data of the acoustic feature amount thus transmitted to the keyword management DB 14.
  • the keyword management DB 14 stores the identification information of the registrant input from the text input unit 12 and the time-series data of the acoustic feature amount input from the acoustic analysis generation unit 13 in association with each other.
  • the keyword management DB 14 stores the input identification information of the registrant in the storage area of the “user ID”, and the time series data of the acoustic feature quantity input almost simultaneously with the identification information is the “feature quantity time series”. Stored in the storage area associated with the storage area in which the identification information is stored. As a result, the keyword management DB 14 can manage the identification information of the registrant and the time-series data of the acoustic features that are input almost simultaneously in association with each other.
  • the numerical value of the identification information (1, 2, and 3 in FIG. 3) indicates the registrant difference
  • the alphabet added to the time series data indicates the voice difference
  • the numerical value added to the time series data speaks The difference between the two. Therefore, in FIG. 3, different registered keywords (time series data A and time series data B) registered by the same registrant (identification information “1”) are stored in the storage areas of the first and second lines of the keyword management DB 14. ) Is stored. Also, in the storage area of the third row of the keyword management DB 14, a registrant (identification information “2”) different from the registrants of the first and second rows is registered, and the same registered keyword ( It is shown that time series data A) is stored.
  • a registrant (identification information “3”) different from the registrants in the first to third lines is registered, and the same registered keyword ( It is shown that time series data A) is stored. Since the voice quality is different for each registrant, the time-series data of the acoustic feature amount is different even if the registered keyword is the same. Therefore, the time series data A1, the time series data A2, and the time series data A3 shown in FIG.
  • the keyword management DB 14 stores the identification information “1” of the registrant and the time-series data “time-series data A1” of the acoustic feature amount, which are input almost simultaneously, as “user ID” and “feature amount time-series”. Are stored in the storage area of the first row.
  • the keyword management DB 14 manages the identification information “1” and the time series data “time series data A1” in association with each other.
  • the keyword management DB 14 stores the identification information “1” of the registrant and the time-series data “time-series data B1” of the acoustic feature amount, which are input almost simultaneously, as “user ID” and “feature amount time-series”, respectively. In the second row storage area. Thus, the keyword management DB 14 manages the identification information “1” and the time series data “time series data B1” in association with each other.
  • the keyword management DB 14 stores the identification information “2” of the registrant and the time series data “time series data A2” of the acoustic feature amount, which are input almost simultaneously, as “user ID” and “feature amount time series”, respectively. In the third row storage area. Thus, the keyword management DB 14 manages the identification information “2” and the time series data “time series data B1” in association with each other.
  • the keyword management DB 14 stores the identification information “3” of the registrant and the time-series data “time-series data A3” of the acoustic feature amount, which are input almost simultaneously, as “user ID” and “feature amount time-series”, respectively. In the storage area of the fourth row. Thus, the keyword management DB 14 manages the identification information “3” and the time series data “time series data A3” in association with each other.
  • FIG. 4 shows a state in which four command and required authentication score pairs are stored in the command management DB 15
  • the command management DB 15 is configured to store five or more such sets. Has been.
  • the command management DB 15 has a database structure in which “command” and “required authentication score” can be stored in association with each other.
  • “Command” indicates the operation content to be executed by the electronic device 1.
  • “Necessary authentication score” indicates a user authentication score necessary for causing the electronic device 1 to perform an operation related to the command. That is, the command management DB 15 manages a command relating to the operation of the electronic device 1 and a user authentication score necessary for executing the operation in association with each other. For this reason, the electronic device 1 has speaker authentication and speaker identification in the control based on the voice recognition command, and can control the security level for starting the operation related to the command for each command.
  • the command management DB 15 a command related to the operation of the electronic device 1 and a required authentication score are stored in advance in association with each other.
  • the command management DB 15 stores the required authentication score “20” in association with the command “lighting on”, and stores the required authentication score “80” in association with the command “incoming history”.
  • the required authentication score “80” is stored in association with the command “play voice memo”, and the required authentication score “40” is stored in association with the command “play music”.
  • “Lighting lighting” indicates an operation of lighting the lighting device.
  • Incoming call history” indicates an operation of displaying a list of incoming call histories on a display device (not shown) provided in the electronic apparatus 1.
  • “Voice memo playback” indicates an operation of playing back a voice memo stored in the electronic device 1.
  • “Music playback” indicates an operation of playing music stored in the electronic device 1 or playing music on a music playback device.
  • the numerical value stored as the necessary authentication score indicates that the larger the numerical value, the higher the security level for executing the operation related to the command. For this reason, in the command management DB 15, an operation that easily includes personal information (for example, “incoming call history” or “play voice memo”) is more personal authentication than an operation that does not easily include personal information (for example, “lights on”).
  • the required authentication score is set high so that the recognition level becomes high.
  • the numerical value stored in the required authentication score is a comparative numerical value to be compared with the authentication recognition score acquired by the verification acquisition unit 17 (see FIG. 1).
  • FIG. 5 for easy understanding, a keyword management DB 14, a command management DB 15, and a collation acquisition unit 17 that are provided in the electronic device 1 and connected to the data creation unit 16 are also illustrated.
  • the data creation unit 16 receives a time series data input unit 161 to which time series data of acoustic features output from the keyword management DB 14 is input and a command output from the command management DB 15.
  • the time series data input unit 161 also receives the identification information of the registrant stored in association with the time series data in the keyword management DB 14 together with the time series data. All identification information and time series data stored in the keyword management DB 14 are sequentially input to the time series data input unit 161 in a state of being associated with each other. Similarly, all commands stored in the command management DB 15 are sequentially input to the command input unit 162.
  • the data creation unit 16 includes a time-series data storage unit 163 that temporarily stores all time-series data and identification information input to the time-series data input unit 161 in association with each other, and a command input unit 162. And a command storage unit 164 for temporarily storing all commands.
  • the data creation unit 16 connects the identification information and time series data stored in the time series data storage unit 163 and the command stored in the command storage unit 164 to generate grammar data, and a grammar data generation unit 165. And a grammar data storage unit 166 that temporarily stores the grammar data generated by the grammar data generation unit 165.
  • the grammar data generation unit 165 generates grammar data by concatenating all combinations of the time series data and identification information stored in the time series data storage unit 163 and the commands stored in the command storage unit 164.
  • the grammar data generation unit 165 converts the time series data of the acoustic feature amount input from the time series data storage unit 163 into a format suitable for an algorithm for performing DTW (dynamic time warping) speaker verification processing.
  • the grammar data generation unit 165 is a statistical model in which the command input from the command storage unit 164 is used in speech recognition (for example, a hidden Markov model (HMM) in which unspecified speaker speech recognition is used). Therefore, it is converted into a format suitable for collation processing.
  • the time-series data of acoustic features may be converted to a format other than the format suitable for the algorithm for dynamic time warping speaker verification, and the command is converted to a statistical model format other than the hidden Markov model. May be.
  • the grammar data generation unit 165 outputs the generated grammar data to the grammar data storage unit 166.
  • the grammar data storage unit 166 adds a number to the grammar data input from the grammar data generation unit 165 and stores it.
  • FIG. 6 illustrates a state in which 16 pieces of grammar data generated by combining the four sets of identification information and time-series data shown in FIG. 3 and the four commands shown in FIG. 4 are stored. ing.
  • the grammar data storage unit 166 has a database structure that can store “number” and “grammar data” in association with each other. “Number” indicates a number assigned in time series in the order input from the grammar data generation unit 165. The “number” also indicates the order in which the grammar data storage unit 166 outputs grammar data to the output unit 167 described later. The “grammar data” indicates grammar data that is input from the grammar data generation unit 165 and stored in the grammar data storage unit 166.
  • the grammar data includes a word group including identification information of a registrant, a word group including time series data of acoustic feature amounts for registered keywords registered by the registrant as templates, identification information, and time. It has a data structure composed of word groups including commands linked to series data.
  • the grammar data represents word linking used for speech recognition.
  • time-series data of acoustic features in a format suitable for the algorithm for speaker verification processing is connected to commands in a statistical model used for speech recognition and in a format suitable for verification processing.
  • the keyword management DB 14 stores a plurality of first sets that are sets of time-series data including identification information and registered keywords associated with the keyword management DB 14, and the command management DB 15 stores a plurality of second sets that are sets of commands and necessary authentication scores. If there is, the data creation unit 16 creates a plurality of grammar data having a first set and a second set of different combinations.
  • the keyword management DB 14 sets “1” and “time series data A1”, “1” and “time series data B1”, “2” and “time series” as a set of user ID and feature amount time series. Four first sets of “data A2”, “3” and “time series data A3” are stored (see FIG. 3).
  • the command management DB 15 sets “illumination lighting” and “20”, “incoming history” and “80”, “voice memo playback” and “80”, “music playback” and “ 40 ”is stored (see FIG. 4).
  • the grammar data generation unit 165 of the data creation unit 16 creates a plurality of pieces of grammar data having a first set and a second set of different combinations.
  • the identification information “1” and the time series data “time series data A1” stored in the keyword management DB 14 in association with the numbers “1” to “4” and the command management DB 15 are stored.
  • Grammar data configured by connecting each of the four commands is stored.
  • the grammar data “1 / time series data A1 / lighting on” associated with the number “1” is configured by connecting the identification number “1”, the time series data “time series data A1”, and the command “lighting on”.
  • the part represented by “1” corresponds to a word group including the identification information of the registrant, and the part represented by “time series data A1”.
  • a word group including as a template time series data of acoustic features for a registered keyword registered by a registrant a word group including a command in which a portion represented by “illumination lighting” is linked to identification information and time series data It corresponds to.
  • the grammar data “1 / time-series data A1 / incoming history” associated with the number “2” connects the identification number “1”, the time-series data “time-series data A1”, and the command “incoming history”. Configured.
  • the grammar data “1 / time-series data A1 / voice memo playback” associated with the number “3” connects the identification number “1”, the time-series data “time-series data A1” and the command “voice memo playback”. Configured.
  • the grammar data “1 / time series data A1 / music playback” associated with the number “4” is formed by connecting the identification number “1”, the time series data “time series data A1”, and the command “music playback”. Has been.
  • the identification information “1” and the time series data “time series data B1” stored in the keyword management DB 14 in association with the numbers “5” to “8” and the four commands stored in the command management DB 15 are stored.
  • the grammar data “1 / time series data B1 / lighting lighting” and the like configured by linking them are stored.
  • the identification information “2” and the time series data “time series data A2” stored in the keyword management DB 14 in association with the numbers “9” to “12” and the four commands stored in the command management DB 15 are stored.
  • the grammar data “2 / time series data A2 / lighting lighting” configured by connecting the two is stored.
  • identification information “3” and the time series data “time series data A3” stored in the keyword management DB 14 in association with the numbers “13” to “16” and the four commands stored in the command management DB 15 are stored.
  • the grammar data “3 / time-series data A3 / lighting on” configured by connecting them with each other is stored.
  • the grammar data generation unit 165 creates grammar data by concatenating commands after time series data.
  • the time series data constituting the grammar data includes a registered keyword. Therefore, the data creation unit 16 creates grammar data by concatenating commands after the registered keyword.
  • the registered keyword corresponds to, for example, a word that the user calls the electronic device 1 to activate a predetermined function (for example, “illumination lighting” or “music playback”) of the electronic device 1 as a home robot.
  • the command corresponds to a function that the electronic device 1 wants to activate. For this reason, in general, in order to activate a predetermined function of the electronic device 1, the user first speaks to the electronic device 1 and then activates the function to be activated. Since the grammar data in which the command is connected after the registered keyword matches the flow of this series of utterances of the user, it is possible to reduce the load of collation processing in the collation acquisition unit 17 described later.
  • the data creation unit 16 has an output unit 167 that outputs the grammar data input from the grammar data storage unit 166 to the verification acquisition unit 17.
  • FIG. 7 for easy understanding, a data creation unit 16, an acoustic analysis generation unit 13, an acoustic model storage unit 10, and a determination unit 18 that are provided in the electronic device 1 and connected to the verification acquisition unit 17 are illustrated. Has been.
  • the collation acquisition unit 17 includes a grammar data input unit 171 to which the grammar data output from the data creation unit 16 is input, and a time series of acoustic feature amounts output from the acoustic analysis generation unit 13. It has a time-series data input unit 172 to which data is input and an acoustic model input unit 173 to which an acoustic model read from the acoustic model storage unit 10 is input.
  • the collation acquisition unit 17 has a grammar data storage unit 174 that temporarily stores grammar data input from the grammar data input unit 171.
  • the grammar data storage unit 174 has the same database structure as the grammar data storage unit 166 provided in the data creation unit 16. Further, since all grammar data stored in the grammar data storage unit 166 is input from the grammar data input unit 171, the grammar data storage unit 174 is finally the same as that stored in the grammar data storage unit 166. All grammar data will be saved.
  • the collation acquisition unit 17 includes time-series data of acoustic feature amounts for the registered keywords included in the grammar data input from the grammar data storage unit 174 (hereinafter sometimes referred to as “registration time-series data”), time-series data, It has a keyword collation unit 175 that collates time-series data of acoustic feature amounts input from the data input unit 172 (hereinafter, sometimes referred to as “collation target time-series data”).
  • the keyword collation unit 175 sets the first grammar data input from the grammar data storage unit 174 and the time series data input from the time series data input unit 172.
  • the keyword matching unit 175 calculates the degree of coincidence between the set registered time series data and the set matching target time series data by using distance calculation or the like.
  • the keyword matching unit 175 calculates the degree of coincidence between the registered time series data and the matching target time series data until the voice segment detection algorithm detects the voice end.
  • the keyword matching unit 175 uses the calculated matching degree as a matching degree between the registered keyword included in the grammar data and a part of the matching target time-series data (an example of a part of the extracted data extracted from the user's utterance). Is acquired as a recognition and authentication score.
  • the keyword collation unit 175 collates all the grammar data stored in the grammar data storage unit 174 with the collation target time series data, and acquires a recognition authentication score for each grammar data.
  • the verification acquisition unit 17 has a highest score storage unit 177 that stores the recognition registration keyword information input from the keyword verification unit 175.
  • the recognition registration keyword information includes the recognition authentication score acquired by the verification acquisition unit 17 and the identification information of the registrant included in the grammar data from which the recognition authentication score is acquired in association with each other.
  • the keyword matching unit 175 sequentially outputs the recognition registration keyword information including the acquired recognition authentication score to the highest score storage unit 177.
  • the highest score storage unit 177 receives the recognition authentication score included in the input recognition registration keyword information and the recognition included in the recognition registration keyword information already stored. Compare with authentication score. When the highest score storage unit 177 determines that the input recognition / authentication score is equal to or higher than the already stored recognition / authentication score, the input recognition / authentication score is recognized as the highest score and the input recognition registration keyword information. Save. On the other hand, when the highest score storage unit 177 determines that the input recognition authentication score is smaller than the already stored recognition authentication score, the input recognition registration keyword information is discarded, and the already stored recognition Maintain the certification score as the highest score. As described above, the highest score storage unit 177 provided in the verification acquisition unit 17 includes a command that is determined to be the same as the recognition command among the plurality of grammar data, and the acquired grammar with the highest recognition authentication score value. The data is selected and saved.
  • the electronic device 1 creates grammar data for all keywords stored in the keyword management DB 14, respectively, compares all created grammar data with time-series data based on the user's utterance, The highest recognition / authentication score is selected and saved. Thereby, the electronic device 1 can specify the registrant linked
  • the collation acquisition unit 17 includes a command included in the grammar data input from the grammar data storage unit 174 (hereinafter sometimes referred to as “storage command”), and a time-series data input unit 172.
  • a command collation unit 176 that collates the time-series data of the input acoustic feature amount is included.
  • the command collation unit 176 sets the time series data input from the time series data input unit 172. Further, the command matching unit 176 reads out the necessary acoustic model data from the acoustic model storage unit 10 in order to recognize the commands included in the matching target time-series data as unspecified speaker speech recognition, and reads the read acoustic model. Set the data.
  • the command matching unit 176 for example, acoustic model data necessary for recognizing four commands (“lighting lighting”, “incoming history”, “voice memo playback”, and “music playback”) stored in the command management DB 15. Is read from the acoustic model storage unit 10 and set.
  • the command matching unit 176 extracts commands included in the matching target time series data using the set acoustic model data. That is, the collation acquisition unit 17 determines the type of command included in at least a part of the collation target time-series data (an example of at least a part of the remaining part of the extracted data) using the acoustic model data.
  • the type of command means the type of command stored in the command management DB 15 (in this example, “lighting on”, “incoming history”, “voice memo playback”, and “music playback”).
  • the command matching unit 176 performs command extraction processing until the speech segment detection algorithm detects the end of speech.
  • the command collation unit 176 acquires the extracted command as a recognition command recognized from at least a part of the remaining portion of the extracted data extracted from the user's utterance.
  • the collation acquisition unit 17 includes an output unit 178 that outputs the recognition registration keyword information input from the highest score storage unit 177 and the recognition command input from the command collation unit 176 to the determination unit 18. Have.
  • the determination unit 18 needs to be connected to the input / output unit 181, an input / output unit 181 that inputs and outputs predetermined data between the command management DB 15, the collation acquisition unit 17, and the control unit 19. And an authentication score acquisition unit 183.
  • the recognition registration keyword information and the recognition command output from the verification acquisition unit 17 are input to the necessary authentication score acquisition unit 183 via the input / output unit 181.
  • the required authentication score acquisition unit 183 acquires the required authentication score stored in the command management DB 15 in association with the input recognition command via the input / output unit 181. If the recognition command input to the necessary authentication score acquisition unit 183 is, for example, “illumination lighting”, the necessary authentication score acquisition unit 183 associates with the command “lighting lighting” and stores the necessary authentication score stored in the command management DB 15. “20” (see FIG. 4) is acquired via the input / output unit 181.
  • the determination unit 18 includes a score comparison unit 185 connected to the necessary authentication score acquisition unit 183.
  • the score comparison unit 185 receives the recognition registration keyword information, the recognition command, and the necessary authentication score output from the necessary authentication score acquisition unit 183.
  • the score comparison unit 185 compares the recognition authentication score included in the recognition registration keyword information with the necessary authentication score. That is, the determination unit 18 uses at least one of the recognition authentication score acquired from the grammar data selected by the highest score storage unit 177 of the verification acquisition unit 17 and the time series data to be verified by the command verification unit 176 of the verification acquisition unit 17.
  • the command determined to be the same as the command included in the portion is compared with the required authentication score associated with the authentication command determined to be the same.
  • the determination unit 18 has a determination signal generation unit 187 connected to the score comparison unit 185.
  • the determination signal generation unit 187 receives the comparison result of the recognition authentication score and the necessary authentication score and the recognition command from the score comparison unit 185. If the determination signal generation unit 187 determines that the comparison result that the recognition authentication score is equal to or greater than the required authentication score is input from the score comparison unit 185, the determination indicates that the recognition command input from the score comparison unit 185 has been recognized. A signal is generated, and the generated determination signal is output to the input / output unit 181.
  • the determination signal generation unit 187 determines that the comparison result that the recognition authentication score is smaller than the necessary authentication score is input from the score comparison unit 185, the recognition signal input from the score comparison unit 185 is not recognized. A determination signal is generated, and the generated determination signal is output to the input / output unit 181.
  • the determination signal output to the input / output unit 181 is input to the control unit 19.
  • the control unit 19 determines that a determination signal indicating that the recognition command has been recognized is input, the control unit 19 activates a component that performs an operation related to the recognition command.
  • the control unit 19 determines that the determination signal indicating that the recognition command is not recognized is input, the control unit 19 does not activate the component that performs the operation related to the recognition command.
  • the control unit 19 determines that the determination signal is input regardless of whether the recognition command is recognized, the control unit 19 operates the grammar data storage unit 174, the highest score storage unit 177, and the data creation unit 16 of the verification acquisition unit 17.
  • Various data stored in the series data storage unit 163, the command storage unit 164, and the grammar data storage unit 166 are deleted.
  • the above-mentioned grammar data includes identification information for identifying a registrant in addition to the registered keyword acquired from the keyword management DB 14 and the command acquired from the command management DB 15 (hereinafter sometimes referred to as “registrant identification information”). May be included.
  • the collation acquisition unit 17 may collate the grammar data created by the data creation unit 16 and the extracted data extracted from the speech of the user of the electronic device 1 to obtain the registrant identification information.
  • the command management DB 15 can store a plurality of necessary authentication scores associated with different registrant identification information in association with one command. May be. As shown in FIG. 9, such a command management DB 15 may have a database structure in which “command”, “user ID”, and “necessary authentication score” can be stored in association with each other. “Command” and “required authentication score” shown in FIG. 9 indicate the same contents as “command” and “required authentication score” in the database structure of the command management DB 15 shown in FIG. Further, “user ID” shown in FIG. 9 indicates registrant identification information.
  • command management DB 15 of this example one of a plurality of commands (four in FIG. 9) stored in the “command” (for example, “music playback”) is set to “user”.
  • a plurality of required authentication scores (“40” and “60”) stored in “required authentication score” are associated with different registrant identification information (“1” and “2”) stored in “ID”. Is remembered.
  • the determination unit 18 recognizes the required authentication score associated with the identification information acquired by the verification acquisition unit 17 among the required authentication scores associated with the acquisition command. In the following cases, it may be determined that the acquisition command has been recognized, and when the necessary authentication score is greater than the recognition authentication score, it may be determined that the acquisition command has not been recognized.
  • Step S1 As shown in FIG. 10, in the voice recognition process of the electronic device 1, first, in step S ⁇ b> 1, the control unit 19 provided in the electronic device 1 determines whether or not voice is input to the voice input unit 11. If it is determined that sound is input to the input unit 11, the process proceeds to step S3. On the other hand, the control unit 19 repeatedly executes the process of step S ⁇ b> 1 until it is determined that the voice is input to the voice input unit 11. In the present embodiment, the control unit 19 monitors whether or not audio is input to the audio input unit 11 even when the power source of the electronic device 1 is in the power-down state or the power source is on. .
  • Step S3 In step S ⁇ b> 3, the control unit 19 controls the acoustic analysis generation unit 13 in order to detect a speech section from the input speech. Thereby, the acoustic analysis generation unit 13 detects a voice section from the input voice.
  • the control unit 19 determines that the acoustic analysis generation unit 13 has finished detecting the speech section, the control unit 19 proceeds to step S5.
  • Step S5 In step S ⁇ b> 5, the control unit 19 controls the acoustic analysis generation unit 13 in order to extract the acoustic feature amount for each detected speech section and generate time series data. Thereby, the acoustic analysis generation unit 13 generates time-series data of acoustic feature amounts for each voice section. If the control unit 19 determines that the acoustic analysis generation unit 13 has generated time-series data of acoustic feature amounts for all speech sections, the control unit 19 proceeds to step S7.
  • Step S7 the control unit 19 determines whether or not text is input to the text input unit 12 immediately before voice input or at the time of voice input. If it is determined that text is input, the process proceeds to step S9. If it is determined that no text is input, the process proceeds to step S11.
  • Step S9 the control unit 19 executes registration keyword registration processing, and returns the processing to step S1. More specifically, if there is a text input immediately before voice input or at the time of voice input, the control unit 19 determines that the voice in step S1 is a registered keyword, and generates time-series data of acoustic feature values generated. To the keyword management DB, the acoustic analysis generation unit 13 is controlled. Thereby, the time series data of the acoustic feature amount generated in step S5 and the text determined to be input in step S7 (that is, identification information of the registrant) are stored in association with each other in the keyword management DB.
  • step S11 the control unit 19 controls the data creating unit 16 to create grammar data.
  • the data creation unit 16 obtains data from the keyword management DB 14 and the command management DB 15 to create grammar data, and outputs all created grammar data to the collation acquisition unit 17.
  • the control unit 19 determines that the data creation unit 16 has output all the grammar data to the collation acquisition unit 17, the process proceeds to step S13.
  • Step S13 If there is no text input immediately before voice input or at the time of voice input, the control unit 19 determines that the voice in step S1 is the user's utterance for activating a predetermined function of the electronic device 1, and step S13.
  • the collation acquisition unit 17 is controlled to collate registered keywords. Thereby, the collation acquisition part 17 compares the input grammar data and time series data, acquires the recognition authentication score of the highest score, and identification of the registrant linked
  • the recognition registration keyword information including the information is output to the determination unit 18.
  • the control unit 19 determines that the collation acquisition unit 17 has output the recognition registration keyword information to the determination unit 18, the process proceeds to step S15.
  • Step S15 the control unit 19 controls the collation acquisition unit 17 to collate commands.
  • the collation acquisition part 17 extracts a command from the time series data input using the acoustic model data read from the acoustic model storage part 10, and outputs the extracted command to the determination part 18 as a recognition command.
  • the control unit 19 determines that the collation acquisition unit 17 has output the recognition command to the determination unit 18, the process proceeds to step S17.
  • Step S17 In step S ⁇ b> 17, the control unit 19 controls the determination unit 18 to compare the recognition authentication score and the necessary authentication score. Thereby, the determination unit 18 acquires the required authentication score associated with the same command as the input recognition command from the command management DB 15 and is included in the acquired required authentication score and the input recognition registration keyword information. Compare recognition recognition score. If the determination unit 18 determines that the recognition authentication score is equal to or greater than the necessary authentication score, the process proceeds to step S19. If the determination unit 18 determines that the recognition authentication score is smaller than the necessary authentication score, the process proceeds to step S21.
  • Step S19 In step S ⁇ b> 19, the determination unit 18 generates a “command permission determination signal” indicating that the recognition command has been recognized, and outputs it to the control unit 19.
  • the control unit 19 receives the determination signal indicating that the command is acceptable, the grammar data storage unit 174 and the highest score storage unit 177 of the verification acquisition unit 17 and the time series data storage unit 163, the command storage unit 164, and the grammar data of the data creation unit 16 Various data stored in the storage unit 166 is deleted, and the process returns to step S1. Furthermore, the control unit 19 activates a component that executes an operation related to the recognition command.
  • Step S21 In step S ⁇ b> 21, the determination unit 18 generates a “command impossibility determination signal” indicating that the recognition command is not recognized, and outputs it to the control unit 19.
  • the control unit 19 receives the determination signal indicating that the command is not possible, the grammar data storage unit 174 and the highest score storage unit 177 of the verification acquisition unit 17 and the time series data storage unit 163, the command storage unit 164, and the grammar data of the data creation unit 16 Various data stored in the storage unit 166 is deleted, and the process returns to step S1.
  • the control unit 19 does not activate the component that performs the operation related to the recognition command.
  • the control unit 19 may control the electronic device 1 so as to notify that the command is not accepted when the determination signal indicating that the command is impossible is received.
  • a part of the configuration of the electronic apparatus 1 according to the present embodiment can be embodied as a computer program.
  • the functions of the acoustic analysis generation unit 13, the keyword management DB 14, the command management DB 15, the data creation unit 16, the collation acquisition unit 17, the determination unit 18, the control unit 19, and the acoustic model storage unit 10 are realized as a control program for an electronic device. be able to.
  • some or all of the present invention can be incorporated into hardware or software (including firmware, resident software, microcode, state machines, gate arrays, etc.).
  • the present invention can take the form of a computer program product on a computer-readable storage medium that can be used by a computer (including a control central processing unit provided in an electronic device). Incorporates computer-usable or computer-readable program code.
  • a computer usable or computer readable medium can record, store, communicate, propagate, or carry a program used by or in conjunction with an instruction execution system, apparatus or device, Any medium can be used.
  • the electronic device, the electronic device control method, and the electronic device control program according to the present embodiment need not cancel the user authentication in order to activate a predetermined function of the electronic device protected by the user authentication.
  • a user of an electronic device can activate a desired function by executing user authentication simply by inputting voice.
  • the control method for the electronic device, and the control program for the electronic device according to the present embodiment it is possible to prevent the operation for starting the function protected by the user authentication from becoming complicated.
  • the electronic device 1 according to the present embodiment can have speaker authenticity and speaker identification in the control of the electronic device 1 by the voice recognition command. For this reason, since the electronic device 1 according to the present embodiment does not need to use a text-type voice print, it is unclear how much authentication accuracy is provided, or authentication for accessing the function of the electronic device 1 Since accuracy cannot be obtained, the authentication performance can be improved.
  • the electronic device 1 continuously speaks once by continuously speaking a voice keyword registered in advance by the user's own voice and a voice recognition command prepared for operating the electronic device 1.
  • the voice recognition command is given by, for example, an unspecified speaker voice recognition technique, and can be usually realized by giving a phonetic symbol to the command.
  • Each voice recognition command is assigned a similar score condition (required authentication score) with the voice keyword according to the security level of the operation of the electronic device 1, thereby giving a security function to the command recognition, and a simple and secure operation. Is possible.
  • the electronic device 1 acquires the recognition authentication score of the user of the electronic device 1 not by speaker authentication but by speaker identification, and relates to the acquired recognition authentication score and a function that the user desires to start maneuvering. By determining whether or not the function can be started based on the required authentication score associated with the command, the security of the function can be ensured. Therefore, according to the electronic device 1 according to the present embodiment, a stable security level can be ensured with respect to the activation of the predetermined function without being limited to the use environment.
  • the data creation unit 16 is configured to create grammar data composed of identification information of a registrant, time-series data of acoustic features, and commands, but the present invention is not limited to this. I can't.
  • the data creation unit 16 may be configured to create grammar data including a necessary authentication score associated with a command.
  • the data creation unit 16 creates grammar data including registrant identification information, time-series data of acoustic features, commands, and required authentication scores.
  • the collation acquisition unit 17 can output the required authentication score associated with the recognition command to the determination unit 18 together with the recognition command. For this reason, since the determination part 18 does not need to acquire a required authentication score from command management DB15, the comparison process of a required authentication score and a recognition authentication score can be simplified.
  • the data creation unit 16 creates grammar data by linking commands after time-series data corresponding to registered keywords, but the present invention is not limited to this.
  • the data creation unit 16 may create grammar data by concatenating time series data corresponding to a registered keyword after a command. Since the collation acquisition unit 17 can extract the time series data and the command corresponding to the registered keyword from the grammar data, the recognition authentication score can be acquired also in this case.
  • the command management DB 15 provided in the electronic apparatus 1 may be configured to be able to store a plurality of necessary authentication scores associated with different registrant identification information in association with one command.
  • the electronic device 1 may be configured such that, for example, when a registrant registers a registration keyword, the necessary authentication score can also be registered.
  • the voice recognition method knows which user speaks and which voice command is recognized. Can do.
  • the operation of the electronic device can be changed for each user with respect to the same recognized command.
  • the contents of the dancing can be changed according to the past history.
  • voice keywords it is useful to be able to set the required authentication score associated with one function by the user because it can reflect the importance of security for each user. .

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本発明は、ユーザ認証によって保護された機能を起動するための操作が煩雑になることを防止できる電子機器、電子機器の制御方法及び電子機器の制御プログラムを目的とする。電子機器(1)は、登録者の識別情報及登録キーワードを関連づけて記憶するキーワード管理DB(14)と、コマンド及び必要認証スコアを関連づけて記憶するコマンド管理DB(15)と、登録キーワード及びコマンドを有するグラマーデータを作成するデータ作成部(16)と、グラマーデータ及び使用者の発話から抽出された抽出データを照合して認識認証スコア及び認識コマンドを取得する照合取得部(17)と、認識コマンドと同一と判定されたコマンドに関連づけられた必要認証スコアと認識認証スコアとを比較してコマンドの認識を判定する判定部(18)とを備える。

Description

電子機器、電子機器の制御方法及び電子機器の制御プログラム
 本発明は、電子機器、電子機器の制御方法及び電子機器の制御プログラムに関する。
 スマートフォンなど個人が所有する電子機器においてセキュリティーを確保するためには、パスコード入力や指紋認証など、一旦ユーザ認証によりロックを解除し、その後、手動または音声コマンドでアプリケーションを起動する方法が用いられている。例えば、特許文献1には、入力音声とテキスト独立型ボイスプリントとを比較してユーザ認証が実行され、ユーザの正常な認証がなされると、デバイスの機能へのユーザアクセスが許可されることが開示されている。
 電子機器には様々なアプリケーションが搭載されているが、このようなアプリケーションに要求されるセキュリティーレベルは様々である。例えば、アドレスブックなど個人の情報をハンドルするアプリケーションは高いセキュリティーを必要とする。一方、時刻を知るためのアプリケーションや照明装置を点灯させるアプリケーションなどは、個人情報が含まれるアプリケーションと比較して低いレベルのセキュリティーで十分と考えられる。
 また、家庭用の機器など、複数のユーザによって共有する機器においては、アプリケーションを起動するためのセキュリティーレベルは、ユーザごとに望まれるセキュリティーレベルが異なることも考えられる。電子機器の簡便な操作を行う上で音声操作は一つの有望な方法であるが、ユーザ認証のロックを解除して話者認証を行い、認証後に引き続き独立した音声コマンドを発話してアプリケーションを起動すると操作が煩雑になるという問題が生じる。
特開2016-129011号公報
 本発明の目的は、ユーザ認証によって保護された機能を起動するための操作が煩雑になることを防止できる電子機器、電子機器の制御方法及び電子機器の制御プログラムを提供することにある。
 上記目的を達成するために、本発明の一態様による電子機器は、登録者を識別する識別情報及び該登録者の発話に基づく登録キーワードを関連づけて記憶するキーワード記憶部と、異なる前記識別情報に対応付けられた複数の必要認証スコアを一のコマンドに関連づけて記憶可能に構成されて動作内容を規定するコマンド及び該コマンドで規定された動作を実行するか否かの判定に用いられる必要認証スコアを関連づけて記憶するコマンド記憶部と、前記キーワード記憶部から取得された登録キーワード及び前記コマンド記憶部から取得されたコマンドを有するグラマーデータを作成するデータ作成部と、前記データ作成部で作成されたグラマーデータ及び使用者の発話から抽出された抽出データを照合し、該グラマーデータに含まれる登録キーワードと該抽出データの一部との一致度を示す認識認証スコア及び該抽出データの残部の少なくとも一部から認識された認識コマンドを取得する照合取得部と、前記照合取得部で取得された認識コマンドと同一と判定されたコマンドに関連づけられた必要認証スコアが前記照合取得部で取得された認識認証スコア以下である場合には該コマンドが認識されたと判定し、該必要認証スコアが該認識認証スコアよりも大きい場合には該コマンドが認識されなかったと判定する判定部とを備えることを特徴とする。
 また、上記目的を達成するために、本発明の一態様による電子機器の制御方法は、登録者を識別する識別情報及び該登録者の発話に基づく登録キーワードを関連づけてキーワード記憶部に記憶し、異なる前記識別情報に対応付けられた複数の必要認証スコアを一のコマンドに関連づけて記憶可能に構成されて動作内容を規定するコマンド及び該コマンドで規定された動作を実行するか否かの判定に用いられる必要認証スコアを関連づけてコマンド記憶部に記憶し、前記キーワード記憶部から取得された登録キーワード及び前記コマンド記憶部から取得されたコマンドを有するグラマーデータをデータ作成部が作成し、前記データ作成部で作成されたグラマーデータ及び使用者の発話から抽出された抽出データを照合し、該グラマーデータに含まれる登録キーワードと該抽出データの一部との一致度を示す認識認証スコア及び該抽出データの残部の少なくとも一部から認識された認識コマンドを照合取得部が取得し、前記照合取得部で取得された認識コマンドと同一と判定されたコマンドに関連づけられた必要認証スコアが前記照合取得部で取得された認識認証スコア以下である場合には該コマンドが認識されたと判定し、該必要認証スコアが該認識認証スコアよりも大きい場合には該コマンドが認識されなかったと判定することを特徴とする。
 また、上記目的を達成するために、本発明の一態様による電子機器の制御プログラムは、コンピュータを、登録者を識別する識別情報及び該登録者の発話に基づく登録キーワードを関連づけて記憶するキーワード記憶部、異なる前記識別情報に対応付けられた複数の必要認証スコアを一のコマンドに関連づけて記憶可能に構成されて動作内容を規定するコマンド及び該コマンドで規定された動作を実行するか否かの判定に用いられる必要認証スコアを関連づけて記憶するコマンド記憶部、前記キーワード記憶部から取得された登録キーワード及び前記コマンド記憶部から取得されたコマンドを有するグラマーデータを作成するデータ作成部、前記データ作成部で作成されたグラマーデータ及び使用者の発話から抽出された抽出データを照合し、該グラマーデータに含まれる登録キーワードと該抽出データの一部との一致度を示す認識認証スコア及び該抽出データの残部の少なくとも一部から認識された認識コマンドを取得する照合取得部、及び前記照合取得部で取得された認識コマンドと同一と判定されたコマンドに関連づけられた必要認証スコアが前記照合取得部で取得された認識認証スコア以下である場合には該コマンドが認識されたと判定し、該必要認証スコアが該認識認証スコアよりも大きい場合には該コマンドが認識されなかったと判定する判定部として機能させることを特徴とする。
 本発明の一態様によれば、ユーザ認証によって保護された機能を起動するための操作が煩雑になることを防止できる。
本発明の一実施形態による電子機器1の概略構成を示すブロック図である。 本発明の一実施形態による電子機器1に備えられた音響解析生成部13の概略構成を示すブロック図である。 本発明の一実施形態による電子機器1に備えられたキーワード管理DB14のデータベース構造を示す図である。 本発明の一実施形態による電子機器1に備えられたコマンド管理DB15のデータベース構造を示す図である。 本発明の一実施形態による電子機器1に備えられたデータ作成部16の概略構成を示すブロック図である。 本発明の一実施形態による電子機器1に備えられたデータ作成部16のグラマーデータ保存部166のデータベース構造及びグラマーデータのデータ構造を示す図である。 本発明の一実施形態による電子機器1に備えられた照合取得部17の概略構成を示すブロック図である。 本発明の一実施形態による電子機器1に備えられた判定部18の概略構成を示すブロック図である。 本発明の一実施形態による電子機器1に備えられたコマンド管理DB15の他のデータベース構造を示す図である。 本発明の一実施形態による電子機器1の制御方法の流れの一例を示すフローチャートである。
 本発明の一実施形態による電子機器、電子機器の制御方法及び電子機器の制御プログラムについて図1から図10を用いて説明する。まず、本実施形態による電子機器1の概略構成について図1から図9を用いて説明する。本実施形態による電子機器1は、例えば家庭用ロボット、並びにスマートフォン、携帯電話機器及びタブレットパーソナルコンピュータ、ノート型パーソナルコンピュータなどの携帯機器や据え置き型のパーソナルコンピュータなどである。
 図1に示すように、電子機器1は、登録キーワード(詳細は後述する)を登録する登録者の発話や、電子機器1を使用する使用者の発話が入力される音声入力部11と、文字入力が可能なテキスト入力部12とを備えている。音声入力部11は例えばマイクロフォンで構成されている。また、テキスト入力部12は、例えばキーボードや表示画面上に設けられたタッチパネルなどで構成されている。
 電子機器1は、音声入力部11から入力され登録者の発話を解析して得られた音響的特徴量で構成された第一時系列データと、音声入力部11から入力され使用者の発話を解析して得られた音響的特徴量で構成された第二時系列データとを生成する音響解析生成部13を備えている。音響解析生成部13の詳細な構成については後述する。
 電子機器1は、登録者を識別する識別情報及びこの登録者の発話に基づく登録キーワードを関連づけて記憶するキーワード管理データベース(キーワード記憶部の一例)14を備えている。キーワード管理データベース(以下、データベースを「DB」と略記する)14は、音響解析生成部13及びテキスト入力部12に接続されている。キーワード管理DB14には、音響解析生成部13から登録者の発話に基づく登録キーワードが入力され、テキスト入力部12から登録者を識別する識別情報が入力されるようになっている。つまり、キーワード管理DB14は、音響解析生成部13から入力されて登録者の発話に基づく登録キーワードが含まれる時系列データ(第一時系列データの一例)を登録キーワードとして記憶するようになっている。キーワード管理DB14のデータベース構造については後述する。
 電子機器1は、電子機器1の動作内容を規定するコマンド及びこのコマンドで規定された動作を実行するか否かの判定に用いられる必要認証スコアを関連づけて記憶するコマンド管理DB(コマンド記憶部の一例)15を備えている。コマンド管理DB15には、電子機器1の動作内容を規定する複数のコマンドが予め記憶されている。また、コマンド管理DB15は、テキスト入力部12から入力されたコマンドを記憶できるように構成されている。コマンド管理DB15のデータベース構造については後述する。
 電子機器1は、キーワード管理DB14から取得された登録キーワード及びコマンド管理DB15から取得されたコマンドを有するグラマーデータ(詳細は後述する)を作成するデータ作成部16を備えている。データ作成部16は、音響解析生成部13で解析されて抽出された時系列データに変換された登録キーワードを取得する。データ作成部16の詳細な構成については後述する。
 電子機器1は、データ作成部16で作成されたグラマーデータ及び電子機器1の使用者の発話から抽出された抽出データを照合し、このグラマーデータに含まれる登録キーワードとこの抽出データの一部との一致度を示す認識認証スコア及びこの抽出データの残部の少なくとも一部から認識された認識コマンドを取得する照合取得部17を備えている。使用者の発話から抽出された抽出データは、音響解析生成部13が使用者の発話を解析して得た音響的特徴量の時系列データ(第二時系列データ)である。つまり、照合取得部17は、音響解析生成部13から入力された第二時系列データを抽出データとして用いて認識認証スコア及び認識コマンドを取得するようになっている。照合取得部17で取得される認識コマンドは、使用者が電子機器1に対して要求する動作内容が規定されたコマンドである。また、照合取得部17で取得される認識認証スコアは、使用者が電子機器1に対して要求する動作の実行を許可するか否かを決定するためのスコアである。照合取得部17の詳細な構成については後述する。
 電子機器1は、照合取得部17で取得された認識コマンドと同一と判定されたコマンド(以下、「取得コマンド」ともいう。)に関連づけられた必要認証スコアが照合取得部17で取得された認識認証スコア以下である場合にはこのコマンドが認識されたと判定し、この必要認証スコアがこの認識認証スコアよりも大きい場合にはこのコマンドが認識されなかったと判定する判定部18を備えている。照合取得部17で取得された認識認証スコアと比較される必要認証スコアは、電子機器1に対して要求された動作を実行するために必要な、使用者の一致度を示すスコアである。判定部18の詳細な構成については後述する。
 電子機器1は、音声入力部11から入力された音声に基づく時系列データに含まれるコマンドを抽出する際に用いられる音響モデルデータを記憶する音響モデル記憶部10を備えている。音響モデル記憶部10は、例えば不揮発性メモリで構成されている。なお、音響モデル記憶部10は、電子機器1の外部から音響モデルデータを書込み可能に構成されたランダムアクセスメモリで構成されていてもよい。
 電子機器1は、音声入力部11、テキスト入力部12、キーワード管理DB14、コマンド管理DB15、データ作成部16、照合取得部17、判定部18、音響モデル記憶部10及び電子機器1を構成するその他の構成要素(不図示)を統括的に制御する制御部19を備えている。
 次に、音響解析生成部13の詳細な構成について図2を用いて説明する。図2では、理解を容易にするため、電子機器1に設けられ、音響解析生成部13に接続された音声入力部11、キーワード管理DB14、照合取得部17及び制御部19が併せて図示されている。
 図2に示すように、音響解析生成部13は、音声入力部11に接続されて音声入力部11から入力された音声の音声区間を検出する音声区間検出部131を有している。音声区間検出部131は、登録キーワードを登録する登録者又は電子機器1を使用する使用者の発話に基づいて音声入力部11から音声入力された音声に対して複数の音声区間を検出する。音声区間検出部131は、音声区間検出アルゴリズムが音声終端を検出するまで音声区間を検出する。
 音響解析生成部13は、音声区間検出部131から出力された音声区間から抽出した音響的特徴量の時系列データを生成する時系列データ生成部133を有している。時系列データ生成部133は、音声区間検出部131から出力される複数の音声区間のそれぞれについて音響的特徴量を抽出する。時系列データ生成部133は、音声区間から例えばMFCC(メル周波数ケプストラム係数)などの音響的特徴量を抽出する。本実施形態では、音響的特徴量の種類は特に問わない。詳細は後述するが、時系列データ生成部133で抽出される音響的特徴量は、照合取得部17での認識時に利用する音響的特徴量と一致していることが必要である。このため、本実施形態における時系列データ生成部133は、雑音を含まない静音下で入力されたキーワード音声に対して音響的特徴量を抽出することが望ましい。
 音響解析生成部13は、時系列データ生成部133で生成された時系列データを出力する出力部135を有している。出力部135は、制御部19に制御されて、登録キーワードを登録する登録者の発話に基づく時系列データ(第一時系列データの一例)をキーワード管理DB14に出力し、電子機器1の使用者の発話に基づく時系列データ(第二時系列データの一例)を照合取得部17に出力する。
 音響解析生成部13は、登録キーワード及びコマンドを使用者の発話から抽出するために同一の音響的特徴量パラメータを用いるように構成されていてもよい。この場合、使用者の発話から登録キーワードを抽出するための音響的特徴量パラメータと、使用者の発話からコマンドを抽出するための音響的特徴量パラメータを共通化できるため、音響解析生成部13の構成が簡略化される。また、音響解析生成部13は、登録キーワード及びコマンドを使用者の発話から抽出するために異なる音響的特徴量パラメータを用いるように構成されていてもよい。この場合、使用者の発話から登録キーワードを抽出するために最適化された音響的特徴量パラメータを用いることができ、使用者の発話からコマンドを抽出するために最適化された音響的特徴量パラメータを用いることができる。このため、使用者の発話から登録キーワード及びコマンドを高精度に抽出できる。
 次に、キーワード管理DB14のデータベース構造について図1及び図2を参照しつつ図3を用いて説明する。図3では、登録者の識別情報及び音響的特徴量の時系列データの組がキーワード管理DB14に4つ保存されている状態が示されているが、キーワード管理DB14は、5つ以上の当該組を保存することができるように構成されている。
 図3に示すように、キーワード管理DB14は、「ユーザID」及び「特徴量時系列」を関連づけて保存できるデータベース構造を有している。「ユーザID」は、登録キーワードを登録した登録者を識別するための識別情報を示している。「特徴量時系列」は、音響解析生成部13から入力される音響的特徴量の時系列データを示している。
 制御部19(図1参照)は、テキスト入力部12から登録者に関する識別情報が入力された後に音声入力部11に音声が入力されると、登録者によるキーワード登録が実行されたと判定し、生成した音響的特徴量の時系列データをキーワード管理DB14に送信するように音響解析生成部13を制御する。キーワード管理DB14は、テキスト入力部12から入力された登録者の識別情報と、音響解析生成部13から入力された音響的特徴量の時系列データとを関連づけて保存する。
 キーワード管理DB14は、入力された登録者の識別情報を「ユーザID」の格納領域に格納し、当該識別情報とほぼ同時に入力された音響的特徴量の時系列データを「特徴量時系列」の格納領域のうちの当該識別情報が格納された格納領域と関連づけられた格納領域に格納する。これにより、キーワード管理DB14は、ほぼ同時に入力される登録者の識別情報と音響的特徴量の時系列データとを関連づけて管理することができる。
 図3では、識別情報の数値(図3では、1、2及び3)で登録者の異同を示し、時系列データに付加したアルファベットで音声の異同を示し、時系列データに付加した数値で発話者の異同を示している。したがって、図3では、キーワード管理DB14の1行目及び2行目の格納領域には、同一の登録者(識別情報「1」)が登録した異なる登録キーワード(時系列データA及び時系列データB)が保存されていることが示されている。また、キーワード管理DB14の3行目の格納領域には、1行目及び2行目の登録者とは異なる登録者(識別情報「2」)が登録し、1行目と同一の登録キーワード(時系列データA)が保存されていることが示されている。また、キーワード管理DB14の4行目の格納領域には、1行目から3行目の登録者とは異なる登録者(識別情報「3」)が登録し、1行目と同一の登録キーワード(時系列データA)が保存されていることが示されている。登録者ごとに声質は異なるため、登録キーワードが同一であっても、音響的特徴量の時系列データは異なる。したがって、図3中に示す時系列データA1、時系列データA2及び時系列データA3は、キーワード自体は同一でも異なるデータとなる。
 具体的に、キーワード管理DB14は、ほぼ同時に入力された登録者の識別情報「1」及び音響的特徴量の時系列データ「時系列データA1」を、「ユーザID」及び「特徴量時系列」のそれぞれの1行目の格納領域に格納している。これにより、キーワード管理DB14は、識別情報「1」及び時系列データ「時系列データA1」を対応付けて管理する。
 また、キーワード管理DB14は、ほぼ同時に入力された登録者の識別情報「1」及び音響的特徴量の時系列データ「時系列データB1」を、「ユーザID」及び「特徴量時系列」のそれぞれの2行目の格納領域に格納している。これにより、キーワード管理DB14は、識別情報「1」及び時系列データ「時系列データB1」を対応付けて管理する。
 また、キーワード管理DB14は、ほぼ同時に入力された登録者の識別情報「2」及び音響的特徴量の時系列データ「時系列データA2」を、「ユーザID」及び「特徴量時系列」のそれぞれの3行目の格納領域に格納している。これにより、キーワード管理DB14は、識別情報「2」及び時系列データ「時系列データB1」を対応付けて管理する。
 また、キーワード管理DB14は、ほぼ同時に入力された登録者の識別情報「3」及び音響的特徴量の時系列データ「時系列データA3」を、「ユーザID」及び「特徴量時系列」のそれぞれの4行目の格納領域に格納している。これにより、キーワード管理DB14は、識別情報「3」及び時系列データ「時系列データA3」を対応付けて管理する。
 次に、コマンド管理DB15のデータベース構造について図1を参照しつつ図4を用いて説明する。図4では、コマンド及び必要認証スコアの組がコマンド管理DB15に4つ保存されている状態が示されているが、コマンド管理DB15は、5つ以上の当該組を保存することができるように構成されている。
 図4に示すように、コマンド管理DB15は、「コマンド」及び「必要認証スコア」を関連づけて保存できるデータベース構造を有している。「コマンド」は、電子機器1に実行させる動作内容を示している。「必要認証スコア」は、電子機器1にコマンドに係る動作を実行させるために必要な使用者の認証スコアを示している。つまり、コマンド管理DB15は、電子機器1の動作に係るコマンドと当該動作を実行するために必要な使用者の認証スコアを対応付けて管理している。このため、電子機器1は、音声認識コマンドによる制御に話者認証性や話者識別性を持たせ、コマンドに係る動作を開始するためのセキュリティーレベルをコマンドごとに異なる制御を可能している。
 コマンド管理DB15には、電子機器1の動作に係るコマンド及び必要認証スコアが対応付けて予め保存されている。図4に示す例では、コマンド管理DB15には、コマンド「照明点灯」に対応付けて必要認証スコア「20」が保存され、コマンド「着信履歴」に対応付けて必要認証スコア「80」が保存され、コマンド「音声メモ再生」に対応付けて必要認証スコア「80」が保存され、コマンド「音楽再生」に対応付けて必要認証スコア「40」が保存されている。「照明点灯」は、照明装置を点灯させる動作を示している。「着信履歴」は、着信履歴の一覧を電子機器1に設けられた表示装置(不図示)に表示する動作を示している。「音声メモ再生」は、電子機器1に記憶された音声メモを再生する動作を示している。「音楽再生」は、電子機器1に記憶された音楽、又は音楽再生装置に音楽を再生させる動作を示している。必要認証スコアとして格納されている数値は、数値が大きい程、コマンドに係る動作を実行するためのセキュリティーレベルが高いことを示している。このため、コマンド管理DB15では、個人情報が含まれ易い動作(例えば「着信履歴」や「音声メモ再生」)の方が個人情報が含まれ難い動作(例えば「照明点灯」)よりも個人認証の認識レベルが高くなるように、必要認証スコアが高く設定されている。必要認証スコアに格納された数値は、照合取得部17(図1参照)で取得された認証認識スコアと比較される比較数値となる。
 次に、データ作成部16の具体的な構成について図5及び図6を用いて説明する。図5では、理解を容易にするため、電子機器1に設けられ、データ作成部16に接続されたキーワード管理DB14、コマンド管理DB15及び照合取得部17が併せて図示されている。
 図5に示すように、データ作成部16は、キーワード管理DB14から出力される音響的特徴量の時系列データが入力される時系列データ入力部161と、コマンド管理DB15から出力されるコマンドが入力されるコマンド入力部162とを有している。時系列データ入力部161には、時系列データとともにキーワード管理DB14において当該時系列データに関連づけて保存されている登録者の識別情報も入力される。時系列データ入力部161には、キーワード管理DB14に保存されている全ての識別情報及び時系列データが関連づけられた状態で順次入力される。同様に、コマンド入力部162には、コマンド管理DB15に保存されている全てのコマンドが順次入力される。
 データ作成部16は、時系列データ入力部161に入力された全ての時系列データ及び識別情報を関連づけた状態で一時的に保存する時系列データ保存部163と、コマンド入力部162に入力された全てのコマンドを一時的に保存するコマンド保存部164とを有している。
 データ作成部16は、時系列データ保存部163に保存された識別情報及び時系列データと、コマンド保存部164に保存されたコマンドとを連結してグラマーデータを生成するグラマーデータ生成部165と、グラマーデータ生成部165で生成されたグラマーデータを一時的に保存するグラマーデータ保存部166とを有している。
 グラマーデータ生成部165は、時系列データ保存部163に保存された時系列データ及び識別情報と、コマンド保存部164に保存されたコマンドとの全ての組み合わせについて連結してグラマーデータを生成する。グラマーデータ生成部165は、時系列データ保存部163から入力された音響的特徴量の時系列データをDTW(ダイナミックタイムワーピング)の話者照合処理を行うアルゴリズムに適した形式に変換する。また、グラマーデータ生成部165は、コマンド保存部164から入力されたコマンドを音声認識で利用されている統計的モデル(例えば、不特定話者音声認識が利用される隠れマルコフモデル(HMM))であって照合処理に適した形式に変換する。音響的特徴量の時系列データは、ダイナミックタイムワーピングの話者照合処理を行うアルゴリズムに適した形式以外の形式に変換されてもよく、コマンドは、隠れマルコフモデル以外の統計的モデルの形式に変換されてもよい。
 グラマーデータ生成部165は、生成したグラマーデータをグラマーデータ保存部166に出力する。グラマーデータ保存部166は、グラマーデータ生成部165から入力されたグラマーデータに番号を付して保存する。
 ここで、グラマーデータ保存部166のデータベース構造及びグラマーデータ保存部166に保存されたグラマーデータのデータ構造について図6を用いて説明する。図6には、図3中に示す識別情報及び時系列データの4つの組と、図4中に示す4つのコマンドとを組み合わせて生成された16個のグラマーデータが保存された状態が図示されている。
 図6に示すように、グラマーデータ保存部166は、「番号」及び「グラマーデータ」を対応付けて保存できるデータベース構造を有している。「番号」は、グラマーデータ生成部165から入力された順に時系列に付与された番号を示している。また、「番号」は、グラマーデータ保存部166が後述する出力部167にグラマーデータを出力する順番も示している。「グラマーデータ」は、グラマーデータ生成部165から入力されてグラマーデータ保存部166で保存されているグラマーデータを示している。
 図6に示すように、グラマーデータは、登録者の識別情報を含む単語グループと、登録者が登録した登録キーワードに対する音響的特徴量の時系列データをテンプレートとして含む単語グループと、識別情報及び時系列データに連結されたコマンドを含む単語グループとで構成されたデータ構造を有している。グラマーデータは、音声認識に利用される単語の連結を表している。グラマーデータでは、話者照合処理を行うアルゴリズムに適した形式の音響的特徴量の時系列データと、音声認識で利用されている統計的モデルであって照合処理に適した形式のコマンドとが連結されている。識別情報は、照合取得部17(図1参照)において音声データと照合される情報ではないため、例えばテキスト形式で時系列データ及びコマンドに連結されている。
 キーワード管理DB14が関連づけられた識別情報及び登録キーワードを含む時系列データの組である第一組を複数記憶し、コマンド管理DB15がコマンド及び必要認証スコアの組である第二組を複数記憶している場合、データ作成部16は、異なる組合せの第一組及び第二組を有するグラマーデータを複数作成するようになっている。本実施形態では、キーワード管理DB14は、ユーザID及び特徴量時系列の組として、「1」及び「時系列データA1」、「1」及び「時系列データB1」、「2」及び「時系列データA2」、「3」及び「時系列データA3」の4つの第一組を記憶している(図3参照)。また、コマンド管理DB15は、コマンド及び必要認証スコアの組として、「照明点灯」及び「20」、「着信履歴」及び「80」、「音声メモ再生」及び「80」、「音楽再生」及び「40」の4つの第二組を記憶している(図4参照)。このため、データ作成部16のグラマーデータ生成部165は、異なる組合せの第一組及び第二組を有するグラマーデータを複数作成する。
 より具体的には、番号「1」から「4」に対応付けて、キーワード管理DB14に保存された識別情報「1」及び時系列データ「時系列データA1」と、コマンド管理DB15に保存された4つのコマンドのそれぞれとを連結させて構成されたグラマーデータが保存されている。番号「1」に対応付けられたグラマーデータ「1/時系列データA1/照明点灯」は、識別番号「1」、時系列データ「時系列データA1」及びコマンド「照明点灯」を連結させて構成されている。ここで、グラマーデータ「1/時系列データA1/照明点灯」において、「1」で表した部分が登録者の識別情報を含む単語グループに相当し、「時系列データA1」で表した部分が登録者が登録した登録キーワードに対する音響的特徴量の時系列データをテンプレートとして含む単語グループに相当し、「照明点灯」で表した部分が識別情報及び時系列データに連結されたコマンドを含む単語グループに相当する。
 また、番号「2」に対応付けられたグラマーデータ「1/時系列データA1/着信履歴」は、識別番号「1」、時系列データ「時系列データA1」及びコマンド「着信履歴」を連結させて構成されている。番号「3」に対応付けられたグラマーデータ「1/時系列データA1/音声メモ再生」は、識別番号「1」、時系列データ「時系列データA1」及びコマンド「音声メモ再生」を連結させて構成されている。番号「4」に対応付けられたグラマーデータ「1/時系列データA1/音楽再生」は、識別番号「1」、時系列データ「時系列データA1」及びコマンド「音楽再生」を連結させて構成されている。
 また、番号「5」から「8」に対応付けて、キーワード管理DB14に保存された識別情報「1」及び時系列データ「時系列データB1」と、コマンド管理DB15に保存された4つのコマンドのそれぞれとを連結させて構成されたグラマーデータ「1/時系列データB1/照明点灯」などが保存されている。また、番号「9」から「12」に対応付けて、キーワード管理DB14に保存された識別情報「2」及び時系列データ「時系列データA2」と、コマンド管理DB15に保存された4つのコマンドのそれぞれとを連結させて構成されたグラマーデータ「2/時系列データA2/照明点灯」などが保存されている。また、番号「13」から「16」に対応付けて、キーワード管理DB14に保存された識別情報「3」及び時系列データ「時系列データA3」と、コマンド管理DB15に保存された4つのコマンドのそれぞれとを連結させて構成されたグラマーデータ「3/時系列データA3/照明点灯」などが保存されている。
 このように、グラマーデータ生成部165は、時系列データの後にコマンドを連結してグラマーデータを作成する。グラマーデータを構成する時系列データには、登録キーワードが含まれている。したがって、データ作成部16は、登録キーワードの後にコマンドを連結してグラマーデータを作成する。登録キーワードは、例えば家庭用ロボットとしての電子機器1の所定機能(例えば「照明点灯」や「音楽再生」など)を起動させるために、使用者が電子機器1に呼びかける言葉に相当する。また、コマンドは、電子機器1で起動させたい機能に相当する。このため、一般的に使用者は、電子機器1の所定機能を起動させるために、まず電子機器1へ呼びかけた後に起動させる機能を発話する。登録キーワードの後にコマンドが連結された構成のグラマーデータは、使用者のこの一連の発話の流れに一致するため、後述する照合取得部17での照合処理の負荷を低減できる。
 図5に戻って、データ作成部16は、グラマーデータ保存部166から入力されたグラマーデータを照合取得部17に出力する出力部167を有している。
 次に、照合取得部17の具体的な構成について図7を用いて説明する。図7では、理解を容易にするため、電子機器1に設けられ、照合取得部17に接続されたデータ作成部16、音響解析生成部13、音響モデル記憶部10及び判定部18が併せて図示されている。
 図7に示すように、照合取得部17は、データ作成部16から出力されたグラマーデータが入力されるグラマーデータ入力部171と、音響解析生成部13から出力された音響的特徴量の時系列データが入力される時系列データ入力部172と、音響モデル記憶部10から読み出された音響モデルが入力される音響モデル入力部173とを有している。
 また、照合取得部17は、グラマーデータ入力部171から入力されたグラマーデータを一時的に保存するグラマーデータ保存部174を有している。グラマーデータ保存部174は、データ作成部16に設けられたグラマーデータ保存部166と同じデータベース構造を有している。また、グラマーデータ保存部166に保存された全てのグラマーデータがグラマーデータ入力部171から入力されるため、最終的にグラマーデータ保存部174には、グラマーデータ保存部166に保存されたのと同じグラマーデータが全て保存されることになる。
 照合取得部17は、グラマーデータ保存部174から入力されたグラマーデータに含まれる登録キーワードに対する音響的特徴量の時系列データ(以下、「登録時系列データ」と称する場合がある)と、時系列データ入力部172から入力された音響的特徴量の時系列データ(以下、「照合対象時系列データ」と称する場合がある)とを照合するキーワード照合部175を有している。
 キーワード照合部175は、グラマーデータ保存部174から入力された1つ目のグラマーデータと、時系列データ入力部172から入力された時系列データとをセットする。キーワード照合部175は、セットした登録時系列データと、セットした照合対象時系列データとの一致度を距離計算などを利用して計算する。キーワード照合部175は、音声区間検出アルゴリズムが音声終端を検出するまで登録時系列データと照合対象時系列データとの一致度を計算する。キーワード照合部175は、計算された一致度を、グラマーデータに含まれる登録キーワードと照合対象時系列データの一部(使用者の発話から抽出された抽出データの一部の一例)との一致度を示す認識認証スコアとして取得する。キーワード照合部175は、グラマーデータ保存部174に保存された全てのグラマーデータと照合対象時系列データとを照合して各グラマーデータに対して認識認証スコアを取得する。
 図7に示すように、照合取得部17は、キーワード照合部175から入力された認識登録キーワード情報を保存する最高スコア保存部177を有している。認識登録キーワード情報には、照合取得部17で取得された認識認証スコアと、認識認証スコアが取得されたグラマーデータに含まれる登録者の識別情報とが対応付けて含まれている。キーワード照合部175は、認識登録キーワード情報を取得すると、取得した認識認証スコアを含む認識登録キーワード情報を最高スコア保存部177に逐次出力する。
 最高スコア保存部177は、キーワード照合部175から認識登録キーワード情報が入力されると、入力された認識登録キーワード情報に含まれる認識認証スコアとすでに保存している認識登録キーワード情報に含まれた認識認証スコアとを比較する。最高スコア保存部177は、入力された認識認証スコアの方がすでに保存されている認識認証スコア以上であると判定すると、入力された認識認証スコアを最高スコアと認定し入力された認識登録キーワード情報を保存する。一方、最高スコア保存部177は、入力された認識認証スコアの方がすでに保存されている認識認証スコアよりも小さいと判定すると、入力された認識登録キーワード情報を破棄し、すでに保存されている認識認証スコアを最高スコアとして維持する。このように、照合取得部17に設けられた最高スコア保存部177は、複数のグラマーデータのうち、認識コマンドと同一と判定されるコマンドを含み、かつ取得した認識認証スコアの値が最も高いグラマーデータを選択して保存するようになっている。
 本実施形態による電子機器1は、キーワード管理DB14に保存されている全てのキーワードについてグラマーデータをそれぞれ作成し、作成した全てのグラマーデータと使用者の発話に基づく時系列データとを比較して、最高スコアの認識認証スコアを選択して保存するようになっている。これにより、電子機器1は、最高スコアの認識認証スコアに関連づけられた登録者を特定できる。このように、電子機器1は、キーワード管理DB14に保存されている全てのキーワードを用いて、電子機器1の所定機能を起動させようとする使用者を話者識別により特定するようになっている。
 図7に示すように、照合取得部17は、グラマーデータ保存部174から入力されたグラマーデータに含まれるコマンド(以下、「保存コマンド」と称する場合がある)と、時系列データ入力部172から入力された音響的特徴量の時系列データとを照合するコマンド照合部176を有している。
 コマンド照合部176は、時系列データ入力部172から入力された時系列データをセットする。また、コマンド照合部176は、照合対象時系列データに含まれるコマンドの認識を不特定話者音声認識として行うために、必要な音響モデルデータを音響モデル記憶部10から読み出して、読み出した音響モデルデータをセットする。コマンド照合部176は、例えばコマンド管理DB15に保存されている4つのコマンド(「照明点灯」、「着信履歴」、「音声メモ再生」及び「音楽再生」)を認識するために必要な音響モデルデータを音響モデル記憶部10から読み出してセットする。
 コマンド照合部176は、セットした音響モデルデータを用いて照合対象時系列データに含まれるコマンドを抽出する。つまり、照合取得部17は、音響モデルデータを用いて照合対象時系列データの少なくとも一部(抽出データの残部の少なくとも一部の一例)に含まれるコマンドの種別を判別する。ここで、コマンドの種別は、コマンド管理DB15に保存されているコマンドの種別(本例では、「照明点灯」、「着信履歴」、「音声メモ再生」及び「音楽再生」)を意味する。コマンド照合部176は、音声区間検出アルゴリズムが音声終端を検出するまでコマンドの抽出処理を実行する。コマンド照合部176は、抽出したコマンドを、使用者の発話から抽出された抽出データの残部の少なくとも一部から認識された認識コマンドとして取得する。
 図7に示すように、照合取得部17は、最高スコア保存部177から入力された認識登録キーワード情報と、コマンド照合部176から入力された認識コマンドとを判定部18に出力する出力部178を有している。
 次に、判定部18の具体的な構成について図8を用いて説明する。図8では、理解を容易にするため、電子機器1に設けられ、判定部18に接続されたコマンド管理DB15、照合取得部17及び制御部19が併せて図示されている。
 図8に示すように、判定部18は、コマンド管理DB15、照合取得部17及び制御部19との間で所定のデータを入出力する入出力部181と、入出力部181に接続された必要認証スコア取得部183とを有している。
 必要認証スコア取得部183には、照合取得部17から出力された認識登録キーワード情報及び認識コマンドが入出力部181を介して入力される。必要認証スコア取得部183は、入力された認識コマンドに対応付けてコマンド管理DB15に記憶された必要認証スコアを入出力部181を介して取得するようになっている。必要認証スコア取得部183に入力された認識コマンドが例えば「照明点灯」であるとすると、必要認証スコア取得部183は、コマンド「照明点灯」に対応付けてコマンド管理DB15に記憶された必要認証スコア「20」(図4参照)を入出力部181を介して取得する。
 図8に示すように、判定部18は、必要認証スコア取得部183に接続されたスコア比較部185を有している。スコア比較部185には、必要認証スコア取得部183から出力された認識登録キーワード情報、認識コマンド及び必要認証スコアが入力される。スコア比較部185は、認識登録キーワード情報に含まれている認識認証スコアと、必要認証スコアとを比較する。つまり、判定部18は、照合取得部17の最高スコア保存部177で選択されたグラマーデータから取得された認識認証スコアと、照合取得部17のコマンド照合部176で照合対象時系列データの少なくとも一部(抽出データの残部の少なくとも一部の一例)に含まれるコマンドと同一と判定されたコマンドと同一と判定された認証コマンドに関連づけられた必要認証スコアとを比較するようになっている。
 図8に示すように、判定部18は、スコア比較部185に接続された判定信号生成部187を有している。判定信号生成部187には、認識認証スコア及び必要認証スコアの比較結果と、認識コマンドがスコア比較部185から入力される。判定信号生成部187は、認識認証スコアが必要認証スコア以上であるという比較結果がスコア比較部185から入力されたと判定すると、スコア比較部185から入力された認識コマンドが認識されたことを示す判定信号を生成し、生成した判定信号を入出力部181に出力する。一方、判定信号生成部187は、認識認証スコアが必要認証スコアよりも小さいという比較結果がスコア比較部185から入力されたと判定すると、スコア比較部185から入力された認識コマンドが認識されないことを示す判定信号を生成し、生成した判定信号を入出力部181に出力する。
 入出力部181に出力された判定信号は、制御部19に入力される。制御部19は、認識コマンドが認識されたことを示す判定信号が入力されたと判定すると、認識コマンドに係る動作を実行する構成要素を起動する。一方、制御部19は、認識コマンドが認識されないことを示す判定信号が入力されたと判定すると、認識コマンドに係る動作を実行する構成要素を起動しない。また、制御部19は、認識コマンドが認識されたか否かによらず判定信号が入力されたと判定すると、照合取得部17のグラマーデータ保存部174及び最高スコア保存部177並びにデータ作成部16の時系列データ保存部163、コマンド保存部164及びグラマーデータ保存部166に保存された各種データを消去する。
 上述のグラマーデータはキーワード管理DB14から取得された登録キーワード及びコマンド管理DB15から取得されたコマンドに加えて、さらに登録者を識別する識別情報(以下、「登録者識別情報」と称する場合がある)を含んでいてもよい。
この場合、照合取得部17は、データ作成部16で作成されたグラマーデータ及び電子機器1の使用者の発話から抽出された抽出データを照合し、登録者識別情報を取得してもよい。
 さらに、グラマーデータが登録者を識別する識別情報を含む場合であって、コマンド管理DB15が、異なる登録者識別情報に対応付けられた複数の必要認証スコアを一のコマンドに関連づけて記憶可能に構成されていてもよい。このようなコマンド管理DB15は、図9に示すように、「コマンド」、「ユーザID」及び「必要認証スコア」を関連づけて保存できるデータベース構造を有していてもよい。図9中に示す「コマンド」及び「必要認証スコア」は、図4に示すコマンド管理DB15のデータベース構造における「コマンド」及び「必要認証スコア」と同様の内容を示している。また、図9中に示す「ユーザID」は、登録者識別情報を示している。
 図9に示すように、本例のコマンド管理DB15には、「コマンド」に格納された複数(図9では4つ)のコマンドのうちの一のコマンド(例えば「音楽再生」)に、「ユーザID」に格納された異なる登録者識別情報(「1」及び「2」)に対応付けられて「必要認証スコア」に格納された複数の必要認証スコア(「40」及び「60」)が関連づけられて記憶されている。
 この場合、判定部18は、取得コマンドに関連づけられた必要認証スコアのうち、照合取得部17で取得された識別情報に対応付けられた必要認証スコアが照合取得部17で取得された認識認証スコア以下である場合には取得コマンドが認識されたと判定し、該必要認証スコアが該認識認証スコアよりも大きい場合には取得コマンドが認識されなかったと判定してもよい。
 次に、本発明の一実施形態による電子機器の制御方法について図1、図3及び図4を参照しつつ図10を用いて説明する。
(ステップS1)
 図10に示すように、電子機器1の音声認識処理では、まずステップS1において、電子機器1に備えられた制御部19は、音声入力部11に音声が入力されたか否かを判定し、音声入力部11に音声が入力されたと判定するとステップS3に処理を移行する。一方、制御部19は、音声入力部11に音声が入力されたと判定するまでステップS1の処理を繰り返し実行する。本実施形態では、制御部19は、電子機器1の電源がパワーダウン状態であっても、あるいは電源がオン状態であっても音声入力部11に音声が入力されたか否かを監視している。
(ステップS3)
 ステップS3において、制御部19は、入力された音声から音声区間を検出するために音響解析生成部13を制御する。これにより、音響解析生成部13は、入力された音声から音声区間を検出する。制御部19は、音響解析生成部13が音声区間の検出を終了したと判断すると、処理をステップS5に移行する。
(ステップS5)
 ステップS5において、制御部19は、検出された音声区間ごとに音響的特徴量を抽出して時系列データを生成するために音響解析生成部13を制御する。これにより、音響解析生成部13は、音声区間ごとに音響的特徴量の時系列データを生成する。制御部19は、音響解析生成部13が全ての音声区間について音響的特徴量の時系列データを生成したと判断すると、処理をステップS7に移行する。
(ステップS7)
 ステップS7において、制御部19は、音声入力の直前又は音声入力の際にテキスト入力部12にテキストが入力されたか否かを判定し、テキストが入力されていると判定するとステップS9に処理を移行し、テキストが入力されていないと判定するとステップS11に処理を移行する。
(ステップS9)
 ステップS9において、制御部19は、登録キーワードの登録処理を実行し、ステップS1に処理を戻す。より具体的に、制御部19は、音声入力の直前又は音声入力の際にテキスト入力があると、ステップS1での音声は登録キーワードであると判定し、生成した音響的特徴量の時系列データをキーワード管理DBに出力するように音響解析生成部13を制御する。これにより、ステップS5で生成された音響的特徴量の時系列データ及びステップS7で入力されたと判定されたテキスト(すなわち登録者の識別情報)がキーワード管理DB14で関連づけて保存される。
(ステップS11)
 ステップS11において、制御部19は、グラマーデータを作成するためにデータ作成部16を制御する。これにより、データ作成部16は、キーワード管理DB14及びコマンド管理DB15からデータを取得してグラマーデータを作成し、作成した全てのグラマーデータを照合取得部17に出力する。制御部19は、データ作成部16が全てのグラマーデータを照合取得部17に出力したと判断すると、処理をステップS13に移行する。
(ステップS13)
 制御部19は、音声入力の直前又は音声入力の際にテキスト入力がないと、ステップS1での音声は電子機器1の所定機能を起動させるための使用者の発話であると判定し、ステップS13において、登録キーワードを照合するために照合取得部17を制御する。これにより、照合取得部17は、入力されたグラマーデータ及び時系列データを比較して最高スコアの認識認証スコアを取得し、取得した認識認証スコア及びこの認識認証スコアに関連づけられた登録者の識別情報を含む認識登録キーワード情報を判定部18に出力する。制御部19は、照合取得部17が認識登録キーワード情報を判定部18に出力したと判断すると、処理をステップS15に移行する。
(ステップS15)
 ステップS15において、制御部19は、コマンドを照合するために照合取得部17を制御する。これにより、照合取得部17は、音響モデル記憶部10から読み出した音響モデルデータを用いて入力された時系列データからコマンドを抽出し、抽出したコマンドを認識コマンドとして判定部18に出力する。制御部19は、照合取得部17が認識コマンドを判定部18に出力したと判断すると、処理をステップS17に移行する。
(ステップS17)
 ステップS17において、制御部19は、認識認証スコア及び必要認証スコアを比較するために判定部18を制御する。これにより、判定部18は、入力された認識コマンドと同一のコマンドに関連づけられた必要認証スコアをコマンド管理DB15から取得し、取得した必要認証スコアと、入力された認識登録キーワード情報に含まれた認識認証スコアとを比較する。判定部18は、認識認証スコアが必要認証スコア以上であると判定すると処理をステップS19に移行し、認識認証スコアが必要認証スコアよりも小さいと判定すると処理をステップS21に移行する。
(ステップS19)
 ステップS19において、判定部18は、認識コマンドを認識したことを示す「コマンド可の判定信号」を生成して制御部19に出力する。制御部19は、コマンド可の判定信号を受信すると、照合取得部17のグラマーデータ保存部174及び最高スコア保存部177並びにデータ作成部16の時系列データ保存部163、コマンド保存部164及びグラマーデータ保存部166に保存された各種データを消去して、処理をステップS1に戻す。さらに、制御部19は、認識コマンドに係る動作を実行する構成要素を起動する。
(ステップS21)
 ステップS21において、判定部18は、認識コマンドを認識しないことを示す「コマンド不可の判定信号」を生成して制御部19に出力する。制御部19は、コマンド不可の判定信号を受信すると、照合取得部17のグラマーデータ保存部174及び最高スコア保存部177並びにデータ作成部16の時系列データ保存部163、コマンド保存部164及びグラマーデータ保存部166に保存された各種データを消去して、処理をステップS1に戻す。制御部19は、認識コマンドに係る動作を実行する構成要素を起動しない。なお、制御部19は、コマンド不可の判定信号を受信した場合、コマンドが受け付けられなかったことを報知するように電子機器1を制御してもよい。
 次に、本発明の一実施形態による電子機器の制御プログラムについて説明する。
 本実施形態による電子機器1の一部の構成は、コンピュータプログラムとして具体化することができる。例えば、音響解析生成部13、キーワード管理DB14、コマンド管理DB15、データ作成部16、照合取得部17、判定部18、制御部19及び音響モデル記憶部10の機能を電子機器の制御プログラムとして実現することができる。したがって、本発明の一部または全ては、ハードウェアまたはソフトウェア(ファームウェア、常駐ソフトウェア、マイクロコード、ステートマシン、ゲートアレイ等を含む)に組み入れることができる。さらに、本発明は、コンピュータ(電子機器に設けられた制御用中央演算処理装置を含む)によって使用可能な、またはコンピュータ可読の記憶媒体上のコンピュータプログラム製品の形態をとることができ、この媒体には、コンピュータによって使用可能な、またはコンピュータ可読のプログラムコードが組み入れられる。コンピュータによって使用可能な、またはコンピュータ可読の媒体は、命令実行システム、装置若しくはデバイスによって、またはそれらとともに使用されるプログラムを、収録する、記憶する、通信する、伝搬する、または搬送することのできる、任意の媒体とすることができる。
 以上説明したように、本実施形態による電子機器、電子機器の制御方法及び電子機器の制御プログラムは、ユーザ認証で保護された電子機器の所定機能を起動させるためにユーザ認証を解除しなくても、電子機器の使用者が音声を入力するだけで、ユーザ認証を実行して所望の機能を起動させることができる。このため、本実施形態による電子機器、電子機器の制御方法及び電子機器の制御プログラムによれば、ユーザ認証によって保護された機能を起動するための操作が煩雑になることを防止できる。
 また、特許文献1に記載されているようなテキスト独立型ボイスプリントを用いる場合、独立型ボイスプリントの作成負担を軽減するために、利用中の自然な発話でテキスト独立型ボイスプリントを作成すると、利用者以外の人間が発話した音声データが含まれてしまう可能性がある。このため、このように作成されたテキスト独立型ボイスプリントでは、高い認証精度を得ることができない可能性があるという問題を有している。特に、利用中の自然な発話で作成されたテキスト独立型ボイスプリントは、どの程度の認証精度を有しているのかが不明であるため、電子機器の機能にアクセスするための認証精度が得られていない場合、電子機器の使用者はどうすることもできないという問題が生じる。
 これに対し、本実施形態による電子機器1は、音声認識コマンドによる電子機器1の制御に話者認証性及び話者識別性を持たせることができる。このため、本実施形態による電子機器1は、テキスト型ボイスプリントを用いる必要がないため、どの程度の認証精度を有しているのかが不明になったり電子機器1の機能にアクセスするための認証精度が得られなくなったりしないので、認証性能の向上を図ることができる。
 本実施形態による電子機器1は、使用者が本人の音声で予め登録した音声キーワードと電子機器1を操作するために用意された音声認識コマンドを連続して発話することにより、一度の連続した発話で使用者を認証し、かつ電子機器1の機能の起動操作を行うことができる。音声認識コマンドは、例えば不特定話者音声認識技術によって与えられ、通常、コマンドに対する発音記号を与えることで実現できる。それぞれの音声認識コマンドには、電子機器1の操作のセキュリティーレベルに応じた、音声キーワードとの類似スコア条件(必要認証スコア)を割り当てることによって、コマンド認識にセキュリティー機能を与え、簡便でセキュアな操作が可能になる。
 一般に、話者認証のために、ユーザが本人の音声を登録する場合、本人の音声の特徴量を正しく抽出することが必要であるため、静音環境下で登録作業が行われる。この音声登録は、方法にもよるが、通常1回または数回程度の発話で可能であり、ユーザの負担は非常に小さい。一方、話者認証時は、利用する環境(残響環境や雑音環境など)、発話スタイル及び声質変化などが、登録時と離れるほど、特徴量間の距離が大きくなり、話者認証における類似度が低下する。
 電子機器の操作内容によっては、要求されるセキュリティーレベルが比較的低くても雑音環境で利用したいものがある。このような機器操作に対応する音声認識コマンドには、低めのキーワード類似スコア条件を付与しておけば、音声操作の利便性が向上する。一方、ユーザの情報管理など比較的高いセキュリティーが必要な場合は、比較的静音環境での利用に限定してでも、高めのキーワード類似スコア条件を付与し、セキュリティーを確保したい場合がある。
 本実施形態による電子機器1は、話者認証ではなく話者識別により電子機器1の使用者の認識認証スコアを取得し、取得した認識認証スコアと、この使用者が機動開始を望む機能に係るコマンドに関連づけられた必要認証スコアとに基づいて当該機能の起動開始が可能か否かを判定することにより、当該機能のセキュリティーを確保することができる。したがって、本実施形態による電子機器1によれば、利用環境に制限されずに、所定機能の起動に対して安定したセキュリティーレベルを確保できる。
 本発明は、上記実施形態に限らず種々の変形が可能である。
 上記実施形態では、データ作成部16は、登録者の識別情報、音響的特徴量の時系列データ及びコマンドで構成されたグラマーデータを作成するように構成されているが、本発明はこれに限られない。例えば、データ作成部16は、コマンドに関連づけられた必要認証スコアを含めてグラマーデータを作成するように構成されていてもよい。この場合には、データ作成部16は、登録者の識別情報、音響的特徴量の時系列データ、コマンド及び必要認証スコアで構成されたグラマーデータを作成する。また、必要認証スコアがグラマーデータに含まれているので、照合取得部17は、認識コマンドに関連づけられた必要認証スコアをこの認識コマンドとともに判定部18に出力できる。このため、判定部18は、コマンド管理DB15から必要認証スコアを取得する必要がないため、必要認証スコアと認識認証スコアとの比較処理を簡略化できる。
 上記実施形態では、データ作成部16は、登録キーワードに対応する時系列データの後にコマンドを連結してグラマーデータを作成するようになっているが、本発明はこれに限られない。例えば、データ作成部16は、コマンドの後に登録キーワードに対応する時系列データを連結してグラマーデータを作成してもよい。照合取得部17は、グラマーデータから登録キーワードに対応する時系列データとコマンドとをそれぞれ抽出できるので、この場合も認識認証スコアを取得できる。
 上記実施形態では、一の機能に対して1つの必要認証スコアが関連づけられているが、本発明はこれに限られない。電子機器1に備えられたコマンド管理DB15は、異なる登録者の識別情報に対応付けられた複数の必要認証スコアを一のコマンドに関連づけて記憶可能に構成されていてもよい。また、電子機器1は例えば、登録者が登録キーワードを登録する際にこの必要認証スコアも登録できるように構成されていてもよい。
 例えば、電子機器1としての家庭用ロボットなどに対する呼びかけをキーワードとして家族など複数のユーザが音声キーワード登録を行う場合、音声認識方法では、どのユーザが発話し、どの音声コマンドが認識されたかを知ることができる。この場合、認識された同一コマンドに対し、電子機器の動作をユーザごとに変えることができる。たとえば、音声キーワードとしてユーザ1とユーザ2がともに「ももちゃん」を登録し、コマンド「踊って」を認識された場合、ユーザ1とユーザ2では、踊る内容を過去の履歴によって変えることもできる。また、複数のユーザが音声キーワードを登録する場合、一の機能に関連づけられた必要認証スコアをユーザによって設定可能にすることは、ユーザごとのセキュリティーに対する重要性を反映することができて有用である。
1 電子機器
10 音響モデル記憶部
11 音声入力部
12 テキスト入力部
13 音響解析生成部
14 キーワード管理DB
15 コマンド管理DB
16 データ作成部
17 照合取得部
18 判定部
19 制御部
131 音声区間検出部
133 時系列データ生成部
135,167,178 出力部
161 時系列データ入力部
162 コマンド入力部
163 時系列データ保存部
164 コマンド保存部
165 グラマーデータ生成部
166,174 グラマーデータ保存部
171 グラマーデータ入力部
172 時系列データ入力部
173 音響モデル入力部
175 キーワード照合部
176 コマンド照合部
177 最高スコア保存部
181 入出力部
183 必要認証スコア取得部
185 スコア比較部
187 判定信号生成部

Claims (10)

  1.  登録者を識別する識別情報及び該登録者の発話に基づく登録キーワードを関連づけて記憶するキーワード記憶部と、
     異なる前記識別情報に対応付けられた複数の必要認証スコアを一のコマンドに関連づけて記憶可能に構成されて動作内容を規定するコマンド及び該コマンドで規定された動作を実行するか否かの判定に用いられる必要認証スコアを関連づけて記憶するコマンド記憶部と、
     前記キーワード記憶部から取得された登録キーワード及び前記コマンド記憶部から取得されたコマンドを有するグラマーデータを作成するデータ作成部と、
     前記データ作成部で作成されたグラマーデータ及び使用者の発話から抽出された抽出データを照合し、該グラマーデータに含まれる登録キーワードと該抽出データの一部との一致度を示す認識認証スコア及び該抽出データの残部の少なくとも一部から認識された認識コマンドを取得する照合取得部と、
     前記照合取得部で取得された認識コマンドと同一と判定されたコマンドに関連づけられた必要認証スコアが前記照合取得部で取得された認識認証スコア以下である場合には該コマンドが認識されたと判定し、該必要認証スコアが該認識認証スコアよりも大きい場合には該コマンドが認識されなかったと判定する判定部と
     を備える電子機器。
  2.  前記データ作成部は、前記コマンドに関連づけられた必要認証スコアを含めて前記グラマーデータを作成する
     請求項1記載の電子機器。
  3.  前記データ作成部は、前記登録キーワードの後に前記コマンドを連結して前記グラマーデータを作成する
     請求項1又は2に記載の電子機器。
  4.  前記登録者の発話を解析して得られた音響的特徴量で構成された第一時系列データと、前記使用者の発話を解析して得られた音響的特徴量で構成された第二時系列データとを生成する音響解析生成部を備え、
     前記キーワード記憶部は、前記音響解析生成部から入力された前記第一時系列データを前記登録キーワードとして記憶し、
     前記照合取得部は、前記音響解析生成部から入力された前記第二時系列データを前記抽出データとして用いて前記認識認証スコア及び前記認識コマンドを取得する
     請求項1から3までのいずれか一項に記載の電子機器。
  5.  前記音響解析生成部は、前記登録キーワード及び前記コマンドを前記使用者の発話から抽出するために同一の音響的特徴量パラメータを用いる
     請求項4記載の電子機器。
  6.  前記音響解析生成部は、前記登録キーワード及び前記コマンドを前記使用者の発話から抽出するために異なる音響的特徴量パラメータを用いる
     請求項4記載の電子機器。
  7.  前記照合取得部は、音響モデルを用いて前記抽出データの残部の少なくとも一部に含まれる前記コマンドの種別を判別する
     請求項1から6までのいずれか一項に記載の電子機器。
  8.  前記キーワード記憶部が関連づけられた前記識別情報及び前記登録キーワードの組である第一組を複数記憶し、前記コマンド記憶部が前記コマンド及び前記必要認証スコアの組である第二組を複数記憶している場合、
     前記データ作成部は、異なる組合せの前記第一組及び前記第二組を有する前記グラマーデータを複数作成し、
     前記照合取得部は、複数の前記グラマーデータのうち、前記認識コマンドと同一と判定されるコマンドを含み、かつ取得した認識認証スコアの値が最も高いグラマーデータを選択し、
     前記判定部は、選択されたグラマーデータから取得された認識認証スコアと、抽出データの残部の少なくとも一部に含まれるコマンドと同一と判定されたコマンドに関連づけられた必要認証スコアとを比較する
     請求項1から7までのいずれか一項に記載の電子機器。
  9.  登録者を識別する識別情報及び該登録者の発話に基づく登録キーワードを関連づけてキーワード記憶部に記憶し、
     異なる前記識別情報に対応付けられた複数の必要認証スコアを一のコマンドに関連づけて記憶可能に構成されて動作内容を規定するコマンド及び該コマンドで規定された動作を実行するか否かの判定に用いられる必要認証スコアを関連づけてコマンド記憶部に記憶し、
     前記キーワード記憶部から取得された登録キーワード及び前記コマンド記憶部から取得されたコマンドを有するグラマーデータをデータ作成部が作成し、
     前記データ作成部で作成されたグラマーデータ及び使用者の発話から抽出された抽出データを照合し、該グラマーデータに含まれる登録キーワードと該抽出データの一部との一致度を示す認識認証スコア及び該抽出データの残部の少なくとも一部から認識された認識コマンドを照合取得部が取得し、
     前記照合取得部で取得された認識コマンドと同一と判定されたコマンドに関連づけられた必要認証スコアが前記照合取得部で取得された認識認証スコア以下である場合には該コマンドが認識されたと判定し、該必要認証スコアが該認識認証スコアよりも大きい場合には該コマンドが認識されなかったと判定する
     電子機器の制御方法。
  10.  コンピュータを、
     登録者を識別する識別情報及び該登録者の発話に基づく登録キーワードを関連づけて記憶するキーワード記憶部、
     異なる前記識別情報に対応付けられた複数の必要認証スコアを一のコマンドに関連づけて記憶可能に構成されて動作内容を規定するコマンド及び該コマンドで規定された動作を実行するか否かの判定に用いられる必要認証スコアを関連づけて記憶するコマンド記憶部、
     前記キーワード記憶部から取得された登録キーワード及び前記コマンド記憶部から取得されたコマンドを有するグラマーデータを作成するデータ作成部、
     前記データ作成部で作成されたグラマーデータ及び使用者の発話から抽出された抽出データを照合し、該グラマーデータに含まれる登録キーワードと該抽出データの一部との一致度を示す認識認証スコア及び該抽出データの残部の少なくとも一部から認識された認識コマンドを取得する照合取得部、及び
     前記照合取得部で取得された認識コマンドと同一と判定されたコマンドに関連づけられた必要認証スコアが前記照合取得部で取得された認識認証スコア以下である場合には該コマンドが認識されたと判定し、該必要認証スコアが該認識認証スコアよりも大きい場合には該コマンドが認識されなかったと判定する判定部
     として機能させる電子機器の制御プログラム。
PCT/JP2017/040621 2016-11-11 2017-11-10 電子機器、電子機器の制御方法及び電子機器の制御プログラム WO2018088534A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018550285A JP6682007B2 (ja) 2016-11-11 2017-11-10 電子機器、電子機器の制御方法及び電子機器の制御プログラム
US16/348,701 US11416593B2 (en) 2016-11-11 2017-11-10 Electronic device, control method for electronic device, and control program for electronic device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016220458 2016-11-11
JP2016-220458 2016-11-11

Publications (1)

Publication Number Publication Date
WO2018088534A1 true WO2018088534A1 (ja) 2018-05-17

Family

ID=62109562

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/040621 WO2018088534A1 (ja) 2016-11-11 2017-11-10 電子機器、電子機器の制御方法及び電子機器の制御プログラム

Country Status (3)

Country Link
US (1) US11416593B2 (ja)
JP (1) JP6682007B2 (ja)
WO (1) WO2018088534A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10916243B2 (en) * 2016-12-27 2021-02-09 Amazon Technologies, Inc. Messaging from a shared device
KR20200100481A (ko) * 2019-02-18 2020-08-26 삼성전자주식회사 생체 정보를 인증하기 위한 전자 장치 및 그의 동작 방법
US11562140B2 (en) * 2021-04-29 2023-01-24 Hewlett Packard Enterprise Development Lp Dynamically configurable templates to support versatile deployment of configurations at network devices

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000080828A (ja) * 1998-09-07 2000-03-21 Denso Corp 車両制御装置
JP2000099076A (ja) * 1998-09-25 2000-04-07 Fujitsu Ltd 音声認識を活用した実行環境設定装置及び方法
JP2007140048A (ja) * 2005-11-17 2007-06-07 Oki Electric Ind Co Ltd 音声認識システム
WO2015038435A1 (en) * 2013-09-16 2015-03-19 Qualcomm Incorporated Method and apparatus for controlling access to applications
JP2016129011A (ja) * 2011-03-21 2016-07-14 アップル インコーポレイテッド 音声認証を用いたデバイスアクセス

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3340357B2 (ja) 1997-08-25 2002-11-05 三菱電機株式会社 情報処理装置管理システム及び情報処理装置管理方法
JP2002149181A (ja) 2000-11-15 2002-05-24 Sharp Corp 機器制御システム
JP2003228395A (ja) 2002-02-04 2003-08-15 Denso Corp 音声認識による機器制御方法及び音声認識による機器制御装置
JP4672003B2 (ja) * 2005-02-18 2011-04-20 富士通株式会社 音声認証システム
US7640160B2 (en) * 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
JP2008257566A (ja) 2007-04-06 2008-10-23 Kyocera Mita Corp 電子機器
JP5997813B2 (ja) 2015-07-09 2016-09-28 株式会社東芝 話者分類装置、話者分類方法および話者分類プログラム
US10491598B2 (en) * 2016-06-30 2019-11-26 Amazon Technologies, Inc. Multi-factor authentication to access services
US9972318B1 (en) * 2016-09-21 2018-05-15 Amazon Technologies, Inc. Interpreting voice commands
US9959861B2 (en) * 2016-09-30 2018-05-01 Robert Bosch Gmbh System and method for speech recognition
US10027662B1 (en) * 2016-12-06 2018-07-17 Amazon Technologies, Inc. Dynamic user authentication

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000080828A (ja) * 1998-09-07 2000-03-21 Denso Corp 車両制御装置
JP2000099076A (ja) * 1998-09-25 2000-04-07 Fujitsu Ltd 音声認識を活用した実行環境設定装置及び方法
JP2007140048A (ja) * 2005-11-17 2007-06-07 Oki Electric Ind Co Ltd 音声認識システム
JP2016129011A (ja) * 2011-03-21 2016-07-14 アップル インコーポレイテッド 音声認証を用いたデバイスアクセス
WO2015038435A1 (en) * 2013-09-16 2015-03-19 Qualcomm Incorporated Method and apparatus for controlling access to applications

Also Published As

Publication number Publication date
JPWO2018088534A1 (ja) 2019-10-10
JP6682007B2 (ja) 2020-04-15
US11416593B2 (en) 2022-08-16
US20190286799A1 (en) 2019-09-19

Similar Documents

Publication Publication Date Title
US11594230B2 (en) Speaker verification
US10255922B1 (en) Speaker identification using a text-independent model and a text-dependent model
US10332525B2 (en) Automatic speaker identification using speech recognition features
JP4213716B2 (ja) 音声認証システム
US20080154599A1 (en) Spoken free-form passwords for light-weight speaker verification using standard speech recognition engines
US11170787B2 (en) Voice-based authentication
JP2004101901A (ja) 音声対話装置及び音声対話プログラム
JP6682007B2 (ja) 電子機器、電子機器の制御方法及び電子機器の制御プログラム
WO2023158444A2 (en) Hybrid multilingual text-dependent and text-independent speaker verification
CN117321678A (zh) 用于说话者标识的注意力评分功能
JP4143541B2 (ja) 動作モデルを使用して非煩雑的に話者を検証するための方法及びシステム
JP3837061B2 (ja) 音信号認識システムおよび音信号認識方法並びに当該音信号認識システムを用いた対話制御システムおよび対話制御方法
JP4440414B2 (ja) 話者照合装置及び方法
JP4245948B2 (ja) 音声認証装置、音声認証方法及び音声認証プログラム
KR20240132372A (ko) 멀티태스크 음성 모델을 이용한 화자 검증
JPH0441837B2 (ja)

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17868689

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018550285

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17868689

Country of ref document: EP

Kind code of ref document: A1