WO2019156427A1 - Method for identifying utterer on basis of uttered word and apparatus therefor, and apparatus for managing voice model on basis of context and method thereof - Google Patents

Method for identifying utterer on basis of uttered word and apparatus therefor, and apparatus for managing voice model on basis of context and method thereof Download PDF

Info

Publication number
WO2019156427A1
WO2019156427A1 PCT/KR2019/001355 KR2019001355W WO2019156427A1 WO 2019156427 A1 WO2019156427 A1 WO 2019156427A1 KR 2019001355 W KR2019001355 W KR 2019001355W WO 2019156427 A1 WO2019156427 A1 WO 2019156427A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
speech
model
speaker
similarity
Prior art date
Application number
PCT/KR2019/001355
Other languages
French (fr)
Korean (ko)
Inventor
이태훈
Original Assignee
주식회사 공훈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020180016444A external-priority patent/KR101888058B1/en
Priority claimed from KR1020180016663A external-priority patent/KR101888059B1/en
Application filed by 주식회사 공훈 filed Critical 주식회사 공훈
Publication of WO2019156427A1 publication Critical patent/WO2019156427A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation

Definitions

  • the present invention relates to a method and apparatus for identifying a speaker based on a spoken word, and more particularly, to grasp a voice characteristic of a speaker (for example, a user of the device) based on the spoken word,
  • the present invention relates to a method and apparatus for determining that a speech pattern of a word corresponding to a speech characteristic having a high similarity compared to the speech characteristic stored in a database (DB) generated according to the characteristic is a speaker's updated speech pattern.
  • DB database
  • the present invention also relates to a context-based speech model management apparatus and a method of operating the apparatus, and more particularly, to a speech model that can be used in a speech authentication system at a context-based speaker's speech characteristics and at predetermined predetermined intervals.
  • An apparatus for managing a voice model by updating and a method of operating the apparatus is also referred to a context-based speech model management apparatus and a method of operating the apparatus.
  • the voice is vulnerable to imitation and recording / playback of others, and may change from time to time depending on the pronunciation state and time of the user, and thus may be restricted in use as a means of recognition and authentication.
  • voice is equipped with the optimum conditions of the interface between the machine and human beings, the use range is gradually increasing.
  • the voice of the speaker and other authentication means such as iris, fingerprint, and password are used in parallel. It is hampering the effectiveness of authentication through a bay.
  • the existing speaker identification has a limitation in raising the recognition rate standard for the speaker by taking a method of recognizing the user by data-forming common feature elements based on all voices spoken by the user.
  • this conventional speaker identification method has caused a lot of inconvenience for the user who needs the instantaneous use of identification (authentication) information in that it takes quite a long time to accurately identify the speaker.
  • the speaker's voice is not permanent, and the aging of the vocal muscles over time, changes in the living environment (e.g., area, work place, etc.), changes in the state of health (e.g., the development of a cold, etc.) Depending on various factors, it may change temporarily or continuously and over time.
  • the present invention has been made as a countermeasure to the above-described problem, and is intended to enhance the effectiveness of speech recognition and authentication by increasing the accuracy of speech recognition and speaker identification (eg, authentication, etc.) for the speaker.
  • the present invention can be performed temporarily or for a period of time depending on the speaker's voice tone, depending on the speaker's emotion, the surrounding environment (e.g., noise, etc.), the speaker's state of health (e.g., the development of a throat, etc.).
  • the present invention is to provide a method and apparatus for improving identification accuracy by reflecting the possibility of such a voice change in the speaker's identification process.
  • the context in the matrix DB including the user's context (word) speech model that can be utilized in the context (word) presentation system that is an implementation aspect of the voice authentication system
  • the present invention provides a method and apparatus for updating a user's context (word) speech model in consideration of the presence or absence of a change in the voice input from a speaker and the degree of change.
  • a method and apparatus for identifying a speaker based on a spoken word can be provided.
  • a method for identifying a speaker based on a spoken word may include receiving a spoken voice from a speaker, extracting a word included in the received voice, and voice information of the word, in advance. Searching for a word in the database (DB), if the word does not exist in the DB, adds the word and voice information of the word to the DB, and if the word exists in the DB, the voice information of the spoken word and Comparing the respective reference voice information stored in the DB, estimating the similarity according to the comparison with the respective reference voice information, and the words of the speaker based on the number of times the voice information corresponding to the estimated similarity is received. Determining an utterance pattern for and identifying the speaker based on the determined utterance pattern.
  • the voice information of the word may include at least one of a frequency, pitch, formant, speech time, and speech speed of the speech.
  • the similarity is determined according to the determination result.
  • the estimated similarity is less than the first reference value
  • new reference voice information is generated and stored in the DB.
  • the estimated similarity is greater than or equal to the first reference value, the number of matching of the reference voice information having the corresponding similarity may be increased and counted. .
  • a new voice spoken by the speaker is received and the similarity is repeatedly estimated. If it is equal to or greater than the second reference value, it may be determined as a speech pattern for the speaker's word.
  • the speech pattern is determined by establishing a speech model of the speaker based on the speech information corresponding to the similarity having the number of matching counts greater than or equal to the second reference value.
  • the identifying step it may be identified who the speaker of the spoken voice is based on the speech pattern determined through the above-described steps with respect to the spoken voice.
  • An apparatus for identifying a speaker based on a spoken word includes a voice receiver for receiving a spoken voice from a speaker, information contained in the received voice, and information extracted to extract voice information of the word.
  • the information retrieval unit which searches for words in a pre-built database (DB). If a word does not exist in the DB, the word and voice information of the word are added to the DB.
  • DB pre-built database
  • a comparison unit for comparing the voice information of the word with each reference voice information stored in the DB, a similarity estimation unit for estimating the similarity according to comparison with each reference voice information, and receiving voice information corresponding to the estimated similarity
  • a speech pattern determining unit that determines a speech pattern for the speaker's word based on the number of times of speech and a speaker identification unit that identifies the speaker based on the determined speech pattern May be included.
  • the voice information about the word may include at least one of the frequency, pitch, formant, speech time, and speech speed of the speech.
  • the comparison unit determines whether the voice information about the word spoken by the speaker is similar to at least one reference voice information stored in the DB, and the similarity estimation unit estimates the similarity according to the result of the determination. If is less than the first reference value is a new reference voice information is generated and stored in the DB, if more than the first reference value can be counted by increasing the number of matching of the reference voice information having a corresponding similarity.
  • the speech pattern determination unit receives a new speech spoken from the speaker and repeatedly performs the process of estimating the similarity. You can decide by pattern.
  • a speech pattern is determined by a speech pattern determination unit by establishing a speech model of a speaker based on speech information corresponding to a similarity having a counted matching count equal to or greater than a second reference value, and the speaker identification unit
  • the person who is the speaker may be identified based on the speech pattern determined for the speech spoken.
  • a computer-readable recording medium having recorded thereon a program for executing the above method on a computer may be provided.
  • a context-based speech model management apparatus and a method of operating the apparatus may be provided.
  • An apparatus for managing a context-based speech model may be linked to a context-based speaker identification system, and the apparatus may include a storage unit for storing individual voice data generated each time a voice from the speaker is received.
  • a similarity estimator extracting each individual voice data from the storage unit and estimating the similarity between the individual voice data and at least one individual selected based on the similarity estimated by the similarity estimator
  • a voice model generator for generating a first voice model of the speaker according to the voice data, determines whether a comparison voice model corresponding to the first voice model exists in a storage unit of the contextual speaker identification system.
  • a speech model is provided to the storage of the contextual speaker identification system and stored.
  • the comparison speech model is defined as the first.
  • a voice model editing unit for replacing the voice model and generating a second voice model by combining the first voice model and the comparison voice model when less than a predetermined reference value, the second voice model being provided to the determination unit and the voice model editing unit. Can be.
  • the context presenting speaker identification system includes a voice receiver for receiving a voice from the speaker, a voice feature extractor for extracting voice characteristics from the received voice, and a context voice model generation for generating a voice model based on the extracted voice characteristics.
  • a speech model extraction unit for extracting a speech model, a speech speech requesting unit for requesting a speaker for a predetermined speech based on the extracted speech model, and a speaker identification for identifying the speaker by comparing the speech spoken from the speaker with the extracted speech model And a predetermined speech utterance is set in advance at a position on a DB in a matrix form of a storage unit corresponding to the generated random number.
  • SOLO can be a word or sentence.
  • the individual voice data includes at least one of a speaker's speech per speech, pitch, formant, speech time, and speech rate, and the context-based speech model management apparatus.
  • the similarity estimating unit may evaluate the similarity between individual voice data for each speaker's speech per speech.
  • the apparatus further includes a period setting unit for setting a management period of the voice model, and when all the voice models are updated within the set management period, the voice model editing unit provides a context presentation type. If the existing matrix voice model DB on the storage of the speaker identification system is maintained and at least one voice model is not updated within the set management period, the voice model editing unit is based on the new first voice model associated with the speaker. Thus, a part of the existing matrix speech model DB may be deleted or maintained.
  • the voice model editing unit deletes at least one unupdated voice model from the matrix-type voice model DB if there is no new first voice model associated with the speaker, and at least one unupdated voice model if the new first voice model exists.
  • the speech model is compared with the new first speech model, and if the difference is within the predetermined range, the speech model editing unit maintains the existing matrix speech model DB on the storage of the contextual speaker identification system. If it is out of range, at least one unupdated voice model may be deleted from the matrix voice model DB.
  • a method of managing a speech model using a context-based speech model management apparatus includes the steps of: (a) generating and storing individual voice data each time a voice from a speaker is received; Extracting each individual voice data and estimating the similarity between the individual voice data when a plurality of voice data are stored; and (c) generating the speaker's first voice model according to the at least one individual voice data selected based on the estimated similarity. (D) determining whether a comparison speech model corresponding to the first speech model exists in the storage of the context-presenting speaker identification system, and if not, the first speech model of the context-presenting speaker identification system.
  • the comparison similarity between the first speech model and the comparison speech model is estimated through the similarity estimator. And (e) replacing the comparison speech model with the first speech model when the comparison similarity is greater than or equal to a predetermined reference value, and generating the second speech model by combining the first speech model and the comparison speech model if less than the predetermined reference value. It may include a step. In addition, steps (d) and (e) may be repeatedly performed for the second voice model.
  • the method according to an embodiment of the present invention further comprises the step of setting the management period of the voice model by the period setting unit of the above-described device, if all the voice model is updated within the set management period, the device
  • the voice model editing unit of the voice model editing unit maintains an existing matrix voice model DB on the storage unit of the context presenting speaker identification system, and if at least one voice model is not updated within the set management period, the voice model editing unit is associated with the speaker. Based on the new first speech model, a part of the existing matrix speech model DB may be deleted or maintained.
  • the voice model editing unit deletes at least one unupdated voice model from the matrix-type voice model DB if there is no new first voice model associated with the speaker, and at least one unupdated voice model if the new first voice model exists.
  • the speech model is compared with the new first speech model, and if the difference is within the predetermined range, the speech model editing unit maintains the existing matrix-type speech model DB on the storage of the contextual speaker identification system and maintains the range. If out of the at least one voice model can be deleted from the speech model DB of the unupdated voice model.
  • a computer-readable recording medium having recorded thereon a program for executing the above method on a computer may be provided.
  • accuracy and reliability of speaker recognition and authentication by extracting and matching a user's speech pattern eg, speech characteristics according to speech
  • a user's speech pattern eg, speech characteristics according to speech
  • the speaker's voice may change continuously or for a period of time by temporal factors (e.g., aging, etc.), environmental factors (e.g., concert halls, etc.)
  • temporal factors e.g., aging, etc.
  • environmental factors e.g., concert halls, etc.
  • the speech model can be updated by updating the speech model that can be used in the speaker identification (or speech authentication) system based on the speaker's speech characteristics and a predetermined period of time. (up to date) to manage.
  • FIG. 1 is a view showing a conventional speaker identification system.
  • FIG. 2 is a diagram illustrating a conventional context (word) presentation speaker identification system.
  • 3 shows a conventional leveling system for speech.
  • FIG. 4 is a flowchart illustrating a method for identifying a speaker based on a spoken word according to an embodiment of the present invention.
  • FIG. 5 is a flowchart illustrating a specific speaker identification method according to an embodiment of the present invention.
  • FIG. 6 is a block diagram illustrating an apparatus for identifying a speaker based on a spoken word according to an embodiment of the present invention.
  • FIG. 7 is a diagram illustrating a leveling system for speech according to an embodiment of the present invention.
  • FIG. 8 is a view showing a leveling process based on the speaker's utterance similarity according to an embodiment of the present invention.
  • FIG. 9 is a block diagram of an apparatus for context-based speech model management according to an embodiment of the present invention.
  • FIG. 10 is a block diagram of a context-based speech model management apparatus and a context-presenting speaker identification system interoperable with the context-based speech model management apparatus according to an embodiment of the present invention.
  • FIG 11 shows an example of the operation of the contextual speaker identification system.
  • FIG. 12 is a flowchart illustrating an operation example of a context-based speech model management apparatus according to an embodiment of the present invention.
  • FIG. 13 illustrates an operation example of a context-based speech model management apparatus according to another embodiment of the present invention.
  • FIG. 14 is a flowchart illustrating a voice model management method using a context-based voice model management apparatus according to an embodiment of the present invention.
  • a method and apparatus for identifying a speaker based on a spoken word can be provided.
  • a method for identifying a speaker based on a spoken word may include receiving a spoken voice from a speaker, extracting a word included in the received voice, and voice information of the word, in advance. Searching for a word in the database (DB), if the word does not exist in the DB, adds the word and voice information of the word to the DB, and if the word exists in the DB, the voice information of the spoken word and Comparing the respective reference voice information stored in the DB, estimating the similarity according to the comparison with the respective reference voice information, and the words of the speaker based on the number of times the voice information corresponding to the estimated similarity is received. Determining an utterance pattern for and identifying the speaker based on the determined utterance pattern.
  • the voice information of the word may include at least one of a frequency, pitch, formant, speech time, and speech speed of the speech.
  • the similarity is determined according to the determination result.
  • the estimated similarity is less than the first reference value
  • new reference voice information is generated and stored in the DB.
  • the estimated similarity is greater than or equal to the first reference value, the number of matching of the reference voice information having the corresponding similarity may be increased and counted. .
  • a new voice spoken by the speaker is received and the similarity is repeatedly estimated. If it is equal to or greater than the second reference value, it may be determined as a speech pattern for the speaker's word.
  • the speech pattern is determined by establishing a speech model of the speaker based on the speech information corresponding to the similarity having the number of matching counts greater than or equal to the second reference value.
  • the identifying step it may be identified who the speaker of the spoken voice is based on the speech pattern determined through the above-described steps with respect to the spoken voice.
  • An apparatus for identifying a speaker based on a spoken word includes a voice receiver for receiving a spoken voice from a speaker, information contained in the received voice, and information extracted to extract voice information of the word.
  • the information retrieval unit which searches for words in a pre-built database (DB). If a word does not exist in the DB, the word and voice information of the word are added to the DB.
  • DB pre-built database
  • a comparison unit for comparing the voice information of the word with each reference voice information stored in the DB, a similarity estimation unit for estimating the similarity according to comparison with each reference voice information, and receiving voice information corresponding to the estimated similarity
  • a speech pattern determining unit that determines a speech pattern for the speaker's word based on the number of times of speech and a speaker identification unit that identifies the speaker based on the determined speech pattern May be included.
  • the voice information about the word may include at least one of the frequency, pitch, formant, speech time, and speech speed of the speech.
  • the comparison unit determines whether the voice information about the word spoken by the speaker is similar to at least one reference voice information stored in the DB, and the similarity estimation unit estimates the similarity according to the result of the determination. If is less than the first reference value is a new reference voice information is generated and stored in the DB, if more than the first reference value can be counted by increasing the number of matching of the reference voice information having a corresponding similarity.
  • the speech pattern determination unit receives a new speech spoken from the speaker and repeatedly performs the process of estimating the similarity. You can decide by pattern.
  • a speech pattern is determined by a speech pattern determination unit by establishing a speech model of a speaker based on speech information corresponding to a similarity having a counted matching count equal to or greater than a second reference value, and the speaker identification unit
  • the person who is the speaker may be identified based on the speech pattern determined for the speech spoken.
  • a computer-readable recording medium having recorded thereon a program for executing the above method on a computer may be provided.
  • a context-based speech model management apparatus and a method of operating the apparatus may be provided.
  • An apparatus for managing a context-based speech model may be linked to a context-based speaker identification system, and the apparatus may include a storage unit for storing individual voice data generated each time a voice from the speaker is received.
  • a similarity estimator extracting each individual voice data from the storage unit and estimating the similarity between the individual voice data and at least one individual selected based on the similarity estimated by the similarity estimator
  • a voice model generator for generating a first voice model of the speaker according to the voice data, determines whether a comparison voice model corresponding to the first voice model exists in a storage unit of the contextual speaker identification system.
  • a speech model is provided to the storage of the contextual speaker identification system and stored.
  • the comparison speech model is defined as the first.
  • a voice model editing unit for replacing the voice model and generating a second voice model by combining the first voice model and the comparison voice model when less than a predetermined reference value, the second voice model being provided to the determination unit and the voice model editing unit. Can be.
  • the context presenting speaker identification system includes a voice receiver for receiving a voice from the speaker, a voice feature extractor for extracting voice characteristics from the received voice, and a context voice model generation for generating a voice model based on the extracted voice characteristics.
  • a speech model extraction unit for extracting a speech model, a speech speech requesting unit for requesting a speaker for a predetermined speech based on the extracted speech model, and a speaker identification for identifying the speaker by comparing the speech spoken from the speaker with the extracted speech model And a predetermined speech utterance is set in advance at a position on a DB in a matrix form of a storage unit corresponding to the generated random number.
  • SOLO can be a word or sentence.
  • the individual voice data includes at least one of a speaker's speech per speech, pitch, formant, speech time, and speech rate, and the context-based speech model management apparatus.
  • the similarity estimating unit may evaluate the similarity between individual voice data for each speaker's speech per speech.
  • the apparatus further includes a period setting unit for setting a management period of the voice model, and when all the voice models are updated within the set management period, the voice model editing unit provides a context presentation type. If the existing matrix voice model DB on the storage of the speaker identification system is maintained and at least one voice model is not updated within the set management period, the voice model editing unit is based on the new first voice model associated with the speaker. Thus, a part of the existing matrix speech model DB may be deleted or maintained.
  • the voice model editing unit deletes at least one unupdated voice model from the matrix-type voice model DB if there is no new first voice model associated with the speaker, and at least one unupdated voice model if the new first voice model exists.
  • the speech model is compared with the new first speech model, and if the difference is within the predetermined range, the speech model editing unit maintains the existing matrix speech model DB on the storage of the contextual speaker identification system. If it is out of range, at least one unupdated voice model may be deleted from the matrix voice model DB.
  • a method of managing a speech model using a context-based speech model management apparatus includes the steps of: (a) generating and storing individual voice data each time a voice from a speaker is received; Extracting each individual voice data and estimating the similarity between the individual voice data when a plurality of voice data are stored; and (c) generating the speaker's first voice model according to the at least one individual voice data selected based on the estimated similarity. (D) determining whether a comparison speech model corresponding to the first speech model exists in the storage of the context-presenting speaker identification system, and if not, the first speech model of the context-presenting speaker identification system.
  • the comparison similarity between the first speech model and the comparison speech model is estimated through the similarity estimator. And (e) replacing the comparison speech model with the first speech model when the comparison similarity is greater than or equal to a predetermined reference value, and generating the second speech model by combining the first speech model and the comparison speech model if less than the predetermined reference value. It may include a step. In addition, steps (d) and (e) may be repeatedly performed for the second voice model.
  • the method according to an embodiment of the present invention further comprises the step of setting the management period of the voice model by the period setting unit of the above-described device, if all the voice model is updated within the set management period, the device
  • the voice model editing unit of the voice model editing unit maintains an existing matrix voice model DB on the storage unit of the context presenting speaker identification system, and if at least one voice model is not updated within the set management period, the voice model editing unit is associated with the speaker. Based on the new first speech model, a part of the existing matrix speech model DB may be deleted or maintained.
  • the voice model editing unit deletes at least one unupdated voice model from the matrix-type voice model DB if there is no new first voice model associated with the speaker, and at least one unupdated voice model if the new first voice model exists.
  • the speech model is compared with the new first speech model, and if the difference is within the predetermined range, the speech model editing unit maintains the existing matrix-type speech model DB on the storage of the contextual speaker identification system and maintains the range. If out of the at least one voice model can be deleted from the speech model DB of the unupdated voice model.
  • a computer-readable recording medium having recorded thereon a program for executing the above method on a computer may be provided.
  • any part of the specification is to “include” any component, this means that it may further include other components, except to exclude other components unless otherwise stated.
  • the terms “... unit”, “module”, etc. described in the specification mean a unit for processing at least one function or operation, which may be implemented in hardware or software or a combination of hardware and software. .
  • a part of the specification is “connected” to another part, this includes not only “directly connected”, but also “connected with other elements in the middle”.
  • FIG. 1 is a view showing a conventional speaker identification system.
  • a conventional speaker identification system first obtains a plurality of voice samples from a speaker (eg, A of FIG. 1) to be identified, extracts characteristic values such as frequency and pitch for each voice, and then overlaps them. The speech is leveled based on the overlapped portion. After leveling, a speech model is established for the speaker. After collecting an acoustic signal such as a human voice, noise can be removed from the collected signal, and the characteristics of the voice signal can be extracted and made into a database. May be referred to. In other words, through the speech model establishment process for the specific speaker (A of FIG. 1), information about the specific speaker's voice may be collected in advance and a DB may be constructed (eg, a blue dashed line box of FIG. 1).
  • a DB may be constructed (eg, a blue dashed line box of FIG. 1).
  • a speech characteristic parameter and the like are extracted and formed in the same manner as the verification target speaker (A of FIG. 1) with respect to a newly input voice of an unspecified speaker (for example, B of FIG.
  • the data is compared with the voice model of the speaker to be confirmed and the predetermined threshold value is exceeded, it is determined that the input voice of the unspecified speaker is the same person as the speaker to be confirmed.
  • the conventional voice comparison method takes a long time, and does not reflect a case where the voice of the speaker to be confirmed is changed by temporal and environmental factors.
  • FIG. 2 is a diagram illustrating a conventional context (word) presentation speaker identification system.
  • Conventional speaker identification systems may be classified into a context (word) fixed type system using a sentence or word designated by a user and a context free form system having no limitation on the pronunciation content of the user.
  • word fixed type system
  • the system efficiency is good, but the security is weak due to the risk of exposure of a given context (word) and the use of illegal methods such as recording impersonating the user.
  • a large amount of training data is required to identify the user, making the system less efficient in terms of time and resource utilization.
  • a context (word) presentation system such as in Figure 2 has emerged.
  • the system asks the user to pronounce a different word or sentence each time, and performs a speech recognition process for the requested word or sentence and After checking whether the text is matched, the speaker's unique feature value is extracted from the pronunciation information of the word or sentence required by the user and compared with the predefined speaker's voice feature value.
  • This process of the context-based presentation system reduces the risk of remembering the user-specified sentences or words or recordings impersonating the user, and in terms of performance, it is possible to achieve the same efficiency as the context-fixed form. This is the advantage.
  • 3 shows a conventional leveling system for speech.
  • the user's voice can be digitized through a sampling process into continuous waveforms.
  • the system samples a plurality of voice data instead of one user voice to generate reference data for speaker identification (identification or authentication), and then common data (eg, normalized data) for the digitized voice data is collected. (Red region in Fig. 3).
  • LPC linear predictive coding
  • MFCC Mel-Frequency Cepstral Coefficients
  • the voice tone generally spoken that is, Frequency and pitch can vary.
  • the voice model configuration based on simply leveled data is a common method according to the user's living environment. Distortion of the characteristic values can rather act as a barrier to accurate speaker identification (identification).
  • FIG. 4 is a flowchart illustrating a method for identifying a speaker based on a spoken word according to an embodiment of the present invention
  • FIG. 5 is a flowchart illustrating a specific speaker identification method according to an embodiment of the present invention.
  • a method for identifying a speaker based on a spoken word includes receiving a spoken voice from a speaker (S110), extracting a word included in the received voice, and voice information of the word. Step S120, searching for a word in a pre-built database DB (S130), if a word does not exist in the DB, adds the word and voice information of the word to the DB, and the word exists in the DB.
  • the estimated similarity may include determining an utterance pattern for the speaker's word based on the number of times voice information corresponding to the signal is received (S160) and identifying a speaker based on the determined utterance pattern (S170).
  • the voice information of the word according to an embodiment of the present invention may include at least one of the frequency, pitch, formant, speech time, and speech speed of the speech.
  • Pitch refers to the pitch of the note.
  • Voice voiced sound
  • All of the oscillation sources have unique vibration characteristics (eg, resonance characteristics).
  • Human articulation organs eg, vocal cords, etc.
  • a resonance characteristic at the moment that changes with the articulation, and the vocal cords can be filtered and expressed according to the resonance characteristics.
  • a particular sound eg, a vowel
  • a plurality of resonance bands exist when the resonance characteristic is expressed.
  • Such a plurality of resonant frequency bands is referred to as a formant.
  • the word and the voice information of the word may be added to the DB.
  • the added voice information may be used as reference data for comparison of voice information when a voice by a speaker is received later as reference voice information.
  • voice information of the spoken word may be compared with each reference voice information stored in the DB. In the comparison step (S140), it may be determined whether the voice information of the word spoken by the speaker is similar to at least one reference voice information stored in the DB.
  • the similarity is estimated according to the result of the above determination, and when the estimated similarity is less than the first reference value, Reference voice information of may be generated and stored in the DB.
  • the estimated similarity information may be included in the voice information and stored together on the DB.
  • the first reference value may be 70% (or 0.7), and the first reference value may be variably set according to a user's setting. Even if the same word is spoken by the same speaker, the voice information may be changed according to the speaker's state and environmental conditions (elements). You need to keep track of your patterns and manage them.
  • the number of matching of the reference voice information having the corresponding similarity may be increased and counted.
  • the speaker is highly likely to speak again in this current speech pattern. That is, as in an embodiment of the present invention, by grasping (collecting) the frequency of the speaker's speech pattern and using the same for speaker recognition (identification), not only can a high level of accuracy and reliability be obtained, but also voice information of the speaker. Can be kept up to date.
  • the reference voice information may be determined as a speech pattern for the speaker's word.
  • This second reference value may, for example, have a value comprised in the range of 5-10.
  • the similarity having the number of matching counts equal to or greater than the second reference value is determined.
  • a speech pattern may be determined by establishing a speaker's speech model based on the corresponding speech information.
  • reference voice information having a counted matching count greater than or equal to the second reference value may be established as the speaker's voice model, and thus a speech pattern may be determined.
  • the speaker may be identified based on the speech pattern determined through the above-described steps with respect to the spoken speech.
  • the reference voice information exceeding the first reference value and the second reference value may be determined by the speech pattern of the speaker to be confirmed, and if the voice is input (received), the speaker who uttered the voice according to the determined speech pattern is confirmed. Whether it is the same person or another person as the target speaker can be identified quickly and accurately.
  • FIG. 6 is a block diagram illustrating an apparatus for identifying a speaker based on a spoken word according to an embodiment of the present invention.
  • the apparatus 1000 for identifying a speaker based on a spoken word includes a voice receiver 1100 for receiving a spoken voice from a speaker, a word included in the received voice, and a voice for a word.
  • Information extraction unit 1200 for extracting information information search unit 1300 for searching for words in a pre-built database (DB), and if words do not exist in the DB, adds words and voice information of the words to the DB. If there is a word in the DB, a comparison unit 1400 for comparing the voice information of the spoken word with each reference voice information stored in the DB, and estimates the similarity according to the comparison with each reference voice information.
  • DB pre-built database
  • the similarity estimation unit 1500 for determining the speech pattern corresponding to the speaker's word based on the number of times voice information corresponding to the estimated similarity is received, and based on the determined speech pattern.
  • a speaker identification unit 1700 for identifying a speaker may be included.
  • the voice information about the word may include at least one of the frequency, pitch, formant, speech time, and speech speed of the speech.
  • tag information eg, U000
  • U000 which is an identifier for the first user
  • Voice information for example, vector property information, etc.
  • V_Inof000 for the data may be stored and managed in the DB in association with the tag information U000.
  • the speech matching count information as described above may be stored and managed together with the tag information U000 and the voice information V_Inof000. (E.g., "2" in FIG. 6).
  • the tag information for example, U000
  • the voice information V_Inof003 for the voice of the spoken "bank” are spoken matching times. It can be stored and managed with the information (eg, "7" in FIG. 6).
  • Tag information of the second user (second speaker) may be assigned to U011, for example.
  • the comparator 1400 determines whether the voice information of the word spoken by the speaker is similar to at least one reference voice information stored in the DB, and the similarity estimation unit 1500. The similarity is estimated according to the result of the determination. If the estimated similarity is less than the first reference value, new reference voice information is generated and stored in the DB. If the estimated similarity is greater than or equal to the first reference value, the number of matching of the reference voice information having the corresponding similarity is determined. May be increased and counted.
  • the speech pattern determination unit 1600 receives a new voice spoken from the speaker and repeatedly performs the process of estimating the similarity. It can be determined by the speech pattern for the word of.
  • a speech pattern is determined by the speech pattern determining unit 1600 by establishing a speech model of a speaker based on speech information corresponding to a similarity having a number of matching counts equal to or greater than a second reference value.
  • the speaker identification unit 1700 may identify who is the speaker based on the speech pattern determined for the spoken voice.
  • FIG. 7 is a diagram illustrating a leveling system for speech according to an embodiment of the present invention.
  • the system may not know about the user's everyday speech pattern, and may not know about the state of speech. Accordingly, for each voice spoken by the user, a separate reference voice information DB for each voice property is constructed. Thereafter, the newly input voice is distinguished from the reference voice information DB constructed after the characteristic classification, and the characteristic similarity is determined. If the reference voice value is equal to or greater than a predetermined reference value (for example, the third reference value), the newly input voice other than the compared reference voice information DB The number of matching counts of the reference voice information DB is increased by 1 so as to form a similar reference voice information DB for the user and to analyze the user voice similarity pattern. In addition, when the feature similarity of speech is less than or equal to the third reference value, a new DB may be generated as a new reference speech information value.
  • a predetermined reference value for example, the third reference value
  • a DB with a high similarity over a predetermined reference value for example, the fourth reference value
  • the corresponding reference voice information is used. Recognizes as a speech pattern for a specific context (word), and uses the DB of the reference speech information as basic speech data for establishing a speaker speech model. This effectively eliminates distortion errors for the speaker's various voice state transitions and can normalize the voice pattern for the context (word) of a particular speaker.
  • FIG. 8 is a view showing a leveling process based on the speaker's utterance similarity according to an embodiment of the present invention.
  • the voice graph of FIG. 8 has a similarity, and thus, it can be seen that not much difference occurs in each voice data.
  • the speech model may be established based on the common content (eg, the hatched region of FIG. 8), and the speaker identification may be performed by comparing and matching a newly input unspecified speaker speech.
  • a difference between the maximum value and the minimum value of the corresponding voice data other than the common area may be applied as an error range, and the input comparison value converges within the error range.
  • the speaker who uttered the voice may be recognized as a legitimate speaker (ie, the same person) corresponding to the reference voice information DB.
  • the above-described method may be applied. Therefore, with respect to the apparatus, the description of the same contents as those of the above-described method is omitted.
  • the method for identifying a speaker based on the spoken words described above can be written in a program executable in a computer, and can be implemented in a general-purpose digital computer operating the program using a computer readable medium.
  • the structure of the data used in the above-described method can be recorded on the computer-readable medium through various means.
  • a recording medium for recording an executable computer program or code for performing various methods of the present invention should not be understood to include temporary objects, such as carrier waves or signals.
  • the computer readable medium may include a storage medium such as a magnetic storage medium (eg, a ROM, a floppy disk, a hard disk, etc.), an optical reading medium (eg, a CD-ROM, a DVD, etc.).
  • a general tone of speech that is, Frequency and pitch can vary.
  • time factors eg aging
  • environmental factors eg concert halls, etc.
  • the voice spoken by the user although the voice may be changed in a specific environment and state as described above, the identification of the user's voice using a fixed voice model as in the conventional method is dependent on the user's living environment and the like. Since the possibility of speech fluctuations is not considered at all, reliability in speech recognition may be seriously degraded.
  • FIG. 9 is a block diagram of a context-based speech model management apparatus according to an embodiment of the present invention
  • FIG. 10 is a context-based speech model management apparatus and a context-presenting speaker identification system interoperable with each other according to an embodiment of the present invention.
  • a block diagram of FIG. 11 shows an example of an operation of a contextual speaker identification system.
  • 12 is a flowchart illustrating an operation example of the context-based speech model management apparatus according to an embodiment of the present invention
  • FIG. 13 illustrates an operation example of the context-based speech model management apparatus according to another embodiment of the present invention.
  • the context-based speech model management apparatus 3000 may be interworked with the context-presenting speaker identification system 4000, and the apparatus 3000 is generated whenever a voice from the speaker is received.
  • a similarity estimator extracts each individual voice data from the storage unit 3100 and estimates the similarity between the individual voice data.
  • a speech model generator 3300 for generating a speaker's first speech model based on the at least one individual speech data selected based on the similarity estimated by the similarity estimator 3200, and the contextual presentation speaker identification It is determined whether a comparison speech model corresponding to the first speech model exists in the storage unit 4400 of the system 4000, and if not, the first speech model is identified when the context-presenting speaker is identified.
  • the determination unit 3400 and the determination to provide the storage unit 4400 of the system 4000 and store the same, and if there is a comparison similarity between the first voice model and the comparison voice model, through the similarity estimation unit 3200.
  • the comparison speech model is replaced with the first speech model when the comparison similarity degree, which is a result of estimation by the similarity estimating unit 3200, is greater than or equal to the predetermined reference value.
  • the comparison similarity model is less than the predetermined reference value, the first speech model and the comparison speech model are compared.
  • the voice model editing unit 3500 for generating a second voice model may be included, and the second voice model may be provided again to the determination unit 3400 and the voice model editing unit 3500.
  • the contextual presentation speaker identification system 4000 includes a voice receiver 4100 for receiving a voice from the speaker, a voice feature extractor 4200 for extracting voice characteristics from the received voice, and a voice attribute based on the extracted voice characteristic.
  • a contextual speech model generator 4300 for generating a speech model, a storage unit 4400 in which the generated speech model is stored in a matrix form, a random number generator 4500 for generating a random number to be used for identification of a speaker,
  • a voice model extractor 4600 for extracting a voice model at a position corresponding to the random number generated on the matrix-shaped voice model DB of the storage unit, and a voice speech request for requesting a speaker to make a predetermined speech based on the extracted voice model.
  • a unit 4700 and a speaker identification unit 4800 identifying a speaker by comparing the speech uttered from the speaker with the extracted speech model, and the predetermined speech utterance is a matrix of the storage unit corresponding to the generated random number. It may be a sound of a word or sentence that is preset at a position on a DB of the form.
  • the word 'bank' and a spoken speech model of the word are stored in a matrix DB of the storage unit 4400 in advance, and the user's word 'bank' is spoken for user identification (confirmation) through voice.
  • the voice request unit 4700 may request the user to pronounce the word "bank". Such a request may be presented to the user by voice, picture, message, or the like.
  • the speech model according to an embodiment of the present invention refers to a data set including speech pattern information such as a context and a speaker's pronunciation method for the context.
  • context refers to a particular word (eg, "bank") as well as containing a series of sentences containing the word.
  • the word 'bank' and the spoken speech model of the word may be stored on a matrix position of a predetermined matrix DB.
  • the random number generator 4500 When user voice identification is required, the random number generator 4500 generates a random number, and a word on the matrix position of the matrix DB corresponding to the random number may be presented to the user as a voice speech request target word.
  • the context-presented speech model matrix DB may be configured in the form of NxM (where N and M are the same or different positive integers).
  • NxM where N and M are the same or different positive integers.
  • a context-presented speech model may be constructed as a DB in a 20 ⁇ 5 matrix.
  • the context-based voice model managing apparatus 3000 may communicate with another electronic device included in a network through which the communication unit 3700 may communicate.
  • the apparatus 3000 may communicate with each other while transmitting and receiving data with the communication unit 4900 of the context presenting speaker identification system 4000.
  • the context-based speech model management apparatus 3000 is designed separately from the context-presenting speaker identification system 4000 for convenience of description.
  • the context-based speech model management apparatus 3000 is the context-based speech model identification system ( It may be implemented to constitute a portion of 4000).
  • the communication unit 3700 and 4900 may include a Bluetooth communication module, a BLE (Bluetooth Low Energy) communication module, a near field communication unit, a Wi-Fi communication module, and a Zigbee communication module. , An infrared data association (IrDA) communication module, a Wi-Fi Direct (WFD) communication module, an ultra wideband (UWB) communication module, an Ant + communication module, and the like, but is not limited thereto.
  • IrDA infrare
  • Individual voice data includes at least one of the frequency, pitch, formant, speech time, speech rate of each speaker's speech, and the context-based speech model management apparatus (The similarity estimator 3200 of 3000 may evaluate the similarity between individual voice data for each speaker's speech.
  • Pitch refers to the pitch of the note.
  • Voice voiced sound
  • All of the oscillation sources have unique vibration characteristics (eg, resonance characteristics).
  • Human articulation organs eg, vocal cords, etc.
  • Human articulation organs also have a resonance characteristic at the moment that changes with the articulation, and the vocal cords can be filtered and expressed according to the resonance characteristics. Looking at the frequency spectrum of a particular sound (eg, a vowel), it can be seen that a plurality of resonance bands exist when the resonance characteristic is expressed. Such a plurality of resonant frequency bands is referred to as a formant.
  • a predetermined word eg, “bank”
  • a specific speaker eg, user B of FIG. 11
  • the spoken voice is received by the voice receiver 4100.
  • Speech characteristics can be extracted.
  • the extracted voice characteristic may be composed of individual voice data.
  • a voice for each speaker's speech eg, a voice spoken two weeks ago for a "bank", a voice spoken one week ago, Similarity between individual voice data for each of the voices uttered yesterday
  • a voice for each speaker's speech eg, a voice spoken two weeks ago for a "bank”, a voice spoken one week ago, Similarity between individual voice data for each of the voices uttered yesterday
  • At least one piece of individual voice data selected based on the similarity estimated by the similarity estimator 3200 may generate a first voice model of the speaker (for example, user B of FIG. 11).
  • the determination unit 3400 determines whether a comparison speech model corresponding to the first speech model exists in the storage unit 4400 of the contextual presentation speaker identification system 4000. If not present, the first speech model is provided to the storage unit 4400 of the context presenting speaker identification system 4000 and stored therein, and if present, the comparison similarity between the first speech model and the comparative speech model is similarity estimating unit ( 3200 may be estimated.
  • the voice model editing unit 3500 replaces the comparison voice model with the first voice model, and the value is less than the predetermined reference value.
  • the second voice model may be generated by combining the first voice model and the comparison voice model.
  • This predetermined reference value may be at least 51% (or 0.51). Preferably at least 75% (or 0.75). It is possible to edit (replace) a reliable voice model or the like above the predetermined reference value.
  • the second voice model may be provided to the determination unit 3400 and the voice model editing unit 3500 again, and the determination unit 3400 may include the second voice in the storage unit 4400 of the context presenting speaker identification system 4000. It is determined whether there is a comparison speech model corresponding to the model (newly reproduced speech model), and if not, the second speech model is provided to the storage unit 4400 of the contextual speaker identification system 4000 for storage. And, if present, the comparison similarity between the second speech model and the comparison speech model may be estimated by the similarity estimator 3200. This process can be performed repeatedly. Through such an iterative process, a speech model optimized for the speaker's current speech state may be stored and managed in the matrix DB.
  • the apparatus further includes a period setting unit 3600 for setting a management period of the voice model, and when all the voice models are updated within the set management period, the voice model editing unit ( In 3500, the speech model DB of the existing matrix form on the storage unit 4400 of the context presenting speaker identification system 4000 is maintained, and when at least one speech model is not updated within a set management period, the speech model editing unit is performed. At 3500, a part of the existing matrix speech model DB based on the new first speech model associated with the speaker may be deleted or maintained.
  • the management cycle according to an embodiment of the present invention may be a period of one day, one week, or one month, and may be individually set according to a user's intention.
  • management cycle For example, for certain words ("banks"), you can set up a management cycle to manage the voice model at weekly intervals, a particular user has a management cycle at daily intervals, and another user has a month.
  • the management cycle for each user may be individually set to have a management cycle as a period.
  • the voice model editing unit 3500 deletes at least one unupdated voice model from the matrix-type voice model DB if a new first voice model related to the speaker does not exist, and if a new first voice model exists, the voice model editor 3500 is not updated. Compare the at least one speech model with the new first speech model, and if the comparison results in a difference within the predetermined range, the speech model editor 3500 in the existing matrix form on the storage of the contextual presentation speaker identification system.
  • the voice model DB is maintained, and if it is outside the above-mentioned range, the at least one unupdated voice model can be deleted from the matrix-type voice model DB.
  • the allowable range of the difference value representing the aforementioned difference may be greater than 0 and 15% (or 0.15), depending on whether or not there is a difference within the range, the specific speech model (eg, The voice model 8) of FIG. 13 may be kept or deleted.
  • the at least one updated speech model eg, speech model 8 of FIG. 13.
  • FIG. 14 is a flowchart illustrating a voice model management method using a context-based voice model management apparatus according to an embodiment of the present invention.
  • a method of managing a speech model using a context-based speech model management apparatus includes (a) generating and storing individual speech data each time a speech from a speaker is received (S210), ( b) when a plurality of individual voice data are stored, extracting each individual voice data to estimate similarity between the individual voice data (S220), and (c) the speaker according to at least one individual voice data selected based on the estimated similarity.
  • the model is provided to the storage unit of the contextual speaker identification system to be stored, and if there is a comparison similarity between the first speech model and the comparison speech model, (S) and (e) if the comparison similarity is greater than or equal to a predetermined reference value, replaces the comparison speech model with a first speech model, and if the comparison similarity is less than or equal to the predetermined reference value, combines the first speech model and the comparison speech model to form a second comparison model.
  • Generating a voice model may include a step (S250).
  • steps (d) S240 and (e) S250 described above with respect to the second voice model may be repeatedly performed.
  • the method for managing a voice model may further include setting a management cycle of the voice model by the period setting unit of the aforementioned context-based voice model management apparatus (S10).
  • the setting of the management period may be performed before S210 or may be performed such that the management period is set at any time by the user.
  • the voice model editing unit 3500 of the apparatus 3000 may use the existing matrix model voice model DB on the storage unit of the contextual speaker identification system 4000. In this case, if at least one voice model is not updated within the set management period, the voice model editing unit 3500 performs a part of the existing matrix voice model DB based on the new first voice model associated with the speaker. Can be deleted or maintained.
  • the voice model editing unit 3500 deletes at least one unupdated voice model from the matrix-type voice model DB if a new first voice model related to the speaker does not exist, and if a new first voice model exists, the voice model editor 3500 is not updated. Comparing the at least one speech model with the new first speech model, and if the difference is within a predetermined range, the speech model editing unit 3500 forms an existing matrix on the storage unit of the contextual presentation speaker identification system 4000. If the speech model DB of is maintained and out of range, at least one un-updated speech model can be deleted from the matrix-type speech model DB.
  • the above-described content of the context-based speech model management apparatus may be applied. Therefore, with regard to the operation method, descriptions of the same contents as those of the above-described context-based voice model management apparatus are omitted.
  • the above-described method of operating the context-based speech model management apparatus may be written as a program executable on a computer, and may be implemented in a general-purpose digital computer operating the program using a computer readable medium.
  • the structure of the data used in the above-described method can be recorded on the computer-readable medium through various means.
  • a recording medium for recording an executable computer program or code for performing various methods of the present invention should not be understood to include temporary objects, such as carrier waves or signals.
  • the computer readable medium may include a storage medium such as a magnetic storage medium (eg, a ROM, a floppy disk, a hard disk, etc.), an optical reading medium (eg, a CD-ROM, a DVD, etc.).

Abstract

One embodiment of the present invention may provide a method for identifying an utterer on the basis of an uttered word and an apparatus therefor. Further, an apparatus for managing a voice model on the basis of context according to one embodiment of the present invention may interwork with a text-prompted utterer identification system. The apparatus and a method thereof may be configured such that an individual voice datum generated whenever a voice is received from an utterer is stored in a storage unit, and when multiple individual voice data are stored in the storage unit, the respective individual voice data are extracted from the storage unit, the similarity between the individual voice data is estimated so as to generate a voice model, and then the voice model is managed on the basis of the context of a user's utterance.

Description

발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치, 문맥 기반 음성 모델 관리 장치 및 그 방법Method and apparatus for identifying speaker based on spoken words, apparatus for context-based speech model management and method
본 발명은 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치에 관한 것으로, 더욱 상세하게는 발화된 단어에 기초하여 화자(예컨대, 장치의 사용자)의 음성 특성을 파악하고, 파악된 음성 특성에 따라 생성된 데이터베이스(DB)에 저장된 음성 특성과 비교하여 유사도가 높은 음성 특성에 상응하는 단어의 발화 패턴이 화자의 최신화된 발화 패턴인 것으로 결정되는 방법 및 그 장치에 관한 것이다.The present invention relates to a method and apparatus for identifying a speaker based on a spoken word, and more particularly, to grasp a voice characteristic of a speaker (for example, a user of the device) based on the spoken word, The present invention relates to a method and apparatus for determining that a speech pattern of a word corresponding to a speech characteristic having a high similarity compared to the speech characteristic stored in a database (DB) generated according to the characteristic is a speaker's updated speech pattern.
또한, 본 발명은 문맥 기반 음성 모델 관리 장치 및 그 장치의 동작 방법에 관한 것으로, 더욱 상세하게는 음성 인증 시스템에서 사용될 수 있는 음성 모델을 문맥에 기반한 화자의 발화 특성, 미리 설정된 소정의 기간 간격으로 갱신(update)함으로써 음성 모델을 관리하기 위한 장치 및 그 장치의 동작 방법에 관한 것이다. The present invention also relates to a context-based speech model management apparatus and a method of operating the apparatus, and more particularly, to a speech model that can be used in a speech authentication system at a context-based speaker's speech characteristics and at predetermined predetermined intervals. An apparatus for managing a voice model by updating and a method of operating the apparatus.
생체 인식 방법에서 음성은 타인의 모방과 녹취/재생에 취약하며 사용자의 발음 상태, 시간에 따라 수시로 변화할 수 있어 인식과 인증 수단으로써 사용에 제약이 있을 수 있다. 하지만, 음성은 기계와 사람의 인터페이스로 최적의 조건을 갖추고 있어 그 사용범위가 점차 넓어지고 있는 추세이다.In the biometric method, the voice is vulnerable to imitation and recording / playback of others, and may change from time to time depending on the pronunciation state and time of the user, and thus may be restricted in use as a means of recognition and authentication. However, voice is equipped with the optimum conditions of the interface between the machine and human beings, the use range is gradually increasing.
현재의 기계와 사람의 인터페이스로 사용되는 음성 명령과 관련하여 적법한 사용자 본인임을 정확하게 인식, 인증하기 위한 수단으로 화자의 음성과 더불어 홍채, 지문, 비밀번호 등 여타의 인증 수단을 병행하여 사용하도록 하고 있어서 음성만을 통한 인증의 효율성을 저해하고 있다. As a means for accurately recognizing and authenticating a legitimate user in relation to the voice command used as the interface between the current machine and a person, the voice of the speaker and other authentication means such as iris, fingerprint, and password are used in parallel. It is hampering the effectiveness of authentication through a bay.
기존의 화자 식별(인식)은 사용자가 발화한 모든 음성을 기준하여 공통적인 특징 요소를 데이터화하여 사용자를 인식하는 방법을 취함으로써 화자에 대한 인식률 기준을 높이는데 한계가 존재하였다.The existing speaker identification (recognition) has a limitation in raising the recognition rate standard for the speaker by taking a method of recognizing the user by data-forming common feature elements based on all voices spoken by the user.
또한, 이러한 기존의 화자 식별 방법은 화자를 정확하게 식별하기 위하여 꽤 많은 시간이 소요된다는 점에서 식별(인증)정보 이용의 즉시성을 필요로 하는 사용자에게는 많은 불편을 초래하였다.In addition, this conventional speaker identification method has caused a lot of inconvenience for the user who needs the instantaneous use of identification (authentication) information in that it takes quite a long time to accurately identify the speaker.
한편, 화자(speaker)의 음성은 영구적이지 않으며, 시간이 흐름에 따른 발성 근육의 노화, 생활 환경(예컨대, 지역, 업무장소 등)의 변화, 건강 상태의 변화(예컨대, 감기의 발병 등) 등의 다양한 요인에 따라 일시적으로 또는 지속적이고 장기적으로 변화한다.On the other hand, the speaker's voice is not permanent, and the aging of the vocal muscles over time, changes in the living environment (e.g., area, work place, etc.), changes in the state of health (e.g., the development of a cold, etc.) Depending on various factors, it may change temporarily or continuously and over time.
이처럼 화자의 음성의 영구성이 보장되지 않는 상태에서 음성을 통한 화자 확인또는 식별을 하기 위하여는 화자의 음성 변화에 따라 화자 확인 또는 인증에 사용될 음성 모델도 같이 갱신 되어야 할 필요성이 있다.Thus, in order to identify or identify a speaker through voice in a state where the speaker's voice is not guaranteed, it is necessary to update the voice model to be used for speaker verification or authentication according to the speaker's voice change.
종래에는 이러한 사용자의 화법 상의 다양성을 반영하기 위하여, 사용자의 악센트 등을 검출하여 특정의 사용자를 구분하는 방식 등에 대하여 연구되었다. 그러나 이러한 종래의 음성 인식 방식들은 시간 또는 환경에 따라 변화하는 사용자의 음성을 효과적으로 추적, 관리할 수 없다는 단점이 존재한다. 다시 말해서, 종래의 음성 인식 방법 또는 음성 모델을 관리하기 위한 방법은 화자가 놓여진 환경에 대한 고려 없이, 단순히 화자의 음성 특성 분석만을 통하여 화자에 대한 음성 모델을 변경하는 정도에 그쳤다. In the related art, in order to reflect such a diversity of speech of a user, a method of classifying a specific user by detecting an accent of the user and the like has been studied. However, these conventional speech recognition methods have a disadvantage in that they cannot effectively track and manage the user's voice that changes with time or environment. In other words, the conventional speech recognition method or the method for managing the speech model merely changes the speech model for the speaker by analyzing the speaker's speech characteristics without considering the environment in which the speaker is placed.
음성을 통한 다양한 전자기기의 제어 방식의 출현 및 보급에 따라, 사용자의 음성을 정확하게 인식(식별)하고, 그에 따른 적절한 동작(예컨대, 사용자 인증 등)을 수행하게 하기 위한 최신화된 음성 모델의 관리가 필요하다.With the emergence and dissemination of various control methods of electronic devices through voice, management of modernized voice models to accurately recognize (identify) the user's voice and perform appropriate actions (eg, user authentication, etc.) accordingly. Is needed.
본 발명은 전술한 문제점에 대한 일 대응으로써 안출된 것으로, 화자에 대한 음성 인식, 화자 식별(예컨대, 인증 등)에 대한 정확도를 보다 높여 음성 인식, 인증에 대한 실효성을 강화하고자 한다. The present invention has been made as a countermeasure to the above-described problem, and is intended to enhance the effectiveness of speech recognition and authentication by increasing the accuracy of speech recognition and speaker identification (eg, authentication, etc.) for the speaker.
다시 말해서, 본 발명은 화자의 음성 톤(tone)이 화자의 감정, 발화 시의 주변 환경(예컨대, 소음 등), 화자의 건강상태(예컨대, 목감기 발병 등) 등에 따라 일시적으로 또는 일정 기간 동안 변화될 수 있다는 점에서, 화자의 식별 과정에서 이러한 음성의 변화 가능성을 반영하여 식별 정확도를 보다 높이기 위한 방법 및 그 장치를 제공하고자 한다.In other words, the present invention can be performed temporarily or for a period of time depending on the speaker's voice tone, depending on the speaker's emotion, the surrounding environment (e.g., noise, etc.), the speaker's state of health (e.g., the development of a throat, etc.). In order to be changed, the present invention is to provide a method and apparatus for improving identification accuracy by reflecting the possibility of such a voice change in the speaker's identification process.
또한, 전술한 문제점에 대한 일 대응안으로써 안출된 것으로, 음성 인증 시스템의 일 구현 양상인 문맥(단어) 제시형 시스템에서 활용될 수 있는 사용자의 문맥(단어) 음성모델이 포함된 매트릭스 DB에서 문맥(단어)과 관련하여 화자로부터 입력받은 음성의 변화 유무, 변화의 정도 등을 고려하여 해당 사용자의 문맥(단어) 음성모델을 갱신하기 위한 방법 및 그 장치를 제공하고자 한다.In addition, as a countermeasure to the above-mentioned problem, the context in the matrix DB including the user's context (word) speech model that can be utilized in the context (word) presentation system that is an implementation aspect of the voice authentication system The present invention provides a method and apparatus for updating a user's context (word) speech model in consideration of the presence or absence of a change in the voice input from a speaker and the degree of change.
본 발명의 일 실시예로써, 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치가 제공될 수 있다. In one embodiment of the present invention, a method and apparatus for identifying a speaker based on a spoken word can be provided.
본 발명의 일 실시예에 따른 발화된 단어에 기초하여 화자를 식별하기 위한 방법은 화자로부터 발화된 음성을 수신하는 단계, 수신된 음성에 포함된 단어 및 단어에 대한 음성정보를 추출하는 단계, 미리 구축된 데이터베이스(DB)에서 단어를 검색하는 단계, DB에 단어가 존재하지 않는 경우에는 단어 및 단어에 대한 음성정보를 DB에 추가하고, DB에 단어가 존재하는 경우에는 발화된 단어의 음성정보와 DB 상에 저장되어 있는 각각의 참조 음성정보를 비교하는 단계, 각각의 참조 음성정보와의 비교에 따른 유사도를 추정하는 단계, 추정된 유사도에 상응하는 음성정보가 수신되는 횟수에 기초하여 화자의 단어에 대한 발화 패턴을 결정하는 단계 및 결정된 발화 패턴에 기초하여 화자를 식별하는 단계를 포함할 수 있다. According to an embodiment of the present invention, a method for identifying a speaker based on a spoken word may include receiving a spoken voice from a speaker, extracting a word included in the received voice, and voice information of the word, in advance. Searching for a word in the database (DB), if the word does not exist in the DB, adds the word and voice information of the word to the DB, and if the word exists in the DB, the voice information of the spoken word and Comparing the respective reference voice information stored in the DB, estimating the similarity according to the comparison with the respective reference voice information, and the words of the speaker based on the number of times the voice information corresponding to the estimated similarity is received. Determining an utterance pattern for and identifying the speaker based on the determined utterance pattern.
본 발명의 일 실시예에 따른 단어에 대한 음성정보에는 음성의 주파수, 피치(pitch), 포먼트(formant), 발화시간, 발화속도 중 적어도 하나가 포함될 수 있다. The voice information of the word according to an embodiment of the present invention may include at least one of a frequency, pitch, formant, speech time, and speech speed of the speech.
또한, 전술한 비교하는 단계에서는 화자로부터 발화된 단어에 대한 음성정보가 DB 상에 저장되어 있는 적어도 하나의 참조 음성정보와 유사한지 여부를 판단하고, 유사도를 추정하는 단계에서는 판단의 결과에 따라 유사도가 추정되며, 추정된 유사도가 제 1 기준값 미만인 경우에는 신규의 참조 음성정보가 생성되어 DB에 저장되고, 제 1 기준값 이상인 경우에는 해당 유사도를 갖는 참조 음성정보의 매칭 횟수가 증가되어 카운팅될 수 있다. In the above comparing step, it is determined whether or not the voice information of the word spoken by the speaker is similar to at least one reference voice information stored in the DB, and in estimating the similarity, the similarity is determined according to the determination result. When the estimated similarity is less than the first reference value, new reference voice information is generated and stored in the DB. When the estimated similarity is greater than or equal to the first reference value, the number of matching of the reference voice information having the corresponding similarity may be increased and counted. .
본 발명의 일 실시예에 따른 화자의 단어에 대한 발화 패턴을 결정하는 단계에서는 카운팅된 매칭 횟수가 제 2 기준값 미만인 경우에는 화자로부터 발화된 신규의 음성이 수신되어 유사도가 추정되는 과정이 반복적으로 수행되도록 하고, 제 2 기준값 이상인 경우에는 화자의 단어에 대한 발화 패턴으로 결정할 수 있다. In the step of determining a speech pattern for the speaker's word according to an embodiment of the present invention, when the number of matching matches is less than the second reference value, a new voice spoken by the speaker is received and the similarity is repeatedly estimated. If it is equal to or greater than the second reference value, it may be determined as a speech pattern for the speaker's word.
또한, 본 발명의 일 실시예에 따른 발화 패턴을 결정하는 단계에서는 제 2 기준값 이상의 카운팅된 매칭 횟수를 갖는 유사도에 상응하는 음성정보에 기초하여 화자의 음성 모델이 수립됨으로써 발화 패턴이 결정되고, 화자를 식별하는 단계에서는 발화된 음성에 대하여 전술한 단계를 통하여 결정된 발화 패턴을 기준으로 발화 음성의 화자가 누구인지 여부가 식별될 수 있다. In the determining of the speech pattern according to an embodiment of the present invention, the speech pattern is determined by establishing a speech model of the speaker based on the speech information corresponding to the similarity having the number of matching counts greater than or equal to the second reference value. In the identifying step, it may be identified who the speaker of the spoken voice is based on the speech pattern determined through the above-described steps with respect to the spoken voice.
본 발명의 일 실시예에 따른 발화된 단어에 기초하여 화자를 식별하기 위한 장치에는 화자로부터 발화된 음성을 수신하는 음성수신부, 수신된 음성에 포함된 단어 및 단어에 대한 음성정보를 추출하는 정보추출부, 미리 구축된 데이터베이스(DB)에서 단어를 검색하는 정보검색부, DB에 단어가 존재하지 않는 경우에는 단어 및 단어에 대한 음성정보를 DB에 추가하고, DB에 단어가 존재하는 경우에는 발화된 단어의 음성정보와 DB 상에 저장되어 있는 각각의 참조 음성정보를 비교하는 비교부, 각각의 참조 음성정보와의 비교에 따른 유사도를 추정하는 유사도추정부, 추정된 유사도에 상응하는 음성정보가 수신되는 횟수에 기초하여 화자의 단어에 대한 발화 패턴을 결정하는 발화패턴결정부 및 결정된 발화 패턴에 기초하여 화자를 식별하는 화자식별부가 포함될 수 있다. An apparatus for identifying a speaker based on a spoken word according to an embodiment of the present invention includes a voice receiver for receiving a spoken voice from a speaker, information contained in the received voice, and information extracted to extract voice information of the word. The information retrieval unit which searches for words in a pre-built database (DB). If a word does not exist in the DB, the word and voice information of the word are added to the DB. A comparison unit for comparing the voice information of the word with each reference voice information stored in the DB, a similarity estimation unit for estimating the similarity according to comparison with each reference voice information, and receiving voice information corresponding to the estimated similarity A speech pattern determining unit that determines a speech pattern for the speaker's word based on the number of times of speech and a speaker identification unit that identifies the speaker based on the determined speech pattern May be included.
또한, 단어에 대한 음성정보에는 음성의 주파수, 피치(pitch), 포먼트(formant), 발화시간, 발화속도 중 적어도 하나가 포함될 수 있다. In addition, the voice information about the word may include at least one of the frequency, pitch, formant, speech time, and speech speed of the speech.
비교부에서는 화자로부터 발화된 단어에 대한 음성정보가 DB 상에 저장되어 있는 적어도 하나의 참조 음성정보와 유사한지 여부를 판단하고, 유사도추정부에서는 판단의 결과에 따라 유사도가 추정되며, 추정된 유사도가 제 1 기준값 미만인 경우에는 신규의 참조 음성정보가 생성되어 DB에 저장되고, 제 1 기준값 이상인 경우에는 해당 유사도를 갖는 참조 음성정보의 매칭 횟수가 증가되어 카운팅될 수 있다. The comparison unit determines whether the voice information about the word spoken by the speaker is similar to at least one reference voice information stored in the DB, and the similarity estimation unit estimates the similarity according to the result of the determination. If is less than the first reference value is a new reference voice information is generated and stored in the DB, if more than the first reference value can be counted by increasing the number of matching of the reference voice information having a corresponding similarity.
발화패턴결정부에서는 카운팅된 매칭 횟수가 제 2 기준값 미만인 경우에는 화자로부터 발화된 신규의 음성이 수신되어 유사도가 추정되는 과정이 반복적으로 수행되도록 하고, 제 2 기준값 이상인 경우에는 화자의 단어에 대한 발화 패턴으로 결정할 수 있다. If the counted matching count is less than the second reference value, the speech pattern determination unit receives a new speech spoken from the speaker and repeatedly performs the process of estimating the similarity. You can decide by pattern.
본 발명의 일 실시예에 따르면, 제 2 기준값 이상의 카운팅된 매칭 횟수를 갖는 유사도에 상응하는 음성정보에 기초하여 화자의 음성 모델이 수립됨으로써 발화 패턴이 발화패턴결정부에 의하여 결정되고, 화자식별부에서는 발화된 음성에 대하여 결정된 발화 패턴을 기준으로 화자가 누구인지 여부가 식별될 수 있다.According to one embodiment of the present invention, a speech pattern is determined by a speech pattern determination unit by establishing a speech model of a speaker based on speech information corresponding to a similarity having a counted matching count equal to or greater than a second reference value, and the speaker identification unit In, the person who is the speaker may be identified based on the speech pattern determined for the speech spoken.
한편, 본 발명의 일 실시예로써, 전술한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 제공될 수 있다.Meanwhile, as an embodiment of the present invention, a computer-readable recording medium having recorded thereon a program for executing the above method on a computer may be provided.
또한, 본 발명의 일 실시예로써, 문맥 기반 음성 모델 관리 장치 및 그 장치의 동작방법이 제공될 수 있다. In addition, as an embodiment of the present invention, a context-based speech model management apparatus and a method of operating the apparatus may be provided.
본 발명의 일 실시예에 따른 문맥 기반 음성 모델 관리 장치는 문맥 제시형 화자 식별 시스템과 연동될 수 있고, 이러한 장치에는 화자로부터의 음성이 수신될 때마다 생성된 개별 음성 데이터가 저장된 저장부, 개별 음성 데이터가 저장부에 복수개 저장되면, 저장부로부터 각각의 개별 음성 데이터를 추출하여 개별 음성 데이터 간의 유사도를 추정하는 유사도 추정부 ,유사도 추정부에 의하여 추정된 유사도에 기초하여 선별된 적어도 하나의 개별 음성 데이터에 따라 화자의 제 1 음성 모델을 생성하는 음성모델 생성부, 문맥 제시형 화자 식별 시스템의 저장부에 제 1 음성 모델에 상응하는 비교 음성 모델이 존재하는지 여부를 판단하고, 존재하지 않는다면 제 1 음성 모델을 문맥 제시형 화자 식별 시스템의 저장부로 제공하여 저장되게 하고, 존재한다면 제 1 음성 모델과 비교 음성 모델의 비교유사도가 유사도 추정부를 통하여 추정되게 하는 판단부 및 이러한 판단부에 의한 유사도 추정부에서의 추정 결과인 비교유사도가 소정의 기준값 이상인 경우 비교 음성 모델을 제 1 음성 모델로 교체하고, 소정의 기준값 미만인 경우 제 1 음성 모델과 비교 음성 모델을 조합하여 제 2 음성 모델을 생성하는 음성모델 편집부가 포함되고, 제 2 음성 모델은 판단부 및 음성모델 편집부로 제공될 수 있다. An apparatus for managing a context-based speech model according to an embodiment of the present invention may be linked to a context-based speaker identification system, and the apparatus may include a storage unit for storing individual voice data generated each time a voice from the speaker is received. When a plurality of voice data are stored in the storage unit, a similarity estimator extracting each individual voice data from the storage unit and estimating the similarity between the individual voice data and at least one individual selected based on the similarity estimated by the similarity estimator A voice model generator for generating a first voice model of the speaker according to the voice data, determines whether a comparison voice model corresponding to the first voice model exists in a storage unit of the contextual speaker identification system. A speech model is provided to the storage of the contextual speaker identification system and stored. If the comparison similarity between the first speech model and the comparison speech model is estimated by the similarity estimating unit, and the comparison similarity degree estimated by the similarity estimating unit by the determining unit is equal to or greater than a predetermined reference value, the comparison speech model is defined as the first. A voice model editing unit for replacing the voice model and generating a second voice model by combining the first voice model and the comparison voice model when less than a predetermined reference value, the second voice model being provided to the determination unit and the voice model editing unit. Can be.
또한, 문맥 제시형 화자 식별 시스템에는, 화자로부터 음성을 수신하는 음성수신부, 수신된 음성으로부터 음성특성을 추출하기 위한 음성특성 추출부, 추출된 음성특성에 기초하여 음성 모델을 생성하는 문맥 음성모델 생성부, 생성된 음성 모델이 행렬(matrix) 형태로 저장되어 있는 저장부, 화자의 식별에 사용될 난수를 발생시키는 난수발생부, 저장부의 행렬 형태의 음성 모델 DB 상의 발생된 난수에 상응하는 위치에서의 음성 모델을 추출하는 음성모델 추출부, 추출된 음성 모델에 기초하여 화자에게 소정의 음성 발화를 요청하는 음성발화 요청부 및 화자로부터 발화된 음성을 추출된 음성 모델과 비교하여 화자를 식별하는 화자식별부가 포함되고, 소정의 음성 발화는 발생된 난수에 상응하는 저장부의 행렬 형태의 DB 상의 위치에 미리 설정되어 있는 단어 또는 문장의 독음일 수 있다. In addition, the context presenting speaker identification system includes a voice receiver for receiving a voice from the speaker, a voice feature extractor for extracting voice characteristics from the received voice, and a context voice model generation for generating a voice model based on the extracted voice characteristics. A storage unit in which the generated speech model is stored in a matrix form, a random number generator for generating random numbers to be used for identification of a speaker, and a position corresponding to the generated random number on the speech model DB in matrix form of the storage unit. A speech model extraction unit for extracting a speech model, a speech speech requesting unit for requesting a speaker for a predetermined speech based on the extracted speech model, and a speaker identification for identifying the speaker by comparing the speech spoken from the speaker with the extracted speech model And a predetermined speech utterance is set in advance at a position on a DB in a matrix form of a storage unit corresponding to the generated random number. SOLO can be a word or sentence.
본 발명의 일 실시예에 따른 개별 음성 데이터에는 화자의 발화별 음성의 주파수, 피치(pitch), 포먼트(formant), 발화시간, 발화속도 중 적어도 하나가 포함되고, 문맥 기반 음성 모델 관리 장치의 유사도 추정부에서는 화자의 발화별 음성 각각에 대한 개별 음성 데이터 간의 유사도가 평가될 수 있다. The individual voice data according to an embodiment of the present invention includes at least one of a speaker's speech per speech, pitch, formant, speech time, and speech rate, and the context-based speech model management apparatus. The similarity estimating unit may evaluate the similarity between individual voice data for each speaker's speech per speech.
또한, 본 발명의 일 실시예에 따른 장치는 음성 모델의 관리 주기를 설정하기 위한 주기설정부를 더 포함하고, 설정된 관리 주기 내에 모든 음성 모델이 갱신(update)된 경우, 음성모델 편집부에서는 문맥 제시형 화자 식별 시스템의 저장부 상의 기존의 행렬 형태의 음성 모델 DB이 유지되게 하고, 설정된 관리 주기 내에 적어도 하나의 음성 모델이 갱신되지 않은 경우, 음성모델 편집부에서는 화자와 관련된 신규의 제 1 음성 모델에 기초하여 기존의 행렬 형태의 음성 모델 DB의 일부가 삭제되거나 유지되게 할 수 있다. In addition, the apparatus according to an embodiment of the present invention further includes a period setting unit for setting a management period of the voice model, and when all the voice models are updated within the set management period, the voice model editing unit provides a context presentation type. If the existing matrix voice model DB on the storage of the speaker identification system is maintained and at least one voice model is not updated within the set management period, the voice model editing unit is based on the new first voice model associated with the speaker. Thus, a part of the existing matrix speech model DB may be deleted or maintained.
음성모델 편집부에서는 화자와 관련된 신규의 제 1 음성 모델이 부존재한다면 미갱신된 적어도 하나의 음성 모델을 행렬 형태의 음성 모델 DB로부터 삭제하고, 신규의 제 1 음성 모델이 존재한다면 미갱신된 적어도 하나의 음성 모델과 신규의 제 1 음성 모델을 비교하고, 비교 결과 차이(difference)가 소정의 범위 내에 포함된다면 음성모델 편집부에서는 문맥 제시형 화자 식별 시스템의 저장부 상의 기존의 행렬 형태의 음성 모델 DB이 유지되게 하며 범위를 벗어난다면 미갱신된 적어도 하나의 음성 모델을 행렬 형태의 음성 모델 DB로부터 삭제할 수 있다. The voice model editing unit deletes at least one unupdated voice model from the matrix-type voice model DB if there is no new first voice model associated with the speaker, and at least one unupdated voice model if the new first voice model exists. The speech model is compared with the new first speech model, and if the difference is within the predetermined range, the speech model editing unit maintains the existing matrix speech model DB on the storage of the contextual speaker identification system. If it is out of range, at least one unupdated voice model may be deleted from the matrix voice model DB.
본 발명의 일 실시예에 따른 문맥 기반 음성 모델 관리 장치를 이용하여 음성 모델을 관리하는 방법은 (a) 화자로부터의 음성이 수신될 때마다 개별 음성 데이터가 생성되어 저장되는 단계, (b) 개별 음성 데이터가 복수개 저장되면 각각의 개별 음성 데이터를 추출하여 개별 음성 데이터 간의 유사도를 추정하는 단계, (c) 추정된 유사도에 기초하여 선별된 적어도 하나의 개별 음성 데이터에 따라 화자의 제 1 음성 모델을 생성하는 단계, (d) 문맥 제시형 화자 식별 시스템의 저장부에 제 1 음성 모델에 상응하는 비교 음성 모델이 존재하는지 여부를 판단하고, 존재하지 않는다면 제 1 음성 모델을 문맥 제시형 화자 식별 시스템의 저장부로 제공하여 저장되게 하고, 존재한다면 제 1 음성 모델과 비교 음성 모델의 비교유사도가 유사도 추정부를 통하여 추정되게 하는 단계 및 (e) 비교유사도가 소정의 기준값 이상인 경우 비교 음성 모델을 제 1 음성 모델로 교체하고, 소정의 기준값 미만인 경우 제 1 음성 모델과 비교 음성 모델을 조합하여 제 2 음성 모델을 생성하는 단계를 포함할 수 있다. 또한, 제 2 음성 모델에 대하여 (d) 및 (e) 단계가 반복적으로 재수행될 수 있다. A method of managing a speech model using a context-based speech model management apparatus according to an embodiment of the present invention includes the steps of: (a) generating and storing individual voice data each time a voice from a speaker is received; Extracting each individual voice data and estimating the similarity between the individual voice data when a plurality of voice data are stored; and (c) generating the speaker's first voice model according to the at least one individual voice data selected based on the estimated similarity. (D) determining whether a comparison speech model corresponding to the first speech model exists in the storage of the context-presenting speaker identification system, and if not, the first speech model of the context-presenting speaker identification system. Provide it to the storage unit and store it, and if present, the comparison similarity between the first speech model and the comparison speech model is estimated through the similarity estimator. And (e) replacing the comparison speech model with the first speech model when the comparison similarity is greater than or equal to a predetermined reference value, and generating the second speech model by combining the first speech model and the comparison speech model if less than the predetermined reference value. It may include a step. In addition, steps (d) and (e) may be repeatedly performed for the second voice model.
또한, 본 발명의 일 실시예에 따른 방법은 전술한 장치의 주기설정부에 의하여 음성 모델의 관리 주기를 설정하는 단계를 더 포함하고, 설정된 관리 주기 내에 모든 음성 모델이 갱신(update)된 경우, 장치의 음성모델 편집부에서는 문맥 제시형 화자 식별 시스템의 저장부 상의 기존의 행렬 형태의 음성 모델 DB이 유지되게 하고, 설정된 관리 주기 내에 적어도 하나의 음성 모델이 갱신되지 않은 경우, 음성모델 편집부에서는 화자와 관련된 신규의 제 1 음성 모델에 기초하여 기존의 행렬 형태의 음성 모델 DB의 일부가 삭제되거나 유지되게 할 수 있다. In addition, the method according to an embodiment of the present invention further comprises the step of setting the management period of the voice model by the period setting unit of the above-described device, if all the voice model is updated within the set management period, the device The voice model editing unit of the voice model editing unit maintains an existing matrix voice model DB on the storage unit of the context presenting speaker identification system, and if at least one voice model is not updated within the set management period, the voice model editing unit is associated with the speaker. Based on the new first speech model, a part of the existing matrix speech model DB may be deleted or maintained.
음성모델 편집부에서는 화자와 관련된 신규의 제 1 음성 모델이 부존재한다면 미갱신된 적어도 하나의 음성 모델을 행렬 형태의 음성 모델 DB로부터 삭제하고, 신규의 제 1 음성 모델이 존재한다면 미갱신된 적어도 하나의 음성 모델과 신규의 제 1 음성 모델을 비교하고, 비교 결과 차이가 소정의 범위 내에 포함된다면 음성모델 편집부에서는 문맥 제시형 화자 식별 시스템의 저장부 상의 기존의 행렬 형태의 음성 모델 DB이 유지되게 하며 범위를 벗어난다면 미갱신된 적어도 하나의 음성 모델을 행렬 형태의 음성 모델 DB로부터 삭제할 수 있다. The voice model editing unit deletes at least one unupdated voice model from the matrix-type voice model DB if there is no new first voice model associated with the speaker, and at least one unupdated voice model if the new first voice model exists. The speech model is compared with the new first speech model, and if the difference is within the predetermined range, the speech model editing unit maintains the existing matrix-type speech model DB on the storage of the contextual speaker identification system and maintains the range. If out of the at least one voice model can be deleted from the speech model DB of the unupdated voice model.
한편, 본 발명의 일 실시예로써, 전술한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 제공될 수 있다.Meanwhile, as an embodiment of the present invention, a computer-readable recording medium having recorded thereon a program for executing the above method on a computer may be provided.
본 발명의 일 실시예에 따르면, 사용자가 발화하는 수 많은 음성 중 공통 단어를 기반으로 사용자의 발화 패턴(예컨대, 발화에 따른 음성 특성 등)을 추출, 매칭시킴으로써 화자 인식, 인증에 대한 정확성 및 신뢰성을 보다 높일 수 있다. According to an embodiment of the present invention, accuracy and reliability of speaker recognition and authentication by extracting and matching a user's speech pattern (eg, speech characteristics according to speech) based on a common word among a large number of speeches spoken by the user Can be made higher.
다시 말해서, 본 발명의 일 실시예에 따른 장치를 이용하여 제시된 방법을 반복적으로 수행하는 과정에서 화자 개인별 특정 단어에 대한 최적화된 발화 패턴의 인식이 가능하고, 이러한 발화 패턴에 기초하여 화자가 누구인지에 대하여 빠르고 정확하게 구분해낼 수 있다. In other words, in the process of repeatedly performing the method using the apparatus according to the embodiment of the present invention, it is possible to recognize an optimized speech pattern for a specific word for each speaker, and who is the speaker based on the speech pattern. It can quickly and accurately identify.
본 발명의 일 실시예에 따르면, 화자의 음성은 시간적 요소(예컨대, 노화 등), 환경적 요소(예컨대, 콘서트장 등)에 의하여 일시적으로 또는 일정 기간 동안 계속적으로 변화할 수 있기 때문에, 이러한 변화 가능성을 모니터링함과 동시에 변화된 음성정보를 지속적으로 수집하여 업데이트함으로써 화자의 현재 상태가 충분히 반영된 음성정보에 따라 화자를 빠르고 정확하게 식별해낼 수 있다. 화자의 시간적, 환경적 요소에 무관하게 화자에 대한 안정적인, 신뢰성 있는 식별(인증)이 가능하다.According to one embodiment of the invention, since the speaker's voice may change continuously or for a period of time by temporal factors (e.g., aging, etc.), environmental factors (e.g., concert halls, etc.) By monitoring the possibility and continuously collecting and updating the changed voice information, the speaker can be identified quickly and accurately according to the voice information fully reflecting the current state of the speaker. A stable and reliable identification (authentication) of the speaker is possible regardless of the speaker's temporal and environmental factors.
또한, 본 발명의 일 실시예에 따르면 화자 식별(또는 음성 인증) 시스템에서 사용될 수 있는 음성 모델을 문맥에 기반한 화자의 발화 특성, 미리 설정된 소정의 기간 간격으로 갱신(update)함으로써 음성 모델을 최신화(up to date)하여 관리할 수 있다. In addition, according to an embodiment of the present invention, the speech model can be updated by updating the speech model that can be used in the speaker identification (or speech authentication) system based on the speaker's speech characteristics and a predetermined period of time. (up to date) to manage.
또한, 사용자별 음성을 통한 다양한 전자기기의 제어를 효율적으로 할 수 있다. In addition, it is possible to efficiently control a variety of electronic devices through the user-specific voice.
또한, 사용자의 발화 상태(시간적 요인 또는 환경적 요인)에 따른 영향이 최소화되어 전자 상거래 등에서의 사용자 인증을 빠르고 정확하게 할 수 있다.In addition, the influence of the user's speech state (temporal or environmental factors) is minimized, so that user authentication in e-commerce and the like can be performed quickly and accurately.
도 1은 종래의 화자 확인 시스템을 나타낸 도면이다. 1 is a view showing a conventional speaker identification system.
도 2는 종래의 문맥(단어) 제시형 화자 확인 시스템을 나타낸 도면이다. 2 is a diagram illustrating a conventional context (word) presentation speaker identification system.
도 3은 음성에 대한 종래의 평준화 시스템을 나타낸 도면이다. 3 shows a conventional leveling system for speech.
도 4는 본 발명의 일 실시예에 따른 발화된 단어에 기초하여 화자를 식별하기 위한 방법을 나타낸 순서도이다. 4 is a flowchart illustrating a method for identifying a speaker based on a spoken word according to an embodiment of the present invention.
도 5는 본 발명의 일 실시예에 따른 구체적인 화자 식별 방법을 나타낸 순서도이다.5 is a flowchart illustrating a specific speaker identification method according to an embodiment of the present invention.
도 6은 본 발명의 일 실시예에 따른 발화된 단어에 기초하여 화자를 식별하기 위한 장치를 나타낸 블록도이다. 6 is a block diagram illustrating an apparatus for identifying a speaker based on a spoken word according to an embodiment of the present invention.
도 7은 본 발명의 일 실시예에 따른 음성에 대한 평준화 시스템을 나타낸 도면이다. 7 is a diagram illustrating a leveling system for speech according to an embodiment of the present invention.
도 8은 본 발명의 일 실시예에 따른 화자의 발화 유사성에 기초한 평준화 과정을 나타낸 도면이다.8 is a view showing a leveling process based on the speaker's utterance similarity according to an embodiment of the present invention.
도 9는 본 발명의 일 실시예에 따른 문맥 기반 음성 모델 관리 장치의 블록도이다. 9 is a block diagram of an apparatus for context-based speech model management according to an embodiment of the present invention.
도 10은 본 발명의 일 실시예에 따른 문맥 기반 음성 모델 관리 장치 및 이와 연동 가능한 문맥 제시형 화자 식별 시스템 각각의 블록도를 나타낸다. 10 is a block diagram of a context-based speech model management apparatus and a context-presenting speaker identification system interoperable with the context-based speech model management apparatus according to an embodiment of the present invention.
도 11은 문맥 제시형 화자 식별 시스템의 동작 예를 나타낸다. 11 shows an example of the operation of the contextual speaker identification system.
도 12는 본 발명의 일 실시예에 따른 문맥 기반 음성 모델 관리 장치의 동작예를 나타낸 순서도이다. 12 is a flowchart illustrating an operation example of a context-based speech model management apparatus according to an embodiment of the present invention.
도 13은 본 발명의 다른 실시예에 따른 문맥 기반 음성 모델 관리 장치의 동작예를 나타낸다. 13 illustrates an operation example of a context-based speech model management apparatus according to another embodiment of the present invention.
도 14는 본 발명의 일 실시예에 따른 문맥 기반 음성 모델 관리 장치를 이용한 음성 모델 관리 방법을 나타낸 순서도이다. 14 is a flowchart illustrating a voice model management method using a context-based voice model management apparatus according to an embodiment of the present invention.
본 발명의 일 실시예로써, 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치가 제공될 수 있다. In one embodiment of the present invention, a method and apparatus for identifying a speaker based on a spoken word can be provided.
본 발명의 일 실시예에 따른 발화된 단어에 기초하여 화자를 식별하기 위한 방법은 화자로부터 발화된 음성을 수신하는 단계, 수신된 음성에 포함된 단어 및 단어에 대한 음성정보를 추출하는 단계, 미리 구축된 데이터베이스(DB)에서 단어를 검색하는 단계, DB에 단어가 존재하지 않는 경우에는 단어 및 단어에 대한 음성정보를 DB에 추가하고, DB에 단어가 존재하는 경우에는 발화된 단어의 음성정보와 DB 상에 저장되어 있는 각각의 참조 음성정보를 비교하는 단계, 각각의 참조 음성정보와의 비교에 따른 유사도를 추정하는 단계, 추정된 유사도에 상응하는 음성정보가 수신되는 횟수에 기초하여 화자의 단어에 대한 발화 패턴을 결정하는 단계 및 결정된 발화 패턴에 기초하여 화자를 식별하는 단계를 포함할 수 있다. According to an embodiment of the present invention, a method for identifying a speaker based on a spoken word may include receiving a spoken voice from a speaker, extracting a word included in the received voice, and voice information of the word, in advance. Searching for a word in the database (DB), if the word does not exist in the DB, adds the word and voice information of the word to the DB, and if the word exists in the DB, the voice information of the spoken word and Comparing the respective reference voice information stored in the DB, estimating the similarity according to the comparison with the respective reference voice information, and the words of the speaker based on the number of times the voice information corresponding to the estimated similarity is received. Determining an utterance pattern for and identifying the speaker based on the determined utterance pattern.
본 발명의 일 실시예에 따른 단어에 대한 음성정보에는 음성의 주파수, 피치(pitch), 포먼트(formant), 발화시간, 발화속도 중 적어도 하나가 포함될 수 있다. The voice information of the word according to an embodiment of the present invention may include at least one of a frequency, pitch, formant, speech time, and speech speed of the speech.
또한, 전술한 비교하는 단계에서는 화자로부터 발화된 단어에 대한 음성정보가 DB 상에 저장되어 있는 적어도 하나의 참조 음성정보와 유사한지 여부를 판단하고, 유사도를 추정하는 단계에서는 판단의 결과에 따라 유사도가 추정되며, 추정된 유사도가 제 1 기준값 미만인 경우에는 신규의 참조 음성정보가 생성되어 DB에 저장되고, 제 1 기준값 이상인 경우에는 해당 유사도를 갖는 참조 음성정보의 매칭 횟수가 증가되어 카운팅될 수 있다. In the above comparing step, it is determined whether or not the voice information of the word spoken by the speaker is similar to at least one reference voice information stored in the DB, and in estimating the similarity, the similarity is determined according to the determination result. When the estimated similarity is less than the first reference value, new reference voice information is generated and stored in the DB. When the estimated similarity is greater than or equal to the first reference value, the number of matching of the reference voice information having the corresponding similarity may be increased and counted. .
본 발명의 일 실시예에 따른 화자의 단어에 대한 발화 패턴을 결정하는 단계에서는 카운팅된 매칭 횟수가 제 2 기준값 미만인 경우에는 화자로부터 발화된 신규의 음성이 수신되어 유사도가 추정되는 과정이 반복적으로 수행되도록 하고, 제 2 기준값 이상인 경우에는 화자의 단어에 대한 발화 패턴으로 결정할 수 있다. In the step of determining a speech pattern for the speaker's word according to an embodiment of the present invention, when the number of matching matches is less than the second reference value, a new voice spoken by the speaker is received and the similarity is repeatedly estimated. If it is equal to or greater than the second reference value, it may be determined as a speech pattern for the speaker's word.
또한, 본 발명의 일 실시예에 따른 발화 패턴을 결정하는 단계에서는 제 2 기준값 이상의 카운팅된 매칭 횟수를 갖는 유사도에 상응하는 음성정보에 기초하여 화자의 음성 모델이 수립됨으로써 발화 패턴이 결정되고, 화자를 식별하는 단계에서는 발화된 음성에 대하여 전술한 단계를 통하여 결정된 발화 패턴을 기준으로 발화 음성의 화자가 누구인지 여부가 식별될 수 있다. In the determining of the speech pattern according to an embodiment of the present invention, the speech pattern is determined by establishing a speech model of the speaker based on the speech information corresponding to the similarity having the number of matching counts greater than or equal to the second reference value. In the identifying step, it may be identified who the speaker of the spoken voice is based on the speech pattern determined through the above-described steps with respect to the spoken voice.
본 발명의 일 실시예에 따른 발화된 단어에 기초하여 화자를 식별하기 위한 장치에는 화자로부터 발화된 음성을 수신하는 음성수신부, 수신된 음성에 포함된 단어 및 단어에 대한 음성정보를 추출하는 정보추출부, 미리 구축된 데이터베이스(DB)에서 단어를 검색하는 정보검색부, DB에 단어가 존재하지 않는 경우에는 단어 및 단어에 대한 음성정보를 DB에 추가하고, DB에 단어가 존재하는 경우에는 발화된 단어의 음성정보와 DB 상에 저장되어 있는 각각의 참조 음성정보를 비교하는 비교부, 각각의 참조 음성정보와의 비교에 따른 유사도를 추정하는 유사도추정부, 추정된 유사도에 상응하는 음성정보가 수신되는 횟수에 기초하여 화자의 단어에 대한 발화 패턴을 결정하는 발화패턴결정부 및 결정된 발화 패턴에 기초하여 화자를 식별하는 화자식별부가 포함될 수 있다. An apparatus for identifying a speaker based on a spoken word according to an embodiment of the present invention includes a voice receiver for receiving a spoken voice from a speaker, information contained in the received voice, and information extracted to extract voice information of the word. The information retrieval unit which searches for words in a pre-built database (DB). If a word does not exist in the DB, the word and voice information of the word are added to the DB. A comparison unit for comparing the voice information of the word with each reference voice information stored in the DB, a similarity estimation unit for estimating the similarity according to comparison with each reference voice information, and receiving voice information corresponding to the estimated similarity A speech pattern determining unit that determines a speech pattern for the speaker's word based on the number of times of speech and a speaker identification unit that identifies the speaker based on the determined speech pattern May be included.
또한, 단어에 대한 음성정보에는 음성의 주파수, 피치(pitch), 포먼트(formant), 발화시간, 발화속도 중 적어도 하나가 포함될 수 있다. In addition, the voice information about the word may include at least one of the frequency, pitch, formant, speech time, and speech speed of the speech.
비교부에서는 화자로부터 발화된 단어에 대한 음성정보가 DB 상에 저장되어 있는 적어도 하나의 참조 음성정보와 유사한지 여부를 판단하고, 유사도추정부에서는 판단의 결과에 따라 유사도가 추정되며, 추정된 유사도가 제 1 기준값 미만인 경우에는 신규의 참조 음성정보가 생성되어 DB에 저장되고, 제 1 기준값 이상인 경우에는 해당 유사도를 갖는 참조 음성정보의 매칭 횟수가 증가되어 카운팅될 수 있다. The comparison unit determines whether the voice information about the word spoken by the speaker is similar to at least one reference voice information stored in the DB, and the similarity estimation unit estimates the similarity according to the result of the determination. If is less than the first reference value is a new reference voice information is generated and stored in the DB, if more than the first reference value can be counted by increasing the number of matching of the reference voice information having a corresponding similarity.
발화패턴결정부에서는 카운팅된 매칭 횟수가 제 2 기준값 미만인 경우에는 화자로부터 발화된 신규의 음성이 수신되어 유사도가 추정되는 과정이 반복적으로 수행되도록 하고, 제 2 기준값 이상인 경우에는 화자의 단어에 대한 발화 패턴으로 결정할 수 있다. If the counted matching count is less than the second reference value, the speech pattern determination unit receives a new speech spoken from the speaker and repeatedly performs the process of estimating the similarity. You can decide by pattern.
본 발명의 일 실시예에 따르면, 제 2 기준값 이상의 카운팅된 매칭 횟수를 갖는 유사도에 상응하는 음성정보에 기초하여 화자의 음성 모델이 수립됨으로써 발화 패턴이 발화패턴결정부에 의하여 결정되고, 화자식별부에서는 발화된 음성에 대하여 결정된 발화 패턴을 기준으로 화자가 누구인지 여부가 식별될 수 있다.According to one embodiment of the present invention, a speech pattern is determined by a speech pattern determination unit by establishing a speech model of a speaker based on speech information corresponding to a similarity having a counted matching count equal to or greater than a second reference value, and the speaker identification unit In, the person who is the speaker may be identified based on the speech pattern determined for the speech spoken.
한편, 본 발명의 일 실시예로써, 전술한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 제공될 수 있다.Meanwhile, as an embodiment of the present invention, a computer-readable recording medium having recorded thereon a program for executing the above method on a computer may be provided.
또한, 본 발명의 일 실시예로써, 문맥 기반 음성 모델 관리 장치 및 그 장치의 동작방법이 제공될 수 있다. In addition, as an embodiment of the present invention, a context-based speech model management apparatus and a method of operating the apparatus may be provided.
본 발명의 일 실시예에 따른 문맥 기반 음성 모델 관리 장치는 문맥 제시형 화자 식별 시스템과 연동될 수 있고, 이러한 장치에는 화자로부터의 음성이 수신될 때마다 생성된 개별 음성 데이터가 저장된 저장부, 개별 음성 데이터가 저장부에 복수개 저장되면, 저장부로부터 각각의 개별 음성 데이터를 추출하여 개별 음성 데이터 간의 유사도를 추정하는 유사도 추정부 ,유사도 추정부에 의하여 추정된 유사도에 기초하여 선별된 적어도 하나의 개별 음성 데이터에 따라 화자의 제 1 음성 모델을 생성하는 음성모델 생성부, 문맥 제시형 화자 식별 시스템의 저장부에 제 1 음성 모델에 상응하는 비교 음성 모델이 존재하는지 여부를 판단하고, 존재하지 않는다면 제 1 음성 모델을 문맥 제시형 화자 식별 시스템의 저장부로 제공하여 저장되게 하고, 존재한다면 제 1 음성 모델과 비교 음성 모델의 비교유사도가 유사도 추정부를 통하여 추정되게 하는 판단부 및 이러한 판단부에 의한 유사도 추정부에서의 추정 결과인 비교유사도가 소정의 기준값 이상인 경우 비교 음성 모델을 제 1 음성 모델로 교체하고, 소정의 기준값 미만인 경우 제 1 음성 모델과 비교 음성 모델을 조합하여 제 2 음성 모델을 생성하는 음성모델 편집부가 포함되고, 제 2 음성 모델은 판단부 및 음성모델 편집부로 제공될 수 있다. An apparatus for managing a context-based speech model according to an embodiment of the present invention may be linked to a context-based speaker identification system, and the apparatus may include a storage unit for storing individual voice data generated each time a voice from the speaker is received. When a plurality of voice data are stored in the storage unit, a similarity estimator extracting each individual voice data from the storage unit and estimating the similarity between the individual voice data and at least one individual selected based on the similarity estimated by the similarity estimator A voice model generator for generating a first voice model of the speaker according to the voice data, determines whether a comparison voice model corresponding to the first voice model exists in a storage unit of the contextual speaker identification system. A speech model is provided to the storage of the contextual speaker identification system and stored. If the comparison similarity between the first speech model and the comparison speech model is estimated by the similarity estimating unit, and the comparison similarity degree estimated by the similarity estimating unit by the determining unit is equal to or greater than a predetermined reference value, the comparison speech model is defined as the first. A voice model editing unit for replacing the voice model and generating a second voice model by combining the first voice model and the comparison voice model when less than a predetermined reference value, the second voice model being provided to the determination unit and the voice model editing unit. Can be.
또한, 문맥 제시형 화자 식별 시스템에는, 화자로부터 음성을 수신하는 음성수신부, 수신된 음성으로부터 음성특성을 추출하기 위한 음성특성 추출부, 추출된 음성특성에 기초하여 음성 모델을 생성하는 문맥 음성모델 생성부, 생성된 음성 모델이 행렬(matrix) 형태로 저장되어 있는 저장부, 화자의 식별에 사용될 난수를 발생시키는 난수발생부, 저장부의 행렬 형태의 음성 모델 DB 상의 발생된 난수에 상응하는 위치에서의 음성 모델을 추출하는 음성모델 추출부, 추출된 음성 모델에 기초하여 화자에게 소정의 음성 발화를 요청하는 음성발화 요청부 및 화자로부터 발화된 음성을 추출된 음성 모델과 비교하여 화자를 식별하는 화자식별부가 포함되고, 소정의 음성 발화는 발생된 난수에 상응하는 저장부의 행렬 형태의 DB 상의 위치에 미리 설정되어 있는 단어 또는 문장의 독음일 수 있다. In addition, the context presenting speaker identification system includes a voice receiver for receiving a voice from the speaker, a voice feature extractor for extracting voice characteristics from the received voice, and a context voice model generation for generating a voice model based on the extracted voice characteristics. A storage unit in which the generated speech model is stored in a matrix form, a random number generator for generating random numbers to be used for identification of a speaker, and a position corresponding to the generated random number on the speech model DB in matrix form of the storage unit. A speech model extraction unit for extracting a speech model, a speech speech requesting unit for requesting a speaker for a predetermined speech based on the extracted speech model, and a speaker identification for identifying the speaker by comparing the speech spoken from the speaker with the extracted speech model And a predetermined speech utterance is set in advance at a position on a DB in a matrix form of a storage unit corresponding to the generated random number. SOLO can be a word or sentence.
본 발명의 일 실시예에 따른 개별 음성 데이터에는 화자의 발화별 음성의 주파수, 피치(pitch), 포먼트(formant), 발화시간, 발화속도 중 적어도 하나가 포함되고, 문맥 기반 음성 모델 관리 장치의 유사도 추정부에서는 화자의 발화별 음성 각각에 대한 개별 음성 데이터 간의 유사도가 평가될 수 있다. The individual voice data according to an embodiment of the present invention includes at least one of a speaker's speech per speech, pitch, formant, speech time, and speech rate, and the context-based speech model management apparatus. The similarity estimating unit may evaluate the similarity between individual voice data for each speaker's speech per speech.
또한, 본 발명의 일 실시예에 따른 장치는 음성 모델의 관리 주기를 설정하기 위한 주기설정부를 더 포함하고, 설정된 관리 주기 내에 모든 음성 모델이 갱신(update)된 경우, 음성모델 편집부에서는 문맥 제시형 화자 식별 시스템의 저장부 상의 기존의 행렬 형태의 음성 모델 DB이 유지되게 하고, 설정된 관리 주기 내에 적어도 하나의 음성 모델이 갱신되지 않은 경우, 음성모델 편집부에서는 화자와 관련된 신규의 제 1 음성 모델에 기초하여 기존의 행렬 형태의 음성 모델 DB의 일부가 삭제되거나 유지되게 할 수 있다. In addition, the apparatus according to an embodiment of the present invention further includes a period setting unit for setting a management period of the voice model, and when all the voice models are updated within the set management period, the voice model editing unit provides a context presentation type. If the existing matrix voice model DB on the storage of the speaker identification system is maintained and at least one voice model is not updated within the set management period, the voice model editing unit is based on the new first voice model associated with the speaker. Thus, a part of the existing matrix speech model DB may be deleted or maintained.
음성모델 편집부에서는 화자와 관련된 신규의 제 1 음성 모델이 부존재한다면 미갱신된 적어도 하나의 음성 모델을 행렬 형태의 음성 모델 DB로부터 삭제하고, 신규의 제 1 음성 모델이 존재한다면 미갱신된 적어도 하나의 음성 모델과 신규의 제 1 음성 모델을 비교하고, 비교 결과 차이(difference)가 소정의 범위 내에 포함된다면 음성모델 편집부에서는 문맥 제시형 화자 식별 시스템의 저장부 상의 기존의 행렬 형태의 음성 모델 DB이 유지되게 하며 범위를 벗어난다면 미갱신된 적어도 하나의 음성 모델을 행렬 형태의 음성 모델 DB로부터 삭제할 수 있다. The voice model editing unit deletes at least one unupdated voice model from the matrix-type voice model DB if there is no new first voice model associated with the speaker, and at least one unupdated voice model if the new first voice model exists. The speech model is compared with the new first speech model, and if the difference is within the predetermined range, the speech model editing unit maintains the existing matrix speech model DB on the storage of the contextual speaker identification system. If it is out of range, at least one unupdated voice model may be deleted from the matrix voice model DB.
본 발명의 일 실시예에 따른 문맥 기반 음성 모델 관리 장치를 이용하여 음성 모델을 관리하는 방법은 (a) 화자로부터의 음성이 수신될 때마다 개별 음성 데이터가 생성되어 저장되는 단계, (b) 개별 음성 데이터가 복수개 저장되면 각각의 개별 음성 데이터를 추출하여 개별 음성 데이터 간의 유사도를 추정하는 단계, (c) 추정된 유사도에 기초하여 선별된 적어도 하나의 개별 음성 데이터에 따라 화자의 제 1 음성 모델을 생성하는 단계, (d) 문맥 제시형 화자 식별 시스템의 저장부에 제 1 음성 모델에 상응하는 비교 음성 모델이 존재하는지 여부를 판단하고, 존재하지 않는다면 제 1 음성 모델을 문맥 제시형 화자 식별 시스템의 저장부로 제공하여 저장되게 하고, 존재한다면 제 1 음성 모델과 비교 음성 모델의 비교유사도가 유사도 추정부를 통하여 추정되게 하는 단계 및 (e) 비교유사도가 소정의 기준값 이상인 경우 비교 음성 모델을 제 1 음성 모델로 교체하고, 소정의 기준값 미만인 경우 제 1 음성 모델과 비교 음성 모델을 조합하여 제 2 음성 모델을 생성하는 단계를 포함할 수 있다. 또한, 제 2 음성 모델에 대하여 (d) 및 (e) 단계가 반복적으로 재수행될 수 있다. A method of managing a speech model using a context-based speech model management apparatus according to an embodiment of the present invention includes the steps of: (a) generating and storing individual voice data each time a voice from a speaker is received; Extracting each individual voice data and estimating the similarity between the individual voice data when a plurality of voice data are stored; and (c) generating the speaker's first voice model according to the at least one individual voice data selected based on the estimated similarity. (D) determining whether a comparison speech model corresponding to the first speech model exists in the storage of the context-presenting speaker identification system, and if not, the first speech model of the context-presenting speaker identification system. Provide it to the storage unit and store it, and if present, the comparison similarity between the first speech model and the comparison speech model is estimated through the similarity estimator. And (e) replacing the comparison speech model with the first speech model when the comparison similarity is greater than or equal to a predetermined reference value, and generating the second speech model by combining the first speech model and the comparison speech model if less than the predetermined reference value. It may include a step. In addition, steps (d) and (e) may be repeatedly performed for the second voice model.
또한, 본 발명의 일 실시예에 따른 방법은 전술한 장치의 주기설정부에 의하여 음성 모델의 관리 주기를 설정하는 단계를 더 포함하고, 설정된 관리 주기 내에 모든 음성 모델이 갱신(update)된 경우, 장치의 음성모델 편집부에서는 문맥 제시형 화자 식별 시스템의 저장부 상의 기존의 행렬 형태의 음성 모델 DB이 유지되게 하고, 설정된 관리 주기 내에 적어도 하나의 음성 모델이 갱신되지 않은 경우, 음성모델 편집부에서는 화자와 관련된 신규의 제 1 음성 모델에 기초하여 기존의 행렬 형태의 음성 모델 DB의 일부가 삭제되거나 유지되게 할 수 있다. In addition, the method according to an embodiment of the present invention further comprises the step of setting the management period of the voice model by the period setting unit of the above-described device, if all the voice model is updated within the set management period, the device The voice model editing unit of the voice model editing unit maintains an existing matrix voice model DB on the storage unit of the context presenting speaker identification system, and if at least one voice model is not updated within the set management period, the voice model editing unit is associated with the speaker. Based on the new first speech model, a part of the existing matrix speech model DB may be deleted or maintained.
음성모델 편집부에서는 화자와 관련된 신규의 제 1 음성 모델이 부존재한다면 미갱신된 적어도 하나의 음성 모델을 행렬 형태의 음성 모델 DB로부터 삭제하고, 신규의 제 1 음성 모델이 존재한다면 미갱신된 적어도 하나의 음성 모델과 신규의 제 1 음성 모델을 비교하고, 비교 결과 차이가 소정의 범위 내에 포함된다면 음성모델 편집부에서는 문맥 제시형 화자 식별 시스템의 저장부 상의 기존의 행렬 형태의 음성 모델 DB이 유지되게 하며 범위를 벗어난다면 미갱신된 적어도 하나의 음성 모델을 행렬 형태의 음성 모델 DB로부터 삭제할 수 있다. The voice model editing unit deletes at least one unupdated voice model from the matrix-type voice model DB if there is no new first voice model associated with the speaker, and at least one unupdated voice model if the new first voice model exists. The speech model is compared with the new first speech model, and if the difference is within the predetermined range, the speech model editing unit maintains the existing matrix-type speech model DB on the storage of the contextual speaker identification system and maintains the range. If out of the at least one voice model can be deleted from the speech model DB of the unupdated voice model.
한편, 본 발명의 일 실시예로써, 전술한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 제공될 수 있다.Meanwhile, as an embodiment of the present invention, a computer-readable recording medium having recorded thereon a program for executing the above method on a computer may be provided.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.DETAILED DESCRIPTION Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art may easily implement the present invention. As those skilled in the art would realize, the described embodiments may be modified in various different ways, all without departing from the spirit or scope of the present invention. In the drawings, parts irrelevant to the description are omitted in order to clearly describe the present invention, and like reference numerals designate like parts throughout the specification.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다. Terms used herein will be briefly described and the present invention will be described in detail.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다. The terms used in the present invention have been selected as widely used general terms as possible in consideration of the functions in the present invention, but this may vary according to the intention or precedent of the person skilled in the art, the emergence of new technologies and the like. In addition, in certain cases, there is also a term arbitrarily selected by the applicant, in which case the meaning will be described in detail in the description of the invention. Therefore, the terms used in the present invention should be defined based on the meanings of the terms and the contents throughout the present invention, rather than the names of the simple terms.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 명세서 전체에서 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, "그 중간에 다른 소자를 사이에 두고" 연결되어 있는 경우도 포함한다. When any part of the specification is to "include" any component, this means that it may further include other components, except to exclude other components unless otherwise stated. In addition, the terms "... unit", "module", etc. described in the specification mean a unit for processing at least one function or operation, which may be implemented in hardware or software or a combination of hardware and software. . In addition, when a part of the specification is "connected" to another part, this includes not only "directly connected", but also "connected with other elements in the middle".
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.Hereinafter, the present invention will be described in detail with reference to the accompanying drawings.
도 1은 종래의 화자 확인 시스템을 나타낸 도면이다. 1 is a view showing a conventional speaker identification system.
도 1에서와 같이, 종래의 일반적인 화자 확인 시스템은 먼저 확인 대상인 화자(예컨대, 도 1의 A)로부터 다수의 음성 샘플을 획득하여, 각각의 음성에 대한 주파수, 피치 등과 같은 특성 값을 추출한 후 중첩되는(overlap) 부분을 기준으로 음성에 대한 평준화를 진행한다. 평준화 이후 화자에 대한 음성 모델을 수립한다. 사람의 음성(voice) 등과 같은 음향 신호를 수집한 후, 수집된 신호로부터 잡음(noise)을 제거하고 음성 신호의 특징을 추출하여 데이터베이스(DB)화 해둘 수 있는데, 이러한 데이터베이스화를 음성 모델 수립으로 지칭할 수 있다. 다시 말해서, 특정화자(도 1의 A)에 대한 음성 모델 수립 과정을 통하여 특정화자의 음성에 대한 정보를 사전에 수집, DB 구축을 해둘 수 있다(예컨대, 도 1의 파란색 일점쇄선 박스). As shown in FIG. 1, a conventional speaker identification system first obtains a plurality of voice samples from a speaker (eg, A of FIG. 1) to be identified, extracts characteristic values such as frequency and pitch for each voice, and then overlaps them. The speech is leveled based on the overlapped portion. After leveling, a speech model is established for the speaker. After collecting an acoustic signal such as a human voice, noise can be removed from the collected signal, and the characteristics of the voice signal can be extracted and made into a database. May be referred to. In other words, through the speech model establishment process for the specific speaker (A of FIG. 1), information about the specific speaker's voice may be collected in advance and a DB may be constructed (eg, a blue dashed line box of FIG. 1).
음성에 대한 비교 기준이 설정된 음성 모델 수립 이후, 새롭게 입력되는 불특정 화자(예컨대, 도 1의 B)의 음성에 대하여 확인 대상 화자(도 1의 A)와 동일한 방식으로 음성 특성 파라미터 등이 추출되어 형성된 데이터를 확인 대상 화자의 음성 모델과 비교하여 미리 정해진 임계값(threshold value)을 상회할 경우 입력된 불특정 화자의 음성은 확인 대상 화자와 동일 인물인 것으로 판정한다. 다만, 전술한 바와 같이 이러한 종래의 음성 비교 방식은 소요 시간이 꽤 오래걸리고, 확인 대상 화자의 음성이 시간적, 환경적 요소에 의하여 변화하는 경우를 반영하지는 못한다는 문제점이 있다.  After establishing a speech model in which a comparison criterion for the speech is set, a speech characteristic parameter and the like are extracted and formed in the same manner as the verification target speaker (A of FIG. 1) with respect to a newly input voice of an unspecified speaker (for example, B of FIG. When the data is compared with the voice model of the speaker to be confirmed and the predetermined threshold value is exceeded, it is determined that the input voice of the unspecified speaker is the same person as the speaker to be confirmed. However, as described above, the conventional voice comparison method takes a long time, and does not reflect a case where the voice of the speaker to be confirmed is changed by temporal and environmental factors.
도 2는 종래의 문맥(단어) 제시형 화자 확인 시스템을 나타낸 도면이다. 2 is a diagram illustrating a conventional context (word) presentation speaker identification system.
종래의 일반적인 화자 확인 시스템은 사용자가 지정한 문장 또는 단어를 사용하는 문맥(단어) 고정형 시스템과 사용자의 발음 내용에 제한이 없는 문맥(단어) 자유형 시스템으로 구분될 수 있다. 문맥(단어) 고정형 시스템의 경우 시스템 효율성은 좋으나, 정해진 문맥(단어)의 노출 위험성과 사용자를 사칭한 녹음 등의 불법적인 방법의 사용가능성에 따른 보안성이 취약한 반면 문맥(단어) 자유형 시스템의 경우 사용자를 확인하기 위해 많은 훈련 데이터가 필요하여 시간적, 자원 활용도의 측면에서 시스템의 효율성이 낮다.Conventional speaker identification systems may be classified into a context (word) fixed type system using a sentence or word designated by a user and a context free form system having no limitation on the pronunciation content of the user. In the case of fixed context (word) systems, the system efficiency is good, but the security is weak due to the risk of exposure of a given context (word) and the use of illegal methods such as recording impersonating the user. A large amount of training data is required to identify the user, making the system less efficient in terms of time and resource utilization.
이러한 문맥(단어) 고정형 시스템과 문맥(단어) 자유형 시스템의 장점을 살리고 단점을 보완하고자 하는 시스템으로써 도 2에서와 같은, 문맥(단어) 제시형 시스템이 출현하였다. 이러한 문맥(단어) 제시형 시스템에서는 사용자의 확인이 필요한 경우 시스템에서 사용자에게 매번 다른 단어나 문장을 발음할 것을 요구하고, 요구한 단어나 문장에 대한 음성 인식 과정을 수행하여 요구된 단어 또는 문장과 일치되는 Text 인지를 1차적으로 확인 후 사용자에게 요구되는 단어 또는 문장의 발음정보에서 화자 고유의 특성 값을 추출하여 사전 정의된 화자의 음성 특성 값과 비교하여 사용자를 확인한다. 문맥(단어) 제시형 시스템의 이러한 절차를 거치면서 사용자가 지정한 문장 또는 단어의 기억이나 사용자를 사칭하는 녹음 등의 위험은 줄어들고, 성능면에서는 문맥(단어) 고정형과 같은 효율을 확보할 수 있다는 점이 이점이다.As a system to take advantage of the context (word) fixed system and the context (word) free form system and to compensate for the disadvantages, a context (word) presentation system, such as in Figure 2 has emerged. In this context-based system, if a user's confirmation is required, the system asks the user to pronounce a different word or sentence each time, and performs a speech recognition process for the requested word or sentence and After checking whether the text is matched, the speaker's unique feature value is extracted from the pronunciation information of the word or sentence required by the user and compared with the predefined speaker's voice feature value. This process of the context-based presentation system reduces the risk of remembering the user-specified sentences or words or recordings impersonating the user, and in terms of performance, it is possible to achieve the same efficiency as the context-fixed form. This is the advantage.
그러나, 문맥(단어) 제시형 시스템의 경우, 임의로 문맥(단어)를 생성하는 과정이 화자 음성 모델을 기반으로 하기 때문에 화자의 음성의 원천적인 입력과는 근본적인 차이가 있을 수 있으며, 음성 모델을 형성하는 과정에서의 평준화 오류가 발생할 수도 있다.However, in the case of the context-presenting system, since the process of generating the context (word) arbitrarily is based on the speaker's speech model, there may be a fundamental difference from the original input of the speaker's speech, forming a speech model. Leveling errors may occur during the process.
도 3은 음성에 대한 종래의 평준화 시스템을 나타낸 도면이다. 3 shows a conventional leveling system for speech.
사용자의 음성은 연속적 파형으로 샘플링 과정을 거쳐 디지털화될 수 있다. 일반적으로 시스템에서 화자 확인(식별 또는 인증)을 하기 위한 준거 데이터를 생성하기 위하여 하나의 사용자 음성이 아닌 다수의 음성 데이터를 샘플링 한 후 디지털화된 음성 데이터에 대한 공통된 데이터(예컨대, 평준화된 데이터)를 생성한다(도 3의 적색 영역). 이렇게 생성된 데이터를 기준으로 LPC(linear predictive coding), MFCC(Mel-Frequency Cepstral Coefficients) 등을 사용하여 음성에 대한 특성 값을 추출 후 음성에 대한 사용자 준거 데이터화 한다. 하지만, 정상적인 사용자의 발화 이외의 사용자의 감정, 주변 상황(예컨대, 소음 등), 화자의 건강 상태(예컨대, 감기 등의 질병)에 따라 같은 문맥(단어)라 하더라도 일반적으로 말하는 음성 톤, 즉, 주파수와 피치가 변동될 수 있다. 사용자가 발화하는 음성의 경우, 전술한 바와 같이 특정 환경 및 상태에서 음성이 변화할 수 있음에도 불구하고 기존의 방식과 같이 단순히 평준화된 데이터를 기준으로 한 음성 모델 구성은 사용자의 생활 환경 등에 따른 일상적인 특성 값을 왜곡하여 오히려 정확한 화자 확인(식별)의 방해 요인으로 작용할 수 있다. The user's voice can be digitized through a sampling process into continuous waveforms. In general, the system samples a plurality of voice data instead of one user voice to generate reference data for speaker identification (identification or authentication), and then common data (eg, normalized data) for the digitized voice data is collected. (Red region in Fig. 3). Based on the data generated in this way, LPC (linear predictive coding) and MFCC (Mel-Frequency Cepstral Coefficients) are used to extract feature values for speech and then user-referenced data for speech. However, according to the user's feelings other than the normal user's utterance, surrounding conditions (e.g., noise, etc.), and the speaker's health condition (e.g., a disease such as a cold), the voice tone generally spoken, that is, Frequency and pitch can vary. In the case of the voice spoken by the user, although the voice may be changed in a specific environment and state as described above, the voice model configuration based on simply leveled data, as in the conventional method, is a common method according to the user's living environment. Distortion of the characteristic values can rather act as a barrier to accurate speaker identification (identification).
도 4는 본 발명의 일 실시예에 따른 발화된 단어에 기초하여 화자를 식별하기 위한 방법을 나타낸 순서도이고, 도 5는 본 발명의 일 실시예에 따른 구체적인 화자 식별 방법을 나타낸 순서도이다.4 is a flowchart illustrating a method for identifying a speaker based on a spoken word according to an embodiment of the present invention, and FIG. 5 is a flowchart illustrating a specific speaker identification method according to an embodiment of the present invention.
본 발명의 일 실시예에 따른 발화된 단어에 기초하여 화자를 식별하기 위한 방법은 화자로부터 발화된 음성을 수신하는 단계(S110), 수신된 음성에 포함된 단어 및 단어에 대한 음성정보를 추출하는 단계(S120), 미리 구축된 데이터베이스(DB)에서 단어를 검색하는 단계(S130), DB에 단어가 존재하지 않는 경우에는 단어 및 단어에 대한 음성정보를 DB에 추가하고, DB에 단어가 존재하는 경우에는 발화된 단어의 음성정보와 DB 상에 저장되어 있는 각각의 참조 음성정보를 비교하는 단계(S140), 각각의 참조 음성정보와의 비교에 따른 유사도를 추정하는 단계(S150), 추정된 유사도에 상응하는 음성정보가 수신되는 횟수에 기초하여 화자의 단어에 대한 발화 패턴을 결정하는 단계(S160) 및 결정된 발화 패턴에 기초하여 화자를 식별하는 단계(S170)를 포함할 수 있다. According to an embodiment of the present invention, a method for identifying a speaker based on a spoken word includes receiving a spoken voice from a speaker (S110), extracting a word included in the received voice, and voice information of the word. Step S120, searching for a word in a pre-built database DB (S130), if a word does not exist in the DB, adds the word and voice information of the word to the DB, and the word exists in the DB. In the case of comparing the voice information of the spoken word with each reference voice information stored in the DB (S140), estimating the similarity according to the comparison with each reference voice information (S150), the estimated similarity The method may include determining an utterance pattern for the speaker's word based on the number of times voice information corresponding to the signal is received (S160) and identifying a speaker based on the determined utterance pattern (S170).
본 발명의 일 실시예에 따른 단어에 대한 음성정보에는 음성의 주파수, 피치(pitch), 포먼트(formant), 발화시간 및 발화속도 중 적어도 하나가 포함될 수 있다. The voice information of the word according to an embodiment of the present invention may include at least one of the frequency, pitch, formant, speech time, and speech speed of the speech.
피치(pitch)는 음의 높이를 지칭한다. 음성(유성음)은 성대 진동의 기본 주파수 성분과 그 고조파 성분으로 구성된다. 진동근원체는 모두 특유한 진동 특성(예컨대, 공진특성)을 가지고 있다. 사람의 조음 기관(예컨대, 성대 등)도 조음에 따라 변하는 순간에서의 공진 특성이 있으며, 성대파가 이러한 공진 특성에 따라 여과되어 소리로써 표현될 수 있다. 특정음(예컨대, 모음)의 주파수 스펙트럼을 살펴보면 공진 특성 발현 시, 그 공진대역이 복수개 이상 존재함을 확인할 수 있다. 이러한 복수개의 공진 주파수대역을 포먼트(formant)로 지칭한다. Pitch refers to the pitch of the note. Voice (voiced sound) consists of the fundamental frequency component of vocal cord vibration and its harmonic components. All of the oscillation sources have unique vibration characteristics (eg, resonance characteristics). Human articulation organs (eg, vocal cords, etc.) also have a resonance characteristic at the moment that changes with the articulation, and the vocal cords can be filtered and expressed according to the resonance characteristics. Looking at the frequency spectrum of a particular sound (eg, a vowel), it can be seen that a plurality of resonance bands exist when the resonance characteristic is expressed. Such a plurality of resonant frequency bands is referred to as a formant.
도 4 및 도 5를 참조하면, 본 발명의 일 실시예에 따르면, DB에 단어가 존재하지 않는 경우에는 단어 및 단어에 대한 음성정보를 DB에 추가할 수 있다. 이러한 추가된 음성정보는 참조 음성정보로써 이후 화자에 의한 음성이 수신될 때 음성정보의 비교를 위한 기준 데이터로 활용될 수 있다. 또한, DB에 단어가 존재하는 경우에는 발화된 단어의 음성정보와 DB 상에 저장되어 있는 각각의 참조 음성정보를 비교할 수 있다. 이러한 비교 단계(S140)에서는 화자로부터 발화된 단어에 대한 음성정보가 DB 상에 저장되어 있는 적어도 하나의 참조 음성정보와 유사한지 여부를 판단할 수 있다. 4 and 5, according to an embodiment of the present invention, when a word does not exist in the DB, the word and the voice information of the word may be added to the DB. The added voice information may be used as reference data for comparison of voice information when a voice by a speaker is received later as reference voice information. In addition, when a word exists in the DB, voice information of the spoken word may be compared with each reference voice information stored in the DB. In the comparison step (S140), it may be determined whether the voice information of the word spoken by the speaker is similar to at least one reference voice information stored in the DB.
본 발명의 일 실시예에 따른 각각의 참조 음성정보와의 비교에 따른 유사도를 추정하는 단계(S150)에서는 전술한 판단의 결과에 따라 유사도가 추정되며, 추정된 유사도가 제 1 기준값 미만인 경우에는 신규의 참조 음성정보가 생성되어 DB에 저장될 수 있다. 또한, 이러한 경우 추정된 유사도 정보가 음성정보에 포함되어 DB 상에 함께 저장될 수 있다. 예를 들어, 제 1 기준값은 70%(또는 0.7)일 수 있고, 이러한 제 1 기준값은 사용자의 설정에 따라 가변적으로 설정될 수 있다. 동일한 화자에 의한 동일한 단어가 발화되더라도, 화자의 상태, 환경 조건(요소)들에 따라 음성정보가 변화될 수 있으므로, 화자 인식의 정확성을 보다 향상시키기 위해서는 본원에서와 같이 화자 개인별 특정 단어에 대한 발화 패턴을 지속적으로 추적하여 관리할 필요가 있다. In the step of estimating the similarity according to the comparison with the respective reference voice information according to an embodiment of the present invention (S150), the similarity is estimated according to the result of the above determination, and when the estimated similarity is less than the first reference value, Reference voice information of may be generated and stored in the DB. In this case, the estimated similarity information may be included in the voice information and stored together on the DB. For example, the first reference value may be 70% (or 0.7), and the first reference value may be variably set according to a user's setting. Even if the same word is spoken by the same speaker, the voice information may be changed according to the speaker's state and environmental conditions (elements). You need to keep track of your patterns and manage them.
또한, 제 1 기준값 이상인 경우에는 해당 유사도를 갖는 참조 음성정보의 매칭 횟수가 증가되어 카운팅될 수 있다. 다시 말해서, 화자에 의하여 동일한 단어가 동일하거나 유사도가 높은 음성정보를 갖도록 반복적으로 발화된다면, 화자는 현재의 이러한 발화 패턴으로 또 다시 발화할 가능성이 매우 높아진다. 즉, 본 발명의 일 실시예에서와 같이, 화자의 발화 패턴에 대한 빈도를 파악(수집)하여 이를 화자 인식(식별)에 사용함으로써 정확성과 신뢰성을 고수준으로 확보할 수 있을 뿐만 아니라 화자의 음성정보를 최신화하여 유지할 수 있다. In addition, when the reference value is greater than or equal to the first reference value, the number of matching of the reference voice information having the corresponding similarity may be increased and counted. In other words, if the same word is repeatedly uttered by the speaker to have the same or similar voice information, the speaker is highly likely to speak again in this current speech pattern. That is, as in an embodiment of the present invention, by grasping (collecting) the frequency of the speaker's speech pattern and using the same for speaker recognition (identification), not only can a high level of accuracy and reliability be obtained, but also voice information of the speaker. Can be kept up to date.
본 발명의 일 실시예에 따른 화자의 단어에 대한 발화 패턴을 결정하는 단계(S160)에서는 카운팅된 매칭 횟수가 제 2 기준값 미만인 경우에는 화자로부터 발화된 신규의 음성이 수신되어 유사도가 추정되는 전술한 과정들이 반복적으로 수행되도록 할 수 있다. 다시 말해서, 카운팅된 매칭 횟수가 일정 수준을 넘겨야 화자의 반복적인 현재의 발화 패턴임을 신뢰성 있게 추정할 수 있기 때문에, 소정의 수준(예컨대, 제 2 기준값 이상)이 되도록 화자로부터 신규 음성을 수신 받아 전술한 과정(단계)들을 반복적으로 수행한다. In the determining of the speech pattern for the speaker's word according to an embodiment of the present invention (S160), when the number of matching counts is less than the second reference value, a new voice spoken from the speaker is received to estimate similarity. The processes can be performed repeatedly. In other words, since it is possible to reliably estimate that the counted matching number must exceed a certain level, the speaker's repeated current speech pattern can be reliably received. Repeat steps (steps).
카운팅된 매칭 횟수가 제 2 기준값 이상인 경우에는, 해당 참조 음성정보를 화자의 단어에 대한 발화 패턴으로써 결정할 수 있다. 이러한 제 2 기준값은 예를 들어, 5 내지 10 범위에 포함된 값을 가질 수도 있다. When the counted matching count is equal to or greater than the second reference value, the reference voice information may be determined as a speech pattern for the speaker's word. This second reference value may, for example, have a value comprised in the range of 5-10.
본 발명의 일 실시예에 따른 추정된 유사도에 상응하는 음성정보가 수신되는 횟수에 기초하여 화자의 단어에 대한 발화 패턴을 결정하는 단계(S160)에서는 제 2 기준값 이상의 카운팅된 매칭 횟수를 갖는 유사도에 상응하는 음성정보에 기초하여 화자의 음성 모델이 수립됨으로써 발화 패턴이 결정될 수 있다. 전술한 바와 같이, 카운팅된 매칭 횟수가 제 2 기준값 이상인 참조 음성정보가 화자의 음성 모델로써 수립될 수 있고, 이에 따라 발화 패턴이 결정될 수 있다. In the determining of the speech pattern for the speaker's word based on the number of times the voice information corresponding to the estimated similarity is received according to an embodiment of the present invention, the similarity having the number of matching counts equal to or greater than the second reference value is determined. A speech pattern may be determined by establishing a speaker's speech model based on the corresponding speech information. As described above, reference voice information having a counted matching count greater than or equal to the second reference value may be established as the speaker's voice model, and thus a speech pattern may be determined.
또한, 결정된 발화 패턴에 기초하여 화자를 식별하는 단계(S170)에서는 발화된 음성에 대하여 전술한 단계를 통하여 결정된 발화 패턴을 기준으로 발화 음성의 화자가 누구인지 여부가 식별될 수 있다. 다시 말해서, 제 1 기준값 및 제 2 기준값을 상회하는 참조 음성정보는 확인 대상 화자의 발화 패턴으로 결정될 수 있고, 음성이 입력(수신)된다면 이러한 결정되 발화 패턴에 따라 해당 음성을 발화한 화자가 확인 대상 화자와 동일 인물인지 타인인지 여부가 빠르고 정확하게 식별될 수 있다. In operation S170, the speaker may be identified based on the speech pattern determined through the above-described steps with respect to the spoken speech. In other words, the reference voice information exceeding the first reference value and the second reference value may be determined by the speech pattern of the speaker to be confirmed, and if the voice is input (received), the speaker who uttered the voice according to the determined speech pattern is confirmed. Whether it is the same person or another person as the target speaker can be identified quickly and accurately.
도 6은 본 발명의 일 실시예에 따른 발화된 단어에 기초하여 화자를 식별하기 위한 장치를 나타낸 블록도이다. 6 is a block diagram illustrating an apparatus for identifying a speaker based on a spoken word according to an embodiment of the present invention.
본 발명의 일 실시예에 따른 발화된 단어에 기초하여 화자를 식별하기 위한 장치(1000)에는 화자로부터 발화된 음성을 수신하는 음성수신부(1100), 수신된 음성에 포함된 단어 및 단어에 대한 음성정보를 추출하는 정보추출부(1200), 미리 구축된 데이터베이스(DB)에서 단어를 검색하는 정보검색부(1300), DB에 단어가 존재하지 않는 경우에는 단어 및 단어에 대한 음성정보를 DB에 추가하고, DB에 단어가 존재하는 경우에는 발화된 단어의 음성정보와 DB 상에 저장되어 있는 각각의 참조 음성정보를 비교하는 비교부(1400), 각각의 참조 음성정보와의 비교에 따른 유사도를 추정하는 유사도추정부(1500), 추정된 유사도에 상응하는 음성정보가 수신되는 횟수에 기초하여 화자의 단어에 대한 발화 패턴을 결정하는 발화패턴결정부(1600) 및 결정된 발화 패턴에 기초하여 화자를 식별하는 화자식별부(1700)가 포함될 수 있다. The apparatus 1000 for identifying a speaker based on a spoken word according to an embodiment of the present invention includes a voice receiver 1100 for receiving a spoken voice from a speaker, a word included in the received voice, and a voice for a word. Information extraction unit 1200 for extracting information, information search unit 1300 for searching for words in a pre-built database (DB), and if words do not exist in the DB, adds words and voice information of the words to the DB. If there is a word in the DB, a comparison unit 1400 for comparing the voice information of the spoken word with each reference voice information stored in the DB, and estimates the similarity according to the comparison with each reference voice information. The similarity estimation unit 1500 for determining the speech pattern corresponding to the speaker's word based on the number of times voice information corresponding to the estimated similarity is received, and based on the determined speech pattern. A speaker identification unit 1700 for identifying a speaker may be included.
또한, 단어에 대한 음성정보에는 음성의 주파수, 피치(pitch), 포먼트(formant), 발화시간, 발화속도 중 적어도 하나가 포함될 수 있다. In addition, the voice information about the word may include at least one of the frequency, pitch, formant, speech time, and speech speed of the speech.
도 6을 참조하면, 제 1 사용자(제 1 화자)가 예를 들어, "기업"이라고 발화하면 제 1 사용자에 대한 식별자인 태그 정보(예컨대, U000)가 할당되고, 발화된 "기업"이라는 음성에 대한 음성정보(예컨대, 벡터 특성 정보 등)(V_Inof000)가 태그 정보(U000)와 연동되어 DB 상에 저장되어 관리될 수 있다. 또한, 전술한 바와 같은 발화 매칭 횟수정보가 태그 정보(U000) 및 음성정보(V_Inof000)와 함께 저장되어 관리될 수 있다.(예컨대, 도 6에서 "2") Referring to FIG. 6, when the first user (first speaker) speaks, for example, "corporate", tag information (eg, U000), which is an identifier for the first user, is assigned, and the speech "enterprise" is spoken. Voice information (for example, vector property information, etc.) V_Inof000 for the data may be stored and managed in the DB in association with the tag information U000. In addition, the speech matching count information as described above may be stored and managed together with the tag information U000 and the voice information V_Inof000. (E.g., "2" in FIG. 6).
이와 유사하게 제 1 화자가 예를 들어, "은행"이라고 발화하면 제 1 화자에 대한 식별자인 태그 정보(예컨대, U000)와 발화된 "은행"이라는 음성에 대한 음성정보(V_Inof003)가 발화 매칭 횟수정보와 함께 저장되어 관리될 수 있다.(예컨대, 도 6에서 "7") Similarly, when the first speaker speaks, for example, "bank", the tag information (for example, U000), which is an identifier for the first speaker, and the voice information (V_Inof003) for the voice of the spoken "bank" are spoken matching times. It can be stored and managed with the information (eg, "7" in FIG. 6).
제 2 사용자(제 2 화자)의 태그 정보는 예를 들면, U011로 할당될 수 있다. Tag information of the second user (second speaker) may be assigned to U011, for example.
본 발명의 일 실시예에 따른 비교부(1400)에서는 화자로부터 발화된 단어에 대한 음성정보가 DB 상에 저장되어 있는 적어도 하나의 참조 음성정보와 유사한지 여부를 판단하고, 유사도추정부(1500)에서는 판단의 결과에 따라 유사도가 추정되며, 추정된 유사도가 제 1 기준값 미만인 경우에는 신규의 참조 음성정보가 생성되어 DB에 저장되고, 제 1 기준값 이상인 경우에는 해당 유사도를 갖는 참조 음성정보의 매칭 횟수가 증가되어 카운팅될 수 있다. The comparator 1400 according to an embodiment of the present invention determines whether the voice information of the word spoken by the speaker is similar to at least one reference voice information stored in the DB, and the similarity estimation unit 1500. The similarity is estimated according to the result of the determination. If the estimated similarity is less than the first reference value, new reference voice information is generated and stored in the DB. If the estimated similarity is greater than or equal to the first reference value, the number of matching of the reference voice information having the corresponding similarity is determined. May be increased and counted.
또한, 발화패턴결정부(1600)에서는 카운팅된 매칭 횟수가 제 2 기준값 미만인 경우에는 화자로부터 발화된 신규의 음성이 수신되어 유사도가 추정되는 과정이 반복적으로 수행되도록 하고, 제 2 기준값 이상인 경우에는 화자의 단어에 대한 발화 패턴으로 결정할 수 있다. In addition, when the number of matched counts is less than the second reference value, the speech pattern determination unit 1600 receives a new voice spoken from the speaker and repeatedly performs the process of estimating the similarity. It can be determined by the speech pattern for the word of.
본 발명의 일 실시예에 따르면, 제 2 기준값 이상의 카운팅된 매칭 횟수를 갖는 유사도에 상응하는 음성정보에 기초하여 화자의 음성 모델이 수립됨으로써 발화 패턴이 발화패턴결정부(1600)에 의하여 결정되고, 화자식별부(1700)에서는 발화된 음성에 대하여 결정된 발화 패턴을 기준으로 화자가 누구인지 여부가 식별될 수 있다. According to an embodiment of the present invention, a speech pattern is determined by the speech pattern determining unit 1600 by establishing a speech model of a speaker based on speech information corresponding to a similarity having a number of matching counts equal to or greater than a second reference value. The speaker identification unit 1700 may identify who is the speaker based on the speech pattern determined for the spoken voice.
도 7은 본 발명의 일 실시예에 따른 음성에 대한 평준화 시스템을 나타낸 도면이다. 7 is a diagram illustrating a leveling system for speech according to an embodiment of the present invention.
예를 들면, 시스템에서는 사용자의 일상적인 발화 패턴에 대하여 알 수 없으며, 발화하는 상태에 대하여도 알 수 없을 수 있다. 이에 사용자가 발화하는 음성에 대하여 각 개별 문맥(단어) 수준에서 음성 특성 별 개별적인 참조 음성정보 DB를 구축한다. 이후 신규로 입력되는 음성은 특성 분류 후 기존에 구축된 참조 음성정보 DB와 비교하여 특성 유사도를 판별하여 소정의 기준값(예컨대, 제 3 기준값) 이상일 경우, 비교된 참조 음성정보 DB 외 신규 입력된 음성에 대한 유사 참조 음성정보 DB를 형성함과 동시에 사용자 음성 유사도 패턴을 분석할 수 있도록 해당 참조 음성정보 DB의 대한 매칭 횟수 카운팅을 1씩 증가시킨다. 아울러 비교 시 음성의 특성 유사도가 제 3 기준값 이하인 경우에는 새로운 참조 음성정보 값으로 신규 DB를 생성하도록 한다.For example, the system may not know about the user's everyday speech pattern, and may not know about the state of speech. Accordingly, for each voice spoken by the user, a separate reference voice information DB for each voice property is constructed. Thereafter, the newly input voice is distinguished from the reference voice information DB constructed after the characteristic classification, and the characteristic similarity is determined. If the reference voice value is equal to or greater than a predetermined reference value (for example, the third reference value), the newly input voice other than the compared reference voice information DB The number of matching counts of the reference voice information DB is increased by 1 so as to form a similar reference voice information DB for the user and to analyze the user voice similarity pattern. In addition, when the feature similarity of speech is less than or equal to the third reference value, a new DB may be generated as a new reference speech information value.
지속적인 신규 음성 입력에 대하여 위와 같은 과정을 반복하면서 소정의 기준값(예컨대, 제 4 기준값) 이상 유사성이 큰 DB가 지속적으로 나타날 경우(예컨대, 카운팅된 매칭 횟수가 많은 경우), 해당 참조 음성정보를 사용자의 특정 문맥(단어)에 대한 음성 패턴으로 인식하여 해당 참조 음성정보의 DB를 화자 음성 모델 수립을 위한 기초 음성 데이터로써 사용한다. 이렇게 함으로 화자의 다양한 음성 상태 변이에 대한 왜곡 오류를 효과적으로 제거할 수 있으며, 특정 화자의 문맥(단어)에 대한 음성 패턴을 정규화할 수 있다.Repeating the above process for a continuous new voice input, if a DB with a high similarity over a predetermined reference value (for example, the fourth reference value) continues to appear (for example, when a count of matching counts is high), the corresponding reference voice information is used. Recognizes as a speech pattern for a specific context (word), and uses the DB of the reference speech information as basic speech data for establishing a speaker speech model. This effectively eliminates distortion errors for the speaker's various voice state transitions and can normalize the voice pattern for the context (word) of a particular speaker.
도 8은 본 발명의 일 실시예에 따른 화자의 발화 유사성에 기초한 평준화 과정을 나타낸 도면이다.8 is a view showing a leveling process based on the speaker's utterance similarity according to an embodiment of the present invention.
도 3과는 상이하게 도 8의 음성 그래프는 유사도를 띠고 있어, 각 음성 데이터에 차이가 많이 발생하지 않음을 알 수 있다. 이를 대상으로 공통된 내용(예컨대, 도 8의 빗금 영역)을 기준으로 음성 모델을 수립한 후 신규 입력되는 불특정 화자 음성을 비교 매칭하여 화자 식별을 수행할 수 있다. Unlike in FIG. 3, the voice graph of FIG. 8 has a similarity, and thus, it can be seen that not much difference occurs in each voice data. The speech model may be established based on the common content (eg, the hatched region of FIG. 8), and the speaker identification may be performed by comparing and matching a newly input unspecified speaker speech.
이때 화자 확인 결정의 예시적인 일 기준 요인으로써, 공통 영역(예컨대, 도 8의 빗금 영역) 외 해당 음성 데이터의 최대 값과 최소 값 차이가 오차 범위로 적용될 수 있으며, 입력 비교값이 오차 범위 내에 수렴될 경우 음성을 발화한 화자는 참조 음성정보 DB에 상응하는 정당한 화자(즉, 동일한 인물)로 인식할 수도 있다. In this case, as an exemplary reference factor of speaker identification determination, a difference between the maximum value and the minimum value of the corresponding voice data other than the common area (eg, the hatched area of FIG. 8) may be applied as an error range, and the input comparison value converges within the error range. In this case, the speaker who uttered the voice may be recognized as a legitimate speaker (ie, the same person) corresponding to the reference voice information DB.
본 명세서에서 전술한 수치값은 이해를 돕기 위한 설명상의 편의를 위하여 제시된 예로써, 이에 반드시 제한되는 것은 아니다. The numerical values described above in the present specification are provided as examples for convenience of explanation for easy understanding, and are not necessarily limited thereto.
본 발명의 일 실시예에 따른 발화된 단어에 기초하여 화자를 식별하기 위한 장치와 관련하여서는 전술한 방법에 대한 내용이 적용될 수 있다. 따라서, 장치와 관련하여, 전술한 방법에 대한 내용과 동일한 내용에 대하여는 설명을 생략하였다.With regard to the apparatus for identifying the speaker based on the spoken word according to an embodiment of the present invention, the above-described method may be applied. Therefore, with respect to the apparatus, the description of the same contents as those of the above-described method is omitted.
전술한 발화된 단어에 기초하여 화자를 식별하기 위한 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터 판독 가능 매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 방법에서 사용된 데이터의 구조는 컴퓨터 판독 가능 매체에 여러 수단을 통하여 기록될 수 있다. 본 발명의 다양한 방법들을 수행하기 위한 실행 가능한 컴퓨터 프로그램이나 코드를 기록하는 기록 매체는, 반송파(carrier waves)나 신호들과 같이 일시적인 대상들은 포함하는 것으로 이해되지는 않아야 한다. 상기 컴퓨터 판독 가능 매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, DVD 등)와 같은 저장 매체를 포함할 수 있다.The method for identifying a speaker based on the spoken words described above can be written in a program executable in a computer, and can be implemented in a general-purpose digital computer operating the program using a computer readable medium. In addition, the structure of the data used in the above-described method can be recorded on the computer-readable medium through various means. A recording medium for recording an executable computer program or code for performing various methods of the present invention should not be understood to include temporary objects, such as carrier waves or signals. The computer readable medium may include a storage medium such as a magnetic storage medium (eg, a ROM, a floppy disk, a hard disk, etc.), an optical reading medium (eg, a CD-ROM, a DVD, etc.).
한편, 정상적인 사용자의 발화 이외의 사용자의 감정, 주변 상황(예컨대, 소음 등), 화자의 건강 상태(예컨대, 감기 등의 질병)에 따라 같은 문맥(단어)라 하더라도 일반적으로 말하는 음성 톤, 즉, 주파수와 피치가 변동될 수 있다. 다시 말해서, 화자의 음성은 시간적 요소(예컨대, 노화 등), 환경적 요소(예컨대, 콘서트장 등)에 의하여 일시적으로 또는 일정 기간 동안 계속적으로 변화할 수 있기 때문에, 이러한 변화 가능성을 모니터링함과 동시에 변화된 음성정보를 지속적으로 수집하여 업데이트함으로써 화자의 현재 상태가 충분히 반영된 음성정보에 따라 화자를 빠르고 정확하게 식별해낼 필요가 있다.On the other hand, even in the same context (word) according to the user's feelings other than the normal user's speech, the surrounding situation (for example, noise, etc.), and the speaker's health condition (for example, a disease such as a cold), a general tone of speech, that is, Frequency and pitch can vary. In other words, since the speaker's voice can change temporarily or for a period of time by time factors (eg aging), environmental factors (eg concert halls, etc.) By continuously collecting and updating the changed voice information, it is necessary to quickly and accurately identify the speaker according to the voice information sufficiently reflecting the current state of the speaker.
사용자가 발화하는 음성의 경우, 전술한 바와 같이 특정 환경 및 상태에서 음성이 변화할 수 있음에도 불구하고 기존의 방식과 같이 고정된 음성 모델을 사용하여 사용자의 음성을 식별하는 것은 사용자의 생활 환경 등에 따른 음성의 변동 가능성을 전혀 고려하지 못하므로, 음성 인식에 있어서 신뢰성이 심각하게 떨어질 수 있다. In the case of the voice spoken by the user, although the voice may be changed in a specific environment and state as described above, the identification of the user's voice using a fixed voice model as in the conventional method is dependent on the user's living environment and the like. Since the possibility of speech fluctuations is not considered at all, reliability in speech recognition may be seriously degraded.
본 발명의 일 실시예에 따른 문맥 기반 음성 모델 관리 장치 및 그 장치의 동작 방법에 따르면, 화자의 시간적, 환경적 요소에 무관하게 종래 기술 대비 화자에 대한 안정적인, 신뢰성 있는 음성 식별(인증)이 가능하다.According to the context-based voice model management device and the operation method of the device according to an embodiment of the present invention, stable and reliable voice identification (authentication) for the speaker is possible compared to the prior art regardless of the time and environmental factors of the speaker. Do.
도 9는 본 발명의 일 실시예에 따른 문맥 기반 음성 모델 관리 장치의 블록도이고, 도 10은 본 발명의 일 실시예에 따른 문맥 기반 음성 모델 관리 장치 및 이와 연동 가능한 문맥 제시형 화자 식별 시스템 각각의 블록도를 나타내며, 도 11은 문맥 제시형 화자 식별 시스템의 동작 예를 나타낸다. 또한, 도 12는 본 발명의 일 실시예에 따른 문맥 기반 음성 모델 관리 장치의 동작예를 나타낸 순서도이고, 도 13은 본 발명의 다른 실시예에 따른 문맥 기반 음성 모델 관리 장치의 동작예를 나타낸다.9 is a block diagram of a context-based speech model management apparatus according to an embodiment of the present invention, and FIG. 10 is a context-based speech model management apparatus and a context-presenting speaker identification system interoperable with each other according to an embodiment of the present invention. A block diagram of FIG. 11 shows an example of an operation of a contextual speaker identification system. 12 is a flowchart illustrating an operation example of the context-based speech model management apparatus according to an embodiment of the present invention, and FIG. 13 illustrates an operation example of the context-based speech model management apparatus according to another embodiment of the present invention.
본 발명의 일 실시예에 따른 문맥 기반 음성 모델 관리 장치(3000)는 문맥 제시형 화자 식별 시스템(4000)과 연동될 수 있고, 이러한 장치(3000)에는 화자로부터의 음성이 수신될 때마다 생성된 개별 음성 데이터가 저장된 저장부(3100), 개별 음성 데이터가 저장부(3100)에 복수개 저장되면, 저장부(3100)로부터 각각의 개별 음성 데이터를 추출하여 개별 음성 데이터 간의 유사도를 추정하는 유사도 추정부(3200), 유사도 추정부(3200)에 의하여 추정된 유사도에 기초하여 선별된 적어도 하나의 개별 음성 데이터에 따라 화자의 제 1 음성 모델을 생성하는 음성모델 생성부(3300), 문맥 제시형 화자 식별 시스템(4000)의 저장부(4400)에 제 1 음성 모델에 상응하는 비교 음성 모델이 존재하는지 여부를 판단하고, 존재하지 않는다면 제 1 음성 모델을 문맥 제시형 화자 식별 시스템(4000)의 저장부(4400)로 제공하여 저장되게 하고, 존재한다면 제 1 음성 모델과 비교 음성 모델의 비교유사도가 유사도 추정부(3200)를 통하여 추정되게 하는 판단부(3400) 및 이러한 판단부(3400)에 의한 유사도 추정부(3200)에서의 추정 결과인 비교유사도가 소정의 기준값 이상인 경우 비교 음성 모델을 제 1 음성 모델로 교체하고, 소정의 기준값 미만인 경우 제 1 음성 모델과 비교 음성 모델을 조합하여 제 2 음성 모델을 생성하는 음성모델 편집부(3500)가 포함되고, 제 2 음성 모델은 판단부(3400) 및 음성모델 편집부(3500)로 재차 제공될 수 있다. The context-based speech model management apparatus 3000 according to an embodiment of the present invention may be interworked with the context-presenting speaker identification system 4000, and the apparatus 3000 is generated whenever a voice from the speaker is received. When a plurality of individual voice data is stored in the storage unit 3100 and the individual voice data are stored in the storage unit 3100, a similarity estimator extracts each individual voice data from the storage unit 3100 and estimates the similarity between the individual voice data. 3200, a speech model generator 3300 for generating a speaker's first speech model based on the at least one individual speech data selected based on the similarity estimated by the similarity estimator 3200, and the contextual presentation speaker identification It is determined whether a comparison speech model corresponding to the first speech model exists in the storage unit 4400 of the system 4000, and if not, the first speech model is identified when the context-presenting speaker is identified. The determination unit 3400 and the determination to provide the storage unit 4400 of the system 4000 and store the same, and if there is a comparison similarity between the first voice model and the comparison voice model, through the similarity estimation unit 3200. The comparison speech model is replaced with the first speech model when the comparison similarity degree, which is a result of estimation by the similarity estimating unit 3200, is greater than or equal to the predetermined reference value. When the comparison similarity model is less than the predetermined reference value, the first speech model and the comparison speech model are compared. The voice model editing unit 3500 for generating a second voice model may be included, and the second voice model may be provided again to the determination unit 3400 and the voice model editing unit 3500.
또한, 문맥 제시형 화자 식별 시스템(4000)에는, 화자로부터 음성을 수신하는 음성수신부(4100), 수신된 음성으로부터 음성특성을 추출하기 위한 음성특성 추출부(4200), 추출된 음성특성에 기초하여 음성 모델을 생성하는 문맥 음성모델 생성부(4300), 생성된 음성 모델이 행렬(matrix) 형태로 저장되어 있는 저장부(4400), 화자의 식별에 사용될 난수를 발생시키는 난수발생부(4500), 저장부의 행렬 형태의 음성 모델 DB 상의 발생된 난수에 상응하는 위치에서의 음성 모델을 추출하는 음성모델 추출부(4600), 추출된 음성 모델에 기초하여 화자에게 소정의 음성 발화를 요청하는 음성발화 요청부(4700) 및 화자로부터 발화된 음성을 추출된 음성 모델과 비교하여 화자를 식별하는 화자식별부(4800)가 포함되고, 소정의 음성 발화는 발생된 난수에 상응하는 저장부의 행렬 형태의 DB 상의 위치에 미리 설정되어 있는 단어 또는 문장의 독음일 수 있다. In addition, the contextual presentation speaker identification system 4000 includes a voice receiver 4100 for receiving a voice from the speaker, a voice feature extractor 4200 for extracting voice characteristics from the received voice, and a voice attribute based on the extracted voice characteristic. A contextual speech model generator 4300 for generating a speech model, a storage unit 4400 in which the generated speech model is stored in a matrix form, a random number generator 4500 for generating a random number to be used for identification of a speaker, A voice model extractor 4600 for extracting a voice model at a position corresponding to the random number generated on the matrix-shaped voice model DB of the storage unit, and a voice speech request for requesting a speaker to make a predetermined speech based on the extracted voice model. A unit 4700 and a speaker identification unit 4800 identifying a speaker by comparing the speech uttered from the speaker with the extracted speech model, and the predetermined speech utterance is a matrix of the storage unit corresponding to the generated random number. It may be a sound of a word or sentence that is preset at a position on a DB of the form.
예를 들어, '은행' 이라는 단어 및 해당 단어의 발화 음성 모델이 저장부(4400)의 매트릭스 DB에 미리 저장되어 있고, 음성을 통한 사용자 식별(확인)을 위하여 사용자의 '은행' 이라는 단어의 발화가 필요한 경우에, 음성발화 요청부(4700)는 사용자로 하여금 "은행이라는 단어를 발음하시오" 라고 요청할 수 있다. 이러한 요청은 음성 또는 그림, 메시지 등으로 사용자에게 제시될 수 있다. 본 발명의 일 실시예에 따른 음성 모델은 문맥과 해당 문맥에 대한 화자의 발음 방식 등의 발화 패턴 정보가 포함된 데이터 집합을 지칭한다. 또한, 문맥이라 함은, 특정의 단어(예컨대, "은행") 뿐만 아니라 해당 단어가 포함된 일련의 문장을 포함하는 것을 지칭한다. For example, the word 'bank' and a spoken speech model of the word are stored in a matrix DB of the storage unit 4400 in advance, and the user's word 'bank' is spoken for user identification (confirmation) through voice. If necessary, the voice request unit 4700 may request the user to pronounce the word "bank". Such a request may be presented to the user by voice, picture, message, or the like. The speech model according to an embodiment of the present invention refers to a data set including speech pattern information such as a context and a speaker's pronunciation method for the context. In addition, context refers to a particular word (eg, "bank") as well as containing a series of sentences containing the word.
전술한 '은행' 이라는 단어 및 해당 단어의 발화 음성 모델은 미리 정해진 매트릭스 DB의 행렬 위치 상에 저장되어 있을 수 있다. 사용자 음성 식별이 필요한 경우, 난수발생부(4500)에서는 난수가 발생되고, 해당 난수에 상응하는 매트릭스 DB의 행렬 위치 상의 단어가 음성발화 요청 대상 단어로써 사용자에게 제시될 수 있다. The word 'bank' and the spoken speech model of the word may be stored on a matrix position of a predetermined matrix DB. When user voice identification is required, the random number generator 4500 generates a random number, and a word on the matrix position of the matrix DB corresponding to the random number may be presented to the user as a voice speech request target word.
본 발명의 일 실시예에 따른 문맥 제시형 음성 모델 매트릭스 DB는 NxM (N, M은 동일하거나 상이한 양의 정수) 형태로 구성될 수 있다. 예를 들면, 도 11 내지 도 13에서와 같이, 20x5 형태의 매트릭스로 문맥 제시형 음성 모델이 DB로 구축되어 있을 수 있다. The context-presented speech model matrix DB according to an embodiment of the present invention may be configured in the form of NxM (where N and M are the same or different positive integers). For example, as shown in FIGS. 11 to 13, a context-presented speech model may be constructed as a DB in a 20 × 5 matrix.
문맥 기반 음성 모델 관리 장치(3000)는 통신부(3700)를 통하여 통신이 가능한 네트워크 내에 포함된 다른 전자 디바이스와 통신할 수 있다. 예를 들어, 장치(3000)는 문맥 제시형 화자 식별 시스템(4000)의 통신부(4900)와 데이터를 송수신하면서 상호 통신할 수 있다. 도 10에서는 설명의 편의상, 문맥 기반 음성 모델 관리 장치(3000)를 문맥 제시형 화자 식별 시스템(4000)과 분리 구분하여 작도하였지만, 문맥 기반 음성 모델 관리 장치(3000)는 문맥 제시형 화자 식별 시스템(4000)의 일부를 구성하도록 구현될 수도 있다. 이러한 통신부(3700, 4900)는 블루투스(Bluetooth) 통신 모듈, BLE(Bluetooth Low Energy) 통신 모듈, 근거리 무선 통신 모듈(Near Field Communication unit), 와이파이(Wi-Fi) 통신 모듈, 지그비(Zigbee) 통신 모듈, 적외선(IrDA, infrared Data Association) 통신 모듈, WFD(Wi-Fi Direct) 통신 모듈, UWB(ultra wideband) 통신 모듈, Ant+ 통신 모듈 등일 수 있으나, 이에 한정되는 것은 아니다.The context-based voice model managing apparatus 3000 may communicate with another electronic device included in a network through which the communication unit 3700 may communicate. For example, the apparatus 3000 may communicate with each other while transmitting and receiving data with the communication unit 4900 of the context presenting speaker identification system 4000. In FIG. 10, the context-based speech model management apparatus 3000 is designed separately from the context-presenting speaker identification system 4000 for convenience of description. However, the context-based speech model management apparatus 3000 is the context-based speech model identification system ( It may be implemented to constitute a portion of 4000). The communication unit 3700 and 4900 may include a Bluetooth communication module, a BLE (Bluetooth Low Energy) communication module, a near field communication unit, a Wi-Fi communication module, and a Zigbee communication module. , An infrared data association (IrDA) communication module, a Wi-Fi Direct (WFD) communication module, an ultra wideband (UWB) communication module, an Ant + communication module, and the like, but is not limited thereto.
본 발명의 일 실시예에 따른 개별 음성 데이터에는 화자의 발화별 음성의 주파수, 피치(pitch), 포먼트(formant), 발화시간, 발화속도 중 적어도 하나가 포함되고, 문맥 기반 음성 모델 관리 장치(3000)의 유사도 추정부(3200)에서는 화자의 발화별 음성 각각에 대한 개별 음성 데이터 간의 유사도가 평가될 수 있다. 피치(pitch)는 음의 높이를 지칭한다. 음성(유성음)은 성대 진동의 기본 주파수 성분과 그 고조파 성분으로 구성된다. 진동근원체는 모두 특유한 진동 특성(예컨대, 공진특성)을 가지고 있다. 사람의 조음 기관(예컨대, 성대 등)도 조음에 따라 변하는 순간에서의 공진 특성이 있으며, 성대파가 이러한 공진 특성에 따라 여과되어 소리로써 표현될 수 있다. 특정음(예컨대, 모음)의 주파수 스펙트럼을 살펴보면 공진 특성 발현 시, 그 공진대역이 복수개 이상 존재함을 확인할 수 있다. 이러한 복수개의 공진 주파수대역을 포먼트(formant)로 지칭한다. Individual voice data according to an embodiment of the present invention includes at least one of the frequency, pitch, formant, speech time, speech rate of each speaker's speech, and the context-based speech model management apparatus ( The similarity estimator 3200 of 3000 may evaluate the similarity between individual voice data for each speaker's speech. Pitch refers to the pitch of the note. Voice (voiced sound) consists of the fundamental frequency component of vocal cord vibration and its harmonic components. All of the oscillation sources have unique vibration characteristics (eg, resonance characteristics). Human articulation organs (eg, vocal cords, etc.) also have a resonance characteristic at the moment that changes with the articulation, and the vocal cords can be filtered and expressed according to the resonance characteristics. Looking at the frequency spectrum of a particular sound (eg, a vowel), it can be seen that a plurality of resonance bands exist when the resonance characteristic is expressed. Such a plurality of resonant frequency bands is referred to as a formant.
예를 들면, 도 11에서와 같이, 특정의 화자(예컨대, 도 11의 사용자 B)에 의하여 소정의 단어(예컨대, “은행”)가 발화되면 발화된 음성은 음성수신부(4100)에서 수신되고, 음성 특성이 추출될 수 있다. 추출된 음성 특성은 개별 음성 데이터로 구성될 수 있다. 도 12를 참조하면, 문맥 기반 음성 모델 관리 장치(3000)의 유사도 추정부(3200)에서는 화자의 발화별 음성(예컨대, "은행"에 대하여 2주일 전에 발화한 음성, 1주일 전에 발화한 음성, 어제 발화한 음성 등) 각각에 대한 개별 음성 데이터 간의 유사도가 평가될 수 있다. 유사도 추정부(3200)에 의하여 추정된 유사도에 기초하여 선별된 적어도 하나의 개별 음성 데이터(예컨대, "은행"에 대하여 1주일 전에 발화한 음성에 대한 데이터, 어제 발화한 음성에 대한 데이터 등)에 따라 음성모델 생성부(3300)에서는 화자(예컨대, 도 11의 사용자 B)의 제 1 음성 모델이 생성될 수 있다. For example, as shown in FIG. 11, when a predetermined word (eg, “bank”) is uttered by a specific speaker (eg, user B of FIG. 11), the spoken voice is received by the voice receiver 4100. Speech characteristics can be extracted. The extracted voice characteristic may be composed of individual voice data. Referring to FIG. 12, in the similarity estimator 3200 of the context-based voice model management apparatus 3000, a voice for each speaker's speech (eg, a voice spoken two weeks ago for a "bank", a voice spoken one week ago, Similarity between individual voice data for each of the voices uttered yesterday) may be evaluated. At least one piece of individual voice data selected based on the similarity estimated by the similarity estimator 3200 (for example, data about a voice spoken one week ago for “bank”, data on voice spoken yesterday, etc.). Accordingly, the voice model generator 3300 may generate a first voice model of the speaker (for example, user B of FIG. 11).
도 9, 도 10 및 도 12를 참조하면, 판단부(3400)에서는 문맥 제시형 화자 식별 시스템(4000)의 저장부(4400)에 제 1 음성 모델에 상응하는 비교 음성 모델이 존재하는지 여부를 판단하고, 존재하지 않는다면 제 1 음성 모델을 문맥 제시형 화자 식별 시스템(4000)의 저장부(4400)로 제공하여 저장되게 하고, 존재한다면 제 1 음성 모델과 비교 음성 모델의 비교유사도가 유사도 추정부(3200)를 통하여 추정되게 할 수 있다. 9, 10, and 12, the determination unit 3400 determines whether a comparison speech model corresponding to the first speech model exists in the storage unit 4400 of the contextual presentation speaker identification system 4000. If not present, the first speech model is provided to the storage unit 4400 of the context presenting speaker identification system 4000 and stored therein, and if present, the comparison similarity between the first speech model and the comparative speech model is similarity estimating unit ( 3200 may be estimated.
이러한 판단부(3400)에 의한 유사도 추정부(3200)에서의 추정 결과인 비교유사도가 소정의 기준값 이상인 경우 음성모델 편집부(3500)에서는 비교 음성 모델을 제 1 음성 모델로 교체하고, 소정의 기준값 미만인 경우 제 1 음성 모델과 비교 음성 모델을 조합하여 제 2 음성 모델을 생성할 수 있다. 이러한 소정의 기준값은 51%(또는 0.51) 이상의 값일 수 있다. 바람직하게는 75%(또는 0.75) 이상의 값일 수 있다. 이러한 소정의 기준값 이상에서 신뢰성 있는 음성 모델의 편집(교체) 등이 가능하다. When the comparison similarity that is the result of estimation by the similarity estimating unit 3200 by the determination unit 3400 is equal to or greater than a predetermined reference value, the voice model editing unit 3500 replaces the comparison voice model with the first voice model, and the value is less than the predetermined reference value. In this case, the second voice model may be generated by combining the first voice model and the comparison voice model. This predetermined reference value may be at least 51% (or 0.51). Preferably at least 75% (or 0.75). It is possible to edit (replace) a reliable voice model or the like above the predetermined reference value.
이러한 제 2 음성 모델은 판단부(3400) 및 음성모델 편집부(3500)로 재차 제공될 수 있고, 판단부(3400)에서는 문맥 제시형 화자 식별 시스템(4000)의 저장부(4400)에 제 2 음성 모델(신규 재생성된 음성 모델)에 상응하는 비교 음성 모델이 존재하는지 여부를 판단하고, 존재하지 않는다면 제 2 음성 모델을 문맥 제시형 화자 식별 시스템(4000)의 저장부(4400)로 제공하여 저장되게 하고, 존재한다면 제 2 음성 모델과 비교 음성 모델의 비교유사도가 유사도 추정부(3200)를 통하여 추정되게 할 수 있다. 이러한 과정은 반복적으로 수행될 수 있다. 이러한 반복적 과정 등의 수행을 통하여 화자의 현재 음성 상태에 최적화된 음성 모델이 매트릭스 DB에 저장되어 관리될 수 있다. The second voice model may be provided to the determination unit 3400 and the voice model editing unit 3500 again, and the determination unit 3400 may include the second voice in the storage unit 4400 of the context presenting speaker identification system 4000. It is determined whether there is a comparison speech model corresponding to the model (newly reproduced speech model), and if not, the second speech model is provided to the storage unit 4400 of the contextual speaker identification system 4000 for storage. And, if present, the comparison similarity between the second speech model and the comparison speech model may be estimated by the similarity estimator 3200. This process can be performed repeatedly. Through such an iterative process, a speech model optimized for the speaker's current speech state may be stored and managed in the matrix DB.
또한, 본 발명의 일 실시예에 따른 장치는 음성 모델의 관리 주기를 설정하기 위한 주기설정부(3600)를 더 포함하고, 설정된 관리 주기 내에 모든 음성 모델이 갱신(update)된 경우, 음성모델 편집부(3500)에서는 문맥 제시형 화자 식별 시스템(4000)의 저장부(4400) 상의 기존의 행렬 형태의 음성 모델 DB이 유지되게 하고, 설정된 관리 주기 내에 적어도 하나의 음성 모델이 갱신되지 않은 경우, 음성모델 편집부(3500)에서는 화자와 관련된 신규의 제 1 음성 모델에 기초하여 기존의 행렬 형태의 음성 모델 DB의 일부가 삭제되거나 유지되게 할 수 있다. 본 발명의 일 실시예에 따른 관리 주기는 1일, 1주일 또는 1달의 기간일 수 있고, 사용자의 의도에 따라 개별적으로 설정될 수 있다. 예를 들어, 특정의 단어("은행")에 대하여는 1주일의 간격으로 음성 모델을 관리하게끔 관리 주기를 설정할 수 있고, 특정의 사용자는 1일 간격으로 관리 주기를 갖고, 또다른 사용자는 1달 기간으로 관리 주기를 갖도록 사용자별 관리 주기가 개별적으로 설정될 수도 있다. In addition, the apparatus according to an embodiment of the present invention further includes a period setting unit 3600 for setting a management period of the voice model, and when all the voice models are updated within the set management period, the voice model editing unit ( In 3500, the speech model DB of the existing matrix form on the storage unit 4400 of the context presenting speaker identification system 4000 is maintained, and when at least one speech model is not updated within a set management period, the speech model editing unit is performed. At 3500, a part of the existing matrix speech model DB based on the new first speech model associated with the speaker may be deleted or maintained. The management cycle according to an embodiment of the present invention may be a period of one day, one week, or one month, and may be individually set according to a user's intention. For example, for certain words ("banks"), you can set up a management cycle to manage the voice model at weekly intervals, a particular user has a management cycle at daily intervals, and another user has a month. The management cycle for each user may be individually set to have a management cycle as a period.
음성모델 편집부(3500)에서는 화자와 관련된 신규의 제 1 음성 모델이 부존재한다면 미갱신된 적어도 하나의 음성 모델을 행렬 형태의 음성 모델 DB로부터 삭제하고, 신규의 제 1 음성 모델이 존재한다면 미갱신된 적어도 하나의 음성 모델과 신규의 제 1 음성 모델을 비교하고, 비교 결과 차이(difference)가 소정의 범위 내에 포함된다면 음성모델 편집부(3500)에서는 문맥 제시형 화자 식별 시스템의 저장부 상의 기존의 행렬 형태의 음성 모델 DB이 유지되게 하며, 전술한 범위를 벗어난다면 미갱신된 적어도 하나의 음성 모델을 행렬 형태의 음성 모델 DB로부터 삭제할 수 있다. 전술한 차이를 나타내는 차이값의 허용 범위는 0 초과 15%(또는 0.15)일 수 있고, 해당 범위 내에 차이값이 존재하는지 여부에 따라 기존의 행렬 형태의 음성 모델 DB에서의 특정 음성 모델(예컨대, 도 13의 음성 모델 8)이 그대로 유지되거나 삭제될 수 있다. 신규의 제 1 음성 모델과 미갱신된 적어도 하나의 음성 모델의 비교 결과, 차이가 40%(또는 0.4)의 값을 갖는다면, 미갱신된 적어도 하나의 음성 모델(예컨대, 도 13의 음성 모델 8)은 행렬 형태의 음성 모델 DB로부터 삭제된다. The voice model editing unit 3500 deletes at least one unupdated voice model from the matrix-type voice model DB if a new first voice model related to the speaker does not exist, and if a new first voice model exists, the voice model editor 3500 is not updated. Compare the at least one speech model with the new first speech model, and if the comparison results in a difference within the predetermined range, the speech model editor 3500 in the existing matrix form on the storage of the contextual presentation speaker identification system. The voice model DB is maintained, and if it is outside the above-mentioned range, the at least one unupdated voice model can be deleted from the matrix-type voice model DB. The allowable range of the difference value representing the aforementioned difference may be greater than 0 and 15% (or 0.15), depending on whether or not there is a difference within the range, the specific speech model (eg, The voice model 8) of FIG. 13 may be kept or deleted. As a result of the comparison of the new first speech model with the at least one updated speech model, if the difference has a value of 40% (or 0.4), the at least one updated speech model (eg, speech model 8 of FIG. 13). ) Is deleted from the matrix of speech models DB.
도 14는 본 발명의 일 실시예에 따른 문맥 기반 음성 모델 관리 장치를 이용한 음성 모델 관리 방법을 나타낸 순서도이다.14 is a flowchart illustrating a voice model management method using a context-based voice model management apparatus according to an embodiment of the present invention.
본 발명의 일 실시예에 따른 문맥 기반 음성 모델 관리 장치를 이용하여 음성 모델을 관리하는 방법은 (a) 화자로부터의 음성이 수신될 때마다 개별 음성 데이터가 생성되어 저장되는 단계(S210), (b) 개별 음성 데이터가 복수개 저장되면 각각의 개별 음성 데이터를 추출하여 개별 음성 데이터 간의 유사도를 추정하는 단계(S220), (c) 추정된 유사도에 기초하여 선별된 적어도 하나의 개별 음성 데이터에 따라 화자의 제 1 음성 모델을 생성하는 단계(S230), (d) 문맥 제시형 화자 식별 시스템의 저장부에 제 1 음성 모델에 상응하는 비교 음성 모델이 존재하는지 여부를 판단하고, 존재하지 않는다면 제 1 음성 모델을 문맥 제시형 화자 식별 시스템의 저장부로 제공하여 저장되게 하고, 존재한다면 제 1 음성 모델과 비교 음성 모델의 비교유사도가 유사도 추정부를 통하여 추정되게 하는 단계(S240) 및 (e) 비교유사도가 소정의 기준값 이상인 경우 비교 음성 모델을 제 1 음성 모델로 교체하고, 소정의 기준값 미만인 경우 제 1 음성 모델과 비교 음성 모델을 조합하여 제 2 음성 모델을 생성하는 단계(S250)를 포함할 수 있다. 또한, 제 2 음성 모델에 대하여 전술한 (d) 단계 S240 및 (e) 단계 S250이 반복적으로 재수행될 수 있다. According to an embodiment of the present invention, a method of managing a speech model using a context-based speech model management apparatus includes (a) generating and storing individual speech data each time a speech from a speaker is received (S210), ( b) when a plurality of individual voice data are stored, extracting each individual voice data to estimate similarity between the individual voice data (S220), and (c) the speaker according to at least one individual voice data selected based on the estimated similarity. Step S230 of generating a first speech model of (d), (d) determining whether a comparison speech model corresponding to the first speech model exists in the storage of the contextual speaker identification system; The model is provided to the storage unit of the contextual speaker identification system to be stored, and if there is a comparison similarity between the first speech model and the comparison speech model, (S) and (e) if the comparison similarity is greater than or equal to a predetermined reference value, replaces the comparison speech model with a first speech model, and if the comparison similarity is less than or equal to the predetermined reference value, combines the first speech model and the comparison speech model to form a second comparison model. Generating a voice model may include a step (S250). In addition, steps (d) S240 and (e) S250 described above with respect to the second voice model may be repeatedly performed.
또한, 본 발명의 일 실시예에 따른 음성 모델을 관리하는 방법은 전술한 문맥 기반 음성 모델 관리 장치의 주기설정부에 의하여 음성 모델의 관리 주기를 설정하는 단계(S10)를 더 포함할 수 있다. 이러한 관리 주기를 설정하는 단계는 S210 이전에 수행되거나 사용자에 의하여 임의의 시점에 관리 주기가 설정되도록 수행될 수 있다. In addition, the method for managing a voice model according to an embodiment of the present invention may further include setting a management cycle of the voice model by the period setting unit of the aforementioned context-based voice model management apparatus (S10). The setting of the management period may be performed before S210 or may be performed such that the management period is set at any time by the user.
또한, 설정된 관리 주기 내에 모든 음성 모델이 갱신(update)된 경우, 장치(3000)의 음성모델 편집부(3500)에서는 문맥 제시형 화자 식별 시스템(4000)의 저장부 상의 기존의 행렬 형태의 음성 모델 DB이 유지되게 하고, 설정된 관리 주기 내에 적어도 하나의 음성 모델이 갱신되지 않은 경우, 음성모델 편집부(3500)에서는 화자와 관련된 신규의 제 1 음성 모델에 기초하여 기존의 행렬 형태의 음성 모델 DB의 일부가 삭제되거나 유지되게 할 수 있다. In addition, when all the voice models are updated within the set management period, the voice model editing unit 3500 of the apparatus 3000 may use the existing matrix model voice model DB on the storage unit of the contextual speaker identification system 4000. In this case, if at least one voice model is not updated within the set management period, the voice model editing unit 3500 performs a part of the existing matrix voice model DB based on the new first voice model associated with the speaker. Can be deleted or maintained.
음성모델 편집부(3500)에서는 화자와 관련된 신규의 제 1 음성 모델이 부존재한다면 미갱신된 적어도 하나의 음성 모델을 행렬 형태의 음성 모델 DB로부터 삭제하고, 신규의 제 1 음성 모델이 존재한다면 미갱신된 적어도 하나의 음성 모델과 신규의 제 1 음성 모델을 비교하고, 비교 결과 차이가 소정의 범위 내에 포함된다면 음성모델 편집부(3500)에서는 문맥 제시형 화자 식별 시스템(4000)의 저장부 상의 기존의 행렬 형태의 음성 모델 DB이 유지되게 하며 범위를 벗어난다면 미갱신된 적어도 하나의 음성 모델을 행렬 형태의 음성 모델 DB로부터 삭제할 수 있다.The voice model editing unit 3500 deletes at least one unupdated voice model from the matrix-type voice model DB if a new first voice model related to the speaker does not exist, and if a new first voice model exists, the voice model editor 3500 is not updated. Comparing the at least one speech model with the new first speech model, and if the difference is within a predetermined range, the speech model editing unit 3500 forms an existing matrix on the storage unit of the contextual presentation speaker identification system 4000. If the speech model DB of is maintained and out of range, at least one un-updated speech model can be deleted from the matrix-type speech model DB.
본 발명의 일 실시예에 따른 문맥 기반 음성 모델 관리 장치의 동작 방법과 관련하여서는 전술한 문맥 기반 음성 모델 관리 장치에 대한 내용이 적용될 수 있다. 따라서, 동작 방법과 관련하여, 전술한 문맥 기반 음성 모델 관리 장치에 대한 내용과 동일한 내용에 대하여는 설명을 생략하였다.With regard to the operation method of the context-based speech model management apparatus according to an embodiment of the present invention, the above-described content of the context-based speech model management apparatus may be applied. Therefore, with regard to the operation method, descriptions of the same contents as those of the above-described context-based voice model management apparatus are omitted.
전술한 문맥 기반 음성 모델 관리 장치의 동작 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터 판독 가능 매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 방법에서 사용된 데이터의 구조는 컴퓨터 판독 가능 매체에 여러 수단을 통하여 기록될 수 있다. 본 발명의 다양한 방법들을 수행하기 위한 실행 가능한 컴퓨터 프로그램이나 코드를 기록하는 기록 매체는, 반송파(carrier waves)나 신호들과 같이 일시적인 대상들은 포함하는 것으로 이해되지는 않아야 한다. 상기 컴퓨터 판독 가능 매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, DVD 등)와 같은 저장 매체를 포함할 수 있다.The above-described method of operating the context-based speech model management apparatus may be written as a program executable on a computer, and may be implemented in a general-purpose digital computer operating the program using a computer readable medium. In addition, the structure of the data used in the above-described method can be recorded on the computer-readable medium through various means. A recording medium for recording an executable computer program or code for performing various methods of the present invention should not be understood to include temporary objects, such as carrier waves or signals. The computer readable medium may include a storage medium such as a magnetic storage medium (eg, a ROM, a floppy disk, a hard disk, etc.), an optical reading medium (eg, a CD-ROM, a DVD, etc.).
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The foregoing description of the present invention is intended for illustration, and it will be understood by those skilled in the art that the present invention may be easily modified in other specific forms without changing the technical spirit or essential features of the present invention. will be. Therefore, it should be understood that the embodiments described above are exemplary in all respects and not restrictive. For example, each component described as a single type may be implemented in a distributed manner, and similarly, components described as distributed may be implemented in a combined form.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is shown by the following claims rather than the above description, and all changes or modifications derived from the meaning and scope of the claims and their equivalents should be construed as being included in the scope of the present invention. do.

Claims (20)

  1. 발화된 단어에 기초하여 화자를 식별하기 위한 방법으로서, A method for identifying a speaker based on a spoken word,
    상기 화자로부터 발화된 음성을 수신하는 단계;Receiving spoken voice from the speaker;
    상기 수신된 음성에 포함된 단어 및 상기 단어에 대한 음성정보를 추출하는 단계;Extracting a word included in the received voice and voice information of the word;
    미리 구축된 데이터베이스(DB)에서 상기 단어를 검색하는 단계;Retrieving the word from a pre-built database (DB);
    상기 DB에 상기 단어가 존재하지 않는 경우에는 상기 단어 및 상기 단어에 대한 음성정보를 상기 DB에 추가하고, 상기 DB에 상기 단어가 존재하는 경우에는 발화된 상기 단어의 음성정보와 DB 상에 저장되어 있는 각각의 참조 음성정보를 비교하는 단계;If the word does not exist in the DB, the word and voice information of the word are added to the DB. If the word exists in the DB, the voice information of the spoken word is stored in the DB. Comparing each reference voice information present;
    상기 각각의 참조 음성정보와의 비교에 따른 유사도를 추정하는 단계;Estimating a degree of similarity according to comparison with the respective reference voice information;
    상기 추정된 유사도에 상응하는 음성정보가 수신되는 횟수에 기초하여 상기 화자의 상기 단어에 대한 발화 패턴을 결정하는 단계; 및Determining a speech pattern for the word of the speaker based on the number of times voice information corresponding to the estimated similarity is received; And
    상기 결정된 발화 패턴에 기초하여 상기 화자를 식별하는 단계를 포함하는 것을 특징으로 하는 발화된 단어에 기초하여 화자를 식별하기 위한 방법. Identifying the speaker based on the determined utterance pattern.
  2. 제 1 항에 있어서, The method of claim 1,
    상기 단어에 대한 음성정보에는 상기 음성의 주파수, 피치(pitch), 포먼트(formant), 발화시간, 발화속도 중 적어도 하나가 포함되는 것을 특징으로 하는 발화된 단어에 기초하여 화자를 식별하기 위한 방법.Speech information for the word includes at least one of the frequency, pitch, formant, speech time, speech rate of the speech, the method for identifying the speaker based on the spoken word .
  3. 제 1 항에 있어서,The method of claim 1,
    상기 비교하는 단계에서는 상기 화자로부터 발화된 단어에 대한 음성정보가 상기 DB 상에 저장되어 있는 적어도 하나의 참조 음성정보와 유사한지 여부를 판단하고, In the comparing step, it is determined whether or not the voice information of the word spoken by the speaker is similar to at least one reference voice information stored in the DB.
    상기 유사도를 추정하는 단계에서는 상기 판단의 결과에 따라 유사도가 추정되며, 상기 추정된 유사도가 제 1 기준값 미만인 경우에는 신규의 참조 음성정보가 생성되어 상기 DB에 저장되고, 상기 제 1 기준값 이상인 경우에는 해당 유사도를 갖는 참조 음성정보의 매칭 횟수가 증가되어 카운팅되게 하는 것을 특징으로 하는 발화된 단어에 기초하여 화자를 식별하기 위한 방법.In the estimating of the similarity, the similarity is estimated according to the result of the determination. If the estimated similarity is less than a first reference value, new reference voice information is generated and stored in the DB. A method for identifying a speaker based on spoken words, characterized in that the number of matching of reference speech information having a corresponding similarity is increased and counted.
  4. 제 3 항에 있어서, The method of claim 3, wherein
    상기 발화 패턴을 결정하는 단계에서는 상기 카운팅된 매칭 횟수가 제 2 기준값 미만인 경우에는 상기 화자로부터 발화된 신규의 음성이 수신되어 유사도가 추정되는 과정이 반복적으로 수행되도록 하고, 상기 제 2 기준값 이상인 경우에는 상기 화자의 상기 단어에 대한 발화 패턴으로 결정하는 것을 특징으로 하는 발화된 단어에 기초하여 화자를 식별하기 위한 방법.In the determining of the speech pattern, when the counted number of matching is less than a second reference value, a new voice spoken from the speaker is received so that a process of estimating similarity is repeatedly performed. And determining the speaker based on the spoken word, determined by the speaking pattern for the word of the speaker.
  5. 제 4 항에 있어서, The method of claim 4, wherein
    상기 제 2 기준값 이상의 카운팅된 매칭 횟수를 갖는 유사도에 상응하는 음성정보에 기초하여 상기 화자의 음성 모델이 수립됨으로써 상기 발화 패턴이 결정되고, The speech pattern is determined by establishing a speech model of the speaker based on speech information corresponding to a similarity having a count of matching counts equal to or greater than the second reference value,
    상기 식별하는 단계에서는 발화된 음성에 대하여 상기 결정된 발화 패턴을 기준으로 화자가 누구인지 여부가 식별되는 것을 특징으로 하는 발화된 단어에 기초하여 화자를 식별하기 위한 방법.And in the identifying step, who is the speaker is identified based on the determined utterance pattern with respect to the uttered speech.
  6. 발화된 단어에 기초하여 화자를 식별하기 위한 장치로서, An apparatus for identifying a speaker based on a spoken word,
    상기 화자로부터 발화된 음성을 수신하는 음성수신부;A voice receiver for receiving a voice spoken by the speaker;
    상기 수신된 음성에 포함된 단어 및 상기 단어에 대한 음성정보를 추출하는 정보추출부;An information extracting unit extracting a word included in the received voice and voice information of the word;
    미리 구축된 데이터베이스(DB)에서 상기 단어를 검색하는 정보검색부;An information search unit for searching the word in a pre-built database;
    상기 DB에 상기 단어가 존재하지 않는 경우에는 상기 단어 및 상기 단어에 대한 음성정보를 상기 DB에 추가하고, 상기 DB에 상기 단어가 존재하는 경우에는 발화된 상기 단어의 음성정보와 DB 상에 저장되어 있는 각각의 참조 음성정보를 비교하는 비교부;If the word does not exist in the DB, the word and voice information of the word are added to the DB. If the word exists in the DB, the voice information of the spoken word is stored in the DB. A comparison unit for comparing each reference voice information present;
    상기 각각의 참조 음성정보와의 비교에 따른 유사도를 추정하는 유사도추정부;A similarity estimating unit for estimating a similarity according to comparison with the respective reference voice information;
    상기 추정된 유사도에 상응하는 음성정보가 수신되는 횟수에 기초하여 상기 화자의 상기 단어에 대한 발화 패턴을 결정하는 발화패턴결정부; 및A speech pattern determination unit that determines a speech pattern for the word of the speaker based on the number of times voice information corresponding to the estimated similarity is received; And
    상기 결정된 발화 패턴에 기초하여 상기 화자를 식별하는 화자식별부를 포함하는 것을 특징으로 하는 발화된 단어에 기초하여 화자를 식별하기 위한 장치.And a speaker identification unit for identifying the speaker based on the determined speech pattern.
  7. 제 6 항에 있어서, The method of claim 6,
    상기 단어에 대한 음성정보에는 상기 음성의 주파수, 피치(pitch), 포먼트(formant), 발화시간, 발화속도 중 적어도 하나가 포함되는 것을 특징으로 하는 발화된 단어에 기초하여 화자를 식별하기 위한 장치.Device for identifying a speaker based on the spoken word, characterized in that the voice information for the word includes at least one of the frequency, pitch, formant, speech time, speech rate of the speech. .
  8. 제 6 항에 있어서,The method of claim 6,
    상기 비교부에서는 상기 화자로부터 발화된 단어에 대한 음성정보가 상기 DB 상에 저장되어 있는 적어도 하나의 참조 음성정보와 유사한지 여부를 판단하고, The comparison unit determines whether or not the voice information of the word spoken by the speaker is similar to at least one reference voice information stored in the DB,
    상기 유사도추정부에서는 상기 판단의 결과에 따라 유사도가 추정되며, 상기 추정된 유사도가 제 1 기준값 미만인 경우에는 신규의 참조 음성정보가 생성되어 상기 DB에 저장되고, 상기 제 1 기준값 이상인 경우에는 해당 유사도를 갖는 참조 음성정보의 매칭 횟수가 증가되어 카운팅되게 하는 것을 특징으로 하는 발화된 단어에 기초하여 화자를 식별하기 위한 장치.The similarity estimating unit estimates the similarity according to the result of the determination, and when the estimated similarity is less than the first reference value, new reference voice information is generated and stored in the DB. And counting the number of matching of the reference speech information having an increased number of counts.
  9. 제 8 항에 있어서, The method of claim 8,
    상기 발화패턴결정부에서는 상기 카운팅된 매칭 횟수가 제 2 기준값 미만인 경우에는 상기 화자로부터 발화된 신규의 음성이 수신되어 유사도가 추정되는 과정이 반복적으로 수행되도록 하고, 상기 제 2 기준값 이상인 경우에는 상기 화자의 상기 단어에 대한 발화 패턴으로 결정하는 것을 특징으로 하는 발화된 단어에 기초하여 화자를 식별하기 위한 장치.If the counted matching number is less than a second reference value, the speech pattern determination unit receives a new voice spoken from the speaker to repeatedly perform a process of estimating the similarity. And a speaker pattern for identifying a speaker based on the spoken word.
  10. 제 9 항에 있어서, The method of claim 9,
    상기 제 2 기준값 이상의 카운팅된 매칭 횟수를 갖는 유사도에 상응하는 음성정보에 기초하여 상기 화자의 음성 모델이 수립됨으로써 상기 발화 패턴이 상기 발화패턴결정부에 의하여 결정되고, The speech pattern is determined by the speech pattern determination unit by establishing a speech model of the speaker based on the speech information corresponding to the similarity having the number of matching counts equal to or greater than the second reference value.
    상기 화자식별부에서는 발화된 음성에 대하여 상기 결정된 발화 패턴을 기준으로 화자가 누구인지 여부가 식별되는 것을 특징으로 하는 발화된 단어에 기초하여 화자를 식별하기 위한 장치.And wherein the speaker identification unit identifies who is the speaker based on the determined speech pattern with respect to the spoken voice.
  11. 제 1 항 내지 제 5 항 중 어느 한 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.A computer-readable recording medium having recorded thereon a program for implementing the method of any one of claims 1 to 5.
  12. 문맥 기반 음성 모델 관리 장치로서, Context-based speech model management device,
    상기 장치는 문맥 제시형 화자 식별 시스템과 연동될 수 있고, The apparatus may be associated with a contextual speaker identification system,
    화자로부터의 음성이 수신될 때마다 생성된 개별 음성 데이터가 저장된 저장부;A storage unit storing individual voice data generated whenever a voice from the speaker is received;
    상기 개별 음성 데이터가 상기 저장부에 복수개 저장되면, 상기 저장부로부터 각각의 개별 음성 데이터를 추출하여 개별 음성 데이터 간의 유사도를 추정하는 유사도 추정부;A plurality of similarity estimators for estimating the similarity between individual voice data by extracting respective individual voice data from the storage unit when the plurality of individual voice data are stored in the storage unit;
    상기 유사도 추정부에 의하여 추정된 유사도에 기초하여 선별된 적어도 하나의 개별 음성 데이터에 따라 상기 화자의 제 1 음성 모델을 생성하는 음성모델 생성부;A speech model generator for generating a first speech model of the speaker according to at least one individual speech data selected based on the similarity estimated by the similarity estimator;
    상기 문맥 제시형 화자 식별 시스템의 저장부에 상기 제 1 음성 모델에 상응하는 비교 음성 모델이 존재하는지 여부를 판단하고, 존재하지 않는다면 상기 제 1 음성 모델을 상기 문맥 제시형 화자 식별 시스템의 저장부로 제공하여 저장되게 하고, 존재한다면 상기 제 1 음성 모델과 상기 비교 음성 모델의 비교유사도가 상기 유사도 추정부를 통하여 추정되게 하는 판단부; 및It is determined whether a comparison speech model corresponding to the first speech model exists in the storage of the contextual speaker identification system, and if not present, provides the first speech model to the storage of the contextual speaker identification system. A judging unit for estimating a comparison similarity between the first voice model and the comparison voice model if present; And
    상기 판단부에 의한 상기 유사도 추정부에서의 추정 결과인 비교유사도가 소정의 기준값 이상인 경우 상기 비교 음성 모델을 상기 제 1 음성 모델로 교체하고, 상기 소정의 기준값 미만인 경우 상기 제 1 음성 모델과 상기 비교 음성 모델을 조합하여 제 2 음성 모델을 생성하는 음성모델 편집부를 포함하고,The comparison speech model is replaced with the first speech model when the comparison similarity level, which is a result of the estimation in the similarity estimator, is greater than or equal to a predetermined reference value. Including a voice model editing unit for generating a second voice model by combining the voice model,
    상기 제 2 음성 모델은 상기 판단부 및 음성모델 편집부로 제공되는 것을 특징으로 하는 문맥 기반 음성 모델 관리 장치. And the second speech model is provided to the determining unit and the speech model editing unit.
  13. 제 12 항에 있어서, The method of claim 12,
    상기 문맥 제시형 화자 식별 시스템에는, In the contextual speaker identification system,
    화자로부터 음성을 수신하는 음성수신부;A voice receiver for receiving a voice from the speaker;
    상기 수신된 음성으로부터 음성특성을 추출하기 위한 음성특성 추출부;A speech characteristic extractor for extracting speech characteristics from the received speech;
    상기 추출된 음성특성에 기초하여 음성 모델을 생성하는 문맥 음성모델 생성부; A contextual speech model generator for generating a speech model based on the extracted speech characteristics;
    상기 생성된 음성 모델이 행렬(matrix) 형태로 저장되어 있는 저장부;A storage unit in which the generated speech model is stored in a matrix form;
    상기 화자의 식별에 사용될 난수를 발생시키는 난수발생부; A random number generator for generating a random number to be used for identification of the speaker;
    상기 저장부의 행렬 형태의 음성 모델 DB 상의 상기 발생된 난수에 상응하는 위치에서의 음성 모델을 추출하는 음성모델 추출부;A speech model extraction unit for extracting a speech model at a position corresponding to the generated random number on the speech model DB in a matrix form of the storage unit;
    상기 추출된 음성 모델에 기초하여 상기 화자에게 소정의 음성 발화를 요청하는 음성발화 요청부; 및A speech utterance request unit for requesting a predetermined speech utterance from the speaker based on the extracted speech model; And
    상기 화자로부터 발화된 음성을 상기 추출된 음성 모델과 비교하여 상기 화자를 식별하는 화자식별부가 포함되고, A speaker identification unit for identifying the speaker by comparing the voice spoken by the speaker with the extracted voice model,
    상기 소정의 음성 발화는 상기 발생된 난수에 상응하는 상기 저장부의 행렬 형태의 DB 상의 위치에 미리 설정되어 있는 단어 또는 문장의 독음인 것을 특징으로 하는 문맥 기반 음성 모델 관리 장치.The predetermined speech utterance is a context-based speech model management device, characterized in that the read aloud of a word or sentence that is preset at a position on a DB in the matrix form of the storage unit corresponding to the generated random number.
  14. 제 12 항에 있어서, The method of claim 12,
    상기 개별 음성 데이터에는 상기 화자의 발화별 음성의 주파수, 피치(pitch), 포먼트(formant), 발화시간, 발화속도 중 적어도 하나가 포함되고, The individual voice data includes at least one of a frequency, a pitch, a formant, a speech time, and a speech rate of speech of each speaker's speech.
    상기 문맥 기반 음성 모델 관리 장치의 유사도 추정부에서는 상기 화자의 발화별 음성 각각에 대한 개별 음성 데이터 간의 유사도가 평가되는 것을 특징으로 하는 문맥 기반 음성 모델 관리 장치.And a similarity estimator of the context-based speech model management apparatus evaluates the similarity between individual speech data for each speaker's speech.
  15. 제 12 항에 있어서, The method of claim 12,
    음성 모델의 관리 주기를 설정하기 위한 주기설정부를 더 포함하고, And a period setting unit for setting a management period of the voice model.
    상기 설정된 관리 주기 내에 모든 음성 모델이 갱신(update)된 경우, 상기 음성모델 편집부에서는 상기 문맥 제시형 화자 식별 시스템의 저장부 상의 기존의 행렬 형태의 음성 모델 DB이 유지되게 하고, 상기 설정된 관리 주기 내에 적어도 하나의 음성 모델이 갱신되지 않은 경우, 상기 음성모델 편집부에서는 상기 화자와 관련된 신규의 제 1 음성 모델에 기초하여 상기 기존의 행렬 형태의 음성 모델 DB의 일부가 삭제되거나 유지되게 하는 것을 특징으로 하는 문맥 기반 음성 모델 관리 장치.When all the voice models are updated within the set management period, the voice model editing unit maintains an existing matrix model of the voice model DB on the storage unit of the contextual presentation speaker identification system and within the set management period. If at least one voice model is not updated, the voice model editing unit deletes or maintains a part of the existing matrix voice model based on the new first voice model associated with the speaker. Context-based speech model management device.
  16. 제 15 항에 있어서, The method of claim 15,
    상기 음성모델 편집부에서는 상기 화자와 관련된 신규의 제 1 음성 모델이 부존재한다면 미갱신된 상기 적어도 하나의 음성 모델을 행렬 형태의 음성 모델 DB로부터 삭제하고, The voice model editing unit deletes the unrenewed at least one voice model from the matrix voice model DB if a new first voice model associated with the speaker does not exist.
    상기 신규의 제 1 음성 모델이 존재한다면 미갱신된 상기 적어도 하나의 음성 모델과 상기 신규의 제 1 음성 모델을 비교하고, 비교 결과 차이(difference)가 소정의 범위 내에 포함된다면 상기 음성모델 편집부에서는 상기 문맥 제시형 화자 식별 시스템의 저장부 상의 기존의 행렬 형태의 음성 모델 DB이 유지되게 하며 상기 범위를 벗어난다면 미갱신된 상기 적어도 하나의 음성 모델을 행렬 형태의 음성 모델 DB로부터 삭제하는 것을 특징으로 하는 문맥 기반 음성 모델 관리 장치.If the new first voice model is present, the unrenewed at least one voice model is compared with the new first voice model, and if the difference is within a predetermined range, the voice model editing unit is configured to Maintaining the existing matrix-type speech model DB on the storage of the context-presented speaker identification system, and if out of the range is deleted the at least one un-updated speech model from the matrix-type speech model DB Context-based speech model management device.
  17. 문맥 기반 음성 모델 관리 장치를 이용하여 음성 모델을 관리하는 방법으로서, A method of managing a speech model using a context-based speech model management apparatus,
    상기 장치는 문맥 제시형 화자 식별 시스템과 연동될 수 있고, The apparatus may be associated with a contextual speaker identification system,
    (a) 화자로부터의 음성이 수신될 때마다 개별 음성 데이터가 생성되어 저장되는 단계;(a) generating and storing individual voice data each time a voice from the speaker is received;
    (b) 상기 개별 음성 데이터가 복수개 저장되면 각각의 개별 음성 데이터를 추출하여 개별 음성 데이터 간의 유사도를 추정하는 단계;(b) extracting each individual voice data and estimating the similarity between the individual voice data when a plurality of the individual voice data are stored;
    (c) 상기 추정된 유사도에 기초하여 선별된 적어도 하나의 개별 음성 데이터에 따라 상기 화자의 제 1 음성 모델을 생성하는 단계;(c) generating a first speech model of the speaker according to the at least one individual speech data selected based on the estimated similarity;
    (d) 상기 문맥 제시형 화자 식별 시스템의 저장부에 상기 제 1 음성 모델에 상응하는 비교 음성 모델이 존재하는지 여부를 판단하고, 존재하지 않는다면 상기 제 1 음성 모델을 상기 문맥 제시형 화자 식별 시스템의 저장부로 제공하여 저장되게 하고, 존재한다면 상기 제 1 음성 모델과 상기 비교 음성 모델의 비교유사도가 상기 유사도 추정부를 통하여 추정되게 하는 단계; 및(d) determining whether a comparison speech model corresponding to the first speech model exists in the storage of the context-presenting speaker identification system; Providing the data to a storage unit and storing the same, and if there is a comparison similarity between the first speech model and the comparison speech model, estimating the similarity estimation unit through the similarity estimation unit; And
    (e) 상기 비교유사도가 소정의 기준값 이상인 경우 상기 비교 음성 모델을 상기 제 1 음성 모델로 교체하고, 상기 소정의 기준값 미만인 경우 상기 제 1 음성 모델과 상기 비교 음성 모델을 조합하여 제 2 음성 모델을 생성하는 단계를 포함하고,(e) replacing the comparison speech model with the first speech model when the comparison similarity is equal to or greater than a predetermined reference value, and combining the first speech model and the comparison speech model when the comparison similarity is less than the predetermined reference value. Generating steps,
    상기 제 2 음성 모델에 대하여 상기 (d) 및 (e) 단계가 재수행되는 것을 특징으로 하는 문맥 기반 음성 모델 관리 방법.And (d) and (e) are repeated for the second speech model.
  18. 제 17 항에 있어서, The method of claim 17,
    상기 장치의 주기설정부에 의하여 음성 모델의 관리 주기를 설정하는 단계를 더 포함하고, Setting a management period of the voice model by the period setting unit of the device,
    상기 설정된 관리 주기 내에 모든 음성 모델이 갱신(update)된 경우, 상기 장치의 음성모델 편집부에서는 상기 문맥 제시형 화자 식별 시스템의 저장부 상의 기존의 행렬 형태의 음성 모델 DB이 유지되게 하고, 상기 설정된 관리 주기 내에 적어도 하나의 음성 모델이 갱신되지 않은 경우, 상기 음성모델 편집부에서는 상기 화자와 관련된 신규의 제 1 음성 모델에 기초하여 상기 기존의 행렬 형태의 음성 모델 DB의 일부가 삭제되거나 유지되게 하는 것을 특징으로 하는 문맥 기반 음성 모델 관리 방법.When all the voice models are updated within the set management period, the voice model editing unit of the device causes the existing matrix model voice model DB on the storage unit of the contextual presentation speaker identification system to be maintained, and the set management If at least one voice model is not updated within a period, the voice model editing unit deletes or maintains a part of the existing matrix voice model based on the new first voice model associated with the speaker. Context-based speech model management method.
  19. 제 18 항에 있어서, The method of claim 18,
    상기 음성모델 편집부에서는 상기 화자와 관련된 신규의 제 1 음성 모델이 부존재한다면 미갱신된 상기 적어도 하나의 음성 모델을 행렬 형태의 음성 모델 DB로부터 삭제하고, The voice model editing unit deletes the at least one unupdated voice model from the voice model DB in a matrix form if there is no new first voice model associated with the speaker.
    상기 신규의 제 1 음성 모델이 존재한다면 미갱신된 상기 적어도 하나의 음성 모델과 상기 신규의 제 1 음성 모델을 비교하고, 비교 결과 차이가 소정의 범위 내에 포함된다면 상기 음성모델 편집부에서는 상기 문맥 제시형 화자 식별 시스템의 저장부 상의 기존의 행렬 형태의 음성 모델 DB이 유지되게 하며 상기 범위를 벗어난다면 미갱신된 상기 적어도 하나의 음성 모델을 행렬 형태의 음성 모델 DB로부터 삭제하는 것을 특징으로 하는 문맥 기반 음성 모델 관리 방법.If the new first voice model exists, the unrenewed at least one voice model is compared with the new first voice model, and if the difference is within a predetermined range, the voice model editing unit displays the context. Context-based speech characterized in that the existing matrix-type speech model DB on the storage of the speaker identification system is maintained and if it is out of the range, the at least one un-updated speech model is deleted from the matrix-type speech model DB. How to manage your model.
  20. 제 17 항 내지 제 19 항 중 어느 한 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.20. A computer readable recording medium having recorded thereon a program for implementing the method of any one of claims 17 to 19.
PCT/KR2019/001355 2018-02-09 2019-01-31 Method for identifying utterer on basis of uttered word and apparatus therefor, and apparatus for managing voice model on basis of context and method thereof WO2019156427A1 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2018-0016444 2018-02-09
KR1020180016444A KR101888058B1 (en) 2018-02-09 2018-02-09 The method and apparatus for identifying speaker based on spoken word
KR1020180016663A KR101888059B1 (en) 2018-02-12 2018-02-12 The apparatus and method for managing context based speech model
KR10-2018-0016663 2018-02-12

Publications (1)

Publication Number Publication Date
WO2019156427A1 true WO2019156427A1 (en) 2019-08-15

Family

ID=67548542

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/001355 WO2019156427A1 (en) 2018-02-09 2019-01-31 Method for identifying utterer on basis of uttered word and apparatus therefor, and apparatus for managing voice model on basis of context and method thereof

Country Status (1)

Country Link
WO (1) WO2019156427A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220301554A1 (en) * 2019-01-28 2022-09-22 Pindrop Security, Inc. Unsupervised keyword spotting and word discovery for fraud analytics

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09198084A (en) * 1996-01-16 1997-07-31 Nippon Telegr & Teleph Corp <Ntt> Method and device for speaker recognition accompanied by model update
KR20000037106A (en) * 2000-04-07 2000-07-05 이상건 Network-based speaker learning and verification method and system thereof
KR20030013855A (en) * 2001-08-09 2003-02-15 삼성전자주식회사 Voice recognition method and system based on voice registration method and system
KR20070060581A (en) * 2005-12-09 2007-06-13 한국전자통신연구원 Apparatus and method for speaker adaptive
JP2017223848A (en) * 2016-06-16 2017-12-21 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America Speaker recognition device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09198084A (en) * 1996-01-16 1997-07-31 Nippon Telegr & Teleph Corp <Ntt> Method and device for speaker recognition accompanied by model update
KR20000037106A (en) * 2000-04-07 2000-07-05 이상건 Network-based speaker learning and verification method and system thereof
KR20030013855A (en) * 2001-08-09 2003-02-15 삼성전자주식회사 Voice recognition method and system based on voice registration method and system
KR20070060581A (en) * 2005-12-09 2007-06-13 한국전자통신연구원 Apparatus and method for speaker adaptive
JP2017223848A (en) * 2016-06-16 2017-12-21 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America Speaker recognition device

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KIM, KYUNG WHA ET AL.: "Forensic Automatic Speaker Identification System for Korean Speakers", PHONETICS AND SPEECH SCIENCES, vol. 4, no. 3, September 2012 (2012-09-01), pages 95 - 101, XP055631005 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220301554A1 (en) * 2019-01-28 2022-09-22 Pindrop Security, Inc. Unsupervised keyword spotting and word discovery for fraud analytics
US11810559B2 (en) * 2019-01-28 2023-11-07 Pindrop Security, Inc. Unsupervised keyword spotting and word discovery for fraud analytics

Similar Documents

Publication Publication Date Title
WO2020139058A1 (en) Cross-device voiceprint recognition
WO2015068947A1 (en) System for analyzing speech content on basis of extraction of keywords from recorded voice data, indexing method using system and method for analyzing speech content
WO2016129930A1 (en) Operating method for voice function and electronic device supporting the same
JP4600828B2 (en) Document association apparatus and document association method
WO2020207035A1 (en) Crank call interception method, apparatus, and device, and storage medium
WO2020034526A1 (en) Quality inspection method, apparatus, device and computer storage medium for insurance recording
WO2018070780A1 (en) Electronic device and method for controlling the same
KR101888058B1 (en) The method and apparatus for identifying speaker based on spoken word
WO2019208860A1 (en) Method for recording and outputting conversation between multiple parties using voice recognition technology, and device therefor
CN110047481A (en) Method for voice recognition and device
CN109887508A (en) A kind of meeting automatic record method, electronic equipment and storage medium based on vocal print
WO2019172734A2 (en) Data mining device, and voice recognition method and system using same
WO2020151317A1 (en) Voice verification method and apparatus, computer device, and storage medium
US20220238118A1 (en) Apparatus for processing an audio signal for the generation of a multimedia file with speech transcription
WO2020159140A1 (en) Electronic device and control method therefor
CN108364655B (en) Voice processing method, medium, device and computing equipment
WO2022203152A1 (en) Method and device for speech synthesis based on multi-speaker training data sets
JP2008032825A (en) Speaker display system, speaker display method and speaker display program
CN113129895B (en) Voice detection processing system
WO2019156427A1 (en) Method for identifying utterer on basis of uttered word and apparatus therefor, and apparatus for managing voice model on basis of context and method thereof
WO2020204256A1 (en) Automatic multimedia speech recognition evaluation system using speech synthesis engine
WO2019088635A1 (en) Voice synthesis device and method
WO2018014593A1 (en) Big data-based risk prediction method, apparatus, server and storage medium
US10282417B2 (en) Conversational list management
KR102098956B1 (en) Voice recognition apparatus and method of recognizing the voice

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19750986

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19750986

Country of ref document: EP

Kind code of ref document: A1