WO2020054980A1 - 음소기반 화자모델 적응 방법 및 장치 - Google Patents

음소기반 화자모델 적응 방법 및 장치 Download PDF

Info

Publication number
WO2020054980A1
WO2020054980A1 PCT/KR2019/010032 KR2019010032W WO2020054980A1 WO 2020054980 A1 WO2020054980 A1 WO 2020054980A1 KR 2019010032 W KR2019010032 W KR 2019010032W WO 2020054980 A1 WO2020054980 A1 WO 2020054980A1
Authority
WO
WIPO (PCT)
Prior art keywords
speaker
phoneme
speaker model
identified
model
Prior art date
Application number
PCT/KR2019/010032
Other languages
English (en)
French (fr)
Inventor
정치상
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to US17/273,542 priority Critical patent/US11804228B2/en
Publication of WO2020054980A1 publication Critical patent/WO2020054980A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Definitions

  • the present disclosure relates to a speaker model adaptation method and apparatus for improving the performance of text-independent speaker recognition. Specifically, the present disclosure relates to a method and apparatus for improving the performance of free speech recognition in consideration of a change in speaker characteristic information in a phoneme unit in adaptation of a speaker model pre-stored in an electronic device.
  • Free speech speaker recognition is not fixed to a specific sentence (text), it is a technology that can recognize the speaker through any speech. Therefore, if the user registers his voice through as many utterances as possible, including various utterances, excellent free speaker recognition performance can be secured. However, in order to secure performance, a lot of speaker registration is required, and in this case, user usability is deteriorated. To overcome this, short speaker registration utterances can be used for efficiency of the speaker registration stage, but in this case, because the initial registration utterance is short, the registration model does not sufficiently contain speaker information included in all phonemes, and speaker recognition performance deteriorates. The problem arises.
  • a method to strengthen the speaker model through actualization used in voice services That is, a method of adapting / reinforcing the speaker model is used by performing initial speaker registration and measuring similarity with the speaker model when a user uses a voice service.
  • a method of adapting / reinforcing the speaker model is used by performing initial speaker registration and measuring similarity with the speaker model when a user uses a voice service.
  • the probability that the actual use voice is a specific speaker (speaker recognition similarity) is high, all input voices are used in the speaker model adaptation training.
  • this method has the following problems.
  • the present invention is in accordance with the above-described need, the object of the present invention is to use the free speech speaker recognition service, while maintaining the usability to simplify the speaker registration step, efficiently perform speaker model adaptive training to perform the performance of free speech recognition Is to improve.
  • a speaker model adaptation method considering a change in a speaker unit information amount of phoneme issued when adapting to a speaker model, so as to overcome the limitations of the speaker characteristic information of the initial registered speech and improve the performance of free speech speaker recognition, Suggest.
  • a control method of an electronic device for solving the above-described problems includes receiving a voice signal from a user, identifying a speaker model corresponding to the voice signal among a plurality of speaker models, and For each of a plurality of phonemes included in the voice signal, determining a change in the amount of speaker characteristic information of the speaker model when each phoneme is input to the identified speaker model, and based on the determination result, among the plurality of phonemes And learning the identified speaker model using at least one.
  • the step of learning, identifying a phoneme that increases the maximum amount of speaker characteristic information of the speaker model when a phoneme is input to the identified speaker model among the plurality of phonemes and using the identified phoneme to The method may further include training the identified speaker model.
  • the step of learning, identifying the at least one phoneme to increase the amount of the speaker characteristic information of the speaker model more than a predetermined criterion when a phoneme is input to the identified speaker model among the plurality of phonemes and the identified phoneme may further include training the identified speaker model using at least one phoneme.
  • the step of determining the amount of information change for the speaker model includes: obtaining text data corresponding to the voice signal and converting grapheme to phoneme and division of phoneme sections based on the text data
  • the method may further include identifying a phoneme included in the voice signal.
  • the speaker model when the speaker model already includes information on the identified phoneme, when the speaker phoneme model learns the identified phoneme, the speaker from the entropy value for the speaker characteristic information amount
  • the index for the identified phoneme is determined by reducing the entropy value for the speaker characteristic information amount included in the model, the entropy value for the speaker characteristic information amount for the phoneme included in the speaker model, and the entropy value for the superimposed information amount, , If the speaker model does not include information on the identified phoneme, when the identified phoneme is trained in the speaker model, from the entropy value for the speaker characteristic information amount to the speaker characteristic information amount included in the speaker model Determining the index for the identified phoneme by subtracting the entropy value It may be.
  • the indicator may be a Bayesian Information Criterion (BIC) for the amount of speaker characteristic information modeled using a Gaussian model.
  • BIC Bayesian Information Criterion
  • the step of receiving the input is to receive a plurality of voice signals from a plurality of users
  • the step of identifying the speaker model is a criterion in which a signal length accumulated after being input among the plurality of voice signals is preset. Identifying a voice signal exceeding the length; may further include, it may be to identify the speaker model corresponding to the identified voice signal.
  • the step of identifying the speaker model may be to identify a speaker model in which the degree of similarity with the input voice signal among the plurality of speaker models exceeds a predetermined degree of similarity.
  • a speaker model corresponding to a voice signal input through the microphone is identified among a microphone and a plurality of speaker models, and each phoneme is input to the identified speaker model for each of a plurality of phonemes included in the voice signal It may include a processor for determining a change in the speaker characteristic information amount of the speaker model, and learning the identified speaker model using at least one of the plurality of phonemes based on the determination result.
  • the processor when a phoneme is input to the identified speaker model among the plurality of phonemes, identifies a phoneme that increases the speaker characteristic information amount of the speaker model to the maximum, and uses the identified phoneme to identify the speaker You can train the model.
  • the processor when a phoneme is input to the identified speaker model among the plurality of phonemes, identifies at least one phoneme that increases the speaker characteristic information amount of the speaker model above a predetermined criterion, and the identified at least one phoneme.
  • the identified speaker model may be trained using a phoneme.
  • the processor acquires text data corresponding to the voice signal, and performs grapheme to phoneme and phoneme section classification based on the text data to obtain a phoneme included in the voice signal. Can be identified.
  • the speaker model when the speaker model includes information on the identified phoneme, the speaker model includes the speaker model in the entropy value for the speaker characteristic information amount when the identified phoneme is learned in the speaker model.
  • the indicator for the identified phoneme is determined by reducing the entropy value for the amount of speaker characteristic information, the entropy value for the speaker characteristic information amount for the phoneme included in the speaker model, and the entropy value for the overlapping information amount, and the speaker model If the information on the identified phoneme is not included in, the entropy value for the speaker characteristic information amount included in the speaker model is calculated from the entropy value for the speaker characteristic information amount when the identified phoneme is learned in the speaker model. By doing so, the indicator for the identified phoneme can be determined.
  • the indicator may be a Bayesian Information Criterion (BIC) for the amount of speaker characteristic information modeled using a Gaussian model.
  • BIC Bayesian Information Criterion
  • the processor identifies a voice signal whose accumulated signal length exceeds a predetermined reference length after being input among a plurality of voice signals input from a plurality of users through the microphone, and the identified voice signal
  • the speaker model corresponding to can be identified.
  • the processor may identify a speaker model among the plurality of speaker models whose degree of similarity with the input voice signal exceeds a predetermined similarity.
  • the present invention it is possible to select optimization data for adapting a speaker model by using a change in speaker characteristic information for each phoneme for enhancing speaker recognition performance. That is, after measuring the variation in the speaker characteristic information for each phoneme for the data that has passed the speaker model similarity measurement criterion, the optimum data capable of maximizing the speaker characteristic information is selected. Through this, it is possible not only to secure the usability of the registration of the free speech recognition, but also to be able to maximize the speaker information from the actual speech of the user without being dependent on the characteristics of the initial registration model due to the limited amount of data. That is, according to the present invention, as the user uses the voice service, the performance of free speech recognition can be effectively improved.
  • FIG. 1 is a diagram for describing a voice recognition environment of an electronic device used by a plurality of users according to an embodiment of the present disclosure.
  • FIG. 2 is a simple block diagram illustrating components of an electronic device according to an embodiment of the present disclosure.
  • FIG. 3 is a detailed diagram for describing a configuration of an electronic device according to an embodiment of the present disclosure.
  • FIG. 4 is a detailed diagram for describing a specific configuration of a processor according to an embodiment of the present disclosure.
  • FIG. 5 is a block diagram illustrating a method of adapting a speaker model based on a change in a speaker characteristic information amount determined in units of phonemes according to an embodiment of the present disclosure.
  • FIG. 6 is a diagram for explaining adaptation of a speaker model by determining a change in the amount of information of the speaker model when input to the speaker model for each phoneme included in the input voice by the electronic device according to one embodiment of the present disclosure. to be.
  • FIG. 7 is a diagram for explaining identifying a speaker model corresponding to an input voice signal according to an embodiment of the present disclosure.
  • first may modify various components, regardless of order and / or importance, to distinguish one component from another component. It is used but does not limit the components.
  • first user device and the second user device may indicate different user devices regardless of order or importance.
  • the first component may be referred to as a second component without departing from the scope of rights described in this document, and similarly, the second component may also be referred to as a first component.
  • Some component eg, first component
  • another component eg, second component
  • any of the above components may be directly connected to the other component or may be connected through another component (eg, a third component).
  • one component eg, the first component
  • the component and the component are It can be understood that there are no other components (eg, the third component) between the other components.
  • FIG. 1 is a diagram for describing a voice recognition environment of an electronic device used by a plurality of users according to an embodiment of the present disclosure.
  • the electronic device 100 may receive a voice from a plurality of speakers 10, 20, and 30.
  • the electronic device 100 may be implemented as an electronic device capable of receiving a voice signal by a plurality of users, such as an AI speaker.
  • the electronic device 100 of the present disclosure may be implemented through various electronic devices such as a smart TV equipped with a microphone for receiving a user's voice signal.
  • the electronic device 100 may store speaker models corresponding to a plurality of speakers 10, 20, and 30. That is, the electronic device 100 may register for speaker recognition by a plurality of speakers 10, 20, and 30 before or during use. That is, the electronic device 100 may receive a voice signal through various methods, such as reading a specific sentence, to obtain phoneme information for speech recognition from each of a plurality of speakers, and based on the obtained phoneme information You can register your speaker model.
  • the phoneme refers to a minimum unit of sound that differentiates meaning by distinguishing words and words included in speech.
  • the first sounds / ⁇ / and / ⁇ /, and the vowels / ⁇ / and / ⁇ / in 'hand' and 'mountain' distinguish the meanings of the two words. It is a phoneme with an enemy function.
  • the electronic device 100 may store a speaker model corresponding to a plurality of speakers 10, 20, and 30.
  • the speaker model may include speaker characteristic information for each speaker.
  • the speaker characteristic information may include information about the speaker's body characteristics, such as the speaker's oral structure and neck length, and information about the speaker's pronunciation characteristics, such as a pronunciation habit for a specific phoneme.
  • the present invention is not limited thereto, and the speaker model may include frequency information corresponding to the speaker's voice signal in addition to the speaker characteristic information.
  • the speaker characteristic information described above may be obtained by analyzing phoneme information obtained through an input voice signal. Specifically, the electronic device 100 may acquire the speaker characteristic information by inputting the acquired phoneme information into the artificial intelligence model trained to output the speaker characteristic information.
  • the artificial intelligence model may be included in the electronic device 100 or may be included in the external server 200.
  • the electronic device 100 may convert the received voice signal into a digital signal through an analog to digital converter (ADC) and transmit it to the external server 200,
  • ADC analog to digital converter
  • the external server 200 may acquire speaker characteristic information including speaker body specific information and pronunciation characteristic information based on a signal for the received voice.
  • the electronic device 100 may receive data on speaker characteristic information acquired by the external server 200. Thereafter, the electronic device 100 may store the acquired speaker characteristic information in correspondence with each speaker model.
  • the electronic device 100 may identify a speaker model corresponding to the corresponding speaker 30 among a plurality of previously stored speaker models when the specific speaker 30 is uttered.
  • the method of identifying the speaker model may be to identify a speaker model having a high degree of similarity among a plurality of speaker models by comparing frequency information corresponding to a voice signal and speaker characteristic information and frequency information included in the speaker model.
  • the electronic device 100 may receive the actual utterance continuously input from the speaker 30. At this time, the electronic device 100 may acquire a phoneme included in the input real speech. In this case, the electronic device 100 may obtain a phoneme by performing an STT process, phoneme phoneme conversion, phoneme section classification, and the like. Details of this will be described later.
  • processes such as the STT process, phoneme conversion, and phoneme segmentation may be performed by the external server 200 rather than the electronic device 100.
  • the electronic device 100 may transmit digital conversion data for the received voice to the external server 200 and receive phoneme information about the recognized voice from the external server 200.
  • the server performing voice recognition and the phoneme conversion server may be implemented as the same external server 200 or may be implemented as separate servers.
  • the electronic device 100 may determine a change in the amount of speaker characteristic information included in the existing speaker model.
  • the increase in the amount of speaker characteristic information may be to acquire new body information, for example, information about the oral structure, among the body information included in the speaker characteristic information, or the body characteristic information already included, for example, the occipital head It may be to obtain information to further refine the structure of.
  • the increase in the amount of speaker characteristic information may be to newly acquire speaker pronunciation information included in the speaker characteristic information, for example, information about the speaker's pronunciation of a new phoneme, and successively connected to a specific phoneme included in the existing speaker model. When another phoneme is pronounced, it may be to obtain information about the pronunciation of a specific phoneme differently.
  • the electronic device 100 may determine whether new speaker characteristic information not included in the existing speaker model can be obtained as a result of the combination of the newly acquired phoneme and the phoneme included in the speaker model.
  • the existing speaker model may include a pronunciation habit when the speaker pronounces / ⁇ / by analyzing the frequency information of the voice signal including the phoneme / a /.
  • the electronic device 100 may continuously pronounce / ⁇ / phoneme and / ⁇ / phoneme. It is possible to determine whether there is a difference between the signal characteristic and the signal characteristic when only / / / phoneme is pronounced.
  • the electronic device 100 may determine that the amount of speaker characteristic information included in the speaker model increases.
  • the electronic device 100 may learn or adapt the speaker model using the phoneme.
  • the electronic device 100 when the electronic device 100 is implemented as an electronic device in which an application such as a smart phone, a smart TV, and a smart remote control can be installed, the electronic device 100 performs a function corresponding to the recognized voice signal.
  • An application for controlling an external device can be driven.
  • Such an application may exist on the electronic device 100 from the time of shipment.
  • the user 30 may drive an application in the electronic device 100 and input a voice command such as “Turn A Movie On”.
  • the electronic device 100 may recognize a voice command input from the user 30 among a plurality of audio signals, and provide a function corresponding to the voice command as an external device capable of outputting video content connected to the electronic device 100.
  • a control signal for performing can be transmitted.
  • the electronic device 100 transmits a voice signal received through a microphone included in an external device connected to the electronic device 100 as well as a microphone in the electronic device 100. It may be sent.
  • the external device connected to the electronic device 100 may be a remote control including a microphone, but is not limited thereto.
  • the electronic device 100 may include a microphone 110, a memory 120 and a processor 130.
  • the microphone 110 may receive a voice signal from a user.
  • the microphone 110 may be received from a plurality of speakers 10, 20, and 30 illustrated in FIG. 1 through a user voice for controlling the electronic device 100.
  • the microphone 110 may have a microphone array configuration including a plurality of microphones (for example, four).
  • a microphone array composed of a plurality of microphones may estimate a direction in which a voice signal is input.
  • the microphone array may be composed of directional or omnidirectional microphones, and may be a configuration in which directional microphones and omnidirectional microphones are mixed.
  • the memory 120 may store information about a speaker model corresponding to a plurality of speakers.
  • the memory 120 may include speaker characteristic information for each phoneme of a plurality of speakers, frequency information for voice signals of a plurality of speakers, and the like.
  • the speaker characteristic information may include various information, such as information on the speaker's oral structure, neck length, and other body characteristics of the speaker, voice signal information for each phoneme due to the speaker's body characteristics, and information about the speaker's pronunciation habits for each phoneme. have.
  • the memory 120 may store various data for operations of the electronic device 100 such as a program for processing or controlling the processor 130.
  • the memory 120 may store a number of application programs or applications that are driven by the electronic device 100 and data and commands for the operation of the electronic device 100. At least some of these application programs may be downloaded from the external server 200 through wireless communication. Also, at least some of these application programs may exist on the electronic device 100 from the time of shipment for basic functions of the electronic device 100.
  • the application program may be stored in the memory 120 and driven by the processor 130 to perform an operation (or function) of the electronic device 100.
  • the memory 120 may be implemented as a non-volatile memory, volatile memory, flash-memory, hard disk drive (HDD), or solid state drive (SSD).
  • the memory 120 is accessed by the processor 130, and data read / write / modify / delete / update may be performed by the processor 130.
  • the term memory is a memory card (not shown) mounted on the memory 120, a ROM, RAM in the processor 130, or an electronic device 100 (eg, a micro SD card, a memory stick, a USB memory, etc.) ).
  • the processor 130 controls the overall operation of the electronic device 100 using various programs stored in the memory 120.
  • the processor 130 may identify a speaker model corresponding to a voice signal received through the microphone 110 among a plurality of speaker models stored in the memory 120. Further, the processor 130 may determine a change in the amount of speaker characteristic information included in the speaker model when each phoneme is learned in the identified speaker model for each of a plurality of phonemes included in the received voice signal.
  • the processor 130 may train the speaker model with data having a large change in information amount based on the degree of change in the speaker characteristic information amount.
  • FIG. 3 is a detailed diagram for describing a configuration of an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 is electrically connected to the microphone 110, the memory 120, the display 140, the speaker 150, the communication unit 160, the interface unit 170, and the above-described components. It may include a combined processor 130. Since the microphone 110, the memory 120, and the processor 130 have already been described, redundant description will be omitted.
  • the processor 130 controls the overall operation of the electronic device 100 using various programs stored in the memory 120.
  • the processor 130 as shown in Figure 2B, RAM 131, ROM 132, graphics processor 133, main CPU 134, the first to n interfaces (135-1 to 135-n), Includes bus 136.
  • the RAM 131, the ROM 132, the graphic processing unit 133, the main CPU 134, and the first to n interfaces 135-1 to 135-n may be connected to each other through the bus 136. .
  • the ROM 132 stores a set of instructions for booting the system and the like.
  • the main CPU 134 copies the O / S stored in the memory 160 to the RAM 131 according to the command stored in the ROM 132, and executes the O / S to operate the system. Boot it.
  • the main CPU 134 copies various application programs stored in the memory 160 to the RAM 131 and executes the application programs copied to the RAM 131 to perform various operations.
  • the graphic processing unit 133 generates a screen including various objects such as icons, images, and text using an operation unit (not shown) and a rendering unit (not shown).
  • the calculation unit calculates attribute values such as coordinate values, shapes, sizes, colors, etc., to be displayed according to the layout of the screen by using the control command received from the communication unit 120.
  • the main CPU 134 accesses the memory 120 to boot using O / S stored in the memory 120. In addition, the main CPU 134 performs various operations using various programs, contents, and data stored in the memory 120.
  • the first to n interfaces 135-1 to 135-n are connected to various components described above.
  • One of the interfaces may be a network interface connected to an external device through a network.
  • the processor 130 may be implemented as a digital signal processor (DSP), a microprocessor (microprocessor), a time controller (TCON) that processes digital signals.
  • DSP digital signal processor
  • microprocessor microprocessor
  • TCON time controller
  • CPU central processing unit
  • MCU microcontroller unit
  • MPU micro processing unit
  • AP application processor
  • CP communication processor
  • the processor 130 includes a system-on-chip (SoC) with processing algorithms and large scale integration (LSI). ), Or FPGA (Field Programmable Gate Array).
  • SoC system-on-chip
  • LSI large scale integration
  • FPGA Field Programmable Gate Array
  • the display 140 may display various screens generated by the graphic processing unit 133 in order to perform a function according to a voice command recognized by the electronic device 100.
  • the electronic device 100 may include the display 140 as a component, but when displaying various screens on the display included in the external device, the voice on the display of the external device using the interface unit 170 to be described later. Various screens can be displayed in the command.
  • the display 140 may be implemented as a liquid crystal display panel (LCD), organic light emitting diodes (OLED), or the like, but is not limited thereto.
  • the display 140 may be implemented as a flexible display, a transparent display, and the like in some cases.
  • the display 140 may include a display panel for outputting an image, as well as a bezel for housing the display panel.
  • the bezel may include a touch sensing unit (not shown) for sensing user interaction.
  • the speaker 150 is configured to output not only various audio data, but also various notification sounds and voice messages. In particular, when the speaker 150 identifies the speaker model corresponding to the speaker inputting the voice, the speaker 150 may output a notification sound.
  • the communication unit 160 is a component for communicating with the external server 200.
  • the communication unit 160 may transmit a digital conversion signal for the input voice signal to the external server 200.
  • the communication unit 160 may receive speaker characteristic information obtained by analyzing a phoneme included in a voice signal as a result of being performed by the external server 200.
  • the communication unit 160 may communicate with other external devices.
  • the type of the external device may be an electronic device capable of outputting video content.
  • the external device when the external device is a television, the type of the external device is a video device, and the output data information of the television is the model name of the television, the audio characteristics of the output contents of the television, and the frequency characteristics of the output audio among the output contents of the television It may include but is not limited to this.
  • the external device that the communication unit 160 communicates with may include a remote controller, a Bluetooth speaker, a lighting device, a smart cleaner, a smart refrigerator, and an IOT home manager in addition to a device capable of outputting video content.
  • the communication unit 160 may receive information about the speaker's voice signal received by the external device. In this case, the communication unit 160 may receive a voice command of the user input through the remote control. The communication unit 160 may also receive a voice signal of the speaker received through the speaker included in the remote control. This is only an example, and the communication unit 160 may receive a remote control signal through the BT module.
  • the communication unit 160 is Wifi (wireless fidelity), BT (Bluetooth), NFC (near field communication), GPS (global positioning system), Ethernet via CSMA / CD (carrier sense multiple access / collision detection) method (Ethernet) ) Or cellular communication (eg, LTE, LTE-A, CDMA, WCDMA, UMTS, Wibro or GSM, etc.).
  • the communication unit 160 may be implemented with a plurality of communication units corresponding to the at least one communication module.
  • the communication unit 160 may use a Wi-Fi module to communicate with an external device such as a remote control and an external server 200.
  • the communication unit 160 may use a communication unit including at least one of an Ethernet modem and a WiFi module to communicate with the external server 200, and external such as a remote control
  • a communication unit including a BT module may be used to communicate with the device.
  • this is only an example and is not limited thereto.
  • the interface unit 170 is a component for connecting the external device and the electronic device 100 to input and output video and audio.
  • the interface unit 170 includes a universal serial bus (USB), a high definition multimedia interface (HDMI), a recommended standard 232 (RS-232), a plain old telephone service (POTS) DVI, and a display (DP) for wired communication. port), Thunderbolt.
  • HDMI is an interface capable of transmitting high-performance data for AV devices that output audio and video.
  • DP is a full HD class of 1920x1080, ultra-high resolution screen such as 2560x1600 or 3840x2160, and 3D stereoscopic image, and digital voice can be delivered.
  • Thunderbolt is an input / output interface for high-speed data transmission and connection, and PC, display, and storage devices can all be connected in parallel through a single port.
  • the interface unit 170 may further include a port for outputting only an audio signal or a port for outputting only a video signal.
  • FIG. 4 is a detailed diagram for describing a specific configuration of a processor according to an embodiment of the present disclosure.
  • the processor 130 includes an utterance determination unit 130-1, a similarity measurement unit 130-2, a phoneme-based information measurement unit 130-3, and a speaker model adaptation unit 130-4. , It may include a voice recognition unit (130-5).
  • the ignition amount determining unit 130-1 may measure the length of the accumulated signal of the voice signal input through the microphone 110. Specifically, the utterance determining unit 130-1 may determine whether the accumulated duration of a specific voice signal is equal to or greater than a preset duration, and similarity measurement unit 130-2 only includes a voice signal longer than a preset reference duration. ).
  • the similarity measurement unit 130-2 may determine whether the input voice is similar to information included in a plurality of speaker models stored in the memory 120. Specifically, the similarity measurement unit 130-2 may acquire a frequency signal corresponding to the input voice signal, and compare the frequency signal for each voice included in a plurality of speaker models. The similarity measurement unit 130-2 may identify a speaker model including frequency information of an input voice signal and frequency information having the highest similarity among a plurality of speaker models.
  • the phoneme-based information measuring unit 130-3 is included in the speaker model when each phoneme is adapted to the identified speaker model based on each phoneme included in the voice signal transmitted from the voice recognition unit 130-5. It is possible to judge the change in the amount of information on the speaker characteristics.
  • the phoneme-based information measuring unit 130-3 may determine whether to increase the amount of speaker characteristic information for each phoneme through a Bayesian Information Criterion (BIC) for each separated phoneme.
  • BIC Bayesian Information Criterion
  • the BIC is an index for measuring a change in the amount of information of a model trained with a Gaussian process.
  • a BIC (P i ) value greater than 0 means that when a phoneme having phoneme information P i is input to the current speaker model, the amount of information representing the speaker characteristics included in the speaker model increases.
  • the speaker model adaptation unit 130-4 may determine a phoneme to adapt to the speaker model based on the BIC (P i ) value determined by the phoneme-based information measurement unit 130-3. Specifically, the speaker model adaptation unit 130-4 may determine the data to adapt all phonemes having a BIC (P i ) value greater than a preset value, or adapt a phoneme having the largest BIC (P i ) value. It can also be judged as data to be ordered.
  • the voice recognition unit 130-5 is a component for recognizing the voice signal input through the microphone 110.
  • the voice recognition unit 130-5 may perform a STT (Speak to Text) process for a voice signal for voice recognition. Meanwhile, the voice recognition unit 130-5 may perform phoneme phoneme conversion on the voice signal converted into text as a result of performing voice recognition.
  • Phoneme phoneme conversion is a method of generating phoneme strings from the spelling of text, which is phoneme phoneme conversion, and the voice recognition unit 130-5 performs phonemeation before and after performing an automatic speech recognition process that converts speech into text. Phoneme conversion can be performed.
  • the voice recognition unit 130-5 may be implemented by being included in the processor 130 in the electronic device 100, as shown in FIG. 4, or may be implemented in a separate configuration from the processor 130.
  • the voice recognition unit 130-5 may be implemented by being included in the external server 200.
  • the electronic device 100 may convert and transmit the voice signal input through the communication unit 160 into a digital signal, and receive the voice recognition result. can do.
  • FIG. 5 is a block diagram illustrating a method of adapting a speaker model based on a change in a speaker characteristic information amount determined in units of phonemes according to an embodiment of the present disclosure.
  • the electronic device 100 of the present disclosure may receive a voice signal from a user (S510).
  • the electronic device 100 may be in a situation of receiving a voice signal from a plurality of speakers.
  • the electronic device 100 may include a plurality of speaker models registered in advance by a plurality of speakers.
  • the speaker model may include speaker characteristic information for each speaker.
  • the speaker characteristic information may include information about the speaker's body characteristics, such as the speaker's mouth structure and the length of the neck, and information about the speaker's pronunciation characteristics, such as a pronunciation habit for a specific phoneme.
  • the electronic device 100 may identify a speaker model corresponding to an input voice signal among a plurality of speaker models (S520). Specifically, the electronic device 100 may include frequency information of a voice signal corresponding to each speaker model. The electronic device 100 may acquire frequency information of the input voice signal and compare it with frequency information included in a plurality of speaker models. As a result of determining the similarity by comparing the frequency information, the electronic device 100 may determine the speaker model corresponding to the voice signal input with the speaker model having high similarity.
  • the electronic device 100 may determine the amount of change in information included in the speaker model when each phoneme is input to the identified speaker model for each of a plurality of phonemes included in the input voice signal (S530). Specifically, the electronic device 100 may determine whether new speaker characteristic information not included in the existing speaker model can be obtained as a result of the combination of the newly acquired phoneme and the phoneme included in the speaker model. . This will be described in detail with reference to FIG. 6.
  • the electronic device 100 may identify a phoneme that increases the maximum amount of speaker characteristic information included in the speaker model when a phoneme obtained in the speaker model is input among a plurality of newly acquired phonemes. .
  • the electronic device 100 may train the speaker model using a phoneme that increases the speaker characteristic information amount to the maximum.
  • the electronic device 100 may identify at least one phoneme that increases the amount of speaker characteristic information included in the speaker model above a predetermined criterion when a phoneme is input to the identified speaker model among a plurality of newly acquired phonemes. .
  • the electronic device 100 may train the speaker model using the identified at least one phoneme (S540).
  • FIG. 6 is a diagram for explaining adaptation of a speaker model by determining a change in the amount of information of the speaker model when input to the speaker model for each phoneme included in the input voice by the electronic device according to one embodiment of the present disclosure. to be.
  • the electronic device 100 may receive a voice (S610), and may identify a speaker model corresponding to a voice signal among a plurality of speaker models (S620).
  • the electronic device 100 may perform voice recognition on the input voice signal. Specifically, for voice recognition, the electronic device 100 may perform a STT (Speak to Text) process. Meanwhile, the electronic device 100 may perform phoneme phoneme conversion on the voice signal converted to text as a result of performing voice recognition (S630).
  • Phoneme phoneme conversion is a method of generating phoneme strings from the spelling of text, which is phoneme phoneme conversion.
  • the electronic device 100 performs phoneme phoneme conversion before and after performing an automatic speech recognition process that converts speech into text. Can be done.
  • the electronic device 100 may perform phoneme phoneme transformation by applying phonological rules within the word or modeling pronunciation using each word of the text as a basic unit, but is not limited thereto.
  • the electronic device 100 may directly perform voice recognition on the input voice, but may also perform voice recognition through the external server 200.
  • the external server 200 performs voice recognition
  • the electronic device 100 may convert the input voice signal into a digital signal and transmit it to the external server 200.
  • the external server 200 may transmit the result of performing STT (Speak To Text) to the electronic device 100 based on the received signal.
  • STT Peak To Text
  • the external server 200 may be a server that performs only voice recognition, but may also be a server that performs phoneme conversion.
  • the electronic device 100 may receive a phoneme phoneme-converted result of the voice-recognized data from the external server 200.
  • the server performing the speech recognition and the phoneme conversion server may be implemented as the same server, or may be implemented as separate servers.
  • the electronic device 100 may separate the data converted from the voice signal into syllables, and separate the separated syllables into phonemes using feature variables. Specifically, the electronic device 100 may classify and separate a section of a phoneme included in the voice signal by using at least one of characteristic variables including energy, zero crossing rate, and spectral energy ratio of each frame of the voice signal. have.
  • the electronic device 100 may determine whether the amount of speaker characteristic information for each phoneme is increased through a Bayesian Information Criterion (BIC) for each separated phoneme.
  • BIC Bayesian Information Criterion
  • the BIC is an index for measuring a change in the amount of information of a model trained with a Gaussian process.
  • BIC (P i ) means the BIC value of the phoneme, and can be defined as follows.
  • M n ) The amount of speaker characteristic information for the phoneme already included in the existing speaker model.
  • I (M n ) The amount of information about the speaker characteristics of the existing speaker model.
  • ⁇ i bias term for the amount of overlapping information.
  • the amount of information I (.) Is the entropy value for each variable, and since speaker characteristics are modeled using a Gaussian model, it can be calculated using Likelihood values used to measure speaker model similarity.
  • a BIC (P i ) value greater than 0 means that when a phoneme having phoneme information P i is input to the current speaker model, the amount of information representing the speaker characteristics included in the speaker model increases.
  • the speaker model is derived from the entropy value of the speaker characteristic information amount.
  • the entropy value for the amount of speaker characteristic information included in this, the entropy value for the amount of speaker characteristic information for the phoneme included in the speaker model, and the entropy value for the amount of superposition information for the phoneme are reduced, and the BIC value for the acquired phoneme Can be obtained.
  • the electronic device 100 does not include information on a phoneme obtained from a voice signal input to the speaker model, when the phoneme acquired in the speaker model is learned, from the entropy value for the speaker characteristic information amount to the speaker model
  • the BIC value can be obtained by reducing the entropy value for the amount of speaker characteristic information included.
  • the electronic device 100 may determine the characteristics of the voice signal input from the speaker at predetermined time intervals. For example, the electronic device 100 may analyze phoneme information included in the voice signal every 20 ms time, and determine whether the amount of information increases when the phoneme is trained in the speaker model.
  • the electronic device 100 may calculate a BIC (Pi) value for all phonemes and determine whether to adapt or learn a specific phoneme to the speaker model. Specifically, the electronic device 100 may train the speaker model using only a phoneme having the highest BIC (Pi) value, or a speaker model using at least one of phonemes having a BIC (Pi) value equal to or greater than a preset value. You can also learn (S650).
  • a BIC (Pi) value for all phonemes and determine whether to adapt or learn a specific phoneme to the speaker model. Specifically, the electronic device 100 may train the speaker model using only a phoneme having the highest BIC (Pi) value, or a speaker model using at least one of phonemes having a BIC (Pi) value equal to or greater than a preset value. You can also learn (S650).
  • FIG. 7 is a diagram for explaining identifying a speaker model corresponding to an input voice signal according to an embodiment of the present disclosure.
  • the electronic device 100 may receive a voice signal (S710). Thereafter, when the accumulated duration for the input voice signal is shorter than the preset duration (S720-N), the electronic device 100 may store the voice signal in the memory 110 or the buffer. When the accumulated duration for the input voice signal is longer than the preset duration (S720-Y), the electronic device 100 may acquire frequency information for the input voice signal.
  • the electronic device 100 may measure the similarity between the frequency signals by comparing the frequency information for the input voice signal with the frequency information included in each of the plurality of speaker models. If there is no frequency information having a degree of similarity with frequency information of the input voice signal among frequency information included in a plurality of speaker models than a preset similarity level (S730-N), the electronic device 100 is connected to the speaker of the input voice. It can be judged that the Korean speaker model does not exist.
  • the electronic device 100 determines the frequency information having the greatest similarity to the frequency information of the input voice signal among the respective frequency information included in the plurality of speaker models, and the speaker model corresponding to the input speaker model corresponding to the input voice It can be identified as (S740).
  • the electronic device 100 may determine a change in the amount of speaker characteristic information included in the speaker model when adapting or learning to the speaker model identified for each phoneme using the BIC indicator ( S750), the phoneme determined according to the determination result may be adapted or learned in the speaker model (S760).

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Machine Translation (AREA)

Abstract

본 개시는 자유발화 화자인식(Text-Independent Speaker recognition)의 성능 향상을 위한 화자모델 적응 방법 및 장치에 관한 것이다. 구체적으로 본 개시는 전자장치에 기저장된 화자모델의 적응에 있어서, 음소 단위로 화자특성 정보량의 변화를 고려하여 자유발화 화자인식의 성능을 개선하는 방법 및 장치에 관한 것이다. 본 개시의 전자장치의 제어방법은 사용자로부터 음성 신호를 입력받는 단계와, 복수의 화자모델 중 음성 신호에 대응하는 화자모델을 식별하는 단계와, 음성 신호에 포함된 복수의 음소 각각에 대하여, 식별된 화자모델에 각각의 음소가 입력되었을 때 화자모델의 화자특성 정보량의 변화를 판단하는 단계와, 판단결과를 바탕으로 복수의 음소 중 적어도 하나를 이용하여 식별된 화자모델을 학습시키는 단계를 포함한다.

Description

음소기반 화자모델 적응 방법 및 장치
본 개시는 자유발화 화자인식 (Text-Independent Speaker recognition) 의 성능 향상을 위한 화자모델 적응 방법 및 장치에 관한 것이다. 구체적으로 본 개시는 전자장치에 기저장된 화자모델의 적응에 있어서, 음소 단위로 화자특성 정보량의 변화를 고려하여 자유발화 화자인식의 성능을 개선하는 방법 및 장치에 관한 것이다.
자유발화 화자인식은 특정 문장(text) 에 고정되지 않고, 어떠한 발화를 통해서도 화자를 인식할 수 있는 기술이다. 따라서 사용자가 다양한 발화 내용을 포함하여 가능한 많은 발화를 통해 자신의 목소리를 등록한다면, 우수한 자유발화 화자인식 성능을 확보할 수 있다. 하지만 성능 확보를 위해 많게는 수 분의 화자등록을 요구하게 되고 이러한 경우 사용자의 사용성이 저하된다. 이를 극복하기 위해 화자등록 단계의 효율화를 위해 짧은 화자등록 발화를 사용할 수 있으나, 이 경우 초기 등록발화가 짧기 때문에 등록 모델이 모든 음소에 포함된 화자 정보를 충분히 포함하지 못하고, 화자인식 성능이 저하되는 문제점이 발생한다.
이를 극복하기 위한 또 다른 방법으로, 음성서비스에 사용되는 실발화를 통해 화자모델을 강화하는 방법을 제안하고 있다. 즉, 초기 화자등록을 수행하고, 사용자가 음성 서비스를 사용할 시 화자모델과의 유사성을 측정하여 화자 모델을 적응/강화하는 방법이 사용된다. 이러한 종래의 화자모델 적응 방법은, 실사용 음성이 특정화자일 확률 (화자인식 유사도)이 높은 경우 해당 화자모델 적응 훈련에 모든 입력음성을 사용한다. 다만 이러한 방법은 아래와 같은 문제점을 가진다.
종래의 경우 화자모델 적응을 위한 실사용 데이터는 음소의 균형적인 분포를 고려하지 않아, 각 음소 고유의 화자특성을 모두 포함하지 못한다. 즉, 현재 화자모델이 포함하고 있는 음소를 바탕으로 한 화자특성에만 의존적으로 유사도가 측정되고, 초기 화자모델의 음소 분포에 따른 화자특성 정보의 지협적인 최대치(local-maximum) 에 종속되는 문제 발생한다. 이러한 특정 음소군에 대한 의존적인 업데이트 과정으로 인해, 다양한 자유발화에 대한 화자인식 성능 확보가 어렵다는 단점이 있다.
상술한 바와 같이 종래의 방법들은 초기 등록발화의 화자특성 정보에 의존적인 화자모델 적응 방법들을 사용하고 있다. 본 발명은 상술한 필요성에 따른 것으로, 본 발명의 목적은 자유발화 화자인식 서비스를 사용하는데 있어, 화자등록 단계를 간단히 하는 사용성을 유지한 채 효율적으로 화자모델 적응 훈련을 하여 자유발화 화자인식의 성능을 향상시키는 것이다.
구체적으로 본 발명에서는 초기 등록 발화의 화자특성 정보의 한계를 극복하고 자유발화 화자인식의 성능을 향상시킬 수 있도록, 화자모델에 적응 시 발행하는 음소단위 화자특성 정보량의 변화를 고려한 화자모델 적응 방법을 제안한다.
상술한 과제를 해결하기 위한 본 개시의 일 실시 예에 따른 전자장치의 제어방법은, 사용자로부터 음성 신호를 입력받는 단계, 복수의 화자모델 중 상기 음성 신호에 대응하는 화자모델을 식별하는 단계, 상기 음성 신호에 포함된 복수의 음소 각각에 대하여, 상기 식별된 화자모델에 각각의 음소가 입력되었을 때 상기 화자모델의 화자특성 정보량의 변화를 판단하는 단계 및 상기 판단결과를 바탕으로 상기 복수의 음소 중 적어도 하나를 이용하여 상기 식별된 화자모델을 학습시키는 단계를 포함할 수 있다.
또한, 상기 학습시키는 단계는, 상기 복수의 음소 중 상기 식별된 화자 모델에 음소가 입력되었을 때 상기 화자 모델의 화자특성 정보량을 최대로 증가시키는 음소를 식별하는 단계 및 상기 식별된 음소를 이용하여 상기 식별된 화자 모델을 학습시키는 단계를 더 포함할 수 있다.
또한, 상기 학습시키는 단계는, 상기 복수의 음소 중 상기 식별된 화자 모델에 음소가 입력되었을 때 상기 화자 모델의 화자특성 정보량을 기설정된 기준 이상 증가시키는 적어도 하나의 음소를 식별하는 단계 및 상기 식별된 적어도 하나의 음소를 이용하여 상기 식별된 화자 모델을 학습시키는 단계를 더 포함할 수 있다.
또한, 상기 화자모델에 대한 정보 변화량을 판단하는 단계는, 상기 음성 신호에 대응하는 텍스트(text) 데이터를 획득하는 단계 및 상기 텍스트 데이터를 바탕으로 자소 음소 변환(grapheme to phoneme) 및 음소 구간 구분을 수행하여 상기 음성 신호에 포함된 음소를 식별하는 단계를 더 포함할 수 있다.
또한, 상기 변화량을 판단하는 단계는, 상기 화자모델에 상기 식별된 음소에 관한 정보가 이미 포함되어 있는 경우, 상기 화자모델에 상기 식별된 음소를 학습시켰을 때 화자특성 정보량에 대한 엔트로피 값에서 상기 화자모델이 포함하고 있는 화자특성 정보량에 대한 엔트로피 값, 상기 화자모델에 포함된 상기 음소에 대한 화자특성 정보량에 대한 엔트로피 값 및 중첩 정보량에 대한 엔트로피 값을 감소시킴으로써 상기 식별된 음소에 대한 지표를 판단하고, 상기 화자모델에 상기 식별된 음소에 관한 정보가 포함되어 있지 않는 경우, 상기 화자모델에 상기 식별된 음소를 학습시켰을 때 화자특성 정보량에 대한 엔트로피 값에서 상기 화자모델에 포함된 화자특성 정보량에 대한 엔트로피 값을 소시킴으로써 상기 식별된 음소에 대한 지표를 판단하는 것일 수 있다.
또한, 상기 지표는, 가우시안 모델(Gaussian model)을 이용하여 모델링된 상기 화자특성 정보량에 대한 BIC(Bayesian Information Criterion)일 수 있다.
또한, 상기 입력받는 단계는, 복수의 사용자로부터 복수의 음성 신호를 입력받는 것이고, 상기 화자모델을 식별하는 단계는, 상기 복수의 음성 신호 중 입력된 후 축적된 신호 길이(length)가 기설정된 기준 길이를 초과하는 음성 신호를 식별하는 단계;를 더 포함하고, 상기 식별된 음성 신호에 대응하는 화자모델을 식별하는 것일 수 있다.
또한, 상기 화자모델을 식별하는 단계는, 상기 복수의 화자모델 중 상기 입력된 음성 신호와의 유사도가 기설정된 유사도를 초과하는 화자모델을 식별하는 것일 수 있다.
상술한 과제를 해결하기 위한 본 개시의 일 실시 예에 따른 전자장치는,
마이크 및 복수의 화자모델 중 상기 마이크를 통해 입력된 음성 신호에 대응하는 화자모델을 식별하고, 상기 음성 신호에 포함된 복수의 음소 각각에 대하여, 상기 식별된 화자모델에 각각의 음소가 입력되었을 때 상기 화자모델의 화자특성 정보량의 변화를 판단하고, 상기 판단결과를 바탕으로 상기 복수의 음소 중 적어도 하나를 이용하여 상기 식별된 화자모델을 학습시키는 프로세서를 포함할 수 있다.
또한, 상기 프로세서는, 상기 복수의 음소 중 상기 식별된 화자 모델에 음소가 입력되었을 때 상기 화자 모델의 화자특성 정보량을 최대로 증가시키는 음소를 식별하고, 상기 식별된 음소를 이용하여 상기 식별된 화자 모델을 학습시킬 수 있다.
또한, 상기 프로세서는, 상기 복수의 음소 중 상기 식별된 화자 모델에 음소가 입력되었을 때 상기 화자 모델의 화자특성 정보량을 기설정된 기준 이상 증가시키는 적어도 하나의 음소를 식별하고, 상기 식별된 적어도 하나의 음소를 이용하여 상기 식별된 화자 모델을 학습시킬 수 있다.
또한, 상기 프로세서는, 상기 음성 신호에 대응하는 텍스트(text) 데이터를 획득하고, 상기 텍스트 데이터를 바탕으로 자소 음소 변환(grapheme to phoneme) 및 음소 구간 구분을 수행하여 상기 음성 신호에 포함된 음소를 식별할 수 있다.
또한, 상기 프로세서는, 상기 화자모델에 상기 식별된 음소에 관한 정보가 이미 포함되어 있는 경우, 상기 화자모델에 상기 식별된 음소를 학습시켰을 때 화자특성 정보량에 대한 엔트로피 값에서 상기 화자모델이 포함하고 있는 화자특성 정보량에 대한 엔트로피 값, 상기 화자모델에 포함된 상기 음소에 대한 화자특성 정보량에 대한 엔트로피 값 및 중첩 정보량에 대한 엔트로피 값을 감소시킴으로써 상기 식별된 음소에 대한 지표를 판단하고, 상기 화자모델에 상기 식별된 음소에 관한 정보가 포함되어 있지 않는 경우, 상기 화자모델에 상기 식별된 음소를 학습시켰을 때 화자특성 정보량에 대한 엔트로피 값에서 상기 화자모델에 포함된 화자특성 정보량에 대한 엔트로피 값을 소시킴으로써 상기 식별된 음소에 대한 지표를 판단할 수 있다.
또한, 상기 지표는, 가우시안 모델(Gaussian model)을 이용하여 모델링된 상기 화자특성 정보량에 대한 BIC(Bayesian Information Criterion)일 수 있다.
또한, 상기 프로세서는, 상기 마이크를 통해 복수의 사용자로부터 입력된 복수의 음성 신호 중 입력된 후 축적된 신호 길이(length)가 기설정된 기준 길이를 초과하는 음성 신호를 식별하고, 상기 식별된 음성 신호에 대응하는 화자모델을 식별할 수 있다.
또한, 상기 프로세서는, 상기 복수의 화자모델 중 상기 입력된 음성 신호와의 유사도가 기설정된 유사도를 초과하는 화자모델을 식별할 수 있다.
본 발명에 의하면, 화자인식 성능 강화를 위한 음소별 화자특성 정보 변화량을 이용하여 화자모델 적응을 위한 최적화 데이터를 선택할 수 있다. 즉, 화자모델 유사도 측정 기준을 통과한 데이터에 대하여 음소별 화자특성 정보 변화량을 측정한 후, 화자 특성 정보를 최대화 할 수 있는 최적의 데이터를 선택한다. 이를 통해 자유발화 화자인식의 등록 사용성을 확보할 뿐만 아니라, 제한된 데이터량에 기인한 초기 등록모델의 특성에 종속되지 않고, 사용자의 실발화로부터 화자 정보를 최대화할 수 있다. 즉, 본 발명을 통해 사용자가 음성 서비스를 사용할수록 자유발화 화자인식의 성능을 효율적으로 향상시킬 수 있다.
도 1은 본 개시의 일 실시 예에 따른, 복수의 사용자에 의해 사용되는 전자장치의 음성 인식 환경을 설명하기 위한 도면이다.
도 2는 본 개시의 일 실시 예에 따른, 전자장치의 구성요소를 설명하기 위한 간단한 블록도이다.
도 3은 본 개시의 일 실시 예에 따른, 전자장치의 구성을 설명하기 위한 상세한 도면이다.
도 4는 본 개시의 일 실시 예에 따른, 프로세서의 구체적인 구성을 설명하기 위한 상세한 도면이다.
도 5는 본 개시의 일 실시 예에 따른, 음소 단위로 판단된 화자특성 정보량의 변화를 바탕으로 화자모델을 적응시키는 방법을 설명하기 위한 블록도이다.
도 6은 본 개시의 일 실시 예에 따른, 전자장치가 입력된 음성에 포함된 음소 각각에 대해서 화자모델에 입력 시 화자모델의 정보량의 변화를 판단하여, 화자모델을 적응시키는 것을 설명하기 위한 도면이다.
도 7은 본 개시의 일 실시 예에 따른, 입력된 음성 신호에 대응하는 화자모델을 식별하는 것을 설명하기 위한 도면이다.
이하, 본 문서의 다양한 실시예가 첨부된 도면을 참조하여 기재된다. 그러나, 이는 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 문서의 실시예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.
또한, 본 문서에서 사용된 "제 1," "제 2," 등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 예를 들면, 제 1 사용자 기기와 제 2 사용자 기기는, 순서 또는 중요도와 무관하게, 서로 다른 사용자 기기를 나타낼 수 있다. 예를 들면, 본 문서에 기재된 권리 범위를 벗어나지 않으면서 제 1 구성요소는 제 2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소도 제 1 구성요소로 바꾸어 명명될 수 있다.
어떤 구성요소(예: 제 1 구성요소)가 다른 구성요소(예: 제 2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제 3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제 1 구성요소)가 다른 구성요소(예: 제 2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제 3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.
본 문서에서 사용된 용어들은 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 다른 실시예의 범위를 한정하려는 의도가 아닐 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 문서에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 본 문서에 사용된 용어들 중 일반적인 사전에 정의된 용어들은, 관련 기술의 문맥상 가지는 의미와 동일 또는 유사한 의미로 해석될 수 있으며, 본 문서에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 경우에 따라서, 본 문서에서 정의된 용어일지라도 본 문서의 실시예들을 배제하도록 해석될 수 없다.
이하에서, 첨부된 도면을 이용하여 본 발명의 다양한 실시 예들에 대하여 구체적으로 설명한다. 도 1은 본 개시의 일 실시 예에 따른, 복수의 사용자에 의해 사용되는 전자장치의 음성 인식 환경을 설명하기 위한 도면이다.
도 1을 참조하면, 전자장치(100)는 복수의 화자(10, 20, 30)들로부터 음성을 입력받을 수 있다. 이때, 전자장치(100)는 AI 스피커 등 복수의 사용자에 의해 음성 신호를 입력받을 수 있는 전자장치로 구현될 수 있다. 이는 일 실시 예에 불과하고, 본 개시의 전자장치(100)는 사용자의 음성 신호를 입력받기 위한 마이크를 구비한 스마트 TV 등의 다양한 전자장치를 통해 구현될 수 있다.
한편, 전자장치(100)는 복수의 화자(10, 20, 30)에 대응하는 화자모델을 저장하고 있을 수 있다. 즉, 전자장치(100)는 사용되기 전 또는 사용 중에 복수의 화자(10, 20, 30)에 의해 화자인식을 위한 등록을 수행할 수 있다. 즉, 전자장치(100)는 복수의 화자 각각으로부터 음성인식을 위한 음소 정보를 획득하기 위해, 특정 문장을 읽는 등의 다양한 방법을 통해 음성 신호를 입력받을 수 있고, 획득한 음소 정보를 바탕으로 복수의 화자모델을 등록할 수 있다. 이때, 음소는 발화에 포함된 단어 및 낱말를 구별하여 의미를 분화시키는 소리의 최소 단위를 의미한다. 예를 들어, 한국어의 '살'과 '쌀'에서 첫소리인 /ㅅ/과 /ㅆ/, '손'과 '산'에서 모음 /ㅗ/와 /ㅏ/는 두 낱말의 의미를 구별시켜 주는 변별적 기능을 가진 음소이다.
전자장치(100)는 복수의 화자(10, 20, 30)에 대응하는 화자모델을 저장할 수 있다. 이때, 화자모델에는 각각의 화자에 대한 화자특성 정보를 포함할 수 있다. 구체적으로, 화자특성 정보는 화자의 구강 구조, 목의 길이 등과 같은 화자의 신체특성 정보와 특정 음소에 대한 발음 습관 등과 같은 화자의 발음특성 정보에 대한 정보를 포함할 수 있다. 다만 이에 한정하지 않고, 화자모델은 화자특성 정보 외에 화자의 음성 신호에 대응하는 주파수 정보를 포함하고 있을 수도 있다.
상술한 화자특성 정보는 입력받은 음성 신호를 통해 획득한 음소 정보를 분석함으로써 획득될 수 있다. 구체적으로, 전자장치(100)는 화자특성 정보를 출력하도록 학습된 인공지능 모델에 획득한 음소 정보를 입력함으로써 화자특성 정보를 획득할 수 있다.
한편, 인공지능 모델은 전자장치(100) 내부에 포함되어 있을 수도 있고, 외부 서버(200)에 포함되어 있을 수도 있다. 인공지능 모델이 외부 서버(200)에 포함되어 있는 경우, 전자장치(100)는 입력받은 음성 신호를 ADC(analogue to digital converter)를 통해 디지털 신호로 변환 후 외부 서버(200)로 전송할 수 있고, 외부 서버(200)는 수신한 음성에 대한 신호를 바탕으로, 화자 신체특정 정보 및 발음특성 정보를 포함하는 화자특성 정보를 획득할 수 있다. 전자장치(100)는 외부서버(200)가 획득한 화자특성 정보에 대한 데이터를 수신할 수 있다. 이후 전자장치(100)는 획득한 화자특성 정보를 각각의 화자모델에 대응시켜 저장할 수 있다.
한편, 전자장치(100)는 도 1에서와 같이 특정 화자(30)이 발화하는 경우, 기저장된 복수의 화자모델 중 해당 화자(30)에 대응하는 화자모델을 식별할 수 있다. 이때, 화자모델을 식별하는 방법은 음성 신호에 대응하는 주파수 정보와 화자모델에 포함된 화자특성 정보 및 주파수 정보를 바교하여 복수의 화자모델 중 유사도가 높은 화자모델을 식별하는 것일 수 있다.
화자(30)에 대응하는 화자모델을 식별한 후, 전자장치(100)는 화자(30)로부터 지속적으로 입력되는 실 발화를 입력받을 수 있다. 이때, 전자장치(100)는 입력되는 실 발화에 포함된 음소를 획득할 수 있다. 이때, 전자장치(100)는 STT 프로세스, 자소 음소 변환, 음소 구간 구분 등을 수행하여 음소를 획득할 수 있다. 이에 대한 자세한 사항은 추후에 설명하도록 한다.
한편, STT 프로세스, 자소 음소 변환, 음소 구간 구분 등의 프로세스는 전자장치(100)가 아닌 외부서버(200)에서 수행될 수 있다. 이 경우, 전자장치(100)는 입력받은 음성에 대한 디지털 변환 데이터를 외부서버(200)로 송신할 수 있고, 외부서버(200)로부터 인식된 음성에 대한 음소 정보를 수신할 수 있다. 한편, 음성인식을 수행하는 서버와 자소 음소 변환 서버는 동일한 외부서버(200)로 구현될 수도 있고, 별도의 서버로 구현될 수도 있다.
전자장치(100)는 새롭게 획득된 음소 각각이 기존의 화자모델에 입력될 경우, 기존의 화자모델에 포함된 화자특성 정보량의 변화를 판단할 수 있다. 이때, 화자특성 정보량이 증가한다는 것은 화자특성 정보에 포함된 화자 신체정보 중 새로운 신체정보, 예를 들어 구강구조에 대한 정보를 획득하는 것일 수도 있고, 이미 포함하고 있는 신체특성 정보, 예를 들어 후두부의 구조를 더욱 구체화하도록 하는 정보를 획득하는 것일 수도 있다. 또는 화자특성 정보량이 증가한다는 것은 화자특성 정보에 포함된 화자 발음정보, 예를 들면 새로운 음소에 대한 화자의 발음에 대한 정보를 새롭게 획득하는 것일 수도 있고, 기존의 화자모델에 포함된 특정 음소와 연이은 또 다른 음소를 발음할 때 특정 음소에 대한 발음이 상이하게 발음되는 것에 대한 정보를 획득하는 것일 수도 있다.
구체적으로, 전자장치(100)는 새로 획득된 음소와 화자모델에 포함된 음소와의 조합 결과, 기존의 화자모델에는 포함되어 있지 않은 새로운 화자특성 정보를 획득할 수 있는지 여부를 판단할 수 있다. 예를 들어, 기존의 화자모델은 /ㄱ/이라는 음소를 포함하는 음성 신호의 주파수 정보를 분석함으로써, 화자가 /ㄱ/을 발음하는 때의 발음 습관을 포함하고 있을 수 있다. 이때, 새로운 획득된 음성 신호에 /ㄱ/음소 이후 /ㅏ/음소를 발음하는 음성 신호가 포함되어 있는 경우, 전자장치(100)는 /ㄱ/ 음소와 /ㅏ/음소를 연속적으로 발음할 때의 신호 특성과 /ㄱ/음소만을 발음할 때의 신호 특성이 차이가 있는지 판단할 수 있다. 판단 결과 /ㄱ/음소에 대한 화자의 새로운 발음 습관이 추가되는 경우, 전자장치(100)는 화자모델이 포함하는 화자특성 정보량이 증가하는 것으로 판단할 수 있다.
전자장치(100)는 새로 획득한 음소가 기존의 화자모델과 관련하여 화자특성 정보량이 증가하는 것으로 판단한 경우, 해당 음소를 이용하여 화자모델을 학습 또는 적응시킬 수 있다.
상술한 바와 같이, 기존의 화자모델에 포함된 화자특성 정보량을 바탕으로 화자모델을 학습시킴으로써, 종래의 기술들과 같은 지협적인 최대치(local-maximum) 에 종속되는 문제 발생함을 방지할 수 있다. 즉, 종래의 기술은 기존의 화자모델 등록시 포함된 음소들에 대한 인식률이 강화되는 방향으로 학습되었으나, 본 개시에 따르면 기존에 포함된 음소인지 여부를 불문하고 화자특성 정보량을 기준으로 화자모델을 학습함으로써, global-maximum을 지향할 수 있다는 효과가 있다.
한편, 전자장치(100)가 스마트폰, 스마트TV, 스마트 리모컨 등 어플리케이션(application)이 설치될 수 있는 전자장치로 구현된 경우, 전자장치(100)는 인식한 음성 신호에 대응되는 기능을 수행하도록 외부장치를 제어하기 위한 어플리케이션을 구동할 수 있다. 이러한 어플리케이션은 출고 당시부터 전자장치(100) 상에 존재할 수 있다.
예를 들면, 사용자(30)는 전자장치(100) 내의 어플리케이션을 구동하여 "A 영화 틀어줘"와 같은 음성명령을 입력할 수 있다. 전자장치(100)는 복수의 오디오 신호 중 사용자(30)로부터 입력된 음성 명령을 인식할 수 있고, 전자장치(100)와 연결된 영상 콘텐츠를 출력할 수 있는 외부 장치로 음성 명령에 대응하는 기능을 수행하기 위한 제어 신호를 전송할 수 있다.
또한, 도 1에는 도시하지 않았으나, 전자장치(100)는 화자의 음성 신호를 전자장치(100) 내의 마이크뿐만 아니라, 전자장치(100)와 연결된 외부장치에 포함된 마이크를 통해 수신된 음성 신호를 전송 받을 수도 있다. 이 경우 전자장치(100)와 연결된 외부장치는 마이크를 포함하는 리모컨일 수 있으나, 이에 한정하지 않는다.
도 2는 본 개시의 일 실시 예에 따른, 전자장치의 구성요소를 설명하기 위한 간단한 블록도이다. 도 2를 참조하면, 전자장치(100)는 마이크(110), 메모리(120) 및 프로세서(130)를 포함할 수 있다.
마이크(110)는 사용자로부터 음성 신호를 수신할 수 있다. 예를 들어, 마이크 (110)는 도 1에 도시된 복수의 화자(10, 20, 30)들로부터 전자 장치(100)를 제어하기 위한 사용자 음성을 통해 수신할 수 있다.
본 개시의 일 실시 예에 따라, 마이크(110)는 복수 개(예를 들어, 4개)의 마이크로폰으로 이루어진 마이크 어레이 구성을 가질 수 있다. 복수 개의 마이크로폰으로 이루어진 마이크 어레이는 음성 신호가 입력되는 방향을 추정할 수 있다. 본 개시의 일 실시 예에 따라, 마이크 어레이는 지향성 또는 무지향성 마이크로폰(directional or omnidirectional microphones)으로 이루어질 수 있고, 지향성 마이크로폰(directional microphones) 및 무지향성 마이크로폰(omnidirectional microphones)이 믹스된 구성일 수 있다.
메모리(120)는 복수의 화자에 대응하는 화자모델에 대한 정보를 저장할 수 있다. 특히 메모리(120)는 복수의 화자의 음소 별 화자특성 정보, 복수의 화자의 음성 신호에 대한 주파수 정보 등을 포함할 수 있다. 이때 화자특성 정보는 화자의 구강구조, 목길이 등에 대한 화자 신체특성에 대한 정보, 화자의 신체특성으로 인한 음소 별 음성신호 정보, 음소 별 화자의 발음습관 정보 등에 대한 정보 등 다양한 정보를 포함할 수 있다.
한편, 메모리(120)는 프로세서(130)의 처리 또는 제어를 위한 프로그램 등 전자장치(100) 전반의 동작을 위한 다양한 데이터를 저장할 수 있다. 메모리(120)는 전자장치(100)에서 구동되는 다수의 응용 프로그램(application program 또는 애플리케이션(application)), 전자장치(100)의 동작을 위한 데이터들, 명령어들을 저장할 수 있다. 이러한 응용 프로그램 중 적어도 일부는, 무선 통신을 통해 외부서버(200)로부터 다운로드 될 수 있다. 또한 이러한 응용 프로그램 중 적어도 일부는, 전자장치(100)의 기본적인 기능을 위하여 출고 당시부터 전자장치(100) 상에 존재할 수 있다. 응용 프로그램은, 메모리(120)에 저장되고, 프로세서(130)에 의하여 전자장치(100)의 동작(또는 기능)을 수행하도록 구동될 수 있다.
메모리(120)는 비휘발성 메모리, 휘발성 메모리, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등으로 구현될 수 있다. 메모리(120)는 프로세서(130)에 의해 액세스 되며, 프로세서(130)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 본 개시에서 메모리라는 용어는 메모리(120), 프로세서(130) 내 ROM, RAM 또는 전자 장치(100)에 장착되는 메모리 카드(미도시)(예를 들어, micro SD 카드, 메모리 스틱, USB 메모리 등)를 포함할 수 있다.
프로세서(130)는 메모리(120)에 저장된 각종 프로그램을 이용하여 전자 장치(100)의 전반적인 동작을 제어한다. 특히 프로세서(130)는 메모리(120)에 저장된 복수의 화자모델 중 마이크(110)를 통해 수신한 음성 신호에 대응하는 화자모델을 식별할 수 있다. 또한, 프로세서(130)는 수신한 음성 신호에 포함된 복수의 음소 각각에 대하여, 각각의 음소가 식별된 화자모델에 학습될 경우 화자모델에 포함된 화자특성 정보량의 변화를 판단할 수 있다. 프로세서(130)는 화자특성 정보량의 변화 정도를 바탕으로, 정보량의 변화가 큰 데이터를 화자모델에 학습시킬 수 있다.
한편, 프로세서(130)의 상세한 설명은 도 4에서 후술한다.
도 3은 본 개시의 일 실시 예에 따른, 전자장치의 구성을 설명하기 위한 상세한 도면이다.
도 3을 참조하면, 전자장치(100)는 마이크(110), 메모리(120), 디스플레이(140), 스피커(150), 통신부(160), 인터페이스부(170) 및 상술한 구성들과 전기적으로 결합된 프로세서(130)를 포함할 수 있다. 마이크(110), 메모리(120), 프로세서(130)에 대해서는 이미 설명하였으므로 중복되는 설명은 생략하기로 한다.
프로세서(130)는 메모리(120)에 저장된 각종 프로그램을 이용하여 전자 장치(100)의 전반적인 동작을 제어한다.
프로세서(130)는 도 2B에 도시된 바와 같이, RAM(131), ROM(132), 그래픽 처리부(133), 메인 CPU(134), 제1 내지 n 인터페이스(135-1 ~ 135-n), 버스(136)를 포함한다. 이때, RAM(131), ROM(132), 그래픽 처리부(133), 메인 CPU(134), 제1 내지 n 인터페이스(135-1 ~ 135-n) 등은 버스(136)를 통해 서로 연결될 수 있다.
ROM(132)에는 시스템 부팅을 위한 명령어 세트 등이 저장된다. 턴온 명령이 입력되어 전원이 공급되면, 메인 CPU(134)는 ROM(132)에 저장된 명령어에 따라 메모리(160)에 저장된 O/S를 RAM(131)에 복사하고, O/S를 실행시켜 시스템을 부팅시킨다. 부팅이 완료되면, 메인 CPU(134)는 메모리(160)에 저장된 각종 어플리케이션 프로그램을 RAM(131)에 복사하고, RAM(131)에 복사된 어플리케이션 프로그램을 실행시켜 각종 동작을 수행한다.
그래픽 처리부(133)는 연산부(미도시) 및 렌더링부(미도시)를 이용하여 아이콘, 이미지, 텍스트 등과 같은 다양한 객체를 포함하는 화면을 생성한다. 연산부는 통신부(120)로부터 수신된 제어 명령을 이용하여 화면의 레이아웃에 따라 각 객체들이 표시될 좌표값, 형태, 크기, 컬러 등과 같은 속성값을 연산한다.
메인 CPU(134)는 메모리(120)에 액세스하여, 메모리(120)에 저장된 O/S를 이용하여 부팅을 수행한다. 그리고, 메인 CPU(134)는 메모리(120)에 저장된 각종 프로그램, 컨텐츠, 데이터 등을 이용하여 다양한 동작을 수행한다.
제1 내지 n 인터페이스(135-1 내지 135-n)는 상술한 각종 구성요소들과 연결된다. 인터페이스들 중 하나는 네트워크를 통해 외부 장치와 연결되는 네트워크 인터페이스가 될 수도 있다.
본 발명의 일 실시 예에 따라, 프로세서(130)는 디지털 신호를 처리하는 디지털 시그널 프로세서(digital signal processor(DSP), 마이크로 프로세서(microprocessor), TCON(Time controller)으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니며, 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(130)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형태로 구현될 수도 있다.
디스플레이(140)는 전자 장치(100)가 인식한 음성 명령에 따른 기능을 수행하기 위해, 그래픽 처리부(133)에서 생성된 다양한 화면을 디스플레이할 수 있다. 전자장치(100)는 디스플레이(140)를 구성요소로 포함하고 있을 수 있으나, 외부장치에 포함된 디스플레이에 다양한 화면을 표시하는 경우에는 후술할 인터페이스부(170)를 이용하여 외부장치의 디스플레이에 음성 명령에 다양한 화면을 디스플레이할 수 있다.
디스플레이(140)는 LCD(Liquid Crystal Display Panel), OLED(Organic Light Emitting Diodes) 등으로 구현될 수 있으나, 이에 한정되는 것은 아니다. 또한, 디스플레이(140)는 경우에 따라 플렉서블 디스플레이, 투명 디스플레이 등으로 구현되는 것도 가능하다.
또한, 본 발명의 일 실시예에 따른, 디스플레이(140)는 영상을 출력하는 디스플레이 패널뿐만 아니라, 디스플레이 패널을 하우징하는 베젤을 포함할 수 있다. 특히, 본 발명의 일 실시예에 따른, 베젤은 사용자 인터렉션을 감지하기 위한 터치 감지부(미도시)를 포함할 수 있다.
스피커(150)는 각종 오디오 데이터뿐만 아니라 각종 알림 음이나 음성 메시지를 출력하는 구성이다. 특히, 스피커(150)는 음성을 입력하는 화자에 대응하는 화자모델을 식별한 경우 이에 대한 알림 음을 출력할 수 있다.
통신부(160)는 외부서버(200)와 통신하기 위한 구성이다. 통신부(160)는 입력된 음성 신호에 대한 디지털 변환 신호를 외부서버(200)로 전송할 수 있다. 또한, 통신부(160)는 외부서버(200)에서 수행된 결과, 예를 들면 음성 신호에 포함된 음소를 분석하여 획득한 화자특성 정보를 수신할 수 있다.
한편 통신부(160)는 기타 외부장치와 통신할 수 있다. 이때, 외부장치의 종류는 영상 콘텐츠를 출력할 수 있는 전자장치일 수 있다. 예를 들어, 외부장치가 텔레비전인 경우, 외부장치의 종류는 영상기기이고, 텔레비전의 출력 데이터 정보는 텔레비전의 모델 명, 텔레비전의 출력 콘텐츠의 오디오 특성, 텔레비전의 출력 콘텐츠 중 출력 오디오의 주파수 특성 등을 포함할 수 있으나 이에 한정되지 않는다. 또한, 통신부(160)가 통신하는 외부장치는 영상 콘텐츠를 출력할 수 있는 장치 외에도 리모컨, 블루투스 스피커, 조명 장치, 스마트 청소기, 스마트 냉장고, IOT 홈 매니저 등을 포함할 수 있다.
마이크를 포함하는 외부장치와 통신하는 경우, 통신부(160)는 외부장치가 수신한 화자의 음성 신호에 대한 정보를 수신할 수 있다. 이 경우 통신부(160)는 리모컨을 통해 입력되는 사용자의 음성 명령을 수신할 수 있다. 통신부(160)는 또한, 리모컨에 포함된 스피커를 통해 수신한 화자의 음성 신호를 수신할 수 있다. 이는 일 실시 예에 불과하며, 통신부(160)는 BT 모듈을 통해 리모컨 신호를 수신할 수 있다.
한편, 통신부(160)는 Wifi(wireless fidelity), BT(Bluetooth), NFC(near field communication), GPS(global positioning system), CSMA/CD(carrier sense multiple access/collision detection) 방식을 통한 이더넷(Ethernet) 또는 cellular 통신(예: LTE, LTE-A, CDMA, WCDMA, UMTS, Wibro 또는 GSM 등) 중 적어도 하나의 통신 방식에 대한 통신 모듈을 포함할 수 있다. 통신부(160)는 이러한 적어도 하나의 통신 모듈에 대응하는 복수의 통신부로 구현될 수 있다.
본 개시의 일 실시 예에 따르면, 통신부(160)는 리모컨과 같은 외부장치 및 외부서버(200)와 통신하기 위해 Wi-Fi 모듈을 이용할 수 있다. 또는, 통신부(160)가 복수의 통신부로 구현된 경우, 통신부(160)는 외부서버(200)와 통신하기 위해 이더넷 모뎀, WiFi 모듈 중 적어도 하나를 포함하는 통신부를 이용할 수 있고, 리모컨과 같은 외부 장치와 통신하기 위해 BT 모듈을 포함하는 통신부를 이용할 수도 있다. 다만 이는 일 실시 예에 불과하며 이에 한정하지 않는다.
인터페이스부(170)는 비디오 및 오디오를 입출력하기 위해, 외부장치와 전자장치(100)를 연결하기 위한 구성이다. 구체적으로 인터페이스부(170)는 유선 통신을 위한 구성인 USB(universal serial bus), HDMI(high definition multimedia interface), RS-232(recommended standard 232), POTS(plain old telephone service) DVI, DP(display port), 썬더볼트 중 적어도 하나를 포함할 수 있다. HDMI는 오디오 및 비디오 출력하는 AV 기기용 고성능 데이터의 전송이 가능한 인터페이스이다. DP 는 1920x1080의 풀HD급은 물론, 2560x1600이나 3840x2160과 같은 초고해상도의 화면, 그리고 3D 입체영상을 구현할 수 있고, 디지털 음성 또한 전달 가능한 인터페이스이다. 썬더볼트는 고속 데티어 전송 및 연결을 위한 입출력 인터페이스이며, PC, 디스플레이, 저장장치 등을 모두 하나의 포트로 병렬 연결할 수 있다.
상술한 입출력 단자들은 실시 예에 불가하며, 인터페이스부(170)는 이외에 오디오 신호만을 출력하기 위한 포트 또는 비디오 신호만을 출력하기 위한 포트를 포함할 수도 있다.
도 4는 본 개시의 일 실시 예에 따른, 프로세서의 구체적인 구성을 설명하기 위한 상세한 도면이다.
도 4를 참조하면, 프로세서(130)는 발화량결정부(130-1), 유사도측정부(130-2), 음소기반 정보측정부(130-3), 화자모델 적응부(130-4), 음성인식부(130-5)를 포함할 수 있다.
발화량결정부(130-1)는 마이크(110)를 통해 입력되는 음성 신호의 축적된 신호의 길이를 측정할 수 있다. 구체적으로, 발화량결정부(130-1)는 특정 음성 신호의 축적된 지속시간이 기설정된 지속시간 이상인지 판단할 수 있고, 기설정된 기준 지속시간보다 긴 음성 신호만을 유사도측정부(130-2)로 전달할 수 있다.
유사도측정부(130-2)는 입력된 음성이 메모리(120)에 저장된 복수의 화자모델에 포함된 정보와 유사한지 판단할 수 있다. 구체적으로, 유사도측정부(130-2)는 입력된 음성 신호에 대응하는 주파수 신호를 획득할 수 있고, 복수의 화자모델에 포함된 각각의 음성에 대한 주파수 신호와 비교할 수 있다. 유사도측정부(130-2)는 복수의 화자모델 중 입력된 음성 신호의 주파수 정보와 가장 유사도가 높은 주파수 정보를 포함하는 화자모델을 식별할 수 있다.
음소기반 정보측정부(130-3)는 음성인식부(130-5)로부터 전달된 음성 신호에 포함된 각각의 음소들을 바탕으로, 식별된 화자모델에 각각의 음소들이 적응되는 경우 화자모델에 포함된 화자특성 정보량의 변화를 판단할 수 있다.
구체적으로, 음소기반 정보측정부(130-3)는 분리된 음소 각각에 대하여, BIC(Bayesian Information Criterion)을 통해 음소별 화자특성 정보량의 증가 여부를 판단할 수 있다. 이때, BIC는 가우시안 프로세스(Gaussian process)로 훈련된 모델의 정보량의 변화를 측정하기 위한 지표이다. BIC(Pi) 값이 0보다 크다는 의미는, 현재의 화자모델에 음소정보 Pi를 가지는 음소를 입력하였을 때, 해당 화자모델에 포함된 화자특성을 나타내는 정보량이 증가했다는 것을 의미한다.
화자모델 적응부(130-4)는 음소기반 정보측정부(130-3)에서 판단된 BIC(Pi) 값을 기초로, 화자모델에 적응할 음소를 판단할 수 있다. 구체적으로, 화자모델 적응부(130-4)는 BIC(Pi) 값이 기설정된 값보다 큰 모든 음소를 적응시킬 데이터로 판단할 수도 있고, 가장 큰 BIC(Pi) 값을 가지는 음소를 적응시킬 데이터로 판단할 수도 있다.
음성인식부(130-5)는 마이크(110)를 통해 입력된 음성 신호를 인식하기 위한 구성이다.
음성인식부(130-5)는 음성인식을 위해 음성 신호를 STT(Speak to Text) 프로세스를 수행할 수 있다. 한편, 음성인식부(130-5)는 음성인식을 수행 결과 텍스트로 변환된 음성 신호에 대해, 자소 음소 변환을 수행할 수도 있다. 자소 음소 변환이란, 자소 음소 변환이란 텍스트의 철자로부터 음소열을 생성해 내는 방법으로, 음성인식부(130-5)는 음성을 텍스트로 변환하는 음성인식(Automatic Speech Recognition) 프로세스를 수행하기 전후로 자소 음소 변환을 수행할 수 있다.
한편, 음성인식부(130-5)는 도 4와 같이 전자장치(100) 내의 프로세서(130)에 포함되어 구현될 수도 있고, 프로세서(130)와 별도의 구성으로 구현될 수도 있다. 또한, 음성인식부(130-5)는 외부서버(200)에 포함되어 구현되어 있을 수도 있다. 음성인식부(130-5)가 외부서버(200)에 포함된 경우, 전자장치(100)는 통신부(160)를 통해 입력된 음성 신호를 디지털 신호로 변환하여 전송할 수 있고, 음성인식 결과를 수신할 수 있다.
도 5는 본 개시의 일 실시 예에 따른, 음소 단위로 판단된 화자특성 정보량의 변화를 바탕으로 화자모델을 적응시키는 방법을 설명하기 위한 블록도이다.
도 5를 참조하면, 본 개시의 전자장치(100)는 사용자로부터 음성 신호를 입력받을 수 있다(S510). 전자장치(100)는 복수의 화자로부터 음성 신호를 수신하는 상황에 있을 수도 있다. 따라서, 전자장치(100)는 복수의 화자가 미리 등록한 복수의 화자모델을 포함할 수 있다. 이러한 화자모델에는 각각의 화자에 대한 화자특성 정보를 포함할 수 있다. 구체적으로, 화자특성 정보는 화자의 구강 구조, 목의 길이 등과 같은 화자의 신체특성 정보 및 특정 음소에 대한 발음 습관 등과 같은 화자의 발음특성 정보에 대한 정보를 포함할 수 있다.
전자장치(100)는 복수의 화자모델 중 입력된 음성 신호에 대응하는 화자모델을 식별할 수 있다(S520). 구체적으로 전자장치(100)는 각각의 화자모델에 대응하는 음성 신호의 주파수 정보를 포함할 수 있다. 전자장치(100)는 입력된 음성 신호의 주파수 정보를 획득할 수 있고, 복수의 화자모델이 포함하는 주파수 정보와 비교할 수 있다. 전자장치(100)는 주파수 정보들을 비교하여 유사도를 판단한 결과, 유사도가 높은 화자모델을 입력한 음성 신호에 대응하는 화자모델로 판단할 수 있다.
전자장치(100)는 입력된 음성 신호에 포함된 복수의 음소 각각에 대하여, 식별된 화자모델에 각각의 음소가 입력되었을 경우 화자모델에 포함되는 정보의 변화량에 대하여 판단할 수 있다(S530). 구체적으로, 전자장치(100)는 새로 획득된 음소와 화자모델에 기포함된 음소와의 조합 결과, 기존의 화자모델에는 포함되어 있지 않은 새로운 화자특성 정보를 획득할 수 있는지 여부를 판단할 수 있다. 이에 대하여 자세한 사항은 도 6을 통해 상세히 설명하기로 한다.
전자장치(100)는 정보의 변화량에 대한 판단 결과, 새롭게 획득된 복수의 음소 중 화자모델에 획득된 음소가 입력되었을 때 화자 모델에 포함된 화자특성 정보량을 최대로 증가시키는 음소를 식별할 수 있다. 전자장치(100)는 화자특성 정보량을 최대로 증가시키는 음소를 이용하여 화자 모델을 학습시킬 수 있다.
또는, 전자장치(100)는 새롭게 획득된 복수의 음소 중 상기 식별된 화자 모델에 음소가 입력되었을 때 화자 모델에 포함된 화자특성 정보량을 기설정된 기준 이상 증가시키는 적어도 하나의 음소를 식별할 수 있다. 전자장치(100)는 식별된 적어도 하나의 음소를 이용하여 화자 모델을 학습시킬 수 있다(S540).
도 6은 본 개시의 일 실시 예에 따른, 전자장치가 입력된 음성에 포함된 음소 각각에 대해서 화자모델에 입력 시 화자모델의 정보량의 변화를 판단하여, 화자모델을 적응시키는 것을 설명하기 위한 도면이다.
도 6을 참조하면, 전자장치(100)는 음성을 입력받을 수 있고(S610), 복수의 화자모델 중 음성 신호에 대응하는 화자모델을 식별할 수 있다(S620).
전자장치(100)는 입력된 음성 신호에 대하여 음성인식을 수행할 수 있다. 구체적으로, 음성인식을 위해 전자장치(100)는 STT(Speak to Text) 프로세스를 수행할 수 있다. 한편, 전자장치(100)는 음성인식을 수행 결과 텍스트로 변환된 음성 신호에 대해, 자소 음소 변환을 수행할 수도 있다(S630). 자소 음소 변환이란, 자소 음소 변환이란 텍스트의 철자로부터 음소열을 생성해 내는 방법으로, 전자장치(100)는 음성을 텍스트로 변환하는 음성인식(Automatic Speech Recognition) 프로세스를 수행하기 전후로 자소 음소 변환을 수행할 수 있다. 전자장치(100)는 텍스트의 각 어절을 기본 단위로 하여 어절 내부에 서 음운 규칙을 적용하거나 발음을 모델링하여 자소 음소 변환을 수행할 수 있으나, 이에 한정되지 않는다.
한편, 상술한 바와 같이 전자장치(100)가 입력된 음성에 대하여 직접 음성인식을 수행할 수도 있으나, 외부서버(200)를 통해서 음성인식을 수행할 수도 있다. 외부서버(200)에서 음성인식을 수행하는 경우, 전자장치(100)는 입력된 음성 신호를 디지털 신호로 변환하여 외부서버(200)로 전송할 수 있다. 외부서버(200)는 수신한 신호를 바탕으로, STT(Speak To Text)를 수행한 결과를 전자장치(100)로 전송할 수 있다.
한편, 외부서버(200)는 음성인식만을 수행하는 서버일 수도 있으나, 자소 음소 변환을 수행하는 서버일 수도 있다. 외부서버(200)가 자소 음소 변환을 수행하는 경우, 전자장치(100)는 외부서버(200)로부터 음성 인식된 데이터에 대한 자소 음소 변환된 결과를 수신할 수 있다. 이때, 음성인식을 수행하는 서버와 자소 음소 변환 서버는 동일한 서버로 구현될 수도 있고, 별도의 서버로 구현될 수도 있다.
한편, 전자장치(100)는 음성 신호를 상술한 방법에 의해 변환한 데이터를 음절로 분리하고, 분리된 음절을 특징변수를 이용하여 음소로 분리할 수 있다. 구체적으로, 전자장치(100)는 음성 신호의 각 프레임의 에너지, 영교차율, 스펙트럴 에너지비를 포함 하는 특징변수 중 적어도 하나를 이용함으로써, 음성 신호에 포함된 음소의 구간을 구분하여 분리할 수 있다.
전자장치(100)는 분리된 음소 각각에 대하여, BIC(Bayesian Information Criterion)을 통해 음소별 화자특성 정보량의 증가 여부를 판단할 수 있다. 이때, BIC는 가우시안 프로세스(Gaussian process)로 훈련된 모델의 정보량의 변화를 측정하기 위한 지표이다.
구체적으로 BIC(Pi)는 음소의 BIC 값을 의미하며, 다음과 같이 정의할 수 있다.
BIC(Pi) = I(Pi, Mn) - I(Pi|Mn) - I(Mn) - δi
I(Pi, Mn): 기존 화자모델에 해당 음소를 적응하였을 때 화자특성 정보량.
I(Pi|Mn): 기존 화자모델에 기 포함된 해당 음소에 대한 화자특성 정보량.
I(Mn): 기존 화자모델의 화자특성 정보량.
δi: 중첩 정보량에 대한 bias term.
이때 정보량 I(.) 는 각 변수에 대한 엔트로피(entropy) 값으로, 화자특성이 가우시안 모델(Gaussian model)을 활용하여 모델링 되었으므로, 화자모델 유사도 측정에 사용된 Likelihood 값을 사용하여 연산할 수 있다.
BIC(Pi) 값이 0보다 크다는 의미는, 현재의 화자모델에 음소정보 Pi를 가지는 음소를 입력하였을 때, 해당 화자모델에 포함된 화자특성을 나타내는 정보량이 증가했다는 것을 의미한다.
구체적으로, 전자장치(100)는 화자모델에 입력된 음성 신호에서 획득한 음소에 관한 정보가 이미 포함되어 있는 경우, 화자모델에 획득된 음소를 학습시켰을 때 화자특성 정보량에 대한 엔트로피 값에서 화자모델이 포함하고 있는 화자특성 정보량에 대한 엔트로피 값, 화자모델에 포함된 해당 음소에 대한 화자특성 정보량에 대한 엔트로피 값 및 해당 음소에 대한 중첩 정보량에 대한 엔트로피 값을 감소시켜, 획득한 음소에 대한 BIC 값을 획득할 수 있다.
또는, 전자장치(100)는 화자모델에 입력된 음성 신호에서 획득된 음소에 관한 정보가 포함되어 있지 않는 경우, 화자모델에 획득된 음소를 학습시켰을 때 화자특성 정보량에 대한 엔트로피 값에서 화자모델에 포함된 화자특성 정보량에 대한 엔트로피 값을 감소시켜 BIC 값을 획득할 수 있다.
한편, 전자장치(100)는 기설정된 시간 간격으로 화자로부터 입력되는 음성 신호의 특징을 판단할 수 있다. 예를 들면, 전자장치(100)는 20ms의 시간마다 음성 신호에 포함된 음소정보를 분석하여, 해당 음소를 화자모델에 학습시켰을 때 정보량이 증가하는지 여부를 판단할 수 있다.
전자장치(100)는 모든 음소에 대해 BIC(Pi) 값을 계산하고, 특정 음소를 화자모델에 적응 또는 학습시킬지 여부를 결정할 수 있다. 구체적으로, 전자장치(100)는 가장 높은 BIC(Pi) 값을 가지는 음소만을 이용하여 화자모델을 학습시킬 수도 있고, 기설정된 값 이상의 BIC(Pi) 값을 가지는 음소 중 적어도 하나를 이용하여 화자모델을 학습시킬 수도 있다(S650).
도 7은 본 개시의 일 실시 예에 따른, 입력된 음성 신호에 대응하는 화자모델을 식별하는 것을 설명하기 위한 도면이다.
도 7을 참조하면, 전자장치(100)는 음성 신호를 입력받을 수 있다(S710). 이후 전자장치(100)는 입력된 음성 신호에 대한 축적된 지속시간이 기설정된 지속시간보다 짧은 경우(S720-N), 해당 음성 신호를 메모리(110) 또는 버퍼에 저장할 수 있다. 전자장치(100)는 입력된 음성 신호에 대한 축적된 지속시간이 기설정된 지속시간보다 긴 경우(S720-Y), 입력된 음성 신호에 대한 주파수 정보를 획득할 수 있다.
전자장치(100)는 입력된 음성 신호에 대한 주파수 정보와 복수의 화자모델 각각에 포함된 주파수 정보를 비교하여, 주파수 신호 간의 유사도를 측정할 수 있다. 전자장치(100)는 복수의 화자모델에 포함된 주파수 정보 중 입력된 음성 신호에 대한 주파수 정보와의 유사도가 기설정된 유사도보다 큰 주파수 정보가 없는 경우(S730-N), 입력된 음성의 화자에 대한 화자모델이 존재하지 않는 것으로 판단할 수 있다.
전자장치(100)는 복수의 화자모델에 포함된 각각의 주파수 정보 중에서 입력된 음성 신호에 대한 주파수 정보와의 유사도가 가장 큰 주파수 정보를 판단하고, 해당 화자모델을 입력된 음성에 대응하는 화자모델로 식별할 수 있다(S740).
이후, 전자장치(100)는 도 6에서 설명한 바와 같이, BIC 지표를 이용하여 음소 각각에 대해 식별된 화자모델에 적응 또는 학습 시 화자모델에 포함된 화자특성 정보량의 변화에 대하여 판단할 수 있고(S750), 판단 결과에 따라 결정된 음소를 화자모델에 적응 또는 학습 시킬 수 있다(S760).
또한, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims (15)

  1. 전자장치의 제어방법에 있어서,
    사용자로부터 음성 신호를 입력받는 단계;
    복수의 화자모델 중 상기 음성 신호에 대응하는 화자모델을 식별하는 단계;
    상기 음성 신호에 포함된 복수의 음소 각각에 대하여, 상기 식별된 화자모델에 각각의 음소가 입력되었을 때 상기 화자모델의 화자특성 정보량의 변화를 판단하는 단계; 및
    상기 판단결과를 바탕으로 상기 복수의 음소 중 적어도 하나를 이용하여 상기 식별된 화자모델을 학습시키는 단계;를 포함하는 제어방법.
  2. 제1항에 있어서,
    상기 학습시키는 단계는,
    상기 복수의 음소 중 상기 식별된 화자 모델에 음소가 입력되었을 때 상기 화자 모델의 화자특성 정보량을 최대로 증가시키는 음소를 식별하는 단계; 및
    상기 식별된 음소를 이용하여 상기 식별된 화자 모델을 학습시키는 단계;를 더 포함하는 제어방법.
  3. 제1항에 있어서,
    상기 학습시키는 단계는,
    상기 복수의 음소 중 상기 식별된 화자 모델에 음소가 입력되었을 때 상기 화자 모델의 화자특성 정보량을 기설정된 기준 이상 증가시키는 적어도 하나의 음소를 식별하는 단계; 및
    상기 식별된 적어도 하나의 음소를 이용하여 상기 식별된 화자 모델을 학습시키는 단계;를 더 포함하는 제어방법.
  4. 제1항에 있어서,
    상기 화자모델에 대한 정보 변화량을 판단하는 단계는,
    상기 음성 신호에 대응하는 텍스트(text) 데이터를 획득하는 단계; 및
    상기 텍스트 데이터를 바탕으로 자소 음소 변환(grapheme to phoneme) 및 음소 구간 구분을 수행하여 상기 음성 신호에 포함된 음소를 식별하는 단계;를 더 포함하는 제어방법.
  5. 제4항에 있어서,
    상기 변화량을 판단하는 단계는,
    상기 화자모델에 상기 식별된 음소에 관한 정보가 이미 포함되어 있는 경우, 상기 화자모델에 상기 식별된 음소를 학습시켰을 때 화자특성 정보량에 대한 엔트로피 값에서 상기 화자모델이 포함하고 있는 화자특성 정보량에 대한 엔트로피 값, 상기 화자모델에 포함된 상기 음소에 대한 화자특성 정보량에 대한 엔트로피 값 및 중첩 정보량에 대한 엔트로피 값을 감소시킴으로써 상기 식별된 음소에 대한 지표를 판단하고,
    상기 화자모델에 상기 식별된 음소에 관한 정보가 포함되어 있지 않는 경우, 상기 화자모델에 상기 식별된 음소를 학습시켰을 때 화자특성 정보량에 대한 엔트로피 값에서 상기 화자모델에 포함된 화자특성 정보량에 대한 엔트로피 값을 소시킴으로써 상기 식별된 음소에 대한 지표를 판단하는 것인 제어방법.
  6. 제5항에 있어서,
    상기 지표는,
    가우시안 모델(Gaussian model)을 이용하여 모델링된 상기 화자특성 정보량에 대한 BIC(Bayesian Information Criterion)인 제어방법.
  7. 제1항에 있어서,
    상기 입력받는 단계는,
    복수의 사용자로부터 복수의 음성 신호를 입력받는 것이고,
    상기 화자모델을 식별하는 단계는,
    상기 복수의 음성 신호 중 입력된 후 축적된 신호 길이(length)가 기설정된 기준 길이를 초과하는 음성 신호를 식별하는 단계;를 더 포함하고,
    상기 식별된 음성 신호에 대응하는 화자모델을 식별하는 제어방법.
  8. 제1항에 있어서,
    상기 화자모델을 식별하는 단계는,
    상기 복수의 화자모델 중 상기 입력된 음성 신호와의 유사도가 기설정된 유사도를 초과하는 화자모델을 식별하는 제어방법.
  9. 전자장치에 있어서,
    마이크; 및
    복수의 화자모델 중 상기 마이크를 통해 입력된 음성 신호에 대응하는 화자모델을 식별하고,
    상기 음성 신호에 포함된 복수의 음소 각각에 대하여, 상기 식별된 화자모델에 각각의 음소가 입력되었을 때 상기 화자모델의 화자특성 정보량의 변화를 판단하고,
    상기 판단결과를 바탕으로 상기 복수의 음소 중 적어도 하나를 이용하여 상기 식별된 화자모델을 학습시키는 프로세서;를 포함하는 전자장치.
  10. 제9항에 있어서,
    상기 프로세서는,
    상기 복수의 음소 중 상기 식별된 화자 모델에 음소가 입력되었을 때 상기 화자 모델의 화자특성 정보량을 최대로 증가시키는 음소를 식별하고,
    상기 식별된 음소를 이용하여 상기 식별된 화자 모델을 학습시키는 전자장치.
  11. 제9항에 있어서,
    상기 프로세서는,
    상기 복수의 음소 중 상기 식별된 화자 모델에 음소가 입력되었을 때 상기 화자 모델의 화자특성 정보량을 기설정된 기준 이상 증가시키는 적어도 하나의 음소를 식별하고,
    상기 식별된 적어도 하나의 음소를 이용하여 상기 식별된 화자 모델을 학습시키는 전자장치.
  12. 제9항에 있어서,
    상기 프로세서는,
    상기 음성 신호에 대응하는 텍스트(text) 데이터를 획득하고,
    상기 텍스트 데이터를 바탕으로 자소 음소 변환(grapheme to phoneme) 및 음소 구간 구분을 수행하여 상기 음성 신호에 포함된 음소를 식별하는 전자장치.
  13. 제12항에 있어서,
    상기 프로세서는,
    상기 화자모델에 상기 식별된 음소에 관한 정보가 이미 포함되어 있는 경우, 상기 화자모델에 상기 식별된 음소를 학습시켰을 때 화자특성 정보량에 대한 엔트로피 값에서 상기 화자모델이 포함하고 있는 화자특성 정보량에 대한 엔트로피 값, 상기 화자모델에 포함된 상기 음소에 대한 화자특성 정보량에 대한 엔트로피 값 및 중첩 정보량에 대한 엔트로피 값을 감소시킴으로써 상기 식별된 음소에 대한 지표를 판단하고,
    상기 화자모델에 상기 식별된 음소에 관한 정보가 포함되어 있지 않는 경우, 상기 화자모델에 상기 식별된 음소를 학습시켰을 때 화자특성 정보량에 대한 엔트로피 값에서 상기 화자모델에 포함된 화자특성 정보량에 대한 엔트로피 값을 소시킴으로써 상기 식별된 음소에 대한 지표를 판단하는 전자장치.
  14. 제13항에 있어서,
    상기 지표는,
    가우시안 모델(Gaussian model)을 이용하여 모델링된 상기 화자특성 정보량에 대한 BIC(Bayesian Information Criterion)인 전자장치.
  15. 제9항에 있어서,
    상기 프로세서는,
    상기 마이크를 통해 복수의 사용자로부터 입력된 복수의 음성 신호 중 입력된 후 축적된 신호 길이(length)가 기설정된 기준 길이를 초과하는 음성 신호를 식별하고,
    상기 식별된 음성 신호에 대응하는 화자모델을 식별하는 전자장치.
PCT/KR2019/010032 2018-09-10 2019-08-09 음소기반 화자모델 적응 방법 및 장치 WO2020054980A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/273,542 US11804228B2 (en) 2018-09-10 2019-08-09 Phoneme-based speaker model adaptation method and device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180107999A KR102598057B1 (ko) 2018-09-10 2018-09-10 음소기반 화자모델 적응 방법 및 장치
KR10-2018-0107999 2018-09-10

Publications (1)

Publication Number Publication Date
WO2020054980A1 true WO2020054980A1 (ko) 2020-03-19

Family

ID=69777122

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/010032 WO2020054980A1 (ko) 2018-09-10 2019-08-09 음소기반 화자모델 적응 방법 및 장치

Country Status (3)

Country Link
US (1) US11804228B2 (ko)
KR (1) KR102598057B1 (ko)
WO (1) WO2020054980A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210193153A1 (en) * 2018-09-10 2021-06-24 Samsung Electronics Co., Ltd. Phoneme-based speaker model adaptation method and device

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11967322B2 (en) 2021-05-06 2024-04-23 Samsung Electronics Co., Ltd. Server for identifying false wakeup and method for controlling the same
KR20220151504A (ko) * 2021-05-06 2022-11-15 삼성전자주식회사 오호출을 식별하는 서버 및 이의 제어 방법
KR102584481B1 (ko) * 2021-08-30 2023-10-04 한양대학교 산학협력단 인공 신경망을 이용한 다화자 음성 합성 방법 및 장치
KR20240068017A (ko) * 2022-11-08 2024-05-17 한국전자기술연구원 턴프리 대화 방법 및 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7171360B2 (en) * 2001-05-10 2007-01-30 Koninklijke Philips Electronics N.V. Background learning of speaker voices
KR20110010243A (ko) * 2009-07-24 2011-02-01 고려대학교 산학협력단 음성의 음소간 경계 탐색 시스템 및 그 방법
KR101547261B1 (ko) * 2015-03-05 2015-08-27 (주)지앤넷 화자 식별 방법
KR101618512B1 (ko) * 2015-05-06 2016-05-09 서울시립대학교 산학협력단 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법
US9536525B2 (en) * 2014-09-09 2017-01-03 Fujitsu Limited Speaker indexing device and speaker indexing method

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2850399A (en) * 1998-03-03 1999-09-20 Lernout & Hauspie Speech Products N.V. Multi-resolution system and method for speaker verification
KR100586045B1 (ko) 2003-11-06 2006-06-07 한국전자통신연구원 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법
KR100673834B1 (ko) * 2004-12-03 2007-01-24 고한석 문맥 요구형 화자 독립 인증 시스템 및 방법
US8155961B2 (en) 2008-12-09 2012-04-10 Nokia Corporation Adaptation of automatic speech recognition acoustic models
JP5644772B2 (ja) * 2009-11-25 2014-12-24 日本電気株式会社 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
KR20120031548A (ko) 2010-09-27 2012-04-04 주식회사 씨에스 다수 화자 음성에 대하여 자동적으로 적응화하는 음성 인식 방법
KR102287739B1 (ko) 2014-10-23 2021-08-09 주식회사 케이티 음성 검색 시 입력된 음성 데이터를 누적하여 화자를 인식하는 시스템, 방법 및 컴퓨팅 장치
KR102371697B1 (ko) * 2015-02-11 2022-03-08 삼성전자주식회사 음성 기능 운용 방법 및 이를 지원하는 전자 장치
WO2017162281A1 (en) * 2016-03-23 2017-09-28 Telefonaktiebolaget Lm Ericsson (Publ) Speaker verification computer system with textual transcript adaptations of universal background model and enrolled speaker model
CN107480152A (zh) 2016-06-08 2017-12-15 北京新岸线网络技术有限公司 一种音频分析及检索方法和系统
US10339935B2 (en) * 2017-06-19 2019-07-02 Intel Corporation Context-aware enrollment for text independent speaker recognition
CN107358945A (zh) 2017-07-26 2017-11-17 谢兵 一种基于机器学习的多人对话音频识别方法及系统
KR102456509B1 (ko) * 2018-01-03 2022-10-19 삼성전자주식회사 전자 장치, 그 제어 방법 및 컴퓨터 판독가능 기록 매체
US20190378533A1 (en) * 2018-06-07 2019-12-12 Gene Chao Computing devices and methods for converting audio signals to text
KR102598057B1 (ko) * 2018-09-10 2023-11-06 삼성전자주식회사 음소기반 화자모델 적응 방법 및 장치
KR20210074632A (ko) * 2019-12-12 2021-06-22 엘지전자 주식회사 음소 기반 자연어 처리
CN113053353B (zh) * 2021-03-10 2022-10-04 度小满科技(北京)有限公司 一种语音合成模型的训练方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7171360B2 (en) * 2001-05-10 2007-01-30 Koninklijke Philips Electronics N.V. Background learning of speaker voices
KR20110010243A (ko) * 2009-07-24 2011-02-01 고려대학교 산학협력단 음성의 음소간 경계 탐색 시스템 및 그 방법
US9536525B2 (en) * 2014-09-09 2017-01-03 Fujitsu Limited Speaker indexing device and speaker indexing method
KR101547261B1 (ko) * 2015-03-05 2015-08-27 (주)지앤넷 화자 식별 방법
KR101618512B1 (ko) * 2015-05-06 2016-05-09 서울시립대학교 산학협력단 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210193153A1 (en) * 2018-09-10 2021-06-24 Samsung Electronics Co., Ltd. Phoneme-based speaker model adaptation method and device
US11804228B2 (en) * 2018-09-10 2023-10-31 Samsung Electronics Co., Ltd. Phoneme-based speaker model adaptation method and device

Also Published As

Publication number Publication date
KR20200029314A (ko) 2020-03-18
US11804228B2 (en) 2023-10-31
KR102598057B1 (ko) 2023-11-06
US20210193153A1 (en) 2021-06-24

Similar Documents

Publication Publication Date Title
WO2020054980A1 (ko) 음소기반 화자모델 적응 방법 및 장치
WO2015005679A1 (ko) 음성 인식 방법, 장치 및 시스템
WO2018174437A1 (en) Electronic device and controlling method thereof
WO2018208026A1 (ko) 수신된 음성 입력의 입력 음량에 기반하여 출력될 소리의 출력 음량을 조절하는 사용자 명령 처리 방법 및 시스템
US20090177461A1 (en) Mobile Speech-to-Speech Interpretation System
WO2014010982A1 (en) Method for correcting voice recognition error and broadcast receiving apparatus applying the same
WO2020204655A1 (en) System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection
EP3039531A1 (en) Interactive system, display apparatus, and controlling method thereof
WO2021251539A1 (ko) 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치
WO2020159140A1 (ko) 전자 장치 및 이의 제어 방법
WO2021091145A1 (en) Electronic apparatus and method thereof
WO2021020825A1 (ko) 전자장치와 그의 제어방법, 및 기록매체
WO2021045503A1 (en) Electronic apparatus and control method thereof
EP3555883A1 (en) Security enhanced speech recognition method and device
WO2021049802A1 (ko) 전자 장치 및 이의 제어 방법
CN108174030B (zh) 定制化语音控制的实现方法、移动终端及可读存储介质
KR20220143622A (ko) 전자 장치 및 그 제어 방법
WO2021118184A1 (ko) 사용자 단말 및 그 제어방법
WO2021091063A1 (ko) 전자장치 및 그 제어방법
WO2020138943A1 (ko) 음성을 인식하는 장치 및 방법
WO2023003072A1 (ko) 인공 지능 모델을 이용하여 음성 인식 서비스를 제공하는 장치 및 방법
WO2022114482A1 (ko) 전자장치 및 그 제어방법
WO2022177063A1 (ko) 전자 장치 및 이의 제어 방법
WO2022102908A1 (ko) 전자 장치 및 이의 제어 방법
KR20200041671A (ko) 전자 장치 및 그 제어 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19859887

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19859887

Country of ref document: EP

Kind code of ref document: A1