WO2022086274A1 - 전자 장치 및 이의 제어 방법 - Google Patents

전자 장치 및 이의 제어 방법 Download PDF

Info

Publication number
WO2022086274A1
WO2022086274A1 PCT/KR2021/014918 KR2021014918W WO2022086274A1 WO 2022086274 A1 WO2022086274 A1 WO 2022086274A1 KR 2021014918 W KR2021014918 W KR 2021014918W WO 2022086274 A1 WO2022086274 A1 WO 2022086274A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio data
speech recognition
learning
data
weight
Prior art date
Application number
PCT/KR2021/014918
Other languages
English (en)
French (fr)
Inventor
김찬우
가르그아비나브
고다다난자야나가라자
문성규
한창우
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020210132556A external-priority patent/KR20220053475A/ko
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Publication of WO2022086274A1 publication Critical patent/WO2022086274A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Definitions

  • the present disclosure relates to an electronic device related to an artificial intelligence learning algorithm and a control method thereof, and more particularly, to an electronic device for efficiently learning a voice recognition model and a control method thereof.
  • An artificial intelligence (AI) system is a computer system that implements human-level intelligence, and unlike the existing rule-based smart system, the machine learns, judges, and develops on its own. As artificial intelligence systems are used, the recognition rate improves and the user's intentions can be understood more accurately, and the existing rule-based smart systems are gradually being replaced by machine learning/deep learning-based artificial intelligence systems.
  • Machine learning/deep learning is an algorithm technology that categorizes/learns characteristics of input data by itself, and element technology uses learning algorithms such as machine learning/deep learning It is composed of technical fields such as verbal comprehension, visual comprehension, reasoning/prediction, knowledge expression, and motion control.
  • Linguistic understanding is a technology for recognizing and applying/processing human language/text, and includes natural language processing, machine translation, dialogue system, question and answer, and speech recognition/synthesis.
  • Visual understanding is a technology for recognizing and processing objects like human vision, and includes object recognition, object tracking, image search, human recognition, scene understanding, spatial understanding, image improvement, and the like.
  • Inferential prediction is a technology for logically reasoning and predicting by judging information, and includes knowledge/probability-based reasoning, optimization prediction, preference-based planning, and recommendation.
  • Knowledge expression is a technology that automatically processes human experience information into knowledge data, and includes knowledge construction (data acquisition/classification), knowledge management (data utilization), and the like.
  • Motion control is a technology for controlling autonomous driving of a vehicle and movement of a robot, and includes motion control (navigation, collision, driving), manipulation control (action control), and the like.
  • the traditional probabilistic model-based speech recognition system expresses speech/language information as individual probabilistic models, which increases system complexity and has difficulty in expressing combined speech/language knowledge.
  • the end-to-end speech recognition model has an advantage in that it can express combined speech/language information while reducing system complexity by using a single deep neural network.
  • a representative method includes a method of performing sound enhancement through pre-processing or a method of using voice data augmentation.
  • the method using voice data augmentation has problems in that when noise-free voice is input, performance is lowered or learning becomes difficult when various voice data augmentation is performed. Therefore, there is a problem in that a lot of time and money must be invested in order to introduce voice data augmentation suitable for learning a voice recognition model suitable for each situation.
  • the present disclosure is devised to solve the above-described problem, and an object of the present disclosure is to introduce a sound enhancement layer and a Normalization process in a Neural Enhancement Automatic Speech Recognition model.
  • An object of the present invention is to provide an electronic device for gradually learning a voice recognition model and a method for controlling the same.
  • An electronic device for achieving the above object includes a memory and a processor for storing a speech recognition model including an encoder, an attention model, and a decoder, and the processor obtains first audio data including a user's voice and noise, obtains second audio data by acoustically augmenting the first audio data, and reduces noise by using the second audio data
  • the first audio data and the second audio data are input to a time delay-energy standardization module for standardizing audio data to obtain third audio data by inputting to an enhancement layer, and fourth audio data may be obtained, and input data for speech recognition obtained using the third audio data and the fourth audio data may be input to the encoder to train the speech recognition model.
  • the processor is configured to extract a first voice feature of the second audio data, input the first voice feature to a sound enhancement layer to obtain third audio data including the second voice feature, and 4 It is possible to extract a third voice feature of the audio data, and obtain input data for the voice recognition based on the second voice feature and the third voice feature.
  • the processor obtains input data for speech recognition by adding a value obtained by multiplying the second speech feature by a first weight and a value obtained by multiplying the third speech feature by a second weight, the first weight and the second weight
  • the sum of the two weights may be a preset value.
  • the value of the first weight may increase and the value of the second weight may decrease.
  • the value of the second weight may be zero.
  • the processor inputs the input data for voice recognition into an attention model to obtain attention information, and based on the attention information, decodes the input data for voice recognition based on the attention information.
  • Data may be obtained and the voice recognition model may be trained based on the text data.
  • the processor a first loss in the step of obtaining the third audio data, a second loss in the step of obtaining the input data for speech recognition, and a third loss in the step of obtaining the text data and a loss function consisting of
  • the weight of the first loss may be zero.
  • the sound augmentation includes at least one of pitch augmentation, tempo augmentation, tone augmentation, reverb augmentation, rhythm augmentation, and amplitude augmentation.
  • pitch augmentation tempo augmentation
  • tone augmentation augmentation
  • reverb augmentation augmentation
  • rhythm augmentation augmentation
  • amplitude augmentation can be one
  • a method of controlling an electronic device includes acquiring first audio data including a user voice and noise, and performing acoustic augmentation of the first audio data to obtain second audio data. acquiring data, inputting the second audio data into a noise-reducing sound enhancement layer to obtain third audio data, and sending the second audio data to a time delay-energy standardization module for standardizing audio data obtaining fourth audio data by inputting first audio data and the second audio data; and inputting input data for speech recognition obtained using the third audio data and the fourth audio data to the encoder to the encoder. and training a speech recognition model.
  • the acquiring of the third audio data may include extracting a first voice feature of the second audio data and inputting the first voice feature to a sound enhancement layer to include a second voice feature.
  • obtaining data wherein obtaining the fourth audio data further comprises extracting a third speech feature of the obtained fourth audio data
  • the step of training the speech recognition model comprises: and obtaining input data for the speech recognition based on the second speech feature and the third speech feature.
  • the step of training the speech recognition model may include obtaining input data for speech recognition by adding a value obtained by multiplying the second speech feature by a first weight and a value obtained by multiplying the third speech feature by a second weight,
  • the sum of the first weight and the second weight may be a preset value.
  • the value of the first weight may increase and the value of the second weight may decrease.
  • the value of the second weight may be zero.
  • control method includes the steps of: inputting the input data for speech recognition into an attention model to obtain attention information; based on the attention information, decoding the input data for speech recognition (Decoding) and acquiring text data and training the voice recognition model based on the text data.
  • the control method includes a first loss in the step of obtaining the third audio data, a second loss in the step of obtaining input data for speech recognition, and a third loss in the step of obtaining the text data. It may include a loss function consisting of a loss, and may be characterized in that the weight of the first loss decreases as the number of times of learning the voice recognition model increases.
  • the weight of the first loss may be zero.
  • the sound augmentation includes at least one of pitch augmentation, tempo augmentation, tone augmentation, reverb augmentation, rhythm augmentation, and amplitude augmentation.
  • pitch augmentation tempo augmentation
  • tone augmentation augmentation
  • reverb augmentation augmentation
  • rhythm augmentation augmentation
  • amplitude augmentation can be one
  • the performance of the voice recognition model can be improved by easily learning various voice data by introducing the sound improvement layer and the time delay-energy standardization process to the longitudinal voice recognition model.
  • FIG. 1 is a block diagram illustrating a configuration of an electronic device according to an embodiment of the present disclosure.
  • FIG. 2 is a block diagram illustrating a voice recognition model to which a sound enhancement layer and a time delay-energy standardization process are introduced, according to an embodiment of the present disclosure.
  • 3A is a diagram illustrating a spectrum of original voice data for explaining a time delay-energy standardization model, according to various embodiments of the present disclosure
  • 3B is a diagram illustrating a spectrum of voice data when a sound source for explaining a time delay-energy standardization model is 0.5 m away from a microphone, according to various embodiments of the present disclosure
  • 3C is a diagram illustrating a spectrum of audio data when a sound source for explaining a time delay-energy standardization model is 10m away from a microphone, according to various embodiments of the present disclosure
  • 3D is a diagram illustrating a spectrum of audio data that has undergone a time delay-energy standardization process when a sound source for explaining a time delay-energy standardization model is 0.5 m away from a microphone, according to various embodiments of the present disclosure
  • 3E is a diagram illustrating a spectrum of audio data that has undergone a time delay-energy standardization process when a sound source for explaining a time delay-energy standardization model is 10m away from a microphone, according to various embodiments of the present disclosure
  • FIG. 4 is a block diagram illustrating a voice recognition model when the number of times of learning the voice recognition model exceeds a threshold number of learning, according to an embodiment of the present disclosure.
  • FIG. 5 is a block diagram for explaining a change in a voice recognition model when the number of times of learning the voice recognition model increases to exceed a threshold number of learning, according to an embodiment of the present disclosure.
  • FIG. 6 is a flowchart illustrating an operation of an electronic device according to various embodiments of the present disclosure.
  • expressions such as “have,” “may have,” “include,” or “may include” indicate the presence of a corresponding characteristic (eg, a numerical value, function, operation, or component such as a part). and does not exclude the presence of additional features.
  • expressions such as “A or B , “"at least one of A or/and B,” or “one or more of A or/and B” may include all possible combinations of the items listed together.
  • “A or B,”"at least one of A and B,” or “at least one of A or B” means (1) includes at least one A, (2) includes at least one B; Or (3) it may refer to all cases including both at least one A and at least one B.
  • a component eg, a first component
  • another component eg, a second component
  • an element may be directly connected to another element or may be connected through another element (eg, a third element).
  • a component eg, a first component
  • another component eg, a second component
  • a component different from a component it may be understood that no other component (eg, a third component) exists between the elements.
  • the expression “a device configured to” may mean that the device is “capable of” with other devices or parts.
  • a processor configured (or configured to perform) A, B, and C refers to a dedicated processor (eg, an embedded processor) for performing the corresponding operations, or by executing one or more software programs stored in a memory device.
  • a generic-purpose processor eg, a CPU or an application processor
  • a 'module' or 'unit' performs at least one function or operation, and may be implemented as hardware or software, or a combination of hardware and software.
  • a plurality of 'modules' or a plurality of 'units' may be integrated into at least one module and implemented with at least one processor, except for 'modules' or 'units' that need to be implemented with specific hardware.
  • FIG. 1 is a block diagram illustrating a configuration of an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 is, for example, a smart TV (Smart TV), a tablet PC (Tablet PC), a monitor (Monitor), a smart phone (Smart Phone), a desktop computer (Desktop Computer), a laptop computer (Laptop Computer), It may include a computer or user terminal device such as a mobile device and a wearable device.
  • a smart TV Smart TV
  • Tablet PC Tablet PC
  • monitor Monitoring
  • smart phone Smart Phone
  • desktop computer Desktop Computer
  • laptop computer laptop computer
  • It may include a computer or user terminal device such as a mobile device and a wearable device.
  • the electronic device 100 includes home appliances such as air conditioners, washing machines, refrigerators, speakers, irons, coffee pots, vacuum cleaners, dishwashers, electric ranges, gas ranges, induction, electric fans, cleaning robots, serving robots, medical robots, etc. may include
  • the electronic device 100 may include a memory 110 and a processor 120, and trains a voice recognition model by interaction between the memory 110 and the processor 120, A voice recognition function can be performed through a voice recognition model.
  • the electronic device 100 acquires voice in real time, such as a condenser microphone, a ribbon microphone, a moving coil microphone, a piezoelectric microphone, a carbon microphone, a micro electro mechanical system (MEMS), etc. 120 may include a microphone (not shown) capable of acquiring audio data.
  • a condenser microphone such as a condenser microphone, a ribbon microphone, a moving coil microphone, a piezoelectric microphone, a carbon microphone, a micro electro mechanical system (MEMS), etc. 120 may include a microphone (not shown) capable of acquiring audio data.
  • MEMS micro electro mechanical system
  • the electronic device 100 includes an output unit (not shown) that provides information corresponding to audio data to a user in a visual, auditory, and tactile form, such as a speaker, a display, and a vibration generator. ) may be further included.
  • an output unit (not shown) that provides information corresponding to audio data to a user in a visual, auditory, and tactile form, such as a speaker, a display, and a vibration generator. ) may be further included.
  • the memory 110 temporarily or non-temporarily stores various programs or data, and transmits the stored information to the processor 120 according to a call of the processor 120 .
  • the memory 110 may store various types of information required for an operation, processing, or control operation of the processor 120 in an electronic format.
  • the memory 110 may include, for example, at least one of a main memory device and an auxiliary memory device.
  • the main memory device may be implemented using a semiconductor storage medium such as ROM and/or RAM.
  • the ROM may include, for example, a conventional ROM, an EPROM, an EEPROM, and/or a MASK-ROM.
  • the RAM may include, for example, DRAM and/or SRAM.
  • Auxiliary storage devices are flash memory devices, SD (Secure Digital) cards, solid state drives (SSD , Solid State Drives), hard disk drives (HDDs, Hard Disc Drives), magnetic drums, compact discs (CDs), DVDs (DVDs). ) or an optical recording medium such as a laser disk, a magnetic tape, a magneto-optical disk, and/or a floppy disk, etc. may be implemented using at least one storage medium capable of permanently or semi-permanently storing data.
  • the memory 110 may store a speech recognition model including an encoder, an attention model, and a decoder, and a data enhancement module and a sound enhancement layer. layer), time delay-energy standardization module can be stored.
  • a speech recognition model including an encoder, an attention model, and a decoder, and a data enhancement module and a sound enhancement layer. layer), time delay-energy standardization module can be stored.
  • the processor 120 controls the overall operation of the electronic device 100 .
  • the processor 120 is connected to the configuration of the electronic device 100 including the memory 110 as described above, and by executing at least one instruction stored in the memory 110 as described above, the electronic device ( 100) can be controlled in general.
  • the processor 120 may be implemented as one processor 120 as well as a plurality of processors 120 .
  • the processor 120 may be implemented in various ways.
  • the processor 120 may include an application specific integrated circuit (ASIC), an embedded processor, a microprocessor, hardware control logic, a hardware finite state machine (FSM), and a digital signal processor (Digital Signal).
  • ASIC application specific integrated circuit
  • FSM hardware finite state machine
  • DSP digital signal processor
  • the processor 120 includes a central processing unit (CPU), a micro controller unit (MCU), a micro processing unit (MPU), a controller, and an application processor for processing a digital signal.
  • processor AP
  • CP communication processor
  • processor CP
  • the processor 120 may be implemented as a SoC (System on Chip), LSI (large scale integration) with a built-in processing algorithm, or may be implemented in the form of a field programmable gate array (FPGA).
  • the processor 120 may perform various functions by executing computer executable instructions stored in the memory 110 .
  • the processor 120 may include at least one of a graphics-processing unit (GPU), a Neural Processing Unit (NPU), and a Visual Processing Unit (VPU), which are separate AI-only processors, in order to perform an artificial intelligence function. there is.
  • GPU graphics-processing unit
  • NPU Neural Processing Unit
  • VPU Visual Processing Unit
  • the processor 120 obtains first audio data including a user voice and noise, and acquires second audio data by acoustically augmenting the first audio data. and input the second audio data to a noise-reducing sound enhancement layer to obtain third audio data, and to a time delay-energy standardization module for standardizing the audio data, the first audio data and the second audio
  • the fourth audio data may be obtained by inputting data, and the third audio data and input data for speech recognition obtained using the fourth audio data may be input to the encoder to train the speech recognition model.
  • the processor 120 may perform a voice recognition function while learning a voice recognition model.
  • the voice recognition model learning and voice recognition functions of the processor 120 may be performed by executing an application installed in the electronic device 100 .
  • the application may be downloaded from an external server to the electronic device 100 .
  • FIG. 2 is a block diagram illustrating a voice recognition model to which a sound enhancement layer and a time delay-energy standardization process are introduced, according to an embodiment of the present disclosure.
  • the processor 120 may acquire second audio data by augmenting the first audio data through the sound augmentation module 220 - 1 .
  • the first audio data 210 may be audio data in digital form that obtains analog audio data and indicates in a spectral form how much each frequency component a speech fragment of a specific time length has through Fourier transform. there is.
  • the first audio data 210 may include information about a spectrogram indicating a frequency according to time change.
  • the first audio data 210 may include not only the user's voice but also noise that may occur in various living environments.
  • the second audio data is a sound enhancement of the first audio data, and may be data in which the amount of data is increased by generating a distorted signal through variation in time, frequency, or latent space of the first audio data.
  • the sound augmentation may include pitch augmentation, tempo augmentation, tone augmentation, reverb augmentation, rhythm augmentation, amplitude augmentation, and the like.
  • the present invention is not limited thereto, and various types of sound enhancement methods may be used.
  • the processor 120 may acquire information on the first voice feature of the second audio data obtained through the feature extraction module 220 - 2 . Also, the processor 120 may obtain third audio data including the second voice feature with reduced noise by inputting the first voice feature to the sound enhancement layer 240 .
  • the processor 120 may obtain the fourth audio data by inputting the first audio data or the second audio data to the time delay-energy standardization module 230-1 for standardizing the audio data.
  • the processor 120 can obtain audio data that contains almost no noise, which is easy to learn, by standardizing the time delay and energy change of audio data that may occur due to sound enhancement through this time delay-energy standardization process. .
  • 3A is a diagram illustrating a spectrum of original voice data for explaining a time delay-energy standardization model, according to various embodiments of the present disclosure
  • the original voice data exhibits strong frequency signal strength in the vicinity of 0.3s, 0.6s, and 0.9s.
  • 3B is a diagram illustrating a spectrum of voice data when a sound source for explaining a time delay-energy standardization model is 0.5 m away from a microphone, according to various embodiments of the present disclosure
  • FIG. 3B similarly to the original voice data of FIG. 3A , strong frequency signal strength is exhibited in the vicinity of 0.3s, 0.6s, and 0.9s, and it can be seen that the frequency signal is minutely observed even at different times of the signal. Since the distance of about 0.5m from the microphone is not a relatively long distance, it can be seen that a frequency signal distribution similar to that of the original data is observed.
  • 3C is a diagram illustrating a spectrum of audio data when a sound source for explaining a time delay-energy standardization model is 10m away from a microphone, according to various embodiments of the present disclosure
  • the frequency signal strength is weakly observed in the vicinity of 0.3s, 0.6s, and 0.9s, and the time period during which the frequency signal is observed is slightly changed to 0.35s, 0.65s, and 0.95s. Accordingly, it can be seen that a time delay occurs in the data subjected to sound enhancement, and a change in amplitude that determines the strength of a signal appears.
  • 3D is a diagram illustrating a spectrum of audio data that has undergone a time delay-energy standardization process when a sound source for explaining a time delay-energy standardization model is 0.5 m away from a microphone, according to various embodiments of the present disclosure
  • the frequency signal strength is strongly observed in the vicinity of 0.3s, 0.6s, and 0.9s, almost similar to the spectrum of the original voice data containing little noise in the voice data that has undergone the time delay-energy standardization process. can see.
  • 3E is a diagram illustrating a spectrum of audio data that has undergone a time delay-energy standardization process when a sound source for explaining a time delay-energy standardization model is 10m away from a microphone, according to various embodiments of the present disclosure
  • the processor 120 may train the speech recognition model based on audio data that hardly contains noise that is easy to learn through a time delay-energy standardization process.
  • the processor 120 may acquire information on the third voice feature of the fourth audio data obtained through the feature extraction module 230 - 2 .
  • the processor 120 performs speech recognition based on the second speech feature of the third audio data obtained through the sound enhancement layer 240 and the third speech feature of the fourth audio data obtained through the time delay-energy standardization process. It is possible to obtain input data for
  • input data for speech recognition obtained based on the second and third speech features may be expressed as Equation 1 below.
  • represents a weight and may have a value between 0 and 1, but is not limited thereto and may be another preset value.
  • the processor 120 obtains input data for speech recognition by adding a value obtained by multiplying a second speech feature by a first weight (eg, 1- ⁇ ) and a value obtained by multiplying a third speech feature by a second weight (eg, ⁇ ) can do.
  • a first weight eg, 1- ⁇
  • a second weight eg, ⁇
  • the value of the first weight may increase and the value of the second weight may decrease. This can be 0.
  • the first weight is relatively smaller than the second weight, so that learning based on the fourth audio data obtained through the time delay-standardization process can be performed. Since the fourth audio data contains almost no noise, learning difficulty is low, so that smooth learning can be performed even in the initial stage of learning, and a voice recognition function can be provided.
  • the size of the first weight becomes relatively larger than the size of the second weight, and learning based on the third audio data obtained through the sound improvement layer may be performed.
  • the third audio data contains noise to some extent, the noise is reduced to some extent through the sound improvement layer, and since the speech recognition model is trained on data with low learning difficulty, learning can be performed without difficulty. and a voice recognition function may be provided.
  • the processor 120 may perform a speech recognition function with high accuracy and learning of audio data corresponding to a sound that contains noise or generated at a certain distance from the microphone through the gradual learning process as described above. there is.
  • the processor 120 may obtain attention information by inputting input data for speech recognition into the encoder 250 and then inputting the input data into the attention model 260 .
  • the processor 120 may obtain text data by decoding input data for voice recognition based on the attention information.
  • the processor 120 may train a voice recognition model based on the acquired text data.
  • the processor 120 may obtain information in which a speech feature included in input data for speech recognition is converted into a vector in a latent space suitable for speech recognition through the encoder 250 .
  • the processor 120 identifies, through the attention model 260, the output data of the encoder 250 that is most closely related to the data to be output by the decoder 270 next, and transmits the data corresponding to the portion to the decoder ( 270) to obtain text data. Also, the processor 120 may learn character data through the soft max 280 and output a character string.
  • the processor 120 may obtain text data by decoding the information converted into a vector in the latent space through the decoder 270 .
  • the processor 120 may train a speech recognition model based on the loss function. Specifically, the processor 120 may train the speech recognition model based on the loss function so that the speech recognition model may have an appropriate weight.
  • the voice recognition model can more accurately acquire information included in the user's voice from audio data including noise or audio data for a sound generated at a location a certain distance from the microphone.
  • Equation 2 The loss function of the speech recognition model according to various embodiments of the present disclosure may be expressed by Equation 2 below.
  • L stands for the loss function.
  • L MSE represents a mean square error, which may mean a first loss in the step of acquiring third audio data through a sound improvement process.
  • represents the weight of the first loss in the process of obtaining the loss function.
  • L CTC is a Connectionist Temporal Classification (CTC) loss, and may mean a second loss in the process of obtaining a vector value by inputting input data for speech recognition into the encoder 250 .
  • L CE is a cross-entropy loss, and may mean a third loss in the step of acquiring text data from the decoder 270 of the speech recognition model.
  • the weight of the first loss may decrease as the number of times of learning of the voice recognition model increases, and when the number of times of learning of the voice recognition model exceeds the threshold number of learning, the weight of the first loss may become zero.
  • the proportion of considering the loss in the process of acquiring the third audio data including the second voice feature through the sound improvement process in obtaining the loss function gradually decreases. do.
  • the loss in the process of acquiring the third audio data including the second voice feature through the sound improvement process is not considered in calculating the loss function.
  • the weight of learning through the second voice feature of the third audio data including a certain amount of noise that has passed through the sound improvement layer increases, It is possible to obtain a voice recognition model with high voice recognition accuracy for audio data corresponding to the generated sound.
  • FIG. 4 is a block diagram illustrating a voice recognition model when the number of times of learning the voice recognition model exceeds a threshold number of learning, according to an embodiment of the present disclosure, and FIG. This is a block diagram for explaining a change in the voice recognition model when the number of times of learning the voice recognition model increases to exceed the threshold number of learning.
  • the value of the first weight may increase and the value of the second weight may decrease.
  • the value of the weight may be 0.
  • the weight of the first loss may decrease as the number of times of learning the voice recognition model increases, and when the number of times of learning of the voice recognition model exceeds the threshold number of learning, the weight of the first loss may become zero.
  • the processor 120 obtains input data for voice recognition input to the encoder 250 only from the sound enhancement layer 240 . It is obtained based on the second voice characteristic of the third audio data, and the sound enhancement layer 240 and the encoder 250 serve as the integrated encoder 410 .
  • the weight corresponding to the third voice feature of the fourth audio data obtained through the time delay-energy standardization process becomes 0, and the first in the process of obtaining the third audio data through the sound enhancement layer 240 . Since the weight of the loss becomes 0, the processor 120 does not consider the fourth audio data when acquiring input data for voice recognition.
  • the processor 120 receives input data for voice recognition based on the third voice feature of the fourth audio data, which has low learning difficulty because hardly any noise that has undergone the time delay-energy standardization process is included in the initial learning stage. can be obtained.
  • the processor 120 gradually performs voice recognition based on the second voice feature of the third audio data, which has a relatively high learning difficulty because noise acquired through the sound improvement layer 240 is included to some extent. It is possible to obtain input data for
  • the processor 120 can gradually learn the speech recognition model from data having a low learning difficulty to data having a high learning difficulty.
  • FIG. 6 is a flowchart illustrating an operation of an electronic device according to various embodiments of the present disclosure.
  • the electronic device 100 may obtain first audio data including a user voice and noise ( S610 ).
  • the first audio data may include information about a spectrum indicating frequency signal strength according to time change.
  • the electronic device 100 may acquire second audio data by performing acoustic augmentation on the first audio data ( S620 ).
  • the sound augmentation is at least one of pitch augmentation, tempo augmentation, tone augmentation, reverb augmentation, rhythm augmentation, and amplitude augmentation.
  • the electronic device 100 may extract a first voice feature of the second audio data.
  • the electronic device 100 may obtain the third audio data by inputting the second audio data to a noise-reducing sound enhancement layer (S630).
  • the electronic device 100 may obtain the third audio data having the second voice characteristic by inputting the first voice characteristic of the second audio data to the sound enhancement layer.
  • the electronic device 100 may obtain the fourth audio data by inputting the first audio data and the second audio data to the time delay-energy standardization module for standardizing the audio data ( S640 ).
  • the electronic device 100 may extract a third voice feature of the obtained fourth audio data.
  • the electronic device 100 may obtain information in which a speech feature included in input data for speech recognition is converted into a vector in a latent space suitable for speech recognition through the encoder 250 .
  • the electronic device 100 identifies, through the attention model 260 , the output data of the encoder 250 most closely related to the data to be output by the decoder 270 next, and outputs data corresponding to that portion to the decoder. By inputting to 270 , character data may be acquired. Also, the electronic device 100 may learn character data through the soft max 280 and output a character string.
  • the electronic device 100 may learn a voice recognition model by inputting input data for voice recognition obtained using the third audio data and the fourth audio data to the encoder 250 ( S650 ). In addition, the electronic device 100 may obtain input data for voice recognition based on the second voice feature of the third audio data and the third voice feature of the fourth audio data, and input it to the encoder 250 to A voice recognition model can be trained.
  • the method according to various embodiments disclosed in this document may be provided by being included in a computer program product.
  • Computer program products may be traded between sellers and buyers as commodities.
  • the computer program product is distributed in the form of a device-readable storage medium (eg compact disc read only memory (CD-ROM)), or through an application store (eg Play StoreTM) or on two user devices (eg, It can be distributed (eg downloaded or uploaded) directly or online between smartphones (eg: smartphones).
  • a portion of the computer program product eg, a downloadable app
  • a machine-readable storage medium such as a memory of a manufacturer's server, a server of an application store, or a relay server. It may be temporarily stored or temporarily created.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Telephone Function (AREA)

Abstract

본 발명은 인코더(Encoder), 어텐션 모델(Attention model) 및 디코더(Decoder)를 포함하는 음성 인식 모델을 저장하는 메모리 및 프로세서를 포함하고, 프로세서는, 사용자 음성과 노이즈(Noise)를 포함하는 제1 오디오 데이터를 획득하고, 제1 오디오 데이터를 음향 증강(Acoustic augmentation)시켜 제2 오디오 데이터를 획득하고, 제2 오디오 데이터를 노이즈를 감소시키는 음향 개선 레이어(Enhancement layer)에 입력하여 제3 오디오 데이터를 획득하고, 오디오 데이터를 표준화하기 위한 시간지연-에너지 표준화 모듈에 제1 오디오 데이터와 제2 오디오 데이터를 입력하여 제4 오디오 데이터를 획득하고, 제3 오디오 데이터 및 제4 오디오 데이터를 이용하여 획득된 음성 인식을 위한 입력 데이터를 인코더에 입력하여 음성 인식 모델을 학습시키는 전자 장치에 관한 것이다.

Description

전자 장치 및 이의 제어 방법
본 개시는 인공지능 학습 알고리즘에 관한 전자 장치 및 이의 제어 방법에 관한 것으로, 더욱 상세하게는, 효율적으로 음성 인식 모델을 학습시키는 전자 장치 및 이의 제어 방법에 관한 것이다.
인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 규칙 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 발전하는 시스템이다. 인공 지능 시스템은 사용할수록 인식률이 향상되고 사용자의 의도를 보다 정확하게 이해할 수 있게 되어, 기존 규칙 기반 스마트 시스템은 점차 기계 학습(Machine learning)/딥 러닝(Deep learning) 기반 인공지능 시스템으로 대체되고 있다.
인공지능 기술은 기계 학습(Machine learning)/딥 러닝(Deep learning) 및 기계 학습을 활용한 요소 기술들로 구성된다.
기계 학습(Machine learning)/딥 러닝(Deep learning)은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소 기술은 기계 학습(Machine learning)/딥 러닝(Deep learning) 등의 학습 알고리즘을 활용하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.
인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화 시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험 정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 획득/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.
한편, 음성 인식 모델과 관련하여, 전통적인 확률 모델 기반의 음성 인식 시스템은 음성/언어 정보를 개별 확률 모델로 표현하여 시스템 복잡도가 증가하고 음성/언어 간 결합 지식을 표현하는 데 어려움이 있었다.
반면, 종단형 음성 인식 모델(End to end speech recognition model)은 단일 심층 신경망을 사용함으로써 시스템 복잡도를 낮추면서도 음성/언어 간의 결합 정보를 표현할 수 있다는 장점이 있다.
종단형 음성 인식 모델은 일반적으로 음성-문자 쌍의 전사 데이터로부터 음성 인식에 필요한 음향, 음성 및 언어적 변이를 학습하게 되므로 견고한 모델링을 위해서는 다양한 변이를 포함한 대량의 전사 데이터가 필요하다. 그러나, 대량의 전사 데이터 수집은 많은 비용과 시간이 소요되므로 전사 데이터 부족 문제는 종단형 음성 인식 연구에서 가장 큰 문제점 중의 하나로 여겨지고 있다.
최근 들어, 이러한 전사 데이터 부족 문제를 해결하기 위한 연구가 활발히 진행되고 있으며 대표적인 방법으로는 전처리를 통해 음향 개선(Enhancement) 과정을 거치거나 음성 데이터 증강(Data Augmentation)을 이용하는 방법이 있다.
하지만, 전처리를 통한 음향 개선은 잡음이 없는 음성이 입력되면 성능이 저하되거나, 음성을 왜곡시키면 성능이 저하되는 문제점이 발생하였다. 이러한 문제를 해결하기 위해 전처리의 파라미터(parameter)를 조절하거나 전처리를 거친 음성 데이터 베이스로부터 음성 인식 모델을 다시 학습시키는 방법이 있으나, 많은 시간과 비용이 발생하는 문제점이 있다.
또한, 음성 데이터 증강을 이용하는 방법은 잡음이 없는 음성이 입력되면 성능이 저하되거나 다양한 음성 데이터 증강을 거치게 되면 학습이 어려워지는 문제점이 발생하였다. 따라서, 각 상황에 맞는 음성 인식 모델 학습에 적절한 음성 데이터 증강을 도입하기 위해선 많은 시간과 비용을 투자해야 되는 문제점이 있다.
따라서, 보다 용이하게 다양한 음성 데이터를 학습하여 음성 인식 모델의 성능을 향상시킬 수 있는 새로운 학습 모델을 고안할 필요성이 있다.
본 개시는 상술한 문제를 해결하기 위해 고안된 것으로, 본 개시의 목적은 신경망 개선 자동 음성 인식 모델(Neural Enhancement Automatic Speech Recognition)에 있어, 음향 개선 레이어(Enhancement layer)와 표준화(Normalization) 과정을 도입하여 점진적으로 음성 인식 모델의 학습이 이루어지도록 하는 전자 장치 및 이의 제어 방법을 제공함에 있다.
상술한 목적을 달성하기 위한 본 실시 예에 따른 전자 장치는, 인코더(Encoder), 어텐션 모델(Attention model) 및 디코더(Decoder)를 포함하는 음성 인식 모델을 저장하는 메모리 및 프로세서를 포함하고, 상기 프로세서는, 사용자 음성과 노이즈(Noise)를 포함하는 제1 오디오 데이터를 획득하고, 상기 제1 오디오 데이터를 음향 증강(Acoustic augmentation)시켜 제2 오디오 데이터를 획득하고, 상기 제2 오디오 데이터를 노이즈를 감소시키는 음향 개선 레이어(Enhancement layer)에 입력하여 제3 오디오 데이터를 획득하고, 오디오 데이터를 표준화하기 위한 시간지연-에너지 표준화 모듈에 상기 제1 오디오 데이터와 상기 제2 오디오 데이터를 입력하여 제4 오디오 데이터를 획득하고, 상기 제3 오디오 데이터 및 상기 제4 오디오 데이터를 이용하여 획득된 음성 인식을 위한 입력 데이터를 상기 인코더에 입력하여 상기 음성 인식 모델을 학습시킬 수 있다.
한편, 상기 프로세서는, 상기 제2 오디오 데이터의 제1 음성 특징을 추출하고, 상기 제1 음성 특징을 음향 개선 레이어에 입력하여 제2 음성 특징을 포함하는 제3 오디오 데이터를 획득하고, 획득된 제4 오디오 데이터의 제3 음성 특징을 추출하고, 상기 제2 음성 특징 및 상기 제3 음성 특징에 기초하여 상기 음성 인식을 위한 입력 데이터를 획득할 수 있다.
한편, 상기 프로세서는, 상기 제2 음성 특징에 제1 가중치를 곱한 값과 상기 제3 음성 특징에 제2 가중치를 곱한 값을 더하여 상기 음성 인식을 위한 입력 데이터를 획득하고, 상기 제1 가중치와 제2 가중치의 합은 기 설정된 값인 것을 특징으로 할 수 있다.
한편, 상기 음성 인식 모델의 학습 횟수가 증가할수록, 상기 제1 가중치의 값은 증가하고 상기 제2 가중치의 값은 감소할 수 있다.
한편, 상기 음성 인식 모델의 학습 횟수가 임계 학습 횟수를 초과하면, 상기 제2 가중치의 값이 0이 될 수 있다.
한편, 상기 프로세서는, 상기 음성 인식을 위한 입력 데이터를 어텐션 모델(Attention model)에 입력하여 어텐션 정보를 획득하고, 상기 어텐션 정보에 기초하여, 상기 음성 인식을 위한 입력 데이터를 디코딩(Decoding)하여 문자 데이터를 획득하고, 상기 문자 데이터에 기초하여 상기 음성 인식 모델을 학습시킬 수 있다.
한편, 상기 프로세서는, 상기 제3 오디오 데이터를 획득하는 단계에서의 제1 손실, 상기 음성 인식을 위한 입력 데이터를 획득하는 단계에서의 제2 손실 및 상기 문자 데이터를 획득하는 단계에서의 제3 손실로 이루어진 손실 함수(Loss function)를 포함하고, 상기 음성 인식 모델의 학습 횟수가 많을수록 상기 제1 손실의 가중치가 감소하는 것을 특징으로 할 수 있다.
한편, 상기 음성 인식 모델의 학습 횟수가 임계 학습 횟수를 초과하면, 상기 제1 손실의 가중치가 0이 될 수 있다.
한편, 상기 음향 증강은, 피치 증강(Pitch augmentation), 템포 증강(Tempo augmentation), 억양 증강(Tone augmentation), 울림 증강(Reverb augmentation), 리듬 증강(Rhythm augmentation), 진폭 증강(Amplitude augmentation) 중 적어도 하나일 수 있다.
본 개시의 일 실시 예에 따른 전자 장치의 제어 방법은, 사용자 음성과 노이즈(Noise)를 포함하는 제1 오디오 데이터를 획득하는 단계, 상기 제1 오디오 데이터를 음향 증강(Acoustic augmentation)시켜 제2 오디오 데이터를 획득하는 단계, 상기 제2 오디오 데이터를 노이즈를 감소시키는 음향 개선 레이어(Enhancement layer)에 입력하여 제3 오디오 데이터를 획득하는 단계, 오디오 데이터를 표준화하기 위한 시간지연-에너지 표준화 모듈에 상기 제1 오디오 데이터와 상기 제2 오디오 데이터를 입력하여 제4 오디오 데이터를 획득하는 단계 및 상기 제3 오디오 데이터 및 상기 제4 오디오 데이터를 이용하여 획득된 음성 인식을 위한 입력 데이터를 상기 인코더에 입력하여 상기 음성 인식 모델을 학습시키는 단계를 포함한다.
한편, 상기 제3 오디오 데이터를 획득하는 단계는, 상기 제2 오디오 데이터의 제1 음성 특징을 추출하는 단계 및 상기 제1 음성 특징을 음향 개선 레이어에 입력하여 제2 음성 특징을 포함하는 제3 오디오 데이터를 획득하는 단계를 포함하고, 상기 제4 오디오 데이터를 획득하는 단계는, 획득된 제4 오디오 데이터의 제3 음성 특징을 추출하는 단계를 더 포함하고, 상기 음성 인식 모델을 학습시키는 단계는, 상기 제2 음성 특징 및 상기 제3 음성 특징에 기초하여 상기 음성 인식을 위한 입력 데이터를 획득하는 단계를 포함한다.
한편, 상기 음성 인식 모델을 학습시키는 단계는, 상기 제2 음성 특징에 제1 가중치를 곱한 값과 상기 제3 음성 특징에 제2 가중치를 곱한 값을 더하여 상기 음성 인식을 위한 입력 데이터를 획득하고, 상기 제1 가중치와 제2 가중치의 합은 기 설정된 값인 것을 특징으로 할 수 있다.
한편, 상기 음성 인식 모델의 학습 횟수가 증가할수록, 상기 제1 가중치의 값은 증가하고 상기 제2 가중치의 값은 감소할 수 있다.
한편, 상기 음성 인식 모델의 학습 횟수가 임계 학습 횟수를 초과하면, 상기 제2 가중치의 값이 0이 될 수 있다.
한편, 상기 제어 방법은, 상기 음성 인식을 위한 입력 데이터를 어텐션 모델(Attention model)에 입력하여 어텐션 정보를 획득하는 단계, 상기 어텐션 정보에 기초하여, 상기 음성 인식을 위한 입력 데이터를 디코딩(Decoding)하여 문자 데이터를 획득하는 단계 및 상기 문자 데이터에 기초하여 상기 음성 인식 모델을 학습시키는 단계를 포함한다.
한편, 상기 제어 방법은, 상기 제3 오디오 데이터를 획득하는 단계에서의 제1 손실, 상기 음성 인식을 위한 입력 데이터를 획득하는 단계에서의 제2 손실 및 상기 문자 데이터를 획득하는 단계에서의 제3 손실로 이루어진 손실 함수(Loss function)를 포함하고, 상기 음성 인식 모델의 학습 횟수가 많을수록 상기 제1 손실의 가중치가 감소하는 것을 특징으로 할 수 있다.
한편, 상기 음성 인식 모델의 학습 횟수가 임계 학습 횟수를 초과하면, 상기 제1 손실의 가중치가 0이 될 수 있다.
한편, 상기 음향 증강은, 피치 증강(Pitch augmentation), 템포 증강(Tempo augmentation), 억양 증강(Tone augmentation), 울림 증강(Reverb augmentation), 리듬 증강(Rhythm augmentation), 진폭 증강(Amplitude augmentation) 중 적어도 하나일 수 있다.
본 발명은, 음향 개선 레이어와 시간지연-에너지 표준화 과정을 종단현 음성인식 모델에 도입하여 용이하게 다양한 음성 데이터를 학습하여 음성 인식 모델의 성능을 향상시킬 수 있다.
또한, 점진적으로 음향 개선 레이어로부터 출력되는 데이터의 비중을 높이고, 시간지연-에너지 표준화 과정에 따라 얻어지는 데이터의 비중을 낮춘 입력 데이터를 획득하여, 이를 인코더에 입력함으로써, 학습 난이도가 낮은 음성 데이터부터 학습 난이도가 높은 음성 데이터로 점진적 학습이 이루어질 수 있도록 한다.
또한, 음성 인식 모델의 전체 손실 함수에서 음향 개선 레이어로부터 입력 데이터를 획득하는 과정에서 발생하는 손실의 가중치를 낮춤으로써 학습 난이도가 낮은 음성 데이터부터 학습 난이도가 높은 음성 데이터로 점진적 학습이 이루어질 수 있도록 한다.
도 1은 본 개시의 일 실시 예에 따른, 전자 장치의 구성을 도시한 블록도이다.
도 2는 본 개시의 일 실시 예에 따른, 음향 개선 레이어와 시간지연-에너지 표준화 과정이 도입된 음성 인식 모델을 설명하기 위한 블록도이다.
도 3a는 본 개시의 다양한 실시 예에 따른, 시간지연-에너지 표준화 모델을 설명하기 위한 원본 음성 데이터의 스펙트럼을 나타낸 도면이다.
도 3b는 본 개시의 다양한 실시 예에 따른, 시간지연-에너지 표준화 모델을 설명하기 위한 음원이 마이크로부터 0.5m 떨어져 있을 때의 음성 데이터의 스펙트럼을 나타낸 도면이다.
도 3c는 본 개시의 다양한 실시 예에 따른, 시간지연-에너지 표준화 모델을 설명하기 위한 음원이 마이크로부터 10m 떨어져 있을 때의 오디오 데이터의 스펙트럼을 나타낸 도면이다.
도 3d는 본 개시의 다양한 실시 예에 따른, 시간지연-에너지 표준화 모델을 설명하기 위한 음원이 마이크로부터 0.5m 떨어져 있을 때, 시간지연-에너지 표준화 과정을 거친 오디오 데이터의 스펙트럼을 나타낸 도면이다.
도 3e는 본 개시의 다양한 실시 예에 따른, 시간지연-에너지 표준화 모델을 설명하기 위한 음원이 마이크로부터 10m 떨어져 있을 때, 시간지연-에너지 표준화 과정을 거친 오디오 데이터의 스펙트럼을 나타낸 도면이다.
도 4는 본 개시의 일 실시 예에 따른, 음성 인식 모델의 학습 횟수가 임계 학습 횟수를 초과하였을 때, 음성 인식 모델을 설명하기 위한 블록도이다.
도 5는 본 개시의 일 실시 예에 따른, 음성 인식 모델의 학습 횟수가 많아져 임계 학습 횟수를 초과하게 되는 경우, 음성 인식 모델의 변화를 설명하기 위한 블록도이다.
도 6은 본 개시의 다양한 실시 예에 따른 전자 장치의 동작을 설명하기 위한 흐름도이다.
-
본 실시 예들은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 본 개시의 실시 예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.
본 개시를 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략한다.
덧붙여, 하기 실시 예는 여러 가지 다른 형태로 변형될 수 있으며, 본 개시의 기술적 사상의 범위가 하기 실시 예에 한정되는 것은 아니다. 오히려, 이들 실시 예는 본 개시를 더욱 충실하고 완전하게 하고, 당업자에게 본 개시의 기술적 사상을 완전하게 전달하기 위하여 제공되는 것이다.
본 개시에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 권리범위를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 개시에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
본 개시에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상"등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.
본 개시에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.
어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 어떤 구성요소가 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다.
반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 어떤 구성요소와 다른 구성요소 사이에 다른 구성요소(예: 제3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.
본 개시에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다.
대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
실시 예에 있어서 '모듈' 혹은 '부'는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 '모듈' 혹은 복수의 '부'는 특정한 하드웨어로 구현될 필요가 있는 '모듈' 혹은 '부'를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.
한편, 도면에서의 다양한 요소와 영역은 개략적으로 그려진 것이다. 따라서, 본 발명의 기술적 사상은 첨부한 도면에 그려진 상대적인 크기나 간격에 의해 제한되지 않는다.
이하에서는 첨부한 도면을 참고하여 본 개시에 따른 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.
도 1은 본 개시의 일 실시 예에 따른, 전자 장치의 구성을 도시한 블록도이다.
전자 장치(100)는 예를 들어, 스마트 TV(Smart TV), 태블릿 PC(Tablet PC), 모니터(Monitor), 스마트 폰(Smart Phone), 데스크톱 컴퓨터(Desktop Computer), 랩톱 컴퓨터(Laptop Computer), 모바일 기기(Mobile Device), 웨어러블 기기(Wearable Device) 등의 컴퓨터 또는 사용자 단말 장치를 포함할 수 있다.
전자 장치(100)는, 에어컨, 세탁기, 냉장고, 스피커, 다리미, 커피 포트, 청소기, 식기세척기, 전기레인지, 가스레인지, 인덕션(Induction), 선풍기, 청소로봇, 서빙로봇, 의료로봇 등 가전 기기를 포함할 수 있다.
본 개시의 다양한 실시 예에 따른 전자 장치(100)는 메모리(110), 프로세서(120)를 포함할 수 있고, 메모리(110)와 프로세서(120)의 상호 작용에 의하여 음성 인식 모델을 학습시키고, 음성 인식 모델을 통해 음성 인식 기능을 수행할 수 있다.
본 개시의 다양한 실시 예에 따른 전자 장치(100)는, 이외에도 콘덴서 마이크, 리본 마이크, 무빙코일 마이크, 압전소자 마이크, 카본 마이크, MEMS(Micro Electro Mechanical System) 등과 같이 실시간으로 음성을 획득하여 프로세서(120)가 오디오 데이터를 획득할 수 있는 마이크(미도시)를 포함할 수 있다.
본 개시의 다양한 실시 예에 따른 전자 장치(100)는, 이외에도 스피커, 디스플레이, 진동발생부 등과 같이 사용자에게 오디오 데이터에 대응하는 정보를 시각적, 청각적, 촉각적 형태로 제공하는 출력부(미도시)를 더 포함할 수 있다.
메모리(110)는 각종 프로그램이나 데이터를 일시적 또는 비일시적으로 저장하고, 프로세서(120)의 호출에 따라서 저장된 정보를 프로세서(120)에 전달한다. 또한, 메모리(110)는, 프로세서(120)의 연산, 처리 또는 제어 동작 등에 필요한 각종 정보를 전자적 포맷으로 저장할 수 있다
메모리(110)는, 예를 들어, 주기억장치 및 보조기억장치 중 적어도 하나를 포함할 수 있다. 주기억장치는 롬(ROM) 및/또는 램(RAM)과 같은 반도체 저장 매체를 이용하여 구현된 것일 수 있다. 롬은, 예를 들어, 통상적인 롬, 이피롬(EPROM), 이이피롬(EEPROM) 및/또는 마스크롬(MASK-ROM) 등을 포함할 수 있다. 램은 예를 들어, 디램(DRAM) 및/또는 에스램(SRAM) 등을 포함할 수 있다. 보조기억장치는, 플래시 메모리 장치, SD(Secure Digital) 카드, 솔리드 스테이트 드라이브(SSD, Solid State Drive), 하드 디스크 드라이브(HDD, Hard Disc Drive), 자기 드럼, 컴팩트 디스크(CD), 디브이디(DVD) 또는 레이저 디스크 등과 같은 광 기록 매체(optical media), 자기테이프, 광자기 디스크 및/또는 플로피 디스크 등과 같이 데이터를 영구적 또는 반영구적으로 저장 가능한 적어도 하나의 저장 매체를 이용하여 구현될 수 있다.
본 개시의 다양한 실시 예에 따른 메모리(110)는, 인코더(Encoder), 어텐션 모델(Attention model) 및 디코더(Decoder)를 포함하는 음성 인식 모델을 저장할 수 있으며, 데이터 증강 모듈, 음향 개선 레이어(Enhancement layer), 시간지연-에너지 표준화 모듈을 저장할 수 있다. 또한, 음성 인식 모델의 학습 과정에 필요한 수학식, 가중치, 입력 데이터, 출력 데이터, 학습 횟수에 대한 정보 등을 저장할 수 있다.
프로세서(120)는 전자 장치(100)의 전반적인 동작을 제어한다. 구체적으로, 프로세서(120)는 상술한 바와 메모리(110)를 포함하는 전자 장치(100)의 구성과 연결되며, 상술한 바와 같은 메모리(110)에 저장된 적어도 하나의 인스트럭션을 실행함으로써, 전자 장치(100)의 동작을 전반적으로 제어할 수 있다. 특히, 프로세서(120)는 하나의 프로세서(120)로 구현될 수 있을 뿐만 아니라 복수의 프로세서(120)로 구현될 수 있다.
프로세서(120)는 다양한 방식으로 구현될 수 있다. 예를 들어, 프로세서(120)는 주문형 집적 회로(Application Specific Integrated Circuit, ASIC), 임베디드 프로세서, 마이크로 프로세서, 하드웨어 컨트롤 로직, 하드웨어 유한 상태 기계(hardware Finite State Machine, FSM), 디지털 신호 프로세서(Digital Signal Processor, DSP) 중 적어도 하나로 구현될 수 있다.
한편, 본 개시에서 프로세서(120)는 디지털 신호를 처리하는 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(120)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형 태로 구현될 수도 있다. 프로세서(120)는 메모리(110)에 저장된 컴퓨터 실행가능 명령어(computer executable instructions)를 실행함으로써 다양한 기능을 수행할 수 있다. 뿐만 아니라, 프로세서(120)는 인공지능 기능을 수행하기 위하여, 별도의 AI 전용 프로세서인 GPU(graphics-processing unit), NPU(Neural Processing Unit), VPU(Visual Processing UniT) 중 적어도 하나를 포함할 수 있다.
본 개시의 다양한 실시 예에 따른 프로세서(120)는, 사용자 음성과 노이즈(Noise)를 포함하는 제1 오디오 데이터를 획득하고, 제1 오디오 데이터를 음향 증강(Acoustic augmentation)시켜 제2 오디오 데이터를 획득하고, 제2 오디오 데이터를 노이즈를 감소시키는 음향 개선 레이어(Enhancement layer)에 입력하여 제3 오디오 데이터를 획득하고, 오디오 데이터를 표준화하기 위한 시간지연-에너지 표준화 모듈에 제1 오디오 데이터와 제2 오디오 데이터를 입력하여 제4 오디오 데이터를 획득하고, 제3 오디오 데이터 및 제4 오디오 데이터를 이용하여 획득된 음성 인식을 위한 입력 데이터를 인코더에 입력하여 음성 인식 모델을 학습시킬 수 있다.
또한, 본 개시의 다양한 실시 예에 따른 프로세서(120)는, 음성 인식 모델을 학습시키면서 음성 인식 기능을 수행할 수 있다.
본 개시의 다양한 실시 예에 따른 프로세서(120)의 음성 인식 모델 학습 및 음성 인식 기능은 전자 장치(100)에 설치되는 어플리케이션 실행을 통해 수행되는 것일 수 있다. 여기서, 어플리케이션은 외부 서버에서 전자 장치(100)로 다운로드 된 것일 수 있다.
구체적인 프로세서(120)의 전자 장치(100)의 제어 방법은 도 2 내지 5와 함께 구체적으로 설명한다.
도 2는 본 개시의 일 실시 예에 따른, 음향 개선 레이어와 시간지연-에너지 표준화 과정이 도입된 음성 인식 모델을 설명하기 위한 블록도이다.
도 2를 참조하면, 프로세서(120)는 음향 증강 모듈(220-1)을 통해 제1 오디오 데이터를 음향 증강시켜 제2 오디오 데이터를 획득할 수 있다.
제1 오디오 데이터(210)는 아날로그 형태의 오디오 데이터를 획득하여 푸리에 변환(Fourier transform)을 통해 특정 시간 길이의 음성 조각이 각 주파수 성분을 얼만큼 갖는지를 스펙트럼 형태로 나타낸 디지털 형태의 오디오 데이터일 수 있다.
따라서, 제1 오디오 데이터(210)는 시간 변화에 따른 주파수를 나타낸 스펙트로그램(Spectogram)에 대한 정보를 포함할 수 있다.
또한, 제1 오디오 데이터(210)는 사용자의 음성뿐만 아니라 다양한 생활 환경에서 발생할 수 있는 노이즈를 포함할 수 있다.
제2 오디오 데이터는 제1 오디오 데이터를 음향 증강 시킨 것으로, 제1 오디오 데이터의 시간, 주파수, 혹은 잠재 공간 내의 변이를 통해 왜곡된 신호를 생성함으로써 데이터 양을 증가시킨 데이터일 수 있다.
여기서, 음향 증강은 피치 증강(Pitch augmentation), 템포 증강(Tempo augmentation), 억양 증강(Tone augmentation), 울림 증강(Reverb augmentation), 리듬 증강(Rhythm augmentation), 진폭 증강(Amplitude augmentation) 등으로 이루어질 수 있으며, 이에 국한되지 않고, 다양한 방식의 음향 증강 방법이 활용될 수 있다.
프로세서(120)는 특징 추출 모듈(220-2)를 통해 획득된 제2 오디오 데이터의 제1 음성 특징에 대한 정보를 획득할 수 있다. 또한, 프로세서(120)는 제1 음성 특징을 음향 개선 레이어(Enhancement layer)(240)에 입력하여 노이즈가 감소된 제2 음성 특징을 포함하는 제3 오디오 데이터를 획득할 수 있다.
프로세서(120)는 오디오 데이터를 표준화하기 위한 시간지연-에너지 표준화 모듈(230-1)에 제1 오디오 데이터 또는 제2 오디오 데이터를 입력하여 제4 오디오 데이터를 획득할 수 있다.
프로세서(120)는 이와 같은 시간지연-에너지 표준화 과정을 통해 음향 증강에 따라 발생할 수 있는 오디오 데이터의 시간 지연에 및 에너지 변화를 표준화하여 학습하기 쉬운 노이즈가 거의 포함되지 않은 오디오 데이터를 획득할 수 있다.
이하에서는 도 3a 내지 3e를 통해 시간지연-에너지 표준화 과정을 음성 데이터의 스펙트럼을 통해 설명하기로 한다.
도 3a는 본 개시의 다양한 실시 예에 따른, 시간지연-에너지 표준화 모델을 설명하기 위한 원본 음성 데이터의 스펙트럼을 나타낸 도면이다.
도 3a를 참조하면, 원본 음성 데이터는 0.3s, 0.6s, 0.9s 부근에서 강한 주파수 신호 세기를 나타내는 것을 볼 수 있다.
도 3b는 본 개시의 다양한 실시 예에 따른, 시간지연-에너지 표준화 모델을 설명하기 위한 음원이 마이크로부터 0.5m 떨어져 있을 때의 음성 데이터의 스펙트럼을 나타낸 도면이다.
도 3b를 참조하면 도 3a의 원본 음성 데이터와 유사하게 0.3s, 0.6s, 0.9s 부근에서 강한 주파수 신호 세기를 나타내며, 신호가 다른 시간대에서도 미세하게 주파수 신호가 관측되는 것을 볼 수 있다. 마이크로부터 0.5m 정도의 거리는 비교적 먼 거리가 아니기 때문에 원본 데이터와 유사한 주파수 신호 분포가 관측되는 것을 볼 수 있다.
도 3c는 본 개시의 다양한 실시 예에 따른, 시간지연-에너지 표준화 모델을 설명하기 위한 음원이 마이크로부터 10m 떨어져 있을 때의 오디오 데이터의 스펙트럼을 나타낸 도면이다.
도 3c를 참조하면, 0.3s, 0.6s, 0.9s 부근에서 주파수 신호 세기가 약하게 관측되며, 주파수가 신호가 관측되는 되는 시간대가 0.35s, 0.65s, 0.95s로 미세하게 달라진 것을 볼 수 있다. 따라서, 음향 증강을 거친 데이터는 시간지연이 발생하고, 신호의 세기를 결정하는 진폭의 변화가 나타나는 것을 알 수 있다.
도 3d는 본 개시의 다양한 실시 예에 따른, 시간지연-에너지 표준화 모델을 설명하기 위한 음원이 마이크로부터 0.5m 떨어져 있을 때, 시간지연-에너지 표준화 과정을 거친 오디오 데이터의 스펙트럼을 나타낸 도면이다.
도 3d를 참조하면, 시간지연-에너지 표준화 과정을 거친 음성 데이터는 노이즈가 거의 포함되지 않은 원본 음성 데이터의 스펙트럼과 거의 흡사하게 0.3s, 0.6s, 0.9s 부근에서 주파수 신호 세기가 강하게 관측되는 것을 볼 수 있다.
도 3e는 본 개시의 다양한 실시 예에 따른, 시간지연-에너지 표준화 모델을 설명하기 위한 음원이 마이크로부터 10m 떨어져 있을 때, 시간지연-에너지 표준화 과정을 거친 오디오 데이터의 스펙트럼을 나타낸 도면이다.
도 3e를 참조하면, 마이크로부터 10m 떨어진 거리에서 발생한 음성을 획득한 것이라도 해당 음성 데이터가 시간지연-에너지 표준화 과정을 거치게 되면, 원본 음성 데이터의 스펙트럼과 거의 흡사하게 0.3s, 0.6s, 0.9s 부근에서 주파수 신호 세기가 강하게 관측되는 것을 볼 수 있다.
이와 같이, 마이크로부터 어느 정도 거리가 떨어진 곳에서 발생한 소리에 대응되는 오디오 데이터 또는 노이즈가 포함된 오디오 데이터가 시간지연-에너지 표준화 과정을 거치게 되면, 노이즈가 거의 포함되지 않은 원본 오디오 데이터와 흡사한 음성 특징을 가지는 것을 볼 수 있다.
따라서, 프로세서(120)는 시간지연-에너지 표준화 과정을 거쳐 학습하기 쉬운 노이즈가 거의 포함되지 않은 오디오 데이터에 기초하여 음성 인식 모델을 학습시킬 수 있다.
다시, 도 2를 참조하면, 프로세서(120)는 특징 추출 모듈(230-2)을 통해 획득된 제4 오디오 데이터의 제3 음성 특징에 대한 정보를 획득할 수 있다.
프로세서(120)는 음향 개선 레이어(240)를 통해 획득된 제3 오디오 데이터의 제2 음성 특징과 시간지연-에너지 표준화 과정을 통해 획득된 제4 오디오 데이터의 제3 음성 특징에 기초하여 음성 인식을 위한 입력 데이터를 획득할 수 있다.
여기서, 제2 음성 특징과 제3 음성 특징에 기초하여 획득된 음성 인식을 위한 입력 데이터는 아래의 수학식 1과 같이 표현될 수 있다.
[수학식 1]
Figure PCTKR2021014918-appb-img-000001
여기서,
Figure PCTKR2021014918-appb-img-000002
는 음향 개선 레이어로부터 획득된 어느 정도 노이즈가 포함된 제3 오디오 데이터의 제2 음성 특징을 나타내고,
Figure PCTKR2021014918-appb-img-000003
은 시간지연-에너지 표준화 과정을 통해 획득된 노이즈가 거의 포함되어 있지 않은 제4 오디오 데이터의 제3 음성 특징을 나타낸다. ω는 가중치를 나타내며, 0과 1 사이의 값을 가질 수 있으나, 이에 국한되지 않고 다른 기 설정된 값일 수 있다.
프로세서(120)는 제2 음성 특징에 제1 가중치(예: 1-ω)를 곱한 값과 제3 음성 특징에 제2 가중치(예: ω)를 곱한 값을 더하여 음성 인식을 위한 입력 데이터를 획득할 수 있다.
또한, 음성 인식 모델의 학습 횟수가 증가할수록, 제1 가중치의 값은 증가하고 제2 가중치의 값은 감소할 수 있으며, 음성 인식 모델의 학습 횟수가 임계 학습 횟수를 초과하면, 제2 가중치의 값이 0이 될 수 있다.
따라서, 음성 인식 모델의 학습 초기에는 제1 가중치의 크기가 제2 가중치의 크기보다 상대적으로 작아, 시간지연-표준화 과정을 통해 획득된 제4 오디오 데이터에 기초한 학습이 이루어질 수 있다. 제4 오디오 데이터는 노이즈를 거의 포함하고 있지 않으므로 학습 난이도가 낮아 학습 초기에도 원활한 학습이 이루어질 수 있고, 음성 인식 기능이 제공될 수 있다.
이후, 학습이 거듭될수록 제1 가중치의 크기가 제2 가중치의 크기보다 상대적으로 커지게 되고, 음향 개선 레이어를 통해 획득된 제3 오디오 데이터에 기초한 학습이 이루어질 수 있다. 제3 오디오 데이터는 어느 정도 노이즈를 포함하고 있지만, 음향 개선 레이어를 통해 노이즈가 어느 정도 감소된 상태이며, 학습 난이도가 낮은 데이터에 대해 음성 인식 모델의 학습이 이루어진 뒤이므로, 무리 없이 학습이 이루어질 수 있고, 음성 인식 기능이 제공될 수 있다.
프로세서(120)는 상술한 바와 같은 점진적 학습 과정을 통해 노이즈를 포함하거나, 마이크로부터 어느 정도 거리가 떨어진 곳에서 발생한 소리에 대응되는 오디오 데이터에 대한 학습과 높은 정확도를 갖는 음성 인식 기능을 수행할 수 있다.
프로세서(120)는 음성 인식을 위한 입력 데이터를 인코더(250)에 입력한 다음, 어텐션 모델(260)에 입력하여 어텐션 정보를 획득할 수 있다. 프로세서(120)는 어텐션 정보에 기초하여, 음성 인식을 위한 입력 데이터를 디코딩하여 문자 데이터를 획득할 수 있다. 프로세서(120)는 획득한 문자 데이터에 기초하여 음성 인식 모델을 학습시킬 수 있다.
프로세서(120)는 인코더(250)를 통해 음성 인식을 위한 입력 데이터에 포함된 음성 특징이 음성 인식에 적합한 잠재 공간 상의 벡터로 변환된 정보를 획득할 수 있다.
프로세서(120)는 어텐션 모델(260)을 통해 디코더(270)가 다음에 출력할 데이터와 가장 연관이 높은 인코더(250)의 출력 데이터가 어디인지를 식별하고, 그 부분에 대응되는 데이터를 디코더(270)에 입력하여 문자 데이터를 획득할 수 있다. 또한 프로세서(120)는 소프트 맥스(280)를 통해 문자 데이터를 학습하여 문자열을 출력할 수 있다.
프로세서(120)는 디코더(270)를 통해 잠재 공간 상의 벡터로 변환된 정보를 디코딩하여 문자 데이터를 획득할 수 있다.
프로세서(120)는 손실 함수에 기초하여 음성 인식 모델을 학습시킬 수 있다. 구체적으로, 프로세서(120)는 손실 함수에 기초하여 음성 인식 모델을 학습시킴으로써, 음성 인식 모델이 적절한 가중치를 가질 수 있도록 할 수 있다.
따라서, 음성 인식 모델은 노이즈가 포함된 오디오 데이터 또는 마이크로부터 어느 정도 거리가 있는 위치에서 발생하는 소리에 대한 오디오 데이터로부터 사용자 음성이 포함하는 정보를 보다 정확하게 획득할 수 있다.
본 개시의 다양한 실시 예에 따른 음성 인식 모델의 손실 함수는 다음과 같은 수학식 2로 표현될 수 있다.
[수학식 2]
Figure PCTKR2021014918-appb-img-000004
L은 손실 함수를 의미한다. LMSE는 평균제곱오차(Mean Square Error)를 나타내며, 이는 음향 개선 과정을 거쳐 제3 오디오 데이터를 획득하는 단계에서의 제1 손실을 의미할 수 있다. λ는 손실 함수를 구하는 과정에서 제1 손실의 가중치를 나타낸다. LCTC는 Connectionist Temporal Classification(CTC) 손실로, 음성 인식을 위한 입력 데이터를 인코더(250)에 입력하여 벡터 값을 획득하는 과정에서의 제2 손실을 의미할 수 있다. LCE은 크로스-엔트로피(Cross-Entropy) 손실로, 음성 인식 모델의 디코더(270)로부터 문자 데이터를 획득하는 단계에서의 제3 손실을 의미할 수 있다.
음성 인식 모델의 학습 횟수가 많을수록 제1 손실의 가중치가 감소할 수 있고, 음성 인식 모델의 학습 횟수가 임계 학습 횟수를 초과하면 제1 손실의 가중치는 0이 될 수 있다.
이와 같이 제1 손실의 가중치가 감소하면서, 손실 함수를 구함에 있어, 음향 개선 과정을 거쳐 제2 음성 특징을 포함하는 제3 오디오 데이터를 획득하는 과정에서의 손실을 고려하는 비중이 점진적으로 감소하게 된다.
제1 손실의 가중치가 0이되면 손실 함수를 구함에 있어, 음향 개선 과정을 거쳐 제2 음성 특징을 포함하는 제3 오디오 데이터를 획득하는 과정에서의 손실을 고려하지 않게 된다.
따라서, 학습이 거듭될수록, 음향 개선 레이어를 거친 어느 정도의 노이즈를 포함하는 제3 오디오 데이터의 제2 음성 특징을 통한 학습의 비중이 높아지고, 노이즈를 포함하거나, 마이크로부터 어느 정도 거리가 떨어진 위치에서 발생하는 소리에 대응되는 오디오 데이터에 대한 음성 인식 정확도가 높은 음성 인식 모델을 획득할 수 있다.
도 4는 본 개시의 일 실시 예에 따른, 음성 인식 모델의 학습 횟수가 임계 학습 횟수를 초과하였을 때, 음성 인식 모델을 설명하기 위한 블록도이며, 도 5는 본 개시의 일 실시 예에 따른, 음성 인식 모델의 학습 횟수가 많아져 임계 학습 횟수를 초과하게 되는 경우, 음성 인식 모델의 변화를 설명하기 위한 블록도이다.
상술한 바와 같이, 음성 인식 모델의 학습 횟수가 증가할수록, 제1 가중치의 값은 증가하고 제2 가중치의 값은 감소할 수 있으며, 음성 인식 모델의 학습 횟수가 임계 학습 횟수를 초과하면, 제2 가중치의 값이 0이 될 수 있다.
또한, 음성 인식 모델의 학습 횟수가 많을수록 제1 손실의 가중치가 감소할 수 있고, 음성 인식 모델의 학습 횟수가 임계 학습 횟수를 초과하면 제1 손실의 가중치는 0이 될 수 있다.
따라서, 도 4를 참조하면, 프로세서(120)는 음성 인식 모델의 학습 횟수가 임계 학습 횟수를 초과하면, 인코더(250)에 입력되는 음성 인식을 위한 입력 데이터는 오로지 음향 개선 레이어(240)로부터 획득된 제3 오디오 데이터의 제2 음성 특징을 기초로 획득하게 되며, 음향 개선 레이어(240)와 인코더(250)가 통합 인코더(410)의 역할을 수행하게 된다.
여기서, 시간지연-에너지 표준화 과정을 거쳐 획득된 제4 오디오 데이터의 제3 음성 특징에 대응되는 가중치가 0이 되고, 음향 개선 레이어(240)를 거쳐 제3 오디오 데이터가 획득되는 과정에서의 제1 손실의 가중치가 0이 되기 때문에 프로세서(120)는 음성 인식을 위한 입력 데이터를 획득함에 있어 제4 오디오 데이터는 고려 대상이 되지 않는다.
도 5를 참조하면, 프로세서(120)는 학습 초기에는 시간지연-에너지 표준화 과정을 거친 노이즈가 거의 포함되지 않아 학습 난이도가 낮은 제4 오디오 데이터의 제3 음성 특징을 기초로 음성 인식을 위한 입력 데이터를 획득할 수 있다.
이후, 학습이 거듭되면, 프로세서(120)는 점진적으로 음향 개선 레이어(240)를 통해 획득한 노이즈가 어느 정도 포함되어 학습 난이도가 비교적 높은 제3 오디오 데이터의 제2 음성 특징을 기초로 음성 인식을 위한 입력 데이터를 획득할 수 있다.
따라서, 프로세서(120)는 학습 난이도가 낮은 데이터부터 학습 난이도가 높은 데이터로 점진적인 음성 인식 모델 학습이 가능하다.
도 6은 본 개시의 다양한 실시 예에 따른 전자 장치의 동작을 설명하기 위한 흐름도이다.
전자 장치(100)는, 사용자 음성과 노이즈(Noise)를 포함하는 제1 오디오 데이터를 획득할 수 있다(S610). 제1 오디오 데이터는 시간 변화에 따른 주파수 신호 세기를 나타낸 스펙트럼에 대한 정보를 포함할 수 있다.
전자 장치(100)는 제1 오디오 데이터를 음향 증강(Acoustic augmentation)시켜 제2 오디오 데이터를 획득할 수 있다(S620). 여기서, 음향 증강은 피치 증강(Pitch augmentation), 템포 증강(Tempo augmentation), 억양 증강(Tone augmentation), 울림 증강(Reverb augmentation), 리듬 증강(Rhythm augmentation), 진폭 증강(Amplitude augmentation) 중 적어도 하나일 수 있다. 또한, 전자 장치(100)는 제2 오디오 데이터의 제1 음성 특징을 추출할 수 있다.
전자 장치(100)는 제2 오디오 데이터를 노이즈를 감소시키는 음향 개선 레이어(Enhancement layer)에 입력하여 제3 오디오 데이터를 획득할 수 있다(S630). 전자 장치(100)는 제2 오디오 데이터의 제1 음성 특징을 음향 개선 레이어에 입력하여 제2 음성 특징을 갖는 제3 오디오 데이터를 획득할 수 있다.
전자 장치(100)는 오디오 데이터를 표준화하기 위한 시간지연-에너지 표준화 모듈에 제1 오디오 데이터와 제2 오디오 데이터를 입력하여 제4 오디오 데이터를 획득할 수 있다(S640). 전자 장치(100)는 획득된 제4 오디오 데이터의 제3 음성 특징을 추출할 수 있다.
전자 장치(100)는 인코더(250)를 통해 음성 인식을 위한 입력 데이터에 포함된 음성 특징이 음성 인식에 적합한 잠재 공간 상의 벡터로 변환된 정보를 획득할 수 있다.
전자 장치(100)는 어텐션 모델(260)을 통해 디코더(270)가 다음에 출력할 데이터와 가장 연관이 높은 인코더(250)의 출력 데이터가 어디인지를 식별하고, 그 부분에 대응되는 데이터를 디코더(270)에 입력하여 문자 데이터를 획득할 수 있다. 또한 전자 장치(100)는 소프트 맥스(280)를 통해 문자 데이터를 학습하여 문자열을 출력할 수 있다.
전자 장치(100)는 제3 오디오 데이터 및 제4 오디오 데이터를 이용하여 획득된 음성 인식을 위한 입력 데이터를 인코더(250)에 입력하여 음성 인식 모델을 학습시킬 수 있다(S650). 또한, 전자 장치(100)는 제3 오디오 데이터의 제2 음성 특징 및 제4 오디오 데이터의 제3 음성 특징에 기초하여 음성 인식을 위한 입력 데이터를 획득할 수 있고, 이를 인코더(250)에 입력하여 음성 인식 모델을 학습시킬 수 있다.
일 실시 예에 따르면, 본 문서에 개시된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims (15)

  1. 전자 장치에 있어서,
    인코더(Encoder), 어텐션 모델(Attention model) 및 디코더(Decoder)를 포함하는 음성 인식 모델을 저장하는 메모리; 및
    프로세서;를 포함하고,
    상기 프로세서는,
    사용자 음성과 노이즈(Noise)를 포함하는 제1 오디오 데이터를 획득하고,
    상기 제1 오디오 데이터를 음향 증강(Acoustic augmentation)시켜 제2 오디오 데이터를 획득하고,
    상기 제2 오디오 데이터를 노이즈를 감소시키는 음향 개선 레이어(Enhancement layer)에 입력하여 제3 오디오 데이터를 획득하고,
    오디오 데이터를 표준화하기 위한 시간지연-에너지 표준화 모듈에 상기 제1 오디오 데이터와 상기 제2 오디오 데이터를 입력하여 제4 오디오 데이터를 획득하고,
    상기 제3 오디오 데이터 및 상기 제4 오디오 데이터를 이용하여 획득된 음성 인식을 위한 입력 데이터를 상기 인코더에 입력하여 상기 음성 인식 모델을 학습시키는, 전자 장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    상기 제2 오디오 데이터의 제1 음성 특징을 추출하고,
    상기 제1 음성 특징을 음향 개선 레이어에 입력하여 제2 음성 특징을 포함하는 제3 오디오 데이터를 획득하고,
    획득된 제4 오디오 데이터의 제3 음성 특징을 추출하고,
    상기 제2 음성 특징 및 상기 제3 음성 특징에 기초하여 상기 음성 인식을 위한 입력 데이터를 획득하는, 전자 장치.
  3. 제2항에 있어서,
    상기 프로세서는,
    상기 제2 음성 특징에 제1 가중치를 곱한 값과 상기 제3 음성 특징에 제2 가중치를 곱한 값을 더하여 상기 음성 인식을 위한 입력 데이터를 획득하고,
    상기 제1 가중치와 제2 가중치의 합은 기 설정된 값인 것을 특징으로 하는, 전자 장치.
  4. 제3항에 있어서,
    상기 음성 인식 모델의 학습 횟수가 증가할수록, 상기 제1 가중치의 값은 증가하고 상기 제2 가중치의 값은 감소하는, 전자 장치.
  5. 제4항에 있어서,
    상기 음성 인식 모델의 학습 횟수가 임계 학습 횟수를 초과하면, 상기 제2 가중치의 값이 0이 되는, 전자 장치.
  6. 제1항에 있어서,
    상기 프로세서는,
    상기 음성 인식을 위한 입력 데이터를 어텐션 모델(Attention model)에 입력하여 어텐션 정보를 획득하고,
    상기 어텐션 정보에 기초하여, 상기 음성 인식을 위한 입력 데이터를 디코딩(Decoding)하여 문자 데이터를 획득하고,
    상기 문자 데이터에 기초하여 상기 음성 인식 모델을 학습시키는, 전자 장치.
  7. 제6항에 있어서,
    상기 프로세서는,
    상기 제3 오디오 데이터를 획득하는 단계에서의 제1 손실, 상기 음성 인식을 위한 입력 데이터를 인코더에 입력하여 벡터 값을 획득하는 과정에서의 제2 손실 및 상기 문자 데이터를 획득하는 단계에서의 제3 손실로 이루어진 손실 함수(Loss function)를 포함하고,
    상기 음성 인식 모델의 학습 횟수가 많을수록 상기 제1 손실의 가중치가 감소하는 것을 특징으로 하는, 전자 장치.
  8. 제7항에 있어서,
    상기 음성 인식 모델의 학습 횟수가 임계 학습 횟수를 초과하면, 상기 제1 손실의 가중치가 0이 되는, 전자 장치.
  9. 제1항에 있어서,
    상기 음향 증강은,
    피치 증강(Pitch augmentation), 템포 증강(Tempo augmentation), 억양 증강(Tone augmentation), 울림 증강(Reverb augmentation), 리듬 증강(Rhythm augmentation), 진폭 증강(Amplitude augmentation) 중 적어도 하나인, 전자 장치.
  10. 전자 장치의 제어 방법에 있어서,
    사용자 음성과 노이즈(Noise)를 포함하는 제1 오디오 데이터를 획득하는 단계;
    상기 제1 오디오 데이터를 음향 증강(Acoustic augmentation)시켜 제2 오디오 데이터를 획득하는 단계;
    상기 제2 오디오 데이터를 노이즈를 감소시키는 음향 개선 레이어(Enhancement layer)에 입력하여 제3 오디오 데이터를 획득하는 단계;
    오디오 데이터를 표준화하기 위한 시간지연-에너지 표준화 모듈에 상기 제1 오디오 데이터와 상기 제2 오디오 데이터를 입력하여 제4 오디오 데이터를 획득하는 단계; 및
    상기 제3 오디오 데이터 및 상기 제4 오디오 데이터를 이용하여 획득된 음성 인식을 위한 입력 데이터를 상기 인코더에 입력하여 상기 음성 인식 모델을 학습시키는 단계;를 포함하는 제어 방법.
  11. 제10항에 있어서,
    상기 제3 오디오 데이터를 획득하는 단계는,
    상기 제2 오디오 데이터의 제1 음성 특징을 추출하는 단계; 및
    상기 제1 음성 특징을 음향 개선 레이어에 입력하여 제2 음성 특징을 포함하는 제3 오디오 데이터를 획득하는 단계;를 포함하고,
    상기 제4 오디오 데이터를 획득하는 단계는,
    획득된 제4 오디오 데이터의 제3 음성 특징을 추출하는 단계;를 더 포함하고,
    상기 음성 인식 모델을 학습시키는 단계는,
    상기 제2 음성 특징 및 상기 제3 음성 특징에 기초하여 상기 음성 인식을 위한 입력 데이터를 획득하는 단계;를 포함하는 제어 방법.
  12. 제11항에 있어서,
    상기 음성 인식 모델을 학습시키는 단계는,
    상기 제2 음성 특징에 제1 가중치를 곱한 값과 상기 제3 음성 특징에 제2 가중치를 곱한 값을 더하여 상기 음성 인식을 위한 입력 데이터를 획득하고,
    상기 제1 가중치와 제2 가중치의 합은 기 설정된 값인 것을 특징으로 하는, 제어 방법.
  13. 제12항에 있어서,
    상기 음성 인식 모델의 학습 횟수가 증가할수록, 상기 제1 가중치의 값은 증가하고 상기 제2 가중치의 값은 감소하는, 제어 방법.
  14. 제13항에 있어서,
    상기 음성 인식 모델의 학습 횟수가 임계 학습 횟수를 초과하면, 상기 제2 가중치의 값이 0이 되는, 제어 방법.
  15. 제10항에 있어서,
    상기 제어 방법은,
    상기 음성 인식을 위한 입력 데이터를 어텐션 모델(Attention model)에 입력하여 어텐션 정보를 획득하는 단계;
    상기 어텐션 정보에 기초하여, 상기 음성 인식을 위한 입력 데이터를 디코딩(Decoding)하여 문자 데이터를 획득하는 단계; 및
    상기 문자 데이터에 기초하여 상기 음성 인식 모델을 학습시키는 단계;를 포함하는, 제어 방법.
PCT/KR2021/014918 2020-10-22 2021-10-22 전자 장치 및 이의 제어 방법 WO2022086274A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2020-0137749 2020-10-22
KR20200137749 2020-10-22
KR1020210132556A KR20220053475A (ko) 2020-10-22 2021-10-06 전자 장치 및 이의 제어 방법
KR10-2021-0132556 2021-10-06

Publications (1)

Publication Number Publication Date
WO2022086274A1 true WO2022086274A1 (ko) 2022-04-28

Family

ID=81290975

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/014918 WO2022086274A1 (ko) 2020-10-22 2021-10-22 전자 장치 및 이의 제어 방법

Country Status (1)

Country Link
WO (1) WO2022086274A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090129739A (ko) * 2008-06-13 2009-12-17 주식회사 케이티 발화 환경과 발화자에 따른 음성 인식 방법 및 장치
KR20180080446A (ko) * 2017-01-04 2018-07-12 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US20190130896A1 (en) * 2017-10-26 2019-05-02 Salesforce.Com, Inc. Regularization Techniques for End-To-End Speech Recognition
US20200211580A1 (en) * 2018-12-27 2020-07-02 Lg Electronics Inc. Apparatus for noise canceling and method for the same
KR20200115107A (ko) * 2019-03-28 2020-10-07 삼성전자주식회사 심층 멀티태스킹 반복 신경망을 이용한 음향 에코 제거 시스템 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090129739A (ko) * 2008-06-13 2009-12-17 주식회사 케이티 발화 환경과 발화자에 따른 음성 인식 방법 및 장치
KR20180080446A (ko) * 2017-01-04 2018-07-12 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US20190130896A1 (en) * 2017-10-26 2019-05-02 Salesforce.Com, Inc. Regularization Techniques for End-To-End Speech Recognition
US20200211580A1 (en) * 2018-12-27 2020-07-02 Lg Electronics Inc. Apparatus for noise canceling and method for the same
KR20200115107A (ko) * 2019-03-28 2020-10-07 삼성전자주식회사 심층 멀티태스킹 반복 신경망을 이용한 음향 에코 제거 시스템 및 방법

Similar Documents

Publication Publication Date Title
WO2020189850A1 (en) Electronic device and method of controlling speech recognition by electronic device
WO2020122653A1 (en) Electronic apparatus and controlling method thereof
WO2015005679A1 (ko) 음성 인식 방법, 장치 및 시스템
WO2020256257A2 (ko) 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치
WO2021071110A1 (en) Electronic apparatus and method for controlling electronic apparatus
WO2020222384A1 (ko) 전자 장치 및 이의 제어 방법
EP3818518A1 (en) Electronic apparatus and method for controlling thereof
WO2020054980A1 (ko) 음소기반 화자모델 적응 방법 및 장치
WO2022203152A1 (ko) 다화자 훈련 데이터셋에 기초한 음성합성 방법 및 장치
WO2022086274A1 (ko) 전자 장치 및 이의 제어 방법
WO2021045503A1 (en) Electronic apparatus and control method thereof
KR20220053475A (ko) 전자 장치 및 이의 제어 방법
EP3850623A1 (en) Electronic device and method of controlling thereof
WO2020080812A1 (en) Electronic device and controlling method of electronic device
WO2019198900A1 (en) Electronic apparatus and control method thereof
WO2021049802A1 (ko) 전자 장치 및 이의 제어 방법
WO2022177091A1 (ko) 전자 장치 및 이의 제어 방법
WO2022086045A1 (ko) 전자 장치 및 이의 제어 방법
WO2021054613A1 (en) Electronic device and method for controlling the electronic device thereof
WO2021154018A1 (en) Electronic device and method for controlling the electronic device thereof
WO2021045434A1 (ko) 전자 장치 및 이의 제어 방법
US20230039619A1 (en) Method and apparatus for automatic cough detection
WO2022177089A1 (ko) 전자 장치 및 그 제어 방법
WO2019156427A1 (ko) 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치, 문맥 기반 음성 모델 관리 장치 및 그 방법
WO2023120861A1 (ko) 전자 장치 및 그 제어 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21883341

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21883341

Country of ref document: EP

Kind code of ref document: A1