WO2024071729A1 - 2단계 사전 학습 기반의 인공지능을 이용한 음성 인식 장치 - Google Patents

2단계 사전 학습 기반의 인공지능을 이용한 음성 인식 장치 Download PDF

Info

Publication number
WO2024071729A1
WO2024071729A1 PCT/KR2023/013475 KR2023013475W WO2024071729A1 WO 2024071729 A1 WO2024071729 A1 WO 2024071729A1 KR 2023013475 W KR2023013475 W KR 2023013475W WO 2024071729 A1 WO2024071729 A1 WO 2024071729A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
artificial intelligence
unit
intelligence model
learning
Prior art date
Application number
PCT/KR2023/013475
Other languages
English (en)
French (fr)
Inventor
정호영
김준우
Original Assignee
경북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020230017097A external-priority patent/KR20240044303A/ko
Application filed by 경북대학교 산학협력단 filed Critical 경북대학교 산학협력단
Publication of WO2024071729A1 publication Critical patent/WO2024071729A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Definitions

  • the present invention relates to a voice recognition device using artificial intelligence, and more specifically, to a voice recognition device using artificial intelligence that undergoes two-stage prior learning before main learning using text.
  • Supervised learning-based speech recognition models are trained using a dataset containing a large amount of correct answers. Accordingly, input voice and corresponding text are required to learn the model, but generating learning data requires a lot of manpower and cost.
  • online services used by a variety of people have vast amounts of data that can solve these problems. However, most of the data provided in online services is non-transcribed voice data with no correct answer. Therefore, there is a need for unsupervised learning of a speech recognition model and a continuously expandable speech recognition system based on it.
  • This invention was developed through the University ICT Research Center Development Support Project of the Ministry of Science and ICT (Project ID: 1711120093, Project Number: 2020-0-01808-001, Project Management Agency: National Institute of Information and Communications Planning and Evaluation, Research Project Name: Complex Information-Based Prediction It was derived from research conducted as part of intelligent innovation technology research, project performing organization name: Kyungpook National University Industry-Academic Cooperation Foundation, research period: 2020.07.01 ⁇ 2027.12.31).
  • One object of the present invention relates to a voice recognition device using artificial intelligence that undergoes two-stage pre-learning before main learning using text.
  • a voice recognition device using artificial intelligence that undergoes two-stage prior learning before main learning using text can be provided.
  • FIG. 1 is a configuration diagram showing the flow between internal components of a voice recognition device according to an embodiment.
  • Figure 2 is a block diagram of a first dictionary learning unit according to an embodiment.
  • Figure 4 is a block diagram of a voice recognition unit according to one embodiment.
  • Figure 5 is a flowchart showing a voice recognition method of a voice recognition device according to an embodiment.
  • Figure 6 is a flowchart of an artificial intelligence learning and feature expression extraction method of the first dictionary learning unit according to an embodiment.
  • FIG. 7 to 9 are diagrams for explaining masking of learning voice data of the first dictionary learning unit.
  • Figure 10 is a diagram for explaining learning and prediction of the first artificial intelligence model.
  • Figure 11 is a diagram for explaining the error calculation process of the first dictionary learning unit.
  • Figure 12 is a flowchart of an artificial intelligence learning and feature expression extraction method of the second dictionary learning unit according to an embodiment.
  • Figure 13 is a diagram for explaining learning and prediction of a second artificial intelligence model.
  • Figure 14 is a diagram for explaining two-stage dictionary learning performed by the first dictionary learning unit and the second dictionary learning unit.
  • Figure 15 is a flowchart of an artificial intelligence model learning and voice recognition method of a voice recognition unit according to an embodiment.
  • Figure 16 is a diagram to explain learning and prediction of a third artificial intelligence model.
  • a speech recognition device includes a first dictionary learning unit that extracts a first feature expression from learning speech data using a first artificial intelligence model; a second dictionary learning unit that extracts a second feature expression from the first feature expression using a second artificial intelligence model; and a voice recognition unit that extracts predicted text from the second feature expression using a third artificial intelligence model.
  • the first dictionary learning unit trains the first artificial intelligence model using data masked from the learning voice data
  • the second dictionary learning unit uses interdependence information of the first feature expression to create a second artificial intelligence model.
  • Intelligence models can be trained.
  • the first dictionary learning unit includes a data processing unit that converts the training voice data into spectrum data in the frequency domain; a data shielding unit for masking the spectrum data; A first deep learning network unit that inputs masked spectrum data into the first artificial intelligence model; And for learning of the first artificial intelligence model, it may include a first error measurement unit that calculates an error between the output data of the first artificial intelligence model and the spectrum data.
  • the data shielding unit sets the value of the first frequency section of the spectrum data to 0, sets the value of the first time section to 0, adds noise, or changes the value of the second time section to the value of the third time section.
  • Masking can be performed by replacing .
  • the first error measuring unit adds the size of the difference between the output data of the first artificial intelligence model and the spectrum data, or squares the difference between the output data of the first artificial intelligence model and the spectrum data.
  • the error can be calculated by summing the values.
  • the second dictionary learning unit includes a data labeling unit that obtains the first feature expression from the first dictionary learning unit and generates positive samples and negative samples using the first feature expression; a second deep learning network unit extracting interdependent information from the first feature expression; And for learning of the second artificial intelligence model, it may include a second error measurement unit that calculates errors between the output data of the second artificial intelligence model and the positive sample and the negative sample.
  • the interdependence information is based on first context information generated based on first data at a first time point included in the first feature expression and second data at a second time point included in the second feature expression. It may include the generated second context information.
  • the second error measurement unit may calculate the difference between the output data of the second artificial intelligence model at a time future than the reference time and the positive sample and the negative sample.
  • the voice recognition unit may include a third deep learning network unit that trains the third artificial intelligence model using the second feature expression and the correct answer text.
  • a voice recognition method is a voice recognition method performed by at least one processor, wherein a first feature is expressed from learning voice data using a first artificial intelligence model learned to predict a masked portion of masked data. Extracting; extracting a second feature expression from the first feature expression using a second artificial intelligence model learned to predict a correct answer using interdependence information; Obtaining predicted speech data from the second feature expression using a third artificial intelligence model; And it may include extracting predicted text using the predicted voice data.
  • a computer-readable non-transitory recording medium on which a program for executing the voice recognition method is recorded may be provided.
  • FIG. 1 is a configuration diagram showing the flow between internal components of a voice recognition device according to an embodiment.
  • a voice recognition device may include a first dictionary learning unit 1000, a second dictionary learning unit 2000, and a voice recognition unit 3000.
  • Figure 1 shows three components included in a voice recognition device, but the illustrated components are not essential, and the voice recognition device may have more or fewer components.
  • each component of the voice recognition device may be physically included in one device, or may be a distributed device distributed for each function.
  • the function of each component of the voice recognition device may be physically performed by a single processor or may be performed by a plurality of processors distributed for each function.
  • the first dictionary learning unit 1000 and the second dictionary learning unit 2000 may be included in one dictionary learning device, but the present invention is not limited to this.
  • a voice recognition device may include a control processor that oversees the operation of the device. Specifically, the control processor may send control commands to the first dictionary learning unit 1000, the second dictionary learning unit 2000, and the voice recognition unit 3000 to execute the operations of each department.
  • the operation of the voice recognition device may be interpreted as being performed under the control of a control processor.
  • the first dictionary learning unit 1000 may extract the first feature expression from the learning voice data using the first artificial intelligence model. Specifically, the first dictionary learning unit 1000 can extract the first feature expression by predicting the masking portion of the input data using the first artificial intelligence model learned using data masked from the learning voice data. .
  • the second dictionary learning unit 2000 may extract a second feature expression from the first feature expression extracted from the first dictionary learning unit 1000 using a second artificial intelligence model. Specifically, the second dictionary learning unit 2000 can extract the second feature expression by predicting future data at the reference time using the second artificial intelligence model learned using the interdependence information of the first feature expression. there is.
  • the voice recognition unit 3000 may extract predicted text from the second feature expression extracted from the second dictionary learning unit 2000 using a third artificial intelligence model.
  • the voice recognition unit 3000 may be configured to perform main learning after two-stage dictionary learning performed by the first dictionary learning unit 1000 and the second dictionary learning unit 2000. Specifically, the voice recognition unit 3000 can extract predicted text by analyzing voice data using a third artificial intelligence model learned using the correct answer text after two-stage prior learning.
  • first dictionary learning unit 1000 A detailed description of the first dictionary learning unit 1000, the second dictionary learning unit 2000, and the voice recognition unit 3000 will be described below with reference to FIGS. 2 to 4.
  • Figure 2 is a block diagram of a first dictionary learning unit according to an embodiment.
  • the first dictionary learning unit 1000 includes a data processing unit 1100, a data shielding unit 1200, a first deep learning network unit 1300, and a first error measuring unit 1400. ) may include.
  • Figure 2 shows four components included in the first dictionary learning unit 1000, but the illustrated components are not essential, and the first dictionary learning unit 1000 may have more or fewer components. Can have components.
  • each component of the first dictionary learning unit 1000 may be physically performed by a single processor or may be performed by a plurality of processors distributed for each function.
  • the data processing unit 1100 and the data shielding unit 1200 may be merged into one component, such as a data pre-processing unit, but the present invention is not limited thereto.
  • the data processing unit 1100 may convert training voice data into spectrum data in the frequency domain. Specifically, the data processing unit 1100 may convert input voice data into frequency domain data. For example, the data processing unit 1100 can convert learning voice data into spectrum data in the frequency domain using Mel-filter Bank, but is not limited to this.
  • the data shielding unit 1200 may mask spectrum data generated by the data processing unit 1100. Specifically, the data shielding unit 1200 may mask the spectrum data by deleting part of the spectrum data, replacing some data with other data, or adding noise to the spectrum data. Masking of the data shielding unit 1200 will be described in detail below with reference to FIGS. 7 to 9.
  • the first deep learning network unit 1300 may input the spectrum data masked by the data shielding unit 1200 into the first artificial intelligence model to learn the first artificial intelligence model. Specifically, the first deep learning network unit 1300 may train the first artificial intelligence model to predict the masked portion of the masked spectrum data.
  • the first error measurement unit 1400 may calculate an error between the output data of the first artificial intelligence model and the spectrum data for learning the first artificial intelligence model. Specifically, the first error measurement unit 1400 can calculate a numerical value of how much the masked portion predicted by the first artificial intelligence model differs from the original unmasked spectrum data.
  • the first deep learning network unit 1300 may continuously train the first artificial intelligence model so that the error calculated by the first error measurement unit 1400 is smaller than the first threshold.
  • the first error measurement unit 1400 may calculate the error by adding the size of the difference between the output data of the first artificial intelligence model and the spectrum data. Alternatively, the first error measurement unit 1400 may calculate the error by adding the square of the difference between the output data of the first artificial intelligence model and the spectrum data.
  • the first threshold may be set based on the performance of the first artificial intelligence model, the purpose of the application, the properties of the input learning voice data, etc. For example, the better the performance of the first artificial intelligence model, the smaller the first threshold may be. Also, for example, as the environment of the application to which the voice recognition device is applied requires high performance, the first threshold may become smaller. Also, for example, the better the sound quality of the input learning voice data, the smaller the first threshold may be.
  • the first dictionary learning unit 1000 trains the first artificial intelligence model to predict the masked part and can perform one-step dictionary learning for voice recognition.
  • the first dictionary learning unit 1000 may extract the first feature expression from the learning voice data using the first artificial intelligence model learned so that the resulting error is smaller than the first threshold.
  • the first dictionary learning unit 1000 may transmit the extracted first feature expression to the second dictionary learning unit 2000.
  • the delivered first feature representation can be used for second-stage dictionary learning.
  • Figure 3 is a block diagram of a second dictionary learning unit according to an embodiment.
  • the second dictionary learning unit 2000 may include a data labeling unit 2100, a second deep learning network unit 2200, and a second error measurement unit 2300.
  • Figure 3 shows three components included in the second dictionary learning unit 2000, but the illustrated components are not essential, and the second dictionary learning unit 2000 may have more or fewer components. Can have components.
  • the second dictionary learning unit 2000 may further include a component that acquires the first feature expression delivered by the first dictionary learning unit 1000, but is not limited to this.
  • each component of the second dictionary learning unit 2000 may be physically performed by one processor or may be performed by a plurality of processors distributed for each function.
  • the second deep learning network unit 2200 and the second error measurement unit 2300 may be merged into one component, such as a learning unit, but are not limited to this.
  • the data labeling unit 2100 may receive the first feature expression from the first dictionary learning unit 1000. Additionally, the data labeling unit 2100 may generate positive samples and negative samples using the first feature expression. Specifically, the data labeling unit 2100 may set a reference point in time and generate a sample of data at a future point in time than the reference point in time.
  • the data labeling unit 2100 may set the time point corresponding to 'ha' as the reference point. Accordingly, the data labeling unit 2100 may generate positive samples and negative samples for 'Seo' corresponding to a future time point rather than the reference time point. For a specific example, the data labeling unit 2100 may set the positive sample to 'Syo' and the negative sample to 'Syo', 'Suyo', 'Demand', etc.
  • the data labeling unit 2100 may set the time point corresponding to 'C' as the reference point. Accordingly, the data labeling unit 2100 may generate positive samples and negative samples for 'Tell me' corresponding to a future time point rather than the reference time point. For a specific example, the data labeling unit 2100 may set positive samples to 'Reminder' and negative samples to 'Reminder', 'Reminder', 'Reminder', etc.
  • the second deep learning network unit 2200 may extract interdependence information from the first feature expression. Specifically, the second deep learning network unit 2200 may extract interdependence information from data corresponding to a time point past the reference point. At this time, the interdependence information may include context information between data from a past point in time. In the example of 'Hello' above, the interdependent information may include first context information generated based on 'An' and second context information generated based on 'Nyeong'. Or, in the example of 'Tell me the weather today' above, the interdependent information may include context information generated based on 'Oh', 'Always', and 'Day' respectively.
  • the second error measurement unit 2300 may calculate the output data of the second artificial intelligence model and the error of the positive and negative samples generated by the data labeling unit 2100 for learning the second artificial intelligence model. . Specifically, the second error measurement unit 2300 may calculate a numerical value of how much the data at a future point in time differs from the positive sample compared to the reference time point predicted by the second artificial intelligence model using interdependence information. The second deep learning network unit 2200 may continuously train the second artificial intelligence model so that the error calculated by the second error measurement unit 2300 is smaller than the second threshold.
  • the second threshold may be set based on the performance of the second artificial intelligence model, the purpose of the application, the properties of the input learning voice data, etc. Since specific information may overlap with information about the first threshold, detailed information will be omitted.
  • the second dictionary learning unit 2000 trains a second artificial intelligence model to predict future data and can perform two-step dictionary learning for voice recognition.
  • the second dictionary learning unit 2000 may extract the second feature expression from the first feature expression using the second artificial intelligence model learned so that the resulting error is smaller than the second threshold.
  • the second dictionary learning unit 2000 may transmit the extracted second feature expression to the voice recognition unit 3000.
  • the delivered second feature expression can be used for main learning for speech recognition. At this time, this learning is learning using text, and may be different from the first-stage dictionary learning by the first dictionary learning unit 1000 and the second-stage dictionary learning by the second dictionary learning unit 2000 that do not use text. .
  • Figure 4 is a block diagram of a voice recognition unit according to one embodiment.
  • the voice recognition unit 3000 may include a third deep learning network unit 3100, a third error measurement unit 3200, and a result output unit 3300.
  • Figure 4 shows three components included in the voice recognition unit 3000, but the illustrated components are not essential, and the voice recognition unit 3000 may have more or fewer components. You can.
  • the voice recognition unit 3000 may further include a component that acquires the second feature expression delivered by the second dictionary learning unit 2000, but is not limited to this.
  • each component of the voice recognition unit 3000 may be physically performed by a single processor or may be performed by a plurality of processors distributed for each function.
  • the third deep learning network unit 3100 and the third error measurement unit 3200 may be merged into one component, such as a learning unit, but the present invention is not limited to this.
  • the third deep learning network unit 3100 can learn a third artificial intelligence model using the second feature expression and the answer text.
  • the third error measurement unit 3200 may calculate the error between the output data of the third artificial intelligence model and the correct text for learning the third artificial intelligence model.
  • the third deep learning network unit 3100 may continuously train the third artificial intelligence model so that the error calculated by the third error measurement unit 3200 is smaller than the third threshold.
  • the third threshold may be set based on the performance of the third artificial intelligence model, the purpose of the application, the properties of the input learning voice data, etc. Since specific information may overlap with information about the first threshold, detailed information will be omitted.
  • the result output unit 3300 may output predicted text corresponding to the input voice data using the learned third artificial intelligence model.
  • the predicted text that is the result of the result output unit 3300 may be the result of the voice recognition device.
  • a voice recognition device can output a response to the user's voice using predictive text.
  • Figure 5 is a flowchart showing a voice recognition method of a voice recognition device according to an embodiment.
  • a voice recognition method of a voice recognition device includes extracting a first feature expression from voice data (S100), and extracting a second feature expression using the first feature expression (S100). It may include a step (S200) and extracting the predicted text using the second feature expression (S300).
  • steps S100 to S300 are shown to be performed in order, but the present invention is not limited to this and other steps may be added between each step. Alternatively, each step may be merged with other steps or omitted.
  • the step of extracting the first feature expression from voice data may be performed by the first dictionary learning unit 1000.
  • the data processing unit 1100 may convert the input learning voice data into spectrum data in the frequency domain.
  • the data shielding unit 1200 may mask the spectrum data and generate masked spectrum data.
  • the first deep learning network unit 1300 can train the first artificial intelligence model to predict the masking portion of the masked spectrum data.
  • the first error measurement unit 1400 may measure the error between the result data of the first artificial intelligence model and the original unmasked spectrum data for learning the first artificial intelligence model. Details of step S100 will be described with reference to FIGS. 6 to 11.
  • the step of extracting the second feature expression using the first feature expression may be performed by the second dictionary learning unit 2000.
  • the data labeling unit 2100 may set and/or generate positive samples and negative samples from the first feature expression.
  • the second deep learning network unit 2200 may train the second artificial intelligence model to predict data at a future time point than the reference time point of the second feature expression.
  • the second error measurement unit 2300 may measure the error between the result data of the second artificial intelligence model and the positive and negative samples for learning the second artificial intelligence model. Details of step S200 will be described with reference to FIGS. 12 and 13.
  • the step of extracting predicted text using the second feature expression may be performed by the voice recognition unit 3000.
  • the third deep learning network unit 3100 can train a third artificial intelligence model to predict the second feature expression as text.
  • the third error measurement unit 3200 may measure the error between the result data of the third artificial intelligence model and the correct text for learning the third artificial intelligence model.
  • the result measurement unit 3300 may extract prediction data from the second feature expression using the learned third artificial intelligence model. Details of step S300 will be described with reference to FIGS. 15 and 16.
  • Figure 6 is a flowchart of an artificial intelligence learning and feature expression extraction method of the first dictionary learning unit according to an embodiment.
  • the artificial intelligence learning and feature expression extraction method of the first dictionary learning unit 1000 includes converting learning voice data into spectrum data (S110) and masking the spectrum data (S110). S120), training the first artificial intelligence model (S130), calculating the error of the first artificial intelligence model (S140), comparing the error with the first threshold (S150), and the first artificial intelligence model It may include a step (S160) of extracting the first feature expression using .
  • steps S110 to S160 are shown to be performed in order, but the present invention is not limited to this and other steps may be added between each step. Alternatively, each step may be merged with other steps or omitted.
  • the step of converting the learning voice data into spectrum data may be a step in which the data processing unit 1100 converts the input training voice data into spectrum data in the frequency domain.
  • the data processing unit 1100 can convert learning voice data into spectrum data in the frequency domain using Mel-filter Bank, but is not limited to this.
  • Spectrum data may be data representing the intensity of frequencies on time-frequency coordinates, such as the data in FIG. 9(a).
  • the data shielding unit 1200 masks the spectrum data by deleting some data of the spectrum data, replacing data in one area with data in another area, or adding noise. This may be a step. This will be described in detail below with reference to FIGS. 7 to 9.
  • the data shielding unit 1200 may delete some data (C, F, G, I) among the data represented by A to K.
  • the data shielding unit 1200 may mask the spectrum data by setting some values of the data to 0. At this time, some masked data may correspond to some frequencies in the frequency band.
  • the data shielding unit 1200 may mask spectrum data at a certain rate. Specifically, as shown in Figure 8, the data shielding unit 1200 deletes the value of data corresponding to 80% of the original spectrum data and sets it to 0, replaces the data corresponding to 10% with data from another area, and replaces the remaining data with data from another area. Masking of the spectral data can be performed by keeping 10% as is. However, it is not limited to the numbers in FIG. 8 and the ratio of data on which masking is performed may vary depending on the case.
  • FIG. 9 is a visual representation of spectrum data in the frequency domain that has passed through the Mel-filter Bank.
  • FIG. 9(a) is a diagram showing unmasked spectrum data
  • FIG. 9(b) is a diagram showing spectrum data masked by deleting data in one frequency domain
  • FIG. 9(c) is a diagram showing data in one time domain.
  • FIG. 9(d) is a diagram showing spectrum data masked by adding noise
  • FIG. 9(e) is a diagram showing masking by replacing data in one area with data in another area.
  • This is a diagram showing the masked spectrum data
  • Figure 9(f) is a diagram showing the masked spectrum data in which all the masking of Figures 9(b) to 9(e) are added together.
  • the data shielding unit 1200 deletes data in one area, adds Gaussian noise, replaces data in another area, or performs these functions based on the horizontal or vertical axis. By combining them all, the spectral data can be masked.
  • the first deep learning network unit 1300 inputs the masked spectrum data to the first artificial intelligence model, so that the first artificial intelligence model is masked. This may be a learning step to be able to predict what has happened.
  • the step of calculating the error of the first artificial intelligence model may be a step in which the first error measurement unit 1400 calculates the error between the result data of the first artificial intelligence model and the unmasked spectrum data.
  • the step of comparing the error with the first threshold is a step of comparing the error with the first threshold so that the first artificial intelligence model can be learned in the direction of reducing the error calculated by the first error measurement unit 1400. You can. If the error is greater than or equal to the first threshold, step S130 may be performed again to retrain the first artificial intelligence model. If the error is less than the first threshold, it is determined that the learning of the first artificial intelligence model is complete, and the first feature expression can be extracted using the first artificial intelligence model (S160). At this time, the first feature expression may be a vector representing the properties of the voice data, but is not limited to this.
  • the first dictionary learning unit 1000 may further include transmitting the first feature expression extracted after step S160 to the second dictionary learning unit 2000.
  • Figure 10 is a diagram for explaining learning and prediction of the first artificial intelligence model.
  • the first artificial intelligence model may be learned based on spectrum data masked by the data shielding unit 1200.
  • the learned first artificial intelligence model can predict the masked part when masked input data is input.
  • the first artificial intelligence model can finally predict the masked part and extract the first feature expression.
  • Figure 11 is a diagram for explaining the error calculation process of the first dictionary learning unit.
  • the first artificial intelligence model of the first dictionary learning unit 1000 can receive masked spectrum data (Masked Speech Frames), predict the masked portion, and output result data (Predicted Features). there is.
  • the first error measurement unit 1400 of the first dictionary learning unit 1000 may measure the error between result data (Predicted Features) and unmasked spectrum data (Original Speech Features).
  • the first deep learning network unit 1300 can learn the first artificial intelligence model using the measured error.
  • Figure 12 is a flowchart of an artificial intelligence learning and feature expression extraction method of the second dictionary learning unit according to an embodiment.
  • the artificial intelligence learning and feature expression extraction method of the second dictionary learning unit 2000 includes setting a reference point of the first feature expression (S210) and generating interdependence information.
  • Step (S220) generating positive samples and negative samples (S230), predicting data at a future point in time using interdependent information (S240), calculating the error between the data and samples at the future point in time. It may include (S250), determining whether the error is smaller than the second threshold (S260), and extracting the second feature expression (S270).
  • steps S210 to S270 are shown in FIG. 12 to be performed in order, the present invention is not limited to this and other steps may be added between each step. Alternatively, each step may be merged with other steps or omitted.
  • the step of setting the reference point of time for the first feature expression may be a step of setting the reference point for learning the second artificial intelligence model using the first feature expression extracted from the first dictionary learning unit 1000.
  • the second dictionary learning unit 2000 may receive or obtain a first feature expression from the first dictionary learning unit 1000. The reference point will be described in detail with reference to FIG. 13.
  • Figure 13 is a diagram for explaining learning and prediction of a second artificial intelligence model.
  • the first feature expression obtained from the first dictionary learning unit 1000 may include data according to time.
  • the data labeling unit 2100 may set a reference viewpoint 15 for the first feature expression.
  • the second artificial intelligence model extracts interdependence information about data at a point in time past the reference point, and predicts data at a future point in time compared to the reference point based on the extracted interdependence information.
  • the step of generating interdependence information is a step in which the second deep learning network unit 2200 inputs data from a time past the reference point in the first feature expression into the second artificial intelligence model to generate interdependence information.
  • the interdependence information may include context information of data from a past point in time.
  • the interdependence information includes first context information 22 generated based on data at a first past point in time 12, and second context information 23 generated based on data at a second past point in time 13.
  • It may include third context information 24 generated based on data of a third past time point 14 and fourth context information 25 generated based on data of a reference time point 15.
  • the data labeling unit 2100 In the step of generating positive samples and negative samples (S230), the data labeling unit 2100 generates positive samples and negative samples for learning of the second artificial intelligence model based on feature expression data at a future time point compared to the reference time point. It can be. For example, if the first feature expression is about 'hello' and the time point corresponding to 'ha' is the reference point, the data labeling unit 2100 affirms 'seo' corresponding to a future point in time than the reference point. Samples and negative samples can be created. For a specific example, the data labeling unit 2100 may set the positive sample to 'Syo' and the negative sample to 'Syo', 'Suyo', 'Demand', etc. The order of steps S220 and S230 may be changed, or the two steps may be performed simultaneously.
  • the second deep learning network unit 2200 uses the interdependence information and the first feature expression to predict the future point in time compared to the reference point through a second artificial intelligence model. This may be a step in extracting data at the time.
  • the step of calculating the error between future data and samples (S250) may be a step in which the second error measurement unit 2300 calculates the error between the result data of the second artificial intelligence model and the positive and negative samples. there is.
  • the step of determining whether the error is smaller than the second threshold is to set the error to the second threshold so that the second artificial intelligence model can be learned in a direction that reduces the error calculated by the second error measurement unit 2300. This may be a step of comparing values. If the error is greater than or equal to the second threshold, step S240 may be performed again to retrain the second artificial intelligence model. If the error is less than the second threshold, it is determined that the learning of the second artificial intelligence model is complete, and the second feature expression can be extracted using the second artificial intelligence model (S270). At this time, the second feature expression may be a vector representing the properties of the voice data, but is not limited to this.
  • the second dictionary learning unit 2000 may further include transmitting the second feature expression extracted after step S270 to the voice recognition unit 3000.
  • Figure 14 is a diagram for explaining two-stage dictionary learning performed by the first dictionary learning unit and the second dictionary learning unit.
  • the voice recognition device can perform dictionary learning without using text in two steps. Specifically, the voice recognition device can perform first-stage dictionary learning (1001) performed by the first dictionary learning unit (1000) and second-stage dictionary learning (2001) performed by the second dictionary learning unit (2000). there is.
  • the first-stage pre-learning 1001 may be learning to extract the first feature expression as a result by a first artificial intelligence model trained to predict the masked part by generating and using masked data.
  • Second-stage dictionary learning (2001) may be learning that eventually extracts a second feature expression by a second artificial intelligence model trained to predict data at a future point in time based on interdependent information at a past point in time.
  • the voice recognition device of the present invention can improve the accuracy and efficiency of voice recognition through two-stage dictionary learning.
  • the present invention is based on unsupervised learning, and can solve the resource problem of generating learning data in conventional supervised learning.
  • Figure 15 is a flowchart of an artificial intelligence model learning and voice recognition method of a voice recognition unit according to an embodiment.
  • the artificial intelligence model learning and voice recognition method of the voice recognition unit 3000 includes the steps of learning a third artificial intelligence model using the second feature expression and the correct answer text (S310); A step of calculating the error between the output data of the third artificial intelligence model and the correct answer text (S320), a step of determining whether the error is smaller than the third threshold (S330), and predicting the text using the third artificial intelligence model. It may include an output step (S340).
  • the third deep learning network unit 3100 inputs the second feature expression and the correct answer text into the third artificial intelligence model to 3 This may be a step in which the artificial intelligence model is trained to predict the text of the second feature expression. Unlike the second-stage dictionary learning, the voice recognition unit 3000 can learn a third artificial intelligence model using text.
  • the step of calculating the error between the output data of the third artificial intelligence model and the correct answer text may be a step in which the third error measurement unit 3200 calculates the error between the result data of the third artificial intelligence model and the correct answer text. there is.
  • the step of determining whether the error is smaller than the third threshold is to set the error to the third threshold so that the third artificial intelligence model can be trained in a direction that reduces the error calculated by the third error measurement unit 3200. This may be a step of comparing values. If the error is greater than or equal to the third threshold, step S310 may be performed again to retrain the third artificial intelligence model. If the error is less than the third threshold, it is determined that the learning of the third artificial intelligence model is complete, and the predicted text can be output (S340) using the third artificial intelligence model. At this time, the predicted text may be result data obtained by converting the second feature expression input into the third artificial intelligence model into text.
  • Figure 16 is a diagram to explain learning and prediction of a third artificial intelligence model.
  • a two-stage pre-trained feature expression 100 may be input to the third artificial intelligence model.
  • the second feature expression extracted from the second dictionary learning unit 2000 may be input to the third artificial intelligence model.
  • the learned third artificial intelligence model can output predicted text for the second feature expression through bi-LSTM (Bi-LSTM) and self-attention.
  • the third artificial intelligence model can output predicted text using Linear and Softmax functions.
  • the voice recognition unit 3000 acquires a second feature expression that is the result of two-stage dictionary learning performed without text by the first dictionary learning unit 1000 and the second dictionary learning unit 2000, and from this, a third artificial feature expression is obtained.
  • Predicted text can be extracted using an intelligent model.
  • the voice recognition device of the present invention performs two-step dictionary learning using non-transcribed voice data without a correct answer, and may include a continuously expandable voice recognition system based on this. Therefore, the voice recognition device of the present invention can increase learning efficiency and solve the problem of requiring a lot of manpower and cost to generate learning data.
  • the method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer-readable medium.
  • the computer-readable medium may include program instructions, data files, data structures, etc., singly or in combination.
  • Program instructions recorded on the medium may be specially designed and configured for the embodiment or may be known and available to those skilled in the art of computer software.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks.
  • program instructions include machine language code, such as that produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter, etc.
  • the hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

본 발명의 음성 인식 장치는 제1 인공지능 모델을 이용하여 학습 음성 데이터로부터 제1 특징 표현을 추출하는 제1 사전 학습부; 제2 인공지능 모델을 이용하여 상기 제1 특징 표현으로부터 제2 특징 표현을 추출하는 제2 사전 학습부; 및 제3 인공지능 모델을 이용하여 상기 제2 특징 표현으로부터 예측 텍스트를 추출하는 음성 인식부를 포함할 수 있다.

Description

2단계 사전 학습 기반의 인공지능을 이용한 음성 인식 장치
본 발명은 인공지능을 이용한 음성 인식 장치에 관한 것으로, 보다 상세하게는, 텍스트를 이용한 본 학습 이전에 2단계 사전 학습을 거진 인공지능을 이용한 음성 인식 장치에 관한 것이다.
최근 인공지능을 이용한 음성 인식 기술이 발달함에 따라 음성 인식 시스템을 기반으로 하는 인공지능 스피커가 널리 사용되고 있다. 그럼에도 불구하고 인공지능 스피커를 사용한 경험이 있는 소비자의 만족률은 절반을 넘지 못하고 있다. 이러한 사용자의 불만족은 구체적으로 음성 명령이 잘 적용되지 않고, 자연스러운 대화가 곤란하고, 소음을 음성 명령으로 오인하고, 사용자에게 맞는 정확한 정보 및 콘텐츠를 제공하지 못하는 등 다양한 이유에서 기인하고 있다.
대부분의 딥러닝 기반 음성 인식 시스템은 음성과 이에 대한 정답인 텍스트의 쌍 형태로 구축된 데이터를 기반으로 학습이 되고 있다. 그러나, 데이터의 양이 한정적이기 때문에 이러한 방법은 최적 학습에는 한계가 있고, 이를 극복하기 위한 추가적인 데이터 구축에는 많은 노력과 비용이 소모된다는 단점이 있다.
지도 학습 기반의 음성 인식 모델은 많은 양의 정답을 보유한 데이 터셋으로 기인하여 학습이 진행된다. 이에, 모델의 학습을 위해서는 입력 음성과 그에 대한 텍스트가 필요하지만, 학습 데이터 생성에는 많은 인력과 비용이 소요된다. 실제로 다양한 사람들이 이용하는 온라인 서비스에는 이러한 문제를 해결할 수 있는 방대한 데이터가 있다. 그러나, 온라인 서비스에서 제공되는 데이터에는 정답이 없는 비전사 음성 데이터가 대부분이다. 따라서, 음성 인식 모델에 대한 비 지도 학습 및 이에 기반하여 지속적으로 확장이 가능한 음성 인식 시스템이 필요한 실정이다.
본원 발명은 과학기술정보통신부의 대학ICT연구센터육성지원사업(과제고유번호: 1711120093, 과제번호: 2020-0-01808-001, 과제관리기관: 정보통신기획평가원, 연구과제명: 복합정보 기반 예측지능 혁신 기술 연구, 과제수행기관명: 경북대학교산학협력단, 연구기간: 2020.07.01~2027.12.31)의 일환으로 수행한 연구로부터 도출된 것이다.
한편, 본원 발명의 모든 측면에서 과제 제공 주체인 한국 정부의 재산 이익은 없다.
본 발명의 일 과제는 텍스트를 이용한 본 학습 이전에 2단계 사전 학습을 거진 인공지능을 이용한 음성 인식 장치에 관한 것이다.
본 발명의 일 실시예에 따르면 텍스트를 이용한 본 학습 이전에 2단계 사전 학습을 거진 인공지능을 이용한 음성 인식 장치가 제공될 수 있다.
도 1은 일 실시예에 따른 음성 인식 장치의 내부 구성 요소간의 흐름을 나타내는 구성도이다.
도 2는 일 실시예에 따른 제1 사전 학습부의 블록도이다.
도 3은 일 실시예에 따른 제2 사전 학습부의 블록도이다.
도 4는 일 실시예에 따른 음성 인식부의 블록도이다.
도 5는 일 실시예에 따른 음성 인식 장치의 음성 인식 방법을 나타내는 순서도이다.
도 6은 일 실시예에 따른 제1 사전 학습부의 인공지능 학습 및 특징 표현 추출 방법의 순서도이다.
도 7 내지 도 9는 제1 사전 학습부의 학습 음성 데이터 마스킹을 설명하기 위한 도면이다.
도 10은 제1 인공지능 모델의 학습 및 예측을 설명하기 위한 도면이다.
도 11은 제1 사전 학습부의 오차 산출 과정을 설명하기 위한 도면이다.
도 12는 일 실시예에 따른 제2 사전 학습부의 인공지능 학습 및 특징 표현 추출 방법의 순서도이다.
도 13은 제2 인공지능 모델의 학습 및 예측을 설명하기 위한 도면이다.
도 14는 제1 사전 학습부 및 제2 사전 학습부에 의해 수행되는 2단계 사전 학습을 설명하기 위한 도면이다.
도 15는 일 실시예에 따른 음성 인식부의 인공지능 모델 학습 및 음성 인식 방법의 순서도이다.
도 16은 제3 인공지능 모델의 학습 및 예측을 설명하기 위한 도면이다.
일 실시예에 따른 음성 인식 장치는 제1 인공지능 모델을 이용하여 학습 음성 데이터로부터 제1 특징 표현을 추출하는 제1 사전 학습부; 제2 인공지능 모델을 이용하여 상기 제1 특징 표현으로부터 제2 특징 표현을 추출하는 제2 사전 학습부; 및 제3 인공지능 모델을 이용하여 상기 제2 특징 표현으로부터 예측 텍스트를 추출하는 음성 인식부를 포함할 수 있다.
여기서, 상기 제1 사전 학습부는 상기 학습 음성 데이터를 마스킹한 데이터를 이용하여 상기 제1 인공지능 모델을 학습시키고, 상기 제2 사전 학습부는 상기 제1 특징 표현의 상호 의존 정보를 이용하여 제2 인공지능 모델을 학습시킬 수 있다.
여기서, 상기 제1 사전 학습부는, 상기 학습 음성 데이터를 주파수 영역인 스펙트럼 데이터로 변환하는 데이터 처리부; 상기 스펙트럼 데이터를 마스킹(masking)하는 데이터 차폐부; 마스킹된 스펙트럼 데이터를 상기 제1 인공지능 모델에 입력시키는 제1 딥러닝 네트워크부; 및 상기 제1 인공지능 모델의 학습을 위해, 상기 제1 인공지능 모델의 출력 데이터와 상기 스펙트럼 데이터의 오차를 산출하는 제1 오차 측정부를 포함할 수 있다.
여기서, 상기 데이터 차폐부는 상기 스펙트럼 데이터의 제1 주파수 구간의 값을 0으로 하거나, 제1 시간 구간의 값을 0으로 하거나, 노이즈를 추가하거나, 제2 시간 구간의 값을 제3 시간 구간의 값으로 대체함으로써 마스킹을 수행할 수 있다.
여기서, 상기 제1 오차 측정부는, 상기 제1 인공지능 모델의 출력 데이터와 상기 스펙트럼 데이터의 차이값의 크기를 합하거나, 상기 제1 인공지능 모델의 출력 데이터와 상기 스펙트럼 데이터의 차이값을 제곱한 값을 합하여 오차를 산출할 수 있다.
여기서, 상기 제2 사전 학습부는, 상기 제1 사전 학습부로부터 상기 제1 특징 표현을 획득하고, 상기 제1 특징 표현을 이용하여 긍정 샘플 및 부정 샘플을 생성하는 데이터 레이블링부; 상기 제1 특징 표현으로부터 상호 의존 정보를 추출하는 제2 딥러닝 네트워크부; 및 상기 제2 인공지능 모델의 학습을 위해, 상기 제2 인공지능 모델의 출력 데이터와 상기 긍정 샘플 및 상기 부정 샘플의 오차를 산출하는 제2 오차 측정부를 포함할 수 있다.
여기서, 상기 상호 의존 정보는, 상기 제1 특징 표현에 포함된 제1 시점의 제1 데이터에 기초하여 생성된 제1 문맥 정보 및 상기 제2 특징 표현에 포함된 제2 시점의 제2 데이터에 기초하여 생성된 제2 문맥 정보를 포함할 수 있다.
여기서, 상기 제2 오차 측정부는, 상기 제2 인공지능 모델의 출력 데이터 중 기준 시점보다 미래 시점의 데이터와 상기 긍정 샘플 및 상기 부정 샘플 사이의 차이를 산출할 수 있다.
여기서, 상기 음성 인식부는, 상기 제2 특징 표현 및 정답 텍스트를 이용하여 상기 제3 인공지능 모델을 학습시키는 제3 딥러닝 네트워크부를 포함할 수 있다.
일 실시예에 따른 음성 인식 방법은 적어도 하나 이상의 프로세서에 의해 수행되는 음성 인식 방법에 있어서, 마스킹된 데이터의 마스킹 부분을 예측하도록 학습된 제1 인공지능 모델을 이용하여 학습 음성 데이터로부터 제1 특징 표현을 추출하는 단계; 상호 의존 정보를 이용하여 정답을 예측하도록 학습된 제2 인공지능 모델을 이용하여 상기 제1 특징 표현으로부터 제2 특징 표현을 추출하는 단계; 제3 인공지능 모델을 이용하여 상기 제2 특징 표현으로부터 예측 음성 데이터를 획득하는 단계; 및 상기 예측 음성 데이터를 이용하여 예측 텍스트를 추출하는 단계를 포함할 수 있다.
여기서, 상기 음성 인식 방법을 실행하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 비일시적 기록 매체가 제공될 수 있다.
본 명세서에 기재된 실시예는 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 본 발명의 사상을 명확히 설명하기 위한 것이므로, 본 발명이 본 명세서에 기재된 실시예에 한정되는 것은 아니며, 본 발명의 범위는 본 발명의 사상을 벗어나지 아니하는 수정예 또는 변형예를 포함하는 것으로 해석되어야 한다.
본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하여 가능한 현재 널리 사용되고 있는 일반적인 용어를 선택하였으나 이는 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자의 의도, 판례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 다만, 이와 달리 특정한 용어를 임의의 의미로 정의하여 사용하는 경우에는 그 용어의 의미에 관하여 별도로 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는 단순한 용어의 명칭이 아닌 그 용어가 가진 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 한다.
본 명세서에 첨부된 도면은 본 발명을 용이하게 설명하기 위한 것으로 도면에 도시된 형상은 본 발명의 이해를 돕기 위하여 필요에 따라 과장되어 표시된 것일 수 있으므로 본 발명이 도면에 의해 한정되는 것은 아니다.
본 명세서에서 본 발명에 관련된 공지의 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에 이에 관한 자세한 설명은 필요에 따라 생략하기로 한다.
도 1은 일 실시예에 따른 음성 인식 장치의 내부 구성 요소간의 흐름을 나타내는 구성도이다.
도 1을 참조하면, 일 실시예에 따른 음성 인식 장치는 제1 사전 학습부(1000), 제2 사전 학습부(2000) 및 음성 인식부(3000)를 포함할 수 있다. 도 1은 음성 인식 장치에 포함되는 세 가지 구성 요소를 도시하고 있으나, 도시된 구성 요소들이 필수적인 것은 아니고, 음성 인식 장치는 그보다 많은 구성 요소를 갖거나 그보다 적은 구성 요소를 가질 수 있다.
또한, 음성 인식 장치의 각 구성 요소는 물리적으로 하나의 장치에 포함될 수도 있고, 각각의 기능 별로 분산된 분산 장치일 수 있다. 또는 음성 인식 장치의 각 구성 요소의 기능은 물리적으로 하나의 프로세서에 의해 수행될 수도 있고, 각각의 기능 별로 분산된 복수의 프로세서에 의해 수행될 수도 있다. 예를 들어, 제1 사전 학습부(1000) 및 제2 사전 학습부(2000)는 하나의 사전 학습 장치에 포함될 수 있으나, 이에 한정되지 않는다.
음성 인식 장치는 장치의 동작을 총괄하는 제어 프로세서를 포함할 수 있다. 구체적으로, 제어 프로세서는 제1 사전 학습부(1000), 제2 사전 학습부(2000) 및 음성 인식부(3000)에 제어 명령을 보내 각 부서의 동작을 실행할 수 있다.
이하에서 특별한 언급이 없는 경우에는, 음성 인식 장치의 동작은 제어 프로세서의 제어에 의해 수행되는 것으로 해석될 수 있다.
제1 사전 학습부(1000)는 제1 인공지능 모델을 이용하여 학습 음성 데이터로부터 제1 특징 표현을 추출할 수 있다. 구체적으로, 제1 사전 학습부(1000)는 학습 음성 데이터를 마스킹한 데이터를 이용하여 학습된 제1 인공지능 모델을 이용하여, 입력 데이터의 마스킹 부분을 예측하여 제1 특징 표현을 추출할 수 있다.
제2 사전 학습부(2000)는 제2 인공지능 모델을 이용하여 제1 사전 학습부(1000)로부터 추출된 제1 특징 표현으로부터 제2 특징 표현을 추출할 수 있다. 구체적으로, 제2 사전 학습부(2000)는 제1 특징 표현의 상호 의존 정보를 이용하여 학습된 제2 인공지능 모델을 이용하여, 기준 시점의 미래 데이터를 예측하여 제2 특징 표현을 추출할 수 있다.
음성 인식부(3000)는 제3 인공지능 모델을 이용하여 제2 사전 학습부(2000)로부터 추출된 제2 특징 표현으로부터 예측 텍스트를 추출할 수 있다. 음성 인식부(3000)는 제1 사전 학습부(1000) 및 제2 사전 학습부(2000)에 의해 수행된 2단계 사전 학습 이후 본 학습을 수행하는 구성일 수 있다. 구체적으로, 음성 인식부(3000)는 2단계 사전 학습 이후, 정답 텍스트를 이용하여 학습된 제3 인공지능 모델을 이용하여, 음성 데이터를 분석한 예측 텍스트를 추출할 수 있다.
제1 사전 학습부(1000), 제2 사전 학습부(2000) 및 음성 인식부(3000)에 대한 구체적인 설명은 도 2 내지 도 4를 참조하여 이하에서 설명한다.
도 2는 일 실시예에 따른 제1 사전 학습부의 블록도이다.
도 2를 참조하면, 일 실시예에 따른 제1 사전 학습부(1000)는 데이터 처리부(1100), 데이터 차폐부(1200), 제1 딥러닝 네트워크부(1300) 및 제1 오차 측정부(1400)를 포함할 수 있다. 도 2는 제1 사전 학습부(1000)에 포함되는 네 가지 구성 요소를 도시하고 있으나, 도시된 구성 요소들이 필수적인 것은 아니고, 제1 사전 학습부(1000)는 그보다 많은 구성 요소를 갖거나 그보다 적은 구성 요소를 가질 수 있다.
또한, 제1 사전 학습부(1000)의 각 구성 요소의 기능은 물리적으로 하나의 프로세서에 의해 수행될 수도 있고, 각각의 기능 별로 분산된 복수의 프로세서에 의해 수행될 수도 있다. 예를 들어, 데이터 처리부(1100) 및 데이터 차폐부(1200)는 데이터 전처리부와 같이 하나의 구성 요소로 병합될 수도 있으나, 이에 한정되지 않는다.
데이터 처리부(1100)는 학습 음성 데이터를 주파수 영역인 스펙트럼 데이터로 변환할 수 있다. 구체적으로, 데이터 처리부(1100)는 입력된 음성 데이터를 주파수 영역의 데이터로 변환할 수 있다. 예를 들어, 데이터 처리부(1100)는 Mel-filter Bank를 이용하여 학습 음성 데이터를 주파수 영역인 스펙트럼 데이터로 변환할 수 있으나, 이에 한정되지 않는다.
데이터 차폐부(1200)는 데이터 처리부(1100)에 의해 생성된 스펙트럼 데이터를 마스킹(masking)할 수 있다. 구체적으로, 데이터 차폐부(1200)는 스펙트럼 데이터의 일부를 삭제하거나, 일부 데이터를 다른 데이터로 대체하거나, 스펙트럼 데이터에 노이즈를 추가함으로써 스펙트럼 데이터를 마스킹할 수 있다. 데이터 차폐부(1200)의 마스킹에 대해서는 도 7 내지 도 9를 참조하여 이하에서 자세히 설명한다.
제1 딥러닝 네트워크부(1300)는 데이터 차폐부(1200)에 의해 마스킹된 스펙트럼 데이터를 제1 인공지능 모델에 입력시켜 제1 인공지능 모델을 학습시킬 수 있다. 구체적으로, 제1 딥러닝 네트워크부(1300)는 제1 인공지능 모델이 마스킹된 스펙트럼 데이터의 마스킹 부분을 예측하도록 제1 인공지능 모델을 학습시킬 수 있다.
제1 오차 측정부(1400)는 제1 인공지능 모델의 학습을 위해, 제1 인공지능 모델의 출력 데이터와 스펙트럼 데이터의 오차를 산출할 수 있다. 구체적으로, 제1 오차 측정부(1400)는 제1 인공지능 모델이 예측한 마스킹 부분이 마스킹되지 않은 원래의 스펙트럼 데이터와 얼마나 차이나는지에 대한 수치를 산출할 수 있다. 제1 딥러닝 네트워크부(1300)는 제1 오차 측정부(1400)가 산출한 오차가 제1 임계값보다 작아지도록 계속적으로 제1 인공지능 모델을 학습시킬 수 있다.
구체적으로, 제1 오차 측정부(1400)는 제1 인공지능 모델의 출력 데이터와 스펙트럼 데이터의 차이값의 크기를 합하여 오차를 산출할 수 있다. 또는 제1 오차 측정부(1400)는 제1 인공지능 모델의 출력 데이터와 스펙트럼 데이터의 차이값을 제곱한 값을 합하여 오차를 산출할 수 있다.
이때, 제1 임계값은 제1 인공지능 모델의 성능, 어플리케이션의 목적, 입력한 학습 음성 데이터의 속성 등에 기초하여 설정될 수 있다. 예를 들어, 제1 인공지능 모델의 성능이 좋을수록 제1 임계값은 작아질 수 있다. 또한 예를 들어, 음성 인식 장치가 적용되는 어플리케이션의 환경이 고성능을 요구할수록 제1 임계값은 작아질 수 있다. 또한 예를 들어, 입력한 학습 음성 데이터의 음질이 좋을수록 제1 임계값은 작아질 수 있다.
제1 사전 학습부(1000)는 마스킹된 부분을 예측하도록 제1 인공지능 모델을 학습시켜, 음성 인식을 위한 1단계 사전 학습을 수행할 수 있다. 제1 사전 학습부(1000)는 결과적으로 오차가 제1 임계값보다 작도록 학습된 제1 인공지능 모델을 이용하여 학습 음성 데이터로부터 제1 특징 표현을 추출할 수 있다. 제1 사전 학습부(1000)는 추출한 제1 특징 표현을 제2 사전 학습부(2000)로 전달할 수 있다. 전달된 제1 특징 표현은 2단계 사전 학습에 이용될 수 있다.
도 3은 일 실시예에 따른 제2 사전 학습부의 블록도이다.
도 3을 참조하면, 일 실시예에 따른 제2 사전 학습부(2000)는 데이터 레이블링부(2100), 제2 딥러닝 네트워크부(2200) 및 제2 오차 측정부(2300)를 포함할 수 있다. 도 3은 제2 사전 학습부(2000)에 포함되는 세 가지 구성 요소를 도시하고 있으나, 도시된 구성 요소들이 필수적인 것은 아니고, 제2 사전 학습부(2000)는 그보다 많은 구성 요소를 갖거나 그보다 적은 구성 요소를 가질 수 있다. 예를 들어, 제2 사전 학습부(2000)는 제1 사전 학습부(1000)가 전달한 제1 특징 표현을 획득하는 구성 요소를 더 포함할 수 있으나, 이에 한정되지 않는다.
또한, 제2 사전 학습부(2000)의 각 구성 요소의 기능은 물리적으로 하나의 프로세서에 의해 수행될 수도 있고, 각각의 기능 별로 분산된 복수의 프로세서에 의해 수행될 수도 있다. 예를 들어, 제2 딥러닝 네트워크부(2200) 및 제2 오차 측정부(2300)는 학습부와 같이 하나의 구성 요소로 병합될 수도 있으나, 이에 한정되지 않는다.
데이터 레이블링부(2100)는 제1 사전 학습부(1000)로부터 제1 특징 표현을 전달받을 수 있다. 또한, 데이터 레이블링부(2100)는 제1 특징 표현을 이용하여 긍정 샘플 및 부정 샘플을 생성할 수 있다. 구체적으로, 데이터 레이블링부(2100)는 기준 시점을 설정하고, 기준 시점보다 미래 시점의 데이터에 대한 샘플을 생성할 수 있다.
예를 들어, 제1 특징 표현이 '안녕하세요'에 관한 것일 경우, 데이터 레이블링부(2100)는 '하'에 대응되는 시점을 기준 시점으로 설정할 수 있다. 이에, 데이터 레이블링부(2100)는 기준 시점보다 미래 시점에 대응되는 '세요'에 대한 긍정 샘플 및 부정 샘플을 생성할 수 있다. 구체적인 예를 들어, 데이터 레이블링부(2100)는 긍정 샘플을'세요'로 설정하고, 부정 샘플을 '시요', '스요', '수요' 등으로 설정할 수 있다.
또한 예를 들어, 제1 특징 표현이 '오늘 날씨 알려줘'에 관한 것일 경우, 데이터 레이블링부(2100)는 '씨'에 대응되는 시점을 기준 시점으로 설정할 수 있다. 이에, 데이터 레이블링부(2100)는 기준 시점보다 미래 시점에 대응되는 '알려줘'에 대한 긍정 샘플 및 부정 샘플을 생성할 수 있다. 구체적인 예를 들어, 데이터 레이블링부(2100)는 긍정 샘플을 '알려줘'로 설정하고, 부정 샘플을 '일려줘', '일러줘', '알랴줘' 등으로 설정할 수 있다.
제2 딥러닝 네트워크부(2200)는 제1 특징 표현으로부터 상호 의존 정보를 추출할 수 있다. 구체적으로, 제2 딥러닝 네트워크부(2200)는 기준 시점보다 과거 시점에 대응되는 데이터로부터 상호 의존 정보를 추출할 수 있다. 이때, 상호 의존 정보는 과거 시점의 데이터 간의 문맥 정보를 포함할 수 있다. 위 '안녕하세요'의 예시에서, 상호 의존 정보는 '안'에 기초하여 생성된 제1 문맥 정보 및 '녕'에 기초하여 생성된 제2 문맥 정보를 포함할 수 있다. 또는 위 '오늘 날씨 알려줘'의 예시에서, 상호 의존 정보는 '오','늘','날' 각각에 기초하여 생성된 문맥 정보들을 포함할 수 있다.
제2 오차 측정부(2300)는 제2 인공지능 모델의 학습을 위해, 제2 인공지능 모델의 출력 데이터와 데이터 레이블링부(2100)에 의해 생성된 긍정 샘플 및 부정 샘플의 오차를 산출할 수 있다. 구체적으로, 제2 오차 측정부(2300)는 제2 인공지능 모델이 상호 의존 정보를 이용하여 예측한 기준 시점보다 미래 시점의 데이터와 긍정 샘플이 얼마나 차이나는지에 대한 수치를 산출할 수 있다. 제2 딥러닝 네트워크부(2200)는 제2 오차 측정부(2300)가 산출한 오차가 제2 임계값보다 작아지도록 계속적으로 제2 인공지능 모델을 학습시킬 수 있다.
이때, 제2 임계값은 제2 인공지능 모델의 성능, 어플리케이션의 목적, 입력한 학습 음성 데이터의 속성 등에 기초하여 설정될 수 있다. 구체적인 내용은 제1 임계값에 대한 내용과 중복될 수 있으므로, 자세한 내용은 생략한다.
제2 사전 학습부(2000)는 미래 데이터를 예측하도록 제2 인공지능 모델을 학습시켜, 음성 인식을 위한 2단계 사전 학습을 수행할 수 있다. 제2 사전 학습부(2000)는 결과적으로 오차가 제2 임계값보다 작도록 학습된 제2 인공지능 모델을 이용하여 제1 특징 표현으로부터 제2 특징 표현을 추출할 수 있다. 제2 사전 학습부(2000)는 추출한 제2 특징 표현을 음성 인식부(3000)로 전달할 수 있다. 전달된 제2 특징 표현은 음성 인식을 위한 본 학습에 이용될 수 있다. 이때, 본 학습은 텍스트를 이용한 학습으로, 텍스트를 이용하지 않는 제1 사전 학습부(1000)에 의한 1단계 사전 학습 및 제2 사전 학습부(2000)에 의한 2단계 사전 학습과 상이할 수 있다.
도 4는 일 실시예에 따른 음성 인식부의 블록도이다.
도 4를 참조하면, 일 실시예에 따른 음성 인식부(3000)는 제3 딥러닝 네트워크부(3100), 제3 오차 측정부(3200) 및 결과 출력부(3300)를 포함할 수 있다. 도 4는 음성 인식부(3000)에 포함되는 세 가지 구성 요소를 도시하고 있으나, 도시된 구성 요소들이 필수적인 것은 아니고, 음성 인식부(3000)는 그보다 많은 구성 요소를 갖거나 그보다 적은 구성 요소를 가질 수 있다. 예를 들어, 음성 인식부(3000)는 제2 사전 학습부(2000)가 전달한 제2 특징 표현을 획득하는 구성 요소를 더 포함할 수 있으나, 이에 한정되지 않는다.
또한, 음성 인식부(3000)의 각 구성 요소의 기능은 물리적으로 하나의 프로세서에 의해 수행될 수도 있고, 각각의 기능 별로 분산된 복수의 프로세서에 의해 수행될 수도 있다. 예를 들어, 제3 딥러닝 네트워크부(3100) 및 제3 오차 측정부(3200)는 학습부와 같이 하나의 구성 요소로 병합될 수도 있으나, 이에 한정되지 않는다.
제3 딥러닝 네트워크부(3100)는 제2 특징 표현 및 정답 텍스트를 이용하여 제3 인공지능 모델을 학습시킬 수 있다. 제3 오차 측정부(3200)는 제3 인공지능 모델의 학습을 위해, 제3 인공지능 모델의 출력 데이터와 정답 텍스트 사이의 오차를 산출할 수 있다. 제3 딥러닝 네트워크부(3100)는 제3 오차 측정부(3200)가 산출한 오차가 제3 임계값보다 작아지도록 계속적으로 제3 인공지능 모델을 학습시킬 수 있다.
이때, 제3 임계값은 제3 인공지능 모델의 성능, 어플리케이션의 목적, 입력한 학습 음성 데이터의 속성 등에 기초하여 설정될 수 있다. 구체적인 내용은 제1 임계값에 대한 내용과 중복될 수 있으므로, 자세한 내용은 생략한다.
결과 출력부(3300)는 학습된 제3 인공지능 모델을 이용하여, 입력된 음성 데이터에 대응되는 예측 텍스트를 출력할 수 있다. 결과적으로, 결과 출력부(3300)의 결과값인 예측 텍스트는 음성 인식 장치의 결과가 될 수 있다. 음성 인식 장치는 예측 텍스트를 이용하여 사용자의 음성에 대한 응답을 출력할 수 있다.
도 5는 일 실시예에 따른 음성 인식 장치의 음성 인식 방법을 나타내는 순서도이다.
도 5를 참조하면, 일 실시예에 따른 음성 인식 장치의 음성 인식 방법은 음성 데이터로부터 제1 특징 표현을 추출하는 단계(S100), 제1 특징 표현을 이용하여 제2 특징 표현을 추출하는 단계(S200) 및 제2 특징 표현을 이용하여 예측 텍스트를 추출하는 단계(S300)를 포함할 수 있다. 도 5에는 단계 S100 내지 단계 S300이 순서대로 수행되는 것이 도시되었으나, 이에 한정되지 않고 각 단계 사이에 다른 단계가 추가될 수 있다. 또는 각 단계가 다른 단계와 병합되거나 생략될 수도 있다.
음성 데이터로부터 제1 특징 표현을 추출하는 단계(S100)는 제1 사전 학습부(1000)에 의해 수행될 수 있다. 구체적으로, 데이터 처리부(1100)가 입력받은 학습 음성 데이터를 주파수 영역인 스펙트럼 데이터로 변환할 수 있다. 데이터 차폐부(1200)는 스펙트럼 데이터를 마스킹하여 마스킹된 스펙트럼 데이터를 생성할 수 있다. 제1 딥러닝 네트워크부(1300)는 마스킹된 스펙트럼 데이터의 마스킹부분을 예측하도록 제1 인공지능 모델을 학습시킬 수 있다. 제1 오차 측정부(1400)는 제1 인공지능 모델의 학습을 위해, 제1 인공지능 모델의 결과 데이터와 마스킹되지 않은 원래의 스펙트럼 데이터 사이의 오차를 측정할 수 있다. 단계 S100에 대한 구체적인 내용은 도 6 내지 도 11을 참조하여 설명한다.
제1 특징 표현을 이용하여 제2 특징 표현을 추출하는 단계(S200)는 제2 사전 학습부(2000)에 의해 수행될 수 있다. 구체적으로, 데이터 레이블링부(2100)가 제1 특징 표현으로부터 긍정 샘플 및 부정 샘플을 설정 및/또는 생성할 수 있다. 제2 딥러닝 네트워크부(2200)는 제2 특징 표현의 기준 시점보다 미래인 시점의 데이터를 예측하도록 제2 인공지능 모델을 학습시킬 수 있다. 제2 오차 측정부(2300)는 제2 인공지능 모델의 학습을 위해, 제2 인공지능 모델의 결과 데이터와 긍정 샘플 및 부정 샘플 사이의 오차를 측정할 수 있다. 단계 S200에 대한 구체적인 내용은 도 12 및 도 13을 참조하여 설명한다.
제2 특징 표현을 이용하여 예측 텍스트를 추출하는 단계(S300)는 음성 인식부(3000)에 의해 수행될 수 있다. 구체적으로, 제3 딥러닝 네트워크부(3100)는 제2 특징 표현을 텍스트로 예측하도록 제3 인공지능 모델을 학습시킬 수 있다. 제3 오차 측정부(3200)는 제3 인공지능 모델의 학습을 위해, 제3 인공지능 모델의 결과 데이터와 정답 텍스트 사이의 오차를 측정할 수 있다. 결과 측정부(3300)는 학습된 제3 인공지능 모델을 이용하여 제2 특징 표현으로부터 예측 데이터를 추출할 수 있다. 단계 S300에 대한 구체적인 내용은 도 15 및 도 16을 참조하여 설명한다.
도 6은 일 실시예에 따른 제1 사전 학습부의 인공지능 학습 및 특징 표현 추출 방법의 순서도이다.
도 6을 참조하면, 일 실시예에 따른 제1 사전 학습부(1000)의 인공지능 학습 및 특징 표현 추출 방법은 학습 음성 데이터를 스펙트럼 데이터로 변환하는 단계(S110), 스펙트럼 데이터를 마스킹하는 단계(S120), 제1 인공지능 모델을 학습시키는 단계(S130), 제1 인공지능 모델의 오차를 산출하는 단계(S140), 오차를 제1 임계값과 비교하는 단계(S150) 및 제1 인공지능 모델을 이용하여 제1 특징 표현을 추출하는 단계(S160)를 포함할 수 있다. 도 6에는 단계 S110 내지 단계 S160이 순서대로 수행되는 것이 도시되었으나, 이에 한정되지 않고 각 단계 사이에 다른 단계가 추가될 수 있다. 또는 각 단계가 다른 단계와 병합되거나 생략될 수도 있다.
방법은 학습 음성 데이터를 스펙트럼 데이터로 변환하는 단계(S110)는 데이터 처리부(1100)가 입력받은 학습 음성 데이터를 주파수 영역의 스펙트럼 데이터로 변환하는 단계일 수 있다. 예를 들어, 데이터 처리부(1100)는 Mel-filter Bank를 이용하여 학습 음성 데이터를 주파수 영역인 스펙트럼 데이터로 변환할 수 있으나, 이에 한정되지 않는다. 스펙트럼 데이터는 도 9(a)의 데이터와 같이 시간-주파수 좌표 상에 주파수의 세기를 나타내는 데이터일 수 있다.
스펙트럼 데이터를 마스킹하는 단계(S120)는 데이터 차폐부(1200)가 스펙트럼 데이터의 일부 데이터를 삭제하거나, 일 영역의 데이터를 다른 영역의 데이터로 대체하거나, 노이즈를 추가함으로써 스펙트럼 데이터를 마스킹(masking)하는 단계일 수 있다. 도 7 내지 도 9를 참조하여 이하에서 자세히 설명한다.
도 7 내지 도 9는 제1 사전 학습부의 학습 음성 데이터 마스킹을 설명하기 위한 도면이다.
도 7을 참조하면, 데이터 차폐부(1200)는 A 내지 K로 표현된 데이터들 중 일부 데이터(C, F, G, I)를 삭제할 수 있다. 데이터 차폐부(1200)는 데이터 중 일부의 값을 0으로 하여 스펙트럼 데이터를 마스킹할 수 있다. 이때, 마스킹된 일부 데이터는 주파수 대역 중 일부 주파수에 대응될 수 있다.
도 8을 참조하면, 데이터 차폐부(1200)는 스펙트럼 데이터에 대해 일정 비율로 마스킹할 수 있다. 구체적으로, 데이터 차폐부(1200)는 도 8과 같이 원래 스펙트럼 데이터의 80%에 해당하는 데이터의 값을 삭제하여 0으로 설정하고, 10%에 해당하는 데이터를 다른 영역의 데이터로 대체하고, 나머지 10%는 그대로 유지함으로써 스펙트럼 데이터의 마스킹을 수행할 수 있다. 그러나, 도 8의 수치에 한정되지 않고 마스킹을 수행하는 데이터의 비율은 경우에 따라 상이할 수 있다.
도 9는 Mel-filter Bank를 거친 주파수 영역의 스펙트럼 데이터를 시각적으로 나타낸 것이다. 도 9(a)는 마스킹되지 않은 스펙트럼 데이터를 나타낸 도면이고, 도 9(b)는 일 주파수 영역의 데이터를 삭제함으로써 마스킹된 스펙트럼 데이터를 나타낸 도면이고, 도 9(c)는 일 시간 영역의 데이터를 삭제함으로써 마스킹된 스펙트럼 데이터를 나타낸 도면이고, 도 9(d)는 노이즈를 추가함으로써 마스킹된 스펙트럼 데이터를 나타낸 도면이고, 도 9(e)는 일 영역의 데이터가 다른 영역의 데이터로 대체됨으로써 마스킹된 스펙트럼 데이터를 나타낸 도면이고, 도 9(f)는 도 9(b) 내지 도 9(e)의 마스킹이 모두 합산된 마스킹된 스펙트럼 데이터를 나타낸 도면이다.
도 9(b) 내지 도 9(f)와 같이, 데이터 차폐부(1200)는 가로 축 또는 세로 축을 기준으로 일 영역의 데이터를 삭제하거나, 가우시안 노이즈를 추가하거나, 다른 영역의 데이터를 대체하거나 이들 모두를 조합함으로써 스펙트럼 데이터를 마스킹할 수 있다.
다시 도 6을 참조하면, 제1 인공지능 모델을 학습시키는 단계(S130)는 제1 딥러닝 네트워크부(1300)가 마스킹된 스펙트럼 데이터를 제1 인공지능 모델에 입력시킴으로써 제1 인공지능 모델이 마스킹된 부분을 예측할 수 있도록 학습시키는 단계일 수 있다.
제1 인공지능 모델의 오차를 산출하는 단계(S140)는 제1 오차 측정부(1400)가 제1 인공지능 모델의 결과 데이터와 마스킹되지 않은 스펙트럼 데이터 사이의 오차를 산출하는 단계일 수 있다.
오차를 제1 임계값과 비교하는 단계(S150)는 제1 오차 측정부(1400)가 산출한 오차가 줄어드는 방향으로 제1 인공지능 모델이 학습될 수 있도록, 제1 임계값과 비교하는 단계일 수 있다. 오차가 제1 임계값보다 크거나 같으면 단계 S130이 다시 수행되어 제1 인공지능 모델이 재학습될 수 있다. 오차가 제1 임계값보다 작으면 제1 인공지능 모델의 학습이 완료된 것으로 판단되어, 제1 인공지능 모델을 이용하여 제1 특징 표현을 추출(S160)할 수 있다. 이때, 제1 특징 표현은 음성 데이터의 속성을 나타내는 벡터일 수 있으나, 이에 한정되지 않는다.
제1 사전 학습부(1000)는 단계 S160 이후에 추출한 제1 특징 표현을 제2 사전 학습부(2000)로 전달하는 단계를 더 포함할 수 있다.
도 10은 제1 인공지능 모델의 학습 및 예측을 설명하기 위한 도면이다.
도 10을 참조하면, 제1 인공지능 모델은 데이터 차폐부(1200)에 의해 마스킹된 스펙트럼 데이터에 기초하여 학습될 수 있다. 학습된 제1 인공지능 모델은 마스킹된 입력 데이터가 입력되면 마스킹된 부분을 예측할 수 있다. 제1 인공지능 모델은 최종적으로 마스킹된 부분을 예측하여 제1 특징 표현을 추출할 수 있다.
도 11은 제1 사전 학습부의 오차 산출 과정을 설명하기 위한 도면이다.
도 11을 참조하면, 제1 사전 학습부(1000)의 제1 인공지능 모델은 마스킹된 스펙트럼 데이터(Masked Speech Frames)를 입력받고, 마스킹된 부분을 예측하여 결과 데이터(Predicted Features)를 출력할 수 있다. 제1 사전 학습부(1000)의 제1 오차 측정부(1400)는 결과 데이터(Predicted Features)와 마스킹되지 않은 스펙트럼 데이터(Original Speech Features) 사이의 오차를 측정할 수 있다. 측정된 오차를 이용하여 제1 딥러닝 네트워크부(1300)는 제1 인공지능 모델을 학습시킬 수 있다.
도 12는 일 실시예에 따른 제2 사전 학습부의 인공지능 학습 및 특징 표현 추출 방법의 순서도이다.
도 12를 참조하면, 일 실시예에 따른 제2 사전 학습부(2000)의 인공지능 학습 및 특징 표현 추출 방법은 제1 특징 표현의 기준 시점을 설정하는 단계(S210), 상호 의존 정보를 생성하는 단계(S220), 긍정 샘플 및 부정 샘플을 생성하는 단계(S230), 상호 의존 정보를 이용하여 미래 시점의 데이터를 예측하는 단계(S240), 미래 시점의 데이터와 샘플들 사이의 오차를 산출하는 단계(S250), 오차가 제2 임계값보다 작은지 여부를 판단하는 단계(S260) 및 제2 특징 표현을 추출하는 단계(S270)를 포함할 수 있다. 도 12에는 단계 S210 내지 단계 S270이 순서대로 수행되는 것이 도시되었으나, 이에 한정되지 않고 각 단계 사이에 다른 단계가 추가될 수 있다. 또는 각 단계가 다른 단계와 병합되거나 생략될 수도 있다.
제1 특징 표현의 기준 시점을 설정하는 단계(S210)는 제1 사전 학습부(1000)에서 추출된 제1 특징 표현을 이용하여 제2 인공지능 모델을 학습시키기 위한 기준 시점을 설정하는 단계일 수 있다. 단계 S210 이전에 제2 사전 학습부(2000)가 제1 사전 학습부(1000)로부터 제1 특징 표현을 수신 또는 획득하는 단계가 수행될 수도 있다. 기준 시점에 대해서는 도 13을 참조하여 자세히 설명한다.
도 13은 제2 인공지능 모델의 학습 및 예측을 설명하기 위한 도면이다.
도 13을 참조하면, 제1 사전 학습부(1000)로부터 획득한 제1 특징 표현은 시간에 따른 데이터를 포함할 수 있다. 데이터 레이블링부(2100)는 제1 특징 표현에 대해 기준 시점(15)을 설정할 수 있다. 기준 시점을 기준으로 제2 인공지능 모델은 기준 시점보다 과거 시점의 데이터에 대한 상호 의존 정보를 추출하고, 추출한 상호 의존 정보에 기초하여 기준 시점보다 미래 시점의 데이터를 예측하게 된다.
상호 의존 정보를 생성하는 단계(S220)는 제2 딥러닝 네트워크부(2200)가 제1 특징 표현에서 기준 시점보다 과거 시점의 데이터를 제2 인공지능 모델에 입력하여 상호 의존 정보를 생성하는 단계일 수 있다. 이때, 상호 의존 정보는 과거 시점의 데이터들의 문맥 정보를 포함할 수 있다. 구체적으로, 상호 의존 정보는 제1 과거 시점(12)의 데이터에 기초하여 생성된 제1 문맥 정보(22), 제2 과거 시점(13)의 데이터에 기초하여 생성된 제2 문맥 정보(23), 제3 과거 시점(14)의 데이터에 기초하여 생성된 제3 문맥 정보(24) 및 기준 시점(15)의 데이터에 기초하여 생성된 제4 문맥 정보(25)를 포함할 수 있다.
긍정 샘플 및 부정 샘플을 생성하는 단계(S230)는 데이터 레이블링부(2100)가 기준 시점보다 미래 시점의 특징 표현 데이터에 기초하여 제2 인공지능 모델의 학습을 위한 긍정 샘플 및 부정 샘플을 생성하는 단계일 수 있다. 예를 들어, 제1 특징 표현이 '안녕하세요'에 관한 것이고, '하'에 대응되는 시점을 기준 시점인 경우, 데이터 레이블링부(2100)는 기준 시점보다 미래 시점에 대응되는 '세요'에 대한 긍정 샘플 및 부정 샘플을 생성할 수 있다. 구체적인 예를 들어, 데이터 레이블링부(2100)는 긍정 샘플을'세요'로 설정하고, 부정 샘플을 '시요', '스요', '수요' 등으로 설정할 수 있다. 단계 S220과 단계 S230의 순서는 변경될 수도 있고, 두 단계가 동시에 수행될 수도 있다.
상호 의존 정보를 이용하여 미래 시점의 데이터를 예측하는 단계(S240)는 제2 딥러닝 네트워크부(2200)가 상호 의존 정보 및 제1 특징 표현을 이용하여 제2 인공지능 모델을 통해 기준 시점보다 미래 시점의 데이터를 추출하는 단계일 수 있다.
미래 시점의 데이터와 샘플들 사이의 오차를 산출하는 단계(S250)는 제2 오차 측정부(2300)가 제2 인공지능 모델의 결과 데이터와 긍정 샘플 및 부정 샘플 사이의 오차를 산출하는 단계일 수 있다.
오차가 제2 임계값보다 작은지 여부를 판단하는 단계(S260)는 제2 오차 측정부(2300)가 산출하는 오차가 줄어드는 방향으로 제2 인공지능 모델이 학습될 수 있도록, 오차를 제2 임계값과 비교하는 단계일 수 있다. 오차가 제2 임계값보다 크거나 같으면 단계 S240이 다시 수행되어 제2 인공지능 모델이 재학습될 수 있다. 오차가 제2 임계값보다 작으면 제2 인공지능 모델의 학습이 완료된 것으로 판단되어, 제2 인공지능 모델을 이용하여 제2 특징 표현을 추출(S270)할 수 있다. 이때, 제2 특징 표현은 음성 데이터의 속성을 나타내는 벡터일 수 있으나, 이에 한정되지 않는다.
제2 사전 학습부(2000)는 단계 S270 이후에 추출한 제2 특징 표현을 음성 인식부(3000)로 전달하는 단계를 더 포함할 수 있다.
도 14는 제1 사전 학습부 및 제2 사전 학습부에 의해 수행되는 2단계 사전 학습을 설명하기 위한 도면이다.
도 14를 참조하면, 일 실시예에 따른 음성 인식 장치는 텍스트를 이용하지 않은 사전 학습을 2단계로 수행할 수 있다. 구체적으로, 음성 인식 장치는 제1 사전 학습부(1000)에 의해 수행되는 1단계 사전 학습(1001) 및 제2 사전 학습부(2000)에 의해 수행되는 2단계 사전 학습(2001)을 수행할 수 있다.
1단계 사전 학습(1001)은 마스킹된 데이터를 생성 및 이용하여 마스킹된 부분을 예측하도록 학습된 제1 인공지능 모델에 의해 결과적으로 제1 특징 표현을 추출하는 학습일 수 있다. 2단계 사전 학습(2001)은 과거 시점의 상호 의존 정보에 기초하여 미래 시점의 데이터를 예측하도록 학습된 제2 인공지능 모델에 의해 결과적으로 제2 특징 표현을 추출하는 학습일 수 있다.
본원 발명의 음성 인식 장치는 2단계의 사전 학습을 통해 음성 인식의 정확도 및 효율성을 향상시킬 수 있다. 또한, 본원 발명은 비 지도 학습 기반으로, 종래의 지도 학습에서의 학습 데이터 생성에 대한 자원 문제를 해결할 수 있다.
도 15는 일 실시예에 따른 음성 인식부의 인공지능 모델 학습 및 음성 인식 방법의 순서도이다.
도 15를 참조하면, 일 실시예에 따른 음성 인식부(3000)의 인공지능 모델 학습 및 음성 인식 방법은 제2 특징 표현 및 정답 텍스트를 이용하여 제3 인공지능 모델을 학습시키는 단계(S310), 제3 인공지능 모델의 출력 데이터와 정답 텍스트의 오차를 산출하는 단계(S320), 오차가 제3 임계값보다 작은지 여부를 판단하는 단계(S330) 및 제3 인공지능 모델을 이용하여 예측 텍스트를 출력하는 단계(S340)를 포함할 수 있다.
제2 특징 표현 및 정답 텍스트를 이용하여 제3 인공지능 모델을 학습시키는 단계(S310)는 제3 딥러닝 네트워크부(3100)가 제2 특징 표현 및 정답 텍스트를 제3 인공지능 모델에 입력하여 제3 인공지능 모델이 제2 특징 표현의 텍스트를 예측하도록 학습시키는 단계일 수 있다. 2단계 사전 학습과 달리 음성 인식부(3000)는 텍스트를 이용하여 제3 인공지능 모델을 학습시킬 수 있다.
제3 인공지능 모델의 출력 데이터와 정답 텍스트의 오차를 산출하는 단계(S320)는 제3 오차 측정부(3200)가 제3 인공지능 모델의 결과 데이터와 정답 텍스트 사이의 오차를 산출하는 단계일 수 있다.
오차가 제3 임계값보다 작은지 여부를 판단하는 단계(S330)는 제3 오차 측정부(3200)가 산출하는 오차가 줄어드는 방향으로 제3 인공지능 모델이 학습될 수 있도록, 오차를 제3 임계값과 비교하는 단계일 수 있다. 오차가 제3 임계값보다 크거나 같으면 단계 S310이 다시 수행되어 제3 인공지능 모델이 재학습될 수 있다. 오차가 제3 임계값보다 작으면 제3 인공지능 모델의 학습이 완료된 것으로 판단되어, 제3 인공지능 모델을 이용하여 예측 텍스트를 출력(S340)할 수 있다. 이때, 예측 텍스트는 제3 인공지능 모델에 입력된 제2 특징 표현이 문자화된 결과 데이터일 수 있다.
도 16은 제3 인공지능 모델의 학습 및 예측을 설명하기 위한 도면이다.
도 16을 참조하면, 제3 인공지능 모델에 2단계 사전 학습된 특징 표현(100)이 입력될 수 있다. 예를 들어, 제3 인공지능 모델에 제2 사전 학습부(2000)에서 추출된 제2 특징 표현이 입력될 수 있다. 학습된 제3 인공지능 모델은 양방향 LSTM(Bi-LSTM) 및 셀프 어텐션(Self-Attention)을 거쳐 제2 특징 표현에 대한 예측 텍스트를 출력할 수 있다. 구체적으로, 제3 인공지능 모델은 선형화(Linear) 및 소프트맥스(Softmax) 함수를 이용하여 예측 텍스트를 출력할 수 있다.
음성 인식부(3000)는 제1 사전 학습부(1000) 및 제2 사전 학습부(2000)에 의해 텍스트 없이 수행된 2단계 사전 학습의 결과인 제2 특징 표현을 획득하고, 이로부터 제3 인공지능 모델을 이용하여 예측 텍스트를 추출할 수 있다. 본원 발명의 음성 인식 장치는 정답이 없는 비전사 음성 데이터를 이용하여 2단계 사전 학습을 수행하고, 이를 기반으로 지속적으로 확장이 가능한 음성 인식 시스템을 포함할 수 있다. 따라서, 본원 발명의 음성 인식 장치는 학습의 효율성을 증가시킬 수 있고, 학습 데이터 생성을 위해 많은 인력과 비용이 소요되는 문제를 해결할 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (11)

  1. 제1 인공지능 모델을 이용하여 학습 음성 데이터로부터 제1 특징 표현을 추출하는 제1 사전 학습부;
    제2 인공지능 모델을 이용하여 상기 제1 특징 표현으로부터 제2 특징 표현을 추출하는 제2 사전 학습부; 및
    제3 인공지능 모델을 이용하여 상기 제2 특징 표현으로부터 예측 텍스트를 추출하는 음성 인식부를 포함하는
    음성 인식 장치.
  2. 제1항에 있어서,
    상기 제1 사전 학습부는 상기 학습 음성 데이터를 마스킹한 데이터를 이용하여 상기 제1 인공지능 모델을 학습시키고,
    상기 제2 사전 학습부는 상기 제1 특징 표현의 상호 의존 정보를 이용하여 제2 인공지능 모델을 학습시키는
    음성 인식 장치.
  3. 제1항에 있어서,
    상기 제1 사전 학습부는,
    상기 학습 음성 데이터를 주파수 영역인 스펙트럼 데이터로 변환하는 데이터 처리부;
    상기 스펙트럼 데이터를 마스킹(masking)하는 데이터 차폐부;
    마스킹된 스펙트럼 데이터를 상기 제1 인공지능 모델에 입력시키는 제1 딥러닝 네트워크부; 및
    상기 제1 인공지능 모델의 학습을 위해, 상기 제1 인공지능 모델의 출력 데이터와 상기 스펙트럼 데이터의 오차를 산출하는 제1 오차 측정부를 포함하는
    음성 인식 장치.
  4. 제3항에 있어서,
    상기 데이터 차폐부는 상기 스펙트럼 데이터의 제1 주파수 구간의 값을 0으로 하거나, 제1 시간 구간의 값을 0으로 하거나, 노이즈를 추가하거나, 제2 시간 구간의 값을 제3 시간 구간의 값으로 대체함으로써 마스킹을 수행하는
    음성 인식 장치.
  5. 제3항에 있어서,
    상기 제1 오차 측정부는,
    상기 제1 인공지능 모델의 출력 데이터와 상기 스펙트럼 데이터의 차이값의 크기를 합하거나, 상기 제1 인공지능 모델의 출력 데이터와 상기 스펙트럼 데이터의 차이값을 제곱한 값을 합하여 오차를 산출하는
    음성 인식 장치.
  6. 제1항에 있어서,
    상기 제2 사전 학습부는,
    상기 제1 사전 학습부로부터 상기 제1 특징 표현을 획득하고, 상기 제1 특징 표현을 이용하여 긍정 샘플 및 부정 샘플을 생성하는 데이터 레이블링부;
    상기 제1 특징 표현으로부터 상호 의존 정보를 추출하는 제2 딥러닝 네트워크부; 및
    상기 제2 인공지능 모델의 학습을 위해, 상기 제2 인공지능 모델의 출력 데이터와 상기 긍정 샘플 및 상기 부정 샘플의 오차를 산출하는 제2 오차 측정부를 포함하는
    음성 인식 장치.
  7. 제6항에 있어서,
    상기 상호 의존 정보는,
    상기 제1 특징 표현에 포함된 제1 시점의 제1 데이터에 기초하여 생성된 제1 문맥 정보 및 상기 제2 특징 표현에 포함된 제2 시점의 제2 데이터에 기초하여 생성된 제2 문맥 정보를 포함하는
    음성 인식 장치.
  8. 제6항에 있어서,
    상기 제2 오차 측정부는,
    상기 제2 인공지능 모델의 출력 데이터 중 기준 시점보다 미래 시점의 데이터와 상기 긍정 샘플 및 상기 부정 샘플 사이의 차이를 산출하는
    음성 인식 장치.
  9. 제1항에 있어서,
    상기 음성 인식부는,
    상기 제2 특징 표현 및 정답 텍스트를 이용하여 상기 제3 인공지능 모델을 학습시키는 제3 딥러닝 네트워크부를 포함하는
    음성 인식 장치.
  10. 적어도 하나 이상의 프로세서에 의해 수행되는 음성 인식 방법에 있어서,
    마스킹된 데이터의 마스킹 부분을 예측하도록 학습된 제1 인공지능 모델을 이용하여 학습 음성 데이터로부터 제1 특징 표현을 추출하는 단계;
    상호 의존 정보를 이용하여 정답을 예측하도록 학습된 제2 인공지능 모델을 이용하여 상기 제1 특징 표현으로부터 제2 특징 표현을 추출하는 단계;
    제3 인공지능 모델을 이용하여 상기 제2 특징 표현으로부터 예측 음성 데이터를 획득하는 단계; 및
    상기 예측 음성 데이터를 이용하여 예측 텍스트를 추출하는 단계를 포함하는
    음성 인식 방법.
  11. 제10항에 기재된 음성 인식 방법을 실행하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 비일시적 기록 매체.
PCT/KR2023/013475 2022-09-28 2023-09-08 2단계 사전 학습 기반의 인공지능을 이용한 음성 인식 장치 WO2024071729A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20220123604 2022-09-28
KR10-2022-0123604 2022-09-28
KR10-2023-0017097 2023-02-09
KR1020230017097A KR20240044303A (ko) 2022-09-28 2023-02-09 2단계 사전 학습 기반의 인공지능을 이용한 음성 인식 장치

Publications (1)

Publication Number Publication Date
WO2024071729A1 true WO2024071729A1 (ko) 2024-04-04

Family

ID=90478370

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/013475 WO2024071729A1 (ko) 2022-09-28 2023-09-08 2단계 사전 학습 기반의 인공지능을 이용한 음성 인식 장치

Country Status (1)

Country Link
WO (1) WO2024071729A1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170050029A (ko) * 2015-10-29 2017-05-11 삼성에스디에스 주식회사 음성 인식 시스템 및 방법
KR20200126675A (ko) * 2019-04-30 2020-11-09 삼성전자주식회사 전자 장치 및 이의 제어 방법
KR20210087099A (ko) * 2020-04-24 2021-07-09 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 지리적 위치를 검색하기 위한 유사도 모델 구축 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 제품
KR20220011065A (ko) * 2020-07-20 2022-01-27 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 음성 인식 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170050029A (ko) * 2015-10-29 2017-05-11 삼성에스디에스 주식회사 음성 인식 시스템 및 방법
KR20200126675A (ko) * 2019-04-30 2020-11-09 삼성전자주식회사 전자 장치 및 이의 제어 방법
KR20210087099A (ko) * 2020-04-24 2021-07-09 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 지리적 위치를 검색하기 위한 유사도 모델 구축 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 제품
KR20220011065A (ko) * 2020-07-20 2022-01-27 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 음성 인식 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JUNE-WOO KIM․HO-YOUNG JUNG*: "End-to-end speech recognition models using limited training data", PHONETICS AND SPEECH SCIENCES, KOREA, vol. 12, no. 4, 1 January 2020 (2020-01-01), Korea, pages 63 - 71, XP009553581, ISSN: 2005-8063 *

Similar Documents

Publication Publication Date Title
WO2020034526A1 (zh) 保险录音的质检方法、装置、设备和计算机存储介质
WO2019098414A1 (ko) 약한 지도 학습에 기초한 뉴럴 네트워크의 계층적 학습 방법 및 장치
WO2018212494A1 (ko) 객체를 식별하는 방법 및 디바이스
WO2020204525A1 (ko) 잡음 환경에 강인한 화자 인식을 위한 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치
WO2019004592A1 (ko) 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법
WO2018135723A1 (ko) 복수 문단 텍스트의 추상적 요약문 생성 장치 및 방법, 그 방법을 수행하기 위한 기록 매체
WO2020213842A1 (en) Multi-model structures for classification and intent determination
WO2014106979A1 (ko) 통계적 음성 언어 이해 방법
WO2022146050A1 (ko) 우울증 진단을 위한 인공지능 연합학습 방법 및 시스템
WO2021246742A1 (ko) 인공지능 기반의 프로그램 코드 평가 시스템 및 방법
WO2023287064A1 (ko) 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템
WO2019172734A2 (ko) 데이터 마이닝 장치, 이를 이용하는 음성인식 방법 및 시스템
WO2021010744A1 (ko) 음성 인식 기반의 세일즈 대화 분석 방법 및 장치
WO2020159140A1 (ko) 전자 장치 및 이의 제어 방법
WO2018212584A2 (ko) 딥 뉴럴 네트워크를 이용하여 문장이 속하는 클래스를 분류하는 방법 및 장치
WO2021118072A1 (ko) 음성 및 영상 정보를 활용한 의미있는 구간을 검출하기 위한 방법 및 이를 위한 장치
WO2021251539A1 (ko) 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치
CN112331207B (zh) 服务内容监控方法、装置、电子设备和存储介质
WO2020213785A1 (ko) 발화 패턴의 무한성 개선을 위한 딥러닝 기반의 텍스트 문장 자동 생성시스템
CN111489746A (zh) 一种基于bert的电网调度语音识别语言模型构建方法
WO2022075714A1 (ko) 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체
WO2024071729A1 (ko) 2단계 사전 학습 기반의 인공지능을 이용한 음성 인식 장치
WO2021054613A1 (en) Electronic device and method for controlling the electronic device thereof
CN112309398B (zh) 工作时长监控方法、装置、电子设备和存储介质
WO2023158226A1 (ko) 적대적 학습 기법을 이용한 음성 합성 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23872849

Country of ref document: EP

Kind code of ref document: A1