WO2015102127A1 - 음성 인식 시스템 및 방법 - Google Patents

음성 인식 시스템 및 방법 Download PDF

Info

Publication number
WO2015102127A1
WO2015102127A1 PCT/KR2013/012415 KR2013012415W WO2015102127A1 WO 2015102127 A1 WO2015102127 A1 WO 2015102127A1 KR 2013012415 W KR2013012415 W KR 2013012415W WO 2015102127 A1 WO2015102127 A1 WO 2015102127A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
voice data
user voice
acoustic model
reliability
Prior art date
Application number
PCT/KR2013/012415
Other languages
English (en)
French (fr)
Inventor
윤환식
정규준
이청안
이수영
김호경
김유진
Original Assignee
엘지전자 주식회사
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사, 한국과학기술원 filed Critical 엘지전자 주식회사
Priority to PCT/KR2013/012415 priority Critical patent/WO2015102127A1/ko
Publication of WO2015102127A1 publication Critical patent/WO2015102127A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation

Definitions

  • the present invention relates to speech recognition, and more particularly, to a speech recognition system and method for gradually improving speech recognition performance.
  • Speech recognition technology is continuously improving recognition performance due to faster processor, increased memory, parallel processing, and increased speech language resources.
  • voice recognition systems are mounted on various hardware platforms such as small portable terminals or home appliances from server-class computers.
  • Speech recognition is a technology in which a computer listens to and executes a human voice, not a mechanical operation such as a keyboard or a mouse.
  • Speech recognition is often called the most intuitive user interface. It is due to the physical characteristics of human beings that have evolved to be most natural in expressing ideas rather than using hands or bodies. Many existing interfaces, such as keyboards and mice, have to go through the process of translating a thought into a document language or into a predefined computer-readable command before expressing the thought directly. It also requires effort.
  • Speech recognition technology minimizes these additional efforts and opens the way for humans to focus on more essential and creative thinking.
  • the voice recognition system recognizes input user voice data, performs automatic labeling on the recognized user voice data, and firstly selects some of the user voice data having label information. Selecting and outputting the labeling unit, the first data selection unit for selecting and outputting a second portion of the user voice data that is primarily selected from the labeling unit and outputs, selects a portion of the seed data previously used for learning acoustic models Acoustic model learning to train an acoustic model using a second data selector to output, user voice data selected and outputted second by the first data selector, and seed data selected and output by the second data selector In one embodiment, it includes a part.
  • the labeling unit calculates a reliability of the user voice data having the label information and first selects a part of the user voice data having the label information based on the calculated reliability.
  • the first data selector calculates a reliability using label information of user voice data selected and output from the labeling unit, and based on the calculated reliability, N user speech data is secondary to N (where N is greater than 1).
  • the selection is one embodiment.
  • the storage device may further include a storage configured to store the seed data, and the seed data stored in the storage may be updated by data used for acoustic model training in the acoustic model learner.
  • the second data selector calculates reliability using label information of seed data stored in the storage unit and selects M seed data (where M is greater than 1) based on the calculated reliability. do.
  • the sum of the number of user voice data selected by the first data selector and the number of seed data selected by the second data selector is equal to the number of seed data stored in the storage.
  • a voice recognition method recognizes input user voice data, performs automatic labeling on the recognized user voice data, and outputs user voice data having label information, among user voice data having the label information. Selecting a portion as a primary, selecting a portion of the firstly selected user voice data as a second, selecting a portion of the seed data previously used for acoustic model training, and selecting the secondly selected user voice data; According to an embodiment of the present disclosure, the method may include learning an acoustic model using the selected seed data.
  • the reliability of the user voice data including the label information is calculated, and a part of the user voice data including the label information is first selected based on the calculated reliability.
  • the second selecting step includes calculating the reliability using label information of the first selected user's voice data, and selecting N user voice data secondly based on the calculated reliability. It is set as an Example.
  • the second selecting step may further include applying and outputting a weight factor to the user voice data selected second.
  • the seed data is stored in a storage unit, and the seed data stored in the storage unit is updated with data used for learning the acoustic model.
  • the seed data selection step may include calculating reliability using label information of seed data stored in the storage unit, and selecting M seed data (where M is greater than 1) based on the calculated reliability. do.
  • the sum of the number of the second user's voice data and the number of the selected seed data is equal to the number of seed data stored in the storage unit.
  • the present invention has an effect of gradually improving the speech recognition performance by re-learning the acoustic model using both the seed data and the user's voice data used for the acoustic model training.
  • the present invention can automatically relearn the acoustic model when a certain amount of user voice data is collected, thereby reducing the time for learning the acoustic model with the effect of gradually improving the speech recognition performance.
  • the present invention can automatically relearn the acoustic model when a certain amount of user voice data is collected, thereby reducing the time for learning the acoustic model with the effect of gradually improving the speech recognition performance.
  • by selecting some of the user's voice data and some of the existing data used in the acoustic model training to use the acoustic model training it is possible to maintain the total amount of data to maintain a constant time required for each training.
  • FIG. 1 is a block diagram showing an embodiment of a speech recognition apparatus according to the present invention
  • FIG. 2 is a flowchart showing an embodiment of a speech recognition method according to the present invention.
  • Embodiments according to the inventive concept may be variously modified and may have various forms, and specific embodiments will be illustrated in the drawings and described in detail herein. However, this is not intended to limit the embodiments in accordance with the concept of the present invention to a particular disclosed form, it should be understood to include all changes, equivalents, and substitutes included in the spirit and scope of the present invention.
  • first and / or second may be used to describe various components, but the components should not be limited by the terms.
  • the terms are used only for the purpose of distinguishing one component from another, for example, without departing from the scope of rights in accordance with the inventive concept, and the first component may be called a second component and similarly The second component may also be referred to as the first component.
  • the recording performance of the speech data used for learning the acoustic model is different from the actual usage environment, which causes a decrease in recognition performance.
  • the user's voice data is used for acoustic model training.
  • the present invention is to re-learn the acoustic model automatically when a certain amount of user voice data is collected. The more data you collect, the better the performance, but it takes longer to learn the acoustic model.
  • the present invention also selects a part from the user's voice data to improve this, and select a part from the seed data (Seed data) used in the conventional acoustic model training to use in the acoustic model training as an embodiment. Therefore, the present invention maintains the total amount of data through data selection, so that the time required for learning the acoustic model every time can be kept constant.
  • FIG. 1 is a block diagram showing an embodiment of a speech recognition system according to the present invention.
  • the automatic labeling unit 100, the first data selection unit 110, the storage unit 120, and the second data are shown in FIG.
  • the selection unit 130, the data output unit 140, and the acoustic model learner 150 are included.
  • the automatic labeling unit 100 recognizes user voice data and performs labeling on the recognized user voice data, and a confidence measure of the user voice data recognized by the voice recognition unit 101.
  • the present invention includes a reliability measurer 102 that calculates) and a selector 103 that selects and outputs user voice data having high reliability based on the calculation result of the reliability measurer 102. .
  • the automatic labeling unit 100 automatically labels user voice data. That is, the present invention mechanically performs the labeling using the automatic labeling unit 100 rather than the labeling by a person. In other words, a labeling operation is required because text data on voice data uttered by a user is required for the acoustic model training, and the present invention performs labeling using the speech recognition result to automatically perform progressive learning.
  • the voice recognition unit 101 of the automatic labeling unit 100 recognizes user voice data spoken by a user and performs labeling on the recognized user voice data to measure reliability of user voice data having label information. Output to the unit 102.
  • the reliability measuring unit 102 calculates the reliability of the user voice data having the label information and outputs the reliability to the data selecting unit 103.
  • the data selecting unit 103 selects only the user voice data having high reliability and then learns the acoustic model. Output to the first data selector 110 for the purpose.
  • the voice data uttered by the user is labeled “Go to school”.
  • the candidate of the voice recognition unit 101 does not have “go to school” and “call me”
  • the user may say “call me” even though the user speaks “go to school”.
  • the reliability measuring unit 102 and the selecting unit 103 are added to select and output high reliability data.
  • the reliability measurer 102 and the selector 103 may use only the user voice data having a high probability of matching the user voice data uttered by the actual user among the user voice data with labels output from the voice recognition unit 101. Select and print. In other words, the reliability measurer 102 and the selector 103 perform a process of selecting and outputting only user voice data that has been properly labeled.
  • the first data selector 110 selects a part of the user's voice data output from the automatic labeling unit 100 to use for learning the acoustic model, and outputs it to the data output unit 140.
  • the second data selector 130 selects some of the seed data stored in the storage 120 to use the acoustic model for learning, and outputs the seed data to the data output unit 140. At this time, by maintaining the amount of data selected by the first data selector 110 and the second data selector 130 is constant, it is possible to maintain a constant time required for learning the acoustic model each time.
  • the first data selector 110 selects user voice data predicted to help improve the acoustic model performance and reflects the selected user voice data in the acoustic model training.
  • the first data selector 110 performs a confidence measure calculation for each utterance as shown in Equation 1 below. The data to be output is decided.
  • f k u is a feature vector for the k-th phoneme of the u-th voice, where the feature vector is suitable for recognition and learning of speech data.
  • Converted value ⁇ l means the acoustic model parameter for the l-th class. Therefore, h1 k is the probability value for the class most suitable for the k-th phoneme, and h2 k is the probability value for the second class most suitable for the k-th phoneme.
  • Equation 1 the sum of the absolute values of the Jcs u values of each phoneme belonging to one utterance is obtained to determine whether to select the utterance.
  • the data having a small value of Jcs u is a data having a high probability of recognition error, and when the data is reflected in the acoustic model training, the weak part of the existing acoustic model can be improved.
  • Equation 1 assumes that there is no label in the user voice data input to the first data selector 110, and calculates reliability by dividing the data with the label and the data without the label.
  • the data output to the first data selecting unit 110 is data having label information. Therefore, when selecting data, the first data selector 110 may use label information as shown in Equation 2 below.
  • Equation 2 e1 k is a probability value for the class most suitable for the k-th phoneme, and e2 k is a probability value for the second class suitable for the k-th phoneme. Since the k-th phoneme belongs to a class based on the label information, the method of obtaining e1 k is different from Equation 1 above, and the remaining equations are the same as Equation 1 above.
  • the second data selector 130 selects some of the seed data stored in the storage 120 and outputs the selected seed data to the acoustic model learner 150.
  • the data is gradually increased, and thus the present invention selects a certain number of data and uses the training for the next acoustic model.
  • the second data selector 130 also performs a process of selecting and outputting some of the data stored in the storage 120.
  • the second data selector 130 may also select data by applying Equation (1).
  • the data stored in the storage unit 120 is already used for learning the acoustic model, there is label information in each data.
  • the second data selector 130 may also select data by applying Equation 2 above.
  • the second data selector 130 selects TN seeds. Selecting data is an embodiment. T is the number of seed data stored in the storage unit 120.
  • the data selected by the first data selector 110 may be relatively small compared to the amount of existing data, and thus it may be difficult to influence the acoustic model learning.
  • the first data selector 110 applies a weighting factor so that characteristics of user voice data output from the first data selector 110 can be well reflected in the acoustic model. In one embodiment. At this time, at first, the weighting factor is increased and the weighting factor is reduced to have the same effect as the existing data as the iteration increases.
  • the user voice data selected by the first data selector 110 and the seed data selected by the second data selector 130 are synthesized by the data output unit 140 to form an acoustic model learner 150 and a storage 120. Will be printed).
  • the storage unit 120 updates previously stored seed data with data output from the data output unit 140.
  • the acoustic model learner 150 performs acoustic model learning using data output from the data output unit 140. In this case, the acoustic model learner 150 learns an initial acoustic model using seed data stored in the storage 120. After the initial acoustic model is trained, the user selects a part of the user's voice data and a part of the seed data until the acoustic model converges, trains the acoustic model, and updates the seed data with the data used to train the acoustic model. do.
  • the acoustic model learner 150 performs acoustic model learning by applying a discrete hidden markov model (dHMM) algorithm.
  • dHMM models the probability distribution of each phoneme as discrete values.
  • the HMM algorithm may be used instead of the dHMM algorithm.
  • the HMM is based on statistical pattern recognition and is a method in which a word unit search and a sentence unit search process are integrated into one optimization process.
  • the dHMM algorithm and the HMM algorithm are embodiments to aid understanding of the present invention, and any algorithm for learning an acoustic model may be used.
  • a method of calculating reliability in the automatic labeling unit 100, the first data selector 110, and the second data selector 130 may vary according to an algorithm used by the acoustic model learner 150. .
  • FIG. 2 is a flowchart illustrating an embodiment of a speech recognition method according to the present invention. That is, the user voice data uttered by the user is recognized, and the labeling operation is performed on the recognized user voice data (S201). The labeling operation calculates the reliability of the user's voice data with the label, and selects the user's voice data having the highest reliability among them (S202). The reliability may be calculated by applying Equation 1 and / or Equation 2.
  • step S202 the reliability of the user voice data selected first is calculated again, and a part of the user voice data selected first is selected second using the calculated reliability (S203).
  • the reliability is calculated for the seed data stored in the storage 120, and the partial seed data is selected using the calculated reliability (S205).
  • the acoustic model training is performed using the user voice data selected in step S203 and the seed data selected in step S205 (S206).
  • the data used for learning the acoustic model proceeds to step S204 to update the seed data stored in the storage unit 120.
  • the above steps are repeated until the acoustic model converges, and when the acoustic model converges, the acoustic model training process ends.
  • the case where the acoustic model does not converge in the acoustic model training process is an exception in the training process, and thus this process may be omitted.
  • the present invention can be applied to both a device and a terminal to which a voice recognition technology is applied.

Abstract

음성 인식 시스템 및 방법이 개시된다. 음성 인식 시스템은 입력되는 사용자 음성 데이터를 인식하고, 인식된 사용자 음성 데이터에 대해 자동 레이블링을 수행한 후 라벨 정보가 있는 사용자 음성 데이터 중 일부를 1차로 선택하여 출력하는 레이블링부, 상기 레이블링부에서 1차로 선택되어 출력되는 사용자 음성 데이터 중 일부를 2차로 선택하여 출력하는 제1 데이터 선택부, 이전에 음향 모델 학습에 이용되었던 시드 데이터의 일부를 선택하여 출력하는 제2 데이터 선택부, 및 상기 제1 데이터 선택부에서 2차로 선택되어 출력되는 사용자 음성 데이터와 상기 제2 데이터 선택부에서 선택되어 출력되는 시드 데이터를 이용하여 음향 모델을 학습하는 음향 모델 학습부를 포함할 수 있다.

Description

음성 인식 시스템 및 방법
본 발명은 음성 인식에 관한 것으로서, 더욱 상세하게는 음성 인식 성능을 점진적으로 향상시키는 음성 인식 시스템 및 방법에 관한 것이다.
음성 인식 기술은 프로세서의 고속화, 메모리 양의 증가, 병렬처리 기법, 음성언어 자원의 증가 등으로 인해 인식 성능이 지속적으로 향상되고 있다. 또, 음성 인식 시스템은 서버급 컴퓨터로부터 소형 휴대 단말기 또는 가전기기 등과 같이 다양한 하드웨어 플랫폼 상에 탑재가 되고 있다.
음성 인식이란 컴퓨터가 키보드나 마우스 등의 기계적인 조작이 아닌 인간의 음성을 듣고 실행을 하는 기술이다.
음성 인식은 흔히 가장 직관적인 사용자 인터페이스로 불린다. 생각을 표현함에 있어서 손이나 몸을 사용하는 것보다 목소리를 사용하는 것이 가장 자연스럽도록 진화된 인간의 신체적 특성에 기인함이다. 키보드나 마우스 등 기존의 많은 인터페이스들이 생각을 직접적으로 표현하기 이전에 문서용 언어로 혹은 미리 정의된 컴퓨터가 알 수 있는 명령으로 변환하는 과정을 거쳐야 하고 그것은 추가적인 사고과정과 더불어 기계에 익숙해지기 위한 추가적인 노력 또한 필요로 한다.
음성 인식 기술은 이러한 추가적인 노력을 최소로 줄이고 인간에게 보다 본질적이고 창의적인 사고에 집중할 수 있는 길을 열어 준다.
본 발명의 목적은 사용자의 음성 입력을 사용하여 음향 모델을 다시 학습함으로써, 음성 인식 성능을 점진적으로 향상시키는 음성 인식 시스템 및 방법을 제공함에 있다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 음성 인식 시스템은 입력되는 사용자 음성 데이터를 인식하고, 인식된 사용자 음성 데이터에 대해 자동 레이블링을 수행한 후 라벨 정보가 있는 사용자 음성 데이터 중 일부를 1차로 선택하여 출력하는 레이블링부, 상기 레이블링부에서 1차로 선택되어 출력되는 사용자 음성 데이터 중 일부를 2차로 선택하여 출력하는 제1 데이터 선택부, 이전에 음향 모델 학습에 이용되었던 시드 데이터의 일부를 선택하여 출력하는 제2 데이터 선택부, 및 상기 제1 데이터 선택부에서 2차로 선택되어 출력되는 사용자 음성 데이터와 상기 제2 데이터 선택부에서 선택되어 출력되는 시드 데이터를 이용하여 음향 모델을 학습하는 음향 모델 학습부를 포함하는 것을 일 실시예로 한다.
상기 레이블링부는 상기 라벨 정보가 있는 사용자 음성 데이터의 신뢰도를 계산하고, 계산된 신뢰도를 기반으로 상기 라벨 정보가 있는 사용자 음성 데이터의 일부를 1차로 선택하는 것을 일 실시예로 한다.
상기 제1 데이터 선택부는 상기 레이블링부에서 선택되어 출력되는 사용자 음성 데이터의 라벨 정보를 이용하여 신뢰도를 계산하고, 계산된 신뢰도를 기반으로 N (여기서 N은 1보다 큼)개의 사용자 음성 데이터를 2차로 선택하는 것을 일 실시예로 한다.
상기 시드 데이터를 저장하는 저장부를 더 구비하며, 상기 저장부에 저장된 시드 데이터는 상기 음향 모델 학습부에서 음향 모델 학습에 사용된 데이터로 업데이트되는 것을 일 실시예로 한다.
상기 제2 데이터 선택부는 상기 저장부에 저장된 시드 데이터의 라벨 정보를 이용하여 신뢰도를 계산하고, 계산된 신뢰도를 기반으로 M(여기서 M은 1보다 큼)개의 시드 데이터를 선택하는 것을 일 실시예로 한다.
상기 제1 데이터 선택부에서 선택되는 사용자 음성 데이터의 개수와 상기 제2 데이터 선택부에서 선택되는 시드 데이터의 개수의 합은 상기 저장부에 저장된 시드 데이터의 개수와 같은 것을 일 실시예로 한다.
본 발명에 따른 음성 인식 방법은 입력되는 사용자 음성 데이터를 인식하고, 인식된 사용자 음성 데이터에 대해 자동 레이블링을 수행하여 라벨 정보가 있는 사용자 음성 데이터를 출력하는 단계, 상기 라벨 정보가 있는 사용자 음성 데이터 중 일부를 1차로 선택하는 단계, 상기 1차로 선택된 사용자 음성 데이터 중 일부를 2차로 선택하는 단계, 이전에 음향 모델 학습에 이용되었던 시드 데이터의 일부를 선택하는 단계, 및 상기 2차로 선택된 사용자 음성 데이터와 상기 선택된 시드 데이터를 이용하여 음향 모델을 학습하는 단계를 포함하는 것을 일 실시예로 한다.
상기 1차 선택 단계는 상기 라벨 정보가 있는 사용자 음성 데이터의 신뢰도를 계산하고, 계산된 신뢰도를 기반으로 상기 라벨 정보가 있는 사용자 음성 데이터의 일부를 1차로 선택하는 것을 일 실시예로 한다.
상기 2차 선택 단계는 상기 1차로 선택된 사용자 음성 데이터의 라벨 정보를 이용하여 신뢰도를 계산하고, 계산된 신뢰도를 기반으로 N (여기서 N은 1보다 큼)개의 사용자 음성 데이터를 2차로 선택하는 것을 일 실시예로 한다.
상기 2차 선택 단계는 상기 2차로 선택되는 사용자 음성 데이터에 대해 가중치 팩터를 적용하여 출력하는 단계를 더 포함하는 것을 일 실시예로 한다.
상기 시드 데이터는 저장부에 저장되며, 상기 저장부에 저장된 시드 데이터는 상기 음향 모델 학습에 사용된 데이터로 업데이트되는 것을 일 실시예로 한다.
상기 시드 데이터 선택 단계는 상기 저장부에 저장된 시드 데이터의 라벨 정보를 이용하여 신뢰도를 계산하고, 계산된 신뢰도를 기반으로 M(여기서 M은 1보다 큼)개의 시드 데이터를 선택하는 것을 일 실시예로 한다.
상기 2차로 선택되는 사용자 음성 데이터의 개수와 상기 선택되는 시드 데이터의 개수의 합은 상기 저장부에 저장된 시드 데이터의 개수와 같은 것을 일 실시예로 한다.
본 발명은 음향 모델 학습에 이용하였던 기존 데이터(Seed data)와 사용자의 음성 데이터를 모두 이용하여 음향 모델을 다시 학습함으로써, 음성 인식 성능을 점진적으로 향상시키는 효과가 있다.
특히 본 발명은 일정량의 사용자 음성 데이터가 모이면 자동적으로 음향 모델을 다시 학습하도록 함으로써, 음성 인식 성능을 점진적으로 향상시키는 효과와 함께 음향 모델을 학습하는 시간을 단축시킬 수 있다. 또한 사용자 음성 데이터 중 일부와 음향 모델 학습에 이용하였던 기존 데이터 중 일부를 선택하여 음향 모델 학습에 이용함으로써, 총 데이터 양을 유지하여 매번 학습 시 필요한 시간을 일정하게 유지할 수 있다.
도 1은 본 발명에 따른 음성 인식 장치의 일 실시예를 보인 구성 블록도
도 2는 본 발명에 따른 음성 인식 방법의 일 실시예를 보인 흐름도
이하 상기의 목적을 구체적으로 실현할 수 있는 본 발명의 바람직한 실시예를 첨부한 도면을 참조하여 상세히 설명한다. 이때 도면에 도시되고 또 이것에 의해서 설명되는 본 발명의 구성과 작용은 적어도 하나의 실시예로서 설명되는 것이며, 이것에 의해서 본 발명의 기술적 사상과 그 핵심 구성 및 작용이 제한되지는 않는다.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당분야에 종사하는 기술자의 의도 또는 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 함을 밝혀두고자 한다.
또한 본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시 예들에 대해서 특정한 구조적 내지 기능적 설명들은 단지 본 발명의 개념에 따른 실시 예를 설명하기 위한 목적으로 예시된 것으로, 본 발명의 개념에 따른 실시 예들은 다양한 형태로 실시될 수 있으며 본 명세서에 설명된 실시 예들에 한정되는 것으로 해석되어서는 아니된다.
본 발명의 개념에 따른 실시 예는 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있으므로 특정 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시 예를 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
그리고 본 발명에서 제1 및/또는 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만, 예컨대 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
또한 명세서 전체에서, 어떤 부분이 어떤 구성 요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다. 그리고 명세서에 기재된 “…부” 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
일반적인 음성 인식 시스템에서는 음향 모델 학습에 사용된 음성 데이터의 녹음 환경과 실제 사용 환경이 달라 인식 성능 저하가 발생한다. 본 발명은 이를 개선하기 위해 사용자의 음성 데이터를 음향 모델 학습에 사용하는 것을 일 실시예로 한다. 하지만 사용자 음성 데이터는 시간이 지남에 따라 계속 추가되어 그 양이 방대해지기 때문에 본 발명은 일정량의 사용자 음성 데이터가 모이면 자동적으로 음향 모델을 다시 학습하는 것을 일 실시예로 한다. 이때 데이터를 많이 모을수록 성능은 좋아지지만 음향 모델을 학습하는데 시간이 많이 걸린다. 본 발명은 또한 이를 개선하기 위해 사용자의 음성 데이터에서 일부를 선정하고 기존 음향 모델 학습에 사용했던 시드 데이터(Seed data)에서 일부를 선정하여 음향 모델 학습에 사용하는 것을 일 실시예로 한다. 따라서 본 발명은 데이터 선별을 통해 총 데이터 양을 유지함으로써, 매번 음향 모델 학습 시 필요한 시간을 일정하게 유지할 수 있게 된다.
도 1은 본 발명에 따른 음성 인식 시스템의 일 실시예를 보인 구성 블록도로서, 자동 레이블링부(Labeling unit)(100), 제1 데이터 선택부(110), 저장부(120), 제2 데이터 선택부(130), 데이터 출력부(140), 및 음향 모델 학습부(150)를 포함하는 것을 일 실시예로 한다.
상기 자동 레이블링부(100)는 사용자 음성 데이터를 인식하고 인식된 사용자 음성 데이터에 레이블링 작업을 수행하는 음성 인식부(101), 상기 음성 인식부(101)에서 인식된 사용자 음성 데이터의 신뢰도(confidence measure)를 계산하는 신뢰도 측정부(102), 및 상기 신뢰도 측정부(102)의 계산 결과를 기반으로 신뢰도가 높은 사용자 음성 데이터를 선택하여 출력하는 선택부(103)를 포함하는 것을 일 실시예로 한다.
이와 같이 구성된 본 발명에서 상기 자동 레이블링부(100)는 사용자 음성 데이터에 대해 자동적으로 레이블링을 수행한다. 즉, 본 발명은 사람에 의한 레이블링이 아닌 자동 레이블링부(100)를 이용하여 기계적으로 레이블링을 수행한다. 다시 말해, 음향 모델 학습을 위해 사용자가 발성한 음성 데이터에 대한 텍스트 데이터가 필요하기 때문에 레이블링 작업이 필요하며, 본 발명은 점진 학습을 자동적으로 수행하기 위해서 음성 인식 결과를 사용하여 레이블링을 수행한다.
이를 위해 상기 자동 레이블링부(100)의 음성 인식부(101)는 사용자가 발성하는 사용자 음성 데이터를 인식하고, 인식된 사용자 음성 데이터에 대한 레이블링 작업을 수행하여 라벨 정보가 있는 사용자 음성 데이터를 신뢰도 측정부(102)로 출력한다.
상기 신뢰도 측정부(102)는 라벨 정보가 있는 사용자 음성 데이터의 신뢰도를 계산하여 데이터 선택부(103)로 출력하고, 상기 데이터 선택부(103)는 신뢰도가 높은 사용자 음성 데이터만을 선택한 후 음향 모델 학습을 위해 제1 데이터 선택부(110)로 출력한다.
예를 들어, 사용자가 “학교에 간다”라고 발성했을 때 음성 인식부(101)의 후보에 “학교에 간다”가 있으면 사용자가 발성한 음성 데이터에 “학교에 간다”라는 라벨이 붙는다. 그런데 상기 음성 인식부(101)의 후보에 “학교에 간다”가 없고 “전화해”가 있으면, 사용자는 “학교에 간다”라고 발성했어도 라벨은 “전화해”가 붙을 수 있다. 이것은 사용자 음성 데이터에 대한 레이블링 작업이 잘못 수행된 예이며, 이러한 사용자 음성 데이터가 음향 모델 학습에 이용되면 결국 인식 성능 저하가 발생하게 된다. 따라서 본 발명에서는 이를 해결하기 위해 신뢰도 측정부(102)와 선택부(103)가 추가되어 신뢰도가 높은 데이터를 선택하여 출력하는 과정이 추가로 수행된다. 즉, 상기 신뢰도 측정부(102)와 선택부(103)는 음성 인식부(101)에서 출력되는 라벨이 있는 사용자 음성 데이터 중 실제 사용자가 발성한 사용자 음성 데이터와 일치할 확률이 높은 사용자 음성 데이터만을 선택하여 출력하게 된다. 다시 말해, 상기 신뢰도 측정부(102)와 선택부(103)는 레이블링 작업이 제대로 수행된 사용자 음성 데이터만을 선별하여 출력하는 과정을 수행하게 된다.
상기 제1 데이터 선택부(110)는 자동 레이블링부(100)에서 출력되는 사용자 음성 데이터 중 일부를 음향 모델 학습에 이용하기 위해 선택하여 데이터 출력부(140)로 출력한다. 또한 상기 제2 데이터 선택부(130)는 상기 저장부(120)에 저장된 시드 데이터(seed data) 중 일부를 음향 모델 학습에 이용하기 위해 선택하여 상기 데이터 출력부(140)로 출력한다. 이때 상기 제1 데이터 선택부(110)와 제2 데이터 선택부(130)에서 선택하는 데이터 양을 일정하게 유지시킴으로써, 매번 음향 모델 학습시 필요한 시간을 일정하게 유지할 수 있게 된다.
일 예로, 상기 제1 데이터 선택부(110)는 음향 모델 성능 개선에 도움이 될거라고 예측되는 사용자 음성 데이터를 선택하여 음향 모델 학습에 반영한다.
이때, 제1 데이터 선택부(110)로 입력되는 사용자 음성 데이터는 발성(utterance) 단위로 되어있다고 가정한다. 그리고 발성 단위로 사용자 음성 데이터를 선택한다고 가정할 때 상기 제1 데이터 선택부(110)는 각 발성에 대해 다음의 수학식 1과 같이 신뢰도(confidence measure) 계산을 수행하여 음향 모델 학습부(150)로 출력할 데이터를 결정하게 된다.
수학식 1
Figure PCTKR2013012415-appb-M000001
상기 수학식 1에서 각 발성은 음소 단위로 세그먼트되어 있다고 가정할 때, fk u 는 u번째 발성의 k번째 음소에 대한 특징 벡터(feature vector, 여기서 특징 벡터는 음성 데이터를 인식 및 학습에 적합하도록 변환한 값), θl은 l번째 클래스에 대한 음향 모델 파라미터를 의미한다. 따라서 h1k 는 k번째 음소에 가장 적합한 클래스에 대한 확률 값이고, h2k 는 k번째 음소에 두 번째로 적합한 클래스에 대한 확률 값이다. 결국 두 값의 차이인 Jk u가 작을수록 k번째 음소가 어느 클래스에 속하는지 구분하기 어려우며 인식 오류가 발생할 확률이 높다는 의미가 된다.
상기 수학식 1을 적용하여 한 발성에 속한 각 음소의 Jcsu 값에 대한 절대값의 합계를 구해 그 발성을 선택할지 결정하게 된다.
즉, Jcsu 값이 작은 데이터가 인식 오류가 발생할 확률이 높은 데이터이고, 이 데이터를 음향 모델 학습에 반영할 경우 기존 음향 모델의 취약한 부분을 개선시킬 수 있게 된다.
상기 수학식 1은 상기 제1 데이터 선택부(110)로 입력되는 사용자 음성 데이터에 라벨이 없다고 가정하고, 라벨이 있는 데이터와 라벨이 없는 데이터로 나누어 신뢰도 계산을 하고 있다.
이때 본 발명은 자동 레이블링부(100)에서 사용자 음성 데이터에 대해 레이블링 작업을 수행하였기 때문에 상기 제1 데이터 선택부(110)로 출력되는 데이터는 라벨 정보가 있는 데이터이다. 그러므로, 상기 제1 데이터 선택부(110)는 데이터를 선택할 때 하기 수학식 2와 같이 라벨 정보를 이용할 수 있다.
수학식 2
Figure PCTKR2013012415-appb-M000002
상기 수학식 2에서 e1k는 k번째 음소에 가장 적합한 클래스에 대한 확률 값이고, e2k 는 k번째 음소에 두 번째로 적합한 클래스에 대한 확률 값이다. 그리고 라벨(Label) 정보에 의해 k번째 음소가 어떤 클래스에 속하는지 이미 알고 있으므로 e1k 을 구하는 방식이 상기 수학식 1과 다르며, 나머지 수식은 수학식 1과 동일하다.
상기 제2 데이터 선택부(130)는 상기 저장부(120)에 저장된 시드 데이터 중 일부를 선택하여 음향 모델 학습부(150)로 출력한다. 즉, 기존에 음향 모델의 학습에 사용되었던 시드 데이터를 모두 사용할 경우 데이터가 점점 늘어나기 때문에 본 발명은 일정한 수의 데이터를 선택하여 다음 음향 모델 학습에 사용한다. 다시 말해, 기존의 음향 모델 학습에 사용되었던 데이터는 레이블링 및 신뢰도 계산이 수행된 데이터이므로 많이 모을수록 음향 모델 성능을 더욱 높일 수 있지만 데이터가 많아질수록 음향 모델을 학습하는데 시간이 많이 걸린다. 그러므로, 제2 데이터 선택부(130)에서도 상기 저장부(120)에 저장된 데이터 중 일부를 선택하여 출력하는 과정을 수행한다.
상기 제2 데이터 선택부(130)에서도 수학식 1을 적용하여 데이터를 선택할 수 있다. 또한 상기 저장부(120)에 저장된 데이터는 이미 음향 모델 학습에 사용했던 데이터이므로, 각 데이터에 라벨 정보가 있다.
따라서 상기 제2 데이터 선택부(130)에서도 상기 수학식 2를 적용하여 데이터를 선택할 수 있다.
본 발명은 음향 모델 학습에 이용될 총 데이터 량을 일정하게 유지하기 위하여 상기 제1 데이터 선택부(110)에서 N개의 사용자 음성 데이터를 선택하였다면, 상기 제2 데이터 선택부(130)에서는 T-N개의 시드 데이터를 선택하는 것을 일 실시예로 한다. 여기서 T는 상기 저장부(120)에 저장된 시드 데이터의 개수이다.
이때 상기 제1 데이터 선택부(110)에서 선택되는 데이터는 기존 데이터의 양에 비해 상대적으로 작아 음향 모델 학습에 영향을 주기 어려울 수 있다. 이를 해결하기 위해 상기 제1 데이터 선택부(110)는 가중치 팩터(weighting factor)를 적용하여 제1 데이터 선택부(110)에서 출력되는 사용자 음성 데이터의 특성이 음향 모델에 잘 반영될 수 있도록 하는 것을 일 실시예로 한다. 이때 처음에는 가중치 팩터(weighting factor) 값을 크게 하고 반복(iteration)이 증가할수록 기존 데이터와 같은 영향력을 갖도록 가중치 팩터를 줄이는 것을 일 실시예로 한다.
상기 제1 데이터 선택부(110)에서 선택된 사용자 음성 데이터와 상기 제2 데이터 선택부(130)에서 선택된 시드 데이터는 데이터 출력부(140)에서 합성되어 음향 모델 학습부(150)와 저장부(120)로 출력된다. 상기 저장부(120)는 데이터 출력부(140)에서 출력되는 데이터로 기 저장된 시드 데이터를 업데이트한다.
상기 음향 모델 학습부(150)는 상기 데이터 출력부(140)에서 출력되는 데이터를 이용하여 음향 모델 학습을 수행한다. 이때 상기 음향 모델 학습부(150)는 상기 저장부(120)에 저장된 시드 데이터를 이용하여 초기 음향 모델을 학습한다. 초기 음향 모델을 학습한 이후에는 음향 모델이 수렴할 때까지 사용자 음성 데이터의 일부와 시드 데이터의 일부를 선택하여 음향 모델을 학습하고, 음향 모델 학습에 이용된 데이터로 시드 데이터를 업데이트하는 과정을 반복한다.
상기 음향 모델 학습부(150)는 dHMM(Discrete Hidden Markov Model) 알고리즘을 적용하여 음향 모델 학습을 수행하는 것을 일 실시예로 한다. 여기서 dHMM는 각 음소의 확률 분포를 이산적인 값으로 모델링한다. 상기 dHMM 알고리즘 대신 HMM 알고리즘이 사용될 수도 있다. 상기 HMM은 통계적 패턴 인식을 기반으로 하며 단어 단위 검색과 문장 단위 검색 과정이 하나의 최적화 과정으로 통합된 방식이다. 상기 dHMM 알고리즘과 HMM 알고리즘은 본 발명의 이해를 돕기 위한 실시예들이며, 음향 모델을 학습하기 위한 알고리즘은 어느 것이나 사용될 수 있다. 그리고 상기 음향 모델 학습부(150)에서 사용하는 알고리즘에 따라 자동 레이블링부(100), 제1 데이터 선택부(110), 및 제2 데이터 선택부(130)에서 신뢰도를 계산하는 방법이 달라질 수 있다.
도 2는 본 발명에 따른 음성 인식 방법의 일 실시예를 보인 흐름도이다. 즉, 사용자가 발성하는 사용자 음성 데이터를 인식하고, 인식된 사용자 음성 데이터에 대해 레이블링 작업을 수행한다(S201). 그리고 상기 레이블링 작업에 의해 라벨이 있는 사용자 음성 데이터의 신뢰도를 계산하고, 이 중 신뢰도가 높은 사용자 음성 데이터를 1차로 선택한다(S202). 상기 신뢰도는 수학식 1 및/또는 수학식 2를 적용하여 계산할 수 있다.
상기 단계 S202에서 1차로 선택된 사용자 음성 데이터에 대해 다시 신뢰도를 계산하고, 계산된 신뢰도를 이용하여 1차로 선택된 사용자 음성 데이터 중 일부를 2차로 선택한다(S203).
또한 저장부(120)에 저장된 시드 데이터에 대해 신뢰도를 계산하고, 계산된 신뢰도를 이용하여 일부 시드 데이터를 선택한다(S205).
상기 단계 S203에서 선택된 사용자 음성 데이터와 상기 단계 S205에서 선택된 시드 데이터를 이용하여 음향 모델 학습을 수행한다(S206). 이때 상기 음향 모델 학습에 이용된 데이터는 단계 S204로 진행하여 상기 저장부(120)에 저장된 시드 데이터를 업데이트한다.
상기 단계들은 음향 모델이 수렴할 때까지 반복되며, 음향 모델이 수렴되면 음향 모델 학습 과정이 종료되는 것을 일 실시예로 한다. 이때 상기 음향 모델 학습 과정에서 음향 모델이 수렴하지 않는 경우는 학습 과정에서의 예외 사항이므로, 이 과정은 생략될 수도 있다.
지금까지 설명한 본 발명은 상술한 실시예에 한정되지 않으며, 첨부된 청구범위에서 알 수 있는 바와 같이 본 발명이 속한 분야의 통상의 지식을 가지 자에 의해 변형이 가능하고 이러한 변형은 본 발명의 범위에 속한다.
전술한 바와 같이, 상기 발명의 실시를 위한 최선의 형태에서, 관련된 사항을 기술하였다.
전술한 바와 같이, 본 발명은 음성 인식 기술을 적용하는 장치 및 단말기에 모두 적용될 수 있다. 

Claims (13)

  1. 입력되는 사용자 음성 데이터를 인식하고, 인식된 사용자 음성 데이터에 대해 자동 레이블링을 수행한 후 라벨 정보가 있는 사용자 음성 데이터 중 일부를 1차로 선택하여 출력하는 레이블링부;
    상기 레이블링부에서 1차로 선택되어 출력되는 사용자 음성 데이터 중 일부를 2차로 선택하여 출력하는 제1 데이터 선택부;
    이전에 음향 모델 학습에 이용되었던 시드 데이터의 일부를 선택하여 출력하는 제2 데이터 선택부; 및
    상기 제1 데이터 선택부에서 2차로 선택되어 출력되는 사용자 음성 데이터와 상기 제2 데이터 선택부에서 선택되어 출력되는 시드 데이터를 이용하여 음향 모델을 학습하는 음향 모델 학습부를 포함하는 것을 특징으로 하는 음성 인식 시스템.
  2. 제 1 항에 있어서, 상기 레이블링부는
    상기 라벨 정보가 있는 사용자 음성 데이터의 신뢰도를 계산하고, 계산된 신뢰도를 기반으로 상기 라벨 정보가 있는 사용자 음성 데이터의 일부를 1차로 선택하는 것을 특징으로 하는 음성 인식 시스템.
  3. 제 2 항에 있어서, 상기 제1 데이터 선택부는
    상기 레이블링부에서 선택되어 출력되는 사용자 음성 데이터의 라벨 정보를 이용하여 신뢰도를 계산하고, 계산된 신뢰도를 기반으로 N (여기서 N은 1보다 큼)개의 사용자 음성 데이터를 2차로 선택하는 것을 특징으로 하는 음성 인식 시스템.
  4. 제 3 항에 있어서,
    상기 시드 데이터를 저장하는 저장부를 더 구비하며,
    상기 저장부에 저장된 시드 데이터는 상기 음향 모델 학습부에서 음향 모델 학습에 사용된 데이터로 업데이트되는 것을 특징으로 하는 음성 인식 시스템.
  5. 제 4 항에 있어서, 상기 제2 데이터 선택부는
    상기 저장부에 저장된 시드 데이터의 라벨 정보를 이용하여 신뢰도를 계산하고, 계산된 신뢰도를 기반으로 M(여기서 M은 1보다 큼)개의 시드 데이터를 선택하는 것을 특징으로 하는 음성 인식 시스템.
  6. 제 5 항에 있어서,
    상기 제1 데이터 선택부에서 선택되는 사용자 음성 데이터의 개수와 상기 제2 데이터 선택부에서 선택되는 시드 데이터의 개수의 합은 상기 저장부에 저장된 시드 데이터의 개수와 같은 것을 특징으로 하는 음성 인식 시스템.
  7. 입력되는 사용자 음성 데이터를 인식하고, 인식된 사용자 음성 데이터에 대해 자동 레이블링을 수행하여 라벨 정보가 있는 사용자 음성 데이터를 출력하는 단계;
    상기 라벨 정보가 있는 사용자 음성 데이터 중 일부를 1차로 선택하는 단계;
    상기 1차로 선택된 사용자 음성 데이터 중 일부를 2차로 선택하는 단계;
    이전에 음향 모델 학습에 이용되었던 시드 데이터의 일부를 선택하는 단계; 및
    상기 2차로 선택된 사용자 음성 데이터와 상기 선택된 시드 데이터를 이용하여 음향 모델을 학습하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
  8. 제 7 항에 있어서, 상기 1차 선택 단계는
    상기 라벨 정보가 있는 사용자 음성 데이터의 신뢰도를 계산하고, 계산된 신뢰도를 기반으로 상기 라벨 정보가 있는 사용자 음성 데이터의 일부를 1차로 선택하는 것을 특징으로 하는 음성 인식 방법.
  9. 제 8 항에 있어서, 상기 2차 선택 단계는
    상기 1차로 선택된 사용자 음성 데이터의 라벨 정보를 이용하여 신뢰도를 계산하고, 계산된 신뢰도를 기반으로 N (여기서 N은 1보다 큼)개의 사용자 음성 데이터를 2차로 선택하는 것을 특징으로 하는 음성 인식 방법.
  10. 제 9 항에 있어서, 상기 2차 선택 단계는
    상기 2차로 선택되는 사용자 음성 데이터에 대해 가중치 팩터를 적용하여 출력하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 방법.
  11. 제 9 항에 있어서,
    상기 시드 데이터는 저장부에 저장되며, 상기 저장부에 저장된 시드 데이터는 상기 음향 모델 학습에 사용된 데이터로 업데이트되는 것을 특징으로 하는 음성 인식 방법.
  12. 제 11 항에 있어서, 상기 시드 데이터 선택 단계는
    상기 저장부에 저장된 시드 데이터의 라벨 정보를 이용하여 신뢰도를 계산하고, 계산된 신뢰도를 기반으로 M(여기서 M은 1보다 큼)개의 시드 데이터를 선택하는 것을 특징으로 하는 음성 인식 방법.
  13. 제 12 항에 있어서,
    상기 2차로 선택되는 사용자 음성 데이터의 개수와 상기 선택되는 시드 데이터의 개수의 합은 상기 저장부에 저장된 시드 데이터의 개수와 같은 것을 특징으로 하는 음성 인식 방법.
PCT/KR2013/012415 2013-12-31 2013-12-31 음성 인식 시스템 및 방법 WO2015102127A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2013/012415 WO2015102127A1 (ko) 2013-12-31 2013-12-31 음성 인식 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2013/012415 WO2015102127A1 (ko) 2013-12-31 2013-12-31 음성 인식 시스템 및 방법

Publications (1)

Publication Number Publication Date
WO2015102127A1 true WO2015102127A1 (ko) 2015-07-09

Family

ID=53493465

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2013/012415 WO2015102127A1 (ko) 2013-12-31 2013-12-31 음성 인식 시스템 및 방법

Country Status (1)

Country Link
WO (1) WO2015102127A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108389577A (zh) * 2018-02-12 2018-08-10 广州视源电子科技股份有限公司 优化语音识别声学模型的方法、系统、设备及存储介质
KR20190096876A (ko) * 2019-07-31 2019-08-20 엘지전자 주식회사 음성인식 성능 향상을 위한 비 지도 가중치 적용 학습 시스템 및 방법, 그리고 기록 매체
US10468030B2 (en) 2016-12-19 2019-11-05 Samsung Electronics Co., Ltd. Speech recognition method and apparatus

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7149687B1 (en) * 2002-07-29 2006-12-12 At&T Corp. Method of active learning for automatic speech recognition
US20090171662A1 (en) * 2007-12-27 2009-07-02 Sehda, Inc. Robust Information Extraction from Utterances
JP2010243914A (ja) * 2009-04-08 2010-10-28 Kyoto Univ 音響モデル学習装置、音声認識装置、及び音響モデル学習のためのコンピュータプログラム
JP2012177815A (ja) * 2011-02-28 2012-09-13 National Institute Of Information & Communication Technology 音響モデル学習装置、および音響モデル学習方法
KR101183344B1 (ko) * 2004-01-20 2012-09-14 마이크로소프트 코포레이션 사용자 정정들을 이용한 자동 음성 인식 학습

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7149687B1 (en) * 2002-07-29 2006-12-12 At&T Corp. Method of active learning for automatic speech recognition
KR101183344B1 (ko) * 2004-01-20 2012-09-14 마이크로소프트 코포레이션 사용자 정정들을 이용한 자동 음성 인식 학습
US20090171662A1 (en) * 2007-12-27 2009-07-02 Sehda, Inc. Robust Information Extraction from Utterances
JP2010243914A (ja) * 2009-04-08 2010-10-28 Kyoto Univ 音響モデル学習装置、音声認識装置、及び音響モデル学習のためのコンピュータプログラム
JP2012177815A (ja) * 2011-02-28 2012-09-13 National Institute Of Information & Communication Technology 音響モデル学習装置、および音響モデル学習方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10468030B2 (en) 2016-12-19 2019-11-05 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
CN108389577A (zh) * 2018-02-12 2018-08-10 广州视源电子科技股份有限公司 优化语音识别声学模型的方法、系统、设备及存储介质
KR20190096876A (ko) * 2019-07-31 2019-08-20 엘지전자 주식회사 음성인식 성능 향상을 위한 비 지도 가중치 적용 학습 시스템 및 방법, 그리고 기록 매체
KR102281590B1 (ko) 2019-07-31 2021-07-29 엘지전자 주식회사 음성인식 성능 향상을 위한 비 지도 가중치 적용 학습 시스템 및 방법, 그리고 기록 매체
US11164565B2 (en) 2019-07-31 2021-11-02 Lg Electronics Inc. Unsupervised learning system and method for performing weighting for improvement in speech recognition performance and recording medium for performing the method

Similar Documents

Publication Publication Date Title
US11100921B2 (en) Pinyin-based method and apparatus for semantic recognition, and system for human-machine dialog
CN109036391B (zh) 语音识别方法、装置及系统
WO2011074771A2 (ko) 외국어 학습 장치 및 그 제공 방법.
CN110377916B (zh) 词预测方法、装置、计算机设备及存储介质
KR101590724B1 (ko) 음성 인식 오류 수정 방법 및 이를 수행하는 장치
KR20170034227A (ko) 음성 인식 장치 및 방법과, 음성 인식을 위한 변환 파라미터 학습 장치 및 방법
CN108711420A (zh) 多语言混杂模型建立、数据获取方法及装置、电子设备
CN111192568B (zh) 一种语音合成方法及语音合成装置
CN111489746B (zh) 一种基于bert的电网调度语音识别语言模型构建方法
CN107766319B (zh) 序列转换方法及装置
US7409340B2 (en) Method and device for determining prosodic markers by neural autoassociators
WO2021162362A1 (ko) 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치
WO2021132797A1 (ko) 반지도 학습 기반 단어 단위 감정 임베딩과 장단기 기억 모델을 이용한 대화 내에서 발화의 감정 분류 방법
CN110827803A (zh) 方言发音词典的构建方法、装置、设备及可读存储介质
EP3867900A1 (en) System and method for multi-spoken language detection
CN113223506B (zh) 语音识别模型训练方法及语音识别方法
CN112364658A (zh) 翻译以及语音识别方法、装置、设备
JP2019015838A (ja) 音声認識システム、端末装置、及び辞書管理方法
WO2015102127A1 (ko) 음성 인식 시스템 및 방법
KR20180060903A (ko) 발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법
CN110210035B (zh) 序列标注方法、装置及序列标注模型的训练方法
WO2014092265A1 (ko) 문법 오류 정정 시스템 및 이를 이용한 문법 오류 정정 방법
CN110827799A (zh) 用于处理语音信号的方法、装置、设备和介质
CN115240712A (zh) 一种基于多模态的情感分类方法、装置、设备及存储介质
JP5888723B2 (ja) 発音辞書作成装置、発音辞書の生産方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13900650

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13900650

Country of ref document: EP

Kind code of ref document: A1