KR20220035222A - 음성 인식 오류 정정 방법, 관련 디바이스들, 및 판독 가능 저장 매체 - Google Patents

음성 인식 오류 정정 방법, 관련 디바이스들, 및 판독 가능 저장 매체 Download PDF

Info

Publication number
KR20220035222A
KR20220035222A KR1020227005374A KR20227005374A KR20220035222A KR 20220035222 A KR20220035222 A KR 20220035222A KR 1020227005374 A KR1020227005374 A KR 1020227005374A KR 20227005374 A KR20227005374 A KR 20227005374A KR 20220035222 A KR20220035222 A KR 20220035222A
Authority
KR
South Korea
Prior art keywords
recognition result
recognition
speech
error correction
result
Prior art date
Application number
KR1020227005374A
Other languages
English (en)
Other versions
KR102648306B1 (ko
Inventor
리 수
지아 판
지구오 왕
구오핑 후
Original Assignee
아이플라이텍 캄파니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아이플라이텍 캄파니 리미티드 filed Critical 아이플라이텍 캄파니 리미티드
Publication of KR20220035222A publication Critical patent/KR20220035222A/ko
Application granted granted Critical
Publication of KR102648306B1 publication Critical patent/KR102648306B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

음성 인식 오류 정정 방법, 관련 디바이스들 및 판독 가능 저장 매체. 방법은 인식될 음성 데이터 및 그의 제1 인식 결과를 획득하는 단계(S101); 제2 인식 결과를 획득하기 위해, 제1 인식 결과의 컨텍스트 정보를 참조하여, 음성 데이터에 대해 재인식을 수행하는 단계(S102); 및 제2 인식 결과에 따라 최종 인식 결과를 결정하는 단계(S103)를 포함한다. 상기의 해결 수단에서, 제1 인식 결과의 컨텍스트 정보가 참조되고, 재인식은 음성 데이터에 대해 수행되고, 인식 결과들의 컨텍스트 정보의 적용 시나리오 및 음성 데이터가 완전히 고려되며, 제1 인식 결과가 잘못된 경우, 재인식을 통해 결과에 대해 오류 정정이 수행될 수 있다. 따라서, 음성 인식의 정확도가 향상될 수 있다. 또한, 키워드가 제1 인식 결과로부터 더 추출될 수 있고, 이를 기반으로, 음성 데이터에 대해 재인식을 수행하는 데 제1 인식 결과의 컨텍스트 정보 및 키워드가 참조될 수 있으며, 이에 따라, 제2 인식 결과의 정확도가 더 향상될 수 있다.

Description

음성 인식 오류 정정 방법, 관련 디바이스들, 및 판독 가능 저장 매체
본 출원은, 그 전체가 참조로서 여기에 포함되는, 2019년 11월 25일에 출원된 “음성 인식 오류 정정 방법, 관련 디바이스들, 및 판독 가능 저장 매체”라는 명칭의 중국 특허 출원 제201911167009.0호의 우선권을 주장한다.
최근 몇 년 동안, 인공 지능 기술의 급속한 발전으로 인해, 인공 지능 디바이스들은 점차 대중의 생활과 업무에 들어가 없어서는 안될 존재가 되었다. 인간-기계 상호 작용의 가장 자연스러운 방식인 음성 상호 작용은 인간과 기계들 사이의 의사 소통을 용이하게 하기 위해 다양한 인공 지능 디바이스들에 널리 사용된다. 음성 상호 작용 과정에서, 음성 인식 기술을 기반으로 하는 기계들은 인간의 언어를 이해하여, 인간에게 봉사한다.
현재, 딥 러닝(deep learning)을 기반으로 하는 음성 인식 기술은 성숙하고 있으며, 기존의 음성 인식 모델들을 이용하여 일반적인 시나리오들에서 만족스러운 인식 정확도가 달성된다. 그러나, 일부 특수한 시나리오들(예컨대, 전문 분야들)의 음성은 일반적으로, 일반적인 시나리오들에서는 드문 일부 기술적 용어들을 포함하며, 이에 따라, 기존의 음성 인식 모델은 이러한 단어들을 잘 인식하지 못할 수 있다. 일부 특수한 시나리오들에서, 기존의 음성 인식 모델로의 이러한 단어들을 포함하는 음성의 인식은 종종 오류들을 발생하여, 음성 인식의 낮은 정확도를 초래한다.
따라서, 해당 기술분야에서 통상의 지식을 가진 사람에 대해 음성 인식의 정확도를 향상시킬 필요가 있다.
상기의 문제점들을 감안하여, 본 개시에 따른 음성 인식 오류 정정 방법 및 디바이스, 및 판독 가능 저장 매체가 제공된다. 해결 수단은 후술된다.
본 개시의 제1 양태에 따르면, 음성 인식 오류 정정 방법이 제공된다. 상기 방법은,
인식될(to-be-recognized) 음성 데이터 및 상기 음성 데이터의 제1 인식 결과를 획득하는 단계;
제2 인식 결과를 획득하기 위해, 상기 제1 인식 결과의 컨텍스트(context) 정보를 참조하여 상기 음성 데이터를 재인식하는 단계; 및
상기 제2 인식 결과에 기반하여 최종 인식 결과를 결정하는 단계
를 포함한다.
본 개시의 제2 양태에 따르면, 다른 음성 인식 오류 정정 방법이 제공된다. 상기 방법은,
인식될 음성 데이터 및 상기 음성 데이터의 제1 인식 결과를 획득하는 단계;
상기 제1 인식 결과로부터 키워드를 추출하는 단계;
제2 인식 결과를 획득하기 위해, 상기 제1 인식 결과의 컨텍스트 정보 및 상기 키워드를 참조하여 상기 음성 데이터를 재인식하는 단계; 및
상기 제2 인식 결과에 기반하여 최종 인식 결과를 결정하는 단계
를 포함한다.
일 실시예에서, 상기 제1 인식 결과로부터 키워드를 추출하는 단계는,
상기 제1 인식 결과로부터의 분야-특정(field-specific) 단어를 상기 키워드로서 추출하는 단계
를 포함한다.
일 실시예에서, 제2 인식 결과를 획득하기 위해, 상기 제1 인식 결과의 컨텍스트 정보 및 상기 키워드를 참조하여 상기 음성 데이터를 재인식하는 단계는,
상기 음성 데이터의 음향 특징을 획득하는 단계; 및
상기 제2 인식 결과를 획득하기 위해, 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드를 미리 훈련된 음성 인식 오류 정정 모델에 입력하는 단계
를 포함하고, 여기서,
상기 음성 인식 오류 정정 모델은 오류-정정 훈련 데이터 셋을 이용하여 미리 설정된 모델을 훈련함으로써 획득되고,
상기 오류-정정 훈련 데이터 셋은 적어도 하나의 그룹의 오류-정정 훈련 데이터를 포함하고, 각 그룹의 오류-정정 훈련 데이터는 하나의 피스(piece)의 음성 데이터의 음향 특징, 상기 하나의 피스의 음성 데이터에 대응하는 텍스트, 상기 하나의 피스의 음성 데이터에 대응하는 제1 인식 결과, 및 상기 제1 인식 결과의 키워드를 포함한다.
일 실시예에서, 상기 제2 인식 결과를 획득하기 위해, 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드를 미리 훈련된 음성 인식 오류 정정 모델에 입력하는 단계는,
상기 음성 인식 오류 정정 모델을 이용하여 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드에 대해 인코딩(encoding) 및 어텐션(attention) 계산을 수행하는 단계, 및 계산 결과에 기반하여 상기 제2 인식 결과를 획득하는 단계
를 포함한다.
일 실시예에서, 상기 음성 인식 오류 정정 모델을 이용하여 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드에 대해 인코딩 및 어텐션 계산을 수행하는 단계, 및 계산 결과에 기반하여 상기 제2 인식 결과를 획득하는 단계는,
상기 계산 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 인코딩 레이어 및 어텐션 레이어를 이용하여, 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드의 각각에 대해 인코딩 및 어텐션 계산을 수행하는 단계; 및
상기 제2 인식 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 디코딩 레이어를 이용하여 상기 계산 결과를 디코딩하는 단계
를 포함한다.
일 실시예에서, 상기 음성 인식 오류 정정 모델을 이용하여 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드에 대해 인코딩 및 어텐션 계산을 수행하는 단계, 및 계산 결과에 기반하여 상기 제2 인식 결과를 획득하는 단계는,
병합된 벡터(merged vector)를 획득하기 위해, 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드를 병합하는 단계;
상기 계산 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 인코딩 레이어 및 어텐션 레이어에 의해, 상기 병합된 벡터에 대해 인코딩 및 어텐션 계산을 수행하는 단계; 및
상기 제2 인식 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 디코딩 레이어에 의해, 상기 계산 결과를 디코딩하는 단계
를 포함한다.
일 실시예에서, 상기 계산 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 인코딩 레이어 및 어텐션 레이어를 이용하여 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드에 대해 인코딩 및 어텐션 계산을 수행하는 단계는,
각 타겟 오브젝트에 대해,
상기 타겟 오브젝트의 음향 어드밴스드(advanced) 특징을 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 인코딩 레이어에 의해, 상기 타겟 오브젝트를 인코딩하는 단계;
상기 타겟 오브젝트와 관련된 히든(hidden) 레이어 상태를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 어텐션 레이어에 의해, 상기 타겟 오브젝트와 관련된 이전 시맨틱(semantic) 벡터 및 상기 음성 인식 오류 정정 모델의 이전 출력 결과에 대해 어텐션 계산을 수행하는 단계; 및
상기 타겟 오브젝트와 관련된 시맨틱 벡터를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 어텐션 레이어에 의해, 상기 타겟 오브젝트의 상기 음향 어드밴스드 특징 및 상기 타겟 오브젝트와 관련된 상기 히든 레이어 상태에 대해 어텐션 계산을 수행하는 단계
를 포함하고,
상기 타겟 오브젝트는 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과, 및 상기 키워드를 포함한다.
일 실시예에서, 상기 계산 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 인코딩 레이어 및 상기 어텐션 레이어에 의해, 상기 병합된 벡터에 대해 인코딩 및 어텐션 계산을 수행하는 단계는,
상기 병합된 벡터의 음향 어드밴스드 특징을 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 인코딩 레이어에 의해, 상기 병합된 벡터를 인코딩하는 단계;
상기 병합된 벡터와 관련된 히든 레이어 상태를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 어텐션 레이어에 의해, 상기 병합된 벡터와 관련된 이전 시맨틱 벡터 및 상기 음성 인식 오류 정정 모델의 이전 출력 결과에 대해 어텐션 계산을 수행하는 단계; 및
상기 병합된 벡터와 관련된 시맨틱 벡터를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 어텐션 레이어에 의해, 상기 병합된 벡터의 상기 음향 어드밴스드 특징 및 상기 병합된 벡터와 관련된 상기 히든 레이어 상태에 대해 어텐션 계산을 수행하는 단계
를 포함한다.
일 실시예에서, 상기 제2 인식 결과에 기반하여 최종 인식 결과를 결정하는 단계는,
상기 제1 인식 결과의 신뢰도(confidence) 및 상기 제2 인식 결과의 신뢰도를 획득하는 단계; 및
상기 제1 인식 결과 및 상기 제2 인식 결과 중 더 높은 신뢰도를 갖는 것을 상기 최종 인식 결과로서 결정하는 단계
를 포함한다.
본 개시의 제3 양태에 따르면, 음성 인식 오류 정정 디바이스가 제공된다. 디바이스는 획득 유닛, 제1 음성 인식 유닛, 및 인식 결과 결정 유닛을 포함한다.
획득 유닛은 인식될 음성 데이터 및 상기 음성 데이터의 제1 인식 결과를 획득하도록 구성된다.
제1 음성 인식 유닛은 제2 인식 결과를 획득하기 위해, 제1 인식 결과의 컨텍스트 정보를 참조하여 상기 음성 데이터를 재인식하도록 구성된다.
인식 결과 결정 유닛은 상기 제2 인식 결과에 기반하여 최종 인식 결과를 결정하도록 구성된다.
본 개시의 제4 양태에 따르면, 다른 음성 인식 오류 정정 디바이스가 제공된다. 디바이스는 획득 유닛, 키워드 추출 유닛, 제2 음성 인식 유닛 및 인식 결과 결정 유닛을 포함한다.
획득 유닛은 인식될 음성 데이터 및 상기 음성 데이터의 제1 인식 결과를 획득하도록 구성된다.
키워드 추출 유닛은 상기 제1 인식 결과로부터 키워드를 추출하도록 구성된다.
제2 음성 인식 유닛은 제2 인식 결과를 획득하기 위해, 상기 제1 인식 결과의 컨텍스트 정보 및 상기 키워드를 참조하여 상기 음성 데이터를 재인식하도록 구성된다.
인식 결과 결정 유닛은 상기 제2 인식 결과에 기반하여 최종 인식 결과를 결정하도록 구성된다.
일 실시예에서, 상기 키워드 추출 유닛은 분야-특정 단어 추출 유닛을 포함한다.
분야-특정 단어 추출 유닛은 상기 제1 인식 결과로부터의 분야-특정 단어를 키워드로서 추출하도록 구성된다.
일 실시예에서, 제2 음성 인식 유닛은 음향 특징 획득 유닛 및 모델 프로세싱 유닛을 포함한다.
상기 음향 특징 획득 유닛은 상기 음성 데이터의 음향 특징을 획득하도록 구성된다.
상기 모델 프로세싱 유닛은 상기 제2 인식 결과를 획득하기 위해, 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드를 미리 훈련된 음향 인식 오류 정정 모델에 입력하도록 구성된다. 음성 인식 오류 정정 모델은 오류-정정 훈련 데이터 셋을 이용하여 미리 설정된 모델을 훈련함으로써 획득된다.
상기 오류-정정 훈련 데이터 셋은 적어도 하나의 그룹의 오류-정정 훈련 데이터를 포함하고, 각 그룹의 오류-정정 훈련 데이터는 하나의 피스의 음성 데이터의 음향 특징, 상기 하나의 피스의 음성 데이터에 대응하는 텍스트, 상기 하나의 피스의 음성 데이터에 대응하는 제1 인식 결과, 및 상기 제1 인식 결과의 키워드를 포함한다.
일 실시예에서, 상기 모델 프로세싱 유닛은 인코딩 및 어텐션 계산 유닛 및 인식 유닛을 포함한다.
상기 인코딩 및 어텐션 계산 유닛은 상기 음성 인식 오류 정정 모델을 이용하여 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드에 대해 인코딩 및 어텐션 계산을 수행하도록 구성된다.
상기 인식 유닛은 상기 계산 결과에 기반하여 상기 제2 인식 결과를 획득하도록 구성된다.
일 실시예에서, 상기 인코딩 및 어텐션 계산 유닛은 제1 인코딩 및 어텐션 계산 유닛을 포함하고, 상기 인식 유닛은 제1 디코딩 유닛을 포함한다.
상기 제1 인코딩 및 어텐션 계산 유닛은 상기 계산 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 인코딩 레이어 및 어텐션 레이어를 이용하여 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드의 각각에 대해 인코딩 및 어텐션 계산을 수행하도록 구성된다.
상기 제1 디코딩 유닛은 상기 제2 인식 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 디코딩 레이어를 이용하여 상기 계산 결과를 디코딩하도록 구성된다.
일 실시예에서, 상기 모델 프로세싱 유닛은 병합 유닛을 더 포함한다. 상기 인코딩 및 어텐션 계산 유닛은 제2 인코딩 및 어텐션 계산 유닛을 포함한다. 인식 유닛은 제2 디코딩 유닛을 포함한다.
상기 병합 유닛은 병합된 벡터를 획득하기 위해, 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드를 병합하도록 구성된다.
상기 제2 인코딩 및 어텐션 계산 유닛은 상기 계산 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 인코딩 레이어 및 상기 어텐션 레이어를 이용하여 상기 병합된 벡터에 대해 인코딩 및 어텐션 계산을 수행하도록 구성된다.
상기 제2 디코딩 유닛은 상기 제2 인식 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 디코딩 레이어를 이용하여 상기 계산 결과를 디코딩하도록 구성된다.
일 실시예에서, 상기 제1 인코딩 및 어텐션 계산 유닛은 제1 인코딩 유닛 및 제1 어텐션 계산 유닛을 포함한다.
상기 제1 인코딩 유닛은 각 타겟 오브젝트의 상기 음향 어드밴스드 특징을 획득하기 위해, 상기 음향 인식 오류 정정 모델의 상기 인코딩 레이어를 이용하여 상기 타겟 오브젝트를 인코딩하도록 구성된다.
상기 제1 어텐션 계산 유닛은 상기 타겟 오브젝트와 관련된 히든 레이어 상태를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 어텐션 레이어를 이용하여 각 타겟 오브젝트와 관련된 이전 시맨틱 벡터 및 상기 음성 인식 오류 정정 모델의 이전 출력 결과에 대해 어텐션 계산을 수행하며; 상기 타겟 오브젝트와 관련된 시맨틱 벡터를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 어텐션 레이어를 이용하여 상기 타겟 오브젝트의 상기 음향 어드밴스드 특징 및 상기 타겟 오브젝트와 관련된 상기 히든 레이어 상태에 대해 어텐션 계산을 수행하도록 구성된다. 상기 타겟 오브젝트는 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과, 및 상기 키워드를 포함한다.
일 실시예에서, 상기 제2 인코딩 및 어텐션 계산 유닛은 제2 인코딩 유닛 및 제2 어텐션 계산 유닛을 포함한다.
상기 제2 인코딩 유닛은 상기 병합된 벡터의 상기 음향 어드밴스드 특징을 획득하기 위해, 상기 음향 인식 오류 정정 모델의 상기 인코딩 레이어를 이용하여 상기 병합된 벡터를 인코딩하도록 구성된다.
상기 제2 어텐션 계산 유닛은 상기 병합된 벡터와 관련된 히든 레이어 상태를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 어텐션 레이어를 이용하여 상기 병합된 벡터와 관련된 이전 시맨틱 벡터 및 상기 음성 인식 오류 정정 모델의 이전 출력 결과에 대해 어텐션 계산을 수행하며; 상기 병합된 벡터와 관련된 상기 시맨틱 벡터를 획득하기 위해, 상기음성 인식 오류 정정 모델의 상기 어텐션 레이어를 이용하여 상기 병합된 벡터의 상기 음향 어드밴스드 특징 및 상기 병합된 벡터와 관련된 상기 히든 레이어 상태에 대해 어텐션 계산을 수행하도록 구성된다.
일 실시예에서, 상기 인식 결과 결정 유닛은 신뢰도 획득 유닛 및 결정 유닛을 포함한다.
신뢰도 획득 유닛은 상기 제1 인식 결과의 신뢰도 및 상기 제2 인식 결과의 신뢰도를 획득하도록 구성된다.
결정 유닛은 상기 제1 인식 결과 및 상기 제2 인시 결과 중 더 높은 신뢰도를 갖는 것을 최종 인식 결과로서 결정하도록 구성된다.
본 개시의 제5 양태에 따르면, 음성 인식 오류 정정 시스템이 제공된다. 상기 시스템은 메모리 및 프로세서를 포함한다.
상기 메모리는 프로그램을 저장하도록 구성된다.
상기 프로세서는 전술된 음성 인식 오류 정정 방법을 수행하기 위해 상기 프로그램을 실행시키도록 구성된다.
본 개시의 제6 양태에 따르면, 판독 가능 저장 매체가 제공된다. 판독 가능 저장 매체는, 프로세서에 의해 실행될 때, 전술된 음성 인식 오류 정정 방법을 수행하는 컴퓨터 프로그램을 저장한다.
본 개시의 제7 실시예에 따르면, 컴퓨터 프로그램 제품이 제공된다. 컴퓨터 프로그램 제품은, 단말 디바이스에서 실행될 때, 상기 단말 디바이스가 전술된 음성 인식 오류 정정 방법을 수행하게 한다.
본 개시의 해결 수단에 따르면, 음성 인식 오류 정정 방법 및 디바이스, 및 판독 가능 저장 매체가 제공된다. 방법은, 인식될 음성 데이터 및 음성 데이터의 제1 인식 결과를 획득하는 단계, 제2 인식 결과를 획득하기 위해, 제1 인식 결과의 컨텍스트 정보를 참조하여 음성 데이터를 재인식하는 단계, 및 제2 인식 결과에 기반하여 최종 인식 결과를 결정하는 단계를 포함한다. 이 방법에서, 음성 데이터는 제1 인식 결과의 컨텍스트 정보를 참조하여 재인식되며, 이는 그 인식 결과의 컨텍스트 정보와 음성 데이터의 적용 시나리오를 충분히 고려한다. 제1 인식 결과에 어떤 오류가 발생하면, 제2 인식에 기반하여, 제1 인식 결과는 정정된다. 따라서, 음성 인식의 정확도가 향상될 수 있다.
상기에 기초하여, 제1 인식 결과로부터 키워드가 더 추출될 수 있다. 음성 데이터는 제1 인식 결과의 컨텍스트 정보 및 키워드를 참조하여 재인식될 수 있으며, 이로써, 제2 인식 결과의 정확도가 더 향상될 수 있다.
이하, 바람직한 실시예들의 상세한 설명을 읽음으로써, 다양한 다른 이득들 및 장점들은 해당 기술분야에서 통상의 지식을 가진 사람에게 명백하다. 도면은 본 개시를 제한하기 보다는 바람직한 실시예들을 예시하기 위해 사용된다. 도면 전체에 걸쳐, 동일한 참조 부호들은 동일한 구성 요소들을 나타내는 데 사용된다. 도면에서,
도 1은 본 개시의 일 실시예에 다른 음성 인식 오류 정정 방법의 순서도이다;
도 2는 본 개시의 다른 실시예에 따른 음성 인식 오류 정정 방법의 순서도이다;
도 3은 본 개시의 일 실시예에 따른 음성 인식 오류 정정 모델을 훈련하기 위한 미리 설정된 모델의 토폴로지 구조의 개략도이다;
도 4는 본 개시의 다른 실시예에 따른 음성 인식 오류 정정 모델을 훈련하기 위한 미리 설정된 모델의 토폴로지 구조의 개략도이다;
도 5는 본 개시의 일 실시예에 따른 음성 인식 오류 정정 디바이스의 개략적인 구조도이다;
도 6은 본 개시의 다른 실시예에 따른 음성 인식 오류 정정 디바이스의 개략적인 구조도이다; 그리고
도 7은 본 개시의 일 실시예에 따른 음성 인식 오류 정정 시스템의 하드웨어 구조의 블록도이다.
이하, 본 개시의 실시예들의 기술적 해결 수단이 본 개시의 실시예들에 대한 도면과 함께 명확하고 완전하게 설명된다. 명백히, 후술되는 실시예들은 모든 실시예들이 아니라, 본 개시의 일부 실시예들에 불과하다. 본 개시의 실시예들에 기반하여 해당 기술분야에서 통상의 지식을 가진 사람에 의해 어떠한 창의적인 노력 없이 획득되는 임의의 다른 실시예들도 본 개시의 범위에 속한다.
특수한 시나리오들(예컨대, 전문 분야들)에서 음성 인식의 정확도를 향상시키기 위해, 본 발명자들은 다음과 같은 연구를 수행하였다.
특수한 시나리오의 분야-특정 단어들을 포함하는 텍스트들이 기존의 음성 인식 모델을 최적화하고 커스터마이즈(customize)하기 위해 코퍼스들(corpuses)로서 수집된다. 커스터마이즈되고 최적화된 모델은 이 특수한 시나리오에서 음성들을 인식하는 데 있어서 높은 정확도를 달성한다. 그러나, 커스터마이즈되고 최적화된 모델은 기존의 음성 인식 모델에 비해 일반적인 시나리오에서 음성들을 인식하는 데 있어서 정확도가 저하된다.
일반적인 시나리오들과 특수한 시나리오들 모두에서 정확한 음성 인식을 보장하기 위해서는, 인식을 시작하기 전에, 인식될 음성이 일반적인 시나리오에서 생성되는지 또는 특수한 시나리오에서 생성되는지를 미리 판단하는 것이 필요하다. 음성이 일반적인 시나리오에서 생성되면, 인식은 기존의 음성 인식 모델을 이용하여 수행된다. 음성이 특수한 시나리오에서 생성되면, 인식은 커스터마이즈되고 최적화된 모델을 이용하여 수행된다. 이러한 방식으로, 일반적인 시나리오와 특수한 시나리오 모두에서 음성 인식의 정확도가 보장된다. 그러나, 음성 인식 시스템은, 인식을 시작하기 전에, 인식될 음성이 일반적인 시나리오에서 생성되는지 또는 특수한 시나리오에서 생성되는지 판단하는 것이 불가능하다.
상기와 같은 관점에서, 본 발명자들은 심도 있는 연구를 수행하여, 기존의 음성 인식 기술에서는, 음성 데이터 스트림에 기반하여 인식 결과가 획득되면, 인식 결과가 정정되지 않는다는 점을 발견하였다. 그러나, 실제 적용에서, 음성 데이터 스트림의 첫 번째 절(clause)은 불충분한 컨텍스트 정보로 인해 잘못 인식되더라도, 첫 번째 절 다음의 절은 충분한 컨텍스트 정보로 인해 정확하게 인식될 수 있다. 즉, 동일한 단어가 첫 번째 절에서는 잘못 인식되지만, 두 번째 절에서는 정확하게 인식될 수 있다.
예를 들어, “Scientists from the Sok Institute in California found that autophagy reaction inhibits the occurrence of cancer, which is just the opposite of what many people thought in the past, so the therapies for inhibiting autophagy reaction may result in bad consequences.(캘리포니아의 속 연구소의 과학자들은 자가포식 반응이 암의 발생을 억제한다는 것을 발견했는데, 이는 많은 사람들이 과거에 생각했던 것과는 정반대이므로 자가포식 반응을 억제하는 치료법들이 나쁜 결과들을 초래할 수 있다.)”라는 음성은 “Scientists from the Sok Institute in California found that this reaction inhibits the occurrence of cancer, which is just the opposite of what many people thought in the past, so that the therapies for inhibiting autophagy reaction may result in bad consequences.(캘리포니아의 속 연구소의 과학자들은 이 반응이 암의 발생을 억제한다는 것을 발견했는데, 이는 많은 사람들이 과거에 생각했던 것과는 정반대이므로 자가포식 반응을 억제하는 치료법들이 나쁜 결과들을 초래할 수 있다.)”와 같이 인식된다.
상기의 예에서, 생소한 분야-특정 용어 “autophagy reaction(자가포식 반응)”이 처음 발생할 때 선행 텍스트에 관련 콘텐트가 많지 않으며, 인식 오류가 초래된다. 이에 반해, 용어 “autophagy reaction”의 두 번째 발생은 용어 “inhibiting(억제하는)”의 다음이며, “inhibiting autophagy reaction(자가포식 반응을 억제하는)”의 병합된 언어 모델이 높은 스코어를 가지므로, 인식이 정확하다.
상기의 연구에 기반하여, 본 발명자들은 인식 결과의 컨텍스트 정보가 인식 결과의 정확성에 영향을 미칠 수 있음을 발견하였다. 따라서, 인식될 음성 데이터의 제1 인식 결과의 컨텍스트 정보에 기반하여, 인식될 음성 데이터가 재인식되어, 제2 인식 결과가 획득될 수 있다. 제2 인식 결과에서, 제1 인식 결과에서 잘못 인식된 분야-특정 단어가 정정됨으로써, 음성 인식 결과의 정확도가 향상될 수 있다.
이에, 본 발명자들은 음성 인식 오류 정정 방법을 제안한다. 다음으로, 본 개시에 따른 음성 인식 오류 정정 방법이 다음의 실시예들과 관련하여 설명된다.
본 개시의 일 실시예에 따른 음성 인식 오류 정정 방법의 순서도인 도 1을 참조하면, 방법은 다음의 단계들 S101 내지 S103을 포함할 수 있다.
S101에서, 인식될 음성 데이터 및 인식될 음성 데이터의 제1 인식 결과가 획득된다.
이 실시예에서, 인식될 음성 데이터는, 필요에 따라 애플리케이션에서 사용자로부터의 것, 예컨대, 단문 메시지를 보내거나 채팅할 때 음성 입력을 사용하여 사용자에 의해 입력되는 음성 데이터이다. 인식될 음성 데이터는 일반적인 분야의 음성 데이터 또는 특수한 시나리오(예컨대, 전문 분야)의 음성 데이터일 수 있다.
본 개시에서, 인식될 음성 데이터의 제1 인식 결과는 다양한 방식들로 획득될 수 있다. 예를 들어, 제1 인식 결과는 신경망 모델(neural network model)에 기반하여 획득될 수 있다. 명백히, 인식될 음성의 제1 인식 결과를 획득하는 다른 방식들도 본 개시의 범위 내에 속한다. 예를 들어, 인식될 음성 데이터의 제1 인식 결과는 미리 저장될 수 있고, 사용을 위해 저장 매체로부터 직접 획득될 수 있다.
단계 S102에서, 제2 인식 결과를 획득하기 위해, 음성 데이터가 제1 인식 결과의 컨텍스트 정보를 참조하여 재인식될 수 있다.
상기에서 소개된 본 발명자들의 연구로부터, 인식 결과의 컨텍스트 정보가 인식 결과의 정확성에 영향을 미친다는 것을 알 수 있다. 따라서, 이 실시예에서, 제2 인식 결과를 획득하기 위해, 음성 데이터가 제1 인식 결과의 컨텍스트 정보를 참조하여 재인식될 수 있다.
이 실시예에서, 제2 인식 결과를 획득하기 위해, 제1 인식 결과의 컨텍스트 정보를 참조하여 음성 데이터를 재인식하기 위한 많은 구현들이 있다. 예를 들어, 음성 데이터는 신경망 모델에 기반하여 재인식될 수 있다.
명백히, 다른 구현들도 본 개시의 범위 내에 속한다. 예를 들어, 제1 인식 결과에 포함된 분야-특정 단어가 식별되어, 제1 인식 결과 내의 다른 단어들로부터, 분야-특정 단어와 미리 설정된 한계(limit)보다 더 높은 정도로 일치하고 분야-특정 단어와 정확하게 동일하지는 않은 단어가 발견된다. 제2 인식 결과를 획득하기 위해, 발견된 단어가 분야-특정 단어로 대체된다.
상기의 예에서, 제1 인식 결과 “Scientists from the Sok Institute in California found that this reaction inhibits the occurrence of cancer, which is just the opposite of what many people thought in the past, so that the therapies for inhibiting autophagy reaction may result in bad consequences.(캘리포니아의 속 연구소의 과학자들은 이 반응이 암의 발생을 억제한다는 것을 발견했는데, 이는 많은 사람들이 과거에 생각했던 것과는 정반대이므로 자가포식 반응을 억제하는 치료법들이 나쁜 결과들을 초래할 수 있다.)”에 대해, “autophagy reaction”과 같은 분야-특정 단어가 추출될 수 있다. 그런 다음, 제1 인식 결과의 단어들이 비교된다. 용어 “this reaction”이 “autophagy reaction”이 50 %의 정도로 일치하는 것으로 나타난다. 미리 설정된 하한이 30 %라고 가정하면, 제1 인식 결과의 “this reaction”은 “autophagy reaction”으로 대체되어, 제2 인식 결과 "Scientists from the Sok Institute in California found that autophagy reaction inhibits the occurrence of cancer, which is just the opposite of what many people thought in the past, so that the therapies for inhibiting autophagy reaction may result in bad consequences.(캘리포니아의 속 연구소의 과학자들은 자가포식 반응이 암의 발생을 억제한다는 것을 발견했는데, 이는 많은 사람들이 과거에 생각했던 것과는 정반대이므로 자가포식 반응을 억제하는 치료법들이 나쁜 결과들을 초래할 수 있다.)"를 얻을 수 있음을 나타낸다.
단계 S103에서, 제2 인식 결과에 기반하여, 최종 인식 결과가 결정된다.
본 개시에서, 제2 식별 결과가 최종 식별 결과로서 바로 결정될 수 있다. 그러나, 일부 경우들에서, 제2 인식 결과는 제1 인식 결과보다 좋지 않을 수 있으며, 제2 인식 결과가 최종 인식 결과로서 바로 결정되면, 인식 정확도가 저하된다. 따라서, 이 경우에, 제1 인식 결과 및 제2 인식 결과 중 최적의 하나가 최종 인식 결과로서 결정된다.
제1 인식 결과 및 제2 인식 결과 중 최적의 하나를 결정하기 위한 많은 방식들이 있다. 일 구현으로서, 제1 인식 결과의 신뢰도 및 제2 인식 결과의 신뢰도가 획득될 수 있고, 제1 인식 결과 및 제2 인식 결과 중 더 높은 신뢰도를 갖는 것이 최종 인식 결과로서 결정된다.
명백히, 다른 구현들도 본 개시의 범위 내에 속한다. 예를 들어, 최적의 식별 결과는 제1 식별 결과 및 제2 식별 결과로부터 수동 검증에 의해 결정될 수 있다.
이 실시예에 따른 음성 인식 오류 정정 방법이 제공된다. 방법은, 인식될 음성 데이터 및 인식도리 음성 데이터의 제1 인식 결과를 획득하는 단계; 제2 인식 결과를 획득하기 위해, 제1 인식 결과의 컨텍스트 정보를 참조하여 음성 데이터를 재인식하는 단계; 및 제2 인식 결과에 기반하여 최종 인식 결과를 결정하는 단계를 포함한다. 방법에서, 음성 데이터는 제1 인식 결과의 컨텍스트 정보를 참조하여 재인식되며, 따라서, 인식 결과의 컨텍스트 정보의 적용 시나리오가 충분히 고려된다. 제1 인식 결과가 잘못된 경우, 제1 인식 결과는 재인식에 기반하여 정정된다. 따라서, 음성 인식의 정확도가 향상될 수 있다.
본 개시의 다른 실시예들에 따른 음성 인식 오류 정정 방법이 더 제공되며, 여기서, 키워드가 제1 인식 결과로부터 추출될 수 있고, 이에 따라, 음성 데이터가 컨텍스트 정보 및 키워드를 참조하여 재인식되어, 제2 인식 결과의 정확도가 더 향상될 수 있다. 도 2를 참조하면, 방법은 다음의 단계들 S2012 내지 S203을 포함한다.
단계 S201에서, 인식될 음성 데이터 및 인식될 음성 데이터의 제1 인식 결과가 획득된다.
단계 S201은 상술된 단계 S101과 동일하다. 상세한 구현에 대해, 상기의 설명을 참조할 수 있으며, 그 구현은 여기에서 반복되지 않는다.
단계 S202에서, 키워드가 제1 인식 결과로부터 추출된다.
이 실시예에서, 키워드는 제1 인식 결과로부터 추출되는 분야-특정 단어일 수 있다. 즉, 키워드는 제1 인식 결과에 포함되고 분야와 관련되는 단어일 수 있다. 일반적으로, 키워드는 분야-특정 단어이다. 이러한 종류의 단어들의 예들로는, 의료 분야의 “자가포식 반응(autophagy reaction)”, “뼈 견인(bone traction)”, “신장 생검(renal biopsy)” 등 및 컴퓨터 분야의 “피드포워드(feedforward) 신경망”, “풀 레이어(pool layer)” 등이 있을 수 있다.
단계 S203에서, 제2 인식 결과를 획득하기 위해, 제1 인식 결과의 컨텍스트 결과 및 키워드를 참조하여, 음성 데이터가 재인식된다.
이 실시예에서, 음성 데이터는 제1 인식 결과의 컨텍스트 정보 및 키워드를 모두 참조하여 재인식된다. 제2 인식 결과를 획득하는 많은 구현들이 있을 수 있다. 예를 들어, 제2 인식 결과는 신경망 모델에 기반하여 획득될 수 있다.
명백히, 다른 구현들도 본 개시의 범위 내에 속한다. 예를 들어, 키워드와 미리 설정된 한계보다 더 높은 정도로 일치하고 키워드와 정확하게 동일하지 않은 제1 인식 결과에 포함된 단어가 발견된다. 제2 인식 결과를 획득하기 위해, 발견된 단어가 키워드로 대체된다.
단계 S204에서, 제2 인식 결과에 기반하여, 최종 인식 결과가 결정된다.
단계 S204는 상술된 단계 S103과 동일하다. 상세한 구현에 대해, 상기의 설명을 참조할 수 있으며, 그 구현은 여기에서 반복되지 않는다.
이 실시예의 음성 인식 오류 정정 방법이 개시된다. 방법에서, 키워드는 제1 인식 결과로부터 추출된다. 키워드는 분야-특정 단어일 수 있다. 따라서, 제1 인식 결과의 컨텍스트 정보 및 키워드를 참조하여, 음성 데이터가 재인식됨으로써, 제2 인식 결과의 정확도가 더 향상된다.
본 개시에서, 인식될 음성 데이터의 제1 인식 결과가 신경망 모델에 기반하여 획득되는 경우, 제1 인식 결과를 획득하기 위해, 음성 데이터가 미리 훈련된 음성 인식 모델에 입력될 수 있다. 미리 훈련된 음성 인식 모델은 기존의 음성 인식 모델, 또는 인식-훈련 데이터 셋으로 미리 설정된 모델을 훈련함으로써 생성되는 음성 인식 모델일 수 있다. 인식-훈련 데이터 셋은 적어도 하나의 그룹의 인식-훈련 데이터를 포함하고, 각 그룹의 인식-훈련 데이터는 하나의 피스의 음성 데이터에 대응하는 텍스트 및 그 피스의 음성 데이터의 음향 특징을 포함한다. 미리 설정된 모델은 임의의 신경망 모델일 수 있으며, 이는 본 개시에서 제한되지 않는다.
미리 훈련된 음성 인식 모델이 인식-훈련 데이터 셋으로 미리 설정된 모델을 훈련함으로써 생성되는 음성 인식 모델인 경우, 셋 내 각 피스의 인식-훈련 데이터는, 하나의 피스의 음성 데이터를 획득하고, 음성 데이터에 대응하는 텍스트를 획득하기 위해, 음성 데이터에 수동으로 라벨링하고; 음성 데이터의 음향 특징을 추출하며; 음성 데이터에 대응하는 텍스트 및 음성 데이터의 음향 특징을 포함하는 하나의 피스의 인식-훈련 데이터를 생성함으로써, 획득된다는 점에 유의해야 한다.
본 개시에서, 음성 데이터를 획득하기 위한 다양한 방식들이 있다. 예를 들어, 음성 데이터는 지능형 단말의 마이크로폰을 통해 수신될 수 있다. 지능형 단말기는 스마트폰, 컴퓨터, 번역기(translator), 로봇, 스마트홈, 및 스마트가전과 같은 음성 인식 기능을 갖는 전자 디바이스이다. 대안적으로, 음성 데이터를 획득하는 다른 방식들도 본 개시의 범위 내에 속하며, 이는 본 개시에서 제한되지 않는다.
본 개시에서, 각 피스의 음성 데이터의 음향 특징은 음성 데이터의 스펙트럼 특징(spectral feature), 예컨대, MFCC(Mel frequency cepstral coefficient) 또는 FBank 특징일 수 있다. 본 개시에서, 각 피스의 음성 데이터의 음향 특징은 임의의 메인스트림 음향 특징 추출 방법으로 추출될 수 있으며, 이는 본 개시에서 제한되지 않는다.
본 개시에서, 훈련될 미리 설정된 모델은 전통적인 어텐션 기반 인코더-디코더(어텐션 메커니즘에 기반한 인코딩 및 디코딩) 또는 임의의 다른 모델 구조일 수 있으며, 이는 본 개시에서 제한되지 않는다.
본 개시에서, 인식-훈련 데이터로 미리 설정된 모델을 훈련할 때, 미리 설정된 모델의 파라미터들을 훈련하기 위해, 인식-훈련 데이터 내 각 피스의 음성 데이터의 음향 특징은 미리 설정된 모델에 대한 입력으로서 취해지고, 각 피스의 음성 데이터에 대응하는 텍스트는 훈련 타겟으로서 취해진다.
본 개시에서, 키워드는 명명된 개체 인식(Named Entity Recognition; NER) 기술을 이용하여 제1 인식 결과로부터 추출될 수 있다. 명백히, 제1 인식 결과의 키워드를 추출하는 다른 구현들도 본 개시의 범위 내에 속한다. 예를 들어, 키워드는 제1 인식 결과로부터 수동으로 추출될 수 있다.
현재, NER 기술은 신경망 모델에 기반하여 실현될 수 있다. 이 경우, 제1 인식 결과의 키워드를 획득하기 위해, 미리 훈련된 키워드 추출 모델에 제1 인식 결과를 입력함으로써, 제1 인식 결과로부터 키워드가 추출될 수 있다.
키워드 추출 모델은, 추출-훈련을 위한 데이터 셋에 기반하여 미리 설정된 모델 구조를 훈련함으로써, 생성될 수 있다는 점에 유의해야 한다. 데이터 셋은 적어도 하나의 그룹의 추출-훈련 데이터를 포함하고, 각 그룹의 추출-훈련 데이터는 분야-특정 용어들이 마크된(marked) 텍스트를 포함한다. 각 텍스트는 특수한 시나리오의 텍스트일 수 있으며, 여기서, 분야-특정 용어들이 수동 주석(annotation)에 의해 마크된다.
미리 설정된 모델은 딥 러닝 기반의 BiLSTM_CRF(bidirectional long-term and short-term memory model_conditional random field) 모델일 수 있다.
예를 들어, "Autophagy reaction inhibits the occurrence of cancer, which is just the opposite of what many people thought in the past, so that the therapies for inhibiting autophagy reaction may result in bad consequences.(자가포식 반응이 암의 발생을 억제하는 데, 이는 많은 사람들이 과거에 생각했던 것과는 정반대이므로 자가포식 반응을 억제하는 치료법들이 나쁜 결과들을 초래할 수 있다.)"의 제1 인식 결과가 키워드 추출 모델에 입력되며, 키워드 추출 모델은 키워드들 “autophagy reaction”, “cancer(암)” 및 “therapies(치료법들)”를 출력한다.
또한, NER 기술은 통계적 모델에 기반하여 구현될 수도 있다. 이 경우, 제1 인식 결과의 키워드를 획득하기 위해, 통계적 모델에 제1 인식 모델을 입력함으로써, 제1 인식 결과로부터 키워드가 추출될 수 있다. 통계적 모델을 구성하는 방식은 해당 기술분야에 알려져 있으며, 본 개시에서 상세하게 설명되지 않는다.
본 개시에서, 신경망 모델에 기반하여 제2 인식 결과를 획득하기 위해, 제 1 인식 결과의 컨텍스트 정보를 참조하여 음성 데이터가 재인식되는 경우, 제2 인식 결과를 획득하기 위해, 음성 데이터의 음향 특징 및 제1 인식 결과가 미리 훈련된 음성 인식 오류 정정 모델에 입력될 수 있다. 음성 인식 오류 정정 모델은, 오류-정정 훈련을 위한 데이터 셋으로 미리 설정된 모델을 훈련함으로써, 획득된다. 데이터 셋은 적어도 하나의 그룹의 오류-정정 훈련 데이터를 포함하고, 각 그룹의 오류-정정 훈련 데이터는 하나의 피스의 음성 데이터에 대응하는 음향 특징, 그 피스의 음성 데이터에 대응하는 텍스트, 및 그 피스의 음성 데이터에 대응하는 제1 인식 결과를 포함한다.
음성 인식 오류 정정 모델을 훈련할 때, 하나의 피스의 음성 데이터에 대응하는 음향 특징 및 그 피스의 음성 데이터에 대응하는 제1 인식 결과는 미리 설정된 음성 인식 오류 정정 모델 구조에 대한 입력으로서 취해지고, 그 피스의 음성 데이터에 대응하는 텍스트는 미리 설정된 음성 인식 오류 정정 모델 구조의 훈련 타겟으로서 취해진다는 점에 유의해야 한다.
각 그룹의 오류 정정 훈련 데이터는, 하나의 피스의 음성 데이터를 획득하고, 음성 데이터에 대응하는 텍스트를 획득하기 위해, 음성 데이터에 수동으로 마크하고(marking), 음성 데이터의 음향 특징을 추출하며, 음성 데이터에 대응하는 제1 인식 결과를 획득하기 위해, 미리 훈련된 음성 인식 모델에 음성 데이터를 입력함으로써, 획득될 수 있다.
다른 실시예에서, 신경망 모델에 기반하여 제2 인식 결과를 획득하기 위해, 제1 인식 결과의 컨텍스트 정보 및 키워드를 참조하여 음성 데이터가 재인식되는 경우, 제2 인식 결과를 획득하기 위해, 음성 데이터의 음향 특징, 제1 인식 결과 및 키워드가 미리 훈련된 음성 인식 오류 정정 모델에 입력될 수 있다. 음성 인식 오류 정정 모델은, 오류-정정 훈련 데이터 셋으로 미리 설정된 모델을 훈련함으로써, 획득된다. 오류-정정 훈련 데이터 셋은 적어도 하나의 그룹의 오류-정정 훈련 데이터를 포함하고, 각 그룹의 오류-정정 훈련 데이터는 하나의 피스의 음성 데이터에 대응하는 음향 특징, 그 피스의 음성 데이터에 대응하는 텍스트, 그 피스의 음성 데이터에 대응하는 제1 인식 결과, 및 제1 인식 결과의 키워드를 포함한다.
음성 인식 오류 정정 모델을 훈련할 때, 하나의 피스의 음성 데이터에 대응하는 음향 특징, 그 피스의 음성 데이터에 대응하는 제1 인식 결과, 및 제1 인식 결과의 키워드는 미리 설정된 음성 인식 오류 정정 모델 구조에 대한 입력으로서 취해지며, 그 피스의 음성 데이터에 대응하는 텍스트는 미리 설정된 음성 인식 오류 정정 모델 구조의 훈련 타겟으로서 취해진다는 점에 유의해야 한다.
각 그룹의 오류-정정 훈련 데이터는, 하나의 피스의 음성 데이터를 획득하고, 음성 데이터에 대응하는 텍스트를 획득하기 위해, 음성 데이터에 수동으로 마크하고, 음성 데이터의 음향 특징을 추출하고, 음성 데이터에 대응하는 제1 인식 결과를 획득하기 위해, 미리 훈련된 음성 인식 모델에 음성 데이터를 입력하며, 제1 인식 결과의 키워드를 획득하기 위해, 미리 훈련된 키워드 추출 모델에 제1 인식 결과를 입력함으로써, 획득될 수 있다.
본 개시의 실시예들에서, 제2 인식 결과는 두 가지의 구현들로 획득될 수 있다. 두 가지의 구현들은 음성 인식 오류 정정 모델을 기반으로 하며, 두 가지의 구현들은 모델의 입력 데이터에서 서로 다르다. 첫 번째 구현에서, 음성 데이터의 음향 특징 및 제1 인식 결과가 모델에 입력된다. 두 번째 구현에서, 음성 데이터의 음향 특징, 제1 인식 결과, 및 제1 인식 결과로부터 추출되는 키워드가 모델에 입력된다. 즉, 제1 구현과 비교하여, 제2 구현은 모델에 키워드를 추가로 입력한다.
다음으로, 두 번째 구현을 예로 들어, 음성 인식 오류 정정 모델에 대한 프로세싱이 설명된다.
본 개시에서, 음성 데이터의 음향 특징, 제1 인식 결과 및 키워드가 미리 훈련된 음성 인식 오류 정정 모델에 입력되어, 음성 인식 오류 정정 모델에 의해, 음성 데이터의 음향 특징, 제1 인식 결과 및 키워드를 인코딩하고, 제2 인식 결과를 획득하기 위해, 음성 인식 오류 정정 모델에 의해, 어텐션 계산을 수행함으로써, 제2 인식 결과가 획득된다.
본 개시의 일 실시예에 따른 음성 인식 오류 정정 모델을 훈련하기 위한 미리 설정된 모델의 토폴로지 구조의 개략도인 도 3을 참조한다. 모델은 세 개의 레이어들, 즉, 인코딩 레이어, 어텐션 레이어 및 디코딩 레이어를 포함한다. 인코딩 레이어의 기능은 어드밴스드 특징을 추출하는 것이다. 어텐션 레이어의 기능은 어텐션 레이어에 대한 입력과 최종 출력 결과 사이의 상관 관계(correlation)를 계산하는 것이다. 어텐션 레이어의 출력은 디코딩 레이어에 대한 입력이 되며, 디코딩 레이어의 출력은 현재 출력 결과가 된다. 디코딩 레이어는 소프트맥스(softmax)를 갖는 단일 레이어 신경망일 수 있으며, 이는 본 개시에서 제한되지 않는다.
인코딩 레이어는 세 개의 부분들, 즉, 제1 인코딩 모듈, 제2 인코딩 모듈 및 제3 인코딩 모듈로 더 구분될 수 있다.
제1 인코딩 모듈, 제2 인코딩 모듈 및 제3 인코딩 모듈은 역 피라미드 형태의 양방향 순환 신경망(recursive neural network; RNN) 또는 컨볼루션 신경망(convolutional neural network; CNN)의 구조일 수 있으며, 이는 본 개시에서 제한되지 않는다.
어텐션 레이어도 세 개의 부분들, 즉, 제1 어텐션 모듈, 제2 어텐션 모듈 및 제3 어텐션 모듈로 구분될 수 있다. 제1 어텐션 모듈, 제2 어텐션 모듈 및 제3 어텐션 모듈은 양방향 RNN 또는 단방향 RNN의 구조일 수 있으며, 이는 본 개시에서 제한되지 않는다.
어텐션 레이어의 출력은 디코딩 레이어에 대한 입력이 되며, 디코딩 레이어의 출력은 현재 출력 결과가 된다. 디코딩 레이어는 소프트맥스를 갖는 단일 레이어 신경망일 수 있으며, 이는 여기에서 제한되지 않는다.
제1 인코딩 모듈에 대한 입력은 인식될 음성 데이터의 음향 특징 X이고, 제1 인코딩 모듈의 출력은 어드밴스드 음향 특징 Ha이다. 제2 인코딩 모듈에 대한 입력은 인식될 음성 데이터의 제1 인식 결과의 캐릭터리제이션(characterization) P이고, 제2 인코딩 모듈의 출력은 제1 인식 결과의 캐릭터리제이션 P의 어드밴스드 특징 Hw이다. 제3 인코딩 모듈에 대한 입력은 인식될 음성 데이터의 제1 인식 결과의 키워드의 캐릭터리제이션 Q이며, 제3 인코딩 모듈의 출력은 키워드의 캐릭터리제이션 Q의 어드밴스드 특징 Hr이다.
이전 출력 결과 yi-1는 제1 어텐션 모듈, 제2 어텐션 모듈 및 제3 어텐션 모듈에 대한 공통 입력이다. 또한, 세 개의 부분들은 상이한 입력들과 출력들을 갖는다. 제1 어텐션 모듈에 대한 입력은 Ha이고, 제1 어텐션 모듈의 출력은 음성과 관련된 히든 레이어 상태 sai 및 시맨틱 벡터 cai이다. 제2 어텐션 모듈에 대한 입력은 Hw이고, 제2 어텐션 모듈의 출력은 제1 인식 결과와 관련된 히든 레이어 swi 및 시맨틱 벡터 cwi이다. 제3 어텐션 모듈에 대한 입력은 Hr이고, 제3 어텐션 모듈의 출력은 제1 인식 결과의 키워드와 관련된 히든 레이터 상태 sri 및 시맨틱 벡터 cri이다.
디코딩 레이어에 대한 입력은 어텐션 레이어의 출력 sai, cai, swi, cwi, sri 및 cri이다. 디코딩 레이어의 출력은 현재 출력 결과 yi이고, yi는 인식될 음성 데이터의 인식 결과이다.
일반적으로, P(yi)가 미리 결정된 임계값보다 클 때, 훈련이 종료된다. P(yi)는 현재 출력 결과가 yi일 확률을 나타내며, P(yi)=Decode(sai, swi, sri, cai, cwi, cri)이다.
상기의 모델에 기반하여, 본 개시의 일 구현으로서, 제2 인식 결과를 획득하기 위해, 음성 인식 오류 정정 모델에 의해, 음성 데이터의 음향 특징, 제1 인식 결과 및 키워드를 인코딩하고, 및 음성 인식 오류 정정 모델에 의해, 어텐션 계산을 수행하는 것은, 계산 결과를 획득하기 위해, 음성 인식 오류 정정 모델의 인코딩 레이어에 의해, 음성 데이터의 음향 특징, 제1 인식 결과 및 키워드를 인코딩하고, 음성 인식 오류 정정 모델의 어텐션 레이어에 의해, 어텐션 계산을 수행하는 단계; 및 제2 인식 결과를 획득하기 위해, 음성 인식 오류 정정 모델의 디코딩 레이어에 의해, 계산 결과를 디코딩하는 단계를 포함할 수 있다.
계산 결과를 획득하기 위해, 음성 인식 오류 정정 모델의 인코딩 레이어에 의해, 음성 데이터의 음향 특징, 제1 인식 결과 및 키워드를 인코딩하고, 음성 인식 오류 정정 모델의 어텐션 레이어에 의해, 어텐션 계산을 수행하는 단계는, 타겟 오브젝트의 음향 어드밴스드 특징을 획득하기 위해, 음성 인식 오류 정정 모델의 인코딩 레이어에 의해, 각 타겟 오브젝트를 인코딩하는 단계; 타겟 오브젝트와 관련된 히든 레이어 상태를 획득하기 위해, 음성 인식 오류 정정 모델의 어텐션 레이어에 의해, 타겟 오브젝트와 관련된 이전 시맨틱 벡터 및 음성 인식 오류 정정 모델의 이전 출력 결과에 대해 어텐션 계산을 수행하는 단계; 및 타겟 오브젝트와 관련된 시맨틱 벡터를 획득하기 위해, 음성 인식 오류 정정 모델의 어텐션 레이어에 의해, 타겟 오브젝트의 음향 어드밴스드 특징 및 타겟 오브젝트와 관련된 히든 상태 레이어에 대해 어텐션 계산을 수행한느 단계를 포함할 수 있다.
타겟 오브젝트는 음성 데이터의 음향 특징, 제1 인식 결과, 및 키워드를 포함한다.
상세한 프로세스가 후술된다.
제1 인코딩 모듈은 음성 데이터의 음향 어드밴스드 특징을 획득하기 위해, 음성 데이터의 음향 특징을 인코딩한다. 제1 어텐션 모듈은 음성 데이터와 관련된 히든 레이어 상태를 획득하기 위해, 음성 데이터와 관련된 이전 시맨틱 벡터 및 음성 인식 오류 정정 모델의 이전 출력 결과에 대해 어텐션 계산을 수행한다. 제1 어텐션 모듈은 음성 데이터와 관련된 시맨틱 벡터를 획득하기 위해, 음성 데이터의 음향 어드밴스드 특징 및 음성 데이터와 관련된 히든 레이어 상태에 대해 어텐션 계산을 수행한다.
제2 인코딩 모듈은 제1 인식 결과의 어드밴스드 특징을 획득하기 위해, 제1 인식 결과를 인코딩한다. 제2 어텐션 모듈은 제1 인식 결과와 관련된 히든 레이어 상태를 획득하기 위해, 제1 인식 결과와 관련된 이전 시맨틱 벡터 및 음성 인식 오류 정정 모델의 이전 출력 결과에 대해 어텐션 계산을 수행한다. 제2 어텐션 모듈은 제1 인식 결과와 관련된 시맨틱 벡터를 획득하기 위해, 제1 인식 결과의 어드밴스드 특징 및 제1 인식 결과와 관련된 히든 레이어 상태에 대해 어텐션 계산을 수행한다.
제3 인코딩 모듈은 키워드의 어드밴스드 특징을 획득하기 위해, 키워드를 인코딩한다. 제3 어텐션 모듈은 키워드와 관련된 히든 레이어 상태를 획득하기 위해, 키워드와 관련된 이전 시맨틱 벡터 및 음성 인식 오류 정정 모델의 이전 출력 결과에 대해 어텐션 계산을 수행한다. 제3 어텐션 모듈은 키워드와 관련된 시맨틱 벡터를 획득하기 위해, 키워드의 어드밴스드 특징 및 키워드와 관련된 히든 레이어 상태에 대해 어텐션 계산을 수행한다.
상기의 예는 입력 데이터가 음성 데이터의 음향 특징, 제1 인식 결과 및 키워드를 포함하는 경우의 음성 인식 오류 정정 모델의 선택적(optional) 프로세싱 프로세스임을 이해할 수 있다. 입력 데이터가 음성 데이터의 음향 특징 및 제1 인식 결과를 포함하는 경우, 도 3의 키워드를 포함하는 모든 모델 구조들 및 프로세싱 프로세스들이 생략된다. 즉, 제3 인코딩 모듈 및 제3 어텐션 모듈이 다른 모델 구조들을 변경하지 않고 음성 인식 오류 정정 모델로부터 제거된다. 특정 프로세스에 대해, 상기의 설명을 참조할 수 있으며, 그 프로세스는 여기에서 반복되지 않는다.
또한, 여전히 두 번째 구현을 예로 들어, 본 개시의 다른 실시예에 따른 음성 인식 오류 정정 모델을 훈련하기 위한 미리 설정된 모델의 토폴로지 구조의 개략도인 도 4를 참조한다. 모델은 세 개의 레이어들, 즉, 인코딩 레이어, 어텐션 레이어 및 디코딩 레이어를 포함한다. 인코딩 레이어의 기능은 어드밴스드 특징을 추출하는 것이다. 어텐션 레이어의 기능은 어텐션 레이어에 대한 입력과 최종 출력 결과 사이의 상관 관계를 계산하는 것이다. 어텐션 레이어의 출력은 디코딩 레이어에 대한 입력이 되고, 디코딩 레이어의 출력은 현재 출력 결과가 된다. 디코딩 레이어는 소프트맥스를 갖는 단일 레이어 신경망일 수 있으며, 이는 본 개시에서 제한되지 않는다.
인코딩 레이어에 대한 입력은 인식될 음성 데이터의 음향 특징 X, 인식될 음성 데이터의 제1 인식 결과의 캐릭터리제이션 P, 및 제1 인식 결과의 키워드의 캐릭터리제이션 Q에 의해 형성되는 병합된 벡터 [X, P, Q]이다. 인코딩 레이어의 출력은 음향 특징의 어드밴스드 특징 Ha, 인식될 음성 데이터의 제1 인식 결과의 캐릭터리제이션 P의 어드밴스드 특징 Hw, 및 제1 인식 결과의 키워드의 캐릭터리제이션 Q의 어드밴스드 특징 Hr에 의해 형성되는 병합된 벡터 [Ha, Hw, Hr]이다.
인코딩 레이어의 출력 및 모델의 이전 출력 결과 yi-1가 어텐션 레이어에 대한 입력이 된다. 어텐션 레이어의 출력은 음성과 관련된 히든 레이어 상태 sai 및 시맨틱 벡터 cai, 제1 인식 결과와 관련된 히든 레이어 상태 swi 및 시맨틱 벡터 cw-i, 및 제1 인식 결과의 키워드와 관련된 히든 레이어 상태 sri 및 시맨틱 벡터 cri에 의해 형성되는 벡터 [sai, cai, swi, cwi, sri, cri]이다.
어텐션 레이어의 출력은 디코딩 레이어에 대한 입력이 된다. 디코딩 레이어의 출력은 현재 출력 결과 yi가 되며, yi는 인식될 음성 데이터의 인식 결과이다.
상기의 모델에 기반하여, 본 개시의 일 구현으로서, 계산 결과에 기반하여 제2 인식 모델을 획득하기 위해, 음성 인식 오류 정정 모델에 의해, 음성 데이터의 음향 특징, 제1 인식 결과 및 키워드를 인코딩하고, 음성 인식 오류 정정 모델에 의해, 어텐션 계산을 수행하는 것은, 병합된 벡터를 획득하기 위해, 음성 데이터의 음향 특징, 제1 인식 결과 및 키워드를 병합하는 단계; 계산 결과를 획득하기 위해, 음성 인식 오류 정정 모델의 인코딩 레이어 및 어텐션 레이어에 의해, 병합된 벡터에 대해 인코딩 및 어텐션 계산을 수행하는 단계; 및 제2 인식 결과를 획득하기 위해, 음성 인식 오류 정정 모델의 디코딩 레이어에 의해, 계산 결과를 디코딩하는 단계를 포함할 수 있다.
계산 결과를 획득하기 위해, 음성 인식 오류 정정 모델의 인코딩 레이어 및 어텐션 레이어에 의해, 병합된 벡터에 대해 인코딩 및 어텐션 계산을 수행하는 단계는, 병합된 벡터의 음향 어드밴스드 특징을 획득하기 위해, 음성 인식 오류 정정 모델의 인코딩 레이어에 의해, 병합된 벡터를 인코딩하는 단계; 병합된 벡터와 관련된 히든 레이어 상태를 획득하기 위해, 병합된 벡터와 관련된 이전 시맨틱 벡터 및 음성 인식 오류 정정 모델의 이전 출력 결과에 대해 어텐션 계산을 수행하는 단계; 및 병합된 벡터와 관련된 시맨틱 벡터를 획득하기 위해, 병합된 벡터의 음향 어드밴스드 특징 및 병합된 벡터와 관련된 히든 레이어 상태에 대해 어텐션 계산을 수행하는 단계를 포함할 수 있다.
기존의 음성 인식 모델의 경우, 어텐션 레이어는 주로 기존의 음성 인식 모델의 출력 결과와 음성 데이터의 음향 특징 사이의 상관 관계에 초점을 둔다는 점에 유의해야 한다. 본 개시에 따른 음성 인식 오류 정정 모델에서, 음성 데이터의 제1 인식 결과 및 제1 인식 결과의 키워드가 어텐션 레이어에 통합됨으로써, 음성 인식 오류 정정 모델의 출력 결과는 인식 결과의 오류 정정 정보 및 인식 결과의 컨텍스트 정보와 관련된다. 이와 같이, 음성 인식 오류 정정 모델은, 출력 결과가 컨텍스트 정보와 관련되는 어텐션 메커니즘을 학습할 수 있고, 출력 결과가 오류-정정과 관련되는 어텐션 메커니즘을 학습할 수 있으며, 이로써, 현재 음성 데이터에 필요한 컨텍스트 정보 및 오류 정정 정보가 획득된다. 즉, 입력된 음성 데이터에 기반하여 제1 인식 결과 및 제1 인식 결과의 키워드 정보에 어텐션을 부여할 지의 여부가 자동으로 선택된다. 즉, 음성 인식 오류 정정 모델은 제1 인식 결과 및 제1 인식 결과의 키워드에 기반하여 자동 오류 정정 능력을 갖는다.
상기의 예는 입력 데이터가 음성 데이터의 음향 특징, 제1 인식 결과 및 키워드를 포함하는 경우의 음성 인식 오류 정정 모델의 다른 선택적 프로세싱 프로세스를 보여준다는 점을 이해할 수 있다. 입력 데이터가 음성 데이터의 음향 특징 및 제1 인식 결과를 포함하는 경우, 도 4에 도시된 인코딩 레이어에 대한 입력은 인식될 음성 데이터의 음향 특징 X 및 인식될 음성 데이터의 제1 인식 결과의 캐릭터리제이션 P에 의해 형성되는 병합된 벡터 [X, P]이며, 인코딩 레이어의 출력은 음향 특징의 어드밴스드 특징 Ha 및 제1 인식 결과의 캐릭터리제이션 P의 어드밴스드 특징 Hw에 의해 형성되는 병합된 벡터 [Ha, Hw]이다. 또한, 어텐션 레이어의 출력 결과는 음성과 관련된 히든 레이어 상태 sai 및 시맨틱 벡터 cai, 및 제1 인식 결과와 관련된 히든 레이어 상태 swi 및 시맨틱 벡터 cwi에 의해 형성되는 벡터 [sai, cai, swi, cwi]이다. 어텐션 레이어의 출력은 디코딩 레이어의 입력이 된다. 디코딩 레이어의 출력은 현재 출력 결과 yi가 되며, yi는 인식될 음성 데이터의 인식 결과이다.
즉, 모델에 입력되는 데이터가 키워드를 포함하지 않는 경우, 인코딩 레이어에 입력되는 병합된 벡터는 키워드의 정보를 포함하지 않는다. 모델의 다른 레이어들은 유사한 로직(logic)으로 인코딩 레이어로부터의 입력을 처리할 수 있고, 상기의 설명을 참조할 수 있으며, 여기에서 반복되지 않는다.
또한, 본 개시에 따른 인식-훈련 데이터 셋 및 오류-정정 데이터 셋을 생성하기 위한 구현이 더 제공되며, 이에 대해 상세하게 후술된다.
음성 인식 모델 및 음성 인식 오류 정정 모델을 훈련하기 위한 음성 데이터가 수집된다. 음성 데이터는 스마트 단말의 마이크로폰을 통해 수신될 수 있다. 스마트 단말은 음성 인식 기능을 갖는 전자 디바이스, 예컨대, 스마트폰, 컴퓨터, 번역기, 로봇, 스마트홈(가전) 등이다. 그런 다음, 각 피스의 음성 데이터가 수동으로 마크된다. 즉, 각 피스의 음성 데이터가 수동으로 텍스트 데이터로 전사된다(transcribed). 각 피스의 음성 데이터의 음향 특징이 추출된다. 음향 특징은 일반적으로 음성 데이터의 스펙트럼 특징, 예컨대, MFCC 특징, FBank 특징 및 다른 특징이다. 음향 특징은 기존의 방식으로 추출될 수 있으며, 여기에서 반복되지 않는다. 마지막으로, 음성 데이터의 음향 특징 및 음성 데이터에 대응하는 수동으로 마크된 텍스트가 획득된다.
상기의 단계들에서 획득되는 음성 데이터의 음향 특징 및 음성 데이터에 대응하는 수동으로 마크된 텍스트는 두 개의 부분들로 구분된다. 본 개시에서, 첫 번째 부분은 셋 A로 표현되고, 두 번째 부분은 셋 B로 표현된다. 예를 들어, 상기의 단계들에서 획득되는 100만 개의 그룹들의 음성 데이터의 음향 특징들 및 음성 데이터에 대응하는 수동으로 마크된 텍스트들은 임의로 동일한 양의 두 개의 셋들, 즉, 셋 A 및 셋 B로 구분된다. 셋 A 및 셋 B의 각각은 다수의 그룹들의 훈련 데이터를 포함하고, 각 그룹의 훈련 데이터는 하나의 피스의 훈련 데이터의 음향 특징 및 그 피스의 음성 데이터에 대응하는 수동으로 마크된 텍스트를 포함한다.
음성 인식 모델을 획득하기 위해, 셋 A를 인식-훈련 데이터 셋으로 이용하여, 훈련이 수행된다.
셋 B에 대응하는 인식 결과들을 획득하기 위해, 셋 B가 훈련된 음성 인식 모델에 입력된다. 그런 다음, 셋 B에 대응하는 인식 결과들의 키워드들을 획득하기 위해, 셋 B에 대응하는 인식 결과들이 키워드 추출 모델로 입력된다. 셋 B에 대응하는 음향 특징들, 수동으로 마크된 텍스트들, 인식 결과들 및 키워드들은 셋 C를 형성한다. 셋 C는 다수의 그룹들의 훈련 데이터를 포함하며, 각 그룹의 훈련 데이터는 하나의 피스의 음성 데이터에 대응하는 음향 특징, 그 피스의 음성 데이터에 대응하는 수동으로 마크된 텍스트, 그 피스의 음성 데이터에 대응하는 인식 결과 및 인식 결과의 키워드를 포함한다.
음성 인식 오류 정정 모델을 획득하기 위해, 셋 C를 오류-정정 훈련 데이터 셋으로서 이용하여, 훈련이 수행된다.
셋 B에 대응하는 Nbest 개의 인식 결과들을 획득하기 위해, 셋 B가 훈련된 음성 인식 모델에 입력될 수 있다는 점에 더 유의해야 한다. 그런 다음, 인식 결과의 키워드를 획득하기 위해, 각 인식 결과가 키워드 추출 모델에 입력된다. 셋 B가 n 개의 피스들의 음성 데이터를 포함하고, 각 피스의 음성이 Nbest 개의 인식 결과들에 대응하면, n*N 개의 그룹들의 훈련 데이터가 최종적으로 획득된다. 이 프로세싱은 오류 정정 훈련 데이터 셋을 풍부하게 하고, 음성 인식 오류 정정 모델의 적용 범위(coverage)를 향상시킨다.
인식-훈련 데이터 셋 및 오류 정정 훈련 데이터 셋의 각각은 키워드를 포함한다는 것을 이해할 수 있다. 음성 인식 오류 정정 모델에 대한 입력이 음성 데이터의 음향 특징 및 제1 인식 결과만을 포함하는 경우, 즉, 입력 데이터가 키워드를 포함하지 않는 경우, 상기의 프로세서에서 키워드를 획득하는 단계는 생략될 수 있다. 최종적으로 획득된 인식-훈련 데이터 셋 및 오류 정정 훈련 데이터 셋은 키워드들을 포함하도록 요구되지 않는다.
본 개시의 일 실시예에 따른 음성 인식 오류 정정 디바이스가 후술된다. 후술되는 음성 인식 오류 정정 디바이스 및 상술된 음성 인식 오류 정정 방법은 상호 참조될 수 있다.
본 개시의 일 실시예에 따른 음성 인식 오류 정정 디바이스의 개략적인 구조도인 도 5를 참조한다. 도 5에 도시된 바와 같이, 음성 인식 오류 정정 디바이스는 획득 유닛(51), 제1 음성 인식 유닛(52) 및 인식 결과 결정 유닛(53)을 포함한다.
획득 유닛(51)은 인식될 음성 데이터 및 음성 데이터의 제1 인식 결과를 획득하도록 구성된다.
제1 음성 인식 유닛(52)은 제2 인식 결과를 획득하기 위해, 제1 인식 결과의 컨텍스트 정보를 참조하여 음성 데이터를 재인식하도록 구성된다.
인식 결과 결정 유닛(53)은 제2 인식 결과에 기반하여 최종 인식 결과를 결정하도록 구성된다.
본 개시의 다른 실시예에서, 다른 음성 인식 오류 정정 디바이스가 제공된다. 도 6에 도시된 바와 같이, 음성 인식 오류 정정 디바이스는 획득 유닛(51), 키워드 추출 유닛(54), 제2 음성 인식 유닛(55), 및 인식 결과 결정 유닛(53)을 포함한다.
획득 유닛(51)은 인식될 음성 데이터 및 음성 데이터의 제1 인식 결과를 획득하도록 구성된다.
키워드 추출 유닛(54)은 제1 인식 결과로부터 키워드를 추출하도록 구성된다.
제2 음성 인식 유닛(55)은 제2 인식 결과를 획득하기 위해, 제1 인식 결과의 컨텍스트 정보 및 키워드들을 참조하여 음성 데이터를 재인식하도록 구성된다.
인식 결과 결정 유닛(53)은 제2 인식 결과에 기반하여 최종 인식 결과를 결정하도록 구성된다.
일 실시예에서, 키워드 추출 유닛은 분야-특정 단어 추출 유닛을 포함한다.
분야-특정 단어 추출 유닛은 제1 인식 결과로부터 분야-특정 단어를 키워드로서 추출하도록 구성된다.
일 실시예에서, 제2 음성 인식 유닛은 음향 특징 획득 유닛 및 모델 프로세싱 유닛을 포함한다.
음향 특징 획득 유닛은 음성 데이터의 음향 특징을 획득하도록 구성된다.
모델 프로세싱 유닛은 제2 인식 결과를 획득하기 위해, 음성 데이터의 음향 특징, 제1 인식 결과 및 키워드를 미리 훈련된 음성 인식 오류 정정 모델에 입력하도록 구성된다. 음성 인식 오류 정정 모델은, 오류-정정 훈련 데이터 셋을 이용하여 미리 설정된 모델을 훈련함으로써, 획득된다.
오류-정정 훈련 데이터 셋은 적어도 하나의 그룹의 오류-정정 훈련 데이터를 포함하며, 각 그룹의 오류-정정 훈련 데이터는 하나의 피스의 음성 데이터의 음향 특징, 그 피스의 음성 데이터에 대응하는 텍스트, 그 피스의 음성 데이터에 대응하는 제1 인식 결과, 및 제1 인식 결과의 키워드를 포함한다.
일 실시예에서, 모델 프로세싱 유닛은 인코딩 및 어텐션 계산 유닛 및 인식 유닛을 포함한다.
인코딩 및 어텐션 계산 유닛은 음성 인식 오류 정정 모델을 이용하여, 음성 데이터의 음향 특징, 제1 인식 결과 및 키워드에 대해 인코딩 및 어텐션 계산을 수행하도록 구성된다.
인식 유닛은 계산 결과에 기반하여 제2 인식 결과를 획득하도록 구성된다.
일 실시예에서, 인코딩 및 어텐션 계산 유닛은 제1 인코딩 및 어텐션 계산 유닛을 포함하고, 인식 유닛은 제1 디코딩 유닛을 포함한다.
제1 인코딩 및 어텐션 계산 유닛은 계산 결과를 획득하기 위해, 음성 인식 오류 정정 모델의 인코딩 레이어 및 어텐션 레이어를 이용하여, 음성 데이터의 음향 특징, 제1 인식 결과 및 키워드의 각각에 대해 인코딩 및 어텐션 계산을 수행하도록 구성된다.
제1 디코딩 유닛은 제2 인식 결과를 획득하기 위해, 음성 인식 오류 정정 모델의 디코딩 레이어를 이용하여, 계산 결과를 디코딩하도록 구성된다.
일 실시예에서, 모델 프로세싱 유닛은 병합 유닛을 더 포함한다. 인코딩 및 어텐션 계산 유닛은 제2 인코딩 및 어텐션 계산 유닛을 포함한다. 인식 유닛은 제2 디코딩 유닛을 포함한다.
병합 유닛은 병합된 벡터를 획득하기 위해, 음성 데이터의 음향 특징, 제1 인식 결과 및 키워드를 병합하도록 구성된다.
제2 인코딩 및 어텐션 계산 유닛은 계산 결과를 획득하기 위해, 음성 인식 오류 정정 모델의 인코딩 레이어 및 어텐션 레이어를 이용하여, 병합된 벡터에 대해 인코딩 및 어텐션 계산을 수행하도록 구성된다.
제2 디코딩 유닛은 제2 인식 결과를 획득하기 위해, 음성 인식 오류 정정 모델의 디코딩 레이어를 이용하여, 계산 결과를 디코딩하도록 구성된다.
일 실시예에서, 제1 인코딩 및 어텐션 계산 유닛은 제1 인코딩 유닛 및 제1 어텐션 계산 유닛을 포함한다.
제1 인코딩 유닛은 각 타겟 오브젝트의 음향 어드밴스드 특징을 획득하기 위해, 음성 인식 오류 정정 모델의 인코딩 레이어를 이용하여, 타겟 오브젝트를 인코딩하도록 구성된다.
제1 어텐션 계산 유닛은 각 타겟 오브젝트와 관련된 히든 레이어 상태를 획득하기 위해, 음성 인식 오류 정정 모델의 어텐션 레이어를 이용하여, 타겟 오브젝트와 관련된 이전 시맨틱 벡터 및 음성 인식 오류 정정 모델의 이전 출력 결과에 대해 어텐션 계산을 수행하고; 타겟 오브젝트와 관련된 시맨틱 벡터를 획득하기 위해, 음성 인식 오류 정정 모델의 어텐션 레이어를 이용하여, 타겟 오브젝트의 음향 어드밴스드 특징 및 타겟 오브젝트와 관련된 히든 레이어 상태에 대해 어텐션 계산을 수행하도록 구성된다. 타겟 오브젝트는 음성 데이터의 음향 특징, 제1 인식 결과, 및 키워드를 포함한다.
일 실시예에서, 제2 인코딩 및 어텐션 계산 유닛은 제2 인코딩 유닛 및 제2 어텐션 계산 유닛을 포함한다.
제2 인코딩 유닛은 병합된 벡터의 음향 어드밴스드 특징을 획득하기 위해, 음성 인식 오류 정정 모델의 인코딩 레이어를 이용하여, 병합된 벡터를 인코딩하도록 구성된다.
제2 어텐션 계산 유닛은 병합된 벡터와 관련된 히든 레이어 상태를 획득하기 위해, 음성 인식 오류 정정 모델의 어텐션 레이어를 이용하여, 병합된 벡터와 관련된 이전 시맨틱 벡터 및 음성 인식 오류 정정 모델의 이전 출력 결과에 대해 어텐션 계산을 수행하고; 병합된 벡터와 관련된 시맨틱 벡터를 획득하기 위해, 음성 인식 오류 정정 모델의 어텐션 레이어를 이용하여, 병합된 벡터의 음향 어드밴스드 특징 및 병합된 벡터와 관련된 히든 레이어 상태에 대해 어텐션 계산을 수행하도록 구성된다.
일 실시예에서, 인식 결과 결정 유닛은 신뢰도 획득 유닛 및 결정 유닛을 포함한다.
신뢰도 획득 유닛은 제1 인식 결과의 신뢰도 및 제2 인식 결과의 신뢰도를 획득하도록 구성된다.
결정 유닛은 제1 인식 결과 및 제2 인식 결과 중 더 높은 신뢰도를 갖는 것을 최종 인식 결과로서 결정하도록 구성된다.
도 7은 본 개시의 일 실시예에 따른 음성 인식 오류 정정 시스템의 하드웨어 구조의 블록도이다. 도 7을 참조하면, 음성 인식 오류 정정 시스템의 하드웨어 구조는 적어도 하나의 프로세서(1), 적어도 하나의 통신 인터페이스(2), 적어도 하나의 메모리(3) 및 적어도 하나의 통신 버스(4)를 포함한다.
본 개시의 일 실시예에서, 적어도 하나의 프로세서(1), 적어도 하나의 통신 인터페이스(2), 적어도 하나의 메모리(3) 및 적어도 하나의 통신 버스(4)가 있다. 또한, 프로세서(1), 통신 인터페이스(2) 및 메모리(3)는 통신 버스(4)를 통해 서로 통신한다.
프로세서(1)는 중앙 처리 유닛(central processing unit; CPU), 주문형 집적 회로(application specific integrated circuit; ASIC), 또는 본 개시의 실시예들을 구현하도록 구성되는 하나 이상의 집적 회로들일 수 있다.
메모리(3)은 고속 RAM 메모리, 비휘발성 메모리 등, 예컨대, 적어도 하나의 디스크 메모리를 포함할 수 있다.
메모리는 프로그램을 저장하고, 프로세서는 메모리에 저장된 프로그램을 호출한다. 프로그램은 인식될 음성 데이터 및 인식될 음성 데이터의 제1 인식 결과를 획득하고; 제2 인식 결과를 획득하기 위해, 제1 인식 결과의 컨텍스트 정보를 참조하여 음성 데이터를 재인식하고; 제2 인식 결과에 기반하여 최종 인식 결과를 결정하는 데 이용된다.
대안적으로, 프로그램은 인식될 음성 데이터 및 인식될 음성 데이터의 제1 인식 결과를 획득하고; 제1 인식 결과로부터 키워드를 추출하고; 제2 인식 결과를 획득하기 위해, 제1 인식 결과의 컨텍스트 정보 및 키워드를 참조하여 음성 데이터를 재인식하고; 제2 인식 결과에 기반하여 최종 인식 결과를 결정하는 데 이용된다.
프로그램의 특정 기능 및 확장 기능에 대해, 상기의 설명을 참조할 수 있다.
본 개시의 일 실시예에 따른 저장 매체가 더 제공된다. 저장 매체는 프로세서에 의해 실행 가능한 프로그램을 저장한다. 프로그램은 인식될 음성 데이터 및 인식될 음성 데이터의 제1 인식 결과를 획득하고; 제2 인식 결과를 획득하기 위해, 제1 인식 결과의 컨텍스트 정보를 참조하여 음성 데이터를 재인식하고; 제2 인식 결과에 기반하여 최종 인식 결과를 결정하는 데 이용된다.
대안적으로, 프로그램은 인식될 음성 데이터 및 인식될 음성 데이터의 제1 인식결과를 획득하고; 제1 인식 결과로부터 키워드를 추출하고; 제2 인식 결과를 획득하기 위해 제1 인식 결과의 컨텍스트 정보 및 키워드를 참조하여 음성 데이터를 재인식하고; 제2 인식 결과에 기반하여 최종 인식 결과를 결정하는 데 이용될 수 있다.
프로그램의 특정 기능 및 확장 기능에 대해, 상기의 설명을 참조할 수 있다.
본 개시의 일 실시예에 따른 컴퓨터 프로그램 제품이 더 제공된다. 컴퓨터 프로그램 제품은, 단말 디바이스에서 실행될 때, 단말 디바이스가 음성 인식 오류 정정 방법의 임의의 구현을 수행하게 한다.
마지막으로, 본 개시에서, “제1” 및 “제2”와 같은 관계 용어들은 하나의 개체 또는 동작을 다른 개체 또는 동작과 구별하기 위한 것일 뿐, 이러한 개체들 또는 동작들 사이의 실제 관계 또는 순서를 나타내거나 암시하는 것은 아니다. 또한, 본 문서에서, “포함하다”, “갖다” 또는 임의의 다른 변형들은 비배타적인 것으로 의도된다. 따라서, 다수의 구성 요소들을 포함하는 프로세스, 방법, 물품 또는 디바이스는 구성 요소들뿐 아니라 열거되지 않은 다른 구성 요소들을 포함하거나, 프로세스, 방법, 물품 또는 디바이스 고유의 구성 요소들을 포함한다. 달리 명시적으로 제한되지 않는 한, “포함하는”과 같은 언급은 다른 유사한 구성 요소들이 프로세스, 방법, 물품 또는 디바이스에 존재할 수 있는 경우를 배제하지 않는다.
본 문서의 실시예들은 각각이 다른 것들과의 차이점들을 강조하는 점진적인 방식으로 설명된다는 점에 유의해야 한다. 실시예들은 서로 결합될 수 있으며, 실시예들 사이에서 동일하거나 유사한 부분들에 대해서는 다른 실시예들의 설명을 참조할 수 있다.
상기에 개시된 실시예들의 설명과 함께, 해당 기술분야에서 통상의 지식을 가진 사람은 본 개시의 기술적 해결 수단을 구현하거나 이용할 수 있다. 실시예들에 따른 수많은 수정들이 해당 기술분야에서 통상의 지식을 가진 사람에게 명백하고, 여기에 정의된 일반 원리들은 본 개시의 사상 또는 범위를 벗어나지 않고 다른 실시예들에서 구현될 수 있다. 따라서, 본 개시는 여기에 설명된 실시예들에 제한되지 않고, 여기에 개시된 원리들 및 신규한 특징들과 일치하는 가장 넓은 범위를 준수해야 한다.

Claims (15)

  1. 음성 인식 오류 정정 방법에 있어서,
    인식될(to-be-recognized) 음성 데이터 및 상기 음성 데이터의 제1 인식 결과를 획득하는 단계;
    제2 인식 결과를 획득하기 위해, 상기 제1 인식 결과의 컨텍스트(context) 정보를 참조하여 상기 음성 데이터를 재인식하는 단계; 및
    상기 제2 인식 결과에 기반하여 최종 인식 결과를 결정하는 단계
    를 포함하는,
    방법.
  2. 음성 인식 오류 정정 방법에 있어서,
    인식될 음성 데이터 및 상기 음성 데이터의 제1 인식 결과를 획득하는 단계;
    상기 제1 인식 결과로부터 키워드를 추출하는 단계;
    제2 인식 결과를 획득하기 위해, 상기 제1 인식 결과의 컨텍스트 정보 및 상기 키워드를 참조하여 상기 음성 데이터를 재인식하는 단계; 및
    상기 제2 인식 결과에 기반하여 최종 인식 결과를 결정하는 단계
    를 포함하는,
    방법.
  3. 제2 항에 있어서,
    상기 제1 인식 결과로부터 키워드를 추출하는 단계는,
    상기 제1 인식 결과로부터의 분야-특정(field-specific) 단어를 상기 키워드로서 추출하는 단계
    를 포함하는,
    방법.
  4. 제2 항에 있어서,
    제2 인식 결과를 획득하기 위해, 상기 제1 인식 결과의 컨텍스트 정보 및 상기 키워드를 참조하여 상기 음성 데이터를 재인식하는 단계는,
    상기 음성 데이터의 음향 특징을 획득하는 단계; 및
    상기 제2 인식 결과를 획득하기 위해, 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드를 미리 훈련된 음성 인식 오류 정정 모델에 입력하는 단계
    를 포함하고,
    상기 음성 인식 오류 정정 모델은,
    오류-정정 훈련 데이터 셋으로 미리 설정된 모델을 훈련함으로써 획득되고,
    상기 오류-정정 훈련 데이터 셋은,
    적어도 하나의 그룹의 오류-정정 훈련 데이터를 포함하고,
    각 그룹의 오류-정정 훈련 데이터는,
    하나의 피스(piece)의 음성 데이터의 음향 특징, 상기 하나의 피스의 음성 데이터에 대응하는 텍스트, 상기 하나의 피스의 음성 데이터에 대응하는 제1 인식 결과, 및 상기 제1 인식 결과의 키워드를 포함하는,
    방법.
  5. 제4 항에 있어서,
    상기 제2 인식 결과를 획득하기 위해, 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드를 미리 훈련된 음성 인식 오류 정정 모델에 입력하는 단계는,
    계산 결과에 기반하여 상기 제2 인식 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델을 이용하여 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드에 대해 인코딩(encoding) 및 어텐션(attention) 계산을 수행하는 단계
    를 포함하는,
    방법.
  6. 제5 항에 있어서,
    계산 결과에 기반하여 상기 제2 인식 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델을 이용하여 상기 음성 데이터의 상기 음향 특징, 제1 인식 결과 및 상기 키워드에 대해 인코딩 및 어텐션 계산을 수행하는 단계는,
    상기 계산 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 인코딩 레이어 및 어텐션 레이어를 이용하여, 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드의 각각에 대해 인코딩 및 어텐션 계산을 수행하는 단계; 및
    상기 제2 인식 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 디코딩 레이어를 이용하여 상기 계산 결과를 디코딩하는 단계
    를 포함하는,
    방법.
  7. 제5 항에 있어서,
    계산 결과에 기반하여 상기 제2 인식 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델을 이용하여 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드에 대해 인코딩 및 어텐션 계산을 수행하는 단계는,
    병합된 벡터(merged vector)를 획득하기 위해, 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드를 병합하는 단계;
    상기 계산 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 인코딩 레이어 및 어텐션 레이어에 의해, 상기 병합된 벡터에 대해 인코딩 및 어텐션 계산을 수행하는 단계; 및
    상기 제2 인식 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 디코딩 레이어에 의해, 상기 계산 결과를 디코딩하는 단계
    를 포함하는,
    방법.
  8. 제6 항에 있어서,
    상기 계산 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 인코딩 레이어 및 어텐션 레이어를 이용하여 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드의 각각에 대해 인코딩 및 어텐션 계산을 수행하는 단계는,
    각 타겟 오브젝트에 대해,
    상기 타겟 오브젝트의 음향 어드밴스드(advanced) 특징을 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 인코딩 레이어에 의해, 상기 타겟 오브젝트를 인코딩하는 단계;
    상기 타겟 오브젝트와 관련된 히든(hidden) 레이어 상태를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 어텐션 레이어에 의해, 상기 타겟 오브젝트와 관련된 이전 시맨틱(semantic) 벡터 및 상기 음성 인식 오류 정정 모델의 이전 출력 결과에 대해 어텐션 계산을 수행하는 단계; 및
    상기 타겟 오브젝트와 관련된 시맨틱 벡터를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 어텐션 레이어에 의해, 상기 타겟 오브젝트의 상기 음향 어드밴스드 특징 및 상기 타겟 오브젝트와 관련된 상기 히든 레이어 상태에 대해 어텐션 계산을 수행하는 단계
    를 포함하고,
    상기 타겟 오브젝트는,
    상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과, 및 상기 키워드를 포함하는,
    방법.
  9. 제7 항에 있어서,
    상기 계산 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 인코딩 레이어 및 상기 어텐션 레이어에 의해, 상기 병합된 벡터에 대해 인코딩 및 어텐션 계산을 수행하는 단계는,
    상기 병합된 벡터의 음향 어드밴스드 특징을 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 인코딩 레이어에 의해, 상기 병합된 벡터를 인코딩하는 단계;
    상기 병합된 벡터와 관련된 히든 레이어 상태를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 어텐션 레이어에 의해, 상기 병합된 벡터와 관련된 이전 시맨틱 벡터 및 상기 음성 인식 오류 정정 모델의 이전 출력 결과에 대해 어텐션 계산을 수행하는 단계; 및
    상기 병합된 벡터와 관련된 시맨틱 벡터를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 어텐션 레이어에 의해, 상기 병합된 벡터의 상기 음향 어드밴스드 특징 및 상기 병합된 벡터와 관련된 상기 히든 레이어 상태에 대해 어텐션 계산을 수행하는 단계
    를 포함하는,
    방법.
  10. 제2 항에 있어서,
    상기 제2 인식 결과에 기반하여 최종 인식 결과를 결정하는 단계는,
    상기 제1 인식 결과의 신뢰도(confidence) 및 상기 제2 인식 결과의 신뢰도를 획득하는 단계; 및
    상기 제1 인식 결과 및 상기 제2 인식 결과 중 더 높은 신뢰도를 갖는 것을 상기 최종 인식 결과로서 결정하는 단계
    를 포함하는,
    방법.
  11. 음성 인식 오류 정정 디바이스에 있어서,
    인식될 음성 데이터 및 상기 음성 데이터의 제1 인식 결과를 획득하도록 구성되는 획득 유닛;
    제2 인식 결과를 획득하기 위해, 상기 제1 인식 결과의 컨텍스트 정보를 참조하여 상기 음성 데이터를 재인식하도록 구성되는 제1 음성 인식 유닛; 및
    상기 제2 인식 결과에 기반하여 최종 인식 결과를 결정하도록 구성되는 인식 결과 결정 유닛
    을 포함하는,
    음성 인식 오류 정정 디바이스.
  12. 음성 인식 오류 정정 디바이스에 있어서,
    인식될 음성 데이터 및 상기 음성 데이터의 제1 인식 결과를 획득하도록 구성되는 획득 유닛;
    상기 제1 인식 결과로부터 키워드를 추출하도록 구성되는 키워드 추출 유닛;
    제2 인식 결과를 획득하기 위해, 상기 제1 인식 결과의 컨텍스트 정보 및 상기 키워드를 참조하여 상기 음성 데이터를 재인식하도록 구성되는 제2 음성 인식 유닛; 및
    상기 제2 인식 결과에 기반하여 최종 인식 결과를 결정하도록 구성되는 인식 결과 결정 유닛
    을 포함하는,
    음성 인식 오류 정정 디바이스.
  13. 음성 인식 오류 정정 시스템에 있어서,
    프로그램을 저장하도록 구성되는 메모리; 및
    제1 항 내지 제10 항 중 어느 한 한에 따른 상기 음성 인식 오류 정정 방법을 수행하기 위해 상기 프로그램을 실행시키도록 구성되는 프로세서
    를 포함하는,
    음성 인식 오류 정정 시스템.
  14. 컴퓨터 프로그램을 저장하는 판독 가능 저장 매체에 있어서,
    상기 컴퓨터 프로그램은,
    프로세서에 의해 실행될 때, 제1 항 내지 제10 항 중 어느 한 항에 따른 상기 음성 인식 오류 정정 방법을 구현하는,
    판독 가능 저장 매체.
  15. 단말 디바이스에서 실행될 때, 상기 단말 디바이스가 제1 항 내지 제10 항 중 어느 한 항에 따른 상기 방법을 수행하게 하는 컴퓨터 프로그램 제품.
KR1020227005374A 2019-11-25 2020-11-17 음성 인식 오류 정정 방법, 관련 디바이스들, 및 판독 가능 저장 매체 KR102648306B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201911167009.0 2019-11-25
CN201911167009.0A CN110956959B (zh) 2019-11-25 2019-11-25 语音识别纠错方法、相关设备及可读存储介质
PCT/CN2020/129314 WO2021104102A1 (zh) 2019-11-25 2020-11-17 语音识别纠错方法、相关设备及可读存储介质

Publications (2)

Publication Number Publication Date
KR20220035222A true KR20220035222A (ko) 2022-03-21
KR102648306B1 KR102648306B1 (ko) 2024-03-15

Family

ID=69978361

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227005374A KR102648306B1 (ko) 2019-11-25 2020-11-17 음성 인식 오류 정정 방법, 관련 디바이스들, 및 판독 가능 저장 매체

Country Status (6)

Country Link
US (1) US20220383853A1 (ko)
EP (1) EP4068280A4 (ko)
JP (1) JP2022552662A (ko)
KR (1) KR102648306B1 (ko)
CN (1) CN110956959B (ko)
WO (1) WO2021104102A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024029845A1 (ko) * 2022-08-05 2024-02-08 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956959B (zh) * 2019-11-25 2023-07-25 科大讯飞股份有限公司 语音识别纠错方法、相关设备及可读存储介质
CN111627457A (zh) * 2020-05-13 2020-09-04 广州国音智能科技有限公司 语音分离方法、系统及计算机可读存储介质
CN111583909B (zh) * 2020-05-18 2024-04-12 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质
CN111754987A (zh) * 2020-06-23 2020-10-09 国投(宁夏)大数据产业发展有限公司 一种大数据分析语音识别方法
CN112016305B (zh) * 2020-09-09 2023-03-28 平安科技(深圳)有限公司 文本纠错方法、装置、设备及存储介质
CN112259100B (zh) * 2020-09-15 2024-04-09 科大讯飞华南人工智能研究院(广州)有限公司 语音识别方法及相关模型的训练方法和相关设备、装置
CN112133453B (zh) * 2020-09-16 2022-08-26 成都美透科技有限公司 一种基于医美数据和医疗数据的用户咨询辅助分析系统
CN112257437B (zh) * 2020-10-20 2024-02-13 中国科学技术大学 语音识别纠错方法、装置、电子设备和存储介质
CN112435671B (zh) * 2020-11-11 2021-06-29 深圳市小顺智控科技有限公司 汉语精准识别的智能化语音控制方法及系统
CN112489651B (zh) * 2020-11-30 2023-02-17 科大讯飞股份有限公司 语音识别方法和电子设备、存储装置
CN114678027A (zh) * 2020-12-24 2022-06-28 深圳Tcl新技术有限公司 语音识别结果的纠错方法、装置、终端设备及存储介质
CN113035175B (zh) * 2021-03-02 2024-04-12 科大讯飞股份有限公司 一种语音文本重写模型构建方法、语音识别方法
CN113129870B (zh) * 2021-03-23 2022-03-25 北京百度网讯科技有限公司 语音识别模型的训练方法、装置、设备和存储介质
CN113257227B (zh) * 2021-04-25 2024-03-01 平安科技(深圳)有限公司 语音识别模型性能检测方法、装置、设备及存储介质
CN113409767B (zh) * 2021-05-14 2023-04-25 北京达佳互联信息技术有限公司 一种语音处理方法、装置、电子设备及存储介质
CN113421553B (zh) * 2021-06-15 2023-10-20 北京捷通数智科技有限公司 音频挑选的方法、装置、电子设备和可读存储介质
CN113221580B (zh) * 2021-07-08 2021-10-12 广州小鹏汽车科技有限公司 语义拒识方法、语义拒识装置、交通工具及介质
US11657803B1 (en) * 2022-11-02 2023-05-23 Actionpower Corp. Method for speech recognition by using feedback information
CN116991874B (zh) * 2023-09-26 2024-03-01 海信集团控股股份有限公司 一种文本纠错、基于大模型的sql语句生成方法及设备
CN117238276B (zh) * 2023-11-10 2024-01-30 深圳市托普思维商业服务有限公司 一种基于智能化语音数据识别的分析纠正系统
CN117558263B (zh) * 2024-01-10 2024-04-26 科大讯飞股份有限公司 语音识别方法、装置、设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592595A (zh) * 2012-03-19 2012-07-18 安徽科大讯飞信息科技股份有限公司 语音识别方法及系统
US20150058018A1 (en) * 2013-08-23 2015-02-26 Nuance Communications, Inc. Multiple pass automatic speech recognition methods and apparatus
KR20160062254A (ko) * 2014-11-24 2016-06-02 에스케이텔레콤 주식회사 음성 인식 오류에 강인한 의미 추론 방법 및 이를 위한 장치
CN109065054A (zh) * 2018-08-31 2018-12-21 出门问问信息科技有限公司 语音识别纠错方法、装置、电子设备及可读存储介质
JP2019113636A (ja) * 2017-12-22 2019-07-11 オンキヨー株式会社 音声認識システム
JP2019120763A (ja) * 2017-12-28 2019-07-22 株式会社イトーキ 音声認識システム及び音声認識方法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003308094A (ja) * 2002-02-12 2003-10-31 Advanced Telecommunication Research Institute International 音声認識における認識誤り箇所の訂正方法
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
JP4867654B2 (ja) * 2006-12-28 2012-02-01 日産自動車株式会社 音声認識装置、および音声認識方法
JP4709887B2 (ja) * 2008-04-22 2011-06-29 株式会社エヌ・ティ・ティ・ドコモ 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム
CN101876975A (zh) * 2009-11-04 2010-11-03 中国科学院声学研究所 汉语地名的识别方法
CN103366741B (zh) * 2012-03-31 2019-05-17 上海果壳电子有限公司 语音输入纠错方法及系统
KR101892734B1 (ko) * 2013-01-04 2018-08-28 한국전자통신연구원 음성 인식 시스템에서의 오류 수정 방법 및 그 장치
US9818401B2 (en) * 2013-05-30 2017-11-14 Promptu Systems Corporation Systems and methods for adaptive proper name entity recognition and understanding
KR102380833B1 (ko) * 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
CN107391504B (zh) * 2016-05-16 2021-01-29 华为技术有限公司 新词识别方法与装置
KR20180071029A (ko) * 2016-12-19 2018-06-27 삼성전자주식회사 음성 인식 방법 및 장치
CN106875943A (zh) * 2017-01-22 2017-06-20 上海云信留客信息科技有限公司 一种用于大数据分析的语音识别系统
CN112802459A (zh) * 2017-05-23 2021-05-14 创新先进技术有限公司 一种基于语音识别的咨询业务处理方法及装置
CN107093423A (zh) * 2017-05-27 2017-08-25 努比亚技术有限公司 一种语音输入修正方法、装置及计算机可读存储介质
CN107293296B (zh) * 2017-06-28 2020-11-20 百度在线网络技术(北京)有限公司 语音识别结果纠正方法、装置、设备及存储介质
CN108428447B (zh) * 2018-06-19 2021-02-02 科大讯飞股份有限公司 一种语音意图识别方法及装置
US11482213B2 (en) * 2018-07-20 2022-10-25 Cisco Technology, Inc. Automatic speech recognition correction
WO2020096078A1 (ko) * 2018-11-06 2020-05-14 주식회사 시스트란인터내셔널 음성인식 서비스를 제공하기 위한 방법 및 장치
KR102377971B1 (ko) * 2018-11-16 2022-03-25 엘지전자 주식회사 디스플레이 장치를 갖는 인공지능 냉장고
US11017778B1 (en) * 2018-12-04 2021-05-25 Sorenson Ip Holdings, Llc Switching between speech recognition systems
CN110110041B (zh) * 2019-03-15 2022-02-15 平安科技(深圳)有限公司 错词纠正方法、装置、计算机装置及存储介质
CN110021293B (zh) * 2019-04-08 2022-01-28 上海汽车集团股份有限公司 语音识别方法及装置、可读存储介质
US11636853B2 (en) * 2019-08-20 2023-04-25 Soundhound, Inc. Natural language grammar improvement
CN110956959B (zh) * 2019-11-25 2023-07-25 科大讯飞股份有限公司 语音识别纠错方法、相关设备及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592595A (zh) * 2012-03-19 2012-07-18 安徽科大讯飞信息科技股份有限公司 语音识别方法及系统
US20150058018A1 (en) * 2013-08-23 2015-02-26 Nuance Communications, Inc. Multiple pass automatic speech recognition methods and apparatus
KR20160062254A (ko) * 2014-11-24 2016-06-02 에스케이텔레콤 주식회사 음성 인식 오류에 강인한 의미 추론 방법 및 이를 위한 장치
JP2019113636A (ja) * 2017-12-22 2019-07-11 オンキヨー株式会社 音声認識システム
JP2019120763A (ja) * 2017-12-28 2019-07-22 株式会社イトーキ 音声認識システム及び音声認識方法
CN109065054A (zh) * 2018-08-31 2018-12-21 出门问问信息科技有限公司 语音识别纠错方法、装置、电子设备及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Golan Pundak, et al.,Deep Context: End-to-end Contextual Speech Recognition,IEEE Spoken Language Technology Workshop, IEEE,pp. 418-425 (2018.12.18) *
임성민 외2명, 어텐션 기반 엔드투엔드 음성인식 시각화 분석, 말소리와 음성과학 한국음성학회지, Vol.11 No.1, pp.41-49, 2019.03.31 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024029845A1 (ko) * 2022-08-05 2024-02-08 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법

Also Published As

Publication number Publication date
CN110956959B (zh) 2023-07-25
KR102648306B1 (ko) 2024-03-15
EP4068280A1 (en) 2022-10-05
CN110956959A (zh) 2020-04-03
US20220383853A1 (en) 2022-12-01
WO2021104102A1 (zh) 2021-06-03
JP2022552662A (ja) 2022-12-19
EP4068280A4 (en) 2023-11-01

Similar Documents

Publication Publication Date Title
KR102648306B1 (ko) 음성 인식 오류 정정 방법, 관련 디바이스들, 및 판독 가능 저장 매체
WO2018040899A1 (zh) 搜索词纠错方法及装置
CN110415705B (zh) 一种热词识别方法、系统、装置及存储介质
CN111523306A (zh) 文本的纠错方法、装置和系统
JP6334815B2 (ja) 学習装置、方法、プログラムおよび音声対話システム
CN111626062B (zh) 文本语义编码方法及系统
JP2016075740A (ja) 音声処理装置、音声処理方法、およびプログラム
CN109344242B (zh) 一种对话问答方法、装置、设备及存储介质
KR102199246B1 (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
CN111539199B (zh) 文本的纠错方法、装置、终端、及存储介质
CN112528637A (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN111985234B (zh) 语音文本纠错方法
CN111883137A (zh) 基于语音识别的文本处理方法及装置
CN112989008A (zh) 一种多轮对话改写方法、装置和电子设备
CN105373527B (zh) 一种省略恢复方法及问答系统
CN109933773A (zh) 一种多重语义语句解析系统及方法
CN113051384A (zh) 基于对话的用户画像抽取方法及相关装置
CN111462734A (zh) 语义槽填充模型训练方法及系统
KR20240050447A (ko) 음성 인식 방법, 장치, 디바이스 및 저장매체
CN114970538A (zh) 文本纠错的方法及装置
CN113744718A (zh) 语音文本的输出方法及装置、存储介质、电子装置
WO2023036283A1 (zh) 一种在线课堂交互的方法及在线课堂系统
CN111785259A (zh) 信息处理方法、装置及电子设备
CN113284487B (zh) 基于语音识别结果的匹配方法
CN112802476B (zh) 语音识别方法和装置、服务器、计算机可读存储介质

Legal Events

Date Code Title Description
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant