KR20210016682A - 음성 인식 결과 오류 수정 장치 및 방법 - Google Patents

음성 인식 결과 오류 수정 장치 및 방법 Download PDF

Info

Publication number
KR20210016682A
KR20210016682A KR1020190094742A KR20190094742A KR20210016682A KR 20210016682 A KR20210016682 A KR 20210016682A KR 1020190094742 A KR1020190094742 A KR 1020190094742A KR 20190094742 A KR20190094742 A KR 20190094742A KR 20210016682 A KR20210016682 A KR 20210016682A
Authority
KR
South Korea
Prior art keywords
speech recognition
recognition result
error
error correction
word
Prior art date
Application number
KR1020190094742A
Other languages
English (en)
Inventor
강점자
박기영
박전규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020190094742A priority Critical patent/KR20210016682A/ko
Publication of KR20210016682A publication Critical patent/KR20210016682A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

음성 인식 결과 오류 수정 장치 및 방법이 개시된다. 입력 문장에 대한 음성 인식 결과의 오류를 수정하는 방법은 상기 입력 문장을 획득하는 단계, 미리 학습된 음성 인식 언어 모델을 기반으로 하여 제1 가중치를 결정하는 단계, 상기 입력 문장의 단어 별로 제1 가중치를 부여하는 단계, 상기 입력 문장에 대응하는 발화 문장을 획득하는 단계, 상기 음성 인식 언어 모델을 기반으로 하여 상기 제1 가중치보다 높은 제2 가중치를 결정하는 단계, 그리고 상기 발화 문장의 단어 별로 제2 가중치를 부여하는 단계를 포함할 수 있다.

Description

음성 인식 결과 오류 수정 장치 및 방법{APPARATUS FOR FIXING ERROR OF SPEECH RECOGNITION RESULT AND METHOD THEREOF}
본 발명은 음성 인식 결과에 따른 오류를 수정하기 위한 장치 및 그 방법에 관한 것이다.
음성인식시스템의 인식 결과는 오류를 포함하고 있기 때문에, 인식 결과를 정답에 가깝게 수정하여 인식시스템의 성능 개선에 사용하고 있다.
기존의 오류 수정 방법은 규칙을 적용한 규칙 기반이거나 정교한 확률 모델 기반으로 오류를 수정하는 방법을 주로 사용하였다.
이러한 방법은 주어진 문장에서 인식 오류를 검출해낼 때, 오류 단어의 주위 문맥이 올바르다고 가정해 버리는 단점이 있다.
본 발명의 기술적 과제는 음성 인식 시스템에서 인식 결과에 대해 단어 신뢰도 척도를 사용하여 End-to-End 기반 음성 인식 결과 오류 수정 방법 및 장치를 제공하는 것이다.
본 발명의 실시예에 따르면, 입력 문장에 대한 음성 인식 결과의 오류를 수정하는 방법이 제공된다. 상기 방법은, 상기 입력 문장을 획득하는 단계, 미리 학습된 음성 인식 언어 모델을 기반으로 하여 제1 가중치를 결정하는 단계, 상기 입력 문장의 단어 별로 제1 가중치를 부여하는 단계, 상기 입력 문장에 대응하는 발화 문장을 획득하는 단계, 상기 음성 인식 언어 모델을 기반으로 하여 상기 제1 가중치보다 높은 제2 가중치를 결정하는 단계, 그리고 상기 발화 문장의 단어 별로 제2 가중치를 부여하는 단계를 포함할 수 있다.
본 발명의 실시예에 따르면, End-to-End 기반 인식결과 수정을 통해 음성인식시스템의 성능을 개선할 수 있다.
도 1은 본 발명의 실시예에 따른 End-to-End 기반 음성인식 오류 수정 장치를 나타낸 블록도이다.
도 2는 본 발명의 실시예에 따른 음성 인식 시스템을 위한 음성인식 오류 수정 방법을 나타낸 흐름도이다.
도 3은 본 발명의 실시예에 따른 음성 인식 오류 수정 모델 훈련을 위한 처리 방법을 나타낸 흐름도이다.
도 4는 본 발명의 실시예에 따른 컴퓨터 시스템(400)을 나타내는 도면이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 발명은 음성인식시스템에서 인식 결과에 대해 단위 신뢰도 척도를 사용하여 End-to-End 기반 음성인식 결과 오류 수정 방법 및 장치에 관한 것이다.
음성인식시스템의 인식 결과는 오류를 포함하고 있기 때문에, 인식 결과를 정답에 가깝게 수정하여 인식시스템의 성능 개선에 사용하고 있다. 즉, 일반적으로 음성인식시스템은 오인식 가능성을 포함하고 있기 때문에 인식결과에 대해 인식결과가 맞는지 틀리는지를 검출하여 오류 구간이라 판단되는 부분에 대해서 오류 수정을 하여 인식성능 개선을 하였다.
종래 기술에 따른 오류 수정 방법은 규칙을 적용한 규칙 기반이거나 정교한 확률 모델 기반으로 오류를 수정하는 방법을 주로 사용하였다. 상기한 방법은 주어진 문장에서 인식 오류를 검출해낼 때, 오류 단어의 주위 문맥이 올바르다고 가정해 버리는 단점이 있다.
즉, 기존의 규칙기반 오류 수정 방식은 가우시안 확률 모델을 사용하여 오류구간으로 검출된 단어를중심으로 전후 문맥(context)을 분석하여 오류를 수정하였다. 정교한 확률 모델기반 오류 수정 방식은 오류 구간으로 검출된 구간에 대해 정교한 음향 모델 또는 언어 모델을 적용하여 재인식하거나 인식된 단어열에 대해서 음소별 발음변이를 모델링하여 오류를 보정하거나 n-gram 리스어링을 통해 오류를 수정하는 방법을 사용하였다. 이러한 방법은 주어진 문장에서 인식 오류를 검출해낼 때, 오류 단어의 주위 문맥이 올바르다고 가정해 버리는 단점이 있다.
이하, 도 1 내지 도 3을 참조하여, 본 발명의 실시예에 따른 음성인식시스템에서 인식 결과에 대해 단어 단위 신뢰도 척도를 사용하여 End-to-End 기반 음성인식 결과 오류 수정 방법 및 장치에 대해 설명한다.
도 1은 본 발명의 실시예에 따른 End-to-End 기반 음성인식 오류 수정 장치를 나타낸 블록도이다.
도 1에 도시된 바와 같이, 본 발명의 실시예에 따르면, 음성 인식 결과 오류 수정 장치는 머신 러닝(machine learning) 기반 자연어 처리 기술로서 End-to-End 유형 중 하나인 시퀀스-투-시퀀스(Seq2Seq) 모델을 음성 인식 결과 오류 수정에 사용할 수 있다.
시퀀스-투-시퀀스(Seq2Seq) 모델은 뉴럴 머신 번역(NMT; Neural Machine Translation) 분야에서 사용되는 모델이다. 시퀀스-투-시퀀스(Seq2Seq) 모델은 입력 문장을 Seq2Seq 모델의 인코더 단에서 의미 공간의 히든 벡터로 임베딩할 수 있다. 또한, 시퀀스-투-시퀀스(Seq2Seq) 모델은 디코더 단에서는 임베딩된 벡터를 입력 받으며, 타겟 언어의 번역문을 생성하게 된다.
본 발명의 실시예에 따른 음성 인식 결과 오류 수정 장치는 입력을 처리하는 인코더(11) 및 출력을 처리하는 디코더(12)를 포함한다. 디코더(12)의 처리 결과로 출력 결과(13)을 얻을 수 있다. 인코더(11)와 디코더(12)는 서로 가중치나 매개 변수 집합을 공유할 수 있다.
인코더(11)는 입력으로 음성인식 결과를 사용할 수 있다. 디코더(12)는 입력으로 음성인식 정답 문장을 사용할 수 있다. 인코더(11)의 입력 예로는 "나는/1.0 학교에/0.8 간다/1.0"라는 음성 인식 결과가 입력될 수 있다. 디코더(12)의 입력 예로는 문장의 끝을 알리는 "나는 집에 간다"(<EOS>)와 같은 형태로 입력된다.
인코더(11)의 입력 예에서 숫자는 단어별 신뢰도 척도 값을 나타낸다. 단어와 신뢰도 척도 값을 쌍으로 표시함으로써, 임의의 단어에 대해 오류 가능성을 임베딩 벡터로 표현이 가능하다.
인코더(11)는 어떤 임의의 출력 시퀀스를 생성할 때 전체 입력 데이터를 확인하거나 특정 부분만을 집중하여 확인함으로써, 출력 시퀀스와 입력 데이터간의 연관성을 가중치로 표현하는 주의 집중(attention) 방식을 적용할 수 있다.
도 2는 본 발명의 실시예에 따른 음성 인식 시스템을 위한 음성 인식 오류 수정 방법을 나타낸 흐름도이다.
먼저, 음성 인식 오류 수정은 심층 신경망 기반 문맥 종속 음향모델(23)과 심층신경망 문맥 독립 음향모델(25), n-gram 언어모델(24)을 미리 생성한다.
음성 인식 오류 수정 장치는 음성신호(S21)가 입력되면, 필터뱅크 40*15프레임 형태의 특징을 슈퍼벡터 형태로 특징을 추출한다(S22).
음성 인식 오류 수정 장치는 신경신경망 기반 다중 디코딩(S26)을 수행한다.
음성 인식 오류 수정 장치는 심층신경망 기반으로 훈련된 음향모델(23), n-gram 언어모델(24), 심층신경망 문맥 독립 음향모델(25)을 사용하여 음성인식 결과를 출력한다.
음성 인식 오류 수정 장치는 심층신경망 기반 다중 디코더(25)를 통해 문맥독립 음성인식결과와 문맥종속 음성인식결과를 각각 출력한다. 음성 인식 오류 수정 장치는 심층신경망 기반 다중 디코더(25)를 통해 디코딩을 수행하는 동안 최적 경로에 대한 모든 문맥종속 로그 확률값과 문맥독립 로그 확률값을 구하여 저장한다.
음성 인식 오류 수정 장치는 단어 및 문장수준 신뢰도 척도 계산(S27)을 수행한다. 음성 인식 오류 수정 장치는 문맥종속 음성인식결과를 분석하여 현재 자기 음소를 제외한 반모델 스코어를 계산한다.
즉, 음성 인식 오류 수정 장치는 현재 문맥종속 음소열 이외의 문맥종속 음소열의 로그 확률값을 합하고 문맥종속 음소열을 프레임 수로 나누어, 문맥종속 반 음소 레벨 로그 확률값(LLR: Log Likelihood Ratio)을 구한다.
그런 다음, 음성 인식 오류 수정 장치는 문맥 종속 음소열의 가운데 음소를 기준으로 현재의 문맥독립 음소값을 찾아낸 후, 현재 자기 음소를 제외한 반모델 스코어를 계산한다. 즉, 음성 인식 오류 수정 장치는 현재 문맥종속 음소열의 가운데 음소를 기준으로 현재의 문맥독립 음소의 확률값을 구하고, 현재 음소의 나머지 음소에 대한 로그 확률값을 합하여 프레임 수로 나누어 문맥독립 반음소 로그 확률값(LLR: Log Likelihood Ratio)을 구한다.
음성 인식 오류 수정 장치는 단어 임베딩(S28)를 통해 인식결과 텍스트에 대해서 각각의 단어별로 실수로 수치화 한다.
그 다음, 음성 인식 오류 수정 장치는 단어 임베딩(S28)를 통해 단어 신뢰도 척도 계산(S27)에 계산된 문맥종속 반음소로그 확률값, 문맥독립 반음소 로그 확률값을 한쌍으로 구성(S29)한다. 마지막으로, 음성 인식 오류 수정 장치는 단어 임베딩(S28)를 통해 문장 신뢰도 값을 계산하여 한쌍으로 구성(S29)한다. 예를 들어, 인식결과가 "나는 학교에 간다"인 경우, '나는/1.0 학교에/0.8 간다/1.0'를 생성한다.
오류 수정(30)은 End-to-End모델(S31)에 훈련 셋에 대한 단어 별 확률 값과 바이어스 값들을 저장한다. 음성 인식 오류 수정 장치는 입력문장과 모델과 비교한다. 음성 인식 오류 수정 장치는 인식결과 미리 End-to-End 훈련과정을 통해 얻은 단어별 확률값과 바이어스 값을 사용하여 인식결과를 수정(S30)하여 오류 수정 문장(S32)을 생성한다.
도 3은 본 발명의 실시예에 따른 음성 인식 오류 수정 모델 훈련을 위한 처리 방법을 나타낸 흐름도이다.
도 3에 도시된 바와 같이, 본 발명의 실시예에 따르면, 음성 인식 결과 오류 수정 장치는 먼저 인코더와 디코더를 동시에 학습한다.
그 다음, 음성 인식 결과 오류 수정 장치는 단어 수에 따른 인코더 셀과 디코더 셀을 한꺼번에 전진 전파(forward-propagate)한다. 음성 인식 결과 오류 수정 장치는 손실함수에 근거한 후진전파(backward-propagate)를 수행한다.
상기한 전진 전파 및 후진 전파를 수행함으로써, 음성 인식 결과 오류 수정 장치는 음성 인식 결과 오류 수정 장치는 네트워크에 사용되는 모든 파라미터를 한번 업데이트 한다.
음성 인식 결과 오류 수정 장치는 End-to-End모델을 훈련하기 위해서 음성인식 결과와 정답 텍스트 파일을 준비한다. 음성 인식 결과 오류 수정 장치는 각각의 텍스트 파일을 단어 별로 분할한다. 음성 인식 결과 오류 수정 장치는 단어 별 신뢰도 척도값(S41, S42)을 갖는 훈련 데이터를 준비한다.
음성 인식 결과 오류 수정 장치는 음성인식 결과 텍스트에 대해서 단어 임베딩 및 입력 데이터 구성(S43)을 수행한다. 음성 인식 결과 오류 수정 장치는 음성 인식 정답 텍스트에 대해서 단어 임베딩 및 입력 데이터 구성(S44)을 수행한다.
음성 인식 결과 오류 수정 장치는 이와 같이 구성된 데이터를 다중 LSTM(S45, S47)에 입력으로 사용한다. 다중 LSTM 출력(S47) 시퀀스는 다중 LSTM(S45) 각 셀의 출력과 글로벌 정렬 가중치(Global align weights)를 계산한다. LSTM은 장단기메모리로 Long-Short Term Memory의 약어이다.
해당 가중치는 다시 다중 LSTM(S45)의 출력값과 글로벌 정렬 가중치를 계산하여 글로벌 컨텍스트 벡터라 정의된 주의 집중(S46) 벡터를 구한다.
음성 인식 결과 오류 수정 장치는 이와 같이 구해진 인코더의 주의집중(S46)벡터를 디코더의 다중 LSTM(S47) 입력으로 사용한다. 음성 인식 결과 오류 수정 장치는 추정된 값과 정답과의 비교를 통해 오류보정(S48) 과정을 거쳐 첫번째 출력 값을 구할 수 있다.
음성 인식 결과 오류 수정 장치는 첫번째 출력 값을 다시 다음 입력의 입력으로 사용한다. 음성 인식 결과 오류 수정 장치는 문장의 끝을 만날 때까지 반복하여 End-to-End 모델(S49)을 생성한다.
상기 도 1 내지 도 3에 설명한 바에 따라, 본 발명에서는 오류를 포함하고 있는 인식 문장과 정답 문장을 하나의 쌍으로 대역시킨 병렬 말뭉치를 사용하여 인식 오류와 오류 단어에 대한 교정 정보를 함께 학습할 수 있다.
이에 따라, 특정 인식 오류의 종류를 지정하지 않고 학습이 암시적으로 이루어지기 때문에, 상대적으로 다양한 인식 오류들을 한꺼번에 처리할 수 있어 End-to-End 기반 음성인식 결과 오류 수정 방법을 제안함으로써 음성인식시스템의 성능을 개선할 수 있다.
도 4는 본 발명의 실시예에 따른 컴퓨터 시스템(400)을 나타내는 도면이다.
본 발명의 실시예에 따른 음성 인식 결과 오류 수정 장치는 도 4와 같은 컴퓨터 시스템(400)으로 구현될 수 있다. 그리고 음성 인식 결과 오류 수정 장치의 각 구성 요소도 도 4와 같은 컴퓨터 시스템(400)으로 구현될 수 있다.
컴퓨터 시스템(400)은 버스(420)를 통해 통신하는 프로세서(410), 메모리(430), 사용자 인터페이스 입력 장치(440), 사용자 인터페이스 출력 장치(450), 그리고 저장 장치(460) 중 적어도 하나를 포함할 수 있다.
프로세서(410)는 중앙 처리 장치(central processing unit, CPU)이거나, 또는 메모리(430) 또는 저장 장치(460)에 저장된 명령을 실행하는 반도체 장치일 수 있다. 프로세서(410)는 상기 도 1 내지 도 3에서 설명한 기능들 및 방법을 구현하도록 구성될 수 있다.
메모리(430) 및 저장 장치(460)는 다양한 형태의 휘발성 또는 비휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리(430)는 ROM(read only memory)(431) 및 RAM(random access memory)(432)를 포함할 수 있다. 본 발명의 실시예에서 메모리(430)는 프로세서(410)의 내부 또는 외부에 위치할 수 있고, 메모리(430)는 이미 알려진 다양한 수단을 통해 프로세서(410)와 연결될 수 있다.
따라서, 본 발명의 실시예는 컴퓨터에 구현된 방법으로서 구현되거나, 컴퓨터 실행 가능 명령이 저장된 비일시적 컴퓨터 판독 가능 매체로서 구현될 수 있다. 본 발명의 실시예에서, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 본 기재의 적어도 하나의 양상에 따른 방법을 수행할 수 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (1)

  1. 입력 문장에 대한 음성 인식 결과의 오류를 수정하는 방법에 있어서,
    상기 입력 문장을 획득하는 단계;
    미리 학습된 음성 인식 언어 모델을 기반으로 하여 제1 가중치를 결정하는 단계;
    상기 입력 문장의 단어 별로 제1 가중치를 부여하는 단계;
    상기 입력 문장에 대응하는 발화 문장을 획득하는 단계;
    상기 음성 인식 언어 모델을 기반으로 하여 상기 제1 가중치보다 높은 제2 가중치를 결정하는 단계; 및
    상기 발화 문장의 단어 별로 제2 가중치를 부여하는 단계를 포함하는
    방법.
KR1020190094742A 2019-08-05 2019-08-05 음성 인식 결과 오류 수정 장치 및 방법 KR20210016682A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190094742A KR20210016682A (ko) 2019-08-05 2019-08-05 음성 인식 결과 오류 수정 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190094742A KR20210016682A (ko) 2019-08-05 2019-08-05 음성 인식 결과 오류 수정 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20210016682A true KR20210016682A (ko) 2021-02-17

Family

ID=74732423

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190094742A KR20210016682A (ko) 2019-08-05 2019-08-05 음성 인식 결과 오류 수정 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20210016682A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113539245A (zh) * 2021-07-05 2021-10-22 思必驰科技股份有限公司 语言模型自动训练方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113539245A (zh) * 2021-07-05 2021-10-22 思必驰科技股份有限公司 语言模型自动训练方法及系统
CN113539245B (zh) * 2021-07-05 2024-03-15 思必驰科技股份有限公司 语言模型自动训练方法及系统

Similar Documents

Publication Publication Date Title
JP6762701B2 (ja) 音声認識方法及び音声認識装置
JP6204959B2 (ja) 音声認識結果最適化装置、音声認識結果最適化方法、及びプログラム
JP4778008B2 (ja) 混同音の生成および検知の方法およびシステム
JP6464650B2 (ja) 音声処理装置、音声処理方法、およびプログラム
US10467340B2 (en) Grammar correcting method and apparatus
CN110021293B (zh) 语音识别方法及装置、可读存储介质
WO2008001486A1 (fr) Dispositif et programme de traitement vocal, et procédé de traitement vocal
US20180130465A1 (en) Apparatus and method for correcting pronunciation by contextual recognition
CN110930993A (zh) 特定领域语言模型生成方法及语音数据标注系统
US11227580B2 (en) Speech recognition accuracy deterioration factor estimation device, speech recognition accuracy deterioration factor estimation method, and program
KR102199246B1 (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
CN111192576A (zh) 解码方法、语音识别设备和系统
JP2020042257A (ja) 音声認識方法及び装置
CN113782030B (zh) 基于多模态语音识别结果纠错方法及相关设备
JP6183988B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
KR20210016682A (ko) 음성 인식 결과 오류 수정 장치 및 방법
Sun et al. Learning OOV through semantic relatedness in spoken dialog systems.
KR102324829B1 (ko) 음성 인식 오류 보정 장치 및 방법
US20180158456A1 (en) Speech recognition device and method thereof
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
KR20220010259A (ko) 음성 신호 처리 방법 및 장치
Ogawa et al. Joint estimation of confidence and error causes in speech recognition
Damavandi et al. NN-grams: Unifying neural network and n-gram language models for speech recognition
KR20200102309A (ko) 단어 유사도를 이용한 음성 인식 시스템 및 그 방법
JP4990822B2 (ja) 辞書修正装置、システム、およびコンピュータプログラム