KR20220132414A - 음성 인식 모델의 트레이닝 방법, 장치, 기기 및 기록 매체 - Google Patents

음성 인식 모델의 트레이닝 방법, 장치, 기기 및 기록 매체 Download PDF

Info

Publication number
KR20220132414A
KR20220132414A KR1020220004740A KR20220004740A KR20220132414A KR 20220132414 A KR20220132414 A KR 20220132414A KR 1020220004740 A KR1020220004740 A KR 1020220004740A KR 20220004740 A KR20220004740 A KR 20220004740A KR 20220132414 A KR20220132414 A KR 20220132414A
Authority
KR
South Korea
Prior art keywords
text
probability
candidate
speech recognition
model
Prior art date
Application number
KR1020220004740A
Other languages
English (en)
Inventor
준야오 샤오
시아오인 푸
치구앙 장
즈지에 천
밍씬 리앙
후안씬 정
셩 치안
Original Assignee
베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 filed Critical 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Publication of KR20220132414A publication Critical patent/KR20220132414A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

본 발명은 컴퓨터 기술분야에 관한 것으로, 구체적으로, 음성 인식, 딥 러닝 등의 기술분야에 관한 음성 인식 모델의 트레이닝 방법, 장치, 기기 및 기록 매체를 개시한다. 음성 인식 모델의 트레이닝 방법은 음향 디코딩 모델과 언어 모델에 기반하여, 음성에 대응하는 적어도 하나의 후보 텍스트의 융합 확률을 획득하는 단계; 상기 융합 확률에 기반하여, 미리 설정된 수의 후보 텍스트를 선택하고, 상기 미리 설정된 수의 후보 텍스트에 기반하여 예측 텍스트를 결정하는 단계; 상기 예측 텍스트와 상기 음성에 대응하는 표준 텍스트에 기반하여, 손실 함수를 획득하고, 상기 손실 함수에 기반하여 상기 음성 인식 모델을 트레이닝하는 단계;를 포함한다. 본 발명은 음성 인식 모델의 인식 정밀도를 향상시킬 수 있다.

Description

음성 인식 모델의 트레이닝 방법, 장치, 기기 및 기록 매체 {A TRAINING METHOD AND DEVICE FOR SPEECH RECOGNITION MODEL, ELECTRONIC EQUIPMENT AND STORAGE MEDIUM}
본 발명은 컴퓨터 기술 분야에 관한 것으로, 구체적으로, 음성 인식, 딥 러닝 등의 기술 분야에 관한 것으로, 특히, 음성 인식 모델의 트레이닝 방법, 장치, 기기 및 기록 매체에 관한 것이다.
자동 음성 인식(Automatic Speech Recognition, ASR)은 음성을 텍스트로 변환하는 기술이다. 음성 인식 태스크를 복수의 서브 태스크(subtask)에 분할하는 기존의 ASR 방식과 달리, 엔드-투-엔드의 음성 인식 모델(end-to-end speech recognition model)의 입력은 음향적 특징이며, 출력은 직접 자연 언어 텍스트이므로, 모델 트레이닝 과정을 간소화한다.
엔드-투-엔드의 음성 인식 모델은 시퀀스-투-시퀀스(Seq2Seq) 모델일 수 있고, 시퀀스-투-시퀀스 모델은 디코더(decoder)를 포함하고, 엔드-투-엔드의 음성 인식 모델을 트레이닝할 경우, 디코더는 빔 검색(beam search) 방식을 사용하여, 복수의 디코딩 결과를 획득할 수 있다.
관련 기술에서, 디코더가 빔 검색(beam search)을 수행할 경우, 입력은 단지 하나 전의 순간(previous moment)의 출력 텍스트 및 음향 관련 정보를 포함한다.
본 발명은 음성 인식 모델의 트레이닝 방법, 장치, 기기 및 기록 매체를 제공한다.
본 발명의 일 측면에 의하면, 음성 인식 모델의 트레이닝 방법을 제공하고, 음향 디코딩 모델과 언어 모델에 기반하여, 적어도 하나의 후보 텍스트의 융합 확률을 계산하는 단계 - 상기 후보 텍스트는 음성에 대응하는 후보 텍스트임 -; 상기 융합 확률에 기반하여, 미리 설정된 수의 후보 텍스트를 선택하고, 상기 미리 설정된 수의 후보 텍스트에 기반하여 예측 텍스트를 결정하는 단계; 및 상기 음성에 대응하는 표준 텍스트와 상기 예측 텍스트에 기반하여, 손실 함수를 계산하고, 상기 손실 함수에 기반하여 음성 인식 모델을 트레이닝하는 단계;를 포함한다.
본 발명의 다른 측면에 의하면, 음성 인식 모델의 트레이닝 장치를 제공하고, 음향 디코딩 모델과 언어 모델에 기반하여, 적어도 하나의 후보 텍스트의 융합 확률을 계산하기 위한 처리 모듈; 상기 후보 텍스트는 음성에 대응하는 후보 텍스트인 처리 모듈; 상기 융합 확률에 기반하여, 미리 설정된 수의 후보 텍스트를 선택하고, 상기 미리 설정된 수의 후보 텍스트에 기반하여 예측 텍스트를 결정하기 위한 결정 모듈; 상기 음성에 대응하는 표준 텍스트와 상기 예측 텍스트에 기반하여, 손실 함수를 계산하고, 상기 손실 함수에 기반하여 음성 인식 모델을 트레이닝하기 위한 트레이닝 모듈;을 포함한다.
본 발명의 다른 측면에 의하면, 전자 기기를 제공하고, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서에 통신 연결되는 메모리;를 포함하고, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기억되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서에 의해 상기의 임의의 측면 중 임의의 하나의 방법이 수행되도록 한다.
본 발명의 다른 측면에 의하면, 컴퓨터 명령이 기억되어 있는 비일시적 컴퓨터 판독 가능 기록 매체를 제공하고, 상기 컴퓨터 명령은 상기 컴퓨터에 상기의 임의의 측면 중 임의의 하나의 방법을 수행하도록 한다.
본 발명의 다른 측면에 의하면, 컴퓨터 프로그램 제품을 제공하고, 컴퓨터 프로그램을 포함하고, 상기 컴퓨터 프로그램이 프로세서에 의해 수행될 때에 상기의 임의의 측면 중 임의의 하나의 방법을 구현한다.
본 발명의 기술 방안에 의하면, 음성 인식 모델의 인식 정밀도를 향상시킬 수 있다.
본 명세서에서 설명된 내용은 본 발명의 실시예의 키 또는 중요한 특징을 식별하려는 것이 아니고, 또한 본 발명의 범위를 제한하려는 것도 아닌 것을 이해하여야 한다. 본 발명의 다른 특징은 이하의 명세서를 통해 용이하게 이해할 수 있다.
첨부 도면은 본 해결수단을 더 잘 이해하기 위한 것으로, 본 발명에 대해 한정하는 것으로 구성되지 않는다.
도 1은 본 발명의 제1 실시예에 따른 개략도이다.
도 2는 본 발명의 제2 실시예에 따른 개략도이다.
도 3은 본 발명의 제3 실시예에 따른 개략도이다.
도 4는 본 발명의 제4 실시예에 따른 개략도이다.
도 5는 본 발명의 제5 실시예에 따른 개략도이다.
도 6은 본 발명의 제6 실시예에 따른 개략도이다.
도 7은 본 발명의 실시예의 음성 인식 모델의 트레이닝 방법 중 임의의 하나 방법을 구현하기 위한 전자 기기의 개략도이다.
하기는 첨부된 도면을 결부하여 본 발명의 예시적 실시예를 설명하되, 여기에는 이해를 돕기 위한 본 발명의 실시예의 다양한 세부 사항이 포함되며, 이는 단지 예시적인 것으로 간주되어야 한다. 따라서, 본 기술분야의 통상의 기술자는 본 발명의 범위와 사상을 벗어나지 않으면서, 여기서 설명되는 실시예에 대한 다양한 변경과 수정이 이루어질 수 있음을 이해해야 한다. 마찬가지로, 명확성 및 간결성을 위해, 아래의 설명에서 공지된 기능과 구조에 대한 설명을 생략한다.
도 1은 본 발명의 제1 실시예에 따른 개략도이다. 본 실시예는 음성 인식 모델의 트레이닝 방법을 제공하고, 상기 음성 인식 모델은, 음향 디코더와 언어 모델을 포함하고, 해당 방법은 하기와 같은 단계를 포함한다.
101, 상기 음향 디코딩 모델(acoustic decoding model)과 상기 언어 모델(language model)에 기반하여, 음성에 대응하는 적어도 하나의 후보 텍스트의 융합 확률(fusion probability)을 획득한다.
102, 상기 융합 확률에 기반하여, 미리 설정된 수의 후보 텍스트(candidate text)를 선택하고, 상기 미리 설정된 수의 후보 텍스트에 기반하여 예측 텍스트(predicted text)를 결정한다.
103, 상기 예측 텍스트와 상기 음성에 대응하는 표준 텍스트(standard text)에 기반하여, 손실 함수를 획득하고, 상기 손실 함수에 기반하여 상기 음성 인식 모델을 트레이닝한다.
본 발명의 실시예에서, 음성 인식 모델은 구체적으로, 엔드-투-엔드의 음성 인식 모델일 수 있고, 엔드-투-엔드의 음성 인식 모델은 구체적으로, 주의력(attention-based)에 기반한 시퀀스-투-시퀀스 모델일 수도 있다.
도 2에 도시된 바와 같이, 엔드-투-엔드의 음성 인식 모델은 인코더(encoder)(201), 주의력 모델(attention)(202) 및 디코더(203)를 포함할 수 있다. 인코더(201)의 입력은 음향적 특징이며, 벡터 x로 표시하고, 음향적 특징은 여러 가지 관련 기술을 사용하여 음성에 대해 특징을 추출한 후에 획득할 수 있고, 예를 들어, 음성 신호를 프레임화한 후, 프레임별로 추출된 필터뱅크(Filterbank) 특징이다. 인코더(201)는 음향적 특징을 인코딩하여, 인코딩 특징을 획득하고, 인코딩 특징은 벡터 henc로 표시한다. 주의력 모델(202)은 서로 다른 인코딩 특징에 서로 다른 무게를 할당하고, 주의력 처리 후의 특징을 획득하고, 벡터 cu로 표시하고, u는 시간 정보(step)의 인덱스이다. 디코더(203)는 텍스트를 출력하고, 텍스트 출력 시에 문자별로 출력할 수 있고, 즉, 디코더(203)는 입력 특징에 기반하여 출력 텍스트 시퀀스를 획득하고, 입력 특징은 하나 전의 순간(previous moment)의 출력 텍스트 yu-1와 주의력 모델(202)에 의해 출력되는 cu를 포함하고, 디코더(203)의 출력은 현재 순간(current moment)의 출력 텍스트 yu이다. 또한, yu는 시작 문자 [SOS]과 종료 문자 [EOS]를 포함할 수 있다. 예를 들어, 음성이 "오늘 날씨(今天天氣)"일 경우, 시작 문자 [SOS]에 기반하여 "今"을 예측하고, "今"에 기반하여 "天"을 예측하고, 종료 문자 [EOS]를 출력할 때까지, 이에 따라 유추할 수 있다.
주의력 모델의 출력은 기존의 ASR 방식과 유사한 음향 모델의 출력인 것을 이해할 수 있고, 따라서, 주의력 모델의 출력 cu는 음향 관련 정보인 것을 이해할 수 있고, 관련 기술에서, 디코더의 입력은 하나 전의 순간의 출력 텍스트 yu-1과 음향 관련 정보 cu만을 포함하고, 상응하게, 관련 기술에서의 디코더는 단지 음향 디코딩 모델만을 포함하는 것을 이해할 수 있다.
본 발명의 실시예에서, 도 2를 참조하고, 디코딩할 때에, 음향 관련 정보에 의존할 뿐만 아니라, 언어 관련 정보에도 의존한다. 도 2에 도시된 바와 같이, 디코더는 음향 디코딩 모델을 포함할 뿐만 아니라, 언어 모델(Language Model, LM)을 더 포함하고, LM는 하나 전의 순간의 출력 텍스트에 기반하여 현재 순간의 출력 텍스트를 예측하는데 사용된다. 음향 디코딩 모델의 출력 노드의 수는 후보 텍스트의 총수와 같고, 언어 모델의 출력 노드의 수도 후보 텍스트의 총수와 같으며, 후보 텍스트의 수는 하나 또는 복수일 수 있고, 복수는 적어도 2개를 가리킨다. 예를 들어, 후보 텍스트가 M개일 경우, 음향 디코딩 모델의 출력 노드와 언어 모델의 출력 노드의 수는 모두 M이며, 음향 디코딩 모델의 출력과 언어 모델의 출력은 각각 softmax 처리를 거쳐, [0, 1] 사이의 수치를 획득할 수 있고, 후보 텍스트가 하나일 경우, 해당 수치는 즉 해당 하나의 후보 텍스트가 표준 텍스트인 확률이며, 일반적으로, 후보 텍스트가 복수일 경우, 복수의 후보 텍스트에서의 각 후보 텍스트에 대응하는 확률을 결정할 필요가 있고, 각 후보 텍스트에 대응하는 확률을 결정하는 것을 예로 설명하면, 즉 해당 수치는 각 후보 텍스트가 표준 텍스트인 확률이며, 표준 텍스트는 음성에 대응하는 정확한 텍스트를 가리킨다. 구별하기 위해, softmax 처리 후의 음향 디코딩 모델의 출력은 제1 확률 P1이라고 할 수 있고, softmax 처리 후의 언어 모델의 출력은 제2 확률 P2이라고 할 수 있고, 그 후, 제1 확률 P1과 제2 확률 P2에 기반하여, 각 후보 텍스트의 융합 확률 P를 계산하고, 예를 들어, 제1 확률 P1과 제2 확률 P2을 가중 합산하여, 가중 합산 값을 융합 확률 P로 한다. 가중 합산 시의 가중 계수는 실제의 수요에 따라 설치할 수 있다. 융합 확률을 계산할 경우, 각 후보 텍스트에 대응하여 계산을 하고, 예를 들어, 후보 텍스트 "今"에 대응하고, 음향 디코딩 모델을 사용하여 "今"의 제1 확률을 결정하고, 언어 모델을 사용하여 "今"의 제2 확률을 결정하고, 또한 "今"의 제1 확률과 "今"의 제2 확률에 기반하여, "今"의 융합 확률을 계산할 수 있다.
각 후보 텍스트의 융합 확률을 획득한 후, 빔 검색(beam search)의 폭이 N이라고 가정할 경우, 융합 확률이 큰 것부터 작은 것 순서로 N개의 후보 텍스트를 선택할 수 있다. 예를 들어, "오늘 날씨(今天天氣)"로, 제1 순간 출력 문자를 예측할 때에, 후보 텍스트는 "今", "金" 및 "斤"을 포함할 수 있고, "今"의 융합 확률이 0.7이며, "金"의 융합 확률이 0.2이며, "斤"의 융합 확률이 0.1이라고 가정하고, N=2일 경우, "今", "金"을 선택할 수 있다.
N개의 후보 텍스트를 선택한 후, N개의 후보 텍스트에 기반하여 예측 텍스트를 결정할 수 있다. 예를 들어, 직접에 N개의 후보 텍스트를 예측 텍스트로 할 수 있다. 예를 들어, 제1 순간에 대응하고, "今"과 "金"을 예측 텍스트로 한다.
예측 텍스트를 획득한 후, 예측 텍스트와 표준 텍스트에 기반하여 손실 함수를 계산할 수 있다. 표준 텍스트는 음성이 정확한 텍스트라고 가리키고, 수동으로 라벨링하는 방식을 사용하여 획득할 수 있고, 예를 들어, 상기 예에서, 표준 텍스트가 "오늘 날씨(今天天氣)"이다. 손실 함수는, 변별 학습 알고리즘(discrimination training algorithm)에서 사용되는 손실 함수일 수 있고, 구체적 형식은 교차 엔트로피 함수(cross-entropy function)와 같은, 실제의 수요에 따라 선택할 수 있고, 본 발명의 실시예에서, 손실 함수가 단어 오류율(word error rate) 함수인 것을 예로 한다. 이하의 공식으로 표시한다.
Figure pat00001
Figure pat00002
Figure pat00003
는 손실 함수이고,
Figure pat00004
는 i번째의 예측 텍스트이며, N개의 예측 텍스트를 공유하고,
Figure pat00005
는 표준 텍스트이며,
Figure pat00006
는 i번째의 예측 텍스트의 오류 수이며,
Figure pat00007
는,
Figure pat00008
에 대한 오류 수이며,
Figure pat00009
는 N개의 예측 텍스트의 평균 오류 수이며,
Figure pat00010
는 정규화 후의 값이며,
Figure pat00011
는 출력 문자
Figure pat00012
의 분포 확률이며, 예를 들어,
Figure pat00013
의 융합 확률 P이다.
손실 함수를 획득한 후, 손실 함수에 기반하여 음성 인식 모델을 트레이닝할 수 있고, 즉, 음성 인식 모델은 랜덤 방식 또는 사전 트레이닝 모델을 로드하는 방식을 사용하여 초기화하고, 초기화한 후, 손실 함수가 수렴될 때까지, 음성 인식 모델의 파라미터를 조정하고, 손실 함수가 수렴될 때의 음성 인식 모델을 최종적으로 획득된 음성 인식 모델로 한다. 음성 인식 모델은 인코더, 주의력 모델 및 디코더를 포함하고, 디코더는 음향 디코딩 모델 및 언어 모델을 포함하고, 인코더, 음향 디코딩 모델 및 언어 모델은, 모두 심층 신경망 모델일 수 있고, 구체적인 모델 구조는, 실제의 수요에 따라 선택할 수 있고, 예를 들어, 인코더, 음향 디코더 모델, 언어 모델은 모두 순환 신경망(Recurrent Neural Network, RNN) 모델이며, 주의력 모델은 멀티-헤딩 주의력 모델(multi-headed attention)을 사용한다.
본 실시예에서, 음향 디코딩 모델과 언어 모델에 기반하여 후보 텍스트의 융합 확률을 계산하고, 융합 확률에 기반하여 후보 텍스트를 선택하고, 후보 텍스트를 선택할 때에 음향 관련 정보를 참조할 뿐만 아니라, 언어 모델의 관련 정보도 참조할 수 있고, 음성 인식 모델의 인식 정밀도를 향상시킬 수 있다.
도 3은 본 발명의 제3 실시예에 따른 개략도이다. 본 실시예는 음성 인식 모델의 트레이닝 방법을 제공하고, 본 실시예는 문자별로의 출력을 예로, 도 2에 도시된 구조를 조합하고, 해당 방법은 하기와 같은 단계를 포함하고,
301, 음성의 음향적 특징을 추출한다.
음성은 예를 들어, "오늘 날씨(今天天氣)"에 대응하는 음성이다.
여러 가지 관련 기술을 사용하여 음향적 특징을 추출할 수 있고, 음향적 특징은 예를 들어, 필터뱅크(Filterbank) 특징이다.
302, 인코더를 사용하여, 상기 음향적 특징을 인코딩하여, 인코딩 특징을 획득한다.
인코더는 장단기 기억 네트워크(Long Short-Term Memory, LSTM) 모델과 같은 RNN모델일 수도 있다.
303, 주의력 모델을 사용하여, 상기 인코딩 특징에 대해 주의력 처리를 하여, 주의력 처리 후의 특징을 획득한다.
주의력 모델은 멀티-헤딩 주의력 모델(multi-headed attention)과 같은 여러 가지 관련 기술에서의 모델을 사용할 수 있다.
본 실시예에서, 음향적 특징을 추출하고, 음향적 특징을 인코딩하여, 인코딩 특징에 대해 주의력 처리를 하는 것에 의해, 시멘틱 특징을 획득할 수 있고, 시멘틱 특징을 디코딩하여 예측 텍스트를 획득할 수 있고, 예측 텍스트에 기반하여 음성 인식 모델을 트레이닝할 수 있다.
304, 음향 디코딩 모델을 사용하여, 하나 전의 순간 출력 문자 및 상기 주의력 처리 후의 특징을 처리하여, 상기 음성에 대응하는 적어도 하나의 후보 텍스트 중의 각 후보 텍스트에 대응하는 제1 확률을 획득한다.
음향 디코딩 모델은 장단기 기억 네트워크(Long Short-Term Memory, LSTM) 모델과 같은 RNN모델일 수도 있다.
예를 들어, 음성은 "오늘 날씨(今天天氣)"에 대응하는 음성이며, 현재 순간은 "今"을 예측할 경우, 음향 디코딩 모델을 사용하여, 시작 문자 [SOS] 및 현재 순간 주의력 처리 후의 특징 c1에 기반하여 처리하여, 각 후보 텍스트에 대응하는 제1 확률을 획득하고, 예를 들어, 각 후보 텍스트가 금(今), 금(金) 등을 포함할 경우, 금(今)의 제1 확률, 금(金)의 제1 확률 등을 예측하여 획득할 수 있다.
305, 언어 모델을 사용하여, 하나 전의 순간 출력 문자를 처리하여, 상기 각 후보 텍스트에 대응하는 제2 확률을 획득한다.
언어 모델은 RNN 모델, 변환기(Transformer) 모델 등과 같은 신경망 모델일 수도 있다.
예를 들어, 현재 순간은 "今"을 예측할 경우, 언어 모델을 사용하여, 시작 문자 [SOS]에 기반하여 처리하여, 각 후보 텍스트에 대응하는 제2 확률을 획득할 수 있고, 예를 들어, 각 후보 텍스트가 금(今), 금(金) 등을 포함할 경우, 금(今)의 제2 확률, 금(金)의 제2 확률 등을 예측하여 획득할 수 있다.
306, 상기 제1 확률과 상기 제2 확률에 기반하여, 상기 각 후보 텍스트에 대응하는 융합 확률을 획득한다.
구체적으로, 상기 각 후보 텍스트에 대응하여, 상기 제1 확률과 상기 제2 확률을 가중 합산하여, 가중 합산 값을 획득하고, 상기 가중 합산 값을 대응하는 후보 텍스트의 융합 확률로 결정할 수 있다.
예를 들어, "今"에 대응하고, "今"의 제1 확률과 제2 확률에 대해 가중 합산한 후, "今"의 융합 확률을 획득할 수 있다.
본 실시예에서, 제1 확률과 제2 확률에 대해 가중 합산하여 융합 확률을 획득함으로써, 융합 확률의 계산을 용이하게 구현할 수 있다.
307, 상기 융합 확률에 기반하여, 미리 설정된 수의 후보 텍스트를 선택한다.
구체적으로, 융합 확률이 큰 것부터 작은 것 순서로, 수가 빔 검색(beam search)의 폭의 후보 텍스트를 선택할 수 있고, 예를 들어, 빔 검색(beam search)의 폭은 N로 표시하고, N=2이라고 가정할 경우, 제1 순간에 대응하고, "今"과 "金"의 융합 확률이 비교적으로 높은 2개라고 가정할 경우, "今"과 "金"을 제1 순간 후보 텍스트로 선택할 수 있다.
308, 상기 미리 설정된 수의 후보 텍스트에 상기 음성에 대응하는 표준 텍스트가 존재하는지 여부를 판단하고, 존재하는 경우, 309를 수행하고, 그렇지 않은 경우, 310을 수행한다.
음성에 대응하는 표준 텍스트는 수동으로 라벨링하는 방식을 사용하여 획득할 수 있고, 예를 들어, 제1 순간에 대응하고, 표준 텍스트는 "今"이다.
309, 상기 미리 설정된 수의 후보 텍스트를 예측 텍스트로 결정한다.
310, 상기 표준 텍스트를 사용하여 상기 미리 설정된 수의 후보 텍스트 중 하나의 후보 텍스트를 대체하여, 대체 후의 텍스트를 획득하고, 상기 대체 후의 텍스트를 예측 텍스트로 결정한다.
예를 들어, 제1 순간에 대응하고, 표준 텍스트는 "今"이며, 선택된 N개의 후보 텍스트에는 "金"과 "斤"이며, "今"이 포함되지 않은 경우, 강제적으로 예측 텍스트에 표준 텍스트 "今"을 포함시킬 수 있다. 구체적으로, 인코딩의 방식을 사용하여, 지정된 출력 패스 또는 랜덤으로 선택된 출력 패스에서, 표준 텍스트를 사용하여 앞의 후보 텍스트를 대체할 수 있고, 예를 들어, "今"으로 "斤"을 대체하면, 예측 텍스트는 "今"과 "金"이다.
관련 기술에서, 변별 학습할 경우, 일반적으로, 평균 오류율보다 높은 후보 텍스트를 억제하고, 평균 오류율보다 낮은 후보 텍스트를 권장한다. 그러나, N개의 후보 텍스트에 완전히 정확한 결과가 없을 경우, 틀린 결과를 권장하는 문제가 발생할 수 있다.
본 실시예에서, 표준 텍스트를 사용하여 후보 텍스트를 대체하는 방식에 의해, 강제적으로 예측 텍스트에 표준 텍스트를 포함할 수 있고, 음성 인식 모델의 인식 효과를 향상시킬 수 있다.
311, 상기 음성에 대응하는 표준 텍스트와 상기 예측 텍스트에 기반하여, 상기 예측 텍스트의 누적 오류 수를 획득하고, 상기 누적 오류 수는 이력 오류 수와 현재 오류 수에 기반하여 획득한다.
현재 오류 수는 현재 순간의 예측 텍스트가 표준 텍스트에 대한 오류 수를 가리키고, 이력 오류 수는 현재 순간 앞 이력 순간의 예측 텍스트가 표준 텍스트에 대한 오류 수를 가리킨다.
예를 들어, 도 4를 참조하면, 표준 텍스트는 "오늘 날씨(今天天氣)"이며, 관련 기술에서, 도 4의 상측에 도시된 바와 같이, 오류 수를 계산할 경우, 문장 전체를 기준으로 하고, 3개의 예측 텍스트의 문장 전체 오류 수(글로벌 오류 수)는 모두 1이므로, 국부적인 오류 조정을 할 수 없다.
본 실시예에서, 도 4의 하측에 도시된 바와 같이, 각 순간에 기반하여 오류 수를 계산하고, 예를 들어, 제1 순간에 대해, "今" "金"의 오류 수를 계산하고, 제2 순간에 대해, "今"과 "天"의 누적 오류 수 및 "金"과 "天"의 누적 오류 수를 계산하고, 제3 순간에 대해, "今", "天" 및 "天"의 누적 오류 수와, "金", "天" 및 "天"의 누적 오류 수와, "今", "天" 및 "添"의 누적 오류 수를 계산하고, 문장 전체의 종료까지, 이에 따라 유추한다.
본 실시예에서, 누적 오류 수를 계산함으로써, 국부적인 오류 조정을 구현할 수 있다.
312, 상기 예측 텍스트의 누적 오류 수에 기반하여, 손실 함수를 획득한다.
313, 상기 손실 함수에 기반하여, 음성 인식 모델을 트레이닝한다.
본 실시예에서, 음향 디코딩 모델을 사용하여 제1 확률을 계산하고, 언어 모델을 사용하여 제2 확률을 계산하고, 제1 확률과 제2 확률에 기반하여 융합 확률을 획득하고, 융합 확률에 기반하여 후보 텍스트를 선택함으로써, 더 정확한 후보 텍스트를 획득하고, 음성 인식 모델의 인식 효과를 더 향상시킬 수 있다.
도 5는 본 발명의 제5 실시예에 따른 개략도이다. 본 실시예는 음성 인식 모델의 트레이닝 장치를 제공하고, 해당 장치(500)는 처리 모듈(501), 결정 모듈(502) 및 트레이닝 모듈(503)을 포함한다. 처리 모듈(501)은 상기 음향 디코딩 모델과 상기 언어 모델에 기반하여, 음성에 대응하는 적어도 하나의 후보 텍스트의 융합 확률을 획득하는데 사용되고, 결정 모듈(502)은 상기 융합 확률에 기반하여, 미리 설정된 수의 후보 텍스트를 선택하고, 상기 미리 설정된 수의 후보 텍스트에 기반하여 예측 텍스트를 결정하는데 사용되고, 트레이닝 모듈(503)은 상기 예측 텍스트와 상기 음성에 대응하는 표준 텍스트에 기반하여, 손실 함수를 획득하고, 상기 손실 함수에 기반하여 상기 음성 인식 모델을 트레이닝하는데 사용된다.
일부 실시예에서, 상기 처리 모듈(501)은 구체적으로, 상기 음향 디코딩 모델을 사용하여, 하나 전의 순간의 출력 텍스트와 현재 순간의 음향 관련 정보를 처리하여, 음성에 대응하는 적어도 하나의 후보 텍스트에 대응하는 제1 확률을 획득하고, 상기 언어 모델을 사용하여, 하나 전의 순간의 출력 텍스트를 처리하여, 상기 후보 텍스트에 대응하는 제2 확률을 획득하고, 상기 제1 확률과 상기 제2 확률에 기반하여, 상기 후보 텍스트의 융합 확률을 획득하는데 사용된다.
일부 실시예에서, 상기 처리 모듈(501)은 또한, 구체적으로, 상기 후보 텍스트에 대응하여, 상기 제1 확률과 상기 제2 확률을 가중 합산하여, 가중 합산 값을 획득하고, 상기 가중 합산 값을 대응하는 후보 텍스트의 융합 확률로 결정하는데 사용된다.
일부 실시예에서, 상기 결정 모듈(502)은 구체적으로, 상기 미리 설정된 수의 후보 텍스트에 상기 표준 텍스트가 포함될 경우, 상기 미리 설정된 수의 후보 텍스트를 예측 텍스트로 결정하거나, 또는, 상기 미리 설정된 수의 후보 텍스트에 상기 표준 텍스트가 포함되지 않은 경우, 상기 표준 텍스트를 사용하여 상기 미리 설정된 수의 후보 텍스트 중 하나의 후보 텍스트를 대체하여, 대체 후의 텍스트를 획득하고, 상기 대체 후의 텍스트를 예측 텍스트로 결정하는데 사용된다.
일부 실시예에서, 상기 트레이닝 모듈(503)은 구체적으로, 상기 예측 텍스트와 상기 음성에 대응하는 표준 텍스트에 기반하여, 상기 예측 텍스트의 누적 오류 수를 획득하고, 상기 누적 오류 수는 이력 오류 수(historical error number)와 현재 오류 수(current error number)에 기반하여 획득하고, 상기 예측 텍스트의 누적 오류 수에 기반하여, 손실 함수를 획득하는데 사용된다.
일부 실시예에서, 도 6에 도시된 바와 같이, 음성 인식 모델의 트레이닝 장치를 더 제공하고, 해당 장치(600)는 처리 모듈(601), 결정 모듈(602) 및 트레이닝 모듈(603)을 포함하고, 추출 모듈(604), 인코딩 모듈(605) 및 주의력 처리 모듈(606)을 더 포함한다.
추출 모듈(604)은 상기 음성의 음향적 특징을 추출하는데 사용되고, 인코딩 모듈(605)은 상기 음향적 특징을 인코딩하여, 인코딩 특징을 획득하는데 사용되고, 주의력 처리 모듈(606)은 상기 인코딩 특징을 처리하고, 상기 주의력 처리 후의 특징을 획득하는데 사용된다.
본 발명의 실시예에서, 음향적 특징을 추출하고, 음향적 특징을 인코딩하여, 인코딩 특징에 대해 주의력 처리를 하는 것에 의해, 시멘틱 특징을 획득할 수 있고, 시멘틱 특징을 디코딩하여 예측 텍스트를 획득할 수 있고, 예측 텍스트에 기반하여 음성 인식 모델을 트레이닝할 수 있다. 음향 디코딩 모델을 사용하여 제1 확률을 계산하고, 언어 모델을 사용하여 제2 확률을 계산하고, 제1 확률과 제2 확률에 기반하여 융합 확률을 획득하고, 융합 확률에 기반하여 후보 텍스트를 선택함으로써, 더 정확한 후보 텍스트를 획득하고, 음성 인식 모델의 인식 효과를 더 향상시킬 수 있다. 제1 확률과 제2 확률에 대해 가중 합산하여 융합 확률을 획득함으로써, 융합 확률의 계산을 용이하게 구현할 수 있다. 누적 오류 수를 계산함으로써, 국부적인 오류 조정을 구현할 수 있다.
본 발명의 실시예에서, 서로 다른 실시예에서의 동일하거나 또는 유사한 내용은 서로 참조하는 것이 할 수 있는 것을 이해할 수 있다.
본 발명의 실시예에서의 "제1" 및 "제2" 등은 단지 구분하기 위한 것일 뿐, 중요도의 고저, 타이밍의 전후 등을 표시하는 것이 아님을 이해할 수 있다.
본 발명의 실시예에 의하면, 본 발명은 전자 기기, 판독 가능 기록 매체 및 컴퓨터 프로그램 제품을 더 제공한다.
도 7에 도시된 바와 같이, 본 발명의 실시예를 구현하는데 사용되는 예시적인 전자 기기(700)의 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 운영 플랫폼, 서버, 블레이드 서버, 대형 컴퓨터, 및 다른 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 의미한다. 전자 기기는 개인 디지털 처리, 셀룰러폰, 스마트폰, 웨어러블 기기 및 다른 유사한 계산 장치와 같은 다양한 형태의 이동 장치를 의미할 수도 있다. 본문에서 나타낸 부재, 이들의 연결과 관계, 및 이들의 기능은 단지 예시적인 것으로, 본문에서 설명 및/또는 요구된 본 발명의 구현을 한정하지 않는다.
도 7에 도시된 바와 같이, 전자 기기(700)는 계산 유닛(701)을 포함하고, 계산 유닛(701)은 판독 전용 메모리(ROM)(702)에 저장되어 있는 컴퓨터 프로그램 또는 저장 유닛(708)으로부터 랜덤 액세스 메모리(RAM)(703)에 로드된 컴퓨터 프로그램에 따라, 다양한 적절한 동작과 처리를 실행할 수 있다. RAM(703)에는 전자 기기(700)가 동작하는데 필요한 여러 가지 프로그램과 데이터도 저장할 수 있다. 계산 유닛(701), ROM(702) 및 RAM(703)는 버스(704)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(705)도 버스(704)에 연결된다.
전자 기기(700) 중의 복수 컴포넌트는 I/O 인터페이스(705)에 연결되고, 키보드, 마우스 등과 같은 입력 유닛(706); 여러 가지 타입의 디스플레이, 스피커 등과 같은 출력 유닛(707); 디스크, 광디스크 등과 같은 저장 유닛(708) 및 네트워크 카드, 모뎀, 무선통신 트랜시버 등과 같은 통신 유닛(709)을 포함한다. 통신 유닛(709)은 전자 기기(700)가 인터넷 등과 같은 컴퓨터 네트워크 및 여러 가지 통신 네트워크 중의 적어도 하나를 통해 다른 기기와 정보/데이터를 교환할 수 있다.
계산 유닛(701)은 여러 가지 처리와 계산 능력을 갖춘 범용 처리 컴포넌트 및 전용 처리 컴포넌트 중의 적어도 하나일 수 있다. 계산 유닛(701)의 일부 예는, 중앙 처리 유닛(CPU), 그래픽스 처리 유닛(GPU), 다양한 전용 인공지능(AI) 계산 팁, 다양한 기계학습 모델 알고리즘을 실행하는 계산 유닛, 디지털 신호 프로세서(DSP) 및 임의의 적절한 프로세서, 컨트롤러, 마이크로 컨트롤러 등을 포함하지만, 이에 한정되지 않는다. 계산 유닛(701)은 음성 인식 모델의 트레이닝 방법 등과 같은 상기의 다양한 방법과 처리를 실행한다. 예를 들면, 일부 실시예에서, 음성 인식 모델의 트레이닝 방법은 저장 유닛(708) 등과 같은 기계 판독 가능 매체에 유형적으로 포함되는 컴퓨터 소프트웨어 프로그램으로 구현할 수 있다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(702) 및 통신 유닛(709) 중의 적어도 하나를 통해 전자 기기(700)에 로드 및/또는 인스톨될 수 있다. 컴퓨터 프로그램이 RAM(703)에 로드되어 계산 유닛(701)에 의해 실행될 경우, 상기의 음성 인식 모델의 트레이닝 방법의 하나 또는 복수의 단계를 실행할 수 있다. 대안적으로, 다른 실시예에서, 계산 유닛(701)은 다른 임의의 적절한 방식(예를 들면, 펌웨어에 의해)을 통해 음성 인식 모델의 트레이닝 방법을 실행하도록 구성될 수 있다.
여기서 설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 필드 프로그래밍 가능한 게이트 어레이(FPGA), 특정 용도 대상 집적 회로(ASIC), 특정 용도 대상 표준제품(ASSP), 시스템 온 칩 시스템(SOC), 부하 프로그래밍 가능 논리 장치(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 결합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 다수의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 또는 다수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치, 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.
본 발명의 방법을 실시하기 위한 프로그램 코드는 하나 또는 복수의 프로그래밍 언어의 임의의 결합을 사용하여 작성할 수 있다. 이러한 프로그램 코드는 프로그램 코드가 프로세서 또는 컨트롤러에 의해 실행될 때 흐름도 및 블록도 중의 적어도 하나에 규정된 기능/동작이 실행되도록, 대형 기계(슈퍼 컴퓨터), 전용 컴퓨터 또는 다른 프로그램 가능한 데이터 처리 장치의 프로세서 또는 컨트롤러에 제공할 수 있다. 프로그램 코드는 완전히 기계에서 실행되거나, 부분적으로 기계에서 실행되거나, 독립된 소프트웨어 패키지로서 부분적으로 기계에서 실행되고, 부분적으로 리모트 기계에서 실행되거나 또는 완전히 리모트 기계 또는 서버에서 실행될 수 있다.
본 발명의 문맥에서, 기계 판독 가능 매체는 명령 실행 시스템, 장치 또는 기기의 사용, 또는 명령 실행 시스템, 장치 또는 기기와 결합하여 사용되는 프로그램을 포함하거나 저장할 수 있는 유형적인 매체일 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 저장 매체일 수 있다. 기계 판독 가능 매체는 전자, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템, 장치 또는 기기, 또는 상술한 내용의 임의의 적절한 결합을 포함하지만, 이에 한정되지 않는다. 기계 판독 가능 저장 매체의 더 구체적인 예는 하나 또는 복수의 와이어에 기반한 전기 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그래머블 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 포터블 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 장치, 자기 저장 장치 또는 상술한 내용의 임의의 적절한 결합을 포함한다.
사용자와의 인터랙션을 제공하기 위하여, 컴퓨터에서 여기서 설명된 시스템 및 기술을 실시할 수 있고, 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시 장치) 모니터); 및 키보드 및 지향 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하며, 사용자는 상기 키보드 및 상기 지향 장치를 통해 컴퓨터에 입력을 제공한다. 다른 타입의 장치는 또한 사용자와의 인터랙션을 제공할 수 있는데, 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 감지 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있고; 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력)로 사용자로부터의 입력을 수신할 수 있다.
여기서 설명된 시스템 및 기술은 백엔드 부재를 포함하는 계산 시스템(예를 들어, 데이터 서버로 사용됨), 또는 미들웨어 부재를 포함하는 계산 시스템(예를 들어, 애플리케이션 서버), 또는 프론트 엔드 부재를 포함하는 계산 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비하는 사용자 컴퓨터인 바, 사용자는 상기 그래픽 사용자 인터페이스 또는 상기 네트워크 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백엔드 부재, 미들웨어 부재, 또는 프론트 엔드 부재의 임의의 결합을 포함하는 계산 시스템에서 구현될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예는, 근거리 통신망(LAN), 광역망(WAN), 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고 일반적으로 통신 네트워크를 통해 서로 인터랙션한다. 대응되는 컴퓨터에서 실행되고 또한 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다. 서버는 클라우드 서버일 수 있고, 클라우드 계산 또는 클라우드 호스트일 수도 있으며, 클라우드 계산 서비스 시스템 중의 하나의 호스트 제품일 수 있어, 종래의 물리 호스트와 VPS 서비스 ("Virtual Private Server" 또는 "VPS"라고 약칭한다)에 존재하는 관리 곤란도가 높고, 업무 확장성이 약한 것을 해결한다. 서버는 분산 시스템의 서버일 수 있거나, 또는 블록 체인을 결합한 서버일 수도 있다.
위에서 설명된 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 발명에 기재된 각 단계는 동시에, 순차적으로, 또는 상이한 순서로 수행될 수 있으며, 본 발명에 개시된 기술적 해결수단이 이루고자 하는 결과를 구현할 수 있는 한, 본문은 여기서 한정되지 않는다.
상기 구체적인 실시형태는 본 발명의 보호 범위를 한정하지 않는다. 본 기술분야의 통상의 기술자는, 설계 요구 및 다른 요소에 따라 다양한 수정, 결합, 서브 결합 및 대체를 진행할 수 있음을 이해해야 한다. 본 발명의 정신 및 원칙 내에서 이루어진 임의의 수정, 등가 교체 및 개선 등은 모두 본 발명의 보호 범위 내에 포함되어야 한다.

Claims (16)

  1. 음성 인식 모델의 트레이닝 방법(a training method for speech recognition model)에 있어서,
    상기 음성 인식 모델은 음향 디코딩 모델과 언어 모델을 포함하고, 상기 방법은,
    상기 음향 디코딩 모델과 상기 언어 모델에 기반하여, 음성에 대응하는 적어도 하나의 후보 텍스트의 융합 확률을 획득하는 단계;
    상기 융합 확률에 기반하여, 미리 설정된 수의 후보 텍스트를 선택하고, 상기 미리 설정된 수의 후보 텍스트에 기반하여 예측 텍스트를 결정하는 단계; 및
    상기 예측 텍스트와 상기 음성에 대응하는 표준 텍스트에 기반하여, 손실 함수를 획득하고, 상기 손실 함수에 기반하여 상기 음성 인식 모델을 트레이닝하는 단계;
    를 포함하는,
    음성 인식 모델의 트레이닝 방법.
  2. 제1항에 있어서,
    상기 음향 디코딩 모델과 상기 언어 모델에 기반하여, 음성에 대응하는 적어도 하나의 후보 텍스트의 융합 확률을 획득하는 단계는,
    상기 음향 디코딩 모델을 사용하여, 하나 전의 순간(previous moment)의 출력 텍스트와 현재 순간(current moment)의 음향 관련 정보를 처리하여, 음성에 대응하는 적어도 하나의 후보 텍스트에 대응하는 제1 확률을 획득하는 단계;
    상기 언어 모델을 사용하여, 상기 하나 전의 순간의 출력 텍스트를 처리하여, 상기 후보 텍스트에 대응하는 제2 확률을 획득하는 단계; 및
    상기 제1 확률과 상기 제2 확률에 기반하여, 상기 후보 텍스트의 융합 확률을 획득하는 단계;를 포함하는,
    음성 인식 모델의 트레이닝 방법.
  3. 제2항에 있어서,
    상기 제1 확률과 상기 제2 확률에 기반하여, 상기 후보 텍스트의 융합 확률을 획득하는 단계는,
    상기 후보 텍스트에 대응하여, 상기 제1 확률과 상기 제2 확률을 가중 합산하여, 가중 합산 값을 획득하고, 상기 가중 합산 값을 대응하는 후보 텍스트의 융합 확률로 결정하는 단계;를 포함하는,
    음성 인식 모델의 트레이닝 방법.
  4. 제1항에 있어서,
    상기 미리 설정된 수의 후보 텍스트에 기반하여 예측 텍스트를 결정하는 단계는,
    상기 미리 설정된 수의 후보 텍스트에 상기 표준 텍스트가 포함될 경우, 상기 미리 설정된 수의 후보 텍스트를 예측 텍스트로 결정하는 단계; 및
    상기 미리 설정된 수의 후보 텍스트에 상기 표준 텍스트가 포함되지 않은 경우, 상기 표준 텍스트를 사용하여 상기 미리 설정된 수의 후보 텍스트 중 하나의 후보 텍스트를 대체하여, 대체 후의 텍스트를 획득하고, 상기 대체 후의 텍스트를 예측 텍스트로 결정하는 단계;를 포함하는,
    음성 인식 모델의 트레이닝 방법.
  5. 제1항에 있어서,
    상기 예측 텍스트와 상기 음성에 대응하는 표준 텍스트에 기반하여, 손실 함수를 획득하는 단계는,
    상기 예측 텍스트와 상기 음성에 대응하는 표준 텍스트에 기반하여, 상기 예측 텍스트의 누적 오류 수를 획득하는 단계 - 상기 누적 오류 수는 이력 오류 수(historical error number)와 현재 오류 수(current error number)에 기반하여 획득함 -; 및
    상기 예측 텍스트의 누적 오류 수에 기반하여, 손실 함수를 획득하는 단계;를 포함하는,
    음성 인식 모델의 트레이닝 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 음성 인식 모델은 인코더와 주의력 모델을 더 포함하고, 음향 관련 정보는 주의력 처리 후의 특징이며,
    상기 방법은,
    상기 음성의 음향적 특징을 추출하는 단계;
    상기 인코더를 사용하여, 상기 음향적 특징을 인코딩하여, 인코딩 특징을 획득하는 단계; 및
    상기 주의력 모델을 사용하여, 상기 인코딩 특징을 주의력 처리하여, 상기 주의력 처리 후의 특징을 획득하는 단계;
    를 더 포함하는,
    음성 인식 모델의 트레이닝 방법.
  7. 음성 인식 모델의 트레이닝 장치(a training device for speech recognition model)에 있어서,
    음향 디코딩 모델(acoustic decoding model)과 언어 모델(language model)에 기반하여, 음성에 대응하는 적어도 하나의 후보 텍스트의 융합 확률을 획득하기 위한 처리 모듈;
    상기 융합 확률에 기반하여, 미리 설정된 수의 후보 텍스트를 선택하고, 상기 미리 설정된 수의 후보 텍스트에 기반하여 예측 텍스트를 결정하기 위한 결정 모듈; 및
    상기 예측 텍스트와 상기 음성에 대응하는 표준 텍스트에 기반하여, 손실 함수를 획득하고, 상기 손실 함수에 기반하여 상기 음성 인식 모델을 트레이닝하기 위한 트레이닝 모듈;
    을 포함하는,
    음성 인식 모델의 트레이닝 장치.
  8. 제7항에 있어서,
    상기 처리 모듈은, 구체적으로,
    상기 음향 디코딩 모델을 사용하여, 하나 전의 순간의 출력 텍스트와 현재 순간의 음향 관련 정보를 처리하여, 음성에 대응하는 적어도 하나의 후보 텍스트에 대응하는 제1 확률을 획득하고,
    상기 언어 모델을 사용하여, 하나 전의 순간의 출력 텍스트를 처리하여, 상기 후보 텍스트에 대응하는 제2 확률을 획득하고,
    상기 제1 확률과 상기 제2 확률에 기반하여, 상기 후보 텍스트의 융합 확률을 획득하는데 사용되는,
    음성 인식 모델의 트레이닝 장치.
  9. 제8항에 있어서,
    상기 처리 모듈은, 또한, 구체적으로,
    상기 후보 텍스트에 대응하여, 상기 제1 확률과 상기 제2 확률을 가중 합산하여, 가중 합산 값을 획득하고, 상기 가중 합산 값을 대응하는 후보 텍스트의 융합 확률로 결정하는데 사용되는,
    음성 인식 모델의 트레이닝 장치.
  10. 제7항에 있어서,
    상기 결정 모듈은, 구체적으로,
    상기 미리 설정된 수의 후보 텍스트에 상기 표준 텍스트가 포함될 경우, 상기 미리 설정된 수의 후보 텍스트를 예측 텍스트로 결정하고,
    상기 미리 설정된 수의 후보 텍스트에 상기 표준 텍스트가 포함되지 않은 경우, 상기 표준 텍스트를 사용하여 상기 미리 설정된 수의 후보 텍스트 중 하나의 후보 텍스트를 대체하여, 대체 후의 텍스트를 획득하고, 상기 대체 후의 텍스트를 예측 텍스트로 결정하는데 사용되는,
    음성 인식 모델의 트레이닝 장치.
  11. 제7항에 있어서,
    상기 트레이닝 모듈은, 구체적으로,
    상기 예측 텍스트와 상기 음성에 대응하는 표준 텍스트에 기반하여, 상기 예측 텍스트의 누적 오류 수를 획득하고, 상기 누적 오류 수는 이력 오류 수와 현재 오류 수에 기반하여 획득하고,
    상기 예측 텍스트의 누적 오류 수에 기반하여, 손실 함수를 획득하는데 사용되는,
    음성 인식 모델의 트레이닝 장치.
  12. 제7항 내지 제11항 중 어느 한 항에 있어서,
    상기 음성 인식 모델은 인코더와 주의력 모델을 더 포함하고, 음향 관련 정보는 주의력 처리 후의 특징이며, 상기 장치는,
    상기 음성의 음향적 특징을 추출하기 위한 추출 모듈;
    상기 음향적 특징을 인코딩하여, 인코딩 특징을 획득하기 위한 인코딩 모듈; 및
    상기 인코딩 특징을 처리하고, 상기 주의력 처리 후의 특징을 획득하기 위한 주의력 처리 모듈;
    을 더 포함하는,
    음성 인식 모델의 트레이닝 장치.
  13. 전자 기기에 있어서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서에 통신 연결되는 메모리;를 포함하고,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기억되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서에 의해 제1항 내지 제6항 중 어느 한 항의 방법이 수행되도록 하는,
    전자 기기.
  14. 컴퓨터 명령이 기억되어 있는 비일시적 컴퓨터 판독 가능 기록 매체에 있어서,
    상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제6항 중 어느 한 항의 방법을 수행하도록 하는,
    비일시적 컴퓨터 판독 가능 기록 매체.
  15. 컴퓨터 프로그램 제품에 있어서,
    컴퓨터 프로그램을 포함하고, 상기 컴퓨터 프로그램이 프로세서에 의해 수행될 때, 제1항 내지 제6항 중 어느 한 항의 방법을 구현하는,
    컴퓨터 프로그램 제품.
  16. 비일시적 컴퓨터 판독 가능 기록 매체에 기억되어 있는 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램은 상기 컴퓨터가 제1항 내지 제6항 중 어느 한 항의 방법을 수행하도록 하는,
    비일시적 컴퓨터 판독 가능 기록 매체에 기억되어 있는 컴퓨터 프로그램.
KR1020220004740A 2021-03-23 2022-01-12 음성 인식 모델의 트레이닝 방법, 장치, 기기 및 기록 매체 KR20220132414A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110308608.0 2021-03-23
CN202110308608.0A CN113129870B (zh) 2021-03-23 2021-03-23 语音识别模型的训练方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
KR20220132414A true KR20220132414A (ko) 2022-09-30

Family

ID=76773806

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220004740A KR20220132414A (ko) 2021-03-23 2022-01-12 음성 인식 모델의 트레이닝 방법, 장치, 기기 및 기록 매체

Country Status (5)

Country Link
US (1) US12033616B2 (ko)
EP (1) EP4064277B1 (ko)
JP (1) JP7346788B2 (ko)
KR (1) KR20220132414A (ko)
CN (1) CN113129870B (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113850291B (zh) * 2021-08-18 2023-11-24 北京百度网讯科技有限公司 文本处理及模型训练方法、装置、设备和存储介质
CN113611311A (zh) * 2021-08-20 2021-11-05 天津讯飞极智科技有限公司 语音转写方法、装置、录音设备和存储介质
CN113889088B (zh) * 2021-09-28 2022-07-15 北京百度网讯科技有限公司 训练语音识别模型的方法及装置、电子设备和存储介质
CN114842834A (zh) * 2022-03-31 2022-08-02 中国科学院自动化研究所 一种语音文本联合预训练方法及系统
CN115116437B (zh) * 2022-04-07 2024-02-09 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备、存储介质及产品
KR102478763B1 (ko) * 2022-06-28 2022-12-19 (주)액션파워 자소 정보를 이용한 음성 인식 방법
US20240013782A1 (en) * 2022-07-11 2024-01-11 Google Llc History-Based ASR Mistake Corrections
CN115132209B (zh) * 2022-09-01 2022-11-08 北京百度网讯科技有限公司 语音识别方法、装置、设备和介质
CN117116264B (zh) * 2023-02-20 2024-07-23 荣耀终端有限公司 一种语音识别方法、电子设备以及介质

Family Cites Families (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6208964B1 (en) * 1998-08-31 2001-03-27 Nortel Networks Limited Method and apparatus for providing unsupervised adaptation of transcriptions
US8407041B2 (en) * 2010-12-01 2013-03-26 Microsoft Corporation Integrative and discriminative technique for spoken utterance translation
US10019985B2 (en) * 2013-11-04 2018-07-10 Google Llc Asynchronous optimization for sequence training of neural networks
DE112014006343T5 (de) * 2014-02-06 2016-10-20 Mitsubishi Electric Corporation Sprachsuchvorrichtung und Sprachsuchverfahren
KR20160082150A (ko) * 2014-12-31 2016-07-08 한국전자통신연구원 불완전 사전을 이용한 자연어 음성 인식 방법
JP6637078B2 (ja) * 2016-02-02 2020-01-29 日本電信電話株式会社 音響モデル学習装置、音響モデル学習方法及びプログラム
US10896669B2 (en) * 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
CN107578771B (zh) * 2017-07-25 2021-02-02 科大讯飞股份有限公司 语音识别方法及装置、存储介质、电子设备
CN110444214B (zh) * 2017-11-24 2021-08-17 深圳市腾讯计算机系统有限公司 语音信号处理模型训练方法、装置、电子设备及存储介质
CN109887494B (zh) * 2017-12-01 2022-08-16 腾讯科技(深圳)有限公司 重构语音信号的方法和装置
US10672388B2 (en) 2017-12-15 2020-06-02 Mitsubishi Electric Research Laboratories, Inc. Method and apparatus for open-vocabulary end-to-end speech recognition
JP6831343B2 (ja) 2018-02-01 2021-02-17 日本電信電話株式会社 学習装置、学習方法及び学習プログラム
KR102699827B1 (ko) * 2018-05-11 2024-08-29 삼성전자주식회사 음성 인식 모델을 개인화하는 방법 및 장치
US11145293B2 (en) * 2018-07-20 2021-10-12 Google Llc Speech recognition with sequence-to-sequence models
US10810996B2 (en) * 2018-07-31 2020-10-20 Nuance Communications, Inc. System and method for performing automatic speech recognition system parameter adjustment via machine learning
US11107463B2 (en) * 2018-08-01 2021-08-31 Google Llc Minimum word error rate training for attention-based sequence-to-sequence models
CN110288979B (zh) * 2018-10-25 2022-07-05 腾讯科技(深圳)有限公司 一种语音识别方法及装置
US20220004868A1 (en) * 2018-10-29 2022-01-06 Nippon Telegraph And Telephone Corporation Acoustic model learning apparatus, model learning apparatus, method and program for the same
US11715012B2 (en) * 2018-11-16 2023-08-01 Uatc, Llc Feature compression and localization for autonomous devices
US11410641B2 (en) * 2018-11-28 2022-08-09 Google Llc Training and/or using a language selection model for automatically determining language for speech recognition of spoken utterance
US11170761B2 (en) * 2018-12-04 2021-11-09 Sorenson Ip Holdings, Llc Training of speech recognition systems
CN109754809B (zh) * 2019-01-29 2021-02-09 北京猎户星空科技有限公司 语音识别方法、装置、电子设备及存储介质
US11538463B2 (en) * 2019-04-12 2022-12-27 Adobe Inc. Customizable speech recognition system
US11170789B2 (en) * 2019-04-16 2021-11-09 Microsoft Technology Licensing, Llc Attentive adversarial domain-invariant training
KR20220008309A (ko) 2019-05-10 2022-01-20 구글 엘엘씨 음성 인식을 위한 종단 간 모델과 함께 컨텍스트 정보 사용
CN110211588A (zh) * 2019-06-03 2019-09-06 北京达佳互联信息技术有限公司 语音识别方法、装置及电子设备
KR102413616B1 (ko) * 2019-07-09 2022-06-27 구글 엘엘씨 온-디바이스 음성 인식 모델 트레이닝을 위한 텍스트 세그먼트의 온-디바이스 음성 합성
CN112242144A (zh) * 2019-07-17 2021-01-19 百度在线网络技术(北京)有限公司 基于流式注意力模型的语音识别解码方法、装置、设备以及计算机可读存储介质
CN110415679B (zh) * 2019-07-25 2021-12-17 北京百度网讯科技有限公司 语音纠错方法、装置、设备和存储介质
CN110517693B (zh) * 2019-08-01 2022-03-04 出门问问(苏州)信息科技有限公司 语音识别方法、装置、电子设备和计算机可读存储介质
CN110534095B (zh) * 2019-08-22 2020-10-23 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
JP7212596B2 (ja) 2019-09-02 2023-01-25 日本電信電話株式会社 学習装置、学習方法および学習プログラム
WO2021045793A1 (en) * 2019-09-03 2021-03-11 Google Llc Using corrections, of predicted textual segments of spoken utterances, for training of on-device speech recognition model
US11263198B2 (en) * 2019-09-05 2022-03-01 Soundhound, Inc. System and method for detection and correction of a query
CN110648658B (zh) * 2019-09-06 2022-04-08 北京达佳互联信息技术有限公司 一种语音识别模型的生成方法、装置及电子设备
KR20210044559A (ko) * 2019-10-15 2021-04-23 삼성전자주식회사 출력 토큰 결정 방법 및 장치
EP4254169A3 (en) * 2019-11-08 2023-12-13 Google LLC Using corrections, of automated assistant functions, for training of on-device machine learning models
CN110956959B (zh) * 2019-11-25 2023-07-25 科大讯飞股份有限公司 语音识别纠错方法、相关设备及可读存储介质
US11749281B2 (en) * 2019-12-04 2023-09-05 Soundhound Ai Ip, Llc Neural speech-to-meaning
KR20210079666A (ko) * 2019-12-20 2021-06-30 엘지전자 주식회사 음향 모델을 학습시키기 위한 인공 지능 장치
CN111261144B (zh) * 2019-12-31 2023-03-03 华为技术有限公司 一种语音识别的方法、装置、终端以及存储介质
US20210210109A1 (en) * 2020-01-03 2021-07-08 Knowles Electronics, Llc Adaptive decoder for highly compressed grapheme model
CN111243576B (zh) * 2020-01-16 2022-06-03 腾讯科技(深圳)有限公司 语音识别以及模型训练方法、装置、设备和存储介质
CN111261146B (zh) * 2020-01-16 2022-09-09 腾讯科技(深圳)有限公司 语音识别及模型训练方法、装置和计算机可读存储介质
EP4078572B1 (en) * 2020-01-28 2024-04-10 Google LLC Proper noun recognition in end-to-end speech recognition
US11929060B2 (en) * 2020-03-04 2024-03-12 Google Llc Consistency prediction on streaming sequence models
US11990134B2 (en) * 2020-03-18 2024-05-21 Sas Institute Inc. Method for configuring and using a numeric-to-alphabetic expression machine learning model
CN111128394B (zh) * 2020-03-26 2020-12-22 腾讯科技(深圳)有限公司 医疗文本语义识别方法、装置、电子设备及可读存储介质
CN113470662B (zh) * 2020-03-31 2024-08-27 微软技术许可有限责任公司 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配
US11741943B2 (en) * 2020-04-27 2023-08-29 SoundHound, Inc Method and system for acoustic model conditioning on non-phoneme information features
US11521595B2 (en) * 2020-05-01 2022-12-06 Google Llc End-to-end multi-talker overlapping speech recognition
US11222620B2 (en) * 2020-05-07 2022-01-11 Google Llc Speech recognition using unspoken text and speech synthesis
CN111753549B (zh) * 2020-05-22 2023-07-21 江苏大学 一种基于注意力机制的多模态情感特征学习、识别方法
US12067978B2 (en) * 2020-06-02 2024-08-20 Samsung Electronics Co., Ltd. Methods and systems for confusion reduction for compressed acoustic models
US11741941B2 (en) * 2020-06-12 2023-08-29 SoundHound, Inc Configurable neural speech synthesis
US11335324B2 (en) * 2020-08-31 2022-05-17 Google Llc Synthesized data augmentation using voice conversion and speech recognition models
US20220093088A1 (en) * 2020-09-24 2022-03-24 Apple Inc. Contextual sentence embeddings for natural language processing applications
CN112466318B (zh) * 2020-10-27 2024-01-19 北京百度网讯科技有限公司 语音处理方法、装置及语音处理模型的生成方法、装置
CN112509562B (zh) * 2020-11-09 2024-03-22 北京有竹居网络技术有限公司 用于文本后处理的方法、装置、电子设备和介质
CN112102815B (zh) * 2020-11-13 2021-07-13 深圳追一科技有限公司 语音识别方法、装置、计算机设备和存储介质
US11741944B2 (en) * 2020-11-24 2023-08-29 Google Llc Speech personalization and federated training using real world noise
KR20220118583A (ko) * 2021-02-18 2022-08-26 삼성전자주식회사 안면 인장 데이터를 사용한 음성 인식

Also Published As

Publication number Publication date
JP7346788B2 (ja) 2023-09-20
EP4064277A1 (en) 2022-09-28
EP4064277B1 (en) 2023-11-29
CN113129870A (zh) 2021-07-16
US12033616B2 (en) 2024-07-09
CN113129870B (zh) 2022-03-25
US20220310064A1 (en) 2022-09-29
JP2022151649A (ja) 2022-10-07

Similar Documents

Publication Publication Date Title
KR20220132414A (ko) 음성 인식 모델의 트레이닝 방법, 장치, 기기 및 기록 매체
CN113553864B (zh) 翻译模型的训练方法、装置、电子设备及存储介质
JP7331975B2 (ja) クロスモーダル検索モデルのトレーニング方法、装置、機器、および記憶媒体
CN113792854A (zh) 一种模型训练及字库建立方法、装置、设备及存储介质
CN112528655B (zh) 关键词生成方法、装置、设备及存储介质
CN113435208B (zh) 学生模型的训练方法、装置及电子设备
CN113553412B (zh) 问答处理方法、装置、电子设备和存储介质
CN112466288A (zh) 语音识别方法、装置、电子设备及存储介质
CN114611532B (zh) 语言模型训练方法及装置、目标翻译错误检测方法及装置
CN115309877A (zh) 对话生成方法、对话模型训练方法及装置
CN110263218B (zh) 视频描述文本生成方法、装置、设备和介质
CN113239157B (zh) 对话模型的训练方法、装置、设备和存储介质
CN113053367A (zh) 语音识别方法、语音识别的模型训练方法以及装置
CN116152833B (zh) 基于图像的表格还原模型的训练方法及表格还原方法
CN111325000B (zh) 语言生成方法、装置及电子设备
CN114819079A (zh) 模型训练方法、装置、电子设备及可读存储介质
CN113468857B (zh) 风格转换模型的训练方法、装置、电子设备以及存储介质
CN116502649A (zh) 文本生成模型的训练方法、装置、电子设备及存储介质
CN114973279B (zh) 手写文本图像生成模型的训练方法、装置和存储介质
CN115270719A (zh) 基于多模态信息的文本摘要生成方法、训练方法及其装置
CN111475614B (zh) 知识推理对话方法、装置、电子设备和存储介质
CN114201953A (zh) 一种关键词提取、模型训练方法、装置、设备及存储介质
CN114067805A (zh) 声纹识别模型的训练与声纹识别方法及装置
CN113204616A (zh) 文本抽取模型的训练与文本抽取的方法、装置
CN114898754B (zh) 解码图生成、语音识别方法、装置、电子设备及存储介质