KR20230156125A - 룩업 테이블 순환 언어 모델 - Google Patents

룩업 테이블 순환 언어 모델 Download PDF

Info

Publication number
KR20230156125A
KR20230156125A KR1020237034901A KR20237034901A KR20230156125A KR 20230156125 A KR20230156125 A KR 20230156125A KR 1020237034901 A KR1020237034901 A KR 1020237034901A KR 20237034901 A KR20237034901 A KR 20237034901A KR 20230156125 A KR20230156125 A KR 20230156125A
Authority
KR
South Korea
Prior art keywords
token
embedding
sequence
tokens
candidate transcription
Prior art date
Application number
KR1020237034901A
Other languages
English (en)
Inventor
로니 황
타라 엔. 사이낫
트레버 스트로먼
샹카르 쿠마르
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Publication of KR20230156125A publication Critical patent/KR20230156125A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

컴퓨터 구현 방법(400)은 사용자(10)에 의해 발화되고 사용자 디바이스(102)에 의해 캡처된 발언(119)에 대응하는 오디오 데이터(120)를 수신하는 단계를 포함한다. 이 방법은 또한 음성 발언에 대한 토큰(133) 시퀀스를 포함하는 후보 전사(132)을 결정하기 위해 오디오 데이터를 처리하는 단계를 포함한다. 토큰 시퀀스의 각 토큰에 대해, 방법은 해당 토큰에 대한 토큰 임베딩을 결정하는 단계(312)와, n-그램 토큰의 이전 시퀀스에 대한 n-그램 토큰 임베딩을 결정하는 단계(322)와, 해당 토큰에 대한 연결 출력(335)을 생성하기 위해 토큰 임베딩과 n-그램 토큰 임베딩을 연결하는 단계를 포함한다. 방법은 또한 토큰 시퀀스의 각 해당 토큰에 대해 생성된 연결 출력을 처리함으로써 음성 발언에 대한 후보 전사의 스코어를 다시 매기는 단계를 포함한다.

Description

룩업 테이블 순환 언어 모델
본 개시는 룩업 테이블 순환 언어 모델에 관한 것이다.
자동 음성 인식(ASR) 시스템은 최근 어시스턴트 지원 디바이스에서 인기가 높아졌다. 자주 사용되지 않는 단어의 인식을 개선하는 것은 ASR 시스템의 지속적인 문제이다. 자주 사용되지 않는 단어는 음향 트레이닝 데이터에 거의 포함되지 않으므로 ASR 시스템이 스피치(음성)에서 정확하게 인식하기 어렵다. 경우에 따라, ASR 시스템에는 자주 사용되지 않는 단어의 인식을 향상시키기 위해 텍스트 전용 데이터를 트레이닝하는 언어 모델이 포함된다. 그러나, 이러한 언어 모델에는 종종 ASR 시스템의 효율성을 저하시키는 대용량 메모리 및 계산 요구 사항이 포함된다.
본 개시의 일 양태는 데이터 처리 하드웨어에서 실행될 때 데이터 처리 하드웨어가 룩업 테이블 순환 언어 모델을 사용하여 음성 인식을 수행하기 위한 동작들을 수행하게 하는 컴퓨터 구현 방법을 제공한다. 동작들은 사용자에 의해 발화되고 사용자 디바이스에 의해 캡처된 발언에 대응하는 오디오 데이터를 수신하는 단계를 포함한다. 동작들은 또한 음성 인식기를 사용하여, 음성 발언에 대한 토큰 시퀀스를 포함하는 후보 전사를 결정하기 위해 오디오 데이터를 처리하는 단계를 포함한다. 토큰) 시퀀스의 각 토큰에 대해, 동작들은 제1 임베딩 테이블을 사용하여해당 토큰에 대한 토큰 임베딩을 결정하는 단계와, 제2 임베딩 테이블을 사용하여 n-그램 토큰의 이전 시퀀스에 대한 n-그램 토큰 임베딩을 결정하는 단계와, 그리고 해당 토큰에 대한 연결(concatenated) 출력을 생성하기 위해 토큰 임베딩과 n-그램 토큰 임베딩을 연결하는 단계를 포함한다. 동작들은 또한 외부 언어 모델을 사용하여, 토큰 시퀀스의 각 해당 토큰에 대해 생성된 연결 출력을 처리함으로써 음성 발언에 대한 후보 전사를 재스코어링하는 단계를 포함한다.
본 개시의 구현은 다음과 같은 선택적 기능 중 하나 이상을 포함할 수 있다. 일부 구현에서, 외부 언어 모델은 순환 신경망 언어 모델을 포함한다. 외부 언어 모델은 음성 인식기를 인수분해하는 HAT(Hybrid Autoregressive Transducer)에 의해 음성 인식기와 통합될 수 있다. 일부 예에서, 음성 인식기는 컨포머(conformer) 오디오 디코더 및 순환 신경망-트랜스듀서 디코더를 포함한다. 다른 예에서, 음성 인식기는 트랜스포머 오디오 인코더 및 순환 신경망-트랜스듀서 디코더를 포함한다. 선택적으로, 후보 전사의 토큰 시퀀스의 각 토큰은 후보 전사의 단어를 나타낼 수 있다. 후보 전사의 토큰 시퀀스의 각 토큰은 후보 전사의 단어 조각을 나타낼 수 있다.
일부 구현에서, 후보 전사의 토큰 시퀀스의 각 토큰은 후보 전사의 n-그램, 음소 또는 자소를 나타낸다. 일부 예에서, 제1 및 제2 임베딩 테이블은 데이터 처리 하드웨어와 통신하는 메모리 하드웨어에 드물게(sparsely) 저장된다. 해당 토큰에 대한 토큰 임베딩을 결정하는 단계는 그래픽 처리 장치 및/또는 텐서 처리 장치에 대한 액세스를 요구하지 않고 조회(look-up)을 통해 제1 임베딩 테이블로부터 토큰 임베딩을 검색하는 단계를 포함할 수 있다. 선택적으로, 데이터 처리 하드웨어는 사용자 디바이스에 상주할 수 있다.
본 개시의 다른 양태는 데이터 처리 하드웨어 및 데이터 처리 하드웨어에서 실행될 때 데이터 처리 하드웨어로 하여금 동작들을 수행하게 하는 명령들을 저장하는 메모리 하드웨어를 포함하는 시스템을 제공한다. 동작들은 사용자에 의해 발화되고 사용자 디바이스에 의해 캡처된 발언에 대응하는 오디오 데이터를 수신하는 동작을 포함한다. 동작들은 음성 인식기를 사용하여, 음성 발언에 대한 토큰 시퀀스를 포함하는 후보 전사를 결정하기 위해 오디오 데이터를 처리하는 동작을 포함한다. 토큰 시퀀스의 각 토큰에 대해, 동작들은 제1 임베딩 테이블을 사용하여 해당 토큰에 대한 토큰 임베딩을 결정하는 동작과, 제2 임베딩 테이블을 사용하여 n-그램 토큰의 이전 시퀀스에 대한 n-그램 토큰 임베딩을 결정하는 동작과, 그리고 해당 토큰에 대한 연결 출력을 생성하기 위해 토큰 임베딩과 n-그램 토큰 임베딩을 연결하는 동작을 포함한다. 동작들은 외부 언어 모델을 사용하여, 토큰 시퀀스의 각 해당 토큰에 대해 생성된 연결 출력을 처리함으로써 음성 발언에 대한 후보 전사를 재스코어링하는 동작을 포함한다.
본 개시의 구현은 다음과 같은 선택적 기능 중 하나 이상을 포함할 수 있다. 일부 구현에서, 외부 언어 모델은 순환 신경망 언어 모델을 포함할 수 있다. 외부 언어 모델은 음성 인식기를 인수분해하는 HAT(Hybrid Autoregressive Transducer)에 의해 음성 인식기와 통합될 수 있다. 일부 예에서, 음성 인식기는 컨포머 오디오 디코더 및 순환 신경망-트랜스듀서 디코더를 포함한다. 다른 예에서, 음성 인식기는 트랜스포머 오디오 인코더 및 순환 신경망-트랜스듀서 디코더를 포함한다. 선택적으로, 후보 전사의 토큰 시퀀스의 각 토큰은 후보 전사의 단어를 나타낼 수 있다. 후보 전사의 토큰 시퀀스의 각 토큰은 후보 전사의 단어 조각을 나타낼수 있다.
일부 구현에서, 후보 전사의 토큰 시퀀스의 각 토큰은 후보 전사의 n-그램, 음소 또는 자소를 나타낸다. 일부 예에서, 제1 및 제2 임베딩 테이블은 데이터 처리 하드웨어와 통신하는 메모리 하드웨어에 드물게 저장된다. 해당 토큰에 대한 토큰 임베딩을 결정하는 동작은 그래픽 처리 장치 및/또는 텐서 처리 장치에 대한 액세스를 요구하지 않고 조회을 통해 제1 임베딩 테이블로부터 토큰 임베딩을 검색하는 동작을 포함할 수 있다. 선택적으로, 데이터 처리 하드웨어는 사용자 디바이스에 상주할 수 있다.
본 개시의 하나 이상의 구현의 세부사항은 첨부 도면 및 아래의 설명에서 설명된다. 다른 측면, 특징 및 장점은 설명, 도면, 청구범위로부터 명백해질 것이다.
도 1은 음성 인식 모델을 n-그램 임베딩 룩업 테이블을 갖는 언어 모델과 통합하기 위한 예시적인 시스템이다.
도 2는 예시적인 음성 인식 모델이다.
도 3은 도 1의 예시적인 언어 모델의 개략도이다.
도 4는 룩업 테이블 순환 언어 모델을 사용하여 음성 인식을 수행하는 방법에 대한 예시적인 동작 배열이다.
도 5는 본 명세서에 설명된 시스템 및 방법을 구현하는데 사용될 수 있는 예시적인 컴퓨팅 디바이스의 개략도이다.
다양한 도면의 유사한 참조 기호는 유사한 요소를 나타낸다.
드문(rare) 단어 또는 시퀀스의 인식을 개선하는 것은 음향 데이터에서 0 또는 낮은 빈도로 나타나는 많은 입력 텍스트 발언을 잘못 인식하는 음성 인식 시스템에서의 지속적인 문제이다. 특히, 거리 이름, 도시 등과 같은 고유 명사는 드물게 발화되고(예를 들어, 롱테일(long tail) 컨텐츠) 종종 음향 트레이닝 데이터에 포함되지 않아 음성 인식 시스템에서 롱테일 컨텐츠를 인식하기 어렵게 만든다. 일부 구현에서, 음성 인식 시스템은 드물게 발화되는 롱테일 컨텐츠를 포함하는 텍스트 전용 데이터로 트레이닝하는 언어 모델을 통합한다. 즉, 언어 모델은 음향 데이터에는 없는 롱테일 컨텐츠를 포함하고 롱테일 컨텐츠를 올바르게 디코딩하는 방향으로 음성 인식 시스템을 바이어스(bias)할 수 있는 텍스트 전용 데이터의 모음(corpus)에 대해 트레이닝될 수 있다.
방대한 양의 롱테일 컨텐츠를 정확하게 모델링하기 위해, 언어 모델은 임베딩 어휘의 크기를 늘려야 한다. 임베딩 어휘는 언어 모델의 토큰 어휘(즉, 단어, 단어 조각, n-그램 등)의 각 토큰과 연관된 임베딩 식별을 나타낸다. 대부분의 경우, 임베딩 어휘를 늘리는 것은 음성 인식 시스템에 부담을 주는 대량의 메모리와 계산 리소스을 필요로 하는 토큰 어휘를 늘리는 것을 포함한다. 또한, 음성 인식 시스템의 다운스트림 태스크도 증가된 토큰 어휘에 의해 영향을 받는다.
본 명세서의 구현은 토큰 어휘의 크기를 일정하게 유지하면서 임베딩 어휘를 증가시키는 순환 언어 모델을 지향한다. 즉, 임베딩 어휘는 토큰 어휘와 독립적으로 증가하므로 음성 인식 시스템의 계산 리소스에 부담을 주지 않으면서 보다 정확한 모델링이 가능하다. 특히, 순환 언어 모델은 토큰 시퀀스의 현재 토큰(예를 들어, 단어, 단어 조각, n-그램 등)에 대한 토큰 임베딩을 생성하는 제1 임베딩 테이블과 토큰 시퀀스(예를 들어, n-그램 시퀀스)의 이전 토큰에 대한 시퀀스 임베딩을 생성하는 제2 임베딩 테이블을 포함한다. 여기서, 토큰 임베딩은 음성 인식 시스템에 특정 단어를 전사할 가능성을 제공하고, 시퀀스 임베딩은 이전에 전사된 단어의 특정 시퀀스에 기초하여 특정 단어를 전사할 가능성을 제공한다. 따라서, 제2 임베딩 테이블은 토큰 어휘가 일정하게 유지되는 동안 언어 모델의 임베딩 어휘를 증가시킨다.
제2 임베딩 테이블을 사용하여 언어 모델의 임베딩 어휘를 확장하는데는 임베딩 어휘의 크기가 각 출력 단계의 임베딩 조회(lookup) 수 또는 동작 수에 영향을 미치지 않기 때문에 음성 인식 시스템의 추가 동작(예를 들어, 계산 리소스)이 필요하지 않다. 따라서, 임베딩 어휘의 크기에 대한 유일한 실질적인 제약은 메모리 용량이다. 일부 예에서, 임베딩 테이블은 드물게(sparsely) 액세스되며 그래픽 처리 장치(GPU) 및/또는 텐서 처리 장치(TPU)에 저장될 필요가 없다. 오히려, 임베딩 테이블은 컴퓨터 처리 장치(CPU) 메모리, 디스크, 또는 GPU 및/또는 TPU 메모리 보다 훨씬 더 큰 용량을 포함하는 기타 저장소에 저장될 수 있다.
이제 도 1을 참조하면, 일부 구현에서, 예시적인 음성 인식 시스템(100)은 각각의 사용자(10)와 연관된 사용자 디바이스(102)를 포함한다. 사용자 디바이스(102)는 네트워크(104)를 통해 원격 시스템(110)과 통신할 수 있다. 사용자 디바이스(102)는 휴대폰, 컴퓨터, 웨어러블 디바이스, 스마트 가전기기, 오디오 인포테인먼트 시스템, 스마트 스피커 등과 같은 컴퓨팅 디바이스에 해당할 수 있으며, 데이터 처리 하드웨어(103)와 메모리 하드웨어(105)를 갖추고 있다. 원격 시스템(110)은 확장 가능한/탄력적인 컴퓨팅 리소스(112)(예를 들어, 데이터 처리 하드웨어) 및/또는 저장 리소스(114)(예를 들어, 메모리 하드웨어)를 갖춘 단일 컴퓨터, 다중 컴퓨터, 또는 분산 시스템(예를 들어, 클라우드 환경)일 수 있다. .
사용자 디바이스(102)는 사용자(10)가 말한 발언(119)에 대응하는 사용자 디바이스(102)의 하나 이상의 마이크로폰(106)에 의해 캡처된 스트리밍 오디오(118)를 수신하고, 발언(119)에 대응하는 오디오 데이터(120)를 생성하기 위해 스트리밍 오디오(118)로부터 음향 특징을 추출할 수 있다. 음향 특징은 발언(119)에 대응하는 오디오 데이터(120)의 원도우에 걸쳐 계산된 멜-주파수 켑스트럼 계수(Mel-Frequency Cepstral Coefficient: MFCC) 또는 필터 뱅크 에너지를 포함할 수 있다. 사용자 디바이스(102)는 발언(119)에 대응하는 오디오 데이터(120)를 음성 인식기(200)(본 명세서에서는 ASR(자동 음성 인식기) 모델(200)이라고도 함)로 전달한다. ASR 모델(200)은 사용자 디바이스(102)에 상주하고 실행될 수 있다. 다른 구현에서, ASR 모델(200)은 원격 시스템(110)에 상주하고 실행된다.
도 2를 참조하면, ASR 모델(200)은 음향, 발음, 언어 모델을 단일 신경망으로 통합함으로써 E2E(end-to-end) 음성 인식을 제공할 수 있으며, 어휘집이나 별도의 텍스트 정규화 구성 요소가 필요하지 않다. 다양한 구조와 최적화 메커니즘은 정확도를 높이고 모델 트레이닝 시간을 단축할 수 있다. ASR 모델(200)은 대화형 애플리케이션과 관련된 레이턴시(대기시간) 제약을 준수하는 컨포머-트랜스듀서(Conformer-Transducer) 모델 아키텍처를 포함할 수 있다. ASR 모델(200)은 작은 계산 공간(footprint)을 제공하고 기존 ASR 아키텍처보다 적은 메모리 요구 사항을 활용하므로 ASR 모델 아키텍처를 사용자 디바이스(102)에서 전적으로(예를 들어, 원격 시스템(110)과의 통신이 필요하지 않음) 음성 인식을 수행하는데 적합하게 만든다. ASR 모델(200)은 오디오 인코더(201), 라벨 인코더(220) 및 공동(joint) 네트워크(230)를 포함한다. 전통적인 ASR 시스템의 음향 모델(AM)과 대략 유사한 오디오 인코더(201)는 복수의 컨포머 계층을 갖는 신경망을 포함한다. 예를 들어, 오디오 인코더(201)는 d차원 특징 벡터의 시퀀스(예를 들어, 스트리밍 오디오(118)(도 1)의 음향 프레임(x = (x1, x2,...,xT))를 판독하고(여기서, xt ∈ Rd), 각 시간 단계에서 고차 특징 표현을 생성한다. 이 고차 특징 표현은 ah1,...,ahT로 표시된다. 선택적으로, 오디오 인코더(201)는 컨포머 계층 대신 트랜스포머 계층을 포함할 수 있다. 마찬가지로, 라벨 인코더(220)는 또한 언어 모델(LM)과 마찬가지로, 지금까지 최종 소프트맥스 계층(240)에 의해 출력된 비어 있지 않은(non-blank) 심볼 시퀀스(y0,...,yui-1)를 예측 라벨 히스토리를 인코딩하는 밀집(dense) 표현(Ihu)으로 처리하는 트랜스포머 계층의 신경망 또는 룩-업 테이블 임베딩 모델을 포함할 수 있다.
마지막으로, 오디오 및 라벨 인코더(201, 220)에 의해 생성된 표현은 밀집 계층(Ju,t)을 사용하여 공동 네트워크(230)에 의해 결합된다. 이어서 공동 네트워크(230)는 다음 출력 심볼에 대한 분포인 P(zu,t|x,t,y1,…,yu-1)를 예측한다. 다르게 말하면, 공동 네트워크(230)는 각 출력 단계(예를 들어, 시간 단계)에서, 가능한 음성 인식 가설에 대한 확률 분포를 생성한다. 여기서, "가능한 음성 인식 가설"은 문자소(예를 들어, 심볼/문자) 또는 지정된 자연어에 있는 단어 조각(wordpiece) 또는 단어를 각각 나타내는 출력 라벨 세트("음성(speech) 단위"라고도 함)에 해당한다. 예를 들어, 자연어가 영어인 경우, 출력 라벨 세트는 27개의 심볼, 예를 들어 영어 알파벳의 26자 각각에 대해 하나의 라벨과 공백(space)을 지정하는 하나의 라벨을 포함할 수 있다. 따라서, 공동 네트워크(230)는 사전 결정된 출력 라벨 세트 각각의 발생 가능성을 나타내는 값 세트를 출력할 수 있다. 이 값 세트는 벡터일 수 있으며 출력 라벨 세트에 대한 확률 분포를 나타낼 수 있다. 일부 경우, 출력 라벨은 문자소(예를 들어, 개별 문자, 잠재적으로 구두점 및 기타 심볼)이지만, 출력 라벨 세트는 그렇게 제한되지 않는다. 예를 들어, 출력 라벨 세트에는 문자소에 추가하거나 문자소 대신 단어 조각 및/또는 전체 단어가 포함될 수 있다. 공동 네트워크(230)의 출력 분포는 상이한 출력 라벨 각각에 대한 사후 확률 값을 포함할 수 있다. 따라서, 상이한 자소 또는 다른 심볼을 나타내는 100개의 상이한 출력 라벨이 있는 경우, 공동 네트워크(230)의 출력(zu,t)은 각 출력 라벨에 대해 하나씩, 100개의 상이한 확률 값을 포함할 수 있다. 그런 다음 확률 분포는 전사를 결정하기 위한 빔 검색 프로세스(예를 들어, 소프트맥스 층(240)에 의한)에서 후보 철자법 요소(예를 들어, 자소, 단어 조각 및/또는 단어)에 스코어를 선택하고 할당하는데 사용될 수 있다.
소프트맥스 계층(240)은 임의의 기술을 사용하여 해당 출력 단계에서 ASR 모델(200)에 의해 예측된 다음 출력 심볼로서 그 분포에서 가장 높은 확률을 갖는 출력 라벨/심볼을 선택할 수 있다. 이러한 방식으로, ASR 모델(200)은 조건부 독립 가정을 하지 않으며, 오히려 각 심볼의 예측은 음향뿐만 아니라 지금까지 출력된 라벨 시퀀스에 따라 조건화된다.
도 1을 다시 참조하면, ASR 모델(200)은 오디오 데이터(120)를 처리하여 음성 발언(119)에 대한 후보 전사(132)을 결정하도록 구성된다. 여기서, 후보 전사는 각각의 토큰(133)이 발언(119)에 대한 후보 전사본(132)의 일부를 나타내는 토큰(133, 133a-n) 시퀀스를 포함한다. 즉, 토큰(133) 시퀀스내의 각 토큰(133)은 후보 전사(132)에 있는 잠재적 단어, 단어 조각, n-그램, 음소 및/또는 자소를 나타낼 수 있다. 예를 들어, ASR 모델(200)은 "보비앙(Beaubien)까지의 운전 경로(driving directions)"라는 음성 발언(119)에 대해 "버번(bourbon)까지의 운전 경로"의 후보 전사(132)을 생성한다. 이 예에서, 후보 전사(132)에 대한 토큰(133) 시퀀스의 각 토큰(133)은 단일 단어를 나타낼 수 있다. 따라서, 토큰(133) 시퀀스는 후보 전사(132)내의 단일 단어(예를 들어, "버번까지의 운전 경로")를 각각 나타내는 4개의 토큰(133)을 포함한다. 특히, 용어 "버번"을 나타내는 제4 토큰(133)은 ASR 모델(200)에 의해 올바른 용어인 "보비앙(Beaubien)"으로 잘못 인식된다.
더욱이, ASR 모델(200)은 가능한 후보 토큰에 대한 대응하는 확률 분포로서 토큰(133) 시퀀스의 각 토큰(133)을 생성할 수 있다. 예를 들어, 토큰(133) 시퀀스내의 네 번째 토큰(133)에 대해, ASR 모델(200)은 ASR 모델(200)이 각각의 제4 토큰(133)에 대한 가능한 토큰을 인식했다는 신뢰도를 나타내는 대응 확률 또는 우도(likelihood)를 각각 갖는 대응 가능한 토큰으로서 "버번" 및 "보비앙" 토큰을 생성할 수 있다. 여기서, 제1 및 제2 후보 토큰은 음성학적으로 유사하지만, ASR 모델은 "보비앙"은 ASR 모델(200)의 음향 트레이닝 데이터에 포함되지 않을 가능성이 있는 고유 명사(예를 들어, 희귀 단어 또는 롱테일 컨텐츠)이기 때문에 "보비앙"이라는 용어와 관련된 제2 후보 토큰보다 "버번"이라는 용어와 관련된 제1 후보 토큰을 선호할 수 있다. 즉, "보비앙"은 음향 트레이닝 데이터에 포함되지 않았거나, 음향 트레이닝 데이터의 일부에만 포함되었기 때문에, ASR 모델(200)은 발언(119)에서 이 특정 용어를 정확하게 인식하지 못할 수 있다. 다르게 말하면, ASR 모델(200)은 제2 후보 토큰(예를 들어, 보비앙)보다 제1 후보 토큰(예를 들어, 버번)에 대해 더 높은 확률/우도 스코어를 출력하도록 구성될 수 있다. 따라서, ASR 모델은 더 높은 확률/우도 스코어로 인해 토큰(133) 시퀀스의 네 번째 토큰(133)을 "버번"으로 출력한다. 이 예에서는 단순화를 위해 가능한 후보 토큰에 대한 확률 분포에서 두 개의 후보 토큰만 설명하지만, 확률 분포에서 가능한 후보 토큰의 수는 2보다 큰 임의의 수일 수 있다. 일부 예에서, 토큰(133) 시퀀스의 각 토큰(133)은 가장 높은 확률/우도 스코어를 갖는 n개의 가능한 후보 토큰(133)의 순위 목록과 관련된 가능한 후보 토큰(133)의 n-베스트 목록으로 표시된다. 각 후보 토큰(133)은 음성 인식 가설이라고 지칭될 수 있다. 추가 예에서, 토큰(133) 시퀀스의 각 토큰(133)은 가능한 후보 토큰(133)에 대한 확률 분포에서 가장 높은 확률/우도 스코어를 갖는 가능한 후보 토큰(133)으로 표시된다.
ASR 모델(200)은 토큰(133) 시퀀스를 포함하는 후보 전사(132)를 언어 모델(즉, 순환 언어 모델)(300)에 전달한다. 언어 모델(300)은 사용자 디바이스(102)의 메모리 하드웨어(105), 또는 선택적으로 원격 시스템(110)의 저장 리소스(114) 또는 이들의 일부 조합에 상주할 수 있다. 언어 모델(300)은 후보 토큰(133) 시퀀스의 각 토큰(133)을 출력할 우도(가능성)를 결정하도록 구성된다. 즉, 언어 모델(300)은 토큰(133) 시퀀스내의 각 토큰(133)에 대한 가능한 후보 토큰(133) 중에서 어느 후보 토큰(133)이 음성 발언(119)의 후보 전사(132)냐의 해당 토큰(133)을 정확하게 나타낼 가능성이 가장 높은지를 결정함으로써 ASR 모델(200)에 의해 출력한 후보 전사(132)을 재스코어링한다. 언어 모델(300)은 ASR 모델(200)을 트레이닝하는데 사용되는 트레이닝 오디오 데이터에 거의 포함되지 않거나 아예 포함되지 않은 고유 명사 또는 롱테일 컨텐츠와 같은 드문(희귀) 단어에 대해 ASR 모델(200)에 의해 출력된 음성 인식 가설을 바이어싱(편향)하는데 도움을 줄 수 있다. 위의 예에서, 언어 모델(300)은 토큰(133) 시퀀스의 네 번째 토큰(133)에 대한 가능한 후보 토큰(133)에 대한 확률 분포에서 "보비앙"이라는 단어와 관련된 후보 토큰(133)에 대한 확률/우도 스코어를 부스팅(boost, 높임)함으로써 음성 인식을 바이어스할 수 있다. 여기서, "보비앙"이라는 단어와 관련된 후보 토큰(133)에 대한 부스팅된 확률/우도 스코어는 이제 후보 토큰인 "버번"에 대한 확률/우도 스코어보다 높을 수 있으며, 이에 따라 이제 음성 발언(119)로부터 "보비앙"이라는 단어를 정확하게 인식하기 위한 재스코어링된 전사(345)가 발생한다.
언어 모델(300)은 순환 신경망(RNN) 언어 모델을 포함할 수 있다. 보다 구체적으로, 언어 모델(300)은 임베딩 테이블의 행 수를 증가시키지만 부동 소수점 연산을 최소한으로 증가시킴으로써 RNN 언어 모델의 크기를 확장하도록 구성된 록업 테이블 언어 모델을 포함할 수 있다. 즉, 룩업 테이블을 사용하면 임베딩을 메모리 하드웨어(예를 들어, CPU 메모리 또는 디스크)에 드물게 저장하고, 조회(룩업)를 통해 테이블에서 검색할 수 있어서 테이블의 크기로 인해 각 정방향 패스(경로)에 추가 동작을 추가되지 않으므로 제한적/제약된 GPU/TPU 메모리에 대한 저장 필요성을 완화한다.
언어 모델(300)은 제1 임베딩 테이블(310), 제2 임베딩 테이블(320), 연결기(concatenator)(330) 및 순환 신경망(RNN)(340)을 포함한다. 일부 예에서, 언어 모델(300)은 롱테일 컨텐츠를 올바르게 전사하기 위해 ASR 모델(200)의 후보 토큰을 바이어스하도록 드물게 발화된 단어(즉, 롱테일 컨텐츠)를 포함하는 텍스트 전용 데이터에 대해 트레이닝된다.
제1 임베딩 테이블(310)은 토큰(133) 시퀀스에서 현재 토큰(133)(ti)에 대한 토큰 임베딩(312)을 생성하도록 구성된다. 여기서 ti는 토큰(133) 시퀀스내의 현재 토큰(133)을 의미한다. 제1 임베딩 테이블(310)은 토큰(133) 시퀀스의 나머지 토큰(133)과 독립적으로 각 토큰(133)에 대한 개별 토큰 임베딩(312)을 결정한다. 반면에, 제2 임베딩 테이블(320)은 현재 출력 단계(예를 들어, 시간 단계)에서 이전 n-그램 토큰 시퀀스(133)(t0,...,tn-1)를 수신하고 각각의 n-그램 토큰 임베딩(322)을 생성하는 n-그램 임베딩 테이블을 포함한다. 이전 n-그램 토큰 시퀀스(예를 들어, t0,...,tn-1)는 각 시간 단계에서 이전에 생성된 토큰(133)에 관한 컨텍스트 정보를 제공한다. 이전 n-그램 토큰 시퀀스(t0,...,tn-1)는 각 시간 단계에서 n에 따라 기하급수적으로 증가한다. 따라서, 각 출력 단계에서 n-그램 토큰 임베딩(322)은 희귀 단어 철자법과 같은 단거리 종속성을 지원함으로써 하위 단어 모델에서 롱테일 토큰(예를 들어, 단어)의 모델링을 향상시킨다.
각 시간 단계에서, 연결기(330)는 토큰 임베딩(312)과 n-그램 토큰 임베딩(322)을 연결(된) 출력(335)으로 연결한다. RNN(340)은 연결된 출력(335)을 수신하고, 궁극적으로 그 연결된 출력(335)을 사용하여 ASR 모델(200)에 의한 후보 전사(132) 출력을 재스코어링하여 재스코어링된 전사(예를 들어, 최종 전사)(345)를 생성한다. 더욱이, 언어 모델(300)은 재스코어링된 전사(345)을 네트워크(104)를 통해 사용자 디바이스(102)에 제공할 수 있다. 사용자 디바이스(102)는 재스코어링된 전사(345)를 사용자 디바이스(102)의 디스플레이에 시각적으로 디스플레이하거나 재스코어링된 전사(345)를 사용자 디바이스(102)의 하나 이상의 스피커에 의해 청각적으로 제시할 수 있다. 다른 예에서, 재스코어링된 전사(345)는 동작을 수행하도록 사용자 디바이스(102)에게 지시하는 쿼리일 수 있다.
도시된 예의 단일 출력 단계에서, 제2 임베딩 테이블(320)은 제1 임베딩 테이블(310)에 의해 조회된 각각의 토큰 임베딩(312)으로 표현된 현재 토큰(133)(예를 들어, "버번")으로부터 3개의 이전 n-그램 토큰(예를 들어, "까지의 운전 경로")의 전체 시퀀스를 나타내기 위해 n-그램 토큰 임베딩(322)을 생성할 수 있다. 그런 다음, 연결기(330)는 n-그램 토큰 임베딩(322)과 각각의 토큰 임베딩(312)을 연결하여 연결된 출력(335)(예를 들어, "보비앙까지의 운전 경로")을 생성할 수 있다. RNN(340)은 연결된 출력(335)을 처리함으로써 후보 전사(132)를 재스코어링한다. 예를 들어, RNN(340)은 RNN(340)이 "보비앙"의 우도/확률 스코어를 부스팅하여(높여) 이제 "버번"보다 네 번째 토큰(133)에 대해 더 높은 우도/확률 스코어를 갖도록 후보 전사(132)(예를 들어, 버번까지의 운전 경로)를 재스코어링할 수 있다. RNN(340)은 "버번"이 현재 컨텍스트 정보(예를 들어, 이전 n-그램 토큰 시퀀스(t0,...,tn-1))를 갖는 올바른 토큰(133)이 아닐 가능성이 있다는 결정에 부분적으로 기초하여 "보비앙"의 우도/확률 스코어를 부스팅한다. 따라서, RNN(340)은 재스코어링된 전사(345)(예를 들어, 보비앙까지의 운전 경로)를 생성한다. 특히, 네 번째 토큰(133)이 후보 전사(132)에서 잘못 인식되었음에도 불구하고 이제 네 번째 토큰(133)은 재스코어링된 전사(345)에서 올바르게 인식된다.
도 3은 도 1의 순환 언어 모델(300)의 개략도를 도시한다. 제1 임베딩 테이블(310)은 복수의 토큰 임베딩(312, 312a-n)을 포함하고, 제2 임베딩 테이블(320)은 복수의 n-그램 토큰 임베딩(322, 322a-n)을 포함한다. 제1 임베딩 테이블(310)은 U×E 행렬로 표현되고, 여기서 E는 임베딩 차원(즉, 임베딩 길이)을 나타내고 U는 제1 임베딩 테이블(310)에 있는 토큰 임베딩(322)의 수를 나타낸다. 일반적으로 임베딩 수는 고유 토큰의 수(V)(예를 들어, 단어, 단어 조각, n-그램의 수 등)와 같다. 즉, 제1 임베딩 테이블(310)은 각각의 가능한 토큰(133)(예를 들어, 단어, 단어 조각 등)에 대한 개별 토큰 임베딩(312)을 저장한다. 예를 들어, 토큰(133)에 단어 조각이 포함되어 있는 경우, 순환 언어 모델(300)은 512 폭을 갖는 2개의 LSTM 계층을 갖는 4,096개의 단어 조각 모델을 포함할 수 있으며 토큰 임베딩(312)의 차원(E)은 96과 동일할 수 있다. n-그램 토큰 임베딩(322)은 n이 4로 설정될 때 각각 2,048의 차원을 포함할 수 있다. 제2 임베딩 테이블(예를 들어, n-그램 임베딩 테이블)(320)은 다음과 같이 모듈식 해시를 통해 각각의 이전 n-그램 토큰 시퀀스(예를 들어, t0,...,tn-1)에 임베딩 n-그램 토큰 임베딩(예를 들어, 임베딩 식별자)(322)을 할당할 수 있다.
특히, 모듈식 해싱은 임의로 다른 n-그램 임베딩이 동일한 n-그램 토큰 임베딩(322)으로 해싱되도록 충돌이 필요하다. 그러나, 고유 토큰(V)의 수를 즘가시킴으로써 충돌이 줄어들고 성능이 향상된다.
도시된 예에서, 제1 및 제2 임베딩 테이블(310, 320)은 음성 발언(119) "Hello Pam"에 대응하는 후보 전사(132)에 대한 토큰(133) 시퀀스를 수신한다. 주목할 만한 점은, 후보 전사(132)가 "Pam"이라는 올바른 용어를 "pan"이라는 용어로 잘못 인식했다는 것이다. 여기서, 제1 임베딩 테이블(310)은 토큰 시퀀스(133)(예를 들어, t2)의 제3 토큰(133c)에 대응하는 후보 전사(132)의 현재 토큰(133)을 수신한다. 제1 임베딩 테이블(310)은 토큰(133)의 나머지 시퀀스와 독립적인 제3 토큰(133c)에 대한 복수의 토큰 임베딩(312)으로부터 토큰 임베딩(312)을 결정한다. 이 예에서, 제1 임베딩 테이블(310)은 "pan"이 0.8 우도/확률 스코어를 갖는 반면 "Pam"은 0.2 우도/확률 스코어를 가질 수 있기 때문에 제3 토큰(133c)(검은색 박스로 표시됨)으로서 "pan"을 결정한다.
제2 임베딩 테이블(320)은 후보 전사(132)의 이전 n-그램 토큰 시퀀스(133)를 수신한다. 여기서, 이전 n-그램 토큰 시퀀스(133)에는 "<s> Hello"(예를 들어, t0, t1)가 포함되며, 여기서 <s>는 문장 시작을 위한 토큰(133)을 의미한다. 제2 임베딩 테이블(320)은 이전 n-그램 토큰 시퀀스(133)에 기초하여 "<s> Hello"(검은색 박스로 표시됨)의 n-그램 토큰 임베딩(322)을 결정한다.
연결기(330)는 현재 토큰 "pan"에 대한 제1 임베딩 테이블(310)의 출력인 토큰 임베딩(312)과 "<s> Hello"에 대한 n-그램 토큰 임베딩(322)을 연결하여, 연결된 출력(335)(예를 들어 "<s> Hello pan")을 RNN(340)의 RNN 셀에 제공한다. 특히, 연결된 출력(335)은 연결된 출력(335)을 처리하기 위해 RNN(340)이 밀집 파라미터를 증가시키게 하지만, RNN 출력 차원이 고정된 상태로 유지되기 때문에 스케일링은 2차보다는 선형이다. n-그램 토큰 임베딩(322)으로부터의 컨텍스트 정보는 RNN(340)에 대한 입력으로서 유용할 뿐만 아니라 중간 계층/셀이 해당 계층에 특정된 은닉 상태를 통해 컨텍스트 정보를 수신하도록 중간 계층에서도 유용하다. 따라서, RNN(340)은 연결된 출력(335)을 RNN의 모든 계층의 입력 활성화에 주입하여 해당 계층에 특정된 임베딩 테이블로부터 그 각각을 가져올 수 있다.
위의 예를 계속하면, RNN(340)은 연결된 출력(335)을 처리함으로써 후보 전사(132)를 재스코어링한다. 즉, RNN(340)은 연결된 출력(335)에 포함된 컨텍스트 정보(예를 들어, 이전 n-그램 토큰 시퀀스(133))에 기초하여 "Pam"이라는 용어의 확률을 부스팅할(높일) 수 있다. 따라서, RNN(340)은 "pan"의 우도/확률 점수를 0.4로, "Pam"의 우도/확률 점수를 0.6으로 조정할 수 있다. 이와 같이, RNN은 세 번째 토큰(133c)으로서 "Pam"을 포함시키고 음성 발언(119)를 올바르게 인식하도록 재스코어링된 전사를 생성한다.
n-그램 임베딩 테이블(320)은 거의 10억 개의 파라미터까지 효과적으로 확장될 수 있다. 순환 언어 모델(300)은 30억 개의 텍스트 전용 문장 모음에 대해 트레이닝될 수 있다. 언어 모델(300)은 백만 개의 공통 단어의 화이트리스트에 대한 철자 오류 제거 및 테일(tail)에서의 표현을 보장하기 위한 문장 빈도의 log(n) 스케일링으로 추가로 전처리될 수 있다.
순환 언어 모델(300)은 HAT(Hybrid Autoregressive Transducer) 인수분해를 통해 ASR 모델(200)의 내부 언어 모델 스코어로부터 로그 사후(log-posterior)를 다음과 같이 분리하여 유효 우도를 먼저 획득함으로써 앤드-투-앤드 ASR 모델(200)과 통합될 수 있다.
이후 언어 모델 로그 사후 스코어는 다음과 같이 추가된다.
RNN-T 디코더(예를 들어, 예측 및 공동 네트워크(220, 230)(도 2))는 트레이닝 중에 HAT 인수분해될 수 있다.
도 4는 조회 테이블 순환 언어 모델을 사용하여 음성 인식을 수행하는 방법(400)에 대한 예시적인 동작 배열의 흐름도이다. 동작(402)에서, 방법(400)은 사용자(10)에 의해 발화되고 사용자 디바이스(102)에 의해 캡처된 발언(119)에 대응하는 오디오 데이터(120)를 수신하는 단계를 포함한다. 동작(404)에서, 방법(400)은 음성 인식기(200)를 사용하여 발언(119)에 대한 후보 전사(132)을 결정하기 위해 오디오 데이터(120)를 처리하는 단계를 포함한다. 여기서, 후보 전사(132)는 토큰(133, 133a-n) 시퀀스를 포함한다. 토큰(133) 시퀀스의 각 토큰(133)에 대해, 방법(400)은 동작(406-410)을 수행한다. 동작(406)에서, 방법(400)은 제1 임베딩 테이블(310)을 사용하여 해당 토큰(133)에 대한 토큰 임베딩(312)을 결정하는 단계를 포함한다. 동작(408)에서, 방법(400)은 제2 임베딩 테이블(320)을 사용하여 이전 n-그램 토큰 시퀀스(133)(t0,...,tn-1)에 대한 n-그램 토큰 임베딩(322)을 결정하는 단계를 포함한다. 동작(410)에서, 방법(400)은 해당 토큰(133)에 대한 연결된 출력(335)을 생성하기 위해 토큰 임베딩(312)과 n-그램 토큰 임베딩(322)을 연결하는 단계를 포함한다. 동작(412)에서, 방법(400)은 외부 언어 모델(예를 들어, RNN)(340)을 사용하여, 토큰(133) 시퀀스의 각 해당 토큰(133)에 대해 생성된 연결된 출력(335)을 처리함으로써 음성 발언(119)에 대한 후보 전사(132)을 재스코어링하는 단계를 포함한다.
도 5는 본 문서에 설명된 시스템 및 방법을 구현하는데 사용될 수 있는 예시적인 컴퓨팅 디바이스(500)의 개략도이다. 컴퓨팅 디바이스(500)는 랩탑, 데스크탑, 워크스테이션, PDA, 서버, 블레이드 서버, 메인프레임 및 기타 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타내도록 의도되었다. 본 명세서에 도시된 구성 요소, 이들의 연결 및 관계, 기능은 단지 예시일 뿐이며 본 문서에 설명 및/또는 청구된 발명의 구현을 제한하려는 의미는 아니다.
컴퓨팅 디바이스(500)는 프로세서(510), 메모리(520), 저장 디바이스(530), 메모리(520)와 고속 확장 포트(550)에 연결되는 고속 인터페이스/컨트롤러(540), 및 저속 버스(570)와 저장 디바이스(530)에 연결되는 저속 인터페이스/컨트롤러(560)를 포함한다. 각각의 구성 요소(510, 520, 530, 540, 550, 560)는 다양한 버스를 사용하여 상호 연결되고, 공통 마더보드에 장착되거나 적절한 다른 방식으로 장착될 수 있다. 프로세서(510)는 고속 인터페이스(540)에 결합된 디스플레이(580)와 같은 외부 입/출력 디바이스상의 그래픽 사용자 인터페이스(GUI)에 대한 그래픽 정보를 표시하기 위해 메모리(520) 또는 저장 디바이스(530)에 저장된 명령들을 비롯하여 컴퓨팅 디바이스(500)내에서 실행하기 위한 명령을 처리할 수 있다. 580은 고속 인터페이스(540)에 결합된다. 다른 구현에서, 다중 메모리 및 메모리 유형과 함께 다중 프로세서 및/또는 다중 버스가 적절하게 사용될 수 있다. 또한, 다수의 컴퓨팅 디바이스(500)는 필요한 동작의 부분을 제공하는 각 디바이스(예를 들어, 서버 뱅크, 블레이드 서버 그룹, 또는 다중 프로세서 시스템)와 연결될 수 있다.
메모리(520)는 컴퓨팅 디바이스(500) 내에 정보를 비-일시적으로 저장한다. 메모리(520)는 컴퓨터 판독 가능 매체, 휘발성 메모리 디바이스(들), 또는 비-휘발성 메모리 디바이스(들)일 수 있다. 비-일시적 메모리(520)는 컴퓨팅 디바이스(500)에 의해 사용되기 위해 임시 또는 영구적으로 프로그램(예를 들어, 명령 시퀀스) 또는 데이터(예를 들어, 프로그램 상태 정보)를 저장하는데 사용되는 물리적 디바이스일 수 있다. 비-휘발성 메모리의 예로는 이에 한정되지 않지만 플래시 메모리 및 판독 전용 메모리(ROM)/프로그래밍 가능한 판독 전용 메모리(PROM)/삭제 가능한 프로그래밍 가능한 판독 전용 메모리(EPROM)/전자적으로 삭제 가능한 프로그래밍 가능한 판독 전용 메모리(EEPROM)가 있다(예를 들어, 일반적으로 부팅 프로그램과 같은 펌웨어에 사용됨). 휘발성 메모리의 예로는 RAM, DRAM, SRAM(Static Random Access Memory), PCM(Phase Change Memory) 및 디스크나 테이프가 포함되지만 이에 한정되지 않는다.
저장 디바이스(530)는 컴퓨팅 디바이스(500)에 대용량 저장 디바이스를 제공할 수 있다. 일부 구현예에서, 저장 디바이스(530)는 컴퓨터 판독 가능 매체이다. 다양한 구현에서, 저장 디바이스(530)는 플로피 디스크 디바이스, 하드 디스크 디바이스, 광학 디스크 디바이스, 테이프 디바이스, 플래시 메모리 또는 기타 유사 솔리드 스테이트 메모리 디바이스, 또는 저장 영역 네트워크나 기타 구성의 디바이스를 포함한 디바이스 어레이일 수 있다. 추가적인 구현에서, 컴퓨터 프로그램 제품은 정보 매체에 명백하게 구현된다. 컴퓨터 프로그램 제품에는 실행 시 위에 설명된 것과 같은 하나 이상의 방법을 수행하는 명령들이 포함되어 있다. 정보 매체는 메모리(520), 저장 디바이스(530), 또는 프로세서(510)의 메모리와 같은 컴퓨터 판독 가능 매체 또는 기계 판독 가능 매체이다.
고속 제어기(540)는 컴퓨팅 디바이스(500)에 대한 대역폭 집약적 동작을 관리하는 반면, 저속 제어기(560)는 낮은 대역폭 집약적 동작을 관리한다. 이러한 업무 할당은 예시일 뿐이다. 일부 구현에서, 고속 컨트롤러(540)는 메모리(520), 디스플레이(580)(예를 들어, 그래픽 프로세서 또는 가속기를 통해) 및 다양한 확장 카드(미도시)를 수용할 수 있는 고속 확장 포트(550)에 연결된다. 일부 구현에서, 저속 컨트롤러(560)는 저장 디바이스(530) 및 저속 확장 포트(590)에 결합된다. 저속 확장 포트(590)는 다양한 통신 포트(예를 들어, USB, 블루투스, 이더넷, 무선 이더넷)를 포함할 수 있으며, 예를 들어 네트워크 어댑터를 통해 키보드, 포인팅 디바이스, 스캐너와 같은 하나 이상의 입력/출력 디바이스 또는 스위치나 라우터와 같은 네트워킹 디바이스에 연결될 수 있다.
컴퓨팅 디바이스(500)는 도면에 도시된 바와 같이 다수의 다른 형태로 구현될 수 있다. 예를 들어, 이것은 표준 서버(500a)로서 또는 이러한 서버(500a) 그룹에서 여러 번, 랩탑 컴퓨터(500b)로서 또는 랙 서버 시스템(500c)의 일부로서 구현될 수 있다.
본 명세서에 설명된 시스템 및 기술의 다양한 구현은 디지털 전자 및/또는 광학 회로, 집적 회로, 특별히 설계된 ASIC(애플리케이션 특정 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현에는 저장 시스템, 적어도 하나의 입력 디바이스 및 적어도 하나의 출력 디바이스와 데이터 및 명령을 송수신하도록 연결된 특수 또는 범용일 수 있는 적어도 하나의 프로그래밍 가능한 프로세서를 비롯하여, 프로그래밍 가능한 시스템에서 실행 가능 및/또는 해석 가능한 하나 이상의 컴퓨터 프로그램의 구현이 포함될 수 있다.
소프트웨어 애플리케이션(즉, 소프트웨어 리소스)은 컴퓨팅 디바이스가 태스크를 수행하게 하는 컴퓨터 소프트웨어를 지칭할 수 있다. 일부 예에서, 소프트웨어 애플리케이션은 "애플리케이션", "앱" 또는 "프로그램"으로 지칭될 수 있다. 예시적인 애플리케이션에는 시스템 진단 애플리케이션, 시스템 관리 애플리케이션, 시스템 유지 관리 애플리케이션, 워드 프로세싱 애플리케이션, 스프레드시트 애플리케이션, 메시징 애플리케이션, 미디어 스트리밍 애플리케이션, 소셜 네트워킹 애플리케이션 및 게임 애플리케이션이 포함되지만 이에 한정되지 않다.
이러한 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드라고도 함)에는 프로그래밍 가능한 프로세서에 대한 기계 명령이 포함되어 있으며 고급 절차적 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계 언어로 구현될 수 있다. 본 명세서에 사용된 바와 같이, "기계 판독 가능 매체" 및 "컴퓨터 판독 가능 매체"라는 용어는 기계 판독 가능 신호로서 기계 명령을 수신하는 기계 판독 가능 매체를 비롯하여, 기계 명령 및/또는 데이터를 프로그래밍 가능 프로세서에 제공하는데 사용되는 임의의 컴퓨터 프로그램 제품, 비-일시적 컴퓨터 판독 가능 매체, 장치 및/또는 디바이스(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그래밍 가능 논리 장치(PLD))를 지칭한다. "기계 판독 가능 신호"라는 용어는 기계 명령 및/또는 데이터를 프로그래밍 가능한 프로세서에 제공하는데 사용되는 임의의 신호를 지칭한다.
본 명세서에 설명된 프로세스 및 논리 흐름은 데이터 처리 하드웨어라고도 지칭되는 하나 이상의 프로그래밍 가능한 프로세서에 의해 수행될 수 있으며, 하나 이상의 컴퓨터 프로그램을 실행하여 입력 데이터에 대해 작동하고 출력을 생성함으로써 기능을 수행할 수 있다. 프로세스 및 논리 흐름은 FPGA(필드 프로그래밍 가능 게이트 어레이) 또는 ASIC(주문형 집적 회로)와 같은 특수 목적 논리 회로에 의해 수행될 수도 있다. 컴퓨터 프로그램의 실행에 적합한 프로세서에는 예를 들어 범용 및 특수 목적 마이크로프로세서, 그리고 임의의 종류의 디지털 컴퓨터의 하나 이상의 프로세서가 포함된다. 일반적으로, 프로세서는 판독 전용 메모리나 랜덤 액세스 메모리 또는 둘 다로부터 명령과 데이터를 수신한다. 컴퓨터의 필수 요소는 명령을 수행하는 프로세서와 그 명령 및 데이터를 저장하는 하나 이상의 메모리 디바이스이다. 일반적으로, 컴퓨터는 또한 데이터를 저장하기 위한 하나 이상의 대용량 저장 디바이스, 예를 들어 자기, 광자기 디스크 또는 광 디스크로부터 데이터를 수신하거나 전송하거나 둘 모두를 포함하거나 작동 가능하게 결합될 것이다. 그러나, 컴퓨터에 그러한 디바이스가 있을 필요는 없다. 컴퓨터 프로그램 명령 및 데이터를 저장하는데 적합한 컴퓨터 판독 가능 매체는 예를 들어 반도체 메모리 디바이스(예를 들어, EPROM, EEPROM 및 플래시 메모리 디바이스), 자기 디스크(예를 들어, 내부 하드 디스크 또는 이동식 디스크), 광자기 디스크, CD ROM 및 DVD-ROM 디스크를 비롯하여 모든 형태의 비-휘발성 메모리, 매체 및 메모리 디바이스를 포함한다. 프로세서와 메모리는 특수 목적 논리 회로로 보완되거나 통합될 수 있다.
사용자와의 상호작용을 제공하기 위해, 본 개시의 하나 이상의 양태는 디스플레이 디바이스(예를 들어, CRT(음극선관), LCD(액정 디스플레이) 모니터, 또는 사용자에게 정보를 디스플레이하기 위한 터치 스크린), 및 선택적으로 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 디바이스(예를 들어, 마우스 또는 트랙볼)를 갖는 컴퓨터에서 구현될 수 있다. 다른 종류의 디바이스도 사용자와의 상호 작용을 제공하는데 사용될 수 있는데, 예를 들어, 사용자에게 제공되는 피드백은 시각적 피드백, 청각 피드백 또는 촉각 피드백과 같은 임의의 형태의 감각 피드백일 수 있고, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함한 모든 형태로 수신될 수 있다. 또한, 컴퓨터는 예를 들어, 웹 브라우저로부터 수신된 요청에 응답하여 사용자의 클라이언트 디바이스에 있는 웹 브라우저로 웹 페이지를 전송함으로써 사용자가 사용하는 디바이스와 문서를 주고받는 방식으로 사용자와 상호 작용할 수 있다.
다수의 구현이 설명되었다. 그럼에도 불구하고, 본 개시의 사상 및 범위를 벗어나지 않고 다양한 수정이 이루어질 수 있음이 이해될 것이다. 따라서, 다른 구현은 다음 청구범위의 범위 내에 있다.

Claims (22)

  1. 데이터 처리 하드웨어(103)에서 실행될 때 데이터 처리 하드웨어(103)가 동작들을 수행하도록 하는 컴퓨터 구현 방법(400)으로서, 상기 동작들은,
    사용자(10)에 의해 발화되고 사용자 디바이스(102)에 의해 캡처된 발언(119)에 대응하는 오디오 데이터(120)를 수신하는 단계와;
    음성 인식기(200)를 사용하여, 음성 발언(119)에 대한 후보 전사(132)를 결정하기 위해 오디오 데이터(120)를 처리하는 단계와, 상기 후보 전사(132)는 토큰(133) 시퀀스를 포함하고;
    토큰(133) 시퀀스의 각 토큰(133)에 대해:
    제1 임베딩 테이블(310)을 사용하여, 해당 토큰(133)에 대한 토큰 임베딩(312)을 결정하는 단계;
    제2 임베딩 테이블(320)을 사용하여, n-그램 토큰(133)의 이전 시퀀스에 대한 n-그램 토큰 임베딩(322)을 결정하는 단계; 및
    해당 토큰(133)에 대한 연결(concatenated) 출력(335)을 생성하기 위해 토큰 임베딩(312)과 n-그램 토큰 임베딩(322)을 연결하는 단계와; 그리고
    외부 언어 모델(300)을 사용하여, 토큰(133) 시퀀스의 각 해당 토큰(133)에 대해 생성된 연결 출력(335)을 처리함으로써 음성 발언(119)에 대한 후보 전사(132)를 재스코어링하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법(400).
  2. 제1항에 있어서,
    상기 외부 언어 모델(300)은 순환 신경망(340) 언어 모델을 포함하는 것을 특징으로 하는 컴퓨터 구현 방법(400).
  3. 제1항 또는 제2항에 있어서,
    상기 외부 언어 모델(300)은 음성 인식기(200)를 인수분해하는 HAT(Hybrid Autoregressive Transducer)에 의해 음성 인식기(200)와 통합되는 것을 특징으로 하는 컴퓨터 구현 방법(400).
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 음성 인식기(200)는 컨포머(conformer) 오디오 디코더(201) 및 순환 신경망-트랜스듀서 디코더(220)를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법(400).
  5. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 음성 인식기(200)는 트랜스포머 오디오 인코더(201) 및 순환 신경망-트랜스듀서 디코더(220)를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법(400).
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 후보 전사(132)의 토큰(133) 시퀀스의 각 토큰(133)은 후보 전사(132)의 단어를 나타내는 것을 특징으로 하는 컴퓨터 구현 방법(400).
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 후보 전사(132)의 토큰(133) 시퀀스의 각 토큰(133)은 후보 전사(132)의 단어 조각(wordpiece)을 나타내는 것을 특징으로 하는 컴퓨터 구현 방법(400).
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 후보 전사(132)의 토큰(133) 시퀀스의 각 토큰(133)은 후보 전사(132)의 n-그램, 음소 또는 자소를 나타내는 것을 특징으로 하는 컴퓨터 구현 방법(400).
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 제1 및 제2 임베딩 테이블(310, 320)은 데이터 처리 하드웨어(103)와 통신하는 메모리 하드웨어(105)에 드물게(sparsely) 저장되는 것을 특징으로 하는 컴퓨터 구현 방법(400).
  10. 제1항 내지 제9항 중 어느 한 항에 있어서,
    상기 해당 토큰(133)에 대한 토큰 임베딩(312)을 결정하는 단계는,
    그래픽 처리 장치 및/또는 텐서 처리 장치에 대한 액세스를 요구하지 않고 조회(look-up)을 통해 제1 임베딩 테이블(310)로부터 토큰 임베딩(312)을 검색하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법(400).
  11. 제1항 내지 제10항 중 어느 한 항에 있어서,
    상기 데이터 처리 하드웨어(103)는 사용자 디바이스(102)에 상주하는 것을 특징으로 하는 컴퓨터 구현 방법(400).
  12. 시스템(100)으로서,
    데이터 처리 하드웨어(103); 및
    데이터 처리 하드웨어(103)와 통신하고 데이터 처리 하드웨어(103)에 의해 실행될 때 데이터 처리 하드웨어(103)로 하여금 동작들을 수행하게 하는 명령들을 저장하는 메모리 하드웨어(105)를 포함하고, 상기 동작들은,
    사용자(10)에 의해 발화되고 사용자 디바이스(102)에 의해 캡처된 발언(119)에 대응하는 오디오 데이터(120)를 수신하는 동작과;
    음성 인식기(200)를 사용하여, 음성 발언(119)에 대한 후보 전사(132)를 결정하기 위해 오디오 데이터(120)를 처리하는 동작과, 상기 후보 전사(132)는 토큰(133) 시퀀스를 포함하고;
    토큰(133) 시퀀스의 각 토큰(133)에 대해:
    제1 임베딩 테이블(310)을 사용하여, 해당 토큰(133)에 대한 토큰 임베딩(312)을 결정하는 동작;
    제2 임베딩 테이블(320)을 사용하여, n-그램 토큰(133)의 이전 시퀀스에 대한 n-그램 토큰 임베딩(322)을 결정하는 동작; 및
    해당 토큰(133)에 대한 연결 출력(335)을 생성하기 위해 토큰 임베딩(312)과 n-그램 토큰 임베딩(322)을 연결하는 동작과; 그리고
    외부 언어 모델(300)을 사용하여, 토큰(133) 시퀀스의 각 해당 토큰(133)에 대해 생성된 연결 출력(335)을 처리함으로써 음성 발언(119)에 대한 후보 전사(132)를 재스코어링하는 동작을 포함하는 것을 특징으로 하는 시스템(100).
  13. 제12항에 있어서,
    상기 외부 언어 모델(300)은 순환 신경망(340) 언어 모델을 포함하는 것을 특징으로 하는 시스템(100).
  14. 제12항 또는 제13항에 있어서,
    상기 외부 언어 모델(300)은 음성 인식기(200)를 인수분해하는 HAT(Hybrid Autoregressive Transducer)에 의해 음성 인식기(200)와 통합되는 것을 특징으로 하는 시스템(100).
  15. 제12항 내지 제14항 중 어느 한 항에 있어서,
    상기 음성 인식기(200)는 컨포머(conformer) 오디오 디코더(201) 및 순환 신경망-트랜스듀서 디코더(220)를 포함하는 것을 특징으로 하는 시스템(100).
  16. 제12항 내지 제14항 중 어느 한 항에 있어서,
    상기 음성 인식기(200)는 트랜스포머 오디오 인코더(201) 및 순환 신경망-트랜스듀서 디코더(220)를 포함하는 것을 특징으로 하는 시스템(100).
  17. 제12항 내지 제16항 중 어느 한 항에 있어서,
    상기 후보 전사(132)의 토큰(133) 시퀀스의 각 토큰(133)은 후보 전사(132)의 단어를 나타내는 것을 특징으로 하는 시스템(100).
  18. 제12항 내지 제17항 중 어느 한 항에 있어서,
    상기 후보 전사(132)의 토큰(133) 시퀀스의 각 토큰(133)은 후보 전사(132)의 단어 조각을 나타내는 것을 특징으로 하는 시스템(100).
  19. 제12항 내지 제18항 중 어느 한 항에 있어서,
    상기 후보 전사(132)의 토큰(133) 시퀀스의 각 토큰(133)은 후보 전사(132)의 n-그램, 음소 또는 자소를 나타내는 것을 특징으로 하는 시스템(100).
  20. 제12항 내지 제19항 중 어느 한 항에 있어서,
    상기 제1 및 제2 임베딩 테이블(310, 320)은 데이터 처리 하드웨어(103)와 통신하는 메모리 하드웨어(105)에 드물게 저장되는 것을 특징으로 하는 시스템(100).
  21. 제12항 내지 제20항 중 어느 한 항에 있어서,
    상기 해당 토큰(133)에 대한 토큰 임베딩(312)을 결정하는 동작은,
    그래픽 처리 장치 및/또는 텐서 처리 장치에 대한 액세스를 요구하지 않고 조회을 통해 제1 임베딩 테이블(310)로부터 토큰 임베딩(312)을 검색하는 동작을 포함하는 것을 특징으로 하는 시스템(100).
  22. 제12항 내지 제21항 중 어느 한 항에 있어서,
    상기 데이터 처리 하드웨어(103)는 사용자 디바이스(102)에 상주하는 것을 특징으로 하는 시스템(100).
KR1020237034901A 2021-03-24 2022-02-10 룩업 테이블 순환 언어 모델 KR20230156125A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163165725P 2021-03-24 2021-03-24
US63/165,725 2021-03-24
PCT/US2022/015956 WO2022203773A1 (en) 2021-03-24 2022-02-10 Lookup-table recurrent language model

Publications (1)

Publication Number Publication Date
KR20230156125A true KR20230156125A (ko) 2023-11-13

Family

ID=80449228

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237034901A KR20230156125A (ko) 2021-03-24 2022-02-10 룩업 테이블 순환 언어 모델

Country Status (6)

Country Link
US (1) US20220310067A1 (ko)
EP (1) EP4295358A1 (ko)
JP (1) JP7544989B2 (ko)
KR (1) KR20230156125A (ko)
CN (1) CN117043859A (ko)
WO (1) WO2022203773A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12087306B1 (en) * 2021-11-24 2024-09-10 Meta Platforms, Inc. Contextualized streaming end-to-end speech recognition with trie-based deep biasing and shallow fusion
WO2023113784A1 (en) * 2021-12-14 2023-06-22 Google Llc Lattice speech corrections
CN118016058A (zh) * 2022-11-10 2024-05-10 脸萌有限公司 语音识别方法、装置及电子设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6325770B2 (ja) 2013-02-04 2018-05-16 日本放送協会 音声認識誤り修正装置及びそのプログラム
US11042796B2 (en) * 2016-11-03 2021-06-22 Salesforce.Com, Inc. Training a joint many-task neural network model using successive regularization
US10431210B1 (en) * 2018-04-16 2019-10-01 International Business Machines Corporation Implementing a whole sentence recurrent neural network language model for natural language processing
US11605371B2 (en) * 2018-06-19 2023-03-14 Georgetown University Method and system for parametric speech synthesis
CN114097025A (zh) * 2019-06-04 2022-02-25 谷歌有限责任公司 两遍端到端语音识别
WO2021024491A1 (ja) 2019-08-08 2021-02-11 日本電信電話株式会社 判定装置、学習装置、判定方法及び判定プログラム
US20210264220A1 (en) * 2020-02-21 2021-08-26 Alibaba Group Holding Limited Method and system for updating embedding tables for machine learning models
US11307831B2 (en) * 2020-03-05 2022-04-19 Microsoft Technology Licensing, Llc. Neural code completion via re-ranking
US11256707B1 (en) * 2020-03-31 2022-02-22 Amazon Technologies, Inc. Per-query database partition relevance for search
US11836438B2 (en) * 2021-01-28 2023-12-05 Microsoft Technology Licensing, Llc ML using n-gram induced input representation
US11727077B2 (en) * 2021-02-05 2023-08-15 Microsoft Technology Licensing, Llc Inferring information about a webpage based upon a uniform resource locator of the webpage
US11610586B2 (en) * 2021-02-23 2023-03-21 Google Llc Learning word-level confidence for subword end-to-end automatic speech recognition

Also Published As

Publication number Publication date
JP2024512579A (ja) 2024-03-19
JP7544989B2 (ja) 2024-09-03
US20220310067A1 (en) 2022-09-29
CN117043859A (zh) 2023-11-10
EP4295358A1 (en) 2023-12-27
WO2022203773A1 (en) 2022-09-29

Similar Documents

Publication Publication Date Title
CN113692616B (zh) 用于在端到端模型中的跨语言语音识别的基于音素的场境化
KR102390940B1 (ko) 음성 인식을 위한 컨텍스트 바이어싱
KR20210146368A (ko) 숫자 시퀀스에 대한 종단 간 자동 음성 인식
EP4078572B1 (en) Proper noun recognition in end-to-end speech recognition
JP7544989B2 (ja) ルックアップテーブルリカレント言語モデル
Kurimo et al. Modeling under-resourced languages for speech recognition
US20230104228A1 (en) Joint Unsupervised and Supervised Training for Multilingual ASR
KR20230156425A (ko) 자체 정렬을 통한 스트리밍 asr 모델 지연 감소
KR20240069763A (ko) 캐스케이드 인코더를 위한 트랜스듀서 기반 스트리밍 심의
KR20230156795A (ko) 단어 분할 규칙화
CN117378005A (zh) 用于自动语音识别的多语言重新评分模型
KR20240096898A (ko) 격자 음성 교정
US20240177706A1 (en) Monte Carlo Self-Training for Speech Recognition
US20240185844A1 (en) Context-aware end-to-end asr fusion of context, acoustic and text presentations
US20240185841A1 (en) Parameter-efficient model reprogramming for cross-lingual speech recognition
US20240013777A1 (en) Unsupervised Data Selection via Discrete Speech Representation for Automatic Speech Recognition
JP2024538019A (ja) 多言語自動音声認識のための教師無しおよび教師有り共同トレーニング(just)

Legal Events

Date Code Title Description
A201 Request for examination