KR20160098910A - 음성 인식 데이터 베이스 확장 방법 및 장치 - Google Patents

음성 인식 데이터 베이스 확장 방법 및 장치 Download PDF

Info

Publication number
KR20160098910A
KR20160098910A KR1020150021162A KR20150021162A KR20160098910A KR 20160098910 A KR20160098910 A KR 20160098910A KR 1020150021162 A KR1020150021162 A KR 1020150021162A KR 20150021162 A KR20150021162 A KR 20150021162A KR 20160098910 A KR20160098910 A KR 20160098910A
Authority
KR
South Korea
Prior art keywords
word
speech recognition
recognition database
adjacent
words
Prior art date
Application number
KR1020150021162A
Other languages
English (en)
Inventor
김윤주
김주엽
김태중
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020150021162A priority Critical patent/KR20160098910A/ko
Priority to US14/991,716 priority patent/US20160232892A1/en
Publication of KR20160098910A publication Critical patent/KR20160098910A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)

Abstract

본 발명의 실시 예들은, 음성 인식에 이용되는 음성 인식 데이터 베이스를 확장하기 위한 방법 및 장치에 관한 것으로, 본 발명의 일 실시 예에 따른 음성 인식 데이터 베이스 확장 방법은, 말뭉치로부터 발음 텍스트를 생성하는 단계; 상기 발음 텍스트에 포함된 단어들 중 발음 사전에 등록되지 않은 미등록 단어가 있는지 확인하는 단계; 상기 확인 결과 미등록 단어가 있는 경우, 기 구축된 음향 모델을 참조하여 해당 미등록 단어에 대한 어휘 모델 정보를 생성하는 단계; 및 상기 생성된 어휘 모델 정보를 기 구축된 어휘 모델에 추가하는 단계를 포함한다. 본 발명의 실시 예들에 따르면, 인프라가 부족한 자립형 음성 인식기에서 보다 다양한 음성을 인식할 수 있다.

Description

음성 인식 데이터 베이스 확장 방법 및 장치{Expansion method of speech recognition database and apparatus thereof}
본 발명의 실시 예들은, 음성 인식에 이용되는 음성 인식 데이터 베이스를 확장하기 위한 방법 및 장치에 관한 것이다.
클라우드 네트워크를 기반으로 증가된 처리 용량을 갖는 네트워크 환경, 프로세서와 메모리 등의 하드웨어 성능의 향상 및 다양한 사용자 인터페이스 기술의 필요성 증대로 인하여, 음성 인식이 다양한 응용 분야에서 각광받고 있다.
특히, 최근 들어 대용량의 자연어를 고속으로 처리하기 위하여 클라우드 네트워크를 기반으로 하는 음성 인식 기술들이 활발히 개발되고 있다. 하지만, 인프라가 부족하거나 응용이 제한적인 분야, 특히 네트워크를 사용하지 않는 디바이스 레벨에서의 음성 인식 기술은 여전히 제한적으로 이용되고 있다.
한편, 음성 인식률 향상을 위해 데이터 베이스의 학습 및 운용 등과 관련한 다양한 기술적 접근이 이루어지고 있다.
종래의 일반적인 음성 인식 데이터 베이스 학습 과정은, 하나의 언어, 그 언어 내에서 사용되는 단어, 단어의 발음 뭉치 및 그 언어 내에서 사용되는 언어 규칙에 따른 단어들의 연결 관계를 기반으로 각 발음 뭉치들이 음성 신호로서 어떤 특징을 지니고 있는지에 대한 학습 데이터를 필요로 한다. 그리고 이러한 데이터를 모두 사용한 학습 과정 및 학습 결과에 대한 분석이 한번 이상 이루어져야, 음성 인식의 기준으로 적용될 수 있는 발음 사전, 음향 모델 및 언어 모델 등이 생성될 수 있다.
따라서, 외래어나 신조어와 같은 새로운 단어들을 음성 인식 대상에 포함시키고자 한다면 복잡한 음성 인식 데이터 베이스의 학습 과정이 매번 요구된다. 이를 도 1의 (a) 및 (b)를 참조하여 설명한다. 도 1의 (a) 및 (b)는 종래 기술에 의한 음성 인식 데이터 베이스 구축 방법을 설명하기 위한 예시도이다.
예를 들어 도 1의 (a)에 도시된 바와 같이, 음성 말뭉치를 기반으로 학습을 수행하여 음성 인식 데이터 베이스가 구축된 상황을 가정하자. 이러한 경우 임의의 추가 말뭉치에 대한 음성 인식 데이터 베이스를 추가하고자 하는 경우, 도 1의 (b)에 도시된 바와 같이, 기존의 음성 말뭉치와 새로운 추가 말뭉치 모두에 대한 새로운 학습을 수행하여 음성 인식 데이터 베이스를 새로 구축해야 한다.
본 발명의 실시 예들은, 새로운 인식 단위가 음성 인식의 대상에 포함될 수 있도록 기 구축된 음성 인식 데이터 베이스를 확장하는 방안을 제공한다.
본 발명의 일 실시 예에 따른 음성 인식 데이터 베이스 확장 방법은, 말뭉치로부터 발음 텍스트를 생성하는 단계; 상기 발음 텍스트에 포함된 단어들 중 발음 사전에 등록되지 않은 미등록 단어가 있는지 확인하는 단계; 상기 확인 결과 미등록 단어가 있는 경우, 기 구축된 음향 모델을 참조하여 해당 미등록 단어에 대한 어휘 모델 정보를 생성하는 단계; 및 상기 생성된 어휘 모델 정보를 기 구축된 어휘 모델에 추가하는 단계를 포함한다.
일 실시 예에서, 상기 방법은, 상기 미등록 단어의 발음 텍스트를 상기 발음 사전에 추가하는 단계를 더 포함할 수 있다.
일 실시 예에서, 상기 방법은, 상기 미등록 단어에 포함된 인접 음소들 중 앞에 위치한 음소에 대한 후보 그룹이 갖는 확률 값을 기반으로, 상기 인접 음소들의 연결 확률을 결정하는 단계; 및 상기 결정된 연결 확률을 기반으로 상기 기 구축된 음향 모델을 수정하는 단계를 더 포함할 수 있다.
일 실시 예에서, 상기 인접 음소들의 연결 확률을 결정하는 단계는, 상기 후보 그룹에 존재하는 연결 확률 중 가장 높은 연결 확률을 상기 인접 음소들의 연결 확률로 결정하는 단계를 포함할 수 있다.
일 실시 예에서, 상기 어휘 모델 정보를 생성하는 단계는, 상기 발음 텍스트 상에서 미등록 단어와 등록 단어가 서로 인접하거나 미등록 단어와 미등록 단어가 서로 인접하는 경우, 해당 인접 단어들 간의 관계를 기반으로 해당 인접 단어들에 대한 어휘 모델 정보를 생성하는 단계를 포함할 수 있다.
일 실시 예에서, 상기 어휘 모델 정보를 생성하는 단계는, 상기 인접 단어들 중 앞에 위치하는 단어의 다음 예정 단어군에, 상기 인접하는 단어들 중 뒤에 위치하는 단어를 추가하는 단계를 포함할 수 있다.
일 실시 예에서, 상기 어휘 모델 정보를 생성하는 단계는, 상기 인접 단어들 중 앞에 위치하는 단어에 대한 후보 그룹이 갖는 확률 값을 기반으로, 상기 인접 단어들의 연결 확률을 결정하는 단계를 포함할 수 있다.
일 실시 예에서, 상기 인접 단어들의 연결 확률을 결정하는 단계는, 상기 후보 그룹에 존재하는 연결 확률 중 가장 높은 연결 확률을 상기 인접 단어들의 연결 확률로 결정하는 단계를 포함할 수 있다.
일 실시 예에서, 상기 방법은, 상기 발음 텍스트에 포함된 등록 단어들 중 서로 인접하는 인접 단어들 간의 관계가 상기 기 구축된 언어 모델에 반영되어 있는지 확인하는 단계; 상기 인접 단어들 간의 관계가 상기 기 구축된 언어 모델에 반영되어 있지 않는 경우, 상기 인접 단어들 간의 관계를 나타내는 언어 모델 정보를 생성하는 단계; 및 상기 생성된 언어 모델 정보를 상기 기 구축된 언어 모델에 추가하는 단계를 포함할 수 있다.
일 실시 예에서, 상기 언어 모델 정보를 생성하는 단계는, 상기 인접 단어들을 단어 연결 단위군으로 정의하는 단계를 포함할 수 있다.
일 실시 예에서, 상기 언어 모델 정보를 생성하는 단계는, 상기 인접 단어들 중 앞에 위치하는 단어에 대한 후보 그룹이 갖는 확률 값을 기반으로, 상기 인접 단어들의 연결 확률을 결정하는 단계를 포함할 수 있다.
일 실시 예에서, 상기 인접 단어들의 연결 확률을 결정하는 단계는, 상기 후보 그룹에 존재하는 연결 확률 중 가장 높은 연결 확률을 상기 인접 단어들의 연결 확률로 결정하는 단계를 포함할 수 있다.
본 발명의 일 실시 예에 따른 프로세서 및 메모리를 포함하는 음성 인식 데이터 베이스 확장 장치는, 상기 메모리에 음성 인식 데이터 베이스를 확장하기 위한 명령어들이 저장되며, 상기 명령어들은, 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금, 말뭉치로부터 발음 텍스트를 생성하고, 상기 발음 텍스트에 포함된 단어들 중 발음 사전에 등록되지 않은 미등록 단어가 있는지 확인하며, 상기 확인 결과 미등록 단어가 있는 경우 기 구축된 음향 모델을 참조하여 해당 미등록 단어에 대한 어휘 모델 정보를 생성하고, 상기 생성된 어휘 모델 정보를 기 구축된 어휘 모델에 추가하도록 하는 명령어들을 포함할 수 있다.
본 발명의 실시 예들에 따르면, 인프라가 부족한 자립형 음성 인식기에서 보다 다양한 음성을 인식할 수 있다.
본 발명의 실시 예들에 따르면, 기 구축된 음성 인식 데이터 베이스의 성능 열화 없이, 새로운 인식 단위를 음성 인식의 대상에 추가할 수 있다.
도 1의 (a) 및 (b)는 종래 기술에 의한 음성 인식 데이터 베이스 구축 방법을 설명하기 위한 예시도,
도 2는 음성 인식 데이터 베이스 학습 과정을 설명하기 위한 흐름도,
도 3은 본 발명의 일 실시 예에 따른 음성 인식 데이터 베이스 확장 방법을 설명하기 위한 개념도,
도 4는 본 발명의 일 실시 예에 따른 음성 인식 데이터 베이스 확장 방법을 설명하기 위한 흐름도,
도 5는 본 발명의 일 실시 예에 따른 발음 텍스트 처리 방법을 설명하기 위한 예시도,
도 6의 (a) 내지 도 6의 (c)는 본 발명의 일 실시 예에 따른 미등록 단어에 대한 음향 모델 처리 방법을 설명하기 위한 예시도,
도 7의 (a) 내지 도 7의 (d)는 본 발명의 일 실시 예에 따른 어휘 모델 처리 방법을 설명하기 위한 예시도
도 8은 HMM 기반의 음성 인식 데이터 베이스에 포함되는 정보들을 설명하기 위한 예시도,
도 9는 본 발명의 일 실시 예에 따른 음성 인식 데이터 베이스 확장 장치를 설명하기 위한 블록도.
이하에서, 본 발명의 실시 예들을 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.
본 발명의 실시 예들은, 새로운 인식 단위(음소, 음절, 단어 또는 문장일 수 있다)를 음성 인식의 대상에 포함시키기 위하여, 기 구축된 음성 인식 데이터 베이스를 수정하거나 새로운 음성 인식 데이터 베이스를 추가하는 방안을 제공한다.
본 발명의 실시 예들은, 음성 인식 알고리즘으로서 Hidden Markov Model(HMM)이라는 통계적 방법을 사용하는 음성 인식 시스템에 적용될 수 있다.
이하, 본 발명의 실시 예들을 설명함에 있어, 음성 인식 데이터 베이스는, 발음 사전, 음향 모델, 어휘 모델 및 언어 모델 중 적어도 하나를 포함하는 의미로 사용한다.
이하, 본 발명의 실시 예들을 설명함에 있어, 인식 단위는 단어인 것을 가정하여 설명하나, 전술한 바와 같이, 인식 단위는, 음소, 음절 또는 문장일 수도 있다.
이하, 첨부되는 도면을 참조하여 본 발명의 실시 예들을 설명한다.
도 2는 음성 인식 데이터 베이스 학습 과정을 설명하기 위한 흐름도이다.
단계(201)에서, 학습 데이터의 준비가 이루어진다.
구체적으로, 단계(201)에서, 학습하고자 하는 학습 대상 단어가 선정되고, 선정된 단어들을 포함하는 단어 목록이 생성된다. 그리고, 단어 목록에 포함된 각각의 학습 대상 단어가 음소(phoneme) 단위로 표기되고, 모든 학습 대상 단어를 포함하는 발음 사전이 구성된다. 그리고, 각 음소에 대한 음성 데이터가 해당 음소에 대응하여 기록된다.
또한, 문법에 맞게 학습 대상 단어들 간의 네트워크 목록이 생성된다. 네트워크 목록에는, 학습 대상 단어들 간의 연결 관계가 규정된다. 예를 들어, 임의의 단어를 기준으로 해당 단어의 이전 또는 이후에 올 수 있는 단어들이 어떤 단어인지가 규정된다.
단계(203)에서, 학습이 수행된다.
구체적으로, 단계(203)에서, 발음 사전, 음성 데이터 및 음성 데이터로부터 추출된 특징 벡터들을 기반으로 음향 모델(acoustic model)이 생성된다.
또한, 학습 대상 단어들이 문법에 맞게 인식될 수 있도록 단어들이 연결될 연결 확률을 포함하는 어휘 모델 및 언어 모델이 생성된다.
단계(205)에서, 단계(203)에서 생성된 음향 모델, 어휘 모델 및 언어 모델을 사용하여 테스트 음성이 인식되고, 인식 결과의 분석을 통하여 음향 모델, 어휘 모델 및 언어 모델의 신뢰도가 평가된다.
더 좋은 인식 결과를 얻기 위하여 단계(201) 내지 단계(205)의 과정들이 반복될 수 있으며, 이에 따라 생성되는 음향 모델들 어휘 모델들 및 언어 모델들 중 최종적으로 사용될 모델들이 결정된다.
도 3은 본 발명의 일 실시 예에 따른 음성 인식 데이터 베이스 확장 방법을 설명하기 위한 개념도이다.
본 발명의 일 실시 예에 따르면, 음성 인식의 범위에 새로운 단어 또는 새로운 문장을 추가하고자 하는 경우, 추가하고자 하는 단어 또는 문장(이하, 추가 말뭉치라 함)과 기 구축된 음성 인식 데이터 베이스를 기반으로 새로운 음향 모델 정보, 어휘 모델 정보 및 언어 모델 정보가 생성될 수 있다. 그리고, 생성된 모 모델 정보들을 이용하여 기 구축된 음성 인식 데이터 베이스가 확장될 수 있다. 도 3을 참조하면, 기 구축된 음성 인식 데이터 베이스(302)에 새로운 모델 정보(304)가 반영되었음을 알 수 있다.
도 1의 (b)를 참조하여 설명한 종래의 방법과 비교할 때, 전체 말뭉치를 대상으로 하는 복잡한 학습 방법 없이 간편하게 음성 인식의 범위를 확장할 수 있다.
도 4는 본 발명의 일 실시 예에 따른 음성 인식 데이터 베이스 확장 방법을 설명하기 위한 흐름도이다. 실시 예에 따라, 단계(401) 내지 단계(425) 중 적어도 하나의 단계는, 생략될 수 있다. 실시 예에 따라, 단계(401) 내지 단계(425) 중 적어도 하나의 단계는, 다른 하나의 단계 이전에 수행되거나 다른 하나의 단계 이후에 수행될 수 있다.
단계(401)에서, 음성 인식 데이터 베이스 확장 장치는, 음성 인식 데이터 베이스 확장에 이용되는 추가 말뭉치를 입력 받는다. 추가 말뭉치는, 텍스트 형태일 수 있다.
단계(403)에서, 음성 인식 데이터 베이스 확장 장치는, 입력되는 추가 말뭉치에 대한 발음 텍스트 처리를 수행한다.
예를 들어, 입력되는 추가 말뭉치가 한국어로 이루어진 경우, 음성 인식 데이터 베이스 확장 장치는, 해당 말뭉치를 발음나는 대로 표기한 한국어 발음 텍스트를 생성한다. 그리고, 한국어 발음 텍스트를 영어 발음 텍스트로 변환한다. 만약, 추가 말뭉치가 영어인 경우, 음성 인식 데이터 베이스 확장 장치는, 추가 말뭉치로부터 영어 발음 텍스트를 직접 생성한다. 이하에서, 설명의 편의를 위하여, 영어 발음 텍스트를 발음 텍스트라 한다. 발음 텍스트 처리 과정을 도 5를 참조하여 살펴본다.
도 5는 본 발명의 일 실시 예에 따른 발음 텍스트 처리 방법을 설명하기 위한 예시도이다.
도 5를 참조하여 설명하는 실시 예에서, 설명의 편의를 위하여, 영어로 이루어진 추가 말뭉치"dial zero"가 입력되는 경우를 가정한다.
음성 인식 데이터 베이스 확장 장치는, 추가 말뭉치가 입력되면 해당 추가 말뭉치에 포함된 단어들의 발음 텍스트를 생성한다. 도 5를 참조하면, 추가 말뭉치 "dial zero"로부터 발음 텍스트 "day_axl zia_row"가 생성되었음을 알 수 있다. 발음 텍스트 생성에는 종래 이용되는 다양한 방법을 이용할 수 있으며, 여기서는 상세한 설명은 생략한다.
다시 도 4를 참조하여 설명하면, 단계(405)에서, 음성 인식 데이터 베이스 확장 장치는, 발음 사전에 등록되지 않은 미등록 단어가 발음 텍스트 처리된 추가 말뭉치에 포함되어 있는지 여부를 확인한다. 만약, 발음 사전에 등록되지 않은 미등록 단어가 있는 경우 단계(407)로 진행하고, 그렇지 않으면 단계(421)로 진행한다.
단계(407)에서, 음성 인식 데이터 베이스 확장 장치는, 미등록 단어와 해당 미등록 단어의 발음 텍스트를 매핑하여 발음 사전에 추가한다.
예를 들어, 발음 텍스트 "day_axl zia_row" 중에서 "day_axl" 및 "zia_row" 로 표기되는 단어들이 발음 사전에 등록되어 있지 않은 경우를 가정한다. 이러한 경우, 음성 인식 데이터 베이스 확장 장치는, 미등록 단어 "dial"과 해당 미등록 단어의 발음 텍스트 "day_axl"를 매핑하여 발음 사전에 추가한다. 마찬가지로, 음성 인식 데이터 베이스 확장 장치는, 미등록 단어 "zero"와 해당 미등록 단어의 발음 텍스트 "zia_row"를 매핑하여 발음 사전에 추가한다.
단계(409)에서, 음성 인식 데이터 베이스 확장 장치는, 미등록 단어에 대한 음향 모델 처리를 수행한다.
미등록 단어에 대한 음향 모델 처리를 수행한다는 것은, 예를 들어 기 구축된 음향 모델의 공유 상태 정보를 수정하는 것을 포함할 수 있다. 이를 도 6의 (a) 내지 도 6의 (c)를 참조하여 설명한다.
도 6의 (a) 내지 도 6의 (c)는 본 발명의 일 실시 예에 따른 미등록 단어에 대한 음향 모델 처리 방법을 설명하기 위한 예시도이다.
도 6의 (a)에 도시된 바와 같이, 기 구축된 음향 모델에 음소 1에 대한 후보 음소로서 음소 2 및 음소 3이 존재하고, 음소 4에 대한 후보 음소로서 음소 5 및 음소 6이 존재한다고 가정한다.
이러한 상황에서 도 6의 (b)에 도시된 바와 같이 음소 1-음소 4-음소 5로 구성된 미등록 단어가 입력된 경우, 음성 인식 데이터 베이스 확장 장치는, 음소 1에 대한 후보 음소로서 음소 4가 포함되도록 음소 1의 공유 상태 정보를 수정할 수 있다.
이를 위하여, 음성 인식 데이터 베이스 확장 장치는, 음소 1 이후에 음소 4가 올 연결 확률을 결정할 수 있다. 연결 확률은, 후보 그룹{(음소 1-음소 2), (음소 1-음소 3), (음소 4-음소5), (음소 4-음소 6)}이 갖는 연결 확률을 기반으로 결정되거나, 미리 설정된 일정한 값으로 결정될 수 있다.
후보 그룹이 갖는 확률 값을 기반으로 결정되는 경우, 음성 인식 데이터 베이스 확장 장치는, 음소 4가 음소 1에 대한 후보 음소로서 인식될 확률을 높이기 위하여 후보 그룹에 존재하는 연결 확률 중 가장 높은 연결 확률을 선택하고, 선택된 연결 확률을 음소 4에 대한 연결 확률로 결정할 수 있다.
예를 들어, 후보 그룹이 갖는 연결 확률들(pp2, pp3, pp5, pp6) 중 pp6가 가장 크다고 가정할 때, 음성 인식 데이터 베이스 확장 장치는, 도 6의 (c)에 도시된 바와 같이 음소 4에 대한 연결 확률을 pp6로 결정할 수 있다. 그리고, 결정된 확률에 따라 음소 1의 공유 상태 정보를 수정할 수 있다. 공유 상태 정보는, 발산 확률(emission probability) 계산에 필요한 평균 값 또는 분산 값을 포함하고 있다. 따라서, 음성 인식 데이터 베이스 확장 장치는, 결정된 연결 확률에 따라 공유 상태 정보에 포함된 평균 값 또는 분산 값을 수정할 수 있다.
본 발명의 실시 예들에서, 후보 그룹이란, 특정 음소에 연결 가능한 음소들의 집합 또는 특정 단어에 연결 가능한 단어들의 집합을 의미할 수 있다. 특정 음소에 대한 후보 그룹은, 해당 후보 그룹에 포함되지 않은 음소들에 비하여 해당 특정 음소에 연결될 확률이 높은 음소들로 이루어질 수 있다. 특정 단어에 대한 후보 그룹은, 해당 후보 그룹에 포함되지 않은 단어들에 비하여 해당 특정 단어에 연결될 확률이 높은 단어들로 이루어질 수 있다. 예를 들어, 주어-술어 구조의 문장에서 주어에 해당하는 단어의 후보 그룹에는, 명사형 단어들이 포함되지 않고 동사형 단어들만 포함될 수 있다.
후보 그룹은, 도 2를 참조하여 설명한 학습 데이터 준비 과정에서 사용자에 의하여 정의되거나, 도 2를 참조하여 설명한 학습 과정의 반복에 따라 추론될 수 있다.
다시 도 4를 참조하여 설명하면, 단계(411)에서, 음성 인식 데이터 베이스 확장 장치는, 인접 단어들에 대한 어휘 모델 처리를 수행한다.
인접 단어들에 대한 어휘 모델 처리를 수행한다는 것은, 예를 들어 해당 인접 단어들 간의 관계를 기반으로 해당 인접 단어들에 대한 어휘 모델 정보를 생성하고, 생성된 어휘 모델 정보를 기 구축된 어휘 모델에 추가하는 것을 포함할 수 있다. 인접 단어들에 대한 어휘 모델 정보를 생성한다는 것은, 예를 들어, 해당 인접 단어들 중 앞에 위치하는 단어의 다음 예정 단어군(group of next estimated words)에, 해당 인접 단어들 중 뒤에 위치하는 단어를 추가하는 것을 포함할 수 있다. 다음 예정 단어군은, 해당 단어의 뒤에 위치할 수 있는 단어들의 집합을 의미한다.
어휘 모델 정보는, 예를 들어 단어, 각 단어를 구성하는 음소 개수, 해당 단어를 구성하는 음소열 및 해당 단어의 다음에 올 수 있는 다음 예정 단어군 중 적어도 하나를 포함할 수 있다. 어휘 모델 처리 방법에 대하여 도 7의 (a) 내지 도 7의 (d)를 참조하여 살펴본다.
도 7의 (a) 내지 도 7의 (d)는 본 발명의 일 실시 예에 따른 어휘 모델 처리 방법을 설명하기 위한 예시도이다.
먼저, 도 7의 (a) 및 도 7의 (b)에 도시된 바와 같이, 단어들 "call" 및 "phone"을 포함하는 음소열 네트워크(word network)가 존재하는 상황을 가정한다. 음소열 네트워크는, 단어(W), 각 단어의 인덱스(I), 단어와 단어 사이의 전이를 나타내는 연결선(arc) 및 각 연결선에 대한 확률 정보를 포함한다.
이러한 상황에서, 새로운 미등록 단어들 "dial" 및 "zero"가 입력된 상황을 가정하자. 이러한 경우, 음성 인식 데이터 베이스 확장 장치는, 도 7의 (c) 및 도 7의 (d)에 도시된 바와 같이, 해당 미등록 단어들을 음소열 네트워크에 추가한다.
그리고, 음성 인식 데이터 베이스 확장 장치는, 앞에 위치한 단어 "dial"에 대한 어휘 모델 정보 중 다음 예정 단어군에, 뒤에 위치한 단어 "zero"를 추가한다.
그리고, 음성 인식 데이터 베이스 확장 장치는, 미등록 단어 간 연결 확률을 결정하고, 결정된 연결 확률을 음소열 네트워크에 추가한다. 미등록 단어 간 연결 확률은, 후보 그룹이 갖는 확률 값을 기반으로 결정되거나, 미리 설정된 일정한 값으로 결정될 수 있다.
후보 그룹이 갖는 확률 값을 기반으로 결정되는 경우, 음성 인식 데이터 베이스 확장 장치는, 뒤에 위치하는 단어 "zero"가 앞에 위치하는 단어 "dial"에 대한 후보 단어로서 인식될 확률을 높이기 위하여 후보 그룹 내에 존재하는 연결 확률 중 가장 높은 연결 확률을 선택할 수 있다. 그리고, 선택된 연결 확률을 단어 "zero"에 대한 단어 "dial"의 연결 확률, 즉 단어 "dial" 이후에 단어 "zero"가 올 확률로 결정할 수 있다.
예를 들어, 하나의 후보 그룹 내에 존재하는 연결 확률들 pj1 및 pj2 중 가장 높은 연결 확률이 pj2라고 가정할 때, 음성 인식 데이터 베이스 확장 장치는, 도 7의 (c) 및 도 7의 (d)에 도시된 바와 같이 단어 "zero"에 대한 단어 "dial"의 연결 확률을 pj2로 결정할 수 있다.
한편, 연결 확률은, 음성 인식이 진행되어 가는 과정에서 얻어진 통계적 특성에 따라 갱신될 수 있다. 예를 들어, 음성 인식이 계속하여 진행되면서 단어 "dial" 이후에 올 수 있는 후보 단어들이 추가되는 경우, 각 후보 단어들에 대한 단어 "dial"의 연결 확률은 정규화될 수 있다. 그리고, 정규화 과정에서 각 후보 단어들에 대한 단어"dial"의 연결 확률은 갱신될 수 있다.
예를 들어, 단어 "dial" 이후에 올 수 있는 후보 단어가 "zero"만 있고, 후보 단어 "zero"에 대한 단어 "dial"의 연결 확률이 0.2인 상황을 가정하자. 그리고, 음성 인식이 추가적으로 진행되어 단어 "dial" 이후에 올 수 있는 후보 단어로서 단어 "one" 및 단어 "two"가 추가되었으며, 후보 단어 "one"에 대한 단어 "dial"의 연결 확률이 0.5, 후보 단어 "two"에 대한 단어 "dial"의 연결 확률이 0.8로 결정되었다고 가정하자.
이러한 경우, 음성 인식 데이터 베이스 확장 장치는, 후보 단어들에 대한 단어 "dial"의 연결 확률을 정규화할 수 있다. 따라서, 후보 단어 "zero"에 대한 단어 "dial"의 연결 확률은 1.333으로, 후보 단어 "one"에 대한 단어 "dial"의 연결 확률은 3.333으로, 후보 단어 "two"에 대한 단어 "dial"의 연결 확률은 5.333으로 갱신될 수 있다.
연결 확률의 정규화와 갱신은, 앞서 설명한 음소 간의 연결 확률에도 동일하게 적용될 수 있으며, 이후에 설명할 단어 연결 단위군으로 정의된 인접 단어들의 연결 확률에도 동일하게 적용될 수 있다.
한편, 도 7을 참조하여 설명한 실시 예에서 인접 단어들이 모두 미등록 단어인 경우의 예를 설명하였으나, 인접 단어들 중 어느 하나가 등록 단어인 경우에도 본 발명의 실시 예들은 동일하게 적용될 수 있다.
다시 도 4를 참조하여 설명하면, 단계(421)에서, 음성 인식 데이터 베이스 확장 장치는, 기 구축된 언어 모델에 반영되어 있지 않은 인접 단어들 간의 관계가 발음 텍스트 처리된 추가 말뭉치에 존재하는지 판단한다. 만약, 기 구축된 언어 모델에 반영되어 있지 않은 인접 단어들 간의 관계가 발음 텍스트 처리된 추가 말뭉치에 존재하는 경우 단계(423)로 진행한다.
단계(423)에서, 음성 인식 데이터 베이스 확장 장치는, 서로 간의 관계가 기 구축된 언어 모델에 반영되어 있지 않은 인접 단어들에 대한 언어 모델 처리를 수행한다.
언어 모델 처리를 수행한다는 것은, 예를 들어 해당 인접 단어 간의 관계를 나타내는 언어 모델 정보를 생성하고, 생성된 언어 모델 정보를 기 구축된 언어 모델에 추가하는 것을 포함할 수 있다.
언어 모델 정보는, 예를 들어 단어 연결 단위군(the connection group of words), 이전 예정 단어(previous estimated words), 다음 예정 단어(next estimated words) 및 각 단어 간 연결 확률 중 적어도 하나를 포함할 수 있다.
단어 연결 단위군은, 학습 또는 음성 인식이 진행되어 가는 과정에서 연결 빈도가 높은 것으로 나타나는 인접 단어들의 집합을 의미한다.
이전 예정 단어는, 해당 단어의 앞에 위치할 수 있는 단어를 의미한다.
다음 예정 단어는, 해당 단어의 뒤에 위치할 수 있는 단어를 의미한다.
음성 인식 데이터 베이스 확장 장치는, 인접 단어들을 단어 연결 단위군으로 정의하고, 해당 인접 단어들 간의 연결 확률을 결정할 수 있다. 해당 인접 단어들 간의 연결 확률은, 후보 그룹이 갖는 확률 값을 기반으로 결정되거나, 미리 설정된 일정한 값으로 결정될 수 있다.
후보 그룹이 갖는 확률 값을 기반으로 결정되는 경우, 음성 인식 데이터 베이스 확장 장치는, 인접 단어들 중 뒤에 위치하는 단어가 해당 인접 단어들 중 앞에 위치하는 단어에 대한 후보 단어로서 인식될 확률을 높이기 위하여, 후보 그룹이 갖는 연결 확률 중에서 가장 높은 값을 선택하고, 선택된 연결 확률을 해당 인접 단어에 대한 연결 확률로 결정할 수 있다.
도 8은 HMM 기반의 음성 인식 데이터 베이스에 포함되는 정보들을 설명하기 위한 예시도이다.
음향 모델(510)은, 음소, 각 음소에 대한 공유 상태 천이 확률(shared state transition probability), 공유 상태 정보 및 HMM 파라미터 등을 포함한다.
어휘 모델(520)은, 단어, 각 단어를 구성하는 구성 음소 개수, 각 단어를 구성하는 음소열 및 다음 예정 단어군 정보 등을 포함한다.
언어 모델(530)은, 단어 연결 단위군, 이전 예정 단어, 다음 예정 단어 및 단어와 단어가 연결될 확률을 포함한다.
본 발명의 실시 예들은, 컴퓨터 시스템 내에, 예를 들어, 컴퓨터 판독가능 기록 매체로 구현될 수 있다. 도 9에 도시된 바와 같이, 컴퓨터 시스템(900)은 하나 이상의 프로세서(910), 메모리(920), 저장부(930), 사용자 인터페이스 입력부(940) 및 사용자 인터페이스 출력부(950) 중 적어도 하나 이상의 요소를 포함할 수 있으며, 이들은 버스(960)를 통해 서로 통신할 수 있다. 또한, 컴퓨터 시스템(900)은 네트워크에 접속하기 위한 네트워크 인터페이스(970)를 또한 포함할 수 있다. 프로세서(910)는 메모리(920) 및/또는 저장소(930)에 저장된 처리 명령어를 실행시키는 CPU 또는 반도체 소자일 수 있다. 메모리(920) 및 저장부(930)는 다양한 유형의 휘발성/비휘발성 기억 매체를 포함할 수 있다. 예를 들어, 메모리는 ROM(924) 및 RAM(925)을 포함할 수 있다.
이에 따라, 본 발명의 실시 예들은 컴퓨터로 구현되는 방법 또는 컴퓨터 실행 가능 명령어들이 저장된 비휘발성 컴퓨터 기록 매체로 구현될 수 있다. 상기 명령어들은 프로세서에 의해 실행될 때 본 발명의 적어도 일 실시 예에 따른 방법을 수행할 수 있다.

Claims (20)

  1. 말뭉치로부터 발음 텍스트를 생성하는 단계;
    상기 발음 텍스트에 포함된 단어들 중 발음 사전에 등록되지 않은 미등록 단어가 있는지 확인하는 단계;
    상기 확인 결과 미등록 단어가 있는 경우, 기 구축된 음향 모델을 참조하여 해당 미등록 단어에 대한 어휘 모델 정보를 생성하는 단계; 및
    상기 생성된 어휘 모델 정보를 기 구축된 어휘 모델에 추가하는 단계
    를 포함하는 음성 인식 데이터 베이스 확장 방법.
  2. 제 1 항에 있어서,
    상기 미등록 단어의 발음 텍스트를 상기 발음 사전에 추가하는 단계
    를 더 포함하는 음성 인식 데이터 베이스 확장 방법.
  3. 제 1 항에 있어서,
    상기 미등록 단어에 포함된 인접 음소들 중 앞에 위치한 음소에 대한 후보 그룹이 갖는 확률 값을 기반으로, 상기 인접 음소들의 연결 확률을 결정하는 단계; 및
    상기 결정된 연결 확률을 기반으로 상기 기 구축된 음향 모델을 수정하는 단계
    를 더 포함하는 음성 인식 데이터 베이스 확장 방법.
  4. 제 3 항에 있어서, 상기 인접 음소들의 연결 확률을 결정하는 단계는,
    상기 후보 그룹에 존재하는 연결 확률 중 가장 높은 연결 확률을 상기 인접 음소들의 연결 확률로 결정하는 단계
    를 포함하는 음성 인식 데이터 베이스 확장 방법.
  5. 제 1 항에 있어서, 상기 어휘 모델 정보를 생성하는 단계는,
    상기 발음 텍스트 상에서 미등록 단어와 등록 단어가 서로 인접하거나 미등록 단어와 미등록 단어가 서로 인접하는 경우, 해당 인접 단어들 간의 관계를 기반으로 해당 인접 단어들에 대한 어휘 모델 정보를 생성하는 단계
    를 포함하는 음성 인식 데이터 베이스 확장 방법.
  6. 제 5 항에 있어서, 상기 어휘 모델 정보를 생성하는 단계는,
    상기 인접 단어들 중 앞에 위치하는 단어의 다음 예정 단어군에, 상기 인접하는 단어들 중 뒤에 위치하는 단어를 추가하는 단계
    를 포함하는 음성 인식 데이터 베이스 확장 방법.
  7. 제 6 항에 있어서, 상기 어휘 모델 정보를 생성하는 단계는,
    상기 인접 단어들 중 앞에 위치하는 단어에 대한 후보 그룹이 갖는 확률 값을 기반으로, 상기 인접 단어들의 연결 확률을 결정하는 단계
    를 포함하는 음성 인식 데이터 베이스 확장 방법.
  8. 제 7 항에 있어서, 상기 인접 단어들의 연결 확률을 결정하는 단계는,
    상기 후보 그룹에 존재하는 연결 확률 중 가장 높은 연결 확률을 상기 인접 단어들의 연결 확률로 결정하는 단계
    를 포함하는 음성 인식 데이터 베이스 확장 방법.
  9. 제 1 항에 있어서,
    상기 발음 텍스트에 포함된 등록 단어들 중 서로 인접하는 인접 단어들 간의 관계가 상기 기 구축된 언어 모델에 반영되어 있는지 확인하는 단계;
    상기 인접 단어들 간의 관계가 상기 기 구축된 언어 모델에 반영되어 있지 않는 경우, 상기 인접 단어들 간의 관계를 나타내는 언어 모델 정보를 생성하는 단계; 및
    상기 생성된 언어 모델 정보를 상기 기 구축된 언어 모델에 추가하는 단계
    를 더 포함하는 음성 인식 데이터 베이스 확장 방법.
  10. 제 9 항에 있어서, 상기 언어 모델 정보를 생성하는 단계는,
    상기 인접 단어들을 단어 연결 단위군으로 정의하는 단계
    를 포함하는 음성 인식 데이터 베이스 확장 방법.
  11. 제 10 항에 있어서, 상기 언어 모델 정보를 생성하는 단계는,
    상기 인접 단어들 중 앞에 위치하는 단어에 대한 후보 그룹이 갖는 확률 값을 기반으로, 상기 인접 단어들의 연결 확률을 결정하는 단계
    를 포함하는 음성 인식 데이터 베이스 확장 방법.
  12. 제 11 항에 있어서, 상기 인접 단어들의 연결 확률을 결정하는 단계는,
    상기 후보 그룹에 존재하는 연결 확률 중 가장 높은 연결 확률을 상기 인접 단어들의 연결 확률로 결정하는 단계
    를 포함하는 음성 인식 데이터 베이스 확장 방법.
  13. 프로세서 및 메모리를 포함하는 음성 인식 데이터 베이스 확장 장치로서,
    상기 메모리에 음성 인식 데이터 베이스를 확장하기 위한 명령어들이 저장되며,
    상기 명령어들은, 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금,
    말뭉치로부터 발음 텍스트를 생성하고,
    상기 발음 텍스트에 포함된 단어들 중 발음 사전에 등록되지 않은 미등록 단어가 있는지 확인하며,
    상기 확인 결과 미등록 단어가 있는 경우 기 구축된 음향 모델을 참조하여 해당 미등록 단어에 대한 어휘 모델 정보를 생성하고,
    상기 생성된 어휘 모델 정보를 기 구축된 어휘 모델에 추가하도록 하는 명령어들을 포함하는
    음성 인식 데이터 베이스 확장 장치.
  14. 제 13 항에 있어서, 상기 명령어들은,
    상기 미등록 단어에 포함된 인접 음소들 중 앞에 위치한 음소에 대한 후보 그룹이 갖는 확률 값을 기반으로 상기 인접 음소들의 연결 확률을 결정하고, 상기 결정된 연결 확률을 기반으로 상기 기 구축된 음향 모델을 수정하도록 하는 명령어들을 포함하는
    음성 인식 데이터 베이스 확장 장치.
  15. 제 13 항에 있어서, 상기 명령어들은,
    상기 발음 텍스트 상에서 미등록 단어와 등록 단어가 서로 인접하거나 미등록 단어와 미등록 단어가 서로 인접하는 경우, 해당 인접 단어들 간의 관계를 기반으로 해당 인접 단어들에 대한 어휘 모델 정보를 생성하도록 하는 명령어들을 포함하는
    음성 인식 데이터 베이스 확장 장치.
  16. 제 15 항에 있어서, 상기 명령어들은,
    상기 인접 단어들 중 앞에 위치하는 단어의 다음 예정 단어군에, 상기 인접 단어들 중 뒤에 위치하는 단어를 추가하도록 하는 명령어들을 포함하는
    음성 인식 데이터 베이스 확장 장치.
  17. 제 16 항에 있어서, 상기 명령어들은,
    상기 인접 단어들 중 앞에 위치하는 단어에 대한 후보 그룹이 갖는 확률 값을 기반으로 상기 인접 단어들의 연결 확률을 결정하도록 하는 명령어들을 포함하는
    음성 인식 데이터 베이스 확장 장치.
  18. 제 13 항에 있어서, 상기 명령어들은,
    상기 발음 텍스트에 포함된 등록 단어들 중 서로 인접하는 인접 단어들 간의 관계가 상기 기 구축된 언어 모델에 반영되어 있는지 확인하고,
    상기 인접 단어들 간의 관계가 상기 기 구축된 언어 모델에 반영되어 있지 않는 경우, 상기 인접 단어들 간의 관계를 나타내는 언어 모델 정보를 생성하며,
    상기 생성된 언어 모델 정보를 상기 기 구축된 언어 모델에 추가하도록 하는 명령어들을 포함하는
    음성 인식 데이터 베이스 확장 장치.
  19. 제 18 항에 있어서, 상기 명령어들은,
    상기 인접 단어들을 단어 연결 단위군으로 정의하도록 하는 명령어들을 포함하는
    음성 인식 데이터 베이스 확장 장치.
  20. 제 19 항에 있어서, 상기 명령어들은,
    상기 인접 단어들 중 앞에 위치하는 단어에 대한 후보 그룹이 갖는 확률 값을 기반으로 상기 인접 단어들의 연결 확률을 결정하도록 하는 명령어들을 포함하는
    음성 인식 데이터 베이스 확장 장치.
KR1020150021162A 2015-02-11 2015-02-11 음성 인식 데이터 베이스 확장 방법 및 장치 KR20160098910A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020150021162A KR20160098910A (ko) 2015-02-11 2015-02-11 음성 인식 데이터 베이스 확장 방법 및 장치
US14/991,716 US20160232892A1 (en) 2015-02-11 2016-01-08 Method and apparatus of expanding speech recognition database

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150021162A KR20160098910A (ko) 2015-02-11 2015-02-11 음성 인식 데이터 베이스 확장 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20160098910A true KR20160098910A (ko) 2016-08-19

Family

ID=56565270

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150021162A KR20160098910A (ko) 2015-02-11 2015-02-11 음성 인식 데이터 베이스 확장 방법 및 장치

Country Status (2)

Country Link
US (1) US20160232892A1 (ko)
KR (1) KR20160098910A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019208859A1 (ko) * 2018-04-27 2019-10-31 주식회사 시스트란인터내셔널 발음 사전 생성 방법 및 이를 위한 장치
KR20200137936A (ko) * 2019-05-29 2020-12-09 경희대학교 산학협력단 한국어 기반 신경망 언어 모델을 위한 어휘 목록 생성 방법 및 장치

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6744025B2 (ja) * 2016-06-21 2020-08-19 日本電気株式会社 作業支援システム、管理サーバ、携帯端末、作業支援方法およびプログラム
CN112908317B (zh) * 2019-12-04 2023-04-07 中国科学院深圳先进技术研究院 一种针对认知障碍的语音识别系统
CN112420050B (zh) * 2020-11-18 2021-06-18 北京帝派智能科技有限公司 一种语音识别方法、装置和电子设备
CN117116267B (zh) * 2023-10-24 2024-02-13 科大讯飞股份有限公司 语音识别方法及装置、电子设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4980918A (en) * 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US5960395A (en) * 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
GB2458238B (en) * 2006-11-30 2011-03-23 Nat Inst Of Advanced Ind Scien Web site system for voice data search

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019208859A1 (ko) * 2018-04-27 2019-10-31 주식회사 시스트란인터내셔널 발음 사전 생성 방법 및 이를 위한 장치
KR20200137936A (ko) * 2019-05-29 2020-12-09 경희대학교 산학협력단 한국어 기반 신경망 언어 모델을 위한 어휘 목록 생성 방법 및 장치

Also Published As

Publication number Publication date
US20160232892A1 (en) 2016-08-11

Similar Documents

Publication Publication Date Title
CN110675855B (zh) 一种语音识别方法、电子设备及计算机可读存储介质
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
CN113692616B (zh) 用于在端到端模型中的跨语言语音识别的基于音素的场境化
US9558741B2 (en) Systems and methods for speech recognition
EP4018437B1 (en) Optimizing a keyword spotting system
CN111292740B (zh) 语音辨识系统及其方法
US20040172247A1 (en) Continuous speech recognition method and system using inter-word phonetic information
KR20160098910A (ko) 음성 인식 데이터 베이스 확장 방법 및 장치
JP5660441B2 (ja) 音声認識装置、音声認識方法、及びプログラム
CN112700778B (zh) 语音识别方法和语音识别设备
US20220180864A1 (en) Dialogue system, dialogue processing method, translating apparatus, and method of translation
KR20230156125A (ko) 룩업 테이블 순환 언어 모델
JP5376341B2 (ja) モデル適応装置、その方法及びそのプログラム
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
US8438029B1 (en) Confidence tying for unsupervised synthetic speech adaptation
JP2024512607A (ja) 単語のセグメント化を正則化すること
KR102300303B1 (ko) 발음 변이를 적용시킨 음성 인식 방법
KR20140051519A (ko) 연속어 음성인식 방법 및 연속어 음성인식 장치
KR20240068723A (ko) Rnn-T로 구현된 자동 음성 인식 시스템에서 음향과 텍스트 표현의 융합
KR20210158667A (ko) 음성 인식 장치 및 그것을 이용한 음성 인식 속도 개선 방법
Tian et al. Duration modeling and memory optimization in a Mandarin TTS system.
Razavi et al. On the Application of Automatic Subword Unit Derivation and Pronunciation Generation for Under-Resourced Language ASR: A Study on Scottish Gaelic
JP2002278584A (ja) 言語モデル生成装置及びこれを用いた音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体
KR960030078A (ko) 히든 마르코프 모델링 방식(hmm)의 음성인식 시스템에서의 음성 인식 방법
JP2005010464A (ja) 音声認識装置、音声認識方法、および、音声認識プログラム

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid