KR20210054001A - 음성인식 서비스를 제공하기 위한 방법 및 장치 - Google Patents

음성인식 서비스를 제공하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR20210054001A
KR20210054001A KR1020217011947A KR20217011947A KR20210054001A KR 20210054001 A KR20210054001 A KR 20210054001A KR 1020217011947 A KR1020217011947 A KR 1020217011947A KR 20217011947 A KR20217011947 A KR 20217011947A KR 20210054001 A KR20210054001 A KR 20210054001A
Authority
KR
South Korea
Prior art keywords
speech recognition
recognition result
voice
speech
data
Prior art date
Application number
KR1020217011947A
Other languages
English (en)
Inventor
황명진
지창진
Original Assignee
주식회사 엘솔루
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엘솔루 filed Critical 주식회사 엘솔루
Publication of KR20210054001A publication Critical patent/KR20210054001A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 음성을 인식하는 방법 및 그 장치에 관한 것인다. 보다 구체적으로, 본 발명에 의한 음성 인식 장치는 사용자로부터 음성 정보를 획득하고, 획득된 음성 정보를 음성 데이터로 변환하며, 상기 변환된 음성 데이터를 제1 음성인식 모델로 인식하여 제1 음성 인식 결과를 생성할 수 있다.
이후, 음성 인식 장치는 상기 변환된 음성 데이터를 제2 음성인식 모델로 인식하여 제2 음성 인식 결과를 생성하고, 상기 제1 음성 인식 결과와 상기 제2 음성 인식 결과를 비교하며, 상기 비교결과에 기초하여 상기 제1 음성 인식 결과 및 상기 제2 음성 인식 결과 중 하나를 선택할 수 있다.

Description

음성인식 서비스를 제공하기 위한 방법 및 장치
본 발명은 사용자의 음성을 인식하기 위한 방법 및 장치에 관한 것이다. 보다 구체적으로, 사용자로부터 획득된 음성을 인식하기 위한 방법에 있어서 음성인식 신뢰도를 향상시키기 위한 방법 및 장치에 관한 것이다.
자동 음성인식은(이하 음성인식이라 호칭한다.) 컴퓨터를 이용하여 음성을 문자로 변환해주는 기술이다. 이러한 음성인식은 최근 들어 급격한 인식율 향상을 이뤘다.
하지만, 인식 율은 향상되었지만 음성인식기의 어휘 사전에 없는 단어는 여전히 인식할 수 없으며, 다른 어휘로 잘못 인식(오인식)된다는 문제점이 존재한다.
어휘 사전에 없어서 인식되지 않는 어휘를 정상적으로 인식시킬 수 있는 방법은 어휘 사전에 해당 어휘를 넣는 방법이 유일하였다.
본 발명의 목적은, 음성인식기의 어휘 사전에 없는 단어가 입력된 경우, 사용자가 보유한 어휘를 즉석에서 반영하여 어휘 사전에 없는 단어가 미등록 어휘로 인식되는 것을 방지하기 위한 방법을 제안한다.
또한, 사용자가 보유한 어휘를 즉석에서 반영하여 어휘 사전에 없는 단어를 인식하는 과정에서 컴퓨팅 리소스를 최소로 사용하기 위한 방법을 제안한다.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진자에게 명확하게 이해될 수 있을 것이다.
본 발명에 의한 음성을 인식하는 방법은 사용자로부터 음성 정보를 획득하는 단계; 획득된 음성 정보를 음성 데이터로 변환하는 단계; 상기 변환된 음성 데이터를 제1 음성인식 모델로 인식하여 상기 제1 음성 인식 모델에 기초하여 제1 음성 인식 결과를 생성하는 단계; 상기 변환된 음성 데이터를 제2 음성인식 모델로 인식하여 상기 제2 음성 인식 모델에 기초하여 제2 음성 인식 결과를 생성하는 단계; 상기 제1 음성 인식 결과와 상기 제2 음성 인식 결과를 비교하는 단계; 및 상기 비교결과에 기초하여 상기 제1 음성 인식 결과 및 상기 제2 음성 인식 결과 중 하나를 선택하는 단계를 포함한다.
또한, 본 발명은, 상기 사용자의 언어 데이터 또는 보조 언어 데이터 중 적어도 하나를 이용하여 상기 제2 음성 인식 모델을 생성하는 단계를 더 포함한다.
또한, 본 발명에서, 상기 보조 언어 데이터는 상기 사용자로부터 획득된 음성 정보에 포함된 어휘를 인식하기 위해 필요한 문맥 데이터이다.
또한, 본 발명에서, 상기 언어 데이터는 상기 사용자로부터 획득된 음성 정보에 포함된 어휘를 인식하기 위한 어휘 목록을 포함한다.
또한, 본 발명에서, 제1 음성 인식 결과 및 상기 제2 음성 인식 결과 각각은 직접 비교 방법 또는 통계 방법을 통해서 생성된다.
또한, 본 발명에서, 상기 제1 음성 인식 결과가 상기 직접 비교 방법에 의해서 생성되는 경우, 상기 제1 음성 인식 결과를 생성하는 단계는, 상기 변환된 음성 데이터를 제1 특징 벡터 모델로 설정하는 단계; 상기 제1 특징 벡터 모델과 상기 변환된 음성 데이터의 특징 벡터를 비교하는 단계; 및 상기 비교 결과에 기초하여 상기 제1 특징 벡터 모델과 상기 특징 벡터간의 유사 정도를 나타내는 제1 신뢰 값을 생성하는 단계를 더 포함한다.
또한, 본 발명에서, 상기 제2 음성 인식 결과가 상기 직접 비교 방법에 의해서 생성되는 경우, 상기 제2 음성 인식 결과를 생성하는 단계는, 상기 변환된 음성 데이터를 제2 특징 벡터 모델로 설정하는 단계; 상기 제2 특징 벡터 모델과 상기 변환된 음성 데이터의 특징 벡터를 비교하는 단계; 및 상기 비교 결과에 기초하여 상기 제2 특징 벡터 모델과 상기 특징 벡터간의 유사 정도를 나타내는 제2 신뢰 값을 생성하는 단계를 더 포함한다.
또한, 본 발명에서, 상기 비교결과에 기초하여 상기 제1 음성 인식 결과 및 상기 제2 음성 인식 결과 중 하나를 선택하는 단계는, 상기 제1 신뢰 값과 상기 제2 신뢰 값을 비교하는 단계; 및 상기 비교 결과에 기초하여 상기 제1 신뢰 값과 상기 제2 신뢰 값 중 더 높은 신뢰도를 나타내는 신뢰 값을 갖는 음성 인식 결과를 선택하는 단계를 더 포함한다.
또한, 본 발명에서, 상기 제1 음성 인식 결과가 상기 통계 방법을 통해서 생성에 의해서 생성되는 경우, 상기 제1 음성 인식 결과를 생성하는 단계는, 상기 변환된 음성 데이터에 대한 단위를 복수의 노드로 구성되는 제1 상태열로 구성하는 단계; 및 상기 제1 상태열 간의 관계를 이용하여 음성 인식의 신뢰도를 나타내는 제1 신뢰 값을 생성하는 단계를 더 포함한다.
또한, 본 발명에서, 상기 제2 음성 인식 결과가 상기 통계 방법을 통해서 생성에 의해서 생성되는 경우, 상기 제2 음성 인식 결과를 생성하는 단계는, 상기 변환된 음성 데이터에 대한 단위를 복수의 노드로 구성되는 제2 상태열로 구성하는 단계; 및 상기 제2 상태열 간의 관계를 이용하여 음성 인식의 신뢰도를 나타내는 제2 신뢰 값을 생성하는 단계를 더 포함한다.
또한, 본 발명에서, 상기 비교결과에 기초하여 상기 제1 음성 인식 결과 및 상기 제2 음성 인식 결과 중 하나를 선택하는 단계는, 상기 제1 신뢰 값과 상기 제2 신뢰 값을 비교하는 단계; 및 상기 비교 결과에 기초하여 상기 제1 신뢰 값과 상기 제2 신뢰 값 중 더 높은 신뢰도를 갖는 음성 인식 결과를 선택하는 단계를 더 포함한다.
또한, 본 발명에서, 상기 제1 신뢰 값 및 상기 제2 신뢰 값 각각은 동적시간 와핑(Dynamic Time Warping: DTW), 히든마르코프모델(Hidden Markoov Model: HMW) 또는 신경회로망 중 하나를 이용하여 생성된다.
또한, 본 발명은, 사용자로부터 음성 정보를 획득하는 입력부; 및 상기 입력부로부터 전달된 데이터를 처리하는 프로세서를 포함하되, 상기 프로세서는, 사용자로부터 음성 정보를 획득하고, 획득된 음성 정보를 음성 데이터로 변환하며, 상기 변환된 음성 데이터를 제1 음성인식 모델로 인식하여 상기 제1 음성 인식 모델에 기초하여 제1 음성 인식 결과를 생성하고, 상기 변환된 음성 데이터를 제2 음성인식 모델로 인식하여 상기 제2 음성 인식 모델에 기초하여 제2 음성 인식 결과를 생성하며, 상기 제1 음성 인식 결과와 상기 제2 음성 인식 결과를 비교하고, 상기 비교결과에 기초하여 상기 제1 음성 인식 결과 및 상기 제2 음성 인식 결과 중 하나를 선택하는 장치를 제공한다.
본 발명의 실시예에 따르면, 음성인식 서비스를 이용하는 사용자가 제공한 어휘에 대해서는 미등록 어휘로 인한 오인식이 발생하지 않는다는 효과가 있다.
또한, 사용자로부터 제공된 어휘의 크기는 소규모인바, 새 음성인식 모델 생성 시 컴퓨팅 리소스와 소요 시간을 최소화할 수 있다.
또한, 대규모 어휘 사전을 이용하는 기본 음성인식 모델은 사용자 어휘를 기본 언어데이터에 포함해서 새 음성인식 모델을 생성함으로써 발생하는 컴퓨팅 리소스와 소요 시간을 감소시킬 수 있다.
또한, 기존의 음성 인식을 위한 기능들과 상호 호환이 가능하며, 이로 인하여 임베디드 환경 및 대규모 사용자를 대상으로 하는 서버 기반 환경에서도 사용할 수 있다는 효과가 있다.
본 명세서에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 발명에 대한 실시예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 특징을 설명한다.
도 1은 본 발명의 일 실시예에 따른 음성인식장치의 블록도이다.
도 2는 본 발명의 일 실시 예에 따른 음성 인식 장치를 예시한 도면이다.
도 3은 본 발명의 일 실시 예에 따른 음성 인식 방법의 일 예를 나타내는 순서도이다.
도 4는 본 발명의 일 실시 예에 따른 음성 인식 방법의 또 다른 일 예를 나타내는 순서도이다.
도 5는 본 발명의 일 실시 예에 따른 직접 비교 방법을 이용한 음성 인식 방법의 일 예를 나타내는 순서도이다.
도 6은 본 발명의 일 실시 예에 따른 통계 방법을 이용한 음성 인식 방법의 일 예를 나타내는 순서도이다.
[부호의 설명]
100: 음성 인식 장치 110: 입력부
120: 저장부 130: 제어부
140: 출력부
이하, 본 발명에 따른 바람직한 실시 형태를 첨부된 도면을 참조하여 상세하게 설명한다. 첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시 형태를 나타내고자 하는 것이 아니다. 이하의 상세한 설명은 본 발명의 완전한 이해를 제공하기 위해서 구체적 세부사항을 포함한다. 그러나, 당 업자는 본 발명이 이러한 구체적 세부사항 없이도 실시될 수 있음을 안다.
몇몇 경우, 본 발명의 개념이 모호해지는 것을 피하기 위하여 공지의 구조 및 장치는 생략되거나, 각 구조 및 장치의 핵심 기능을 중심으로 한 블록도 형식으로 도시될 수 있다.
도 1은 본 발명의 일 실시예에 따른 음성인식장치의 블록도이다.
도 1을 참조하면, 사용자의 음성을 인식하기 위한 음성인식장치(100)는 입력부(110), 저장부(120), 제어부(130) 및/또는 출력부(140) 등을 포함할 수 있다.
도 1에 도시된 구성요소들이 필수적인 것은 아니어서, 그보다 많은 구성요소들을 갖거나 그보다 적은 구성요소들을 갖는 전자기기가 구현될 수도 있다.
이하, 상기 구성요소들에 대해 차례로 살펴본다.
입력부(110)는 오디오 신호, 비디오 신호 또는 사용자로부터 음성 정보(또는 음성 신호) 및 데이터를 입력 받을 수 있다.
입력부(110)는 오디오 신호 또는 비디오 신호 입력 받기 위해서 카메라와 마이크 등을 포함할 수 있다. 카메라는 화상 통화모드 또는 촬영 모드에서 이미지 센서에 의해 얻어지는 정지영상 또는 동영상 등의 화상 프레임을 처리한다.
카메라에서 처리된 화상 프레임은 저장부(120)에 저장될 수 있다.
마이크는 통화모드 또는 녹음모드, 음성인식 모드 등에서 마이크로폰(Microphone)에 의해 외부의 음향 신호를 입력 받아 전기적인 음성 데이터로 처리한다. 마이크에는 외부의 음향 신호를 입력 받는 과정에서 발생되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘이 구현될 수 있다.
입력부(110)는 마이크 또는 마이크로폰(microphone)을 통해서 사용자의 발화(utterance)된 음성이 입력되면 이를 전기적 신호로 변환하여 제어부(130)로 전달할 수 있다.
제어부(130)는 입력부(110)로부터 수신한 신호에 음성인식(speech recognition) 알고리즘 또는 음성인식 엔진(speech recognition engine)을 적용하여 사용자의 음성 데이터를 획득할 수 있다.
이때, 제어부(130)로 입력되는 신호는 음성인식을 위한 더 유용한 형태로 변환될 수 있으며, 제어부(130)는 입력된 신호를 아날로그 형태에서 디지털 형태로 변환하고, 음성의 시작과 끝지점을 검출하여 음성데이터에 포함된 실제 음성구간/데이터를 검출할 수 있다. 이를 EPD(End Point Detection)라 한다.
그리고, 제어부(130)는 검출된 구간 내에서 켑스트럼(Cepstrum), 선형예측코딩(Linear Predictive Coefficient: LPC), 멜 프리퀀시 켑스트럼(Mel Frequency Cepstral Coefficient: MFCC) 또는 필터뱅크 에너지(Filter Bank Energy) 등의 특징벡터 추출 기술을 적용하여 신호의 특징 벡터를 추출할 수 있다.
메모리(120)는 제어부(130)의 동작을 위한 프로그램을 저장할 수 있고, 입/출력되는 데이터들을 임시 저장할 수도 있다. 사용자로부터 심볼 기반 악성 코드 탐지 모델을 위한 샘플 파일을 저장할 수 있으며, 악성코드의 분석 결과를 저장할 수 있다.
메모리(120)는 인식된 음성과 관련된 다양한 데이터를 저장할 수 있으며, 특히, 제어부(130)에 의해서 처리된 음성 데이터의 끝지점과 관련된 정보 및 특징 벡터를 저장할 수 있다.
메모리(120)는 플래시메모리(flash memory), 하드디크스(hard disc), 메모리카드, 롬(ROM:Read-OnlyMemory), 램(RAM:Random Access Memory), 메모리카드, EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기메모리, 자기디스크, 광디스크 중 적어도 하나의 저장매체를 포함할 수 있다.
그리고, 제어부(130)는 추출된 특징벡터와 훈련된 기준패턴과의 비교를 통하여 인식결과를 얻을 수 있다. 이를 위해, 음성의 신호적인 특성을 모델링하여 비교하는 음성인식모델과 인식어휘에 해당하는 단어나 음절 등의 언어적인 순서관계를 모델링하는 언어모델(Language Model)이 사용될 수 있다.
음성인식모델은 다시 인식대상을 특징벡터 모델로 설정하고 이를 음성데이터의 특징벡터와 비교하는 직접비교방법과 인식대상의 특징벡터를 통계적으로 처리하여 이용하는 통계방법으로 나뉠 수 있다.
직접비교방법은 인식대상이 되는 단어, 음소 등의 단위를 특징벡터모델로 설정하고 입력음성이 이와 얼마나 유사한지를 비교하는 방법으로서, 대표적으로 벡터양자화(Vector Quantization) 방법이 있다. 벡터 양자화 방법에 의하면 입력된 음성데이터의 특징벡터를 기준모델인 코드북(codebook)과 매핑시켜 대표값으로 부호화함으로써 이 부호값들을 서로 비교하는 방법이다.
통계적모델 방법은 인식대상에 대한 단위를 상태열(State Sequence)로 구성하고 상태열간의 관계를 이용하는 방법이다. 상태열은 복수의 노드(node)로 구성될 수 있다. 상태열 간의 관계를 이용하는 방법은 다시 동적시간 와핑(Dynamic Time Warping: DTW), 히든마르코프모델(Hidden Markov Model: HMM), 신경회로망을 이용한 방식 등이 있다.
동적시간 와핑은 같은 사람이 같은 발음을 해도 신호의 길이가 시간에 따라 달라지는 음성의 동적 특성을 고려하여 기준모델과 비교할 때 시간축에서의 차이를 보상하는 방법이고, 히든마르코프모델은 음성을 상태천이확률 및 각 상태에서의 노드(출력심볼)의 관찰확률을 갖는 마르코프프로세스로 가정한 후에 학습데이터를 통해 상태천이확률 및 노드의 관찰확률을 추정하고, 추정된 모델에서 입력된 음성이 발생할 확률을 계산하는 인식기술이다.
한편, 단어나 음절 등의 언어적인 순서관계를 모델링하는 언어모델은 언어를 구성하는 단위들간의 순서관계를 음성인식에서 얻어진 단위들에 적용함으로써 음향적인 모호성을 줄이고 인식의 오류를 줄일 수 있다. 언어모델에는 통계적언어 모델과 유한상태네트워크(Finite State Automata: FSA)에 기반한 모델이 있고, 통계적 언어모델에는 Unigram, Bigram, Trigram 등 단어의 연쇄확률이 이용된다.
제어부(130)는 음성을 인식함에 있어 상술한 방식 중 어느 방식을 사용해도 무방하다. 예를 들어, 히든마르코프모델이 적용된 음성인식모델을 사용할 수도 있고, 음성인식모델과 언어모델을 통합한 N-best 탐색법을 사용할 수 있다. N-best 탐색법은 음성인식모델과 언어모델을 이용하여 N개까지의 인식결과후보를 선택한 후, 이들 후보의 순위를 재평가함으로써 인식성능을 향상시킬 수 있다.
제어부(130)는 인식결과의 신뢰성을 확보하기 위해 신뢰도점수(confidence score)(또는'신뢰도'로 약칭될 수 있음)를 계산할 수 있다.
신뢰도점수는 음성인식결과에 대해서 그 결과를 얼마나 믿을 만한 것인가를 나타내는 척도로서, 인식된 결과인 음소나 단어에 대해서, 그외의 다른 음소나 단어로부터 그 말이 발화되었을 확률에 대한 상대값으로 정의할 수 있다. 따라서, 신뢰도점수는 0 에서 1 사이의 값으로 표현할 수도 있고, 0 에서 100 사이의 값으로 표현할 수도 있다. 신뢰도 점수가 미리 설정된 임계값(threshold)보다 큰 경우에는 인식결과를 인정하고, 작은 경우에는 인식결과를 거절(rejection)할 수 있다.
이 외에도, 신뢰도점수는 종래의 다양한 신뢰도점수 획득 알고리즘에 따라 획득될 수 있다.
제어부(130)는 소프트웨어, 하드웨어 또는 이들의 조합을 이용하여 컴퓨터로 읽을 수 있는 기록매체 내에서 구현될 수 있다. 하드웨어적인 구현에 의하면, ASICs(Application Specific Integrated Circuits),DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable LogicDevices), FPGAs(Field Programmable Gate Arrays), 프로세서(processor), 마이크로컨트롤러(microcontrollers),마이크로제어부(micro-processor) 등의 전기적인 유닛 중 적어도 하나를 이용하여 구현될 수 있다.
소프트웨어적인 구현에 의하면, 적어도 하나의 기능 또는 동작을 수행하는 별개의 소프트웨어 모듈과 함께 구현될 수 있고, 소프트웨어코드는 적절한 프로그램언어로 쓰여진 소프트웨어 어플리케이션에 의해 구현될 수 있다.
제어부(130)는 이하에서 후술할 도2내지 도6에서 제안된 기능, 과정 및/또는 방법을 구현하며, 이하에서는 설명의 편의를 위해 제어부(130)을 음성인식장치(100)와 동일시하여 설명한다.
출력부(140)는 시각, 청각 등과 관련된 출력을 발생시키기 위한 것으로, 장치(100)에 의해 처리되는 정보를 출력한다.
예를 들어, 출력부(140)는 제어부(130)에서 처리된 음성 신호의 인식 결과를 시각 또는 청각을 통해 사용자가 인식할 수 있도록 출력할 수 있다.
도 2는 본 발명의 일 실시 예에 따른 음성 인식 장치를 예시한 도면이다.
도 2를 참조하면, 음성 인식 장치는 사용자로부터 입력된 음성 신호를 두 개의 음성 인식 모델을 통해서 인식할 수 있으며, 인식 결과에 따라 두 개의 음성 인식 모델을 통해서 인식된 결과 중 하나를 이용하여 음성 인식 서비스를 제공할 수 있다.
구체적으로, 음성인식 장치는 기본적으로 음성 데이터를 기본(default) 음성 인식 모델(또는 제 1 음성 인식 모델, 2010) 및/또는 사용자 음성 인식 모델(또는 제 2 음성 인식 모델, 2020)로 각각 인식할 수 있다.
이때. 사용자 음성인식 모델(2020)은 사용자 언어데이터(2022)가 제공되는 경우 즉석에서 생성될 수 있으며, 사용자 음성인식 모델(2020)을 생성하는데 보조 언어 데이터(2024)가 이용될 수 있다.
사용자 언어 데이터(2022)는 사용자가 제공할 수 있는 어휘목록이나 문서를 포함할 수 있다.
보조 언어 데이터(2024)는 사용자가 제공한 어휘를 인식하기 위해서 필요한 문맥 데이터를 포함할 수 있다. 예를 들면, 사용자로부터 입력된 음성 신호가 "홍길동 주소 알려줘"인 경우, "홍길동"은 사용자 언어 데이터(2022)에 포함될 수 있으며, "주소 알려줘"는 보조 언어 데이터(2024)에 포함될 수 있다.
음성 인식 장치는 기본 음성인식 모델 및 사용자 음성인식 모델 각각을 이용하여 사용자로부터 입력된 음성신호가 변환된 음성 데이터로부터 두 개의 음성인식 결과(음성인식 결과 1(2040), 음성인식 결과2(2030))을 획득할 수 있다.
음성 인식 장치는 음성인식 결과 1(2040), 및 음성인식 결과 2(2030)를 비교하여 신뢰도가 더 높은 음성인식 결과(2050)를 선택할 수 있다.
이때, 신뢰도가 높은 음성인식 결과를 선택하기 위한 방법은 다양한 방법이 이용될 수 있다.
도 3은 본 발명의 일 실시 예에 따른 음성 인식 방법의 일 예를 나타내는 순서도이다.
도 3을 참조하면, 음성 인식 장치는 기존에 생성된 음성 인식 모델 및 새롭게 생성한 음성인식 모델을 통해서 사용자의 음성을 인식할 수 있으며, 인식된 결과 중 신뢰도가 높은 음성인식 결과를 이용하여 음성인식 서비스를 제공할 수 있다.
구체적으로, 음성인식 장치는 사용자 언어 데이터 또는 보조 언어 데이터 중 적어도 하나에 기초하여 새로운 음성인식 모델(제 2 음성인식 모델)을 생성할 수 있다(S3010).
재 2 음성인식 모델은 사용자 또는 외부로부터 사용자 언어 데이터를 획득한 경우, 획득된 사용자 언어 데이터 및/또는 보조 언어 데이터에 기초하여 즉시 생성될 수 있다.
이후, 음성인식 장치는 사용자로부터 음성 정보를 획득하면, 획득된 음성 정보를 전기적 신호로 변경하고, 변경된 전기적 신호인 아날로그 신호를 디지털 신호로 변경하여 음성 데이터를 생성할 수 있다(S3020).
이후, 음성 인식 장치는 제 2 음성인식 모델 및 기존에 음성 인식 장치가 생성하여 저장하고 있는 기본 음성 인식 모델(제 1 음성 인식 모델)로 각각 음성 데이터를 인식할 수 있다(S3030).
이때, 제 1 음성 인식 모델 및 제 2 음성 인식 모델 각각은 도 1 및 도 2에서 설명한 방법을 통해서 음성 데이터를 인식할 수 있다.
이후, 음성 인식 장치는 제 1 음성 인식 모델 및 제 2 음성 인식 모델을 통해서 인식한 음성 데이터의 인식 결과를 비교하고, 비교 결과에 기초하여 인식된 음성 정보의 신뢰도가 더 높은 인식 결과를 선택하여 사용자에게 음성 인식 서비스를 제공할 수 있다(S3040).
도 4는 본 발명의 일 실시 예에 따른 음성 인식 방법의 또 다른 일 예를 나타내는 순서도이다.
도 4를 참조하면 음성 인식 장치는 사용자로부터 입력된 음성 정보(또는 음성 신호)를 두 개 이상의 음성 인식 모델을 통해서 인식하여 신뢰도가 높은 음성 인식 결과를 도출할 수 있다.
구체적으로, 음성 인식 장치는 사용자로부터 음성 정보를 획득하면(S4010), 획득된 음성 정보를 디지털 신호인 음성 데이터로 변환할 수 있다(S4020).
즉, 음성 인식 장치는 획득된 음성 정보를 전기적 신호로 변환하고, 변환된 전기적 신호인 아날로그 신호를 디지털 신호로 변환하여 음성 데이터를 획득할 수 있다.
이후, 음성 인식 장치는 변환된 음성 데이터를 제 1 음성 인식 모델로 인식하여 제 1 음성 인식 결과를 생성할 수 있다(S4030).
제 1 음성 인식 모델은 도 1 및 도 3에서 살펴본 기본 음성 인식 모델일 수 있으며, 음성 인식 서비스를 제공하기 위한 기본적으로 저장된 음성 인식 모델일 수 있다.
또한, 음성 인식 장치는 변환된 음성 데이터를 제 2 음성 인식 모델로 인식하여 제 2 음성 인식 결과를 생성할 수 있다(S4040).
제 2 음성 인식 모델은 도 1 및 도 3에서 살펴본 새로운 음성 인식 모델일 수 있으며, 사용자 언어 데이터 및/또는 보조 언어 데이터 중 적어도 하나를 통해서 생성될 수 있다.
이때, 제 1 음성 인식 결과 및 제 2 음성 인식 결과는 도 1에서 설명한 직접 비교 방법 또는 통계 방법을 통해서 생성될 수 있다.
이후, 음성 인식 장치는 제 1 음성 인식 결과 및 제 2 음성 인식 결과를 비교하고, 비교 결과에 기초하여 제 1 음성 인식 결과 및 제 2 음성 인식 결과 중 하나를 선택하여 음성 인식 서비스를 제공할 수 있다(S4060).
이와 같은 방법을 이용하면 사용자로부터 획득된 음성 신호를 하나의 음성 인식 모델이 아닌 복수 개의 음성 인식 모델을 통해서 인식하고, 인식된 결과에 기초하여 신뢰도가 가장 높은 음성 인식 결과를 사용할 수 있다. 따라서, 음성 인식의 신뢰도가 향상되는 효과가 있다.
또한, 사용자의 언어 데이터를 이용하여 음성 인식 모델을 생성함으로써, 사용자 컴퓨팅 리소스와 소요 시간을 감소시킬 수 있는 효과가 있다.
이하, 직접 비교 방법 또는 통계 방법을 통해서 음성 인식 결과를 생성하는 방법에 대해 살펴보도록 한다.
도 5는 본 발명의 일 실시 예에 따른 직접 비교 방법을 이용한 음성 인식 방법의 일 예를 나타내는 순서도이다.
도 5를 참조하면, 음성 인식 장치는 사용자로부터 획득되어 변환된 음성 데이터를 도 1 에서 설명한 음성 인식 모델의 직접 비교 방법을 이용하여 인식할 수 있다.
구체적으로, 음성 인식 장치는 제 1 음성 인식 모델 및 제 2 음성 인식 모델 각각을 이용하여 변환된 음성 데이터를 특징 벡터 모델(제 1 특징 벡터 모델, 제 2 특징 벡터 모델)로 설정하고, 음성 데이터로부터 특징 벡터(제 1 특징 벡터, 제 2 특징 벡터)를 생성할 수 있다(S5010).
이후, 음성 인식 장치는 특징 벡터 모델과 특징 벡터를 비교하여 특징 벡터 모델과 특징 벡터의 유사한 정도를 나타내는 신뢰 값(제 1 신뢰 값, 제 2 신뢰 값)을 각각 생성할 수 있다(S5020, S5030).
음성 인식 장치는 생성된 신뢰 값이 기 설정된 임계 값보다 큰 경우, 인식된 결과가 신뢰할 수 있다고 인식할 수 있다.
하지만, 신뢰 값이 기 설정된 임계 값보다 작은 경우, 인식된 결과를 신뢰할 수 없다고 판단하고, 인식된 결과를 거절 또는 폐기(drop)할 수 있다.
이후, 음성 인식 장치는 제 1 신뢰 값과 제 2 신뢰 값을 비교하여 더 높은 신뢰도를 나타내는 신뢰 값을 갖는 음성 인식 결과를 선택하여 음성 인식 서비스를 제공할 수 있다.
도 5는 본 발명의 일 실시 예에 따른 직접 비교 방법을 이용한 음성 인식 방법의 일 예를 나타내는 순서도이다.
도 5를 참조하면, 음성 인식 장치는 사용자로부터 획득되어 변환된 음성 데이터를 도 1에서 설명한 음성 인식 모델의 통계 방법을 이용하여 인식할 수 있다.
구체적으로, 음성 인식 장치는 제 1 음성 인식 모델 및 제 2 음성 인식 모델을 이용하여 변환된 음성 데이터에 대한 단위를 복수의 노드로 구성되는 상태열(제 1 상태열, 제 2 상태열)로 구성할 수 있다(S6010).
이후, 음성 인식 장치는 동적 시간 와핑, 히든마르코프모델 또는 신경회로망과 같은 방법을 통해 상태열 간의 관계를 이용하여 음성 인식의 신뢰도를 나타내는 신뢰 값(제 1 신뢰 값, 제 2 신뢰 값)을 생성할 수 있다(S6020).
이후, 음성 인식 장치는 제 1 신뢰 값과 제 2 신뢰 값을 비교하여 더 높은 신뢰도를 나타내는 값을 갖는 음성 인식 결과를 선택하여 음성 인식 서비스를 제공할 수 있다.
본 발명에 따른 실시예는 다양한 수단, 예를 들어, 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 본 발명의 일 실시예는 하나 또는 그 이상의 ASICs(application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 제어부, 콘트롤러, 마이크로콘트롤러, 마이크로제어부 등에 의해 구현될 수 있다.
펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 일 실시예는 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차, 함수 등의 형태로 구현될 수 있다. 소프트웨어코드는 메모리에 저장되어 제어부에 의해 구동될 수 있다. 상기 메모리는 상기 제어부 내부 또는 외부에 위치하여, 이미 공지된 다양한 수단에 의해 상기 제어부와 데이터를 주고받을 수 있다.
본 발명은 본 발명의 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있음은 당 업자에게 자명하다. 따라서, 상술한 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.
본 발명은 다양한 음성인식 기술 분야에 적용될 수 있다. 본 발명은 짧은 모델 생성 시간을 들여 적은 컴퓨팅 리소스를 소모하는 높은 신뢰도의 음성인식기를 서비스할 수 있는 방법을 제공한다. 본 발명의 상기 특징으로 인해 컴퓨팅 파워가 약한 스마트폰 등에 임베디드 형태로 이용될 수 있다. 또한, 본 발명은 상기 특징으로 인해 대규모 사용자를 위한 서버형 고성능 사용자 맞춤형 음성인식 서비스로도 이용될 수 있다. 이러한 특징은 음성인식뿐만 아니라 다른 인공지능 서비스에서도 적용될 수 있다.

Claims (13)

  1. 음성을 인식하는 방법에 있어서,
    사용자로부터 음성 정보를 획득하는 단계;
    획득된 음성 정보를 음성 데이터로 변환하는 단계;
    상기 변환된 음성 데이터를 제1 음성인식 모델로 인식하여 제1 음성 인식 결과를 생성하는 단계;
    상기 변환된 음성 데이터를 제2 음성인식 모델로 인식하여 제2 음성 인식 결과를 생성하는 단계;
    상기 제1 음성 인식 결과와 상기 제2 음성 인식 결과를 비교하는 단계; 및
    상기 비교결과에 기초하여 상기 제1 음성 인식 결과 및 상기 제2 음성 인식 결과 중 하나를 선택하는 단계를 포함하는 방법.
  2. 제 1 항에 있어서,
    상기 사용자의 언어 데이터 또는 보조 언어 데이터 중 적어도 하나를 이용하여 상기 제2 음성 인식 모델을 생성하는 단계를 더 포함하는 방법.
  3. 제 2 항에 있어서,
    상기 보조 언어 데이터는 상기 사용자로부터 획득된 음성 정보에 포함된 어휘를 인식하기 위해 필요한 문맥 데이터인 방법.
  4. 제 2 항에 있어서,
    상기 언어 데이터는 상기 사용자로부터 획득된 음성 정보에 포함된 어휘를 인식하기 위한 어휘 목록을 포함하는 방법.
  5. 제 1 항에 있어서,
    제1 음성 인식 결과 및 상기 제2 음성 인식 결과 각각은 직접 비교 방법 또는 통계 방법을 통해서 생성되는 방법.
  6. 제 5 항에 있어서, 상기 제1 음성 인식 결과가 상기 직접 비교 방법에 의해서 생성되는 경우, 상기 제1 음성 인식 결과를 생성하는 단계는,
    상기 변환된 음성 데이터를 제1 특징 벡터 모델로 설정하는 단계;
    상기 제1 특징 벡터 모델과 상기 변환된 음성 데이터의 제 1 특징 벡터를 비교하는 단계; 및
    상기 비교 결과에 기초하여 상기 제1 특징 벡터 모델과 상기 제 1 특징 벡터간의 유사 정도를 나타내는 제1 신뢰 값을 생성하는 단계를 더 포함하는 방법.
  7. 제 6 항에 있어서, 상기 제2 음성 인식 결과가 상기 직접 비교 방법에 의해서 생성되는 경우, 상기 제2 음성 인식 결과를 생성하는 단계는,
    상기 변환된 음성 데이터를 제2 특징 벡터 모델로 설정하는 단계;
    상기 제2 특징 벡터 모델과 상기 변환된 음성 데이터의 제 2 특징 벡터를 비교하는 단계; 및
    상기 비교 결과에 기초하여 상기 제2 특징 벡터 모델과 상기 제 2 특징 벡터간의 유사 정도를 나타내는 제2 신뢰 값을 생성하는 단계를 더 포함하는 방법.
  8. 제 7항에 있어서, 상기 비교결과에 기초하여 상기 제1 음성 인식 결과 및 상기 제2 음성 인식 결과 중 하나를 선택하는 단계는,
    상기 제1 신뢰 값과 상기 제2 신뢰 값을 비교하는 단계; 및
    상기 비교 결과에 기초하여 상기 제1 신뢰 값과 상기 제2 신뢰 값 중 더 높은 신뢰도를 나타내는 신뢰 값을 갖는 음성 인식 결과를 선택하는 단계를 더 포함하는 방법.
  9. 제 5 항에 있어서, 상기 제1 음성 인식 결과가 상기 통계 방법을 통해서 생성에 의해서 생성되는 경우, 상기 제1 음성 인식 결과를 생성하는 단계는,
    상기 변환된 음성 데이터에 대한 단위를 복수의 노드로 구성되는 제1 상태열로 구성하는 단계; 및
    상기 제1 상태열 간의 관계를 이용하여 음성 인식의 신뢰도를 나타내는 제1 신뢰 값을 생성하는 단계를 더 포함하는 방법.
  10. 제 6 항에 있어서, 상기 제2 음성 인식 결과가 상기 통계 방법을 통해서 생성에 의해서 생성되는 경우, 상기 제2 음성 인식 결과를 생성하는 단계는,
    상기 변환된 음성 데이터에 대한 단위를 복수의 노드로 구성되는 제2 상태열로 구성하는 단계; 및
    상기 제2 상태열 간의 관계를 이용하여 음성 인식의 신뢰도를 나타내는 제2 신뢰 값을 생성하는 단계를 더 포함하는 방법.
  11. 제 10항에 있어서, 상기 비교결과에 기초하여 상기 제1 음성 인식 결과 및 상기 제2 음성 인식 결과 중 하나를 선택하는 단계는,
    상기 제1 신뢰 값과 상기 제2 신뢰 값을 비교하는 단계; 및
    상기 비교 결과에 기초하여 상기 제1 신뢰 값과 상기 제2 신뢰 값 중 더 높은 신뢰도를 갖는 음성 인식 결과를 선택하는 단계를 더 포함하는 방법.
  12. 제 11 항에 있어서,
    상기 제1 신뢰 값 및 상기 제2 신뢰 값 각각은 동적시간 와핑(Dynamic Time Warping: DTW), 히든마르코프모델(Hidden Markoov Model: HMW) 또는 신경회로망 중 하나를 이용하여 생성되는 방법.
  13. 음성인식장치에 있어서,
    사용자로부터 음성 정보를 획득하는 입력부; 및
    상기 입력부로부터 전달된 데이터를 처리하는 프로세서를 포함하되,
    상기 프로세서는,
    사용자로부터 음성 정보를 획득하고,
    획득된 음성 정보를 음성 데이터로 변환하며,
    상기 변환된 음성 데이터를 제1 음성인식 모델로 인식하여 제1 음성 인식 결과를 생성하고,
    상기 변환된 음성 데이터를 제2 음성인식 모델로 인식하여 제2 음성 인식 결과를 생성하며,
    상기 제1 음성 인식 결과와 상기 제2 음성 인식 결과를 비교하고,
    상기 비교결과에 기초하여 상기 제1 음성 인식 결과 및 상기 제2 음성 인식 결과 중 하나를 선택하는 장치.
KR1020217011947A 2018-11-06 2018-11-06 음성인식 서비스를 제공하기 위한 방법 및 장치 KR20210054001A (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2018/013408 WO2020096078A1 (ko) 2018-11-06 2018-11-06 음성인식 서비스를 제공하기 위한 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20210054001A true KR20210054001A (ko) 2021-05-12

Family

ID=70611258

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217011947A KR20210054001A (ko) 2018-11-06 2018-11-06 음성인식 서비스를 제공하기 위한 방법 및 장치

Country Status (4)

Country Link
US (1) US20210398521A1 (ko)
KR (1) KR20210054001A (ko)
CN (1) CN113016030A (ko)
WO (1) WO2020096078A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956959B (zh) * 2019-11-25 2023-07-25 科大讯飞股份有限公司 语音识别纠错方法、相关设备及可读存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19630109A1 (de) * 1996-07-25 1998-01-29 Siemens Ag Verfahren zur Sprecherverifikation anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals, durch einen Rechner
KR100504982B1 (ko) * 2002-07-25 2005-08-01 (주) 메카트론 환경 적응형 다중 음성인식 장치 및 음성인식 방법
KR100612839B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 도메인 기반 대화 음성인식방법 및 장치
CN101588322B (zh) * 2009-06-18 2011-11-23 中山大学 一种基于语音识别的邮箱系统
US10354650B2 (en) * 2012-06-26 2019-07-16 Google Llc Recognizing speech with mixed speech recognition models to generate transcriptions
KR20140082157A (ko) * 2012-12-24 2014-07-02 한국전자통신연구원 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법
US9153231B1 (en) * 2013-03-15 2015-10-06 Amazon Technologies, Inc. Adaptive neural network speech recognition models
KR102292546B1 (ko) * 2014-07-21 2021-08-23 삼성전자주식회사 컨텍스트 정보를 이용하는 음성 인식 방법 및 장치
KR101598948B1 (ko) * 2014-07-28 2016-03-02 현대자동차주식회사 음성 인식 장치, 이를 포함하는 차량 및 음성 인식 방법
KR102386854B1 (ko) * 2015-08-20 2022-04-13 삼성전자주식회사 통합 모델 기반의 음성 인식 장치 및 방법
US10006777B2 (en) * 2015-10-02 2018-06-26 GM Global Technology Operations LLC Recognizing address and point of interest speech received at a vehicle
US10395647B2 (en) * 2017-10-26 2019-08-27 Harman International Industries, Incorporated System and method for natural language processing
CN108510981B (zh) * 2018-04-12 2020-07-24 三星电子(中国)研发中心 语音数据的获取方法和系统

Also Published As

Publication number Publication date
WO2020096078A1 (ko) 2020-05-14
CN113016030A (zh) 2021-06-22
US20210398521A1 (en) 2021-12-23

Similar Documents

Publication Publication Date Title
US10249294B2 (en) Speech recognition system and method
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US6125345A (en) Method and apparatus for discriminative utterance verification using multiple confidence measures
KR100755677B1 (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
US20140207457A1 (en) False alarm reduction in speech recognition systems using contextual information
US11450320B2 (en) Dialogue system, dialogue processing method and electronic apparatus
KR102094935B1 (ko) 음성 인식 시스템 및 방법
US20070136060A1 (en) Recognizing entries in lexical lists
US20150179169A1 (en) Speech Recognition By Post Processing Using Phonetic and Semantic Information
US20220180864A1 (en) Dialogue system, dialogue processing method, translating apparatus, and method of translation
KR20230129094A (ko) 멀티모달 기반 실시간 감정인식 방법 및 장치
Droppo et al. Context dependent phonetic string edit distance for automatic speech recognition
Ravinder Comparison of hmm and dtw for isolated word recognition system of punjabi language
KR20210052563A (ko) 문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치
KR20210054001A (ko) 음성인식 서비스를 제공하기 위한 방법 및 장치
Yu et al. Cross-lingual speech recognition under runtime resource constraints
Rebai et al. Linto platform: A smart open voice assistant for business environments
Tabibian A survey on structured discriminative spoken keyword spotting
Caranica et al. On the design of an automatic speaker independent digits recognition system for Romanian language
US20220005462A1 (en) Method and device for generating optimal language model using big data
JP2021529338A (ja) 発音辞書生成方法及びそのための装置
Aşlyan Syllable Based Speech Recognition
KR20140051519A (ko) 연속어 음성인식 방법 및 연속어 음성인식 장치
JP6199994B2 (ja) コンテキスト情報を使用した音声認識システムにおける誤警報低減

Legal Events

Date Code Title Description
E902 Notification of reason for refusal