KR20210047709A - 음성 인식 방법 및 음성 인식 장치 - Google Patents

음성 인식 방법 및 음성 인식 장치 Download PDF

Info

Publication number
KR20210047709A
KR20210047709A KR1020190131618A KR20190131618A KR20210047709A KR 20210047709 A KR20210047709 A KR 20210047709A KR 1020190131618 A KR1020190131618 A KR 1020190131618A KR 20190131618 A KR20190131618 A KR 20190131618A KR 20210047709 A KR20210047709 A KR 20210047709A
Authority
KR
South Korea
Prior art keywords
text
candidate
speech recognition
texts
score
Prior art date
Application number
KR1020190131618A
Other languages
English (en)
Other versions
KR102577589B1 (ko
Inventor
이지현
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020190131618A priority Critical patent/KR102577589B1/ko
Priority to US16/843,298 priority patent/US11631414B2/en
Priority to CN202010325607.2A priority patent/CN112700778A/zh
Priority to EP20183502.2A priority patent/EP3813060B1/en
Publication of KR20210047709A publication Critical patent/KR20210047709A/ko
Application granted granted Critical
Publication of KR102577589B1 publication Critical patent/KR102577589B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

음성 인식 방법 및 장치가 개시된다. 음성 인식 방법은 음성 데이터를 수신하는 단계, 음성 인식 모델을 이용하여 음성 데이터에 대응하는 복수의 후보 텍스트들과 후보 텍스트들 각각에 대응하는 스코어를 획득하는 단계, 현재 후보 텍스트의 텍스트 길이가 후보 텍스트들의 텍스트 길이들에 의해 결정되는 조건을 만족시키는 경우, 현재 후보 텍스트의 스코어를 조정하는 단계 및 해당 조정 결과에 기초하여 후보 텍스트들 중에서 음성 데이터에 대응하는 타겟 텍스트를 결정하는 단계를 포함할 수 있다.

Description

음성 인식 방법 및 음성 인식 장치{VOICE RECOGNIZING METHOD AND VOICE RECOGNIZING APPRATUS}
아래의 실시예들은 음성 인식 기술에 관한 것이다.
음성 인식 기술은 인간이 의사 소통을 위하여 말하는 음성을 컴퓨터가 해석하여 문자 데이터로 전환하는 기술로서, 편리함을 원하는 사용자들의 요구에 따라 빠르게 발전하고 있다. 최근에는, 뉴럴 네트워크(neural network)를 이용하여 음성 인식을 수행하는 기술이 활발히 연구되고 있다. 뉴럴 네트워크는 인간의 생물학적 신경 세포의 특성을 수학적 표현에 의해 모델링한 모델로서, 인간이 가지고 있는 학습이라는 능력을 모방한 알고리즘을 이용한다. 뉴럴 네트워크는 학습된 결과에 기초하여 학습에 이용되지 않았던 입력 패턴에 대하여 비교적 올바른 출력을 생성할 수 있는 일반화 능력을 가지고, 이러한 일반화 능력의 장점으로 인하여 음성 인식 기술 분야에서 뉴럴 네트워크가 널리 이용되고 있다.
일 실시예에 따른 음성 인식 방법은, 음성 데이터를 수신하는 단계; 음성 인식 모델을 이용하여 상기 음성 데이터에 대응하는 복수의 후보 텍스트들과 상기 후보 텍스트들 각각에 대응하는 스코어를 획득하는 단계; 현재 후보 텍스트의 텍스트 길이가 상기 후보 텍스트들의 텍스트 길이들에 의해 결정되는 조건을 만족시키는 경우, 상기 현재 후보 텍스트의 스코어를 조정하는 단계; 및 상기 조정 결과에 기초하여 상기 후보 텍스트들 중에서 상기 음성 데이터에 대응하는 타겟 텍스트를 결정하는 단계를 포함할 수 있다.
일 실시예에 따른 음성 인식 방법은, 상기 현재 후보 텍스트의 텍스트 길이와 상기 후보 텍스트들의 텍스트 길이들에 의해 결정되는 텍스트 길이 간의 차이가 상기 조건을 만족시키는지 여부를 판단하는 단계를 더 포함할 수 있다.
상기 후보 텍스트들의 텍스트 길이들에 의해 결정되는 텍스트 길이는, 상기 후보 텍스트들의 텍스트 길이들의 평균일 수 있다.
상기 후보 텍스트들의 텍스트 길이들에 의해 결정되는 텍스트 길이는, 상기 후보 텍스트들의 텍스트 길이들 중 최댓값의 텍스트 길이와 최솟값의 텍스트 길이를 제외한 나머지 텍스트 길이들의 평균일 수 있다.
상기 차이가 상기 조건을 만족시키는지 여부를 결정하는 단계는, 상기 차이가 상기 후보 텍스트들의 텍스트 길이들의 표준편차에 기초하여 결정되는 임계 값보다 큰 경우, 상기 조건이 만족되는 것으로 결정하는 단계를 포함할 수 있다.
상기 현재 후보 텍스트의 스코어를 조정하는 단계는, 상기 현재 후보 텍스트에 대응하는 가중치를 결정하는 단계; 및 상기 현재 후보 텍스트의 스코어에 상기 가중치를 적용하여 가중 스코어를 결정하는 단계를 포함할 수 있다.
상기 가중치를 결정하는 단계는, 상기 현재 후보 텍스트의 텍스트 길이와 상기 후보 텍스트들의 텍스트 길이들에 의해 결정되는 텍스트 길이 간의 차이에 기초하여 상기 현재 후보 텍스트에 적용될 가중치를 결정하는 단계를 포함할 수 있다.
다른 실시예에 따른 음성 인식 방법은, 음성 데이터를 수신하는 단계; 음성 인식 모델을 이용하여 상기 음성 데이터에 대응하는 복수의 후보 텍스트들과 상기 후보 텍스트들 각각에 대응하는 스코어를 획득하는 단계; 및 현재 후보 텍스트의 텍스트 길이가 상기 후보 텍스트들의 텍스트 길이들에 의해 결정되는 조건을 만족시키는 경우, 상기 현재 후보 텍스트를 제외한 나머지 후보 텍스트들의 스코어에 기초하여 상기 음성 데이터에 대응하는 타겟 텍스트를 결정하는 단계를 포함할 수 있다.
상기 타겟 텍스트를 결정하는 단계는, 상기 나머지 후보 텍스트들 중 최대값의 스코어를 가지는 후보 텍스트를 상기 타겟 텍스트로 결정하는 단계를 포함할 수 있다.
또 다른 실시예에 따른 음성 인식 방법은, 음성 데이터를 수신하는 단계; 음성 인식 모델을 이용하여 상기 음성 데이터에 대응하는 복수의 후보 텍스트들과 상기 후보 텍스트들 각각에 대응하는 스코어를 획득하는 단계; 상기 후보 텍스트들의 텍스트 길이들에 기초하여 상기 후보 텍스트들 각각의 스코어를 조정하는 단계; 및 상기 조정 결과에 기초하여 상기 후보 텍스트들 중에서 상기 음성 데이터에 대응하는 타겟 텍스트를 결정하는 단계를 포함할 수 있다.
상기 스코어를 조정하는 단계는, 상기 후보 텍스트들에 포함된 현재 후보 텍스트에 대응하는 가중치를 결정하는 단계; 및 상기 현재 후보 텍스트의 스코어에 상기 현재 후보 텍스트에 대응하는 가중치를 적용하여 가중 스코어를 결정하는 단계를 포함할 수 있다.
상기 가중치를 결정하는 단계는, 상기 현재 후보 텍스트의 텍스트 길이와 상기 후보 텍스트들의 텍스트 길이들에 의해 결정되는 텍스트 길이 간의 차이 및 상기 후보 텍스트들의 텍스트 길이들의 표준편차에 기초하여, 상기 현재 후보 텍스트에 적용될 가중치를 결정하는 단계를 포함할 수 있다.
일 실시예에 따른 음성 인식 장치는, 하나 이상의 프로세서를 포함하고, 상기 하나 이상의 프로세서는, 음성 데이터를 수신하고, 음성 인식 모델을 이용하여 상기 음성 데이터에 대응하는 복수의 후보 텍스트들과 상기 후보 텍스트들 각각에 대응하는 스코어를 획득하고, 현재 후보 텍스트의 텍스트 길이가 상기 후보 텍스트들의 텍스트 길이들에 의해 결정되는 조건을 만족시키는 경우, 상기 현재 후보 텍스트의 스코어를 조정하고, 상기 조정 결과에 기초하여 상기 후보 텍스트들 중에서 상기 음성 데이터에 대응하는 타겟 텍스트를 결정할 수 있다.
다른 실시예에 따른 음성 인식 장치는, 하나 이상의 프로세서를 포함하고, 상기 하나 이상의 프로세서는, 음성 데이터를 수신하고, 음성 인식 모델을 이용하여 상기 음성 데이터에 대응하는 복수의 후보 텍스트들과 상기 후보 텍스트들 각각에 대응하는 스코어를 획득하고, 현재 후보 텍스트의 텍스트 길이가 상기 후보 텍스트들의 텍스트 길이들에 의해 결정되는 조건을 만족시키는 경우, 상기 현재 후보 텍스트를 제외한 나머지 후보 텍스트들의 스코어에 기초하여 상기 음성 데이터에 대응하는 타겟 텍스트를 결정할 수 있다.
또 다른 실시예에 따른 음성 인식 장치는, 하나 이상의 프로세서를 포함하고, 상기 하나 이상의 프로세서는, 음성 데이터를 수신하고, 음성 인식 모델을 이용하여 상기 음성 데이터에 대응하는 복수의 후보 텍스트들과 상기 후보 텍스트들 각각에 대응하는 스코어를 획득하고, 상기 후보 텍스트들의 텍스트 길이들에 기초하여 상기 후보 텍스트들 각각의 스코어를 조정하고, 상기 조정 결과에 기초하여 상기 후보 텍스트들 중에서 상기 음성 데이터에 대응하는 타겟 텍스트를 결정할 수 있다.
도 1은 일 실시예에 따른 음성 인식 시스템의 개요(overview)를 제공하는 도면이다.
도 2는 일 실시예에 따른 음성 인식 장치의 동작을 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 후처리기의 세부 구성을 도시하는 블록도이다.
도 4는 일 실시예에 따른 음성 인식 방법의 과정을 설명하기 위한 흐름도이다.
도 5는 일 실시예에 따른 음성 인식 과정의 일례를 설명하기 위한 도면이다.
도 6은 다른 실시예에 따른 음성 인식 방법의 과정을 설명하기 위한 흐름도이다.
도 7은 다른 실시예에 따른 음성 인식 과정의 일례를 설명하기 위한 도면이다.
도 8은 또 다른 실시예에 따른 음성 인식 방법의 과정을 설명하기 위한 흐름도이다.
도 9는 또 다른 실시예에 따른 음성 인식 과정의 일례를 설명하기 위한 도면이다.
도 10은 일 실시예에 따른 음성 인식 장치의 구성을 도시하는 블록도이다.
실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시예들은 특정한 개시형태로 한정되는 것이 아니며, 본 명세서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 또한, 어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
단수의 표현은 달리 명시되지 않는 한 일반적으로 "하나 이상의"를 의미하는 것으로 해석되어야 한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 일 실시예에 따른 음성 인식 시스템의 개요를 제공하는 도면이다.
도 1을 참조하면, 음성 인식 시스템(100)은 하나 이상의 컴퓨터 또는 단말에서 실행될 수 있다. 일 실시예에서, 사용자는 음성 입력(speech input, 120)을 통해 특정한 커맨드(command)를 음성 인식 시스템(100)에 지시할 수 있다. 음성 입력(120)은 단어 시퀀스(a sequence of words)를 포함할 수 있고, 각각의 단어 시퀀스는 단어(word), 단어의 하위 단위인 서브워드(subword), 구(phrase) 또는 문장(sentence)을 포함할 수 있다.
음성 인식 시스템(100)은 사용자의 음성 입력(120)에 대응하는 음성 데이터를 분석하여 음성 입력(120)에 대응하는 타겟 텍스트(140)를 추정할 수 있다. 음성 인식 시스템(100)은 추정된 타겟 텍스트(140)로부터 타겟 텍스트(140)에 내포된 사용자의 커맨드를 추출하고, 추출된 커맨드를 실행하여 해당 실행 결과를 사용자에게 제공할 수 있다. 예를 들어, 음성 입력(120)에 대응하는 타겟 텍스트(140)가 "Call Mark"로 인식되었다면, 음성 인식 시스템(100)은 연락처 데이터베이스에서 Mark의 연락처를 검색하고, Mark의 연락처로 전화를 거는 기능을 수행할 수 있다. 음성 인식 시스템(100)은 이와 같이 사용자의 음성 입력(120)에 포함된 커맨드를 인식하는 것 이외에, 기계 번역 및 사람-기계 간 대화 엔진 등의 다양한 응용에서도 활용될 수 있다.
음성 인식 시스템(100)은 음성 입력(120)의 음성 데이터를 수신하고, 음성 입력(120)을 이에 대응하는 타겟 텍스트(140)로 변환하도록 프로그램된 음성 인식 장치(110)를 포함할 수 있다. 음성 인식 장치(110)는 음성 입력(120)의 음성 데이터를 분석하여 음성 입력(120)에 대응하는 텍스트 데이터를 생성할 수 있다. 음성 인식 장치(110)는 음성 입력(120)에 포함된 단어들을 텍스트로 변환하도록 구성된 소프트웨어 모듈, 하드웨어 모듈 또는 이들의 조합으로 구현될 수 있다. 음성 인식 장치(110)는 모바일 폰, 셀룰러 폰, 스마트 폰, 퍼스널 컴퓨터, 랩탑, 노트북, 넷북 또는 태블릿, 휴대 정보 단말기(personal digital assistant; PDA), 디지털 카메라, 게임 콘솔, MP3 플레이어, 퍼스널 멀티미디어 플레이어(personal multimedia player; PMP), 전자 북(E-Book), 네비게이션, 디스크 플레이어, 셋톱박스, 가정용 전자기기(home appliance), 또는 다른 전자기기에 내장되거나 또는 이것들과 상호 동작할 수 있다. 또한, 음성 인식 장치(110)는 스마트 가전 기기, 지능형 차량, 자율 주행 장치, 스마트 홈 환경, 스마트 빌딩 환경, 스마트 오피스 환경, 스마트 전자 보안 시스템, 사용자의 신체에 착용되는 웨어러블 기기(wearable device) 등에 내장되거나 또는 이것들과 상호 동작할 수 있다.
음성 인식 장치(110)는 음성 인식 결과의 정확도를 개선시키기 위해 언어 모델 데이터베이스(130)에 저장된 언어 모델을 이용할 수 있다. 언어 모델은 자연어 처리 엔진을 구성하는 컴포넌트로서, 음성 입력의 인식 결과가 자연스러운 표현이 되도록 하는데 이용된다. 언어 모델은 각 단어(서브워드 포함), 구(phrase) 및/또는 문장과 관련된 확률 값들(probability values)을 제공하고, 음성 인식 장치(110)는 이러한 언어 모델이 제공하는 텍스트 표현들과 해당 텍스트 표현들의 확률 값들에 기초하여 음성 인식 결과를 결정할 수 있다. 음성 인식 결과를 결정하기 위해 하나 또는 여러 개의 언어 모델들이 이용될 수 있다. 음성 인식에 이용되는 언어 모델로서, 예를 들어 음성 입력의 도메인(domain)에 독립적인 일반 언어 모델, 각 도메인별로 주로 사용되는 스피치 표현들이 포함된 코퍼스(corpus)로 학습된(trained) 언어 모델 및 사용자 정보나 스마트폰과 같은 사용자 단말에 저장된 정보(예, 연락처)에 기반한 개인화된 언어 모델(personalized language model; PLM) 등이 있을 수 있다. 언어 모델 데이터베이스(130)는 실시예에 따라 음성 인식 장치(110)에 포함되거나 또는 음성 인식 장치(110)의 외부에 위치할 수 있다. 언어 모델 데이터베이스(130)가 외부에 위치하는 경우, 언어 모델 데이터베이스(130)는 예를 들어 음성 인식 장치(110)와 통신이 가능한 서버(미도시) 내에 존재할 수 있다.
음성 인식 장치(110)는 타겟 텍스트(140)를 결정하는데 있어, 먼저 음성 입력(120)에 대응할 가능성이 있는 여러 후보 텍스트들을 획득하고, 획득된 후보 텍스트들 중에서 최적의 후보 텍스트를 선정하여 선정된 후보 텍스트를 타겟 텍스트(140)로 결정할 수 있다. 음성 인식 장치(110)는 후보 텍스트들을 획득할 때 각각의 후보 텍스트들이 가지는 스코어(score)도 함께 획득하며, 스코어에 기반하여 후보 텍스트들 중에서 타겟 텍스트(140)를 선정할 수 있다. 스코어는, 예를 들어 후보 텍스트가 목적하는 타겟 텍스트(140)에 해당할 확률 또는 가능성을 나타내는 지수일 수 있다.
일반적으로, 음성 입력이 음성 인식 장치에 입력될 때 주변 소음이 심한 경우 또는 음성 인식 모델의 학습(training)에 이용된 학습 데이터의 상태에 따라, 음성 입력에 포함되어야 할 발화(speech)의 일부분이 누락된 결과 또는 일부분이 반복되어 나타난 결과가 음성 인식 결과로서 잘못 결정될 수 있다. 음성 인식 결과를 결정하는데 이용되는 각 후보 텍스트들의 스코어는, 각 후보 텍스트를 구성하는 각 구성 요소(예, 단어 또는 토큰(token))들이 가지는 확률들의 곱에 기초하여 결정될 수 있고, 이 경우 후보 텍스트의 텍스트 길이가 길수록 스코어가 작아져서 타겟 텍스트로 선정되는데 불리할 수 있다. 이에 따라, 사용자의 실제 발화에 비해 극단적으로 짧은 타겟 텍스트가 음성 인식 결과로 잘못 결정되는 문제가 발생할 수 있다. 이렇게 짧은 타겟 텍스트가 음성 인식 결과로서 잘못 결정되는 문제를 해결하기 위해 정규화(normalization) 방법이 사용될 수도 있지만, 정규화 방법은 오히려 극단적으로 긴 타겟 텍스트가 음성 인식 결과로서 잘못 결정되는 문제를 야기할 수 있다.
이하에서 설명할 실시예들에 따르면, 음성 인식 장치(110)는 발화의 일부분이 누락된 결과나 일부분이 반복되어 나타난 결과가 음성 인식 결과로서 잘못 결정되는 것을 방지할 수 있다. 예를 들어, 음성 인식 장치(110)는 후보 텍스트들의 텍스트 길이를 고려하여 후보 텍스트의 스코어를 조정함으로써, 발화의 일부분이 누락된 결과나 일부분이 반복되어 나타난 결과가 최종 음성 인식 결과로 결정되는 것을 방지할 수 있다. 예를 들어, 음성 인식 장치(110)는 다른 후보 텍스트들과의 텍스트 길이 차이가 큰 후보 텍스트에 대해서는 페널티(penalty)를 적용하여 해당 후보 텍스트가 타겟 텍스트로 선정될 확률을 낮출 수 있다. 다른 예로, 음성 인식 장치(110)는 타겟 텍스트를 결정하는데 있어 후보 텍스트들 중에서 다른 후보 텍스트들과 상대적으로 텍스트 길이의 차이가 큰 일부 후보 텍스트들을 제외시킴으로써, 목적하는 타겟 텍스트에 비해 극단적으로 짧거나 또는 긴 후보 텍스트가 최종적인 음성 인식 결과로 결정되는 것으로 방지할 수 있다. 이러한 기술적 구성을 통해 음성 인식 장치(110)는 음성 인식 결과의 정확도를 개선시킬 수 있다.
이하에서는, 음성 인식 장치(110)가 수행하는 음성 인식 과정을 보다 자세히 설명하도록 한다.
도 2는 일 실시예에 따른 음성 인식 장치의 동작을 설명하기 위한 도면이다.
도 2를 참조하면, 음성 인식 장치는 후보 텍스트 결정기(220) 및 후처리기(250)를 포함할 수 있다.
후보 텍스트 결정기(220)는 음성 입력(210)의 음성 데이터를 수신하고, 음성 입력(210)에 대응하는 후보 텍스트들과 각 후보 텍스트들에 대응하는 스코어를 결정할 수 있다. 일 실시예에서, 후보 텍스트 결정기(220)는 인코더-디코더 기반의 음성 인식 모델(또는 음성 인식 엔진)을 이용하여 후보 텍스트들을 결정할 수 있다. 음성 인식 모델은, 예를 들어 음성 입력(210)의 음성 데이터를 입력으로 하고, 음성 입력(210)에 대응하는 후보 텍스트를 생성하는 E2E(end-to-end) 자동 음성 인식(Automatic Speech Recognition; ASR) 모델일 수 있다. 또는, 다른 예로, 음성 인식 모델은 DNN-HMM(Deep Neural Network-Hidden Markov Model) 기반의 음성 인식 모델일 수 있다.
일 실시예에서, 음성 인식 모델은 음성 데이터로부터 특징 값(예, 특징 벡터)을 추출하는 인코더(230)와 인코더(230)에 의해 추출된 특징 값을 기초로 후보 텍스트들과 각 후보 텍스트들에 대응하는 스코어를 출력하는 디코더(240)를 포함할 수 있다. 인코더(230)와 디코더(240)는 하나의 뉴럴 네트워크로 구현되거나 또는 서로 별개의 뉴럴 네트워크들에 기반할 수 있다.
인코더(230)는 음성 데이터를 추상화된 특징 벡터로 변환할 수 있고, 디코더(240)는 해당 특징 벡터에 기초하여 후보 텍스트를 결정할 수 있다. 예를 들어, 인코더(230)는 wav 데이터 형태의 음성 데이터를 입력 받고, 음성 데이터의 정보를 함축시킨 벡터 값을 생성할 수 있다. 디코더(240)는 인코더(230)로부터 벡터 값을 입력 받아 이에 대응하는 하나 이상의 후보 텍스트를 결정할 수 있다. 디코더(240)는 음성 데이터에 대응하는 후보 텍스트를 단어나 서브워드 단위로 출력할 수 있다. 본 명세서에서 설명되는 실시예들에서, 후보 텍스트에 포함되는 '단어'는, 특별한 언급이 없는 한 '단어'보다 더 작은 구성 단위인 '서브워드'를 포함한다. '단어'는 의미를 가진 '서브워드'들의 조합으로 이루어질 수 있다. '서브워드'는, 예를 들어 단어 조각(word piece), BPE(byte pair encoding) 알고리즘에 의해 분리된 단어의 분절, 토큰(token), 또는 문자(character) 등에 해당할 수 있다.
일 실시예에서, 디코더(240)는 인코더(230)로부터 수신한 특징 값(예, 벡터 값)에 기초하여 음성 입력(210)에 대응할 확률이 높은 N(자연수) 개의 후보 텍스트들을 선정할 수 있다. 예를 들어, 디코더(240)는 빔 탐색(beam search) 기법을 이용하여 타겟 텍스트에 해당할 확률이 높은 N 개의 후보 텍스트들을 결정할 수 있다. 빔 탐색 기법은, 최고 우선 탐색(best-first search) 기법을 바탕으로 하되 기억해야 하는 노드의 수를 제한하여 효율성을 높인 기법이다. 디코더(240)는 각각의 디코딩 단계마다 후보 텍스트를 구성할 단어들의 확률 분포를 확인하고, 확률 값이 높은 순서대로 특정한 개수의 단어를 선택하여 후보 텍스트의 범위를 확장하는 방식으로 후보 텍스트를 선정할 수 있다. 디코더(240)는 음성 입력(210)에 대응하는 전체 텍스트를 구성하는 단어들을 순차적으로 추정하는 과정을 반복적으로 수행하여 후보 텍스트를 결정할 수 있다. 예를 들어, 디코더(240)는 인코더(230)로부터 수신한 특징 값과 이전 시점(time)에서 결정된 단어에 기초하여 현재 시점에서의 단어를 추정할 수 있다.
후보 텍스트 결정기(220)는 음성 인식 모델이 커버하지 못하는 표현에 대한 인식률을 높이기 위해, 언어 모델 데이터베이스(245)에 저장된 언어 모델을 이용할 수 있다. 실시예에 따라, 언어 모델 데이터베이스(245)는 음성 인식 장치에 포함되거나 또는 음성 인식 장치의 외부에 존재할 수 있다. 언어 모델은, 예를 들어 뉴럴 네트워크, n-그램(gram) 또는 단어/문자열 리스트 등에 기초할 수 있으며, 음성 입력으로 제시될 수 있는 다양한 발화 표현들을 제공할 수 있다. 이러한 언어 모델은 복수 개가 존재할 수 있다. 예를 들어, 언어 모델은 특정한 도메인에 특화된 언어 모델을 포함할 수 있다. 후보 텍스트 결정기(220)는 언어 모델을 이용하여 디코더(240)에 의해 결정된 후보 텍스트들 각각에 대한 스코어(score)를 결정할 수 있다. 후보 텍스트 결정기(220)는 예를 들어 기본 언어 모델 또는 외부 언어 모델(external language model)을 이용한 N-best 리스코어링(rescoring) 기법을 이용하여, 후보 텍스트들에 대한 스코어를 계산할 수 있다. 스코어는 각 후보 텍스트들이 타겟 텍스트에 해당할 확률 값 또는 기대 값을 나타낼 수 있다. 예를 들어, 특정한 후보 텍스트에 대한 스코어가 0.75라고 가정하면, 이는 해당 후보 텍스트가 최종적인 음성 인식 결과인 타겟 텍스트에 해당할 상대적인 확률이 0.75가 된다는 것을 의미할 수 있다.
후처리기(250)는 후보 텍스트 결정기(220)로부터 후보 텍스트들과 각 후보 텍스트들에 대한 스코어를 수신하고, 후보 텍스트들 간의 상대적인 텍스트 길이를 고려하여 후보 텍스트들 중에서 타겟 텍스트를 결정할 수 있다. 텍스트 길이는 후보 텍스트를 구성하는 단어나 서브워드(예, 토큰 또는 문자)의 수일 수 있다.
일 실시예에서, 후처리기(250)는 후보 텍스트들의 텍스트 길이들을 기반으로 하나 이상의 후보 텍스트의 스코어를 조정하고, 해당 조정 결과에 기초하여 타겟 텍스트를 결정할 수 있다. 예를 들어, 후처리기(250)는 후보 텍스트들의 텍스트 길이들의 평균과 표준편차에 기초하여 하나 이상의 후보 텍스트의 스코어를 조정할 수 있다. 후처리기(250)는 텍스트 길이가 후보 텍스트들의 텍스트 길이들의 평균과 차이가 큰 후보 텍스트의 스코어에만 가중치를 적용하거나, 평균과 표준편차에 기초하여 각각의 후보 텍스트들의 스코어에 가중치를 적용하는 것에 의해 스코어를 조정할 수 있다. 여기서, 가중치는 페널티로서 적용될 수 있어 후보 텍스트의 스코어에 적용되는 경우, 해당 후보 텍스트가 타겟 텍스트로 결정될 확률 값 또는 기대 값이 작아질 수 있다. 스코어 조정 과정 이후에, 후처리기(250)는 각 후보 텍스트들의 스코어에 기초하여 타겟 텍스트를 결정할 수 있다. 예를 들어, 후처리기(250)는 스코어가 가장 큰 후보 텍스트를 최종적인 음성 인식 결과인 타겟 텍스트로 결정할 수 있다.
다른 실시예에서, 후처리기(250)는 후보 텍스트들 중 후보 텍스트들의 텍스트 길이들의 평균과 차이가 임계 값 이상 나는 후보 텍스트를 제외한 나머지 후보 텍스트 중에서 스코어가 가장 큰 후보 텍스트를 타겟 텍스트로 결정할 수도 있다. 이 경우 스코어 조정을 수행할 필요 없이, 다른 후보 텍스트들에 비해 텍스트 길이가 상당히 짧거나 긴 후보 텍스트는 타겟 텍스트의 대상으로부터 제외되고, 후처리기(250)는 남아 있는 후보 텍스트들 중 스코어가 가장 큰 후보 텍스트를 타겟 텍스트로 결정할 수 있다.
빔 탐색 기법 등을 통해 획득된 후보 텍스트들 중 다른 후보 텍스트들에 비하여 특이하게 텍스트 길이가 짧거나 긴 후보 텍스트가 스코어가 가장 높은 경우가 있을 수 있으나, 정답에 해당하거나 정답에 가까운 타겟 텍스트의 텍스트 길이는 대체로 서로 비슷한 경향을 나타낸다. 따라서, 후보 텍스트들 간에 상대적인 텍스트 길이의 차이를 이용하여 스코어를 조정함으로써, 정답과 거리가 먼 후보 텍스트가 타겟 텍스트로 결정되는 것이 방지될 수 있다. 예를 들어, 후처리기(250)는 후보 텍스트들의 텍스트 길이들의 평균에 비해 지나치게 짧거나 긴 후보 텍스트에 페널티를 적용하거나 제외하여 타겟 텍스트로 선정될 가능성을 낮추거나 차단할 수 있다.
위와 같은 음성 인식 과정을 통해 음성 인식 장치는 소음 환경에서도 안정적인 음성 인식 성능(음성 인식 정확도의 향상)을 제공할 수 있으며, 학습 데이터의 상태에 큰 영향을 받지 않고 안정적인 음성 인식 성능을 제공할 수 있다.
도 3은 일 실시예에 따른 후처리기의 세부 구성을 도시하는 블록도이다.
도 3을 참조하면, 후처리기(250)는 텍스트 길이 평균 결정기(310), 텍스트 길이 편차 결정기(320), 가중치 결정기(330), 스코어 조정기(340) 및 타겟 텍스트 결정기(350)를 포함할 수 있다.
텍스트 길이 평균 결정기(310)는 음성 인식 모델을 통해 결정된 복수 개의 후보 텍스트들의 텍스트 길이들의 평균을 결정한다. 예를 들어, 텍스트 길이 평균 결정기(310)는 후보 텍스트들의 텍스트 길이들 전체의 평균 또는 전체 텍스트 길이들 중 최댓값과 최솟값을 제외한 나머지 텍스트 길이들의 평균을 계산할 수 있다. 텍스트 길이 편차 결정기(320)는 텍스트 길이 평균 결정기(310)에 의해 결정된 평균을 기초로 텍스트 길이들의 편차(예, 표준편차)를 결정할 수 있다.
가중치 결정기(330)는 후보 텍스트에 적용될 가중치를 결정할 수 있다. 일 실시예에서, 가중치 결정기(330)는 다른 후보 텍스트들에 비하여 상대적으로 텍스트 길이가 매우 짧거나 긴 후보 텍스트를 선정하고, 선정된 후보 텍스트에만 적용될 가중치를 결정할 수 있다. 가중치 결정기(330)는, 예를 들어 후보 텍스트들의 텍스트 길이들에 대한 평균 및 표준 편차에 기초하여 선정된 후보 텍스트에 적용될 가중치를 결정할 수 있다. 다른 실시예에 따르면, 후보 텍스트들 간의 상대적인 텍스트 길이 차이에 기초하여 각각의 후보 텍스트들에 대응하는 가중치가 결정될 수 있고, 가중치 결정기(330)는 텍스트 길이들 간의 차이에 기반하여 후보 텍스트들 각각에 적용될 가중치를 결정할 수 있다.
스코어 조정기(340)는 스코어 조정의 대상이 되는 후보 텍스트의 스코어에 가중치를 적용함으로써 해당 후보 텍스트의 스코어를 조정할 수 있다.
타겟 텍스트 결정기(350)는 스코어 조정이 반영된 후보 텍스트들의 스코어 정보에 기초하여 후보 텍스들 중에서 최종 음성 인식 결과에 대응하는 타겟 텍스트를 선정할 수 있다. 예를 들어, 타겟 텍스트 결정기(350)는 최댓값의 스코어를 가지는 후보 텍스트를 타겟 텍스트로서 결정할 수 있다.
다른 실시예에서, 타겟 텍스트 결정기(350)는 후보 텍스트들의 텍스트 길이들에 대한 평균과 차이가 많이 나는 텍스트 길이를 가지는 후보 텍스트를 타겟 텍스트의 후보에서 제외하고, 남은 나머지 후보 텍스트들 중에서 최댓값의 스코어를 가지는 후보 텍스트를 타겟 텍스트로 결정할 수도 있다. 이 실시예의 경우, 스코어를 조정할 필요가 없으므로 가중치 결정기(330)와 스코어 조정기(340)는 후처리기(250)에서 생략될 수 있다.
도 4는 일 실시예에 따른 음성 인식 방법의 과정을 설명하기 위한 흐름도이다.
도 4를 참조하면, 단계(410)에서 음성 인식 장치는 음성 데이터를 수신한다. 사용자는 음성 명령이나 음성 입력을 위해 마이크로폰과 같은 음성 인터페이스를 통해 음성을 입력할 수 있고, 입력된 음성에 대한 음성 데이터가 음성 인식 장치에 전달될 수 있다.
단계(420)에서, 음성 인식 장치는 음성 인식 모델을 이용하여 음성 데이터에 대응하는 복수의 후보 텍스트들과 후보 텍스트들 각각에 대응하는 스코어를 획득할 수 있다. 음성 인식 장치는, 예를 들어 음성 데이터로부터 벡터 값을 추출하는 인코더 및 인코더에 의해 추출된 벡터 값으로부터 음성 데이터에 대응하는 후보 텍스트를 출력하는 디코더를 포함하는 인코더-디코더 기반의 음성 인식 모델을 이용할 수 있다. 일 실시예에서, 음성 인식 장치는 빔 탐색 기법을 이용하여 스코어에 따른 상위 N(자연수)개의 후보 텍스트들을 획득할 수 있다. 음성 인식 장치는 언어 모델을 이용하여 후보 텍스트들 각각에 대응하는 스코어를 결정할 수 있다.
단계(430)에서, 음성 인식 장치는 현재 후보 텍스트의 텍스트 길이가 후보 텍스트들의 텍스트 길이들에 의해 결정되는 조건을 만족시키는지 여부를 판단할 수 있다. 여기서, 현재 후보 텍스트는 후보 텍스트들에 포함된 어느 하나의 후보 텍스트에 해당한다. 일 실시예에서, 음성 인식 장치는 현재 후보 텍스트의 텍스트 길이와 후보 텍스트들의 텍스트 길이들에 의해 결정되는 텍스트 길이 간의 차이가 해당 조건을 만족시키는지 여부를 판단할 수 있다. 후보 텍스트들의 텍스트 길이들에 의해 결정되는 텍스트 길이는, 예를 들어 전체 후보 텍스트들의 텍스트 길이들의 평균이거나 또는 후보 텍스트들의 텍스트 길이들 중 최댓값의 텍스트 길이와 최솟값의 텍스트 길이를 제외한 나머지 텍스트 길이들의 평균일 수 있다. 음성 인식 장치는 현재 후보 텍스트의 텍스트 길이와 후보 텍스트들의 텍스트 길이들에 의해 결정되는 텍스트 길이 간의 차이가 후보 텍스트들의 텍스트 길이들의 표준편차에 기초하여 결정되는 임계 값보다 큰 경우에는 조건이 만족되는 것으로 결정하고, 해당 차이가 임계 값 이하인 경우에는 조건이 만족되지 않는 것으로 결정할 수 있다.
현재 후보 텍스트의 텍스트 길이가 조건을 만족시키는 것으로 결정된 경우, 단계(440)에서 음성 인식 장치는 현재 후보 텍스트의 스코어를 조정할 수 있다. 음성 인식 장치는 현재 후보 텍스트에 대응하는 가중치를 결정하고, 현재 후보 텍스트의 기존 스코어에 해당 가중치를 적용하여 가중 스코어를 결정할 수 있다. 일 실시예에서, 음성 인식 장치는 현재 후보 텍스트의 텍스트 길이와 후보 텍스트들의 텍스트 길이들에 의해 결정되는 텍스트 길이 간의 차이에 기초하여 현재 후보 텍스트에 적용될 가중치를 결정할 수 있다. 해당 차이가 클수록 가중치의 크기로 커질 수 있다. 가중치가 현재 후보 텍스트의 스코어에 적용되는 경우, 현재 후보 텍스트가 타겟 텍스트로 결정될 확률 값 또는 기대 값이 작아질 수 있다.
단계(450)에서, 음성 인식 장치는 모든 후보 텍스트들에 대해 단계(430)의 검사(check)가 완료되었는지 여부를 판단한다. 후보 텍스트들에 대한 검사가 모두 완료되지 않은 경우, 단계(460)에서 음성 인식 장치는 다음 후보 텍스트를 현재 후보 텍스트로서 선택할 수 있다. 이후에, 음성 인식 장치는 선택된 다음 후보 텍스트에 대해 단계(430)의 과정을 다시 수행할 수 있다. 이와 같은 과정을 통해, 음성 인식 장치는 후보 텍스트들 간의 상대적인 텍스트 길이 차이를 고려하여 특정한 후보 텍스트의 스코어를 조정할 수 있다.
후보 텍스트들에 대한 검사가 모두 완료된 경우, 단계(470)에서 음성 인식 장치는 스코어 조정 결과에 기초하여 후보 텍스트들 중에서 음성 데이터에 대응하는 타겟 텍스트를 결정할 수 있다. 예를 들어, 음성 인식 장치는 가중치가 적용된 후보 텍스트들의 가중 스코어 및 스코어가 조정되지 않은 다른 후보 텍스트들의 스코어 중 최댓값을 가지는 후보 텍스트를 타겟 텍스트로 결정할 수 있다.
위와 같은 과정을 통해, 음성 인식 장치는 다른 후보 텍스트들에 비해 상대적으로 텍스트 길이가 짧거나 긴 후보 텍스트의 스코어를 조정함으로써, 텍스트 길이가 많이 짧거나 긴 후보 텍스트가 타겟 텍스트로 잘못 결정되는 것을 방지할 수 있다. 이에 따라, 음성 인식의 정확도가 개선될 수 있다.
도 5는 일 실시예에 따른 음성 인식 과정의 일례를 설명하기 위한 도면이다.
음성 인식 장치는 후보 텍스트들 간의 상대적인 텍스트 길이 차이에 기초하여 특정한 후보 텍스트의 스코어를 조정할 수 있다. 일 실시예에서, 음성 인식 장치는 후보 텍스트들의 텍스트 길이들의 평균을 계산하고, 비교를 위해 선택된 후보 텍스트의 텍스트 길이와 평균 간의 차이가 임계 값보다 크면, 해당 후보 텍스트의 스코어를 조정할 수 있다. 임계 값은, 예를 들어 후보 텍스트들의 텍스트 길이들의 표준편차일 수 있다. 음성 인식 장치는 스코어를 조정할 후보 텍스트에 대응하는 가중치를 결정하고, 해당 가중치를 후보 텍스트의 스코어에 적용함으로써 스코어를 조정할 수 있다. 일 실시예에서, 가중치는 후보 텍스트의 텍스트 길이와 평균 간의 차이가 클수록 커질 수 있다.
일 실시예에서, 다음의 수학식 1의 조건을 만족시키는 후보 텍스트의 스코어가 조정될 수 있다.
Figure pat00001
c.length 는 현재 후보 텍스트의 텍스트 길이이고, avg 는 후보 텍스트들의 텍스트 길이들의 평균이다. avg 는 전체 후보 텍스트들의 텍스트 길이들의 평균, 또는 후보 텍스트들의 텍스트 길이들 중 최댓값의 텍스트 길이와 최솟값의 텍스트 길이를 제외한 나머지 텍스트 길이들의 평균일 수 있다. th 는 임계 값으로서, 후보 텍스트들의 텍스트 길이들의 표준편차에 기초할 수 있다. 예를 들어, th 는 해당 표준편차에 상수가 더해진 값일 수 있다. 각 후보 텍스트들에 대해 수학식 1의 조건이 만족되는지 여부가 판단된다. 수학식 1의 조건을 만족시키는 후보 텍스트의 경우, 다음의 수학식 2에 따라 스코어가 조정될 수 있다.
Figure pat00002
c.score1 은 현재 후보 텍스트의 원래 스코어이고, c.length 는 현재 후보 텍스트의 텍스트 길이다. const 는 상수이고, avg 는 후보 텍스트들의 텍스트 길이들의 평균이다. constⅹ|c.length - avg| 은 현재 후보 텍스트에 대응하는 가중치로서 페널티로 작용하며, c.score2 는 가중치가 적용된 스코어에 해당하는 현재 후보 텍스트의 가중 스코어를 나타낸다.
도 5를 참조하면, 위에 있는 표는 음성 데이터에 대응하는 후보 텍스트들과 각 후보 텍스트들에 대응하는 스코어, 텍스트 길이 및 텍스트 길이에 따른 가중치를 나타내고 있다. 본 실시예에서, 음성 인식 결과로서 의도한 정답은 "하이 빅스비 생일날 무슨 선물을 해주지"이다. 그러나, 후보 텍스트들 중에서 오답에 해당하는 "하이 빅스비"의 후보 텍스트의 경우, 다른 후보 텍스트들에 비해 텍스트 길이가 상당히 짧으나 스코어는 가장 크다. 음성 인식 장치는 해당 후보 텍스트와 같이 다른 후보 텍스트들에 비해 텍스트 길이가 차이가 많이 나는 후보 텍스트를 구별하고, 해당 후보 텍스트의 스코어에 가중치를 적용하여 스코어를 조정할 수 있다. 아래에 있는 표는 스코어 조정 결과를 나타낸다. 수학식 2에 따른 스코어 조정 결과, "하이 빅스비"의 후보 텍스트의 처음 스코어는 -3.46이었으나 가중치가 적용되어 -7.46으로 가중치가 조정되었다. 스코어 조정 전에는, "하이 빅스비"의 후보 텍스트의 스코어가 가장 크므로 "하이 빅스비"가 타겟 텍스트로서 선정되나, 스코어 조정 후에는 해당 후보 텍스트가 후보 텍스트들 중에서 스코어가 가장 낮게 되어 다른 후보 텍스트가 타겟 텍스트로서 선정된다.
위와 같이, 후보 텍스트들의 텍스트 길이들의 평균과 분산을 고려하여, 텍스트 길이가 상대적으로 매우 짧거나 긴 후보 텍스트에 대한 페널티가 계산될 수 있으며, 페널티 적용을 통해 상대적으로 텍스트 길이가 매우 짧아 타겟 텍스트로 잘못 선정될 우려가 있었던 후보 텍스트의 스코어가 낮아져 음성 오인식이 발생할 가능성을 늦출 수 있다.
도 6은 다른 실시예에 따른 음성 인식 방법의 과정을 설명하기 위한 흐름도이다.
도 6을 참조하면, 단계(610)에서 음성 인식 장치는 음성 데이터를 수신한다. 단계(620)에서, 음성 인식 장치는 음성 인식 모델을 이용하여 음성 데이터에 대응하는 복수의 후보 텍스트들과 후보 텍스트들 각각에 대응하는 스코어를 획득할 수 있다. 단계(630)에서, 음성 인식 장치는 현재 후보 텍스트의 텍스트 길이가 후보 텍스트들의 텍스트 길이들에 의해 결정되는 조건을 만족시키는지 여부를 판단할 수 있다. 단계(610) 내지 단계(630)은 도 4의 단계(410) 내지 단계(430)에 대응하며, 상세한 설명은 생략한다.
현재 후보 텍스트의 텍스트 길이가 조건을 만족시키는 것으로 결정된 경우, 단계(640)에서 음성 인식 장치는 해당 현재 후보 텍스트를 타겟 텍스트의 후보에서 제외시킬 수 있다. 단계(640)에서, 음성 인식 장치는 모든 후보 텍스트들에 대해 단계(630)의 검사가 완료되었는지 여부를 판단한다. 후보 텍스트들에 대한 검사가 모두 완료되지 않은 경우, 단계(660)에서 음성 인식 장치는 다음 후보 텍스트를 현재 후보 텍스트로서 선택할 수 있다. 이후에, 음성 인식 장치는 선택된 다음 후보 텍스트에 대해 단계(630)의 과정을 다시 수행할 수 있다. 이와 같은 과정을 통해, 다른 후보 텍스트들에 비해 상대적으로 텍스트 길이가 많이 짧거나 긴 후보 텍스트들이 타겟 후보 텍스트의 후보에서 제외될 수 있다.
후보 텍스트들에 대한 검사가 모두 완료된 경우, 단계(670)에서 음성 인식 장치는 타겟 후보 텍스트의 후보에서 제외되지 않은 후보 텍스트들 중에서 음성 데이터에 대응하는 타겟 텍스트를 결정할 수 있다. 이에 따라, 후보 텍스트의 텍스트 길이가 후보 텍스트들의 텍스트 길이들에 의해 결정되는 조건을 만족시키는 경우, 음성 인식 장치는 해당 현재 후보 텍스트를 제외한 나머지 후보 텍스트들의 스코어에 기초하여 타겟 텍스트를 결정한다. 음성 인식 장치는, 예를 들어 나머지 후보 텍스트들 중 최댓값의 스코어를 가지는 후보 텍스트를 타겟 텍스트로 결정할 수 있다.
위와 같이, 후보 텍스트들의 텍스트 길이들의 평균과 분산을 고려하여, 텍스트 길이가 상대적으로 매우 짧거나 긴 후보 텍스트를 타겟 텍스트의 후보에서 제외시킴으로써 음성 오인식이 발생하는 것을 방지할 수 있다.
도 7은 다른 실시예에 따른 음성 인식 과정의 일례를 설명하기 위한 도면이다.
음성 인식 장치는 후보 텍스트들 간의 상대적인 텍스트 길이 차이에 기초하여 특정한 후보 텍스트를 타겟 텍스트의 후보에서 제외시킬 수 있다. 일 실시예에서, 음성 인식 장치는 후보 텍스트들의 텍스트 길이들의 평균을 계산하고, 비교를 위해 선택된 후보 텍스트의 텍스트 길이와 평균 간의 차이가 임계 값보다 크면, 해당 후보 텍스트를 타겟 텍스트의 후보에서 제외시킬 수 있다. 일 실시예에서, 이전에 설명한 수학식 1의 조건을 만족시키는 후보 텍스트가 타겟 텍스트의 후보에서 제외될 수 있다.
도 7을 참조하면, 위에 있는 표는 음성 데이터에 대응하는 후보 텍스트들과 각 후보 텍스트들에 대응하는 스코어 및 텍스트 길이를 나타내고 있다. 본 실시예에서, 음성 인식 결과로서 의도한 정답은 "하이 빅스비 생일날 무슨 선물을 해주지"이다. 그러나, 후보 텍스트들 중에서 오답에 해당하는 "하이 빅스비"의 후보 텍스트의 경우, 다른 후보 텍스트들에 비해 텍스트 길이가 상당히 짧으나 스코어는 가장 크다. 해당 후보 텍스트의 텍스트 길이가 다른 후보 텍스트들의 텍스트 길이들에 기초한 수학식 1의 조건을 만족시킨다고 가정하는 경우, 아래에 있는 표와 같이 해당 후보 텍스트는 타겟 텍스트의 후보 목록에서 제외된다. 음성 인식 장치는 각 후보 텍스트들이 해당 조건을 만족시키는지 여부를 검사하여 타겟 텍스트의 후보 목록에서 제외할지 여부를 결정하고, 제외되지 않은 나머지 후보 텍스트들 중에서 최댓값의 스코어를 가지는 후보 텍스트를 타겟 텍스트로서 결정할 수 있다.
도 8은 또 다른 실시예에 따른 음성 인식 방법의 과정을 설명하기 위한 흐름도이다.
도 8을 참조하면, 단계(810)에서 음성 인식 장치는 음성 데이터를 수신한다. 단계(820)에서, 음성 인식 장치는 음성 인식 모델을 이용하여 음성 데이터에 대응하는 복수의 후보 텍스트들과 후보 텍스트들 각각에 대응하는 스코어를 획득할 수 있다. 단계(810) 및 단계(820)은 도 4의 단계(410) 및 단계(420)에 대응하며, 상세한 설명은 생략한다.
단계(830)에서, 음성 인식 장치는 후보 텍스트들의 텍스트 길이들에 기초하여 후보 텍스트들 각각의 스코어를 조정할 수 있다. 음성 인식 장치는 후보 텍스트들에 포함된 현재 후보 텍스트에 대응하는 가중치를 결정하고, 현재 후보 텍스트의 기존 스코어에 현재 후보 텍스트에 대응하는 가중치를 적용하여 가중 스코어를 결정할 수 있다.
일 실시예에서, 음성 인식 장치는 현재 후보 텍스트의 텍스트 길이와 후보 텍스트들의 텍스트 길이들에 의해 결정되는 텍스트 길이 간의 차이에 기초하여 현재 후보 텍스트에 적용될 가중치를 결정할 수 있다. 후보 텍스트들의 텍스트 길이들에 의해 결정되는 텍스트 길이는, 예를 들어 전체 후보 텍스트들의 텍스트 길이들의 평균이거나 또는 후보 텍스트들의 텍스트 길이들 중 최댓값의 텍스트 길이와 최솟값의 텍스트 길이를 제외한 나머지 텍스트 길이들의 평균일 수 있다. 음성 인식 장치는, 예를 들어 아래에서 설명되는 수학식 3과 같이 현재 후보 텍스트의 텍스트 길이와 후보 텍스트들의 평균 텍스트 길이 간의 차이 및 후보 텍스트들의 텍스트 길이들의 표준편차에 기초하여, 현재 후보 텍스트에 적용될 가중치를 결정할 수 있다. 음성 인식 장치는 각 후보 텍스트의 스코어에 각 후보 텍스트에 대응하는 가중치를 적용함으로써 후보 텍스트들의 스코어들을 전체적으로 조정할 수 있다.
단계(840)에서, 음성 인식 장치는 단계(830)의 조정 결과에 기초하여 후보 텍스트들 중에서 음성 데이터에 대응하는 타겟 텍스트를 결정할 수 있다. 음성 인식 장치는 각 후보 텍스트들의 스코어에 각 후보 텍스트들의 가중치가 적용된 가중 스코어에 기초하여 타겟 텍스트를 결정할 수 있다. 음성 인식 장치는, 예를 들어 최댓값의 가중 스코어를 가지는 후보 텍스트를 타겟 텍스트로서 결정할 수 있다.
도 9는 또 다른 실시예에 따른 음성 인식 과정의 일례를 설명하기 위한 도면이다.
음성 인식 장치는 후보 텍스트들 간의 상대적인 텍스트 길이 차이에 기초하여 후보 텍스트들의 스코어들을 전체적으로 조정할 수 있다. 일 실시예에서, 음성 인식 장치는 후보 텍스트들의 텍스트 길이들의 평균과 표준편차를 계산하고, 해당 평균과 표준편차에 기초하여 각 후보 텍스트들의 스코어에 적용할 가중치를 결정할 수 있다. 음성 인식 장치는 각 후보 텍스트들의 스코어에 각 후보 텍스트들의 가중치를 적용하여 가중 스코어를 계산할 수 있다. 예를 들어, 음성 인식 장치는 다음의 수학식 3에 따라 가중 스코어를 계산할 수 있다.
Figure pat00003
c.score1 은 현재 후보 텍스트의 원래 스코어이고, c.length 는 현재 후보 텍스트의 텍스트 길이다. avg 는 후보 텍스트들의 텍스트 길이들의 평균이고, std 는 후보 텍스트들의 텍스트 길이들의 표준편차이다. |c.length - avg|/std 은 현재 후보 텍스트에 대응하는 가중치이며, c.score2 는 가중치가 적용된 스코어인 현재 후보 텍스트의 가중 스코어를 나타낸다. 음성 인식 장치는 모든 후보 텍스트들에 대해 위 수학식 3에 따라 가중 스코어를 결정한다.
도 9를 참조하면, 위에 있는 표(이하, '표 1'이라 함)는 음성 데이터에 대응하는 후보 텍스트들과 각 후보 텍스트들에 대응하는 스코어, 텍스트 길이 및 텍스트 길이에 따른 가중치를 나타내고 있다. 각 후보 텍스트의 텍스트 길이와 전체 후보 텍스트들의 평균 텍스트 길이 간의 차이에 기초하여 가중치가 결정되고, 그 차이가 클수록 가중치도 커진다. 가중치가 결정된 후 가중치는 각 후보 텍스트들의 스코어에 적용된다.
아래에 있는 표(이하, '표 2'라 함)는 가중치가 적용된 스코어 조정 결과를 나타낸다. 표 1에 따르면, "그럼 일요일은 몇 시에 가능해요"의 후보 텍스트가 가장 스코어가 컸으나, 표 2에 나타난 스코어 조정 결과에 따르면, 가중치 적용 후 "그럼 일요일 아니 토요일은 몇 시에 가능해요"의 후보 텍스트의 스코어가 가장 커졌다. 음성 인식 장치는 가중치가 적용된 스코어에 기반하여 최댓값의 스코어를 가지는 후보 텍스트를 타겟 텍스트로서 결정할 수 있다. 이에 따라, "그럼 일요일 아니 토요일은 몇 시에 가능해요"의 후보 텍스트가 타겟 텍스트로서 결정된다.
도 10은 일 실시예에 따른 음성 인식 장치의 구성을 도시하는 블록도이다.
도 10을 참조하면, 음성 인식 장치(1000)는 하나 이상의 프로세서(1010), 메모리(1020) 및 입출력 인터페이스(1030)를 포함한다. 실시예에 따라, 음성 인식 장치(1000)는 하나 이상의 언어 모델을 저장하는 데이터베이스(1040)를 더 포함할 수도 있다.
입출력 인터페이스(1030)는 음성 입력의 음성 데이터를 수신하기 위한 음성 인터페이스(예, 마이크로폰)를 포함할 수 있다. 또한, 입출력 인터페이스(1030)는 키보드, 터치 스크린 또는 터치 패드 등의 입력 인터페이스와 디스플레이 장치나 스피커 등의 출력 인터페이스를 포함할 수도 있다.
메모리(1020)는 프로세서(1010)에 연결되고, 프로세서(1010)에 의해 실행가능한 인스트럭션들(instructions), 프로세서(1010)가 연산할 데이터 또는 프로세서(1010)에 의해 처리된 데이터를 저장할 수 있다. 메모리(1020)는, 예를 들어 비일시적인 컴퓨터 판독가능 매체, 예컨대 고속 랜덤 액세스 메모리 및/또는 비휘발성 컴퓨터 판독가능 저장 매체(예컨대, 하나 이상의 디스크 저장 장치, 플래쉬 메모리 장치, 또는 기타 비휘발성 솔리드 스테이트 메모리 장치)를 포함할 수 있다.
프로세서(1010)는 음성 인식 장치(1000)의 전체적인 동작들을 제어하고, 음성 인식 장치(1000) 내에서 실행하기 위한 기능 및/또는 인스트럭션들을 실행한다. 프로세서(1010)는 음성 데이터에 기초하여 음성 인식을 수행하고, 음성 인식 과정과 관련하여 도 1 내지 도 9를 통해 전술한 하나 이상의 동작을 실행할 수 있다.
프로세서(1010)는 음성 데이터를 수신하고, 음성 인식 모델을 이용하여 음성 데이터에 대응하는 복수의 후보 텍스트들과 후보 텍스트들 각각에 대응하는 스코어를 획득할 수 있다. 일 실시예에서, 프로세서(1010)는 현재 후보 텍스트의 텍스트 길이가 후보 텍스트들의 텍스트 길이들에 의해 결정되는 조건을 만족시키는 경우, 해당 현재 후보 텍스트의 스코어를 조정할 수 있다. 프로세서(1010)는 각 후보 텍스트들의 텍스트 길이에 기초하여 각 후보 텍스트들마다 스코어를 조정할지 여부를 결정하고, 스코어를 조정하기로 결정한 후보 텍스트의 스코어에 적용할 가중치를 결정한 후 해당 가중치를 스코어에 적용하여 가중 스코어를 결정할 수 있다. 프로세서(1010)는 스코어의 조정 결과에 기초하여 후보 텍스트들 중에서 음성 데이터에 대응하는 타겟 텍스트를 결정할 수 있다.
다른 실시예에 따르면, 프로세서(1010)는 후보 텍스트의 텍스트 길이가 후보 텍스트들의 텍스트 길이들에 의해 결정되는 조건을 만족시키는 경우, 해당 후보 텍스트를 타겟 텍스트의 후보에서 제외시킬 수 있다. 예를 들어, 텍스트 길이가 후보 텍스트들의 평균 텍스트 길이에 비해 상당히 짧거나 긴 후보 텍스트가 타겟 텍스트의 후보에서 제외될 수 있다. 프로세서(1010)는 제외되지 않은 후보 텍스트들인 나머지 후보 텍스트들의 스코어에 기초하여 타겟 텍스트를 결정할 수 있다.
또 다른 실시예에 따르면, 프로세서(1010)는 후보 텍스트들의 텍스트 길이들에 기초하여 후보 텍스트들 각각의 스코어를 전체적으로 조정할 수 있다. 예를 들어, 프로세서(1010)는 후보 텍스트들에 포함된 현재 후보 텍스트의 텍스트 길이와 후보 텍스트들의 텍스트 길이들에 의해 결정되는 텍스트 길이 간의 차이에 기초하여 현재 후보 텍스트에 적용될 가중치를 결정하고, 현재 후보 텍스트의 스코어에 현재 후보 텍스트에 대응하는 가중치를 적용하여 가중 스코어를 결정할 수 있다. 프로세서(1010)는 스코어 조정 후, 최댓값의 스코어를 가지는 후보 테스트를 타겟 텍스트로 결정할 수 있다.
위와 같은 과정을 통해 타겟 텍스트가 결정되면, 프로세서(1010)는 타겟 텍스트로부터 사용자의 커맨드를 추출하고, 추출된 커맨드를 실행하기 위한 제어 신호를 출력할 수 있다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (27)

  1. 음성 데이터를 수신하는 단계;
    음성 인식 모델을 이용하여 상기 음성 데이터에 대응하는 복수의 후보 텍스트들과 상기 후보 텍스트들 각각에 대응하는 스코어를 획득하는 단계;
    현재 후보 텍스트의 텍스트 길이가 상기 후보 텍스트들의 텍스트 길이들에 의해 결정되는 조건을 만족시키는 경우, 상기 현재 후보 텍스트의 스코어를 조정하는 단계; 및
    상기 조정 결과에 기초하여 상기 후보 텍스트들 중에서 상기 음성 데이터에 대응하는 타겟 텍스트를 결정하는 단계
    를 포함하는 음성 인식 방법.
  2. 제1항에 있어서,
    상기 현재 후보 텍스트의 텍스트 길이와 상기 후보 텍스트들의 텍스트 길이들에 의해 결정되는 텍스트 길이 간의 차이가 상기 조건을 만족시키는지 여부를 판단하는 단계
    를 더 포함하는 음성 인식 방법.
  3. 제2항에 있어서,
    상기 후보 텍스트들의 텍스트 길이들에 의해 결정되는 텍스트 길이는,
    상기 후보 텍스트들의 텍스트 길이들의 평균인,
    음성 인식 방법.
  4. 제2항에 있어서,
    상기 후보 텍스트들의 텍스트 길이들에 의해 결정되는 텍스트 길이는,
    상기 후보 텍스트들의 텍스트 길이들 중 최댓값의 텍스트 길이와 최솟값의 텍스트 길이를 제외한 나머지 텍스트 길이들의 평균인,
    음성 인식 방법.
  5. 제2항에 있어서,
    상기 차이가 상기 조건을 만족시키는지 여부를 결정하는 단계는,
    상기 차이가 상기 후보 텍스트들의 텍스트 길이들의 표준편차에 기초하여 결정되는 임계 값보다 큰 경우, 상기 조건이 만족되는 것으로 결정하는 단계
    를 포함하는 음성 인식 방법.
  6. 제1항에 있어서,
    상기 현재 후보 텍스트의 스코어를 조정하는 단계는,
    상기 현재 후보 텍스트에 대응하는 가중치를 결정하는 단계; 및
    상기 현재 후보 텍스트의 스코어에 상기 가중치를 적용하여 가중 스코어를 결정하는 단계
    를 포함하는 음성 인식 방법.
  7. 제6항에 있어서,
    상기 가중치를 결정하는 단계는,
    상기 현재 후보 텍스트의 텍스트 길이와 상기 후보 텍스트들의 텍스트 길이들에 의해 결정되는 텍스트 길이 간의 차이에 기초하여 상기 현재 후보 텍스트에 적용될 가중치를 결정하는 단계
    를 포함하는 음성 인식 방법.
  8. 제6항에 있어서,
    상기 가중치가 상기 현재 후보 텍스트의 스코어에 적용되는 경우, 상기 현재 후보 텍스트가 상기 타겟 텍스트로 결정될 확률 값 또는 기대 값이 작아지는,
    음성 인식 방법.
  9. 제6항에 있어서,
    상기 타겟 텍스트를 결정하는 단계는,
    상기 현재 후보 텍스트의 가중 스코어 및 다른 후보 텍스트의 스코어에 기초하여 상기 타겟 텍스트를 결정하는 단계
    를 포함하는 음성 인식 방법.
  10. 음성 데이터를 수신하는 단계;
    음성 인식 모델을 이용하여 상기 음성 데이터에 대응하는 복수의 후보 텍스트들과 상기 후보 텍스트들 각각에 대응하는 스코어를 획득하는 단계; 및
    현재 후보 텍스트의 텍스트 길이가 상기 후보 텍스트들의 텍스트 길이들에 의해 결정되는 조건을 만족시키는 경우, 상기 현재 후보 텍스트를 제외한 나머지 후보 텍스트들의 스코어에 기초하여 상기 음성 데이터에 대응하는 타겟 텍스트를 결정하는 단계
    를 포함하는 음성 인식 방법.
  11. 제10항에 있어서,
    상기 현재 후보 텍스트의 텍스트 길이와 상기 후보 텍스트들의 텍스트 길이들에 의해 결정되는 텍스트 길이 간의 차이가 상기 조건을 만족시키는지 여부를 판단하는 단계
    를 더 포함하는 음성 인식 방법.
  12. 제11항에 있어서,
    상기 후보 텍스트들의 텍스트 길이들에 의해 결정되는 텍스트 길이는,
    상기 후보 텍스트들의 텍스트 길이들의 평균 또는 상기 후보 텍스트들의 텍스트 길이들 중 최댓값의 텍스트 길이와 최솟값의 텍스트 길이를 제외한 나머지 텍스트 길이들의 평균인,
    음성 인식 방법.
  13. 제11항에 있어서,
    상기 차이가 상기 조건을 만족시키는지 여부를 결정하는 단계는,
    상기 차이가 상기 후보 텍스트들의 텍스트 길이들의 표준편차에 기초하여 결정되는 임계 값보다 큰 경우, 상기 조건이 만족되는 것으로 결정하는 단계
    를 포함하는 음성 인식 방법.
  14. 제10항에 있어서,
    상기 타겟 텍스트를 결정하는 단계는,
    상기 나머지 후보 텍스트들 중 최대값의 스코어를 가지는 후보 텍스트를 상기 타겟 텍스트로 결정하는 단계
    를 포함하는 음성 인식 방법.
  15. 음성 데이터를 수신하는 단계;
    음성 인식 모델을 이용하여 상기 음성 데이터에 대응하는 복수의 후보 텍스트들과 상기 후보 텍스트들 각각에 대응하는 스코어를 획득하는 단계;
    상기 후보 텍스트들의 텍스트 길이들에 기초하여 상기 후보 텍스트들 각각의 스코어를 조정하는 단계; 및
    상기 조정 결과에 기초하여 상기 후보 텍스트들 중에서 상기 음성 데이터에 대응하는 타겟 텍스트를 결정하는 단계
    를 포함하는 음성 인식 방법.
  16. 제15항에 있어서,
    상기 스코어를 조정하는 단계는,
    상기 후보 텍스트들에 포함된 현재 후보 텍스트에 대응하는 가중치를 결정하는 단계; 및
    상기 현재 후보 텍스트의 스코어에 상기 현재 후보 텍스트에 대응하는 가중치를 적용하여 가중 스코어를 결정하는 단계
    를 포함하는 음성 인식 방법.
  17. 제16항에 있어서,
    상기 가중치를 결정하는 단계는,
    상기 현재 후보 텍스트의 텍스트 길이와 상기 후보 텍스트들의 텍스트 길이들에 의해 결정되는 텍스트 길이 간의 차이에 기초하여 상기 현재 후보 텍스트에 적용될 가중치를 결정하는 단계
    를 포함하는 음성 인식 방법.
  18. 제17항에 있어서,
    상기 후보 텍스트들의 텍스트 길이들에 의해 결정되는 텍스트 길이는,
    상기 후보 텍스트들의 텍스트 길이들의 평균인,
    음성 인식 방법.
  19. 제16항에 있어서,
    상기 가중치를 결정하는 단계는,
    상기 현재 후보 텍스트의 텍스트 길이와 상기 후보 텍스트들의 텍스트 길이들에 의해 결정되는 텍스트 길이 간의 차이 및 상기 후보 텍스트들의 텍스트 길이들의 표준편차에 기초하여, 상기 현재 후보 텍스트에 적용될 가중치를 결정하는 단계
    를 포함하는 음성 인식 방법.
  20. 제16항에 있어서,
    상기 타겟 텍스트를 결정하는 단계는,
    상기 후보 텍스트들 각 후보 텍스트들의 스코어에 각 후보 텍스트들의 가중치가 적용된 가중 스코어에 기초하여 상기 타겟 텍스트를 결정하는 단계
    를 포함하는 음성 인식 방법.
  21. 제1항 내지 제20항 중 어느 하나의 항의 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
  22. 음성 인식 장치에 있어서,
    하나 이상의 프로세서를 포함하고,
    상기 하나 이상의 프로세서는,
    음성 데이터를 수신하고,
    음성 인식 모델을 이용하여 상기 음성 데이터에 대응하는 복수의 후보 텍스트들과 상기 후보 텍스트들 각각에 대응하는 스코어를 획득하고,
    현재 후보 텍스트의 텍스트 길이가 상기 후보 텍스트들의 텍스트 길이들에 의해 결정되는 조건을 만족시키는 경우, 상기 현재 후보 텍스트의 스코어를 조정하고,
    상기 조정 결과에 기초하여 상기 후보 텍스트들 중에서 상기 음성 데이터에 대응하는 타겟 텍스트를 결정하는,
    음성 인식 장치.
  23. 제22항에 있어서,
    상기 하나 이상의 프로세서는,
    상기 현재 후보 텍스트의 텍스트 길이와 상기 후보 텍스트들의 텍스트 길이들에 의해 결정되는 텍스트 길이 간의 차이가 상기 조건을 만족시키는지 여부를 판단하는,
    음성 인식 장치.
  24. 제22항에 있어서,
    상기 하나 이상의 프로세서는,
    상기 현재 후보 텍스트의 텍스트 길이가 상기 조건을 만족시키는 경우, 상기 현재 후보 텍스트에 대응하는 가중치를 결정하고, 상기 현재 후보 텍스트의 스코어에 상기 가중치를 적용하여 가중 스코어를 결정하는,
    음성 인식 장치.
  25. 음성 인식 장치에 있어서,
    하나 이상의 프로세서를 포함하고,
    상기 하나 이상의 프로세서는,
    음성 데이터를 수신하고,
    음성 인식 모델을 이용하여 상기 음성 데이터에 대응하는 복수의 후보 텍스트들과 상기 후보 텍스트들 각각에 대응하는 스코어를 획득하고,
    현재 후보 텍스트의 텍스트 길이가 상기 후보 텍스트들의 텍스트 길이들에 의해 결정되는 조건을 만족시키는 경우, 상기 현재 후보 텍스트를 제외한 나머지 후보 텍스트들의 스코어에 기초하여 상기 음성 데이터에 대응하는 타겟 텍스트를 결정하는,
    음성 인식 장치.
  26. 음성 인식 장치에 있어서,
    하나 이상의 프로세서를 포함하고,
    상기 하나 이상의 프로세서는,
    음성 데이터를 수신하고,
    음성 인식 모델을 이용하여 상기 음성 데이터에 대응하는 복수의 후보 텍스트들과 상기 후보 텍스트들 각각에 대응하는 스코어를 획득하고,
    상기 후보 텍스트들의 텍스트 길이들에 기초하여 상기 후보 텍스트들 각각의 스코어를 조정하고,
    상기 조정 결과에 기초하여 상기 후보 텍스트들 중에서 상기 음성 데이터에 대응하는 타겟 텍스트를 결정하는,
    음성 인식 장치.
  27. 제26항에 있어서,
    상기 하나 이상의 프로세서는,
    상기 후보 텍스트들에 포함된 현재 후보 텍스트의 텍스트 길이와 상기 후보 텍스트들의 텍스트 길이들에 의해 결정되는 텍스트 길이 간의 차이에 기초하여 상기 현재 후보 텍스트에 적용될 가중치를 결정하고,
    상기 현재 후보 텍스트의 스코어에 상기 현재 후보 텍스트에 대응하는 가중치를 적용하여 가중 스코어를 결정하는,
    음성 인식 장치.
KR1020190131618A 2019-10-22 2019-10-22 음성 인식 방법 및 음성 인식 장치 KR102577589B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020190131618A KR102577589B1 (ko) 2019-10-22 2019-10-22 음성 인식 방법 및 음성 인식 장치
US16/843,298 US11631414B2 (en) 2019-10-22 2020-04-08 Speech recognition method and speech recognition apparatus
CN202010325607.2A CN112700778A (zh) 2019-10-22 2020-04-23 语音识别方法和语音识别设备
EP20183502.2A EP3813060B1 (en) 2019-10-22 2020-07-01 Speech recognition method and speech recognition apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190131618A KR102577589B1 (ko) 2019-10-22 2019-10-22 음성 인식 방법 및 음성 인식 장치

Publications (2)

Publication Number Publication Date
KR20210047709A true KR20210047709A (ko) 2021-04-30
KR102577589B1 KR102577589B1 (ko) 2023-09-12

Family

ID=71452024

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190131618A KR102577589B1 (ko) 2019-10-22 2019-10-22 음성 인식 방법 및 음성 인식 장치

Country Status (4)

Country Link
US (1) US11631414B2 (ko)
EP (1) EP3813060B1 (ko)
KR (1) KR102577589B1 (ko)
CN (1) CN112700778A (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210016767A (ko) * 2019-08-05 2021-02-17 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US11355122B1 (en) * 2021-02-24 2022-06-07 Conversenowai Using machine learning to correct the output of an automatic speech recognition system
CN113763932B (zh) * 2021-05-13 2024-02-13 腾讯科技(深圳)有限公司 语音处理方法、装置、计算机设备及存储介质
CN113674742B (zh) * 2021-08-18 2022-09-27 北京百度网讯科技有限公司 人机交互方法、装置、设备以及存储介质
CN113724688B (zh) * 2021-11-04 2022-03-29 深圳市友杰智新科技有限公司 语音识别的后处理方法、装置和计算机设备
KR20230131015A (ko) * 2022-03-04 2023-09-12 삼성전자주식회사 전자 장치 및 그 제어 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080078466A (ko) * 2007-02-23 2008-08-27 삼성전자주식회사 다단계 음성인식장치 및 방법
KR20160000218A (ko) * 2014-06-24 2016-01-04 한국전자통신연구원 언어모델 군집화 기반 음성인식 장치 및 방법
KR20160066441A (ko) * 2014-12-02 2016-06-10 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US9424839B2 (en) * 2013-11-29 2016-08-23 Mitsubishi Electric Corporation Speech recognition system that selects a probable recognition resulting candidate
KR20170007107A (ko) * 2015-07-10 2017-01-18 한국전자통신연구원 음성인식 시스템 및 방법
KR20180080446A (ko) * 2017-01-04 2018-07-12 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3440840B2 (ja) 1998-09-18 2003-08-25 松下電器産業株式会社 音声認識方法及びその装置
US7761296B1 (en) 1999-04-02 2010-07-20 International Business Machines Corporation System and method for rescoring N-best hypotheses of an automatic speech recognition system
JP4239479B2 (ja) 2002-05-23 2009-03-18 日本電気株式会社 音声認識装置、音声認識方法、および、音声認識プログラム
JP4283133B2 (ja) 2004-02-23 2009-06-24 株式会社国際電気通信基礎技術研究所 音声認識装置
US7421387B2 (en) 2004-02-24 2008-09-02 General Motors Corporation Dynamic N-best algorithm to reduce recognition errors
JP2006053683A (ja) 2004-08-10 2006-02-23 Advanced Telecommunication Research Institute International 音声認識および機械翻訳装置
US7747437B2 (en) 2004-12-16 2010-06-29 Nuance Communications, Inc. N-best list rescoring in speech recognition
JPWO2007102320A1 (ja) * 2006-03-07 2009-07-23 日本電気株式会社 言語処理システム
US9159317B2 (en) * 2013-06-14 2015-10-13 Mitsubishi Electric Research Laboratories, Inc. System and method for recognizing speech
US9196246B2 (en) * 2013-06-14 2015-11-24 Mitsubishi Electric Research Laboratories, Inc. Determining word sequence constraints for low cognitive speech recognition
JP6461308B2 (ja) 2015-04-16 2019-01-30 三菱電機株式会社 音声認識装置およびリスコアリング装置
KR102371188B1 (ko) * 2015-06-30 2022-03-04 삼성전자주식회사 음성 인식 장치 및 방법과 전자 장치
KR20180087942A (ko) * 2017-01-26 2018-08-03 삼성전자주식회사 음성 인식 방법 및 장치
CN108711422B (zh) * 2018-05-14 2023-04-07 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机可读存储介质和计算机设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080078466A (ko) * 2007-02-23 2008-08-27 삼성전자주식회사 다단계 음성인식장치 및 방법
US9424839B2 (en) * 2013-11-29 2016-08-23 Mitsubishi Electric Corporation Speech recognition system that selects a probable recognition resulting candidate
KR20160000218A (ko) * 2014-06-24 2016-01-04 한국전자통신연구원 언어모델 군집화 기반 음성인식 장치 및 방법
KR20160066441A (ko) * 2014-12-02 2016-06-10 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
KR20170007107A (ko) * 2015-07-10 2017-01-18 한국전자통신연구원 음성인식 시스템 및 방법
KR20180080446A (ko) * 2017-01-04 2018-07-12 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치

Also Published As

Publication number Publication date
EP3813060A1 (en) 2021-04-28
US20210118446A1 (en) 2021-04-22
EP3813060B1 (en) 2024-01-03
KR102577589B1 (ko) 2023-09-12
CN112700778A (zh) 2021-04-23
US11631414B2 (en) 2023-04-18

Similar Documents

Publication Publication Date Title
KR102550932B1 (ko) 음성 인식 모델의 개인화 방법 및 장치
US11170788B2 (en) Speaker recognition
KR102577589B1 (ko) 음성 인식 방법 및 음성 인식 장치
KR102401512B1 (ko) 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
KR102167719B1 (ko) 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
KR20200059703A (ko) 음성 인식 방법 및 음성 인식 장치
KR102292546B1 (ko) 컨텍스트 정보를 이용하는 음성 인식 방법 및 장치
US9558741B2 (en) Systems and methods for speech recognition
CN108899013B (zh) 语音搜索方法、装置和语音识别系统
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
JP2021515905A (ja) 音声認識方法、並びにその装置、デバイス、記憶媒体及びプログラム
KR20210016767A (ko) 음성 인식 방법 및 음성 인식 장치
KR20180071029A (ko) 음성 인식 방법 및 장치
KR20180087942A (ko) 음성 인식 방법 및 장치
KR20160066441A (ko) 음성 인식 방법 및 음성 인식 장치
KR102637339B1 (ko) 음성 인식 모델을 개인화하는 방법 및 장치
KR20200044388A (ko) 음성을 인식하는 장치 및 방법, 음성 인식 모델을 트레이닝하는 장치 및 방법
US11984126B2 (en) Device for recognizing speech input of user and operating method thereof
KR102292921B1 (ko) 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
KR102220106B1 (ko) 음성 인식된 문장의 보정 방법
KR102570908B1 (ko) 음성의 끝점 검출 장치, 프로그램 및 그것의 제어 방법
KR102551296B1 (ko) 외국어 말하기 학습을 위한 대화 장치 및 그 방법
CN111292728B (zh) 语音识别方法和设备
US11887583B1 (en) Updating models with trained model update objects
US11804225B1 (en) Dialog management system

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant