KR20200007983A - 지역적 특징 기반의 음성인식 방법 및 시스템 - Google Patents

지역적 특징 기반의 음성인식 방법 및 시스템 Download PDF

Info

Publication number
KR20200007983A
KR20200007983A KR1020200000957A KR20200000957A KR20200007983A KR 20200007983 A KR20200007983 A KR 20200007983A KR 1020200000957 A KR1020200000957 A KR 1020200000957A KR 20200000957 A KR20200000957 A KR 20200000957A KR 20200007983 A KR20200007983 A KR 20200007983A
Authority
KR
South Korea
Prior art keywords
voice
regional
region
speech recognition
learning
Prior art date
Application number
KR1020200000957A
Other languages
English (en)
Inventor
박선영
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020200000957A priority Critical patent/KR20200007983A/ko
Publication of KR20200007983A publication Critical patent/KR20200007983A/ko
Priority to US16/823,166 priority patent/US11488587B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

지역 카테고리 별로 분류된 음성 데이터를 이용하는 지역 별 음성 특징 학습 및 입력 음성에 대한 지역 카테고리 분류, 학습을 통해 생성된 음향 모델 및 언어 모델을 이용하는 입력 음성 인식을 포함하는 지역 특징 기반의 음성인식 방법이 개시된다. 본 발명에 따르면, 사용자는 인공지능(AI) 기반의 학습 및 5G 이동통신의 eMBB, URLLC, mMTC 기술을 이용하여 향상된 사투리 인식의 서비스 이용이 가능하다.

Description

지역적 특징 기반의 음성인식 방법 및 시스템{REGIONAL FEATURES BASED SPEECH RECOGNITION METHOD AND SYSTEM}
본 발명은 지역적 특징 기반의 음성인식 방법 및 시스템에 관한 것으로, 더욱 상세하게는 지역 별로 상이한 액센트 및 어휘 특성을 갖는 음성인식 향상을 위한 언어 모델링을 포함하는 음성인식 방법 및 언어 모델링 장치를 포함하는 음성인식 시스템에 관한 것이다.
음성인식이란 사람과 기계 사이의 대화 중에 사람이 내는 음성의 인식(recognition), 해석(analysis) 및 이해(understanding)를 포함하는 개념으로서, 음성인식을 위해서 다양한 기술들이 사용된다.
음성인식 과정은 크게 세 가지 단계로 구성될 수 있다. 우선 입력된 음성 중에서 실제 사람이 발성한 음성 특징음성 특징이 추출된다. 그리고 추출된 음성 특징을 기반으로 음향 모델과의 유사도 측정을 통해 음성의 패턴이 분류된다. 그리고 인식된 패턴에서 언어 모델을 이용하여 음성 특징들이 언어로 처리되고 최종적으로 음성이 문장으로 인식된다.
사투리는 한 언어 내부에서 지역과 사회적 요인에 따라 변화된 언어적인 변이체를 말한다. 사투리는 독자적인 체계와 역사를 지니고 있어서 한 언어의 다양성을 보여주는 귀중한 문화 유산에 해당한다. 사투리는 언어학적으로는 한 언어의 변이와 역사를 보여주는 자료이고, 문화적으로는 언어에 투영된 지역 사람들의 삶의 모습을 나타내는 자료이다. 그리고 사투리는 지금도 표준어와 더불어 해당 지역의 사람들에 의해 사용되고 있다.
특정 언어로 발화되는 음성을 인식하는 음성인식 시스템은 해당 언어의 표준어에 기초하여 만들어지기 때문에, 방언 즉 사투리를 인식하는 능력은 현저히 떨어질 수 밖에 없다.
사투리를 포함하는 음성인식과 번역방법에 관한 관련기술이 개시된다. 관련기술에 따르면 사투리가 섞인 발성 음성의 음색 노이즈 제거 및 사투리 데이터의 표준 언어 데이터로 변환을 통해 사투리가 표준어로 변환된다. 그러나 관련기술에 따르면 사투리가 섞인 발성 음성을 어떻게 인식할 것인지 그리고, 음색과 어휘 변환만으로 사투리가 인식될 수 있을 지 의문이다.
또한, 방언을 표준어로 변환하는 방법 및 장치에 관한 관련기술이 개시된다. 관련기술에 따르면 방언과 표준어에 공통인 단어를 소정의 키워드로 대체함으로써 방언 문장에서 표준어 문장이 획득될 수 있다. 그러나 표준어와 구별되는 방언의 특징이 아닌 공통 단어가 이용되는 점에서 설득력이 떨어진다.
위의 관련기술에는 지역적 특징이 있는 지역 언어, 예를 들어 사투리 또는 방언을 방언의 언어적 특징을 갖는 언어 모델에 기초하지 않고, 사투리를 표준어로 변환하여 인식하려는 오류가 존재한다.
한국 등록특허공보 제10-1836430호(2018.03.02. 등록) 한국 공개특허공보 제10-2018-0114781호(2018.10.19. 공개)
본 발명의 일 과제는, 지역적 특징을 갖는 음성을 표준어로 변환하여 인식하려는 종래 기술의 문제점을 해결하는 것이다.
본 발명의 일 과제는, 사투리 인식에 표준어 기반의 언어 모델을 이용하려는 종래 기술의 문제점을 해결하는 것이다.
본 발명의 일 과제는, 액센트 및 어휘와 관련된 지역색이 포함된 음성을, 이에 기초하여 구축된 음향 및 언어 모델을 이용하여 인식할 수 있는 시스템을 제공하는 것이다.
본 발명의 과제는 이상에서 언급한 과제에 한정되지 않으며, 언급되지 않은 본 발명의 다른 과제 및 장점들은 하기의 실시 예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 과제 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 알 수 있을 것이다.
본 발명의 일 실시 예에 따른, 지역적 특징 기반의 음성인식 방법은, 지역 카테고리 별로 분류된 음성 데이터를 이용하는 지역 별 음성 특징 학습; 및 입력 음성에 대한 지역 카테고리 분류, 학습을 통해 생성된 음향 모델 및 언어 모델을 이용하는 입력 음성인식을 포함하도록 구성될 수 있다.
또한, 지역 별 음성 특징 학습은, 액센트에 기반하여 지역 카테고리 별로 음성 특징 분류를 포함할 수 있다.
또한, 지역 별 음성 특징 학습은, 추출된 음성 특징을 이용하는 지역 분류 학습 모델 생성을 포함할 수 있다.
또한, 지역 별 음성 특징 학습은, 분류된 음성 특징을 이용하는 음향 모델 학습을 더 포함할 수 있다.
또한, 지역 별 음성 특징 학습은, 지역 별로 수집된 코퍼스에 기반하는 언어 모델 학습을 더 포함할 수 있다.
또한, 언어 모델 학습은, 지역 별로 수집된 코퍼스에 포함된 단어 별 지역 정보 벡터 레이블링을 포함할 수 있다.
또한, 언어 모델 학습은, 지역 별로 많이 쓰이는 단어에 대해 해당 지역 정보의 값이 높게 책정되는 벡터 레이블링을 포함할 수 있다.
또한, 입력 음성 인식은, 지역 별 음향 모델 및 언어 모델을 이용하는 지역 별 언어 인식기를 이용하는 입력 음성인식, 음성인식 과정에서 입력 음성의 액센트, 지역 별 특징적인 단어, 및 상기 단어의 사용 횟수를 이용하는 입력 음성이 속하는 지역 카테고리 예측 및 예측에 따라 가장 높은 점수를 획득한 지역 카테고리 음성인식기의 출력 선택을 포함하도록 구성될 수 있다.
또한, 입력 음성 인식은, 지역 별 음성인식기에 의해 병렬적으로 수행될 수 있다.
또한, 지역 카테고리 예측은, 입력 음성의 액센트, 입력 음성에 포함된 지역색을 갖는 단어 및 상기 단어의 사용 횟수에 기반하여 지역 별 음성인식기의 출력을 순위화를 포함할 수 있다.
본 발명의 일 실시 예에 따른, 지역적 특징 기반의 음성인식 시스템은, 지역 카테고리 별로 분류된 음성 데이터를 이용하여 지역 별 음성 특징을 학습시키는 학습 모듈 및 입력 음성에 대한 지역 카테고리 분류, 상기 학습을 통해 생성된 음향 모델 및 언어 모델을 이용하여 상기 입력 음성을 인식하는 음성인식기를 포함하도록 구성될 수 있다.
또한, 학습 모듈은, 액센트에 기반하여 지역 카테고리 별로 음성 특징을 분류하는 지역 분류 학습 모듈을 포함할 수 있다.
또한, 지역 분류 학습 모듈은, 액센트에 기반하여 지역 카테고리 별로 추출된 음성 특징을 분류하는 지역 분류기를 생성할 수 있다.
또한, 학습 모듈은, 분류된 음성 특징을 이용하는 음향 모델을 학습시키는 음향 모델 학습 모듈을 더 포함할 수 있다.
또한, 학습 모듈은, 지역 별로 수집된 코퍼스에 기반하여 언어 모델을 학습시키는 언어 모델 학습 모듈을 더 포함할 수 있다.
또한, 언어 모델 학습 모듈은, 지역 별로 수집된 코퍼스에 포함된 단어 별 지역 정보 벡터 레이블링을 수행할 수 있다.
또한, 언어 모델 학습 모듈은, 지역 별로 많이 쓰이는 단어에 대해 해당 지역 정보의 값이 높게 책정되는 벡터 레이블링을 수행할 수 있다.
또한, 음성인식기는, 지역 별 음향 모델 및 언어 모델을 이용하는 지역 별 언어 인식기를 이용하여 입력 음성을 인식하되, 음성인식 과정에서 입력 음성의 액센트, 지역색을 갖는 단어, 및 상기 단어의 사용 횟수를 이용하여 상기 입력 음성이 속하는 지역 카테고리 예측을 통해 상기 예측에 따라 가장 높은 점수를 획득한 지역 카테고리 음성인식기의 출력을 선택할 수 있다.
또한, 상기 음성인식기는, 병렬적으로 음성을 인식하는 지역 별 음성인식기를 포함할 수 있다.
또한, 지역적 특징 기반의 음성인식 시스템은, 입력 음성의 액센트, 입력 음성에 포함된 지역색을 갖는 단어 및 상기 단어의 사용 횟수에 기반하는 지역분류 결과 확률 벡터, 지역색을 갖는 단어 별 지역정보 확률 벡터 및 상기 횟수 스칼라 값을 이용하여 지역 별 음성인식기의 출력을 순위화할 수 있다.
본 발명에 의하면, 발화 음성의 액센트 분석에 기반하여 지역을 판별하고, 지역 별 음성 및 텍스트 데이터 수집을 통해 음향 모델과 언어 모델 구축이 가능하다.
또한, 지역적 특징이 반영된 음향 모델과 언어 모델을 음성인식에 활용함으로써 음성인식의 성능이 향상될 수 있다.
또한, 화자 음성의 액센트 및 사용된 지역적 특징이 있는 어휘 정보를 이용하여 병렬 운영에 따른 음성인식이기의 결과의 순위화를 통해 최적의 음성인식 결과가 채택될 수 있다.
도 1은 음성인식 시스템의 블록도이다.
도 2는 음성인식 시스템을 포함하는 네트워크 환경의 예시도이다.
도 3은 본 발명의 일 실시 예에 따른 음성인식 시스템의 블록도이다.
도 4는 본 발명의 일 실시 예에 따른 음성인식 방법의 흐름도이다.
도 5는 본 발명의 일 실시 예에 따른 음성인식 방법의 예시도이다.
도 6은 본 발명의 일 실시 예에 따른 음성인식 방법의 예시도이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
도 1은 음성인식 시스템의 블록도이다.
도 1을 참조하면, 음성인식기(101)가 묘사되어 있다. 음성인식기(101)는 음성인식 엔진, 음향 모델, 발음 사전(130) 및 언어 모델을 포함하도록 구성될 수 있다.
발화된 음성은 마이크(Microphone)를 통해 아날로그 신호(Analog Signal)로 변환되고, 아날로그 신호는 디지털 샘플링(Digital Sampling) 과정을 거쳐 디지털 신호(Digital Signal)로 변환된다. 디지털 신호는 음향 신호 처리(Acoustic Signal Processing)를 거친다. 여기서, 음향 신호 처리에 스펙트럴 분석(Spectral Analysis)이 포함되기도 한다.
스마트 전자 기기(300), 예를 들어 인공지능(AI) 스피커(302)를 통해 사투리가 입력되고, 입력된 음성은 아날로그 신호로 변환되고, 변화된 아날로그 신호는 다시 샘플링을 통해 디지털 신호로 변환된다. 음성인식 엔진은 디지털 신호에서 음성 특징, 즉 특징벡터를 추출한다. 그리고 음성인식 엔진은 추출된 특징벡터를 기반으로 음소 적응 모델(120) 및 발음 사전을 이용하여 패턴인식 과정을 통해 후보단위를 생성하고, 발음 사전 및 언어 모델을 이용하여 언어처리 과정을 통해 최종적으로 인식된 문장을 출력한다.
음성인식기(101)는 패턴인식 과정에서, 예를 들어 간단한 숫자로 표현된 음성 신호의 특징을 기초로 음소, 음절, 단어라는 문장의 원소를 인식해 낸다. 그리고 음성인식기(101)는 후처리 단계인 언어처리 단계에서 문장의 원소를 재구성해 문장을 복원해 낸다. 패턴인식 단계에서는 음성학, 음운학, 음운 배열론 및 시형론의 지식이 이용되고, 후처리 단계인 언어처리 단계에서는 구문론, 의미론, 어형론의 지식이 이용될 수 있다.
같은 언어라 할지라도, 음성은 발음하는 사람의 성별, 나이, 발음 시의 상태 등에 따라 매우 복잡하게 변할 뿐 아니라 단독으로 발음될 때와 단어나 문장 내에서 발음 될 때마다 그 성질이 변하기 때문에 음성 특징을 잘 표현할 수 있는 특징검출이 중요하다. 즉, 특징 추출 과정에서는 불필요하게 중복되는 음성정보를 없애고 동일 음성 신호들 간의 일관성을 높임과 동시에 다른 음성 신호와는 변별력을 높일 수 있는 정보를 추출해야 한다. 이러한 정보를 특징벡터라고 한다.
특징추출은 인식에 유용한 성분을 음성신호로부터 뽑아내는 과정이다. 특징추출은 일반적으로 정보의 압축, 차원 감소 과정과 관련된다. 특징추출에서는 이상적인 정답이 없기 때문에 음성인식을 위한 특징의 좋고 나쁨은 음성인식률로 판단된다. 특징추출의 주요 연구 분야는 인간의 청각특성을 반영하는 특징 표현, 다양한 잡음환경/화자/채널 변이에 강인한(robust) 특징, 시간적인 변화를 잘 표현하는 특징의 추출이다.
음성인식에 필요한 입력 음성 특징을 추출하는 기술로는 선형예측계수(Linear Predictive Coefficient), 켑스트럼(Cepstrum), 멜프리퀀시켑스트럼(Mel Frequency Cepstral Coefficient, MFCC), 및 주파수 대역별 에너지(Filter Bank Energy)가 이용될 수 있다.
음성인식 단계 중에서 패턴인식 알고리즘이 가장 활발히 연구되고 있다. 패턴인식 알고리즘의 종류로 DTW(Dynamic Time Warping), HMM(Hidden markov Modeling), 지식기반 시스템(Knowledge base system), 인공 신경망(Artificial Neural Network)이 있다. 여기서 DTW 는 동적 프로그래밍 (dynamic programming)을, HMM 은 확률추정을, 지식기반 시스템은 인공지능을 이용한 추론을, 인공 신경망은 패턴인식의 기능을 이용해 동일한 문제를 각기 다른 방법으로 해결한다.
본 발명의 일 실시 예에 따른 지역적 특징 기반의 음성인식 시스템(500)은 음성인식 단계에서 인공지능 알고리즘의 한 종류인 딥 러닝(deep learning)을 적용하여 음성의 패턴을 인식할 수 있다. 예를 들어 HMM의 각 상태(state) 확률 분포를 모델링하는데 사용되는 GMM이 DNN으로 대체되는, 인공 신경망 중에서 DNN(Deep Neural Network)과 HMM을 결합하는 방식이 이용될 수 있다.
DNN-HMM을 이용한 음성인식에서는 DNN을 적용하여 음성 특징 벡터로부터 상태확률이 계산될 수 있다. DNN의 입력은 10여 개 프레임의 음성 특징 벡터가 되고, 출력은 HMM에서 단위로 사용하는 모든 트라이폰(triphone)의 각 상태 확률이 된다. 10여개 프레임으로부터 얻은 특징벡터 열을 입력하여 학습된 DNN의 layer별 모델 파라미터에 따라 최종 출력에서 트라이폰의 상태확률 값이 얻어지고, 이를 이용하여 등록된 어휘 단위의 인식결과가 탐색된다.
영상 인식 분야에서 탁월한 성능을 발휘하는 컨볼루션 신경망으로 해결하기 어려운 음성인식, 언어번역, 자연어 처리 등 시계열 데이터 분야에 순환 신경망(Recurrent Neural Network, RNN)이 이용될 수 있다. 순환 신경망의 경우 고정 길이 입력이 아닌 임의의 길이를 가진 시퀀스(sequence)를 처리할 수 있다.
순환 신경망은 연상 메모리(Associative memory)처럼 출력이 입력에 귀환되는 구조라기보다는 은닉층의 상태를 저장하기 위해 출력이 귀환되는 구조를 갖는다. 순환의 의미는 반복을 의미하며, 순환 신경망은 특정 부분이 반복되는 구조를 갖는다. 기존 신경망 대비 순환 신경망에서, 은닉층 뉴런은 자기 자신에게 다시 돌아오는 가중치인 순환 가중치(Recurrent Weight)를 포함한다. 순환 가중치는 과거의 데이터에 대한 정보를 기억할 수 있는 기능이 있어서 순환 신경망은 새로운 데이터를 처리할 때 과거의 기억을 사용할 수 있다.
언어처리 알고리즘으로 구문규칙 모델과 통계적 모델이 있다. 구문규칙 방식은 구문론 규칙에 따라 매 단어 다음에 올 수 있는 단어의 종류를 제한해 문장을 구성하는 방식이다. 한편, N-gram으로 표현되는 통계적 모델은 매 단어에 대해 이전의 n 개의 단어가 발생할 확률을 고려해 문장을 인식한다.
음성인식 과정은 음성 데이터와 언어 데이터로부터 인식 네트워크 모델을 생성하는 오프라인 학습 단계와 사용자가 발성한 음성을 인식하는 온라인 탐색 단계로 구분된다.
음성인식 엔진은 음성학적 및 언어학적 정보라는 중요한 지식, 즉 음향 모델, 언어 모델 및 여기여 추가적으로 발음 사전을 사용하여 음성 신호로부터 문자 정보를 출력한다. 이때 음성 신호를 문자 기호로 해석한다는 차원에서 음성인식 엔진을 디코더(Decoder)라고 부르기도 한다.
특징 추출에서 얻어진 특징벡터는 유사도 측정 및 인식과정을 거치게 된다. 유사도 측정 및 인식을 위해서는 음성의 신호적인 특성을 모델링하여 비교하는 음향 모델(Acoustic Model), 특히 사투리 음소의 적응을 위한 음향 모델과 인식 어휘에 해당하는 단어나 음절 등의 언어적인 순서 관계를 모델링하는 언어 모델(Language Model)이 사용된다.
음향 모델은 다시 인식대상을 특징벡터 모델로 설정하고 이를 입력신호의 특징벡터와 비교하는 직접비교 방법과 인식대상의 특징벡터를 통계적으로 처리하여 이용하는 통계방법으로 나뉘어 진다. 직접비교 방법은 인식대상이 되는 단어, 음소 등의 단위를 특징벡터 모델로 설정하고 입력음성이 이와 얼마나 유사한가 비교하는 방법이다. 대표적인 것으로 벡터양자화(Vector Quantization) 방법이 있는데, 앞서 구한 특징벡터 또는 계수들을 기존 모델인 코드북(Codebook)과 매핑시켜 대표 값으로 부호화함으로써 이 부호 값들을 서로 비교하는 방법이다.
통계적 모델방법은 인식대상에 대한 단위를 상태 열(State Sequence)로 구성하고 상태 열간의 관계를 이용하는 방법이다. 상태 열은 복잡한 모델을 표시할 수 있어 간단한 단어인식을 제외하고는 대부분의 음성인식이 이 기술을 이용한다. 상태 열간의 관계를 이용하는 방법은 다시 DTW(Dynamic Time Warping)과 같이 시간적 배열관계를 이용하는 방법, HMM과 같이 확률값, 평균, 그리고 분산을 비교대상으로 하는 통계적 방법, 그리고 인공 신경망을 이용하는 방법이 있다.
디코딩 단계에서 학습 단계 결과인 음향 모델(Acoustic Model, AM), 언어 모델(Language Model, LM)과 발음 사전(Pronunciation Lexicon)을 이용하여 입력된 특징 벡터를 모델과 비교, 스코어링을 하여 단어 열이 최종 결정된다.
데이터베이스(105)는 음성인식 서비스를 제공하는 도메인을 통해서 각종 스마트 전자 기기(300)로부터 수집된 지역 별 사투리 데이터를 포함하는 사용자 로그데이터 및 국가 기관 또는 연구소 등에서 구축된 공공 음성 데이터를 포함하도록 구성될 수 있다. 그리고 데이터베이스(105)는 빅데이터(Big Data)를 포함하도록 구성될 수 있다.
음성인식 시스템(100)은 전자 기기(300)에 포함된 마이크(301)를 통해 입력되어 전처리된 음성 신호를 이용하여 음성을 인식하고, 인식된 텍스트에 기반하여 그 내용을 이해하고, 이해된 내용에 기반하여 자연어를 생성하고, 생성된 텍스트를 이용하여 스피커(302)를 통해 출력 가능한 음성을 합성한다.
음성인식 시스템(100)은 음성의 입력에서 출력까지의 일련의 과정들을 각각 수행하는 음성인식이기(Automatic Speech Recognition, ASR)(101), 자연어 이해(Natural Language Understanding, NLU) 모듈(102), 자연어 생성 (Natural Language Generation, NLG) 모듈(103) 텍스트-문장 변환(Text-to-Sentence) 모듈(104)을 포함하도록 구성될 수 있다. 여기서, 음성인식 시스템(100)을 이루는 구성요소들은 하나의 서버 형태, 또는 각각이 하나 이상의 서버 형태로 구성될 수 있다.
도 1을 다시 참조하면, ASR(101) 내지 TTS(104)가 수행하는 음성인식 과정을 온라인 단계라고 하면, 오프라인 단계에서는 데이터 처리 장치(201)와 모델 생성모듈(202)에 의해 데이터 수집, 가공 및 이를 이용하는 음성인식에 필요한 각종 모델 학습 과정이 수행된다.
도 2는 음성인식 시스템을 포함하는 네트워크 환경의 예시도이다.
도 2를 참조하면, 음성인식 시스템(100)과 학습 시스템(200), 음성 인터페이스를 통해 제어될 수 있는 각종 스마트 전자 기기(300) 및 이들을 서로 연결시켜 통신이 가능하게 하는 네트워크(400)가 묘사되어 있다.
음성인식 시스템(100)은 각종 음성을 인식하고, 인식된 음성에 기반하여 자연어 처리 과정을 통해 말과 문자 형태로 처리 결과를 출력하는, 복합적인 기능을 수행하는 시스템이다.
음성인식 시스템(100)은 각종 음성인식 서비스 도메인을 통해 스마트 전자 기기(300)에 음성인식 서비스를 제공할 수 있다. 여기서 음성인식 서비스는 사람의 음성을 인식하는 것에 한정되지 않고 자연어 처리를 통한 인공지능 비서 기능과 음성 인터페이스를 통한 전자 기기 제어 서비스를 포함할 수 있다.
음성인식 시스템(100)은 음성인식, 자연어 이해, 자연어 생성 및 음성 합성을 포함하는 음성 처리 전체 과정을 수행할 수 있도록 구성될 수 있다. 음성인식 시스템(100)은 컴퓨팅 장치와 같은 하나의 서버 형태로 구성되거나, 음성인식, 자연어 이해, 자연어 생성 및 음성합성 각각에 대해 하나 이상의 서버로 구성될 수 있다.
학습 시스템(200)은 사투리를 포함하는 데이터를 처리하고, 처리된 데이터를 이용하여 사투리 인식에 필요한 모델을 학습시키는 시스템이다.
학습 시스템(200)은 해당 도메인을 통해 사용자의 음성, 예를 들어 사투리가 포함된 음성 데이터를 수집할 수 있다. 즉 학습 시스템(200)은 사용자 로그데이터를 통해 음성 데이터를 수집할 수 있다. 그리고 각 도메인에서 수집된 사투리가 포함된 음성 데이터, 즉 사투리 데이터는 음향 모델 및 언어 모델을 학습시키는 훈련용 데이터로 활용될 수 있다. 특히 해당 도메인에 관한 각종 정보 및 전자 기기(300)가 갖는 지역 정보는 사투리 데이터를 지역 별로 분류하는 데에 지침이 될 수 있다.
학습 시스템(200)은 도메인 별로 또는 지역 별로 구별되는 특징을 갖는 사투리 데이터를 수집할 수 있다. 사투리 데이터를 음성인식 시스템(100) 서버로 전송하는 스마트 전자 기기(300)의 네트워크 접속 주소, 또는 하드웨어 정보를 통해 해당 스마트 전자 기기(300)가 위치해 있는 지역이 파악될 수 있다. 따라서, 경기도, 전라도, 경상도, 충청도, 강원도, 및 제주도 등의 각 지역의 사투리 데이터는 지역 별로 선별되어 수집될 수 있다.
전자 기기(300)는 음성 입력/출력 인터페이스를 포함하고, 사물인터넷(Internet of thing)으로서 임베디드 시스템(Embedded System)을 포함하도록 구성될 수 있다. 전자 기기(300)의 예로는 인공지능 비서 기능을 수행하는 사용자 단말(301), 타 전자 기기(300)를 네트워크(400)에 연결시키는 허브 역할을 하는 인공지능 스피커(302), 로봇 청소기(304), 공조기(305) 및 냉장고(306)와 같은 사물인터넷(IoT)에 해당하는 각종 전자 기기(300)가 있을 수 있다. 다만, 전자 기기(300)의 예가 도 1에 묘사된 것에 한정되는 것은 아니다.
전자 기기(300)는 해당 도메인을 통해 음성인식 시스템(100)에 연결하여 음성인식 서비스를 이용할 수 있다. 사용자 단말(301)을 통해 제공되는 대표적인 음성인식 서비스는 애플리케이션에 의한 인공지능 비서 기능이다. 인공지능 스피커(302)는, 인공지능(AI) 알고리즘을 이용하는 에이전트 기능의 스피커로서 음성 입출력 기능이 없는 전자 기기를 제어하는 허브 역할을 할 수도 있다. 그 밖에 생활 가전 제품들(303 내지 306)에 음성 입출력 기능이 수용되어서, 사용자는 음성 인터페이스를 이용하여 전자 제품을 제어할 수 있다. 이러한 점에서 전자 기기(300)들은 스마트 전자 기기로 불린다.
네트워크(400)는 유선 및 무선 네트워크, 예를 들어 LAN(local area network), WAN(wide area network), 인터넷(internet), 인트라넷(intranet) 및 엑스트라넷(extranet), 그리고 모바일 네트워크, 예를 들어 셀룰러, 3G, 4G LTE, 5G, WiFi 네트워크, 애드혹 네트워크 및 이들의 조합을 비롯한 임의의 적절한 통신 네트워크 일 수 있다.
네트워크(400)는 허브, 브리지, 라우터, 스위치 및 게이트웨이와 같은 네트워크 요소들의 연결을 포함할 수 있다. 네트워크(400)는 인터넷과 같은 공용 네트워크 및 안전한 기업 사설 네트워크와 같은 사설 네트워크를 비롯한 하나 이상의 연결된 네트워크들, 예컨대 다중 네트워크 환경을 포함할 수 있다. 네트워크(400)에의 액세스는 하나 이상의 유선 또는 무선 액세스 네트워크들을 통해 제공될 수 있다.
각종 스마트 전자 기기(300)는 5G 네트워크를 통해 사투리 음소 적응 학습 시스템(200)과 데이터를 전송하고 수신할 수 있다. 특히 스마트 전자 기기(300)는 5G 네트워크를 통해 모바일 브로드밴드(Enhanced Mobile Broadband, eMBB), URLLC(Ultra-reliable and low latency communications) 및 mMTC(Massive Machine-type communications) 중에서 적어도 하나의 서비스를 이용하여 사투리 음소 적응 학습 시스템(200)과 데이터 통신을 할 수 있다.
eMBB(Enhanced Mobile Broadband)는 모바일 브로드밴드 서비스로, 이를 통해 멀티미디어 콘텐츠, 무선데이터 액세스 등이 제공된다. 또한, 폭발적으로 증가하고 있는 모바일 트래픽을 수용하기 위한 핫스팟 (hot spot)과 광대역 커버리지 등 보다 향상된 모바일 서비스가 eMBB를 통해 제공될 수 있다. 핫스팟을 통해 사용자 이동성이 작고 밀도가 높은 지역으로 대용량 트래픽이 수용될 수 있다. 광대역 커버리지를 통해 넓고 안정적인 무선 환경과 사용자 이동성이 보장될 수 있다.
URLLC(Ultra-reliable and low latency communications) 서비스는 데이터 송수신의 신뢰성과 전송 지연 측면에서 기존 LTE 보다 훨씬 엄격한 요구사항을 정의하고 있으며, 산업 현장의 생산 프로세스 자동화, 원격 진료, 원격 수술, 운송, 안전 등을 위한 5G 서비스가 여기에 해당한다.
mMTC(Massive Machine-type communications)는 비교적 작은 양의 데이터 전송이 요구되는 전송지연에 민감하지 않은 서비스이다. 센서 등과 같이 일반 휴대폰 보다 훨씬 더 많은 수의 단말들이 동시에 무선액세스 네트워크에 mMTC에 의해 접속할 수 있다. 이 경우, 단말의 통신모듈 가격은 저렴해야 하고, 배터리 교체나 재충전 없이 수년 동안 동작할 수 있도록 향상된 전력 효율 및 전력 절감 기술이 요구된다.
지능형 가상 비서(Intelligent Virtual Assistant)란 개인 비서처럼 사용자가 요구하는 작업을 처리하고 사용자에게 특화된 서비스를 제공하는 소프트웨어 에이전트이다. 최근 지능형 가상 비서는 인공지능 엔진과 음성인식을 기반으로 사용자에게 맞춤 정보를 제공하고, 사용자의 음성 명령에 따라 일정 관리, 이메일 전송, 식당 예약 등 여러 기능을 수행한다.
소위 말하는 스마트 스피커로 구현된 지능형 가상 비서가 제공하는 서비스의 종류가 전자 기기의 기능 제어, 날씨 등의 정보 제공 및 채팅에 머물고 있지만, 그 서비스의 범위가 점차 넓어지고 있다.
스마트 스피커가 제공하는 다양한 음성인식 관련 서비스 중에서 독거 노인 관련 서비스도 중요한 자리를 차지하고 있다. 스마트 스피커는 점점 늘어가는 독거 노인들의 건강 및 복지 관리를 위한 수단으로 이용될 수 있다. 대화 및 감시 기능을 통해 스마트 스피커는 때로는 복지 공무원 역할을, 때로는 상담사 역할을, 때로는 긴급 구조 안내 역할을 수행할 수 있다. 그런데, 스마트 스피커가 음성인식을 통해 독거 노인들의 상태를 인식하는데 가장 걸림돌이 되는 것은 독거 노인들이 많이 사용하고 있는 지역적 특징이 강한 사투리이다.
한국 내에서 사용되는 사투리 중에서 가장 많은 비중을 차지하는 사투리는 경상도, 전라도 및 충청도 사투리이다. 그리고 사투리 중에서 대화자 사이에서 의사 소통과 관련된 구어(spoken language) 사투리는 연령대가 높을수록 사용 빈도가 높다. 본 발명은 사용자 단말, 스마트 스피커와 같은 각종 전자 기기에 모듈 형태로 구현될 수 있는 음성인식을 위한 입력/출력 인터페이스를 통해 서비스될 수 있는 음성인식 서비스에서 지역적 특징이 있는 음성, 예를 들어 사투리 인식을 위한 지역적 특징 기반의 음성인식 방법 및 음성인식 시스템에 관한 것이다.
도 3은 본 발명의 일 실시 예에 따른 음성인식 시스템의 블록도이다.
도 3을 참조하면, 본 발명의 일 실시 예에 따른 지역적 특징 기반의 음성인식 시스템(500)(이하 음성인식 시스템)이 묘사되어 있다. 음성인식 시스템(500)은 지역 카테고리 별로 분류된 음성 데이터를 이용하여 지역 별 음성 특징을 학습시키는 학습 모듈(510, 520, 530) 및 입력 음성에 대한 지역 카테고리 분류, 학습을 통해 생성된 음향 모델(521) 및 언어 모델(531)을 이용하여 입력 음성을 인식하는 음성인식기(540)를 포함하도록 구성될 수 있다.
학습 모듈은 지역 분류 학습 모듈(510), 음향 모델 학습 모듈(520) 및 언어 모델 학습 모듈(530)을 포함하도록 구성될 수 있다.
지역 분류 학습 모듈(510)은 액센트에 기반하여 지역 카테고리 별로 음성 특징을 분류하는 기능을 수행할 수 있다. 지역 분류 학습 모듈(510)은, 액센트에 기반하여 지역 카테고리 별로 추출된 음성 특징을 분류하는 지역 분류기를 생성할 수 있다.
음향 모델 학습 모듈(520)은 분류된 음성 특징을 이용하여 음향 모델을 학습시키는 기능을 수행할 수 있다.
언어 모델 학습 모듈(530)은 지역 별로 수집된 코퍼스에 기반하여 언어 모델을 학습시키는 기능을 수행할 수 있다.
언어 모델 학습 모듈은(530) 지역 별로 수집된 코퍼스에 포함된 단어 별 지역 정보 벡터 레이블링을 수행할 수 있다.
언어 모델 학습 모듈(530)은, 지역 별로 많이 쓰이는 단어에 대해 해당 지역 정보의 값이 높게 책정되는 벡터 레이블링을 수행할 수 있다.
음성인식기(540)는, 음향 모델(521) 및 지역 별 언어 모델(531)을 이용하는 지역 별 음성인식기(540)를 이용하여 입력 음성을 인식하되, 음성인식 과정에서 입력 음성의 액센트, 지역 별 특징적인 단어, 및 상기 단어의 사용 횟수를 이용하여 상기 입력 음성이 속하는 지역 카테리 예측을 통해 상기 예측에 따라 가장 높은 점수를 획득한 지역 카테고리 음성인식기의 출력을 선택할 수 있다(550).
음성인식기(540)는, 병렬적으로 음성을 인식하는 지역 별 음성인식기를 포함하도록 구성될 수 있다.
음성인식 시스템(500)은, 입력 음성의 액센트, 입력 음성에 포함된 지역적으로 특징적으로 사용되는 단어 및 상기 단어의 횟수에 기반하여 지역 별 음성인식기의 출력을 순위화할 수 있다.
도 4는 본 발명의 일 실시 예에 따른 음성인식 방법의 흐름도이다.
도 4를 참조하면, 본 발명의 일 실시 예에 따른 지역적 특징 기반의 음성인식 방법(S100)은 지역 카테고리 별로 분류된 음성 데이터를 이용하여 직역 별 음성 특징을 학습하는 단계(S110) 및 입력 음성에 대한 지역 카테고리 분류, 학습을 통해 생성된 음향 및 언어 모델을 이용하여 입력 음성 인식(S120)을 포함하도록 구성될 수 있다.
S110 단계는 액센트에 기반하여 지역 카테고리 별로 음성 데이터 분류(S111), 분류된 음성 데이터를 이용하여 음향 모델 학습(S112), 및 지역 별로 수집된 코퍼스를 이용하는 언어 모델 학습(S113)을 포함하도록 구성될 수 있다.
S120 단계는 음향 모델 및 지역 별 언어 모델을 이용하는 지역 별 음성인식기를 이용하는 입력 음성 인식(S121), 음성인식 과정에서 입력 음성의 액센트, 지역 별 특징적인 단어 및 단어의 사용 횟수를 이용하는 입력 음성이 속하는 지역 카테고리 예측(S122), 가장 높은 점수를 획득한 지역 카테고리 음성인식기의 출력 선택(S123)을 포함하도록 구성될 수 있다.
도 5는 본 발명의 일 실시 예에 따른 음성인식 방법의 예시도이다.
도 5를 참조하면, 지역 별 영어 음성인식기를 활용하는 음성인식 방법이 묘사되어 있다. 음성인식 시스템(500)은 지역 분류기(511)를 통해 액센트 기반으로 하여 입력 음성의 지역을 분류할 수 있다. 입력 음성으로 "Aeroplane to go Seoul"이 입력이 되는 경우를 가정한다. "aeroplane"이라는 단어는 영국식 영국식 영어(British English)에서 주로 사용되는 단어에 해당한다. 따라서 "Aeroplane to go Seoul"이라는 문장은 영국식 액센트로 발화되었을 가능성이 높다. 이 경우 지역 분류기(511)는 입력된 음성의 액센트에 기반하여 입력 음성이 영국식 영어일 확률은 0.7, 미국식 영어일 확률은 0.1, 호주식 영어일 확률은 0.05 그리고 아일랜드식 영어일 확률은 0.03으로 하여 지역을 예측할 수 있다.
음성인식 시스템(500)은 지역 별 영어 음성인식기를 이용하여 병렬적으로 입력 음성을 인식할 수 있다. 본 발명의 일 실시 예에 따른 음성인식 시스템(500)은 입력 음성에 대해 복수의 음성인식기를 병렬적으로 구동시켜 음성 인식을 시도한다. 영어 음성 인식에 있어서 영국식 영어, 미국식 영어, 호주식 영어 및 아일랜드식 영어 음성인식기가 구비될 수 있다. 각 영어 음성인식기는 해당 지역에서 특징적으로 사용되는 어휘를 포함하는 코퍼스에 기반하여 구축된 언어 모델을 이용할 수 있다.
입력 음성에 "aeroplane"이라는 단어(word)가 포함되어 있으므로 영국식 영어 음성인식기는 입력 음성의 "aeroplane"이라는 단어에 대한 지역정보 확률 벡터 값으로 0.8을 부여할 수 있다. 0.8이라는 확률 값은 다른 지역의 영어 음성인식기가 부여한 값인 0.01보다 높은 확률 값에 해당한다.
음성인식 시스템(500)은 인식 결과 선택기(550)를 통해 지역정보 기반 인식 결과를 순위화할 수 있다. 액센트 기반의 지역 분류 결과의 확률 벡터, 음성에 포함된 지역색을 갖는 단어 기반의 지역정보 확률 벡터 및 음성에 포함된 지역색을 갖는 단어의 수는 지역정보 기반 인식 결과 순위화 모듈에서 변수로 이용될 수 있다.
마지막으로 음성인식 시스템(500)은 인식 결과 선택기(550)를 통해 가장 높은 점수를 얻은 음성인식기에 의한 음성인식 결과를 선택할 수 있다. 입력 음성은 영국식 액센트를 통해 발화된 것으로 음성 중에 "aeroplane"이라는 영국식 지역색을 갖는 단어가 포함되어 있으므로, 영국식 영어 음성인식기는, 입력 음성에 대해 지역 분류 결과 확률 벡터와 지역정보 확률 벡터의 값을 다른 지역의 영어 음성인식기보다 높은 값으로 부여할 수 있다. 결과적으로 순위화 모듈에 따라 영국식 영어 음성인식기의 음성인식 결과가 선택될 수 있다.
액센트와 사용된 단어에 기반하여 지역을 예측하는 작업은, 영국식 영어, 미국식 영어, 호주식 영어 및 아일랜드식 영어의 구분이 일도양단 식으로 명확한 것이 아니다. 즉 발화자의 성장 환경에 따라 입력 음성에는 영국식 영어, 미국식 영어, 호주식 영어 및 아일랜드식 영어가 혼재될 수 있다. 따라서 본 발명의 일 실시 예에서는, 액센트에 기반한 지역 분류 결과 확률 벡터, 지역색을 갖는 단어 별 지역정보 확률 벡터 및 이들 단어가 사용된 횟수를 이용하여 지역정보 기반 인식 결과를 순위화 할 수 있다. 극단적인 예를 들어 입력 음성에 영국식 영어가 34%, 미국식 영어가 33% 그리고 호주식 영어가 33% 섞인 경우, 복수의 영어 음성인식기의 결과 중에서 영국식 영어 음성인식기의 결과가 선택될 수 있다.
도 6은 본 발명의 일 실시 예에 따른 음성인식 방법의 예시도이다.
도 6을 참조하면, 지역 별 사투리 음성인식기를 활용하는 음성인식 방법이 묘사되어 있다.
음성인식 시스템(500)은 지역 분류기(511)를 통해 액센트 기반으로 하여 입력 음성의 지역을 분류할 수 있다. 예를 들어 음성인식 시스템(500)은 입력 음성의 액센트를 기반으로 입력 음성이 경상도, 전라도, 충청도 및 강원도 중에서 어느 지역의 사투리인지 지역을 분류할 수 있다.
음성인식 시스템(500)은 지역 별 사투리 음성인식기를 이용하여 병렬적으로 입력 음성을 인식할 수 있다.
음성인식 시스템(500)은 인식 결과 선택기(550)를 통해 지역정보 기반 인식 결과를 순위화할 수 있다.
마지막으로 음성인식 시스템(500)은 인식 결과 선택기(550)를 통해 가장 높은 점수를 얻은 음성인식기에 의한 음성인식 결과를 선택할 수 있다.
지역 정보 기반 인식 결과 순위화 모듈은 액센트 기반 지역 분류 결과 확률 벡터 및 어휘 별 지역정보 확률 벡터 및 인식 결과의 횟수를 고려하여 각 음성인식기 인식 결과를 순위화 할 수 있다.
이와 같이 본 발명의 일 실시 예에 의하면, 발화 음성의 액센트 분석에 기반하여 지역을 판별하고, 지역 별 음성 및 텍스트 데이터 수집을 통해 음향 모델과 언어 모델 구축이 가능하다.
또한, 지역적 특징이 반영된 음향 모델과 언어 모델을 음성인식에 활용함으로써 음성인식의 성능이 향상될 수 있다.
또한, 화자 음성의 액센트 및 사용된 지역적 특징이 있는 어휘 정보를 이용하여 병렬 운영에 따른 음성인식이기의 결과의 순위화를 통해 최적의 음성인식 결과가 채택될 수 있다.
이상 설명된 본 발명에 따른 실시 예는 컴퓨터 상에서 다양한 구성요소를 통하여 실행될 수 있는 컴퓨터 프로그램의 형태로 구현될 수 있으며, 이와 같은 컴퓨터 프로그램은 컴퓨터로 판독 가능한 매체에 기록될 수 있다. 이때, 매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다.
한편, 상기 컴퓨터 프로그램은 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 프로그램의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함될 수 있다.
본 발명의 명세서(특히 특허청구범위에서)에서 "상기"의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 본 발명에서 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 적용한 발명을 포함하는 것으로서(이에 반하는 기재가 없다면), 발명의 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다.
본 발명에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 발명이 한정되는 것은 아니다. 본 발명에서 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시 예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.
1: 네트워크 환경, 100: 음성인식 시스템
200: 학습 시스템 300: 전자 기기
400: 네트워크
500: 지역적 특징 기반의 음성인식 시스템

Claims (20)

  1. 지역 카테고리 별로 분류된 음성 데이터를 이용하여 지역 별 음성 특징을 학습하는 단계; 및
    입력 음성에 대한 지역 카테고리 분류, 상기 학습을 통해 생성된 음향 모델 및 언어 모델을 이용하여 상기 입력 음성을 인식하는 단계를 포함하는,
    지역적 특징 기반의 음성인식 방법.
  2. 제1항에 있어서,
    상기 지역 별 음성 특징을 학습하는 단계는,
    액센트에 기반하여 지역 카테고리 별로 음성 특징을 분류하는 단계를 포함하는,
    지역적 특징 기반의 음성인식 방법.
  3. 제1항에 있어서,
    상기 지역 별 음성 특징을 학습하는 단계는,
    추출된 음성 특징을 이용하여 지역 분류 학습 모델을 생성하는 단계를 포함하는,
    지역적 특징 기반의 음성인식 방법.
  4. 제2항에 있어서,
    상기 지역 별 음성 특징을 학습하는 단계는,
    분류된 음성 특징을 이용하여 음향 모델을 학습하는 단계를 더 포함하는,
    지역적 특징 기반의 음성인식 방법.
  5. 제4항에 있어서,
    상기 지역 별 음성 특징을 학습하는 단계는,
    지역 별로 수집된 코퍼스에 기반하여 언어 모델을 학습하는 단계를 더 포함하는,
    지역적 특징 기반의 음성인식 방법.
  6. 제5항에 있어서,
    상기 언어 모델을 학습하는 단계는,
    지역 별로 수집된 코퍼스에 포함된 단어 별 지역 정보 벡터 레이블링 단계를 포함하는,
    지역적 특징 기반의 음성인식 방법.
  7. 제5항에 있어서,
    상기 언어 모델을 학습하는 단계는,
    지역 별로 많이 쓰이는 단어에 대해 해당 지역 정보의 값이 높게 책정되는 벡터 레이블링 단계를 포함하는,
    지역적 특징 기반의 음성인식 방법.
  8. 제1항에 있어서,
    상기 입력 음성을 인식하는 단계는,
    상기 지역 별 음향 모델 및 언어 모델을 이용하는 지역 별 언어 인식기를 이용하여 입력 음성을 인식하는 단계;
    음성인식 과정에서 입력 음성의 액센트, 지역 별 특징적인 단어, 및 상기 단어의 사용 횟수를 이용하여 상기 입력 음성이 속하는 지역 카테리를 예측하는 단계; 및
    상기 예측에 따라 가장 높은 점수를 획득한 지역 카테고리 음성인식기의 출력을 선택하는 단계를 포함하는,
    지역적 특징 기반의 음성인식 방법.
  9. 제8항에 있어서,
    상기 입력 음성을 인식하는 단계는,
    지역 별 음성인식기에 의해 병렬적으로 수행되는,
    지역적 특징 기반의 음성인식 방법.
  10. 제8항에 있어서,
    상기 지역 카테고리를 예측하는 단계는,
    입력 음성의 액센트, 입력 음성에 포함된 지역색을 갖는 단어 및 상기 단어의 사용 횟수에 기반하여 지역 별 음성인식기의 출력을 순위화하는 단계를 포함하는,
    지역적 특징 기반의 음성인식 방법.
  11. 지역 카테고리 별로 분류된 음성 데이터를 이용하여 지역 별 음성 특징을 학습시키는 학습 모듈; 및
    입력 음성에 대한 지역 카테고리 분류, 상기 학습을 통해 생성된 음향 모델 및 언어 모델을 이용하여 상기 입력 음성을 인식하는 음성인식기를 포함하는,
    지역적 특징 기반의 음성인식 시스템.
  12. 제11항에 있어서,
    상기 학습 모듈은,
    액센트에 기반하여 지역 카테고리 별로 음성 특징을 분류하는 지역 분류 학습 모듈을 포함하는,
    지역적 특징 기반의 음성인식 시스템.
  13. 제12항에 있어서,
    상기 지역 분류 학습 모듈은,
    액센트에 기반하여 지역 카테고리 별로 추출된 음성 특징을 분류하는 지역 분류기를 생성하는,
    지역적 특징 기반의 음성인식 시스템.
  14. 제12항에 있어서,
    상기 학습 모듈은,
    분류된 음성 특징을 이용하여 음향 모델을 학습시키는 음향 모델 학습 모듈을 더 포함하는,
    지역적 특징 기반의 음성인식 시스템.
  15. 제14항에 있어서,
    상기 학습 모듈은,
    지역 별로 수집된 코퍼스에 기반하여 언어 모델을 학습시키는 언어 모델 학습 모듈을 더 포함하는,
    지역적 특징 기반의 음성인식 시스템.
  16. 제15항에 있어서,
    상기 언어 모델 학습 모듈은,
    지역 별로 수집된 코퍼스에 포함된 단어 별 지역 정보 벡터 레이블링을 수행하는,
    지역적 특징 기반의 음성인식 시스템.
  17. 제15항에 있어서,
    상기 언어 모델 학습 모듈은,
    지역 별로 많이 쓰이는 단어에 대해 해당 지역 정보의 값이 높게 책정되는 벡터 레이블링을 수행하는,
    지역적 특징 기반의 음성인식 시스템.
  18. 제11항에 있어서,
    상기 음성인식 시스템은,
    상기 지역 별 음향 모델 및 언어 모델을 이용하는 지역 별 언어 인식기를 이용하여 입력 음성을 인식하되, 음성인식 과정에서 입력 음성의 액센트, 지역색을 갖는 단어, 및 상기 단어의 사용 횟수를 이용하여 상기 입력 음성이 속하는 지역 카테고리 예측을 통해 상기 예측에 따라 가장 높은 점수를 획득한 지역 카테고리 음성인식기의 출력을 선택하는,
    지역적 특징 기반의 음성인식 시스템.
  19. 제18항에 있어서,
    상기 음성인식기는,
    병렬적으로 음성을 인식하는 지역 별 음성인식기를 포함하는,
    지역적 특징 기반의 음성인식 시스템.
  20. 제18항에 있어서,
    상기 지역적 특징 기반의 음성인식 시스템은,
    입력 음성의 액센트, 입력 음성에 포함된 지역색을 갖는 단어 및 상기 단어의 사용 횟수에 기반하는 지역분류 결과 확률 벡터, 지역색을 갖는 단어 별 지역정보 확률 벡터 및 상기 횟수 스칼라 값을 이용하여 지역 별 음성인식기의 출력을 순위화하는,
    지역적 특징 기반의 음성인식 시스템.
KR1020200000957A 2020-01-03 2020-01-03 지역적 특징 기반의 음성인식 방법 및 시스템 KR20200007983A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200000957A KR20200007983A (ko) 2020-01-03 2020-01-03 지역적 특징 기반의 음성인식 방법 및 시스템
US16/823,166 US11488587B2 (en) 2020-01-03 2020-03-18 Regional features based speech recognition method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200000957A KR20200007983A (ko) 2020-01-03 2020-01-03 지역적 특징 기반의 음성인식 방법 및 시스템

Publications (1)

Publication Number Publication Date
KR20200007983A true KR20200007983A (ko) 2020-01-22

Family

ID=69368300

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200000957A KR20200007983A (ko) 2020-01-03 2020-01-03 지역적 특징 기반의 음성인식 방법 및 시스템

Country Status (2)

Country Link
US (1) US11488587B2 (ko)
KR (1) KR20200007983A (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112233651A (zh) * 2020-10-10 2021-01-15 深圳前海微众银行股份有限公司 方言类型的确定方法、装置、设备及存储介质
CN112908296A (zh) * 2021-02-18 2021-06-04 上海工程技术大学 一种方言识别方法
CN113470617A (zh) * 2021-06-28 2021-10-01 科大讯飞股份有限公司 语音识别方法以及电子设备、存储装置
CN113470652A (zh) * 2021-06-30 2021-10-01 山东恒远智能科技有限公司 一种基于工业互联网的语音识别及处理方法
CN113223522B (zh) * 2021-04-26 2022-05-03 北京百度网讯科技有限公司 语音识别方法、装置、设备和存储介质
KR20220095109A (ko) * 2020-12-29 2022-07-06 대한민국(우정사업본부) 언어 분류에 따른 챗봇 상담 방법 및 시스템

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11551681B1 (en) * 2019-12-13 2023-01-10 Amazon Technologies, Inc. Natural language processing routing

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101836430B1 (ko) 2017-08-07 2018-03-08 고현선 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버
KR20180114781A (ko) 2017-04-11 2018-10-19 삼성전자주식회사 방언을 표준어로 변환하는 방법 및 장치

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7664639B2 (en) * 2004-01-14 2010-02-16 Art Advanced Recognition Technologies, Inc. Apparatus and methods for speech recognition
US20080010273A1 (en) * 2006-06-12 2008-01-10 Metacarta, Inc. Systems and methods for hierarchical organization and presentation of geographic search results
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
US9009049B2 (en) * 2012-06-06 2015-04-14 Spansion Llc Recognition of speech with different accents
JP6585154B2 (ja) * 2014-07-24 2019-10-02 ハーマン インターナショナル インダストリーズ インコーポレイテッド 単一音響モデルと自動アクセント検出を用いたテキスト規則ベースの複数アクセントの音声認識
US10950239B2 (en) * 2015-10-22 2021-03-16 Avaya Inc. Source-based automatic speech recognition
US10311859B2 (en) * 2016-01-16 2019-06-04 Genesys Telecommunications Laboratories, Inc. Material selection for language model customization in speech recognition for speech analytics
US10347244B2 (en) * 2017-04-21 2019-07-09 Go-Vivace Inc. Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response
US10388272B1 (en) * 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
US11749281B2 (en) * 2019-12-04 2023-09-05 Soundhound Ai Ip, Llc Neural speech-to-meaning
US11308938B2 (en) * 2019-12-05 2022-04-19 Soundhound, Inc. Synthesizing speech recognition training data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180114781A (ko) 2017-04-11 2018-10-19 삼성전자주식회사 방언을 표준어로 변환하는 방법 및 장치
KR101836430B1 (ko) 2017-08-07 2018-03-08 고현선 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112233651A (zh) * 2020-10-10 2021-01-15 深圳前海微众银行股份有限公司 方言类型的确定方法、装置、设备及存储介质
CN112233651B (zh) * 2020-10-10 2024-06-04 深圳前海微众银行股份有限公司 方言类型的确定方法、装置、设备及存储介质
KR20220095109A (ko) * 2020-12-29 2022-07-06 대한민국(우정사업본부) 언어 분류에 따른 챗봇 상담 방법 및 시스템
CN112908296A (zh) * 2021-02-18 2021-06-04 上海工程技术大学 一种方言识别方法
CN113223522B (zh) * 2021-04-26 2022-05-03 北京百度网讯科技有限公司 语音识别方法、装置、设备和存储介质
CN113470617A (zh) * 2021-06-28 2021-10-01 科大讯飞股份有限公司 语音识别方法以及电子设备、存储装置
CN113470617B (zh) * 2021-06-28 2024-05-31 科大讯飞股份有限公司 语音识别方法以及电子设备、存储装置
CN113470652A (zh) * 2021-06-30 2021-10-01 山东恒远智能科技有限公司 一种基于工业互联网的语音识别及处理方法

Also Published As

Publication number Publication date
US11488587B2 (en) 2022-11-01
US20210210081A1 (en) 2021-07-08

Similar Documents

Publication Publication Date Title
US11189272B2 (en) Dialect phoneme adaptive training system and method
US11488587B2 (en) Regional features based speech recognition method and system
US11508361B2 (en) Sentiment aware voice user interface
US11056100B2 (en) Acoustic information based language modeling system and method
Katagiri et al. Pattern recognition using a family of design algorithms based upon the generalized probabilistic descent method
US11302329B1 (en) Acoustic event detection
US11495234B2 (en) Data mining apparatus, method and system for speech recognition using the same
JPH08328585A (ja) 自然言語処理装置および自然言語処理方法、並びに音声認識装置および音声認識方法
US11605387B1 (en) Assistant determination in a skill
US11715472B2 (en) Speech-processing system
Kumar et al. Machine learning based speech emotions recognition system
CN115176309A (zh) 语音处理系统
Rajendran et al. Language dialect based speech emotion recognition through deep learning techniques
US11915683B2 (en) Voice adaptation using synthetic speech processing
US11887583B1 (en) Updating models with trained model update objects
CN117882131A (zh) 多个唤醒词检测
Sarma et al. Speech recognition in Indian languages—a survey
Thakur et al. NLP & AI speech recognition: an analytical review
US12100383B1 (en) Voice customization for synthetic speech generation
US11978438B1 (en) Machine learning model updating
Fadhel et al. Unsupervised and Semi-Supervised Speech Recognition System: A Review
US11961514B1 (en) Streaming self-attention in a neural network
US12039998B1 (en) Self-supervised federated learning
KR100776730B1 (ko) 가우시안 믹스쳐 모델을 사용하는 비핵심어 모델링부를포함하는 화자독립 가변어휘 핵심어 검출 시스템 및 그방법
Rahmon et al. Speech Recognition Model in Yoruba Language

Legal Events

Date Code Title Description
A201 Request for examination