WO2019172734A2

WO2019172734A2 - 데이터 마이닝 장치, 이를 이용하는 음성인식 방법 및 시스템

Info

Publication number: WO2019172734A2
Application number: PCT/KR2019/006508
Authority: WO
Inventors: 이지혜; 박선영
Original assignee: 엘지전자 주식회사
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2019-09-12
Also published as: WO2019172734A3; KR20190112682A; US11495234B2; US20220076683A1

Abstract

데이터 마이닝 장치, 이를 이용하는 음성인식 방법 및 시스템이 개시된다. 음성 인식 방법은, 음성 데이터에서 사투리가 포함된 음성 데이터를 선택하는 단계, 사투리가 포함된 음성 데이터를 분석 및 정제하는 단계 및 정제된 사투리가 포함된 음성 데이터를 이용하여 인공지능(artificial intelligence, AI) 알고리즘을 통해 음향모델 및 언어모델을 학습시키는 단계를 포함한다. 본 발명에 따르면, 사용자는 5G 이동통신의 eMBB, URLLC, mMTC 기술을 이용하여 향상된 사투리 음성인식의 서비스 이용이 가능하다.

Description

데이터 마이닝 장치, 이를 이용하는 음성인식 방법 및 시스템

본 발명은 데이터 마이닝 장치, 이를 이용하는 음성인식 방법 및 시스템에 관한 것으로, 더욱 상세하게는 사투리 인식 성능 향상을 위한 데이터 마이닝 장치 및 이를 이용하는 사투리 인식 성능이 향상된 음성인식 방법 및 시스템에 관한 것이다.

음성인식이란 사람과 기계 사이의 대화 중에 사람이 내는 음성의 인식(recognition), 해석(analysis) 및 이해(understanding)를 포함하는 개념으로서, 음성인식을 위해서 다양한 기술들이 사용된다.

음성인식 과정은 크게 세 가지 단계로 구성될 수 있다. 우선 입력된 음성 중에서 실제 사람이 발성한 음성의 특징이 추출된다. 그리고 추출된 음성의 특징을 기반으로 기준 음향모델과의 유사도 측정을 통해 패턴이 분류된다. 그리고 분류된 패턴에서 기준 언어모델을 이용하여 음성의 특징들이 언어로 처리되고 최종 문장으로 인식된다.

사투리는 한 언어 내부에서 지역과 사회적 요인에 따라 달라지는 변이체를 말한다. 사투리는 독자적인 체계와 역사를 지니고 있어서 한 언어의 다양성을 보여주는 귀중한 문화 유산에 해당한다. 사투리는 언어학적으로는 한 언어의 변이와 역사를 보여주는 자료이고, 문화적으로는 언어에 투영된 지역 사람들의 삶의 모습을 나타내는 자료이다. 그리고 사투리는 지금도 표준어와 더불어 해당 지역의 사람들에 의해 사용되고 있다.

특정 언어로 발화되는 음성을 인식하는 음성인식 시스템은 해당 언어의 표준어를 기본으로 만들어지기 때문에, 방언 즉 사투리를 인식하는 능력은 현저히 떨어질 수 밖에 없다.

사투리가 포함된 음성이 입력되는 경우, 사투리 음성이 갖는 음색 노이즈 및 음소 노이즈의 제거를 통해 사투리를 표준어로 고쳐서 인식하는 기술이 선행기술 1에 개시되어 있다.

그러나, 선행기술 1에 따르면 표준어와 사투리의 음색들이 서로 구별되지 않는 경우 이를 해결할 방법이 없으며, 사투리가 포함된 음성에서 단순한 음소 노이즈 제거만으로는 사투리가 표준어가 될 수 없기 때문에 사투리 인식 능력이 현저히 떨어지는 문제점이 있다.

또한, 수집된 고객의 발화 데이터를 음성인식 후 일관성 있는 형태로 정제한 후, 이를 이용하여 통계적 언어 모델을 학습시키고, 음성인식 엔진의 통계적 언어 모델 그래머를 갱신하는 데이터 정제 기술이 선행 기술 2에 개시되어 있다.

그러나, 선행기술 2는 표준어에 관한 일관적인 형태의 언어모델 생성에는 적합하나, 비정형적이고 다양한 형태를 갖는 사투리를 포함하는 음성인식에는 적용되기 어렵다.

<선행기술문헌>

선행기술 1: 한국 등록특허공보 제10-1836430호(2018.03.02. 등록)

선행기술 2: 한국 등록특허공보 제10-1179915호(2012.08.30. 등록)

본 발명의 일 과제는, 사투리가 갖는 비정형성으로 인하여 종래 기술에 의한 통계적 언어 모델에 적용시키기 어려웠던 사투리를 포함하는 음성인식의 문제점을 해결하는 것이다.

본 발명의 일 과제는, 사투리를 그대로 인식하지 않고 표준어로 변환함으로써 사투리와 표준어를 구별하지 못했던 종래 기술의 문제점을 해결하는 것이다.

본 발명의 일 과제는, 음성 데이터 처리에 사람이 수동으로 전사하여 많은 시간과 비용이 들었던 종래 기술의 문제점을 해결하는 것이다.

또한, 사투리로 인해 음성인식이 지연되었던 종래 기술의 문제점을 해결하는 것이다.

본 발명의 목적은 이상에서 언급한 과제에 한정되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 실시 예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 알 수 있을 것이다.

본 발명의 일 실시 예에 따른 음성인식 방법은 사투리 음성인식이 가능하도록 창작된 음성인식 시스템에 의해 수행되는 것을 특징으로 한다.

구체적으로 음성인식 방법은, 음성 데이터에서 사투리가 포함된 음성 데이터를 선택하는 단계, 상기 사투리가 포함된 음성 데이터를 분석 및 정제하는 단계 및 정제된 사투리가 포함된 음성 데이터를 이용하여 음향모델 및 언어모델을 학습시키는 단계를 포함할 수 있다.

또한, 본 발명의 일 실시 예에 따른 음성인식 방법은 음성 데이터를 수집하는 단계를 더 포함할 수 있다.

또한, 음성 데이터를 수집하는 단계를 통해, 음성인식 시스템은 서로 다른 종류의 사투리가 사용되는 지역의 사용자들 및 다양한 종류의 음성인식 서비스 도메인을 통해 사용자들의 음성 데이터를 수집할 수 있다.

또한, 음성 데이터에서 사투리가 포함된 음성 데이터를 선택하는 단계는, 상기 음성 데이터에서 이상 발성을 제거하는 단계, 음성 데이터의 신뢰도 측정을 이용하여 사투리가 포함된 음성 데이터를 채택하는 단계 및 사투리가 포함된 음성 데이터로부터 전사 데이터를 얻는 단계를 포함하도록 구성될 수 있다.

또한, 사투리가 포함된 음성 데이터를 분석 및 정제하는 단계는, 사투리가 포함된 음성 데이터에서 특징(feature)을 추출하는 단계, 추출된 특징을 이용하여 사투리가 포함된 음성 데이터에 대해 유사 사투리 클러스터링을 수행하는 단계, 유사 사투리 클러스터에서 핵심 사투리를 추출하는 단계 및 추출된 상기 핵심 사투리를 이용하여 사투리 코퍼스를 표준화하는 단계를 포함하도록 구성될 수 있다.

또한, 음성인식 시스템은 사투리가 포함된 음성 데이터에서 특징을 추출하는 단계를 통해, 사투리 음성의 발음열의 특징, 어휘적인 특징, 도메인 특징 및 빈도수 특징 중에서 적어도 하나를 추출할 수 있다.

또한, 도메인 특징은, 사용자에게 음성인식 서비스를 제공하는 전자 장치의 종류, 전자 장치가 위치하는 지역 및 전자 장치를 사용하는 사용자의 연령대에 관한 정보를 포함할 수 있다.

또한, 음성인식 시스템은 유사 사투리 클러스터링을 수행하는 단계를 통해, 비지도 학습 방식에 따라 특징 간 가중치 연산을 통해 특징 간 유사도를 측정하고, 임계값 대비 높은 유사도를 갖는 사투리를 클러스터링할 수 있다.

또한, 음성인식 시스템은 유사 사투리 클러스터에서 핵심 사투리를 추출하는 단계를 통해, 클러스터 내 빈도수 특징이 높은 상위 n개의 객체를 추출하고, 클러스터 내 다른 객체들과 특징 유사도 계산을 통해 핵심 객체를 추출할 수 있다.

또한, 음성인식 시스템은 사투리 코퍼스를 표준화하는 단계를 통해, 기존의 사투리를 핵심 객체 사투리로 치환하고, 원 사투리 문장과 치환된 문장의 유사도 측정을 통해 검증할 수 있다.

본 발명의 일 실시 예에 따른 데이터 마이닝 장치는, 음성인식 시스템이 사투리 음성을 인식할 수 있도록 하는 음성인식 시스템의 구성요소에 해당한다.

데이터 마이닝 장치는 사투리가 포함된 음성 데이터에서 특징을 추출하는 특징추출 모듈, 추출된 상기 특징을 이용하여 상기 사투리가 포함된 음성 데이터에 대해 유사 사투리 클러스터링을 수행하는 딥 러닝 모듈, 유사 사투리 클러스터에서 핵심 사투리를 추출하는 핵심 사투리 추출모듈 및 추출된 상기 핵심 사투리를 이용하여 사투리 코퍼스를 표준화하는 코퍼스 표준화 모듈을 포함하도록 구성될 수 있다.

또한, 특징추출 모듈은, 사투리 음성의 발음열의 특징, 어휘적인 특징, 도메인 특징 및 빈도수 특징 중에서 적어도 하나를 추출할 수 있다.

또한, 도메인 특징은, 사용자에게 음성인식 서비스를 제공하는 전자 장치의 종류, 상기 전자 장치가 위치하는 지역 및 상기 전자 장치를 사용하는 사용자의 연령대에 관한 정보를 포함할 수 있다.

또한, 딥 러닝 모듈은, 비지도 학습 방식에 따라 특징 간 가중치 연산을 통해 특징 간 유사도를 측정하고, 임계값 대비 높은 유사도를 갖는 사투리를 클러스터링할 수 있다.

또한, 핵심 사투리 추출모듈은, 클러스터 내 빈도수 특징이 높은 상위 n개의 객체를 추출하고, 클러스터 내 다른 객체들과 특징 유사도 계산을 통해 핵심 객체를 추출할 수 있다.

또한, 코퍼스 표준화 모듈은, 기존의 사투리를 핵심 객체 사투리로 치환하고, 원 사투리 문장과 치환된 문장의 유사도 측정을 통해 검증할 수 있다.

본 발명의 일 실시 예에 따른 음성인식 시스템은, 수집된 음성 데이터에서 사투리가 포함된 음성 데이터를 선택하는 음성 데이터 선택모듈, 사투리가 포함된 음성 데이터를 분석 및 정제하는 음성 데이터 분석 및 정제모듈, 정제된 사투리가 포함된 음성 데이터를 이용하여 음향모델 및 언어모델을 학습시키는 모델 학습모듈 및 학습된 음향모델 및 언어모델을 이용하여 음성을 인식하는 음성인식 엔진을 포함한다.

여기서, 음성 데이터 분석 및 정제모듈은, 사투리가 포함된 음성 데이터에서 특징을 추출하는 특징추출 모듈, 추출된 상기 특징을 이용하여 상기 사투리가 포함된 음성 데이터에 대해 유사 사투리 클러스터링을 수행하는 딥 러닝 모듈, 유사 사투리 클러스터에서 핵심 사투리를 추출하는 핵심 사투리 추출모듈 및 추출된 상기 핵심 사투리를 이용하여 사투리 코퍼스를 표준화하는 코퍼스 표준화 모듈을 포함할 수 있다.

본 발명에 의하면, 사투리가 포함된 음성을 인식하는 음성인식 시스템의 성능이 향상될 수 있다.

또한, 표준어를 거치지 않고서도 사투리가 포함된 음성 그대로를 인식할 수 있으므로, 사투리를 사용한 자연어 처리가 가능하다.

또한, 데이터 마이닝에 인공지능을 활용함으로써 데이터 정제가 반자동의 방법으로 수행될 수 있다.

또한, 사투리를 포함하는 코퍼스 표준화를 통해 사투리 인식에 소요되는 시간을 줄일 수 있다.

도 1은 본 발명의 일 실시 예에 따른 음성인식 시스템, 음성인식 서비스 도메인 및 이들을 서로 연결하는 네트워크를 포함하는 관계도이다.

도 2는 본 발명의 일 실시 예에 따른 음성인식 시스템의 개략적인 블록도이다.

도 3은 본 발명의 일 실시 예에 따른 데이터 마이닝 장치의 개략적인 블록도이다.

도 4는 본 발명의 일 실시 예에 따른 음성인식기의 개략적인 블록도이다.

도 5는 본 발명의 일 실시 예에 따른 음성인식기 구성 장치에 의해 수행되는 음성인식 방법의 개략적인 흐름도이다.

도 6은 본 발명의 일 실시 예에 따른 데이터 마이닝 장치에 의해 수행되는 데이터 분석 및 정제 단계에 관한 일 실시 예의 설명을 위한 예시도이다.

이하, 첨부된 도면을 참조하여 데이터 마이닝 장치, 이를 이용하는 음성인식 방법 및 시스템에 대한 바람직한 실시 예를 상세히 설명하기로 한다.

각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다. 또한 본 발명의 일 실시 예들에 대해서 특정한 구조적 내지 기능적 설명들은 단지 본 발명에 따른 실시 예를 설명하기 위한 목적으로 예시된 것으로, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는 것이 바람직하다.

도 1은 본 발명의 일 실시 예에 따른 음성인식 시스템(100), 데이터 마이닝 장치(200), 각종 스마트 전자 기기(300) 및 이들을 서로 연결하는 네트워크(400)를 포함하는 관계도이다.

음성인식 시스템(100)은 해당 음성인식 서비스 도메인을 통해 전자 기기(300)에 음성인식 서비스를 제공한다. 음성인식 시스템(100)은 사람의 발화 음성을 인식하고, 자연어 처리를 통해 대답을 하는 과정에서 기능 별로 별도의 서버로 구성될 수 있다. 본 발명의 일 실시 예에 따른 음성인식 시스템(100)은 높은 사투리 인식 성능을 갖는 것을 특징으로 한다.

데이터 마이닝 장치(200)는 사투리가 포함된 음성 데이터를 전처리한다. 음성인식 시스템(100) 내에는 데이터 마이닝 장치(200)와 유사한 기능의 데이터 분석 및 정제모듈(130)이 포함되어 있고, 데이터 마이닝 장치(200)는 이 모듈(130)이 독립적으로 구현된 것이다.

각종 스마트 전자 기기(300)는 사용자가 해당 도메인을 통해 음성인식 시스템(100)에 연결하여 음성인식 서비스를 이용할 수 있는, 단말, 예를 들어 음성을 통해 기능 조작이 가능한 모바일 통신 단말(301), 스피커(302), 세탁기(303), 로봇 청소기(304), 에어 컨디셔너(305), 및 냉장고(306)와 같은 전자 장치이다.

모바일 통신 단말(301)을 통해 제공되는 대표적인 음성인식 서비스는 애플리케이션에 의한 인공지능 비서 기능이다. 스피커(302)는, 인공지능(AI) 스피커로서 음성 입출력 기능이 없는 전자 기기를 제어하는 허브 역할을 할 수 있다. 그 밖에 생활 가전 제품들(303 내지 306)에 음성 입출력 기능이 수용되어서, 사용자는 음성 인터페이스를 이용하여 전자 제품을 제어할 수 있다. 이러한 점에서 전자 기기(300)들은 스마트 전자 기기로 불린다.

네트워크(400)는 유선 및 무선 네트워크, 예를 들어 LAN(local area network), WAN(wide area network), 인터넷(internet), 인트라넷(intranet) 및 엑스트라넷(extranet), 그리고 모바일 네트워크, 예를 들어 셀룰러, 3G, 4G LTE, 5G, WiFi 네트워크, 애드혹 네트워크 및 이들의 조합을 비롯한 임의의 적절한 통신 네트워크 일 수 있다.

네트워크(400)는 허브, 브리지, 라우터, 스위치 및 게이트웨이와 같은 네트워크 요소들의 연결을 포함할 수 있다. 네트워크(400)는 인터넷과 같은 공용 네트워크 및 안전한 기업 사설 네트워크와 같은 사설 네트워크를 비롯한 하나 이상의 연결된 네트워크들, 예컨대 다중 네트워크 환경을 포함할 수 있다. 네트워크(400)에의 액세스는 하나 이상의 유선 또는 무선 액세스 네트워크들을 통해 제공될 수 있다.

본 발명의 일 실시 예에 따른 음성인식 시스템(100)은 각 해당 도메인을 통해 전자 기기(300)에 음성인식 서비스, 특히 향상된 성능의 사투리 인식기능을 제공할 수 있다.

또는 음성인식 시스템(100)은 해당 도메인을 통해 사용자의 음성, 예를 들어 사투리가 포함된 음성 데이터를 수집할 수 있다. 그리고 각 도메인에서 수집된 사투리가 포함된 음성 데이터, 즉 사투리 음성 데이터는 음향모델 및 언어모델을 학습시키는 학습용 데이터로 활용될 수 있다. 특히 해당 도메인에 관한 각종 정보 및 전자 기기(200)가 갖는 지역 정보는 사투리 음성 데이터를 지역별로 수집하는 데에 지침이 될 수 있다.

특히 음성인식 시스템(100)은 도메인 별로 또는 지역 별로 구별되는 특징을 갖는 사투리 음성 데이터를 수집할 수 있다. 사투리 음성 데이터를 음성인식 시스템(100)의 서버로 전송하는 스마트 전자 기기(300)의 네트워크 접속 주소, 또는 하드웨어 정보를 통해 해당 스마트 전자 기기(300)가 위치해 있는 지역이 파악될 수 있다. 따라서, 경기도, 전라도, 경상도, 충청도, 강원도, 및 제주도 등의 각 지역의 사투리 음성 데이터는 지역별로 선별되어 수집될 수 있다. 이하 본 발명의 일 실시 예에 따른 음성인식 시스템(100)에 대해 자세히 설명하기로 한다.

도 2는 본 발명의 일 실시 예에 따른 음성인식 시스템(100)의 개략적인 블록도이다.

도 2를 참조하면, 음성인식 시스템(100)은 음성인식기 구성 장치(101), 음성인식기(102) 및 음성 데이터베이스(103)를 포함하도록 구성될 수 있다.

음성인식기 구성 장치(101)는 음성 데이터를 선택하고, 데이터 마이닝을 통해 선택된 음성 데이터를 분석 및 정제하고, 정제된 음성 데이터를 이용하여 모델을 학습 시키고, 모델의 성능 추정 과정을 거쳐 최종적으로 음향모델(170) 및 언어모델(190)을 학습시켜, 이들의 사투리 인식 성능을 업데이트 한다. 음성인식기 구성 장치(101)는 데이터 수집모듈(110), 데이터 선택모듈(120), 데이터 분석 및 정제모듈(130), 모델 학습모듈(140) 및 성능 추정모듈(150)을 포함하도록 구성될 수 있다. 여기서, 데이터 분석 및 정제모듈(130)은 하나의 독립된 장치, 즉 본 발명의 일 실시 예에 따른 데이터 마이닝 장치로서 구현될 수 있다.

데이터 수집모듈(110)은 음성 데이터베이스(103)로부터 지역별 사투리 음성 데이터를 수집할 수 있다. 도 1의 스마트 전자 기기(300)를 통해 입력된 각 지역의 사투리는 도메인 및 지역별로 분류되어 데이터 수집모듈(110)에 의해 수집되어 음성 데이터베이스(103)에 저장된다.

데이터 선택모듈(120)은 음성인식 시스템(100)에 저장되어 있는 음성 데이터베이스(103)에서 데이터를 선택하되, 음성인식 결과 및 lattice 등의 정보를 이용한다. 데이터 선택모듈(120)은 이상발성 분류기를 이용하여 수집된 데이터 중에서 학습에 사용 불가능한 데이터, 예를 들어 음성이 아닌 소리, 다중화자 간의 음성 및 오인식된 음성을 제외하고 데이터를 선택한다.

선택된 음성 데이터는 자동으로 그 뜻이 해석된다. 이를 자동 전사(auto transcription)라고 한다. 자동 전사의 경우 발생할 수 있는 오류를 방지하기 위해 자동 전사 결과에 대해 신뢰도가 측정되고, 신뢰도에 따라 데이터가 분류될 수 있다.

이 경우 신뢰도가 높은 데이터와 신뢰도가 낮은 데이터가 존재할 수 있다. 신뢰도가 높은 데이터는 사투리 음성 데이터를 포함할 수 있다. 따라서, 수집된 데이터 중에서 신뢰도가 낮은 데이터를 선택해서, 악센트 분석을 통해 사투리를 포함하는 음성 데이터를 선택할 수 있다. 악센트 분석을 통해 신뢰도 낮은 데이터 중에서 사투리 음성이 아닌 데이터, 예를 들어 비속어, 줄임 말 등이 제거될 수 있다. 선택된 사투리 음성 데이터로부터 전사 데이터가 추출되어 저장된다.

데이터 분석 및 정제모듈(130)은 음향모델과 언어모델을 학습시키기 위한 학습용 데이터를 생성하기 위해 원시 데이터를 가공하는, 즉 데이터 마이닝을 수행하는 모듈이다.

도 3을 참조하면, 본 발명의 일 실시 예에 따른 데이터 마이닝 장치(200)의 구성요소들이 묘사되어 있다. 데이터 마이닝 장치(200)는 도 2의 데이터 분석 및 정제모듈(130)을 포함하도록 독립된 장치로 구성될 수 있다.

데이터 마이닝 장치(200)는 특징추출 모듈(210), 딥 러닝 모듈(220), 핵심 사투리추출 모듈(230), 및 코퍼스 표준화 모듈(240)를 포함하도록 구성될 수 있다.

특징추출 모듈(210)은 음성 데이터, 특히 사투리 음성 데이터의 발음열의 특징(feature), 어휘, 즉 형태소, 품사, 임베딩(embedding)의 특징, 도메인의 특징 및 빈도수 특징 중에서 적어도 하나의 특징을 추출할 수 있다. 여기서, 발음열의 특징과 어휘의 특징은 사투리가 갖는 언어적인 특징에 해당한다.

도메인 특징은 사투리 음성의 생성과 관련된 언어 외적인 특징에 해당한다. 도 1에서 설명하였듯이 사투리 음성은 음성인식 서비스 도메인을 통해서 수집되고, 분석 및 정제될 수 있다. 도메인 특징은 해당 음성인식 서비스가 어떠한 전자 기기(300)를 통해서 제공되고 있는지, 전자 기기(300)느 어느 지역에 분포하고 있는지, 전자 기기(300)를 사용하는 사용자의 연령대는 어느 정도인지에 관한 정보를 포함할 수 있다. 따라서 도메인 특징을 통해 해당 지역에서 사용되는 사투리 별로 음성 데이터가 분류될 수 있다.

딥 러닝 모듈(220)은 특징 간 가중치를 연산하고, 특징 가 유사도를 측정하고, 그리고 임계 값보다 높은 유사도를 갖는 사투리에 대해 클러스터링을 수행한다.

핵심 사투리추출 모듈(230)은 클러스터 내 빈도수 특징이 높은 상위 n개 사투리를 추출하고, 클러스터 내 다른 객체들과 특징 유사도 계산을 통해 핵심 객체를 추출한다.

코퍼스 표준화 모듈(240)은 기존의 사투리를 핵심 객체 사투리로 치환하고, 원 사투리 문장과 치환된 문장의 유사도 측정을 통해 표준화 작업을 검증한다.

한 지역, 예를 들어 경상도 또는 전라도 사투리의 경우 같은 뜻을 갖는 하나의 사투리 어휘에서 변이를 통해 다양한 모양의 사투리가 파생될 수 있다. 이 경우 유사한 사투리끼리 분류할 필요가 있다. 동일한 뜻을 갖는 유사한 사투리끼리 분류하는 것을 군집화(clustering)라고 한다.

동일한 뜻을 갖는 다양한 형태의 사투리 어휘가 군집화된 집단에서 핵심 사투리가 추출되고, 핵심 사투리를 이용하여 사투리 어휘의 코퍼스를 표준화한다.

모델 학습모듈(140)은 음향모델(170)과 언어모델(190)을 생성하고, 정제된 데이터를 이용하여 생성된 음향모델(170)과 언어모델(190)을 학습시킨다. 본 발명에서는 딥 러닝(deep learning)을 이용하는 비지도 방식의 학습이 수행될 수 있다.

성능 추정모듈(150)은 학습된 음향모델(170) 및 언어모델(190)을 이용하여 음성인식 엔진(160)이 수행한 음성인식 결과의 신뢰도 측정을 통하여 사투리 인식성능을 추정할 수 있다. 그리고 성능 추정모듈(150)은 이전의 음성인식기와 신뢰도가 추정된 새로운 음성인식기를 비교하고, 새로운 음향모델(170) 및 언어모델(190)에 의한 음성 인식 성능이 개선된 것으로 판단되는 경우, 음성인식기의 음향모델(170)과 언어모델은 새롭게 학습된 사항을 포함하도록 업데이트 된다.

이하 음성인식 시스템(100) 내의 음성인식기(102)가 음성인식 구성 장치(101)에 의해 업데이트된 음향모델(170), 발음사전(180) 및 언어모델(190)을 이용하여 입력된 음성을 인식하는 과정에 대해서 설명하기로 한다.

도 4를 참조하면, 본 발명의 일 실시 예에 따른 음성인식기(102)가 묘사되어 있다. 음성인식기(102)는 음성인식 엔진(160), 음향모듈(170), 발음사전(180) 및 언어모델(190)을 포함하도록 구성될 수 있다.

발화된 음성은 마이크를 통해 음성 신호로 변환되고, 아날로그 음성 신호는 디지털 샘플링(digital sampling) 과정을 거쳐 디지털화된 음성 신호로 변환된다. 디지털 음성 신호는 음향 신호 처리(acoustic signal processing)를 거친다. 여기서, 음향 신호 처리에 스펙트럴 분석(spectral analysis)이 포함되기도 한다.

스마트 전자 기기(300), 예를 들어 인공지능(AI) 스피커를 통해 사투리 음성이 입력되고, 입력된 음성은 전기적인 신호로 변환되고, 변화된 아날로그 신호는 다시 샘플링을 통해 디지털 전기 신호로 변환된다. 음성인식 엔진(160)은 디지털 전기 신호에서 음성의 특징, 즉 특징벡터를 추출한다(S161). 그리고 음성인식 엔진(160)은 추출된 특징벡터를 기반으로 음향모델(170) 및 발음사전(180)을 이용하여 패턴분류 과정(S162)을 통해 후보단위를 생성하고, 발음사전 및 언어모델(190)을 이용하여 언어처리 과정(S163)을 통해 최종적으로 인식된 문장을 출력한다.

같은 언어라 할지라도, 음성은 발음하는 사람의 성별, 나이, 발음 시의 상태 등에 따라 매우 복잡하게 변할 뿐 아니라 단독으로 발음될 때와 단어나 문장 내에서 발음 될 때마다 그 성질이 변하기 때문에 음성의 특징을 잘 표현할 수 있는 특징검출이 중요하다. 즉, 특징 추출 과정에서는 불필요하게 중복되는 음성정보를 없애고 동일 음성 신호들 간의 일관성을 높임과 동시에 다른 음성 신호와는 변별력을 높일 수 있는 정보를 추출해야 한다. 이러한 정보를 특징벡터라고 한다.

특징추출은 인식에 유용한 성분을 음성신호로부터 뽑아내는 과정이다. 특징추출은 일반적으로 정보의 압축, 차원 감소 과정과 관련된다. 특징추출에서는 이상적인 정답이 없기 때문에 음성인식을 위한 특징의 좋고 나쁨은 음성인식률로 판단된다. 특징추출의 주요 연구 분야는 인간의 청각특성을 반영하는 특징 표현, 다양한 잡음환경/화자/채널 변이에 강인한(robust) 특징, 시간적인 변화를 잘 표현하는 특징의 추출이다.

음성인식을 위하여 주로 사용되는 특징추출 기술로는 선형예측계수(Linear Predictive Coefficient), 켑스트럼(cepstrum), 멜프리퀀시켑스트럼(Mel Frequency Cepstral Coefficient, MFCC), 및 주파수 대역별 에너지(filter bank energy)가 있다.

음성 인식 과정은 음성 데이터와 언어 데이터로부터 인식 네트워크 모델을 생성하는 오프라인 학습 단계와 사용자가 발성한 음성을 인식하는 온라인 탐색 단계로 구분된다.

음성인식 엔지(160)은 음성과 언어 정보라는 중요한 사전 지식을 사용하여 음성 신호로부터 문자 정보를 출력한다. 이때 음성 신호를 문자 기호로 해석한다는 차원에서 음성 인식 알고리즘을 디코더(decorder)라고 부르기도 한다.

특징 추출에서 얻어진 특징벡터는 유사도 측정 및 인식과정을 거치게 된다. 유사도 측정 및 인식을 위해서는 음성의 신호적인 특성을 모델링하여 비교하는 음향모델(Acoustic Model)과 인식어휘에 해당하는 단어나 음절 등의 언어적인 순서 관계를 모델링하는 언어모델(Language Model)이 사용된다.

음향모델은 다시 인식대상을 특징벡터 모델로 설정하고 이를 입력신호의 특징벡터와 비교하는 직접비교 방법과 인식대상의 특징벡터를 통계적으로 처리하여 이용하는 통계방법으로 나뉘어 진다. 직접비교 방법은 인식대상이 되는 단어, 음소 등의 단위를 특징벡터 모델로 설정하고 입력음성이 이와 얼마나 유사한가 비교하는 방법이다. 대표적인 것으로 벡터양자화(Vector Quantization) 방법이 있는데, 앞서 구한 특징벡터 또는 계수들을 기존 모델인 코드북(Codebook)과 매핑시켜 대표 값으로 부호화함으로써 이 부호 값들을 서로 비교하는 방법이다. 통계적 모델방법은 인식대상에 대한 단위를 상태 열(State Sequence)로 구성하고 상태 열간의 관계를 이용하는 방법이다. 상태 열은 복잡한 모델을 표시할 수 있어 간단한 단어인식을 제외하고는 대부분의 음성 인식이 이 기술을 이용한다. 상태 열간의 관계를 이용하는 방법은 다시 DTW(Dynamic Time Warping)과 같이 시간적 배열관계를 이용하는 방법, HMM과 같이 확률값, 평균, 그리고 분산을 비교대상으로 하는 통계적 방법, 그리고 인공신경망을 이용하는 방법이 있다.

디코딩 단계에서 학습 단계 결과인 음향 모델(Acoustic Model, AM), 언어 모델(Language Model, LM)과 발음 사전(Pronunciation Lexicon)을 이용하여 입력된 특징 벡터를 모델과 비교, 스코어링을 하여 단어 열이 최종 결정된다.

음성 데이터베이스(103)는 도 1에 묘사된 음성인식 서비스를 제공하는 도메인을 통해서 각종 스마트 전자 기기(300)로부터 수집된 지역별 사투리 음성 데이터 및 국가 기관 또는 연구소 등에서 구축된 공공 음성 데이터를 포함하도록 구성될 수 있다. 그리고 음성 데이터베이스(103)는 빅데이터(big data)를 포함할 수 있다.

이하 음성인식 시스템(100), 특히 음성인식기의 구성장치(101)에 의해 수행되는 음성인식 방법에 대해 자세히 설명하기로 한다.

도 5를 참조하면, 본 발명의 일 실시 예에 따른 음성인식 방법(S100)은, 사투리 음성 인식에 적합한 음성인식기(102)를 구성하는 단계와 음성인식기(102)를 이용하여 실제로 음성입력에 대해 음성을 인식하는 단계를 포함하도록 구성되는 것을 특징으로 한다.

본 발명의 일 실시 예에 따른 음성인식 방법(S100), 그 중에서도 음성인식기(102)를 구성하는 단계는, 주요 과정으로 사투리 음성 인식에 필요한 음향모델 및 언어모델을 업데이트하는 단계를 포함하는 것을 특징으로 한다.

본 발명의 일 실시 예에 따른 음성인식 시스템(100)은 사투리 음성인식 성능 향상을 위해, 다음의 단계들을 수행하는 것을 특징으로 한다.

먼저, 음성인식 시스템(100)은 데이터 수집모듈(110)을 통해 데이터를 수집한다(S110).

다음으로 음성인식 시스템(100)은 데이터 선택모듈(100)을 통해 음성 데이터에서 사투리가 포함된 음성 데이터를 선택한다(S120).

S120 단계는 내부적으로 이상발성을 제거하는 단계(S121), 음성 데이터의 신뢰도를 측정하는 단계(S122), 음성 데이터의 악센트를 분석하는 단계(123) 및 음성 데이터를 전사하는 단계(S124)를 포함하도록 구성될 수 있다.

다음으로 음성인식 시스템(100)은 데이터 분석 및 정제모듈(130)을 통해 사투리가 포함된 음성 데이터를 분석 및 정제한다(S130).

S130 단계는 내부적으로, 사투리 음성의 특징을 추출하는 단계(S131), 유사 사투리 별로 클러스터링하는 단계(S132) 및 클러스터에서 핵심 사투리를 추출하는 단계(S133) 및 사투리 코퍼스를 표준화하는 단계(S134)를 포함하도록 구성될 수 있다.

다음으로 음성인식 시스템(100)은 모델 학습모듈(140)을 통해 음향모델 및 언어모델을 생성하고, 학습용 데이터를 이용하여 음향모델 및 언어모델을 학습시킨다(S140).

S140 단계는 내부적으로 음향모델을 생성하고 이를 학습시키는 단계(S141), 음절 단위 빈도를 추출하는 단계(S142) 및 언어모델을 학습시키는 단계(S143 )를 포함하도록 구성될 수 있다. 음향모델 및 언어모델의 학습에는 발음사전이 함께 사용될 수 있다. 학습을 통해 표준어와 사투리 음성에 관한 음향모델 및 언어모델의 성능이 향상된다.

마지막으로 음성인식 시스템(100)은 성능 추정모듈(150)을 통해 학습된 음향모델(170) 및 언어모델(190)의 성능을 추정한다(S150).

S150 단계는 내부적으로 적어도 하나의 모델에 대해 신뢰도를 측정하는 단계(S151), 신뢰도를 이용하여 인식성능을 추정하는 단계(S152), 복수의 모델간의 인식성능을 비교하는 단계(S153) 및 복수의 모델 중에서 인식성능이 더 좋은 모델을 이용하여 이전의 모델과 비교하여 인식성능 개선 여부를 확인하는 단계(S154)를 포함하도록 구성될 수 있다. S150 단계는 음향모델 및 언어모델에 대해서 수행될 수 있다.

도 6을 참조하면, 본 발명의 일 실시 예에 따른 음성인식 방법을 구성하는 단계들 중에서 데이터 분석 및 정제에 관한 S210 내지 S240 단계의 예시가 묘사되어 있다. 음성 데이터의 분석 및 정제에 사용되는 사투리 문장으로, 제1 문장 "풍력 센 바람으로 운행하재이", 제2 문장 "풍력 센 바람으로 운행하지", 및 제3 문장 "풍력 센 바람으로 운행해도라"을 예시 문장으로 선정한다.

특징 추출 모듈(210)은 제1 문장 내지 제3 문장에 대해서 각 문장의 발음열에 대한 특징, 어휘의 특징, 도메인 특징 및 빈도수 특징을 추출할 수 있다(S131). 도메인 특징의 예로서 에어컨, 세탁기 등의 도메인이 묘사되어 있다.

다음으로 딥 러닝 모듈(220)은 비지도 방식의 유사 사투리 클러스터링을 수행한다(S132). 사투리 문장에서 서술어에 대한 클러스터링 결과가 묘사되어 있다. 제1 문장 내지 제3 문장에서, "운행하재이" 및 "운행하지"가 함께 군집화되었고, "운행해도라"는 같은 군집에 포함되지 않았다.

다음으로 핵심 사투리추출 모듈(230)은 빈도수 특징이 높은 사투리를 추출하고, 유사도 연산을 통해 핵심 사투리를 추출한다(S133). 제1 문장과 제2 문장의 서술어 중에서 "운행하재이"가 "운행하지"보다 빈도수 특징이 높고 나타난다. 유사도 연산을 통해 "운행하재이"가 핵심 객체로 선정된다.

다음으로 코퍼스 표준화 모듈(240)은 기존 사투리를 핵심 객체 사투리로 치환하고, 원 사투리 문장과 치환된 문장의 유사도 측정을 통해 코퍼스 표준화를 검증한다(S134). 제1 문장 내지 제3 문장에서 제2 문장의 서술어 "운행하지"가 핵심 객체인 "운행하재이"로 치환되었다.

다양한 변이에 의해 다양한 형태로 파생되는 전체 사투리 어휘를 음성인식 대상으로 한다면, 인식률이 떨어지고 사투리 인식 속도가 떨어질 수 있다. 따라서, 사투리 코퍼스의 표준화를 통해 사투리의 인식률을 높이고, 사투리 인식 속도도 높아질 수 있다.

이와 같이 본 발명의 일 실시 예에 의하면, 사투리가 포함된 음성을 인식하는 음성인식 시스템의 성능이 향상될 수 있다.

<부호의 설명>

1: 음성인식 환경, 100: 음성인식 시스템,

101, 음성인식기 구성 장치, 102: 음성인식기

103: 음성 데이터베이스, 110: 데이터 수집모듈

120: 데이터 선택모듈, 130: 데이터 분석 및 정제모듈

140: 모델 학습모듈, 150: 성능 추정모듈

160: 음성인식 엔진, 170: 음향모델

180: 발음사전, 190: 언어모델

200: 데이터 마이닝 장치, 300: 전자 기기

400: 네트워크

Claims

음성인식 시스템에 의해 수행되는 사투리 음성인식 방법으로서,

음성 데이터에서 사투리가 포함된 음성 데이터를 선택하는 단계;

상기 사투리가 포함된 음성 데이터를 분석 및 정제하는 단계; 및

정제된 사투리가 포함된 음성 데이터를 이용하여 음향모델 및 언어모델을 학습시키는 단계를 포함하는,

음성인식 방법.
제 1 항에 있어서,

상기 음성 데이터를 수집하는 단계를 더 포함하는,

음성인식 방법.
제 2 항에 있어서,

상기 음성 데이터를 수집하는 단계는,

서로 다른 종류의 사투리가 사용되는 지역의 사용자들 및 다양한 종류의 음성인식 서비스 도메인을 통해 상기 사용자들의 음성 데이터를 수집하는,

음성인식 방법.
제 1 항에 있어서,

상기 음성 데이터에서 사투리가 포함된 음성 데이터를 선택하는 단계는,

상기 음성 데이터에서 이상 발성을 제거하는 단계;

상기 음성 데이터의 신뢰도 측정을 이용하여 사투리가 포함된 음성 데이터를 채택하는 단계; 및

상기 사투리가 포함된 음성 데이터로부터 전사 데이터를 얻는 단계를 포함하는,

음성인식 방법.
제 1 항에 있어서,

상기 사투리가 포함된 음성 데이터를 분석 및 정제하는 단계는,

상기 사투리가 포함된 음성 데이터에서 특징(feature)을 추출하는 단계;

추출된 상기 특징을 이용하여 상기 사투리가 포함된 음성 데이터에 대해 유사 사투리 클러스터링을 수행하는 단계;

유사 사투리 클러스터에서 핵심 사투리를 추출하는 단계; 및

추출된 상기 핵심 사투리를 이용하여 사투리 코퍼스(corpus)를 표준화하는 단계를 포함하는,

음성인식 방법.
제 5 항에 있어서,

상기 사투리가 포함된 음성 데이터에서 특징을 추출하는 단계는,

사투리 음성의 발음열의 특징, 어휘적인 특징, 도메인 특징 및 빈도수 특징 중에서 적어도 하나를 추출하는,

음성인식 방법.
제 6 항에 있어서,

상기 도메인 특징은,

사용자에게 음성인식 서비스를 제공하는 전자 장치의 종류, 상기 전자 장치가 위치하는 지역 및 상기 전자 장치를 사용하는 사용자의 연령대에 관한 정보를 포함하는,

음성인식 방법.
제 5 항에 있어서,

상기 유사 사투리 클러스터링을 수행하는 단계는,

비지도 학습 방식에 따라 특징 간 가중치 연산을 통해 특징 간 유사도를 측정하고, 임계값 대비 높은 유사도를 갖는 사투리를 클러스터링하는,

음성인식 방법.
제 5 항에 있어서,

상기 유사 사투리 클러스터에서 핵심 사투리를 추출하는 단계는,

클러스터 내 빈도수 특징이 높은 상위 n개의 객체를 추출하고, 클러스터 내 다른 객체들과 특징 유사도 계산을 통해 핵심 객체를 추출하는,

음성인식 방법.
제 5 항에 있어서,

상기 사투리 코퍼스를 표준화하는 단계는,

기존의 사투리를 핵심 객체 사투리로 치환하고, 원 사투리 문장과 치환된 문장의 유사도 측정을 통해 검증하는,

음성인식 방법.
사투리가 포함된 음성 데이터를 처리하는 장치로서,

상기 사투리가 포함된 음성 데이터에서 특징을 추출하는 특징추출 모듈;

추출된 상기 특징을 이용하여 상기 사투리가 포함된 음성 데이터에 대해 유사 사투리 클러스터링을 수행하는 딥 러닝 모듈;

유사 사투리 클러스터에서 핵심 사투리를 추출하는 핵심 사투리 추출모듈; 및

추출된 상기 핵심 사투리를 이용하여 사투리 코퍼스를 표준화하는 코퍼스 표준화 모듈을 포함하는,

데이터 마이닝 장치.
제 11 항에 있어서,

상기 특징추출 모듈은,

사투리 음성의 발음열의 특징, 어휘적인 특징, 도메인 특징 및 빈도수 특징 중에서 적어도 하나를 추출하는,

데이터 마이닝 장치.
제 12 항에 있어서,

상기 도메인 특징은,

사용자에게 음성인식 서비스를 제공하는 전자 장치의 종류, 상기 전자 장치가 위치하는 지역 및 상기 전자 장치를 사용하는 사용자의 연령대에 관한 정보를 포함하는,

데이터 마이닝 장치.
제 11 항에 있어서,

상기 딥 러닝 모듈은,

비지도 학습 방식에 따라 특징 간 가중치 연산을 통해 특징 간 유사도를 측정하고, 임계값 대비 높은 유사도를 갖는 사투리를 클러스터링하는,

데이터 마이닝 장치.
제 11 항에 있어서,

상기 핵심 사투리 추출모듈은,

클러스터 내 빈도수 특징이 높은 상위 n개의 객체를 추출하고, 클러스터 내 다른 객체들과 특징 유사도 계산을 통해 핵심 객체를 추출하는,

데이터 마이닝 장치.
제 11 항에 있어서,

상기 코퍼스 표준화 모듈은,

기존의 사투리를 핵심 객체 사투리로 치환하고, 원 사투리 문장과 치환된 문장의 유사도 측정을 통해 검증하는,

데이터 마이닝 장치.
사투리 음성을 인식하는 음성인식 시스템으로서,

음성 데이터를 수집하는 데이터 수집모듈;

수집된 음성 데이터에서 사투리가 포함된 음성 데이터를 선택하는 음성 데이터 선택모듈;

상기 사투리가 포함된 음성 데이터를 분석 및 정제하는 음성 데이터 분석 및 정제모듈;

정제된 사투리가 포함된 음성 데이터를 이용하여 음향모델 및 언어모델을 학습시키는 모델 학습모듈; 및

학습된 음향모델 및 언어모델을 이용하여 음성을 인식하는 음성인식 엔진을 포함하되,

상기 음성 데이터 분석 및 정제모듈은,

상기 사투리가 포함된 음성 데이터에서 특징을 추출하는 특징추출 모듈;

추출된 상기 특징을 이용하여 상기 사투리가 포함된 음성 데이터에 대해 유사 사투리 클러스터링을 수행하는 딥 러닝 모듈;

유사 사투리 클러스터에서 핵심 사투리를 추출하는 핵심 사투리추출 모듈; 및

추출된 상기 핵심 사투리를 이용하여 사투리 코퍼스를 표준화하는 코퍼스 표준화 모듈을 포함하는

음성인식 시스템.