KR20190068392A

KR20190068392A - 음성인식 시스템 및 이의 전사데이터 생성 방법

Info

Publication number: KR20190068392A
Application number: KR1020170168731A
Authority: KR
Inventors: 황명진; 지창진
Original assignee: 주식회사 엘솔루
Priority date: 2017-12-08
Filing date: 2017-12-08
Publication date: 2019-06-18
Also published as: KR102083938B1

Abstract

본 발명에 따른 전사 데이터를 생성하는 음성인식 시스템은 음성데이터를 수신하는 음성데이터 수신부, 상기 음성데이터에 기초하여 전사데이터를 생성하기 위한 프로그램이 저장된 메모리 및 상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함하되, 상기 프로세서는 상기 프로그램을 실행시킴에 따라, 상기 메모리에 저장된 기반 음성인식 모델에 기초하여 전사할 음성데이터를 자동 전사하여 1차 자동 전사데이터를 생성하고, 상기 1차 자동 전사데이터 및 상기 음성데이터의 대비 결과에 기초하여 1차 정제 전사데이터를 생성하며, 상기 음성데이터 및 상기 1차 정제 전사데이터에 기초하여 음성인식 모델을 1차 학습하여 2차 음성인식 모델을 생성하고, 상기 2차 음성인식 모델에 기초하여 상기 음성데이터를 자동 전사하여 2차 자동 전사데이터를 생성할 수 있다.

Description

음성인식 시스템 및 이의 전사데이터 생성 방법{SYSTEM FOR RECOGNIZING SPEECH AND METHOD FOR GENERATING TRANSCRIPTION DATA}

본 발명은 음성인식 시스템 및 이의 전사데이터 생성 방법에 관한 것이다.

자동 음성인식(Speech To Text, STT)이란 원시 음성데이터를 그에 맞는 문자열로 자동 변환하는 전산 기법이다. 이러한 자동 음성인식 기술은 방송, 전화상담, 녹취, 통역, 빅데이터 분석 등의 시장에서 음성데이터 분석에 대한 수요가 커지고 있는 실정이다.

한편, 자동 음성인식에 있어서, 원천 데이터가 음성일 경우 필요한 정보를 직접 추출하는 것이 불가능하므로, 문자열을 변환하는 전사 과정이 필수적이다.

이러한 전사 과정을 수작업으로 할 경우 시간과 비용이 막대하게 소모되는 문제가 있다.

반면, 전사를 기계를 이용해 자동으로 할 경우 빠른 속도로 인해 비용 및 시간을 절감할 수 있으나 그 결과물에 있어 일부 오류가 존재한다는 문제가 있다.

본 발명은 전사데이터를 수작업으로 구축함으로 인해 소요되는 금전적, 시간적 비용을 줄임과 동시에 그 오류를 최소화할 수 있는 음성인식 시스템 및 이의 전사데이터 생성 방법을 제공한다.

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 전사 데이터를 생성하는 음성 인식 시스템은 음성데이터를 수신하는 음성데이터 수신부, 상기 음성데이터에 기초하여 전사데이터를 생성하기 위한 프로그램이 저장된 메모리 및 상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함한다. 이때, 상기 프로세서는 상기 프로그램을 실행시킴에 따라, 상기 메모리에 저장된 기반 음성인식 모델에 기초하여 전사할 음성데이터를 자동 전사하여 1차 자동 전사데이터를 생성하고, 상기 1차 자동 전사데이터 및 상기 음성데이터의 대비 결과에 기초하여 1차 정제 전사데이터를 생성하며, 상기 음성데이터 및 상기 1차 정제 전사데이터에 기초하여 음성인식 모델을 1차 학습하여 2차 음성인식 모델을 생성하고, 상기 2차 음성인식 모델에 기초하여 상기 음성데이터를 자동 전사하여 2차 자동 전사데이터를 생성한다.

상기 프로세서는 상기 기반 음성인식 모델에 상기 음성데이터를 적용하여 각 음성에 대응하는 전사 신뢰도 데이터를 추출하고, 상기 추출된 전사 신뢰도 데이터를 토대로 상기 1차 자동 전사데이터를 고품질 그룹 및 저품질 그룹으로 구분할 수 있다.

상기 프로세서는 상기 1차 자동 전사데이터 혹은 상기 저품질 그룹으로 구분된 1차 자동 전사데이터를 상기 음성데이터와 비교하여 검증할 수 있다.

상기 프로세서는 상기 2차 음성인식 모델에 상기 음성데이터를 적용하여 각 음성에 대응하는 전사 신뢰도 데이터를 추출하고, 상기 추출된 전사 신뢰도 데이터에 기초하여 상기 1차 정제 전사데이터를 고품질 그룹 및 저품질 그룹으로 구분하여 상기 2차 정제 전사데이터를 생성할 수 있다.

상기 프로세서는 상기 1차 정제 전사데이터 또는 상기 고품질 그룹으로 구분된 1차 정제 전사데이터를 상기 2차 자동 전사데이터와 비교하고, 상기 비교 결과 기 설정된 임계치의 유사도에 기초하여 상기 고품질 그룹 및 저품질 그룹으로 구분하여 상기 2차 정제 전사데이터를 생성할 수 있다.

상기 프로세서는 상기 2차 정제 전사데이터 중 상기 저품질 그룹으로 구분된 2차 정제 전사데이터에 대하여, 상기 음성데이터의 대비 결과에 기초하여 다시 1차 정제 전사데이터로 생성할 수 있다.

상기 프로세서는 상기 2차 정제 전사데이터 중 상기 고품질 그룹으로 구분된 2차 정제 전사데이터 및 상기 음성데이터를 기반으로 2차 음성인식 모델을 학습할 수 있다.

상기 음성인식 모델은 음성모델 및 언어모델을 포함하되, 상기 프로세서는 상기 음성모델 및 언어모델 중 언어모델만을 대상으로 상기 학습을 수행할 수 있다.

또한, 본 발명의 제 2 측면에 따른 음성 인식 시스템에서의 전사데이터 생성 방법은 기반 음성인식 모델에 기초하여 전사 대상인 음성데이터를 자동 전사하여 1차 자동 전사데이터를 생성하는 단계; 상기 1차 자동 전사데이터 및 상기 음성데이터의 대비 결과에 기초하여 1차 정제 전사데이터를 생성하는 단계; 상기 음성데이터 및 상기 1차 정제 전사데이터에 기초하여 음성인식 모델을 1차 학습하여 2차 음성인식 모델을 생성하는 단계 및 상기 2차 음성인식 모델에 기초하여 상기 음성데이터를 자동 전사하여 2차 자동 전사데이터를 생성하는 단계를 포함한다.

상기 1차 자동 전사데이터를 생성하는 단계는, 상기 기반 음성인식 모델에 상기 음성데이터를 적용하여 각 음성에 대응하는 전사 신뢰도 데이터를 추출하고, 상기 추출된 전사 신뢰도 데이터를 토대로 상기 1차 자동 전사데이터를 고품질 그룹 및 저품질 그룹으로 구분하는 단계를 더 포함할 수 있다.

본 발명에 따른 전사데이터 생성 방법은 상기 1차 자동 전사데이터 또는 상기 저품질 그룹으로 구분된 1차 자동 전사데이터를 상기 음성데이터와 비교하여 검증하는 단계를 더 포함할 수도 있다.

상기 2차 자동 전사데이터를 생성하는 단계는, 상기 2차 음성인식 모델에 상기 음성데이터를 적용하여 각 음성에 대응하는 전사 신뢰도 데이터를 추출하는 단계를 더 포함할 수 있다. 이때, 상기 고품질 그룹 및 저품질 그룹으로 구분하는 단계는, 상기 추출된 전사 신뢰도 데이터에 기초하여 상기 1차 정제 전사데이터를 고품질 그룹 및 저품질 그룹으로 구분하여 상기 2차 정제 전사데이터를 생성할 수 있다.

상기 고품질 그룹 및 저품질 그룹으로 구분하는 단계는, 상기 1차 정제 전사데이터 또는 상기 고품질 그룹으로 구분된 1차 정제 전사데이터를 상기 2차 자동 전사데이터와 비교하고, 상기 비교 결과 기 설정된 임계치의 유사도에 기초하여 상기 고품질 그룹 및 저품질 그룹으로 구분하여 상기 2차 정제 전사데이터를 생성할 수 있다.

본 발명에 따른 전사데이터 생성 방법은 상기 2차 정제 전사데이터 중 상기 저품질 그룹으로 구분된 2차 정제 전사데이터에 대하여 상기 음성데이터의 대비 결과에 기초하여 1차 정제 전사데이터를 생성하는 단계를 더 포함할 수 있다.

본 발명에 따른 전사데이터 생성 방법은 상기 2차 정제 전사데이터 중 상기 고품질 그룹으로 구분된 2차 정제 전사데이터 및 상기 음성데이터를 기반으로 2차 음성인식 모델을 학습하는 단계를 더 포함할 수 있다.

상기 음성인식 모델은 음성모델 및 언어모델을 포함할 수 있다. 이때, 상기 음성모델 및 언어모델 중 언어모델만을 대상으로 상기 학습을 수행할 수 있다.

또한, 본 발명의 제 3 측면에 따른 음성 인식 시스템에서의 자가 학습 방법은 기반 음성인식 모델에 기초하여 전사 대상인 음성데이터를 자동 전사하여 1차 자동 전사데이터를 생성하는 단계; 상기 음성데이터 및 상기 1차 자동 전사데이터에 기초하여 음성인식 모델을 n차 학습하여 n+1차 음성인식 모델을 생성하는 단계 및 상기 n+1차 음성인식 모델에 기초하여 상기 음성데이터를 자동 전사하여 n+1차 자동 전사데이터를 생성하는 단계를 포함한다.

상기 1차 자동 전사데이터를 생성하는 단계는, 상기 기반 음성인식 모델에 상기 음성데이터를 적용하여 각 음성에 대응하는 전사 신뢰도 데이터를 추출하고, 상기 추출된 전사 신뢰도 데이터를 토대로 상기 1차 자동 전사데이터를 고품질 그룹 및 저품질 그룹으로 구분하여 n차 정제 전사데이터를 생성하는 단계를 더 포함할 수 있다.

상기 n+1차 음성인식 모델을 생성하는 단계는, 상기 음성데이터 및 상기 n차 정제 전사데이터 중 상기 고품질 그룹으로 구분된 n차 정제 전사데이터를 이용하여 상기 음성인식 모델을 n차 학습하여 n+1차 음성인식 모델을 생성할 수 있다.

본 발명에 따른 자가 학습 방법은 상기 추출된 전사 신뢰도 데이터를 토대로 상기 n+1차 자동 전사데이터를 고품질 그룹 및 저품질 그룹으로 구분하여 n+2차 정제 전사데이터를 생성하는 단계를 더 포함할 수 있다.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 종래 전사데이터를 수작업으로 구축함으로 인해 소요되는 금전적, 시간적 비용을 줄일 수 있다.

또한, 전사 데이터를 자동으로 생성함에 있어 발생되는 오류를 최소화할 수 있다.

또한, 생성된 전사데이터에 대하여 자동 품질 평가를 통해 고품질 결과물과 저품질 결과물로 구분할 수 있다. 이 경우, 저품질 결과물에 대해서는 재정제하는 과정을 통해 다시 고품질 결과물로 유도하거나 폐기할 수 있으며, 고품질 결과물은 별도로 관리하여 고품질 음성인식 학습에 이용할 수 있다는 장점이 있다

도 1은 본 발명의 일 실시예에 따른 음성인식 시스템의 블록도이다.
도 2는 본 발명의 일 실시예에 따른 음성인식 시스템의 기능을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 자가 학습 방법의 순서도이다.
도 4는 본 발명의 일 실시예에 따른 전사데이터 생성 방법의 순서도이다.

아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

본원은 음성인식 시스템(100) 및 이의 전사데이터 생성 방법에 관한 것이다.

특정 도메인을 위한 전사의 경우 도메인에 특화된 고품질 음성인식기를 개발하여 사용하기도 한다. 이때, 음성인식기의 품질을 높이기 위해서는 해당 도메인의 기계학습이 필요하며, 대량의 음성데이터-전사데이터의 쌍이 필요하다.

본 발명의 일 실시예는 이러한 전사데이터를 수작업으로 구축함으로 인해 소요되는 금전적, 시간적 비용을 줄임과 동시에 그 오류를 최소화할 수 있다.

이하에서는 도 1 및 도 2를 참조하여 본 발명의 일 실시예에 따른 음성인식 시스템(100)에 대하여 구체적으로 설명하도록 한다.

도 1은 본 발명의 일 실시예에 따른 음성인식 시스템(100)의 블록도이다. 도 2는 본 발명의 일 실시예에 따른 음성인식 시스템(100)의 기능을 설명하기 위한 도면이다.

먼저, 도 1을 참조하면 본 발명의 일 실시예에 따른 음성인식 시스템(100)은 음성데이터 수신부(110), 메모리(120) 및 프로세서(130)를 포함한다.

음성데이터 수신부(110)는 음성데이터를 수신한다. 이러한 음성데이터 수신부(110)는 통신모듈(111) 또는 마이크(113)로 구성될 수 있다.

예를 들어, 음성데이터를 음성인식 시스템(100)과 별도로 구성되는 외부 디바이스로부터 유선 또는 무선으로 수신하는 경우 음성데이터 수신부(100)는 통신모듈(111)일 수 있다.

이와 같은 통신 모듈(111)은 유선 통신 모듈 및 무선 통신 모듈을 모두 포함할 수 있다. 유선 통신 모듈은 전력선 통신 장치, 전화선 통신 장치, 케이블 홈(MoCA), 이더넷(Ethernet), IEEE1294, 통합 유선 홈 네트워크 및 RS-485 제어 장치로 구현될 수 있다. 또한, 무선 통신 모듈은 WLAN(wireless LAN), Bluetooth, HDR WPAN, UWB, ZigBee, Impulse Radio, 60GHz WPAN, Binary-CDMA, WiFi, 무선 USB 기술 및 무선 HDMI 기술 등으로 구현될 수 있다.

또한, 음성데이터를 음성데이터 시스템(100)에서 직접 수신하는 경우 음성데이터 수신부는 마이크(113)일 수 있다.

메모리(120)에는 음성데이터에 기초하여 전사데이터를 생성하기 위한 프로그램이 저장된다. 여기에서, 메모리(120)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 휘발성 저장장치를 통칭하는 것이다.

예를 들어, 메모리(120)는 콤팩트 플래시(compact flash; CF) 카드, SD(secure digital) 카드, 메모리 스틱(memory stick), 솔리드 스테이트 드라이브(solid-state drive; SSD) 및 마이크로(micro) SD 카드 등과 같은 낸드 플래시 메모리(NAND flash memory), 하드 디스크 드라이브(hard disk drive; HDD) 등과 같은 마그네틱 컴퓨터 기억 장치 및 CD-ROM, DVD-ROM 등과 같은 광학 디스크 드라이브(optical disc drive) 등을 포함할 수 있다.

프로세서(130)는 메모리(120)에 저장된 프로그램을 실행시킴에 따라, 음성데이터에 기초하여 전사데이터를 생성할 수 있다.

도 2를 참조하면, 먼저 프로세서(130)는 메모리(120)에 저장된 기반 음성인식 모델(M)에 기초하여 전사할 음성데이터(D)를 자동 전사하여 1차 자동 전사데이터(D1)를 생성한다. 이 과정에서 프로세서(130)는 기반 음성인식 모델(M)에 음성데이터(D)를 적용하여 각 음성에 대응하는 전사 신뢰도 데이터을 함께 추출할 수도 있다.

한편, 프로세서(130)는 기반 음성인식 모델(M)에 음성데이터(D)를 적용하여 추출된 전사 신뢰도 데이터에 기초하여, 1차 자동 전사데이터(D1)를 그룹화하여 구분할 수 있다. 이때, 본 발명의 일 실시예에서는 고품질 그룹 및 저품질 그룹인 2개의 그룹으로 구분하고 있으나, 반드시 이에 한정되는 것은 아니며, 복수 개의 등급으로 구분하여 각각 차별되도록 구분된 1차 자동 전사데이터(D1)를 가공할 수 있음은 물론이다.

한편, 프로세서(130)는 상기 기반 음성인식 모델(M)에 음성데이터(D)를 적용하여 추출된 전사 신뢰도 데이터를 1차 자동 전사데이터(D1)에 적용하여 1차 자동 전사데이터(D1)를 고품질 그룹 및 저품질 그룹으로 구분할 수 있다.

이에 따라, 음성데이터(D) 자체가 저품질이거나 이해할 수 없는 내용인 경우, 상기 전사 신뢰도 데이터와의 비교 결과에 따라 기 설정된 전사 신뢰도값 이하에 해당하는 1차 자동 전사데이터(D1)는 저품질 그룹으로 구분할 수 있다.

이에 따라, 프로세서(130)는 1차 자동 전사데이터 또는 1차 자동 전사데이터 중 저품질 그룹으로 구분된 데이터에 대하여 수작업 검증 단계를 거치도록 할 수 있다.

다음으로, 프로세서는 1차 자동 전사데이터(D1) 및 음성데이터(D)의 대비 결과에 기초하여 1차 정제 전사데이터(D1')를 생성한다.

본 발명의 일 실시예는 1차 정제 전사데이터(D1')를 생성하는 과정을 통해, 1차 자동 전사데이터(D1)의 품질을 보완함과 동시에 1차 자동전사 없이 음성데이터(D)에서 바로 수작업으로 전사하는 것보다 월등히 짧은 시간에 전사데이터를 생성하게끔 할 수 있다는 장점이 있다.

한편, 본 발명의 일 실시예는 1차 정제 전사데이터(D1')를 생성하지 않고 1차 자동 전사데이터(D1)만으로 후술하는 과정을 수행하여 최종적인 전사 데이터를 생성할 수도 있다.

또한, 상기 1차 자동 전사데이터(D1)에서 고품질 그룹으로 구분된 데이터만으로 후술하는 과정을 수행하여 최종적인 전사 데이터를 생성할 수도 있다.

또한, 1차 정제 전사데이터(D1')를 생성하는 과정은 프로세서(130)에 의해 수행되지 않고 수작업으로 수행됨에 따라 생성될 수도 있으며, 프로세서(130)는 수작업으로 수행되어 생성된 1차 정제 전사데이터(D1')를 후술하는 과정에 이용할 수도 있다.

다음으로, 프로세서(130)는 음성데이터(D) 및 1차 정제 전사데이터(D1')에 기초하여 1차 음성인식 모델(M1)을 1차 학습하여 2차 음성인식 모델(M2)을 생성한다.

이때, 음성인식 모델(M1, M2, M3)은 음성모델 및 언어모델을 포함하여 구성될 수 있다. 이에 따라, 프로세서(130)는 음성모델 및 언어모델 중 언어모델만을 대상으로 학습을 수행하여 2차 음성인식 모델(M2)을 생성할 수도 있다. 이 경우 음성데이터(D) 없이 상기 1차 정제 전사데이터만(D1')을 이용하여 언어모델을 학습함으로써 상기 2차 음성인식 모델(M2)을 생성할 수 있다.

다음으로, 프로세서(130)는 1차 학습되어 생성된 2차 음성인식 모델(M2)에 기초하여 음성데이터(D)를 다시 자동 전사하여 2차 자동 전사데이터(D2)를 생성할 수 있다. 이 과정에서 프로세서(130)는 2차 음성인식 모델(M2)에 음성데이터(D)를 적용하여 각 음성에 대응하는 전사 신뢰도 데이터을 함께 추출할 수도 있다.

한편, 프로세서(130)는 1차 정제 전사데이터(D1')를 2차 자동 전사데이터(D2)와의 비교 결과에 기초하여, 1차 정제 전사데이터(D1')를 그룹화하여 2차 정제 전사데이터(D2')를 생성할 수 있다. 이때, 본 발명의 일 실시예에서는 고품질 그룹 및 저품질 그룹인 2개의 그룹으로 구분하고 있으나, 반드시 이에 한정되는 것은 아니며, 복수 개의 등급으로 구분하여 각각 차별되도록 구분된 1차 정제 전사데이터(D1')를 가공할 수 있음은 물론이다.

한편, 프로세서(130)는 1차 정제 전사데이터(D1')를 2가지 방법에 따라 고품질 그룹과 저품질 그룹으로 구분하여 2차 정제 전사데이터(D2')를 생성할 수 있다.

먼저, 제 1 방법의 경우 프로세서(130)는 상기 2차 음성인식 모델(M2)에 음성데이터(D)를 적용하여 각 음성에 대응하는 전사 신뢰도 데이터를 추출하고, 추출된 전사 신뢰도 데이터를 토대로 1차 정제 전사데이터(D1')를 고품질 그룹 및 저품질 그룹으로 구분하여 2차 정제 전사데이터(D2')를 생성할 수 있다.

이에 따라 음성데이터(D) 자체가 저품질이거나 이해할 수 없는 내용인 경우, 상기 전사 신뢰도 데이터와의 비교 결과에 따라 기 설정된 전사 신뢰도값 이하에 해당하는 1차 정제 전사데이터(D1')는 저품질 그룹으로 구분할 수 있다.

다음으로, 제 2 방법의 경우 프로세서(130)는 1차 정제 전사데이터(D1') 또는 고품질 그룹으로 구분된 1차 정제 전사데이터(D1')를 상기 2차 자동 전사데이터(D2)와 비교하고, 비교 결과 기 설정된 임계치의 유사도에 기초하여 고품질 그룹 및 저품질 그룹으로 구분하여 상기 2차 정제 전사데이터(D2')를 생성할 수 있다.

이때, 2차 자동 전사데이터는 1차 정제 전사데이터로부터 학습한 모델의 결과물에 해당하므로, 기 설정된 임계치 이상의 유사도의 경우에는 학습이 잘 되었다는 것을 의미하며 해당 문서는 학습이 잘 되는 고품질 문서로 판단할 수 있고, 기 설정된 임계치 미만의 유사도의 경우에는 어떠한 요인으로 인하여 학습이 잘 되지 못하였다는 것을 의미하며 해당 문서는 학습이 잘 되지 않는 저품질 문서로 판단할 수 있다.

이 경우 2차 자동 전사데이터(D2)는 1차 정제 전사데이터(D1')를 이미 학습한 음성인식 모델(M2)을 통해 생성된 것이므로, 이미 학습한 1차 정제 전사데이터(D1')에 해당하는 음성데이터(D)는 자동 음성인식의 정확도가 높아야 한다.

반면, 2차 자동 전사데이터(D2)와 1차 자동 전사데이터(D1) 간의 차이가 큰 부분이 있게 되면, 해당 음성데이터(D)로는 해당 1차 정제 전사데이터(D1')를 학습 및 인식할 수 없는 요인이 있다는 것을 의미한다. 즉, 해당 부분의 1차 정제 전사데이터(D1')의 음성인식 학습이 어려운 데이터이며 전사에 문제가 있을 가능성이 큰 부분이므로 저품질 데이터로 판단할 수 있다.

이와 같이 제 1 방법 또는 제 2 방법에 따라 1차 정제 전사데이터(D1')가 고품질 및 저품질 그룹으로 구분하여 2차 정제 전사데이터(D2')를 생성하고 나면, 프로세서(130)는 저품질 그룹으로 구분된 2차 정제 전사데이터(D1')를 대상으로 상기 1차 정제 전사데이터(D1')를 다시 생성하는 과정을 다시 수행할 수 있다.

즉, 저품질 그룹에 대하여 다시 정제 전사데이터를 생성하는 과정을 다시 수행하는 이유는 일정 조건을 만족하지 못하는 즉, 음성 자체가 품질이 나쁜 경우를 필터링하기 위함이다. 또는, 수작업 정제 과정이 수행된 경우 작업자의 실수로 인해 전사와 검증이 잘못된 경우를 필터링하기 위함이다.

또한, 프로세서(130)는 고품질 그룹으로 구분된 2차 정제 전사데이터(D2')와 음성데이터(D)를 학습하여, 고품질의 해당 도메인용 3차 음성인식 모델(M3)을 생성할 수 있다.

이 경우도 마찬가지로, 프로세서(130)는 음성모델 및 언어모델 중 언어모델만을 대상으로 학습을 수행할 수 있으며, 음성데이터 없이 상기 2차 정제 전사데이터(D2')만을 이용하여 언어모델을 학습함으로써 상기 3차 음성인식 모델(M3)을 생성할 수 있다.

참고로, 본 발명의 실시예에 따른 도 1 및 도 2에 도시된 구성 요소들은 소프트웨어 또는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 형태로 구현될 수 있으며, 소정의 역할들을 수행할 수 있다.

그렇지만 '구성 요소들'은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 각 구성 요소는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.

따라서, 일 예로서 구성 요소는 소프트웨어 구성 요소들, 객체지향 소프트웨어 구성 요소들, 클래스 구성 요소들 및 태스크 구성 요소들과 같은 구성 요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다.

구성 요소들과 해당 구성 요소들 안에서 제공되는 기능은 더 작은 수의 구성 요소들로 결합되거나 추가적인 구성 요소들로 더 분리될 수 있다.

본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.

이하에서는 도 3을 참조하여 본 발명의 일 실시예에 따른 음성인식 시스템(100)에서의 자가학습 방법에 대하여 설명하도록 한다.

도 3은 본 발명의 일 실시예에 따른 자가 학습 방법의 순서도이다.

본 발명의 일 실시예에 따른 자가 학습 방법은 먼저, 기반 음성인식 모델에 기초하여 전사 대상인 음성데이터를 자동 전사하여 1차 자동 전사데이터를 생성한다.

이때, 본 발명의 일 실시예는 기반 음성인식 모델에 상기 음성데이터를 적용하여 각 음성에 대응하는 전사 신뢰도 데이터를 추출할 수 있다. 그리고 추출된 전사 신뢰도 데이터를 토대로 1차 자동 전사데이터를 고품질 그룹 및 저품질 그룹으로 구분하여 n차 정제 전사데이터를 생성할 수 있다.

다음으로, 음성데이터 및 n차 정제 전사데이터 중 고품질 그룹으로 구분된 n차 정제 전사데이터에 기초하여 음성인식 모델을 n차 학습하여 n+1차 음성인식 모델을 생성한다.

다음으로, n+1차 음성인식 모델에 기초하여 음성데이터를 자동 전사하여 n+1차 자동 전사데이터를 생성한다.

이후, 본 발명의 일 실시예에 따른 자가 학습 방법은 추출된 전사 신뢰도 데이터를 토대로 n+1차 자동 전사데이터를 고품질 그룹 및 저품질 그룹으로 구분하여 n+2차 정제 전사데이터를 생성할 수 있다.

즉, 본 발명의 일 실시예에 따른 음성인식 시스템(100)에서의 자가 학습 방법은 상술한 도 1 및 도 2의 구조와 처리 과정이 동일하다. 단, 수작업 검증 과정과 유사도 임계치에 의한 품질 분류 과정만 생략된다.

상기와 같이 수작업 검증 과정이 생략되면 전 과정이 자동화될 수 있다. 수작업 검증 과정이 생략되면 유사도 임계치에 의한 품질 분류 과정이 의미가 없어진다. 결국 수작업 전사된 데이터 없이 음성데이터만으로 음성인식 모델을 강화하는 자가 학습 프로세스가 확립된다.

상기와 같이 수작업 검증 과정과 유사도 임계치에 의한 품질 분류 과정이 생략되면, 2차(n+1차) 자동 전사데이터를 이용한 이후 단계는 1차 자동 전사데이터의 이후 단계와 동일하고 최종적으로는 n번째 사이클 반복 이후 n+1번째 음성인식 모델이 최종 모델이 된다.

이하에서는 도 4를 참조하여, 본 발명의 일 실시예에 따른 음성인식 시스템(100)에서의 전사데이터 생성 방법에 대하여 설명하도록 한다.

도 4는 본 발명의 일 실시예에 따른 전사데이터 생성 방법의 순서도이다.

본 발명의 일 실시예에 따른 전사데이터 생성 방법은 먼저, 기반 음성인식 모델에 기초하여 전사 대상인 음성데이터를 자동 전사하여 1차 자동 전사데이터를 생성한다(S110).

이때, 상술한 1차 자동 전사데이터를 생성함에 있어, 기반 음성인식 모델(M)에 음성데이터를 적용하여 각 음성에 대응하는 전사 신뢰도 데이터를 추출하는 단계를 추가적으로 수행할 수 있다(S120).

이에 따라, 본 발명의 일 실시예는 추출된 전사 신뢰도 데이터를 1차 자동 전사데이터에 적용하여 1차 자동 전사데이터를 고품질 그룹 및 저품질 그룹으로 구분할 수 있다. 이 경우, 1차 자동 전사데이터 중 고품질 그룹으로 구분된 데이터는 후술하는 1차 정제 전사데이터에 포함되어 이용될 수 있고, 저품질 그룹으로 구분된 데이터는 후술하는 1차 자동 전사데이터를 대체하여 이용될 수 있다.

본 발명의 일 실시예에 따른 전사데이터 생성 방법은 1차 자동 전사데이터 및 음성데이터의 대비 결과에 기초하여 1차 정제 전사데이터를 생성하는 단계를 더 포함할 수 있다(S120).

다음으로, 음성데이터 및 1차 정제 전사데이터에 기초하여 1차 음성인식 모델을 학습하여 2차 음성인식 모델을 생성한다(S130).

다음으로, 상기 학습된 2차 음성인식 모델을 이용하여 음성데이터를 자동 전사하여 2차 자동 전사데이터를 생성한다(S140).

이와 같이 2차 자동 전사데이터가 생성되고 나면, 본 발명의 일 실시예는 2가지 방법으로 1차 정제 전사데이터를 고품질 그룹 및 저품질 그룹으로 구분하여 2차 정제 전사데이터를 생성할 수 있다.

이때, 상술한 2차 자동 전사데이터를 생성함에 있어, 2차 음성인식 모델에 음성데이터를 적용하여 각 음성에 대응하는 전사 신뢰도 데이터를 추출하는 단계를 추가적으로 수행할 수 있다(S150).

이에 따라, 본 발명의 일 실시예는 추출된 전사 신뢰도 데이터를 적용하여 1차 정제 전사데이터를 고품질 그룹 및 저품질 그룹으로 구분하여 2차 정제 전사데이터를 생성할 수 있다.

또 다른 예로, 본 발명의 일 실시예는 1차 정제 전사데이터 또는 고품질 그룹으로 구분된 1차 정제 전사데이터를 2차 자동 전사데이터와 비교하고, 비교 결과 기 설정된 임계치의 유사도에 기초하여 고품질 그룹 및 저품질 그룹으로 구분하여 2차 정제 전사데이터를 생성할 수도 있다.

이와 같이 각 그룹별로 1차 정제 전사데이터를 구분하여 2차 정제 전사데이터를 생성하면, 2차 정제 전사데이터 중 저품질 그룹으로 구분된 2차 정제 전사데이터에 대하여 음성데이터와의 대비 결과에 기초하여 1차 정제 전사데이터로 생성할 수 있다(S120).

그리고 고품질 그룹으로 구분된 2차 정제 전사데이터에 대해서는 음성데이터와 함께 2차 학습하여 해당 도메인에 특화된 고품질의 3차 음성인식 모델을 생성할 수 있다(S160).

한편, 본 발명의 일 실시예에 따른 전사데이터 생성 방법에 있어서, 음성인식 모델은 음성모델 및 언어모델을 포함하도록 구성될 수 있으며, 이 경우 본 발명의 일 실시예는 음성모델 및 언어모델 중 언어모델만을 대상으로 상기 학습을 수행할 수도 있다.

상술한 설명에서, 단계 S110 내지 S160은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. 아울러, 기타 생략된 내용이라 하더라도 도 1 및 도 2에서의 음성인식 시스템(100)에 관하여 이미 기술된 내용은 도 3의 자가 학습 방법 및 도 4의 전사데이터 생성 방법에도 적용된다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 음성인식 시스템
110: 음성데이터 수신부
120: 메모리
130: 프로세서

Claims

전사 데이터를 생성하는 음성 인식 시스템에 있어서,
음성데이터를 수신하는 음성데이터 수신부,(통신모듈/마이크)
상기 음성데이터에 기초하여 전사데이터를 생성하기 위한 프로그램이 저장된 메모리 및
상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함하되,
상기 프로세서는 상기 프로그램을 실행시킴에 따라, 상기 메모리에 저장된 기반 음성인식 모델에 기초하여 전사할 음성데이터를 자동 전사하여 1차 자동 전사데이터를 생성하고, 상기 1차 자동 전사데이터 및 상기 음성데이터의 대비 결과에 기초하여 1차 정제 전사데이터를 생성하며, 상기 음성데이터 및 상기 1차 정제 전사데이터에 기초하여 음성인식 모델을 1차 학습하여 2차 음성인식 모델을 생성하고, 상기 2차 음성인식 모델에 기초하여 상기 음성데이터를 자동 전사하여 2차 자동 전사데이터를 생성하는 것인 음성 인식 시스템
제 1 항에 있어서,
상기 프로세서는 상기 기반 음성인식 모델에 상기 음성데이터를 적용하여 각 음성에 대응하는 전사 신뢰도 데이터를 추출하고, 상기 추출된 전사 신뢰도 데이터를 토대로 상기 1차 자동 전사데이터를 고품질 그룹 및 저품질 그룹으로 구분하는 것인 음성 인식 시스템.
제 2 항에 있어서,
상기 프로세서는 상기 1차 자동 전사데이터 또는 상기 저품질 그룹으로 구분된 1차 자동 전사데이터를 상기 음성 데이터와 비교하여 검증을 수행하는 것인 음성 인식 시스템.
제 3 항에 있어서,
상기 프로세서는 상기 2차 음성인식 모델에 상기 음성데이터를 적용하여 각 음성에 대응하는 전사 신뢰도 데이터를 추출하고, 상기 추출된 전사 신뢰도 데이터에 기초하여 상기 1차 정제 전사데이터를 고품질 그룹 및 저품질 그룹으로 구분하여 상기 2차 정제 전사데이터를 생성하는 것인 음성 인식 시스템.
제 3 항에 있어서,
상기 프로세서는 상기 1차 정제 전사데이터 또는 상기 고품질 그룹으로 구분된 1차 정제 전사데이터를 상기 2차 자동 전사데이터와 비교하고, 상기 비교 결과 기 설정된 임계치의 유사도에 기초하여 상기 고품질 그룹 및 저품질 그룹으로 구분하여 상기 2차 정제 전사데이터를 생성하는 것인 음성 인식 시스템.
제 2 항에 있어서,
상기 프로세서는 상기 2차 정제 전사데이터 중 상기 저품질 그룹으로 구분된 2차 정제 전사데이터에 대하여, 상기 음성데이터의 대비 결과에 기초하여 다시 1차 정제 전사데이터로 생성하는 것인 음성 인식 시스템.
제 2 항에 있어서,
상기 프로세서는 상기 2차 정제 전사데이터 중 상기 고품질 그룹으로 구분된 2차 정제 전사데이터 및 상기 음성데이터를 기반으로 2차 음성인식 모델을 학습하는 것인 음성 인식 시스템.
제 1 항 또는 제 7 항에 있어서,
상기 음성인식 모델은 음성모델 및 언어모델을 포함하되,
상기 프로세서는 상기 음성모델 및 언어모델 중 언어모델만을 대상으로 상기 학습을 수행하는 것인 음성 인식 시스템.
음성 인식 시스템에서의 전사데이터 생성 방법에 있어서,
기반 음성인식 모델에 기초하여 전사 대상인 음성데이터를 자동 전사하여 1차 자동 전사데이터를 생성하는 단계;
상기 1차 자동 전사데이터 및 상기 음성데이터의 대비 결과에 기초하여 1차 정제 전사데이터를 생성하는 단계;
상기 음성데이터 및 상기 1차 정제 전사데이터에 기초하여 음성인식 모델을 1차 학습하여 2차 음성인식 모델을 생성하는 단계 및
상기 2차 음성인식 모델에 기초하여 상기 음성데이터를 자동 전사하여 2차 자동 전사데이터를 생성하는 단계를 포함하는 전사데이터 생성 방법.
제 9 항에 있어서,
상기 1차 자동 전사데이터를 생성하는 단계는,
상기 기반 음성인식 모델에 상기 음성데이터를 적용하여 각 음성에 대응하는 전사 신뢰도 데이터를 추출하고, 상기 추출된 전사 신뢰도 데이터를 토대로 상기 1차 자동 전사데이터를 고품질 그룹 및 저품질 그룹으로 구분하는 단계를 더 포함하는 전사데이터 생성 방법.
제 10 항에 있어서,
상기 1차 자동 전사데이터 또는 상기 저품질 그룹으로 구분된 1차 자동 전사데이터를 상기 음성데이터와 비교하여 검증하는 단계를 더 포함하는 전사데이터 생성 방법.
제 11 항에 있어서,
상기 2차 자동 전사데이터를 생성하는 단계는,
상기 2차 음성인식 모델에 상기 음성데이터를 적용하여 각 음성에 대응하는 전사 신뢰도 데이터를 추출하는 단계를 더 포함하고,
상기 고품질 그룹 및 저품질 그룹으로 구분하는 단계는,
상기 추출된 전사 신뢰도 데이터에 기초하여 상기 1차 정제 전사데이터를 고품질 그룹 및 저품질 그룹으로 구분하여 상기 2차 정제 전사데이터를 생성하는 것인 전사데이터 생성 방법.
제 11 항에 있어서,
상기 고품질 그룹 및 저품질 그룹으로 구분하는 단계는,
상기 1차 정제 전사데이터 또는 상기 고품질 그룹으로 구분된 1차 정제 전사데이터를 상기 2차 자동 전사데이터와 비교하고, 상기 비교 결과 기 설정된 임계치의 유사도에 기초하여 상기 고품질 그룹 및 저품질 그룹으로 구분하여 상기 2차 정제 전사데이터를 생성하는 것인 전사데이터 생성 방법.
제 10 항에 있어서,
상기 2차 정제 전사데이터 중 상기 저품질 그룹으로 구분된 2차 정제 전사데이터에 대하여 상기 음성데이터의 대비 결과에 기초하여 1차 정제 전사데이터를 생성하는 단계를 더 포함하는 전사데이터 생성 방법.
제 10 항에 있어서,
상기 2차 정제 전사데이터 중 상기 고품질 그룹으로 구분된 2차 정제 전사데이터 및 상기 음성데이터를 기반으로 2차 음성인식 모델을 학습하는 단계를 더 포함하는 전사데이터 학습 방법.
제 8항 또는 제 15 항에 있어서,
상기 음성인식 모델은 음성모델 및 언어모델을 포함하되,
상기 음성모델 및 언어모델 중 언어모델만을 대상으로 상기 학습을 수행하는 것인 전사데이터 학습 방법.
음성 인식 시스템에서의 자가 학습 방법에 있어서,
기반 음성인식 모델에 기초하여 전사 대상인 음성데이터를 자동 전사하여 1차 자동 전사데이터를 생성하는 단계;
상기 음성데이터 및 상기 1차 자동 전사데이터에 기초하여 음성인식 모델을 n차 학습하여 n+1차 음성인식 모델을 생성하는 단계 및
상기 n+1차 음성인식 모델에 기초하여 상기 음성데이터를 자동 전사하여 n+1차 자동 전사데이터를 생성하는 단계를 포함하는 자가 학습 방법.
제 17 항에 있어서,
상기 1차 자동 전사데이터를 생성하는 단계는,
상기 기반 음성인식 모델에 상기 음성데이터를 적용하여 각 음성에 대응하는 전사 신뢰도 데이터를 추출하고, 상기 추출된 전사 신뢰도 데이터를 토대로 상기 1차 자동 전사데이터를 고품질 그룹 및 저품질 그룹으로 구분하여 n차 정제 전사데이터를 생성하는 단계를 더 포함하는 전사데이터 생성 방법.
제 18 항에 있어서,
상기 n+1차 음성인식 모델을 생성하는 단계는,
상기 음성데이터 및 상기 n차 정제 전사데이터 중 상기 고품질 그룹으로 구분된 n차 정제 전사데이터를 이용하여 상기 음성인식 모델을 n차 학습하여 n+1차 음성인식 모델을 생성하는 것인 전사데이터 생성 방법.
제 19 항에 있어서,
상기 추출된 전사 신뢰도 데이터를 토대로 상기 n+1차 자동 전사데이터를 고품질 그룹 및 저품질 그룹으로 구분하여 n+2차 정제 전사데이터를 생성하는 단계를 더 포함하는 전사데이터 생성 방법.