KR20130068621A

KR20130068621A - 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법

Info

Publication number: KR20130068621A
Application number: KR1020110135916A
Authority: KR
Inventors: 강점자; 강병옥; 박기영; 이윤근
Original assignee: 한국전자통신연구원
Priority date: 2011-12-15
Filing date: 2011-12-15
Publication date: 2013-06-26
Also published as: KR101444411B1

Abstract

음성인식시스템을 통해 수집된 대용량 음성 데이터에 대해 자동으로 음성 데이터를 분류하고, 분류된 음성 데이터를 사용하여 음향모델 생성하도록 한 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법이 제시된다. 제시된 발화검증 기반 대용량 음성 데이터 자동 처리 장치는 복수의 대용량 음성 데이터들 각각에 대해 시작점과 끝점 및 음성의 특징을 추출하는 추출부; 추출부에서 추출된 음성의 특징과, 문맥 종속 적응 모델 및 문맥 독립 적응 반음소 모델을 이용하여 복수의 대용량 음성 데이터들 각각을 정상 인식 데이터, 비정상 인식 데이터, 판단불가 데이터 중에 하나로 구분하는 발화 검증부; 및 발화 검증부에 의해 구분된 복수의 대용량 음성 데이터들 중에서 판단불가 데이터로 분류된 대용량 음성 데이터들을 음향모델링 데이터로 분류하고, 분류된 음향모델링 데이터를 근거로 음향모델을 생성하는 음향모델링부를 포함한다.

Description

발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법{APPARATUS AND METHOD FOR AUTOMATED PROCESSING THE LARGE SPEECH DATA BASED ON UTTERANCE VERIFICATION}

본 발명은 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법에 관한 것으로, 더욱 상세하게는 음성인식시스템에 의해 수집된 대용량의 음성 데이터를 자동 처리하는 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법에 대한 것이다.

음성인식시스템은 응용 또는 인식 성능에 따라 음성인식 결과를 한 개 또는 여러 개의 결과를 출력한다. 일반적으로 음성인식시스템의 인식 성능이 우수한 경우 입력 음성에 대한 유사도가 가장 높은 우도값을 갖는 데이터를 한 개 출력하는 방식을 사용하고, 음성인식시스템의 인식 성능이 떨어지는 경우 여러 개의 출력 리스트를 제공하여 사용자가 정답을 선택하는 방식으로 서비스를 제공함으로써 음성 인식 성능 향상 효과를 갖는다. 이와 같이, 여러 개의 출력 가능한 리스트 중, 몇 개의 출력 리스트를 제공하는 것을 엔베스트(Nbest)라고 하며, 출력 리스트의 개수는 시스템의 사양과 응용에 따라 결정한다.

종래의 음성인식시스템은 엔베스트 출력을 제공하는 시스템으로 음성인식시스템 속성상 사용자 발성에 대해 모두 정상 인식했다고 보장할 수 없다. 따라서 음성인식시스템을 통해 수집된 음성 데이터를 활용하기 위해서 많은 사람을 투입하여 음성 데이터를 수동으로 전사하는 작업을 수행한다.

이런 경우, 시간과 비용이 많이 소요되기 때문에 비효율적이므로 적절히 우도값을 보고 자동으로 분류할 수 있는 자동화 도구를 사용하여 분류된 데이터에 대해서 사람이 수작업을 수행하기도 한다. 이와 같은 경우 자동으로 분류할 수 있는 자동화 도구의 성능에 따라 정상 인식 데이터와 비정상 인식 데이터의 구분이 달라질 수 있다.

따라서, 종래의 음성인식시스템에서는 정교한 음향모델링을 위하여 음향모델링에 사용하는 데이터를 사람이 수작업으로 전사하였으나, 컴퓨팅 처리 기술이 발전함에 따라 대용량 음성 데이터를 사용한 음성인식시스템성능 개선을 위한 노력이 꾸준히 시도되고 있다.

하지만, 종래의 음성인식시스템에서는 대용량 음성 데이터를 기존의 방식처럼 수작업으로 전사하여 음향모델링에 사용하기에는 시간과 비용이 매우 많이 소요되는 문제점이 있다.

본 발명은 상기한 종래의 문제점을 해결하기 위해 제안된 것으로, 음성인식시스템을 통해 수집된 대용량 음성 데이터에 대해 자동으로 음성 데이터를 분류하고, 분류된 음성 데이터를 사용하여 음향모델 생성하도록 한 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법을 제공하는 것을 목적으로 한다.

상기한 목적을 달성하기 위하여 본 발명의 실시예에 따른 발화검증 기반 대용량 음성 데이터 자동 처리 장치는, 복수의 대용량 음성 데이터들 각각에 대해 시작점과 끝점 및 음성의 특징을 추출하는 추출부; 추출부에서 추출된 음성의 특징과, 문맥 종속 적응 모델 및 문맥 독립 적응 반음소 모델을 이용하여 복수의 대용량 음성 데이터들 각각을 정상 인식 데이터, 비정상 인식 데이터, 판단불가 데이터 중에 하나로 구분하는 발화 검증부; 및 발화 검증부에 의해 구분된 복수의 대용량 음성 데이터들 중에서 판단불가 데이터로 분류된 대용량 음성 데이터들을 음향모델링 데이터로 분류하고, 분류된 음향모델링 데이터를 근거로 음향모델을 생성하는 음향모델링부를 포함한다.

추출부는, 복수의 대용량 음성 데이터들 각각에 대해 시작점과 끝점을 추출하는 끝점 추출 모듈; 및 복수의 대용량 음성 데이터들 각각에 대해 음성의 특징을 추출하는 특징 추출 모듈을 포함한다.

발화 검증부는, 문맥 독립 적응 반음소 모델의 로그 우도값 및 문맥 종속 음소별 로그 우도값 중에 어느 하나를 근거로 복수의 대용량 음성 데이터들 각각에 대해 단어 수준 로그 우도비값 및 문장 수준 로그 우도비값을 산출한다.

음향모델링부는, 발화 검증부에 의해 산출되는 문장 수준 로그 우도비값을 문장 문턱치값과 비교하여 정상 인식 데이터 및 판단불가 데이터를 검출하고, 발화 검증부에 의해 산출되는 단어 수준 로그 우도비값을 단어 평균 우도비값과 비교하여 비정상 인식 가능성이 있는 단어 및 정상 인식 가능성이 있는 단어로 분류하여 출력한다.

음성인식시스템을 통해 수집된 음성 데이터 파일, 엔베스트 음성인식 결과, 문맥 종속 적응 모델, 문맥 독립 적응 반음소 모델, 문맥 종속 음향 모델 중에 적어도 하나를 포함하는 정보를 저장하는 저장부를 더 포함한다.

상기한 목적을 달성하기 위하여 본 발명의 실시예에 따른 발화검증 기반 대용량 음성 데이터 자동 처리 방법은, 추출부에 의해, 복수의 대용량 음성 데이터들 각각에 대해 시작점과 끝점 및 음성의 특징을 추출하는 단계; 발화 검증부에 의해, 추출된 음성의 특징과, 문맥 종속 적응 모델 및 문맥 독립 적응 반음소 모델을 이용하여 복수의 대용량 음성 데이터들 각각을 정상 인식 데이터, 비정상 인식 데이터, 판단불가 데이터 중에 하나로 복수의 대용량 음성 데이터들을 구분하는 단계; 음향모델링부에 의해, 구분된 복수의 대용량 음성 데이터들 중에서 판단불가 데이터로 분류된 대용량 음성 데이터들을 음향모델링 데이터로 분류하는 단계; 및 음향모델링부에 의해, 분류된 음향모델링 데이터를 근거로 음향모델을 생성하는 단계를 포함한다.

시작점과 끝점 및 음성의 특징을 추출하는 단계는, 추출부에 의해, 복수의 대용량 음성 데이터들 각각에 대해 시작점과 끝점을 추출하는 단계; 및 추출부에 의해, 복수의 대용량 음성 데이터들 각각에 대해 음성의 특징을 추출하는 단계를 포함한다.

복수의 대용량 음성 데이터들을 구분하는 단계는, 발화 검증부에 의해, 문맥 종속 음소별 로그 우도값과 문맥 독립 적응 반음소 모델의 로그 우도값을 근거로 음소 수준 우도비값을 산출하는 단계; 발화 검증부에 의해, 기산출한 음소 수준 로그 우도값과, 문맥 종속 음소별 로그 우도값을 근거로 단어 수준 로그 우도비값을 산출하는 단계; 및 발화 검증부에 의해, 기산출한 문장 수준 로그 우도값과 문맥 종속 음소별 로그 우도값을 근거로 문장 수준 로그 우도비값을 산출하는 단계를 포함한다.

음향모델링 데이터로 분류하는 단계는, 음향모델링부에 의해, 문장 수준 로그 우도비값과 문장 문턱치값을 비교하는 단계; 및 비교하는 단계의 비교 결과를 근거로 판단불가 데이터, 정상 인식 데이터, 비정상 인식 데이터 중에 어느 하나로 대용량 음성 데이터를 분류하는 단계를 포함한다.

대용량 음성 데이터를 분류하는 단계에서는, 문장 수준 로그 우도비값이 최소 문턱치값 이상이고 최대 문턱치값 이하이면 판단불가 데이터로 분류하는 단계; 문장 수준 로그 우도비값이 최소 문턱치값을 미만이면 비정상 인식 데이터로 분류하는 단계; 및 문장 수준 로그 우도비값이 최대 문턱치값을 초과하면 정상 인식 데이터로 분류하는 단계를 포함한다.

본 발명에 의하면, 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법은 음성인식시스템을 통해 수집된 대용량 음성 데이터에 대해 자동으로 음성 데이터를 분류하고, 분류된 음성 데이터를 사용하여 음향모델 생성함으로써, 음향모델링 데이터 수집 및 오류 데이터 검증에 활용가능할 뿐만 아니라, 수집된 음성 데이터 전사 처리 비용과 시간을 절감할 수 있는 효과가 있다.

도 1은 본 발명의 실시예에 따른 발화검증 기반 대용량 음성 데이터 자동 처리 장치를 설명하기 위한 블록도.
도 2는 도 1의 저장부를 설명하기 위한 블록도.
도 3은 도 1의 추출부를 설명하기 위한 블록도.
도 4는 본 발명의 실시예에 따른 발화검증 기반 대용량 음성 데이터 자동 처리 방법을 설명하기 위한 흐름도.

이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 가장 바람직한 실시예를 첨부 도면을 참조하여 설명하기로 한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

이하, 본 발명의 실시예에 따른 발화검증 기반 대용량 음성 데이터 자동 처리 장치를 첨부된 도면을 참조하여 상세하게 설명하면 아래와 같다. 도 1은 본 발명의 실시예에 따른 발화검증 기반 대용량 음성 데이터 자동 처리 장치를 설명하기 위한 블록도이다. 도 2는 도 1의 저장부를 설명하기 위한 블록도이고, 도 3은 도 1의 추출부를 설명하기 위한 블록도이다.

도 1에 도시된 바와 같이, 발화검증 기반 대용량 음성 데이터 자동 처리 장치(100)는 저장부(120), 추출부(140), 발화 검증부(160), 음향모델링부(180)를 포함하여 구성된다.

저장부(120)는 복수의 대용량 음성 데이터들을 저장한다. 즉, 저장부(120)는 음성인식시스템을 통해 수집된 복수의 음성 데이터 파일, 복수의 엔베스트 음성인식 결과를 저장한다. 저장부(120)는 대용량 음성 데이터들에 대한 음성인식 결과를 판단하는데 근거가 되는 문맥 종속 적응 모델, 문맥 독립 적응 반음소 모델을 저장한다. 저장부(120)는 대용량 음성 데이터들의 음성인식 결과를 저장한다. 이를 위해, 도 2에 도시된 바와 같이, 저장부(120)는 음성인식시스템을 통해 수집된 음성 데이터 파일, 엔베스트 음성인식 결과를 저장하는 제1저장모듈(122), 문맥 종속 적응 모델을 저장하는 제2저장모듈(124), 문맥 독립 적응 반음소 모델을 저장하는 제3저장모듈(126), 문맥 종속 음향 모델을 저장하는 제4저장모듈(128)을 포함하여 구성된다.

추출부(140)는 저장부(120)에 저장된 복수의 대용량 음성 데이터들 각각에 대해 시작점과 끝점 및 음성의 특성을 추출한다. 즉, 추출부(140)는 저장부(120)에 저장된 복수의 대용량 음성 데이터들 중에서 처리하고자 하는 음성 데이터의 리스트를 생성하고, 리스트에 포함된 대용량 음성 데이터들을 순차적으로 로드하여 시작점과 끝점을 추출한다. 추출부(140)는 로드한 대용량 음성 데이터들에서 음성의 특징을 추출한다. 이를 위해, 도 3에 도시된 바와 같이, 검출부는 끝점 추출 모듈(142), 특징 추출 모듈(144)을 포함하여 구성된다.

끝점 추출 모듈(142)은 저장부(120)에 저장된 대용량 음성 데이터에 대해 시작점과 끝점을 추출한다. 즉, 끝점 추출 모듈(142)은 저장부(120)에 저장된 복수의 음성 데이터 파일들 각각에 대해 시작점과 끝점을 추출한다. 이때, 끝점 추출 모듈(142)은 저장부(120)에 저장된 복수의 대용량 음성 데이터들 중에서 처리하고자 하는 음성 데이터의 리스트를 생성한다. 끝점 추출 모듈(142)은 리스트에 포함된 대용량 음성 데이터들을 순차적으로 로드하여 시작점과 끝점을 추출한다.

특징 추출 모듈(144)은 저장부(120)에 저장된 대용량 음성 데이터에 대해 음성의 특성을 추출한다. 즉, 특징 추출 모듈(144)은 저장부(120)에 저장된 복수의 음성 데이터 파일들 각각에 대해 음성의 특성을 추출한다. 이때, 특징 추출 모듈(144)은 끝점 추출 모듈(142)에서 시작점과 끝점의 추출이 완료된 대용량 음성 데이터에 대한 음성의 특성을 추출한다.

발화 검증부(160)는 저장부(120)에 저장된 대용량 음성 데이터들 각각에 대해 음성인싱을 수행하여 음성인식 결과를 저장부(120)에 저장한다. 즉, 발화 검증부(160)는 추출부(140)에서 음성의 특성이 추출되면 저장부(120)에 저장된 문맥종속 적응모델과 문맥독립 적응 반음소 모델을 사용하여 해당 엔베스트 음성인식을 수행하여 음성인식 결과를 생성한다. 이때, 발화 검증부(160)는 복수의 대용량 음성 데이터들 각각에 대해 정상 인식 데이터, 비정상 인식 데이터, 판단불가 데이터 중에 하나를 포함하는 음성인식 결과를 생성한다. 발화 검증부(160)는 음성인식 결과에 따라 복수의 대용량 음성 데이터들을 구분하여 저장부(120)에 저장한다.

발화 검증부(160)는 대용량 음성 데이터에 포함된 문장별 인식문법 및 인식사전을 생성한다. 즉, 발화 검증부(160)는 추출부(140)에서 추출된 음성의 특징을 이용하여 엔베스트 문장 단위 인식 결과에 대해 단어수준 강제 정렬을 수행하기 위해 해당 문장별 인식문법과 인식사전을 생성한다.

발화 검증부(160)는 생성된 문장별 인식문법과 인식사전을 이용하여 단어 수준 강제 정렬을 수행한다. 발화 검증부(160)는 단어 수준 강제 정렬의 수행을 통해 문장을 구성하고 있는 각각의 단어별 로그 우도값, 단어의 시작점, 단어의 끝점에 대한 정보를 추출하여 저장부(120)에 저장한다.

발화 검증부(160)는 대용량 음성 데이터에 포함된 문장들 각각에 포함된 단어별 인식문법을 생성한다.

발화 검증부(160)는 생성된 단어별 인식문법 및 저장부(120)에 저장된 문맥 종속 적응 모델을 이용하여 음소 수준 강제 정렬을 수행한다. 발화 검증부(160)는 음소 수준 강제 정렬의 수행을 통해 단어를 구성하고 있는 각각의 문맥 종속 음소별 로그 우도값, 음소의 시작점, 음소의 끝점에 대한 정보를 추출하여 저장부(120)에 저장한다.

발화 검증부(160)는 생성된 단어별 인식문법 및 저장부(120)에 저장된 문맥 독립 적응 반음소 모델을 이용하여 음소 수준 강제 정렬을 수행한다. 발화 검증부(160)는 음소 수준 강제 정렬의 수행을 통해 단어를 구성하고 있는 각각의 문맥 독립 적응 반음소 모델의 로그 우도값, 음소의 시작점, 음소의 끝점에 대한 정보를 추출하여 저장부(120)에 저장한다.

발화 검증부(160)는 단어 수준 강제 정렬 및 음소 수준 강제 정렬을 통해 추출한 문맥 종속 음소별 로그 우도값과, 문맥 독립 적응 반음소 모델의 로그 우도값을 근거로 음소 수준 우도비값을 산출한다. 이때, 하기의 수학식 1과 같이, 발화 검증부(160)는 문맥 종속 음소의 로그 우도값에서 문맥 독립 적응 반음소 모델의 로그 우도값을 뺀 후, 해당 음소가 갖는 프레임 길이로 정규화하여 음소 수준 우도비값을 산출한다. 발화 검증부(160)는 단어를 구성하고 있는 음소의 로그 우도값들을 합하여 단어 수준 로그 우도값을 산출한다.

발화 검증부(160)는 기산출한 음소 수준 로그 우도값과, 문맥 종속 음소별 로그 우도값을 근거로 단어 수준 로그 우도비값을 산출한다. 이때, 하기의 수학식 2와 같이, 발화 검증부(160)는 문맥 종속 단어에 대한 단어 수준 로그 우도값에서 문맥 독립 적응 반음소 모델의 로그 우도값을 뺀 후, 단어가 갖는 음소의 수로 나누어 정규화하여 단어 수준 로그 우도비값을 산출한다, 발화 검증부(160)는 문장을 구성하고 있는 단어에 대한 단어 수준 로그 우도비값을 합하여 문장 수준 로그 우도값을 산출한다.

발화 검증부(160)는 기산출한 문장 수준 로그 우도값과, 문맥 종속 음소별 로그 우도값을 근거로 문장 수준 로그 우도비값을 산출한다. 이때, 하기의 수학식 3과 같이, 발화 검증부(160)는 문맥 종속 단어에 대한 로그 우도값의 합산값에서 문맥 독립 적응 반음소 모델의 단어에 대한 로그 우도값의 합산값을 뺀 후, 문장이 갖는 단어의 수로 나누어 정규화하여 문장 수준 로그 우도비값을 산출한다.

음향모델링부(180)는 발화 검증부(160)에서 생성한 음성인식 결과(즉, 우도비값들)를 근거로 대용량 음성 데이터들 중에서 음성인식 결과를 판단하기 애매한 대용량 음성 데이터를 음향모델링 데이터로 분류하여 저장한다.

음향모델링부(180)는 데이터를 분류하기 위하여 먼저 문장 수준 로그 우도비값과 사전에 개발용 데이터를 이용하여 구해진 문장 문턱치값과 비교하여 문장 수준 로그 우도비값이 최소 문턱치값 이상이고, 최대 문턱치값 이하이면 판단불가 데이터로 분류하고, 음향모델링용 데이터로 저장한다. 이때, 음향모델링부(180)는 문장 수준 로그 우도비값이 최소 문턱치값을 미만이면 비정상 인식 데이터로 분류하고, 문장 수준 로그 우도비값이 최대 문턱치값을 초과하면 정상 인식 데이터로 분류하여 음향모델링 데이터로 활용한다.

음향모델링부(180)는 문장 수준 로그 우도비값을 사용하여 데이터를 분류한 후 음향 모델링에 사용할 데이터에 대해서는 단어별 평균 로그 우도비값을 산출한다. 음향모델링부(180)는 단어별 로그 우도비값과 단어 평균 우도비값을 비교하여 단어별 로그 우도비값이 단어 평균 우도비값 이하이면 비정상 인식 가능성이 있는 단어로 출력한다. 음향모델링부(180)는 단어별 로그 우도비값이 단어 평균 로그 우도비값을 초과하면 정상 인식 가능성이 있는 단어로 출력한다.

음향모델링부(180)는 문장 수준 문턱치값을 이용하여 일차적으로 대용량 음성 데이터를 분류하고, 음향 모델링용 데이터로 활용할 데이터에 대해서는 단어 수준까지 신뢰도 값을 출력하여 저장한다.

음향모델링부(180)는 신뢰도 정보가 저장된 데이터를 사용하여 점진적 음향모델링을 수행하고 음향 모델을 새롭게 생성한다. 음향모델링부(180)는 신뢰도 정보를 사용한 음향모델 수행시에 특정 단어 또는 문장의 우도비값이 평균보다 적을 경우 음향모델 훈련에 사용하지 않고 음향모델 생성을 수행함으로써 음향모델 성능 개선이 가능하다.

이하, 본 발명의 실시예에 따른 발화검증 기반 대용량 음성 데이터 자동 처리 방법을 첨부된 도면을 참조하여 상세하게 설명하면 아래와 같다. 도 4는 본 발명의 실시예에 따른 발화검증 기반 대용량 음성 데이터 자동 처리 방법을 설명하기 위한 흐름도이다. 도 5는 도 4의 수준별 로그 우도비값 산출 단계를 설명하기 위한 흐름도이고, 도 6은 도 4의 음향모델링 데이터 분류 단계를 설명하기 위한 흐름도이다.

추출부(140)는 저장부(120)에 저장된 복수의 대용량 음성 데이터들 중에서 처리하고자 하는 음성 데이터의 리스트를 생성한다(S100).

추출부(140)는 리스트에 포함된 대용량 음성 데이터들의 끝점을 검출한다(S200). 이때, 추출부(140)는 리스트에 포함된 대용량 음성 데이터들을 순차적으로 로드하여 시작점과 끝점을 추출한다.

추출부(140)는 리스트에 포함된 대용량 음성 데이터들의 특징을 추출한다(S300). 즉, 추출부(140)는 저장부(120)에 저장된 복수의 음성 데이터 파일들 각각에 대해 음성의 특성을 추출한다. 이때, 추출부(140)는 시작점과 끝점의 추출이 완료된 대용량 음성 데이터에 대한 음성의 특성을 추출한다.

발화 검증부(160)는 대용량 음성 데이터에 포함된 문장들에 대해 문장별 인식문법 및 인식사전을 생성한다(S400). 즉, 발화 검증부(160)는 추출부(140)에서 추출된 음성의 특징을 이용하여 엔베스트 문장 단위 인식 결과에 대해 단어수준 강제 정렬 수행하기 위해 해당 문장별 인식문법과 인식사전을 생성한다.

발화 검증부(160)는 생성된 문장별 인식문법과 인식사전을 이용하여 단어 수준 강제 정렬을 수행한다(S500). 발화 검증부(160)는 단어 수준 강제 정렬의 수행을 통해 문장을 구성하고 있는 각각의 단어별 로그 우도값, 단어의 시작점, 단어의 끝점에 대한 정보를 추출하여 저장부(120)에 저장한다.

발화 검증부(160)는 대용량 음성 데이터에 포함된 문장들 각각에 포함된 단어별 인식문법을 생성하고, 생성된 단어별 인식문법 및 저장부(120)에 저장된 문맥 종속 적응 모델 및 문맥 독립 적응 반음소 모델을 이용하여 음소 수준 강제 정렬을 수행한다(S600). 이때, 발화 검증부(160)는 음소 수준 강제 정렬의 수행을 통해 단어를 구성하고 있는 각각의 문맥 종속 음소별 로그 우도값, 음소의 시작점, 음소의 끝점에 대한 정보를 추출하여 저장부(120)에 저장한다. 발화 검증부(160)는 음소 수준 강제 정렬의 수행을 통해 단어를 구성하고 있는 각각의 문맥 독립 적응 반음소 모델의 로그 우도값, 음소의 시작점, 음소의 끝점에 대한 정보를 추출하여 저장부(120)에 저장한다.

발화 검증부(160)는 단어 수준 강제 정렬 및 음소 수준 강제 정렬을 통해 추출한 문맥 종속 음소별 로그 우도값과, 문맥 독립 적응 반음소 모델의 로그 우도값을 근거로 수준별 로그 우도비값을 산출한다(S700). 이를 첨부된 도 5를 참조하여 더욱 하게 설명하면 아래와 같다.

발화 검증부(160)는 단어 수준 강제 정렬 및 음소 수준 강제 정렬을 통해 추출한 문맥 종속 음소별 로그 우도값과, 문맥 독립 적응 반음소 모델의 로그 우도값을 근거로 음소 수준 우도비값을 산출한다(S720). 이때, 발화 검증부(160)는 문맥 종속 음소의 로그 우도값에서 문맥 독립 적응 반음소 모델의 로그 우도값을 뺀 후, 해당 음소가 갖는 프레임 길이로 정규화하여 음소 수준 우도비값을 산출한다. 발화 검증부(160)는 단어를 구성하고 있는 음소의 로그 우도값들을 합하여 단어 수준 로그 우도값을 산출한다.

발화 검증부(160)는 기산출한 단어 수준 로그 우도값과, 문맥 종속 음소별 로그 우도값을 근거로 단어 수준 로그 우도비값을 산출한다(S740). 이때, 발화 검증부(160)는 문맥 종속 단어에 대한 단어 수준 로그 우도값에서 문맥 독립 적응 반음소 모델의 로그 우도값을 뺀 후, 단어가 갖는 음소의 수로 나누어 정규화하여 단어 수준 로그 우도비값을 산출한다, 발화 검증부(160)는 문장을 구성하고 있는 단어에 대한 단어 수준 로그 우도비값을 합하여 문장 수준 로그 우도값을 산출한다.

발화 검증부(160)는 기산출한 문장 수준 로그 우도값과, 문맥 종속 음소별 로그 우도값을 근거로 문장 수준 로그 우도비값을 산출한다(S760). 이때, 발화 검증부(160)는 문맥 종속 단어에 대한 로그 우도값의 합산값에서 문맥 독립 적응 반음소 모델의 단어에 대한 로그 우도값의 합산값을 뺀 후, 문장이 갖는 단어의 수로 나누어 정규화하여 문장 수준 로그 우도비값을 산출한다.

음향모델링부(180)는 산출한 수준별 로그 우도비값을 근거로 대용량 음성 데이터들 중에서 음향모델링 데이터를 분류한다(S800). 즉, 음향모델링부(180)는 발화 검증부(160)에서 생성한 음성인식 결과(즉, 우도비값들)를 근거로 대용량 음성 데이터들 중에서 음성인식 결과를 판단하기 애매한 대용량 음성 데이터를 음향모델링 데이터로 분류하여 저장한다. 이를 첨부된 도 6을 참조하여 더욱 상세하게 설명하면 아래와 같다.

문장수준 로그 우도비값이 최소 문턱치값 미만이면(S805; 예), 음향모델링부(180)는 해당 대용량 음성 데이터를 비정상 인식 데이터로 분류한다(S810).

문장수준 로그 우도비값이 최소 문턱치값 이상이고 최대 문턱치값 이하이면(S815; 예), 음향모델링부(180)는 해당 대용량 음성 데이터를 판단불가 데이터로 분류한다(S820).

문장수준 로그 우도비값이 최대 문턱치값을 초과하면(S825; 예), 음향모델링부(180)는 해당 대용량 음성 데이터를 정상 인식 데이터로 분류한다(S830).

음향모델링부(180)는 정상 인식 데이터 및 판단불가 데이터로 분류된 대용량 음성 데이터들에 대해 문장 내에서 단어 평균 로그 우도비값을 산출한다(S835). 즉, 음향모델링부(180)는 문장 수준 로그 우도비값을 사용하여 데이터를 분류한 후 음향 모델링에 사용할 데이터에 대해서는 단어별 평균 로그 우도비값을 산출한다.

로그 우도비값이 단어 평균 우도비값 이하이면(S840; 예), 음향모델링부(180)는 비정상 인식 가능성이 있는 단어로 출력한다(S845).

음향모델링부(180)는 단어별 로그 우도비값이 단어 평균 로그 우도비값을 초과하면 정상 인식 가능성이 있는 단어로 출력한다(S850).

음향모델링부(180)는 신뢰도 정보가 저장된 데이터를 사용하여 점진적 음향모델링을 수행하고 음향 모델을 새롭게 생성한다. 음향모델링부(180)는 신뢰도 정보를 사용한 음향모델 수행시에 특정 단어 또는 문장의 우도비값이 평균보다 적을 경우 음향모델 훈련에 사용하지 않고 음향모델 생성을 수행함으로써 음향모델 성능 개선이 가능하다(S900).

상술한 바와 같이, 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법은 음성인식시스템을 통해 수집된 대용량 음성 데이터에 대해 자동으로 음성 데이터를 분류하고, 분류된 음성 데이터를 사용하여 음향모델 생성함으로써, 음향모델링 데이터 수집 및 오류 데이터 검증에 활용가능할 뿐만 아니라, 수집된 음성 데이터 전사 처리 비용과 시간을 절감할 수 있는 효과가 있다.

이상에서 본 발명에 따른 바람직한 실시예에 대해 설명하였으나, 다양한 형태로 변형이 가능하며, 본 기술분야에서 통상의 지식을 가진자라면 본 발명의 특허청구범위를 벗어남이 없이 다양한 변형예 및 수정예를 실시할 수 있을 것으로 이해된다.

100: 발화검증 기반 대용량 음성 데이터 자동 처리 장치
120: 저장부 122: 제1저장모듈
124: 제2저장모듈 126: 제3저장모듈
128: 제4저장모듈 140: 추출부
142: 끝점 추출 모듈 144: 특징 추출 모듈
160: 발화 검증부 180: 음향모델링부

Claims

복수의 대용량 음성 데이터들 각각에 대해 시작점과 끝점 및 음성의 특징을 추출하는 추출부;
상기 추출부에서 추출된 상기 음성의 특징과, 문맥 종속 적응 모델 및 문맥 독립 적응 반음소 모델을 이용하여 상기 복수의 대용량 음성 데이터들 각각을 정상 인식 데이터, 비정상 인식 데이터, 판단불가 데이터 중에 하나로 구분하는 발화 검증부; 및
상기 발화 검증부에 의해 구분된 복수의 대용량 음성 데이터들 중에서 판단불가 데이터로 분류된 대용량 음성 데이터들을 음향모델링 데이터로 분류하고, 상기 분류된 음향모델링 데이터를 근거로 음향모델을 생성하는 음향모델링부를 포함하는 것을 특징으로 하는 발화검증 기반 대용량 음성 데이터 자동 처리 장치.