KR101734829B1

KR101734829B1 - 지역성 말투를 구분하는 음성 데이터 인식 방법, 장치 및 서버

Info

Publication number: KR101734829B1
Application number: KR1020157034612A
Authority: KR
Inventors: 단 수; 자오 인
Original assignee: 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Priority date: 2013-12-19
Filing date: 2014-12-18
Publication date: 2017-05-12
Also published as: US9928831B2; US20160284344A1; JP2016520879A; WO2015090215A1; JP6229046B2; CN103680493A; KR20160024858A

Abstract

지역성 말투를 구분하는 음성 데이터 인식 방법, 장치 및 서버를 제공한다. 상기 지역성 말투를 구분하는 음성 데이터 인식 방법은, 음성 데이터의 음성인식 신뢰도 및/또는 신호 대 잡음비를 산출하고, 상기 음성인식 신뢰도 및/또는 신호 대 잡음비에 근거하여 음성 데이터로부터 지역성 음성 데이터를 선별하는 단계(S110); 상기 지역성 음성 데이터의 지역 속성에 근거하여 상기 지역성 음성 데이터가 속하는 지역을 확정하는 단계(S120);를 포함한다. 이러한 지역성 말투를 구분하는 음성 데이터 인식 방법, 장치 및 서버는 음성 데이터의 신뢰도와 신호 대 잡음비를 산출하고 대량의 음성 데이터로부터 지역성 음성 데이터를 자동으로 인식해내므로써 음성 데이터를 수동으로 표기하는 작업양을 감소하고 음성 데이터 처리의 효율을 향상시킨다.

Description

지역성 말투를 구분하는 음성 데이터 인식 방법, 장치 및 서버{VOICE DATA RECOGNITION METHOD, DEVICE AND SERVER FOR DISTINGUISHING REGIONAL ACCENT}

본원 발명은 출원번호가 201310703949.3이고 출원인이 베이징 백도 네트콤 과학기술 유한회사이며 발명의 명칭이 "지역성 말투를 구분하는 음성 데이터 인식 방법, 장치 및 서버"이고, 출원일자가 2013년 12월 19일인 중국 특허 출원의 우선권을 주장하는 바, 상기 중국 특허 출원의 모든 내용은 참조로서 본원 발명에 원용된다.

본 발명은 음성 데이터 처리 기술 분야에 관한 것으로, 특히 지역성 말투를 구분하는 음성 데이터 인식 방법, 장치 및 서버에 관한 것이다.

중국의 넓은 국토 면적으로 인하여 지역성 말투를 포함하는 중국어 방언의 종류가 아주 많다. 부동한 지방에서 이용되는 방언들은 발음 특징, 어속 특징상에서 차이점들을 가지고 있다. 따라서, 동일한 음향 모형을 이용하여 부동한 지방의 방언에 대해 음성인식을 진행할 경우, 인식 정확도가 높지 않은 현상이 발생하게 된다. 통일된 중국어 표준말의 음향 모형을 이용하여 부동한 지방의 방언에 대해 음성인식할 경우 식별 정확도가 높지 않은 문제를 해결하기 위하여, 부동한 지방의 방언들은 상응한 방언의 맞춤형 음향 모형으로 각각 트레이닝하는 것은 일종의 괜찮은 방식이다.

음향 모형의 트레이닝은 대량의 트레이닝 데이터가 수요된다. 현재, 위챗(Wechat), 미톡(Mitalk)등 인스턴트 메신저가 유행함에 따라, 인터넷 상에 대량의 원본의 음성 데이터가 저장되어 있다. 이러한 음성 데이터들은 부동한 지방의 방언에 대한 음향 모형을 트레이닝하기 위한 트레이닝 데이터로 이용될 수 있다. 그러나, 기존의 기술에는 이러한 음성 데이터 중 어느 것들이 표준말 음성 데이터이고 어느 것들이 지역성 음성 데이터인지 자동으로 구분하는 방법이 존재하지 않으므로, 원본의 음성 데이터를 이용하여 지방의 방언에 대한 음향 모형을 트레이닝하기 전에 먼저 이러한 원본의 음성 데이터에 대해 수동으로 지역라벨을 표기하여야 하는데, 이는 대량의 인력과 물력을 소요한다.

본 발명의 실시예는 지역성 말투를 구분하는 음성 데이터 인식 방법, 장치 및 서버를 제공하여 원본의 음성 데이터로부터 자동으로 지역성 음성 데이터를 인식한다.

제1 방면에 있어서, 본 발명의 실시예는 지역성 말투를 구분하는 음성 데이터 인식 방법을 제공하며, 상기 방법은,

음성 데이터의 음성인식 신뢰도 및/또는 신호 대 잡음비를 산출하고 상기 음성인식 신뢰도 및/또는 신호 대 잡음비에 근거하여 음성 데이터로부터 지역성 음성 데이터를 선별하는 단계; 및

상기 지역성 음성 데이터의 지역 속성에 근거하여 상기 지역성 음성 데이터가 속하는 지역을 확정하는 단계;를 포함한다.

제2 방면에 있어서, 본 발명의 실시예는 지역성 말투를 구분하는 음성 데이터 인식 장치를 제공하며, 상기 장치는,

음성 데이터의 음성인식 신뢰도 및/또는 신호 대 잡음비를 산출하고 상기 음성인식 신뢰도 및/또는 신호 대 잡음비에 근거하여 음성 데이터로부터 지역성 음성 데이터를 선별하기 위한 음성 데이터 선별 모듈; 및

상기 지역성 음성 데이터의 지역 속성에 근거하여 상기 지역성 음성 데이터가 속하는 지역을 확정하는 지역 확정 모듈;을 포함한다.

제3 방면에 있어서, 본 발명의 실시예는 지역성 말투를 구분하는 음성 데이터 인식 방법을 실행하는 서버를 제공하며, 상기 서버는 적어도 하나의 프로세서, 메모리 장치 및 적어도 하나의 컴퓨터 프로그램을 포함하고, 상기 적어도 하나의 컴퓨터 프로그램은 상기 메모리 장치에 저장되며 상기 적어도 하나의 프로세서로 실행되되, 상기 상기 컴퓨터 프로그램은,

음성 데이터의 음성인식 신뢰도 및/또는 신호 대 잡음비를 산출하고 상기 음성인식 신뢰도 및/또는 신호 대 잡음비에 근거하여 음성 데이터로부터 지역성 음성 데이터를 선별하도록 조작시키는 명령; 및

상기 지역성 음성 데이터의 지역 속성에 근거하여 상기 지역성 음성 데이터가 속하는 지역을 확정하도록 조작시키는 명령;을 포함한다.

본 발명의 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 방법, 장치 및 서버는 음성 데이터의 신뢰도 및/또는 신호 대 잡음비를 산출하고 대량의 음성 데이터로부터 지역성 음성 데이터를 자동으로 인식해내므로써 음성 데이터를 수동으로 표기하는 작업양을 감소하고 음성 데이터 처리의 효율을 향상시킨다.

본 발명의 기타 특징, 목적 및 장점들은 하기 도면을 결합하여 진행하는 비제한적 실시예들에 대한 구제적인 설명을 통하여 더욱 명확해 질 것이다.
도1은 본 발명의 제1 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 방법의 흐름도이다.
도2는 본 발명의 제1 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 방법의 신호 흐름도이다
도3은 본 발명의 제2 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 방법의 흐름도이다.
도4는 본 발명의 제2 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 방법에서의 신호 대 잡음비 산출의 흐름도이다.
도5는 본 발명의 제2 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 방법의 신호 흐름도이다.
도6은 본 발명의 제3 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 장치의 구조도이다.
도7은 본 발명의 제5 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 방법을 실행하는 서버의 하드웨어 구조도이다.

이하, 첨부된 도면 및 실시예들을 결합하여 본 발명을 상세히 설명하기로 한다. 본 명세서에 설명된 구체적인 실시예들은 오직 해당 발명을 설명하기 위한 것일 뿐, 해당 발명을 한정하기 위한 것이 아님을 자명하여야 할 것이다. 또한, 설명의 편의를 위하여, 도면에는 모든 내용이 도시되어 있는 것이 아니라 오직 본 발명에 관련된 부분만 도시되어 있다.

제1 실시예

도1은 본 발명의 제1 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 방법의 흐름도이다. 도1을 참조하면, 상기 지역성 말투를 구분하는 음성 데이터 인식 방법은 아래와 같은 단계들을 포함한다.

S110, 음성 데이터의 음성인식 신뢰도 및/또는 신호 대 잡음비를 산출하고 음성인식 신뢰도 및/또는 신호 대 잡음비에 근거하여 음성 데이터로부터 지역성 음성 데이터를 선별한다.

기존의 기술에서 음성인식을 위한 음향 모형은 모두 저잡음에 관한 것이고, 지역성 말투에 대한 표준말 음성 트레이닝을 위한 음향 모형은 없었다. 이러한 음향 모형들을 이용하여 지역성 음성 데이터에 대한 음성인식을 진행할 경우 음성인식 신뢰도가 높지 않은 문제가 발생하게 되고 음성인식의 인식비율이 높지 않은 문제가 발생하게 된다. 음성인식시 지역성 음성 데이터의 음성인식 신뢰도가 높지 않은 특징이 존재하므로, 지역성 음성 데이터의 음성인식 신뢰도를 산출한 다음 산출된 지역성 음성 데이터의 음성인식 신뢰도에 근거하여 지역성 음성 데이터를 선별할 수 있다.

그러나, 음성 데이터의 음성인식 신뢰도가 높지 않은 문제를 초래하는 원인은 음성 데이터에 비교적 높은 잡음이 존재하기 때문일 수도 있으므로, 음성 데이터의 신호 대 잡음비를 산출한 후, 신호 대 잡음비가 낮으므로 인한 음성인식 신뢰도가 낮은 음성 데이터를 제거하도록 음성 데이터에서 신호 대 잡음비가 비교적 작은 음성 데이터를 필터링할 수도 있다. 음성 데이터에서 신호 대 잡음비가 비교적 작은 음성 데이터를 필터링한 후, 나머지 음성 데이터는 지역성 말투로 인해 음성인식 신뢰도가 높지 않은 음성 데이터, 즉 지역성 음성 데이터이다.

본 실시예에 있어서, 음성 데이터의 음성인식 신뢰도 및/또는 신호 대 잡음비를 산출하고 음성인식 신뢰도 및/또는 신호 대 잡음비에 근거하여 음성 데이터로부터 지역성 음성 데이터를 선별한다. 음성 데이터의 음성인식 신뢰도와 신호 대 잡음비를 동시에 산출하고 산출된 음성인식 신뢰도와 신호 대 잡음비에 근거하여 음성 데이터로부터 지역성 음성 데이터를 선별하거나, 음성 데이터의 음성인식 신뢰도 또는 신호 대 잡음비를 별도로 산출하여 산출된 음성인식 신뢰도 또는 신호 대 잡음비에 근거하여 음성 데이터로부터 지역성 음성 데이터를 선별할 수 있음을 자명하여야 한다.

S120, 상기 지역성 음성 데이터의 지역 속성에 근거하여 상기 지역성 음성 데이터가 속하는 지역을 확정한다.

음성 데이터로부터 지역성 음성 데이터를 선별한 후, 선별된 지역성 음성 데이터에 대해 상기 지역성 음성 데이터가 속하는 지역을 확정한다. 상기 지역성 음성 데이터에 대해 그가 속하는 지역을 확정하는 것은 상기 지역성 음성 데이터의 지역 속성에 근거하여 상기 지역성 음성 데이터가 속하는 지역을 확정하여야 한다. 바람직하게, 상기 지역 속성은 상기 음성 데이터의 소스 IP주소 귀속지 또는 상기 음성 데이터의 소스 사용자 귀속지를 포함한다. 먼저 대량의 음성 데이터로부터 선별을 진행해야 하므로, 지역 속성을 기반으로 진행하는 지역표기의 계산양을 일정하게 감소하고 해당 지역구분의 정확성을 개선한다.

도2는 본 발명의 제1 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 방법의 신호 흐름도이다. 도2를 참조하면, 음성 데이터를 신뢰도 및/또는 신호 대 잡음비 분류기(201)에 입력하여 음성식별 신뢰도 및/또는 신호 대 잡음비에 근거하여 상기 음성 데이터를 분류하고, 음성인식 신뢰도 및/또는 신호 대 잡음비에 근거하여 분류된 음성 데이터를 지역 속성 분류기(202)에 입력하여 음성 데이터의 지역 속성에 근거하여 상기 음성 데이터를 분류하여 최종적으로 지역 속성에 근거하여 분류된 지역성 음성 데이터를 획득한다.

본 실시예에 있어서, 음성 데이터의 음성인식 신뢰도 및/또는 신호 대 잡음비를 산출하고 대량의 음성 데이터로부터 지역성 음성 데이터를 선별하고 대량의 음성 데이터로부터 지역성 음성 데이터를 자동으로 인식해내므로써 대량의 음성 데이터를 수동으로 표기하는 작업양을 감소하고 음성 데이터 처리의 효율을 향상시킨다.

제2 실시예

도3은 본 발명의 제2 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 방법의 흐름도이다. 상기 지역성 말투를 구분하는 음성 데이터 인식 방법은 상술한 실시예를 기반으로 하며, 음성 데이터의 음성인식 신뢰도 및/또는 신호 대 잡음비를 산출하고 음성인식 신뢰도 및/또는 신호 대 잡음비에 근거하여 음성 데이터로부터 지역성 음성 데이터를 선별하는 단계는, 음성 데이터의 음성인식 신뢰도를 산출하고 상기 음성인식 신뢰도가 중간의 값의 범위에 처하는 음성 데이터를 선택하는 단계와, 선택된 음성 데이터의 신호 대 잡음비를 산출하고 신호 대 잡음비가 설정 역치보다 큰 음성 데이터를 지역성 음성 데이터로 하는 단계를 포함한다.

도3을 참조하면, 상기 지역성 말투를 구분하는 음성 데이터 인식 방법은 아래와 같은 단계들을 포함한다.

S310, 음성 데이터의 음성인식 신뢰도를 산출하고 상기 음성인식 신뢰도가 중간의 값의 범위에 처하는 음성 데이터를 선택한다.

신뢰는 정확한 확률를 가리키고, 신뢰도는 이러한 확률을 평가하는 도량이며 모 사건의 믿음성 정도를 나타낸다. 음성인식에서, 신뢰도는 모형과 관측 데이터사이의 매칭 정도를 평가하는 함수로 정의되며, 이러한 함수의 값은 부동한 관측 데이터에 대한 비교성을 구비한다.

음성인식에서, 신뢰도의 연구는 매우 중요한 과제이며, 더욱이 음성 기술이 광범위하게 응용되는 오늘 날에도 음성인식의 출력 결과의 신뢰도 예측을 진행하고 그의 믿음성 정도를 판단하고 있으며 점점 많은 분야에서 새로운 응용으로 발전되고 있다.

본 실시예에서, 음성인식 신뢰도는 음성 데이터를 인식할 때 산출된 신뢰도이다.

음성인식 알고리즘을 이용하여 인식할 때의 표준말 음성의 음성 데이터의 신뢰도가 일반적으로 비교적 높으므로, 값의 범위가 비교적 높은 신뢰도의 음성 데이터를 배제하는 것은 표준말의 음성 데이터를 배제하는 것에 해당된다. 한편, 신뢰도가 비교적 낮은 데이터는 유효한 음성을 포함하지 않을 수 있으므로, 값의 범위가 비교적 작은 신뢰도의 음성 데이터를 배제하는 것은 무효 음성 데이터를 배제하는 것에 해당된다. 따라서, 음성 데이터의 신뢰도를 산출한 후, 음성인식 신뢰도가 중간에 처하는 음성 데이터를 지역성 음성 데이터일 가능성이 있는 음성 데이터로 선택한다. 신뢰도가 중간에 처한다는 것은 신뢰도의 값의 범위에서 제일 큰 값의 범위와 제일 작은 값의 범위를 배제한 후 보류되는 중간에 처한 값을 가리키며, 배제된 값의 범위의 크기는 한정된 것이 아니라 경험 또는 실제 수요에 따라 성정할 수 있다. 본 실시예에서, 바람직하게 음성인식 신뢰도가 30％ 내지 80％ 사이에 처하는 음성 데이터를 지역성 음성 데이터일 가능성이 있는 음성 데이터로 선택한다.

음성 데이터의 음성인식 신뢰도의 산출은 반드시 음성 데이터의 특징에 의거하여야 한다. 음성 데이터의 음성인식 신뢰도를 산출하기 위한 특징은 음성 데이터의 우도, 상태 상주 정보 및 우도비율을 포함할 수 있다.

우도는 음성 데이터와 모형 데이터사이의 유사 정도를 나타내는 지표이다. 상태 상주 정보는 음성인식 과정에서 음향 모형이 어느 한 음성인식 상태에 상주하는 관련 정보를 가리킨다. 우도비율은 음성 데이터와 모형 데이터사이의 유사 정도의 비례값이다.

본 실시예에서, 음성 데이터의 우도, 상태 상주 정보 및 우도비율을 의거하여 음성 데이터의 음성인식 신뢰도를 산출할 수 있다.

S320, 선택된 음성 데이터의 신호 대 잡음비를 산출하고 신호 대 잡음비가 설정 역치보다 큰 음성 데이터를 지역성 음성 데이터로 한다.

음성인식에서 음성 데이터의 신뢰도가 높지 않은 원인은 음성 데이터 중에 비교적 큰 잡음이 포함되어 있기 때문일 수 있으므로, 선택된 음성 데이터에 대해 그의 신호 대 잡음비를 산출하고 신호 대 잡음비가 비교적 작은 음성 데이터를 제거하며 신호 대 잡음비가 비교적 큰 음성 데이터를 지역성 음성 데이터로 한다.

신호 대 잡음비는 음성 데이터 중의 정상적인 음성신호의 공율과 음성 데이터 중의 잡음신호의 공율의 비례값이다. 선택된 음성 데이터의 신호 대 잡음비를 산출하고 신호 대 잡음비가 비교적 큰 음성 데이터를 지역성 음성 데이터로 하는 것은 선택된 음성 데이터 중의 정상적인 음성신호의 공율과 음성 데이터 중의 잡음신호의 공율의 비례값을 산출 한 정상적인 음성신호의 공율과 음성 데이터 중의 잡음신호의 공율의 비례값이 신호 대 잡음비의 역치보다 큰 음성 데이터를 지역성 음성 데이터로 하는 것을 의미한다.

S330, 상기 지역성 음성 데이터의 지역 속성에 근거하여 상기 지역성 음성 데이터의 지역성 음성 데이터가 속하는 지역을 확정한다.

음성인식 신뢰도와 신호 대 잡음비를 산출하고 대량의 음성 데이터로부터 지역성 음성 데이터를 인식한 후, 상기 지역성 음성 데이터의 지역 속성에 의거하여 상기 지역성 음성 데이터에 대해 그가 속하는 지역을 확정한다.

바람직하게, 상기 음성 데이터의 소스 IP주소 귀속지 또는 음성 데이터의 소스 사용자 귀속지에 의거하여 상기 지역성 음성 데이터가 속하는 지역을 확정할 수 있다.

도4는 본 발명의 제2 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 방법에서의 신호 대 잡음비 산출의 흐름도이다. 도4를 참조하면, 바람직하게, 선택된 음성 데이터의 신호 대 잡음비를 산출하는 단계는 아래와 같은 단계들을 포함한다.

S321, 피치검출 알고리즘을 이용하여 상기 음성 데이터의 피치 데이터를 검출한다.

상기 음성 데이터의 신호 대 잡음비를 산출하기 위하여, 먼저 상기 음성 데이터 중 어느 부분이 상기 음성 데이터의 피치 데이터(즉, 정상적인 음성 데이터)이고 어느 부분이 상기 음성 데이터의 잡음 데이터인지 구분하여야 한다.

피치검출 알고리즘은 상기 음성 데이터로부터 피치 데이터를 검출하는 알고리즘이다. 대표적인 피치검출 알고리즘은 스펙트럼 차감법, 위이너 필터링법 및 단시간 스펙트럼의 최소평균제곱오차의 추산법을 포함한다. 본 실시예에서, 스펙트럼 차감법, 위이너 필터링법 또는 단시간 스펙트럼의 최소평균제곱오차의 추산법를 이용하여 상기 음성 데이터로부터 피치 데이터를 검출할 수 있다.

S322, 검출된 피치 데이터에 근거하여 상기 음성 데이터의 잡음 데이터를 획득한다.

상기 음성 데이터로부터 피치 데이터를 검출한 후, 나머지 음성 데이터는 상기 음성 데이터 중의 잡음 데이터에 해당된다. 따라서, 간단하게 상기 음성 데이터와 상기 음성 데이터로부터 검출된 피치 데이터의 차이를 구하여 상기 음성 데이터 중의 잡음 데이터를 획득할 수 있다.

S323, 상기 피치 데이터 및 상기 잡음 데이터에 근거하여 상기 음성 데이터의 신호 대 잡음비를 산출한다.

상기 음성 데이터로부터 상기음성 데이터의 피치 데이터와 잡음 데이터를 획득한 후, 상기 피치 데이터 및 상기 잡음 데이터에 근거하여 상기 음성 데이터의 신호 대 잡음비를 산출할 수 있다. 구체적으로, 먼저 상기 피치 데이터 및 상기 잡음 데이터의 공율을 산출한 후 양자간의 비례값을 산출하여 상기 음성 데이터의 신호 대 잡음비를 획득할 수 있다.

도5는 본 발명의 제2 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 방법의 신호 흐름도이다. 도5를 참조하면, 음성 데이터를 신뢰도 분류기(501)에 입력하여 음성인식 신뢰도에 근거하여 음성 데이터를 분류하고, 음성인식 신뢰도의 값이 중간에 처하는 음성 데이터를 신호 대 잡음비 분류기(502)에 입력하여 신호 대 잡음비에 근거하여 음성 데이터를 분류하고, 신호 대 잡음비가 비교적 큰 음성 데이터를 지역 속성 분류기(503)에 입력하여 음성 데이터의 지역 속성에 근거하여 음성 데이터를 분류하며, 지역 속성 분류가 완료된 음성 데이터를 지역성 음성 데이터로 한다.

본 실시예는 대량의 음성 데이터로부터 먼저 음성인식 신뢰도가 중간에 처하고 신호 대 잡음비가 성정역치보다 큰 음성 데이터를 선별하되, 이러한 조작은 후속의 지역 속성을 이용하여 지역을 구분하는 조작에서 처리될 데이터 양을 감소시킬 수 있다. 다음, 음성 데이터의 지역 속성에 근거하여 음성 데이터를 분류하므로써 지역성 음성 데이터의 선별과 표기를 실현하고 음성 데이터에 대한 처리 효율을 진일보 향상 시킨다.

제3 실시예

도6은 본 발명의 제3 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 장치의 구조도이다. 도6을 참조하면, 상기 지역성 말투를 구분하는 음성 데이터 인식 장치는 음성 데이터 선별 모듈(610) 및 지역 확정 모듈(620)을 포함한다.

상기 음성 데이터 선별 모듈(610)은 음성 데이터의 음성인식 신뢰도 및/또는 신호 대 잡음비를 산출하고 음성인식 신뢰도 및/또는 신호 대 잡음비에 근거하여 음성 데이터로부터 지역성 음성 데이터를 선별한다.

상기 지역 확정 모듈(620)은 상기 지역성 음성 데이터의 지역 속성에 근거하여 상기 지역성 음성 데이터가 속하는 지역을 확정한다.

바람직하게, 상기 음성 데이터 선별 모듈(610)은 신뢰도 선택 서브모듈(611) 및 신호 대 잡음비 선택 서브모듈(612)을 포함한다.

상기 신뢰도 선택 서브모듈(611)은 음성 데이터의 음성인식 신뢰도를 산출하고 상기 음성인식 신뢰도가 중간의 값의 범위에 처하는 음성 데이터를 선택한다.

상기 신호 대 잡음비 선택 서브모듈(612)은 선택된 음성 데이터의 신호 대 잡음비를 산출하고 신호 대 잡음비가 설정 역치보다 큰 음성 데이터를 지역성 음성 데이터로 한다.

바람직하게, 상기 지역 속성은 상기 음성 데이터의 소스 IP주소 귀속지 또는 상기 음성 데이터의 소스 사용자 귀속지를 포함한다.

바람직하게, 상기 음성 데이터 선별 모듈은 음성 데이터의 음성인식 신뢰도를 산출하되, 구체적으로 음성 데이터의 우도, 상태 상주 정보 및/또는 우도비율을 기반으로 음성 데이터의 음성인식 신뢰도를 산출한다.

바람직하게, 선택된 중간의 값의 범위는 30% 내지 80%이다.

바람직하게, 상기 음성 데이터 선별 모듈은 음성 데이터의 신호 대 잡음비를 산출하되, 구체적으로,

피치검출 알고리즘을 이용하여 상기 음성 데이터의 피치 데이터를 검출하고;

검출된 피치 데이터에 근거하여 상기 음성 데이터의 잡음 데이터를 획득하고;

상기 피치 데이터 및 상기 잡음 데이터에 근거하여 상기 음성 데이터의 신호 대 잡음비를 산출한다.

바람직하게, 상기 피치검출 알고리즘은 펙트럼 차감법, 위이너 필터링법 및 단시간 스펙트럼의 최소평균제곱오차의 추산법을 포함한다.

본 실시예는 음성 데이터의 음성인식 신뢰도 및 신호 대 잡음비를 산출하고, 음성인식 신뢰도가 중간에 처하고 신호 대 잡음비가 비교적 큰 음성 데이터를 지역성 음성 데이터로 선택하고 대량의 음성 데이터로부터 지역성 음성 데이터를 자동으로 인식해내므로써 음성 데이터를 수동으로 표기하는 것을 피면하고 음성 데이터 처리의 효율을 향상시킨다. 상술한 본 발명의 실시예의 번호는 실시예의 우열을 대표하는 것이 아니라 오로지 설명하기 위한 것일 뿐이다.

제4 실시예

본 실시예는 비휘발성 컴퓨터 저장매체를 제공하며, 상기 컴퓨터 저장매체는 하나 또는 다수의 모듈을 저장하고, 상기 하나 또는 다수의 모듈이 지역성 말투를 구분하는 음성 데이터 인식 방법을 실행하는 서버에 의해 실행될 경우, 상기 서버는,

음성 데이터의 음성인식 신뢰도 및/또는 신호 대 잡음비를 산출하고 상기 음성인식 신뢰도 및/또는 신호 대 잡음비에 근거하여 음성 데이터로부터 지역성 음성 데이터를 선별하고;

상기 지역성 음성 데이터의 지역 속성에 근거하여 상기 지역성 음성 데이터가 속하는 지역을 확정한다.

상기 저장매체에 저장된 모듈이 상기 서버에 의해 실행될 경우, 음성 데이터의 음성인식 신뢰도 및/또는 신호 대 잡음비를 산출하고 상기 음성인식 신뢰도 및/또는 신호 대 잡음비에 근거하여 음성 데이터로부터 지역성 음성 데이터로를 선별하는 단계는, 바람직하게,

음성 데이터의 음성인식 신뢰도를 산출하고 상기 음성인식 신뢰도가 중간의 값의 범위에 처하는 음성 데이터를 선택하는 단계와;

선택된 음성 데이터의 신호 대 잡음비를 산출하고 신호 대 잡음비가 설정 역치보다 큰 음성 데이터를 지역성 음성 데이터로 하는 단계;를 포함할 수 있다.

상기 저장매체에 저장된 모듈이 상기 서버에 의해 실행될 경우, 상기 지역 속성은 바람직하게 상기 음성 데이터의 소스 IP주소 귀속지 또는 상기 음성 데이터의 소스 사용자 귀속지를 포함할 수 있다.

상기 저장매체에 저장된 모듈이 상기 서버에 의해 실행될 경우, 음성 데이터의 음성인식 신뢰도를 산출하는 단계는, 바람직하게,

음성 데이터의 우도, 상태 상주 정보 및/또는 우도비율을 기반으로 음성 데이터의 음성인식 신뢰도를 산출하는 단계를 포함할 수 있다.

상기 저장매체에 저장된 모듈이 상기 서버에 의해 실행될 경우, 선택된 중간의 값의 범위는 바람직하게 30% 내지 80%일 수 있다.

상기 저장매체에 저장된 모듈이 상기 서버에 의해 실행될 경우, 음성 데이터의 신호 대 잡음비를 산출하는 단계는, 바람직하게,

피치검출 알고리즘을 이용하여 상기 음성 데이터의 피치 데이터를 검출하는 단계와;

검출된 피치 데이터에 근거하여 상기 음성 데이터의 잡음 데이터를 획득하는 단계와;

상기 피치 데이터 및 상기 잡음 데이터에 근거하여 상기 음성 데이터의 신호 대 잡음비를 산출하는 단계;를 포함할 수 있다.

상기 저장매체에 저장된 모듈이 상기 서버에 의해 실행될 경우, 상기 피치검출 알고리즘은 바람직하게 스펙트럼 차감법, 위이너 필터링법 또는 단시간 스펙트럼의 최소평균제곱오차의 추산법을 포함할 수 있다.

제5 실시예

도7은 본 발명의 제5 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 방법을 실행하는 서버의 하드웨어 구조도이다. 도7를 참조하면, 본 발명의 제5 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 방법을 실행하는 서버의 하드웨어 구조 예시도를 도시하였다. 상기 서버는,

하나 또는 다수의 프로세서(710) (도7에는 하나의 프로세서(710)가 예시됨); 메모리 장치(720); 및 하나 또는 다수의 모듈을 포함한다.

상기 서버는 입력 장치(730)와 출력 장치(740)를 더 포함할 수 있다. 상기 서버 중의 프로세서(710), 메모리 장치(720), 입력 장치(730) 및 출력 장치(740)는 버스라인 또는 기타 방식을 통하여 연결될 수 있으며, 도7에는 버스라인을 통하여 연결되는 예를 도시하였다.

메모리 장치(720)는 컴퓨터 판독가능한 저장매체로서, 소프트웨어 프로그램, 컴퓨터 실행가능한 프로그램 및 모듈을 저장할 수 있으며, 예를 들면 본 발명의 실시예 중의 지역성 말투를 구분하는 음성 데이터 인식 방법에 대응되는 프로그램 명령/모듈 (예를 들면, 도6에 도시된 지역성 말투를 구분하는 음성 데이터 인식 장치 중의 음성 데이터 선별 모듈(610)와 지역 확정 모듈(620))을 저장할 수 있다. 프로세서(710)는 메모리 장치(720) 중에 저장된 소프트웨어 프로그램, 명령 및 모듈을 운행하여 서버의 각종 기능성 응용 및 데이터 처리를 실행한다. 즉, 상기 방법 실시예 중의 지역성 말투를 구분하는 음성 데이터 인식 방법을 실현한다.

메모리 장치(720)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있으며, 여기서, 프로그램 저장 영역은 운영체제, 적어도 하나의 기능이 필요로 한 응용 프로그램을 저장할 수 있고, 데이터 저장 영역은 단말기 장치의 사용에 따라 창출된 데이터 등을 저장할 수 있다. 또한, 메모리 장치(720)는 고속 랜덤 액세스 메모리 장치를 포함할 수 있고, 적어도 하나의 디스크 메모리 장치, 플래시 메모리 장치, 또는 기타 비휘발성 고체형 메모리 장치와 같은 비휘발성 메모리 장치를 포함할 수도 있다. 일부 실시예에서, 메모리 장치(720)는 프로세서(710)에 대해 원격 설치되는 메모리 장치를 더 포함할 수 있으며, 이러한 원격 메모리 장치는 네트워크를 통하여 단말기 장치에 연결될 수 있다. 상기 네트워크의 실시예는 인터넷, 기업 내부 네트워크, 리어 워크, 이동 통신망 및 이들의 조합을 포함할 수 있으나, 이에 한정된 것은 아니다.

입력 장치(730)는 입력되는 수자 또는 문자정보를 수신하고 단말기 장치의 사용자 설정 및 기능 제어에 관한 키 신호 입력을 생성할 수 있다. 출력 장치(740)는 스크린 등과 같은 표시장치를 포함할 수 있다.

상기 하나 또는 다수의 모듈은 상기 메모리 장치(720)에 저장되고, 상기 하나 또는 다수의 프로세서(710)에 의해 실행될 경우,

나아가, 음성 데이터의 음성인식 신뢰도 및/또는 신호 대 잡음비를 산출하고 상기 음성인식 신뢰도 및/또는 신호 대 잡음비에 근거하여 음성 데이터로부터 지역성 음성 데이터를 선별하는 단계는,

선택된 음성 데이터의 신호 대 잡음비를 산출하고 신호 대 잡음비가 설정 역치보다 큰 음성 데이터를 지역성 음성 데이터로 하는 단계;를 포함한다.

나아가, 상기 지역 속성은 상기 음성 데이터의 소스 IP주소 귀속지 또는 상기 음성 데이터의 소스 사용자 귀속지를 포함한다.

나아가, 음성 데이터의 음성인식 신뢰도를 산출하는 단계는,

음성 데이터의 우도, 상태 상주 정보 및/또는 우도비율을 기반으로 음성 데이터의 음성식별 신뢰도 산출하는 단계를 포함한다.

나아가, 선택된 중간에 처한 값의 범위는30％ 내지 80％이다.

나아가, 음성 데이터의 신호 대 잡음비를 산출하는 단계는,

피치검출 알고리즘를 이용하여 상기 음성 데이터의 피치 데이터를 검출하는 단계와;

상기 피치 데이터 및 상기 잡음 데이터에 근거하여 상기 음성 데이터의 신호 대 잡음비를 산출하는 단계;를 포함한다.

나아가, 상기 피치검출 알고리즘은 스펙트럼 차감법, 위이너 필터링법 또는 단시간 스펙트럼의 최소평균제곱오차의 추산법을 포함한다.

보다 싶이, 상술한 본 발명의 각 모듈 또는 각 단계는 범용의 컴퓨터 장치로 실현할 수 있으며, 선택가능하게, 이들을 컴퓨터 장치가 실행 가능한 프로그램 코드로 실현하고 메모리 장체에 저장하여 컴퓨터 장치로 실행하거나, 이들을 각종의 집적회로 모듈로 각각 제작하거나, 이들 중의 다수의 모듈 또는 단계를 하나의 집적회로 모듈로실현할 수 있음을 해당 기술분야에서 통상의 지식을 가진 자가 자명할 것이다. 본 발명은 임의의 특정 하드웨어 및 소프트웨어의 결합에 한정되지 않는다.

본 명세서 중의 각 실시예는 모두 점진적인 방식으로 설명하였는 바, 각 실시예에서 주력하여 설명하는 부분은 모두 기타 실시예와의 차이점들이며, 각 실시예들 간의 동일하거나 유사한 부분들은 상호 참조하면 될 것이다.

본 명세서에 있어서, "제1", "제2"와 같은 용어는 오직 하나의 실체 또는 조작을 다른 하나의 실체 또는 조작과 구분하기 위한 것일 뿐, 이러한 실체 또는 조작들 간에 이러한 실질적 관계나 순서가 반드시 존재해야 한다고 요구하거나 암시하는 것이 아님을 자명하여야 한다.

이상의 설명은 오직 본 발명의 실시예일 뿐, 본 발명의 범위를 한저하기 위한 것이 아니며, 본 발명의 명세서 도면 내용을 이용하여 제작된 등가구조 또는 등가흐름의 변환이나 직접적 또는 간접적으로 기타 상응한 기술분야에서의 운용은 모두 동등하게 본 발명의 범위내에 포함된다.

Claims

음성 데이터의 음성인식 신뢰도를 산출하고 상기 음성인식 신뢰도가 제1 기준값보다 크고 제2 기준값보다 작은 범위에 처하는 음성 데이터를 선택하는 단계;
선택된 음성 데이터의 신호 대 잡음비를 산출하고 신호 대 잡음비가 설정 역치보다 큰 음성 데이터를 지역성 음성 데이터로 하는 단계; 및
상기 지역성 음성 데이터의 지역 속성에 근거하여 상기 지역성 음성 데이터가 속하는 지역을 확정하는 단계;를 포함하는 것을 특징으로 하는 지역성 말투를 구분하는 음성 데이터 인식 방법.
삭제
제1항에 있어서,
상기 지역 속성은 상기 음성 데이터의 소스 IP주소 귀속지 또는 상기 음성 데이터의 소스 사용자 귀속지를 포함하는 것을 특징으로 하는 지역성 말투를 구분하는 음성 데이터 인식 방법.
제1항에 있어서,
음성 데이터의 음성인식 신뢰도를 산출하는 단계는,
음성 데이터의 우도, 상태 상주 정보 및/또는 우도비율을 기반으로 음성 데이터의 음성인식 신뢰도를 산출하는 단계를 포함하는 것을 특징으로 하는 지역성 말투를 구분하는 음성 데이터 인식 방법.
제1항에 있어서,
상기 제1 기준값은 30%이고, 상기 제2 기준값은 80%인 것을 특징으로 하는 지역성 말투를 구분하는 음성 데이터 인식 방법.
제1항에 있어서,
음성 데이터의 신호 대 잡음비를 산출하는 단계는,
피치검출 알고리즘을 이용하여 상기 음성 데이터의 피치 데이터를 검출하는 단계;
검출된 피치 데이터에 근거하여 상기 음성 데이터의 잡음 데이터를 획득하는 단계; 및
상기 피치 데이터 및 상기 잡음 데이터에 근거하여 상기 음성 데이터의 신호 대 잡음비를 산출하는 단계;를 포함하는 것을 특징으로 하는 지역성 말투를 구분하는 음성 데이터 인식 방법.
제6항에 있어서,
상기 피치검출 알고리즘은 스펙트럼 차감법, 위이너 필터링법 또는 단시간 스펙트럼의 최소평균제곱오차의 추산법을 포함하는 것을 특징으로 하는 지역성 말투를 구분하는 음성 데이터 인식 방법.
음성 데이터의 음성인식 신뢰도 및 신호 대 잡음비 중 적어도 하나를 산출하고 상기 음성인식 신뢰도 및 신호 대 잡음비 중 적어도 하나에 근거하여 음성 데이터로부터 지역성 음성 데이터를 선별하기 위한 음성 데이터 선별 모듈; 및
상기 지역성 음성 데이터의 지역 속성에 근거하여 상기 지역성 음성 데이터가 속하는 지역을 확정하는 지역 확정 모듈;을 포함하되,
상기 음성 데이터 선별 모듈은,
음성 데이터의 음성인식 신뢰도를 산출하고 상기 음성인식 신뢰도가 제1 기준값보다 크고 제2 기준값보다 작은 범위에 속하는 음성 데이터를 선택하는 신뢰도 선택 서브모듈; 및
선택된 음성 데이터의 신호 대 잡음비를 산출하고 신호 대 잡음비가 설정 역치보다 큰 음성 데이터를 지역성 음성 데이터로 하는 신호 대 잡음비 선택 서브모듈을 포함하는 것을 특징으로 하는 지역성 말투를 구분하는 음성 데이터 인식 장치.
삭제
제8항에 있어서,
상기 지역 속성은 상기 음성 데이터의 소스 IP주소 귀속지 또는 상기 음성 데이터의 소스 사용자 귀속지를 포함하는 것을 특징으로 하는 지역성 말투를 구분하는 음성 데이터 인식 장치.
제8항에 있어서,
상기 음성 데이터 선별 모듈은 음성 데이터의 음성인식 신뢰도를 산출하며, 구체적으로, 음성 데이터의 우도, 상태 상주 정보 및/또는 우도비율을 기반으로 음성 데이터의 음성인식 신뢰도를 산출하는 것을 특징으로 하는 지역성 말투를 구분하는 음성 데이터 인식 장치.
제8항에 있어서,
상기 제1 기준값은 30%이고, 상기 제2 기준값은 80%인 것을 특징으로 하는 지역성 말투를 구분하는 음성 데이터 인식 장치.
제8항에 있어서,
상기 음성 데이터 선별 모듈은 음성 데이터의 신호 대 잡음비를 산출하며, 구체적으로, 피치검출 알고리즘를 이용하여 상기 음성 데이터의 피치 데이터를 검출하고 검출된 피치 데이터에 근거하여 상기 음성 데이터의 잡음 데이터를 획득하며 상기 피치 데이터 및 상기 잡음 데이터에 근거하여 상기 음성 데이터의 신호 대 잡음비를 산출하는 것을 특징으로 하는 지역성 말투를 구분하는 음성 데이터 인식 장치.
제13항에 있어서,
상기 피치검출 알고리즘은 스펙트럼 차감법, 위이너 필터링법 또는 단시간 스펙트럼의 최소평균제곱오차의 추산법을 포함하는 것을 특징으로 하는 지역성 말투를 구분하는 음성 데이터 인식 장치.
적어도 하나의 프로세서, 메모리 장치 및 적어도 하나의 컴퓨터 프로그램을 포함하며, 상기 적어도 하나의 컴퓨터 프로그램은 상기 메모리 장치에 저장되며 상기 적어도 하나의 프로세서로 실행되되,
상기 컴퓨터 프로그램은,
음성 데이터의 음성인식 신뢰도를 산출하고 상기 음성인식 신뢰도가 제1 기준값보다 크고 제2 기준값보다 작은 범위에 처하는 음성 데이터를 선택하는 명령;
선택된 음성 데이터의 신호 대 잡음비를 산출하고 신호 대 잡음비가 설정 역치보다 큰 음성 데이터를 지역성 음성 데이터로 하는 명령; 및
상기 지역성 음성 데이터의 지역 속성에 근거하여 상기 지역성 음성 데이터가 속하는 지역을 확정하도록 조작시키는 명령;을 포함하는 것을 특징으로 하는 지역성 말투를 구분하는 음성 데이터 인식 방법을 실행하는 서버.