KR101734829B1 - 지역성 말투를 구분하는 음성 데이터 인식 방법, 장치 및 서버 - Google Patents

지역성 말투를 구분하는 음성 데이터 인식 방법, 장치 및 서버 Download PDF

Info

Publication number
KR101734829B1
KR101734829B1 KR1020157034612A KR20157034612A KR101734829B1 KR 101734829 B1 KR101734829 B1 KR 101734829B1 KR 1020157034612 A KR1020157034612 A KR 1020157034612A KR 20157034612 A KR20157034612 A KR 20157034612A KR 101734829 B1 KR101734829 B1 KR 101734829B1
Authority
KR
South Korea
Prior art keywords
voice data
data
speech
voice
signal
Prior art date
Application number
KR1020157034612A
Other languages
English (en)
Other versions
KR20160024858A (ko
Inventor
단 수
자오 인
Original Assignee
바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 filed Critical 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Publication of KR20160024858A publication Critical patent/KR20160024858A/ko
Application granted granted Critical
Publication of KR101734829B1 publication Critical patent/KR101734829B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

지역성 말투를 구분하는 음성 데이터 인식 방법, 장치 및 서버를 제공한다. 상기 지역성 말투를 구분하는 음성 데이터 인식 방법은, 음성 데이터의 음성인식 신뢰도 및/또는 신호 대 잡음비를 산출하고, 상기 음성인식 신뢰도 및/또는 신호 대 잡음비에 근거하여 음성 데이터로부터 지역성 음성 데이터를 선별하는 단계(S110); 상기 지역성 음성 데이터의 지역 속성에 근거하여 상기 지역성 음성 데이터가 속하는 지역을 확정하는 단계(S120);를 포함한다. 이러한 지역성 말투를 구분하는 음성 데이터 인식 방법, 장치 및 서버는 음성 데이터의 신뢰도와 신호 대 잡음비를 산출하고 대량의 음성 데이터로부터 지역성 음성 데이터를 자동으로 인식해내므로써 음성 데이터를 수동으로 표기하는 작업양을 감소하고 음성 데이터 처리의 효율을 향상시킨다.

Description

지역성 말투를 구분하는 음성 데이터 인식 방법, 장치 및 서버{VOICE DATA RECOGNITION METHOD, DEVICE AND SERVER FOR DISTINGUISHING REGIONAL ACCENT}
본원 발명은 출원번호가 201310703949.3이고 출원인이 베이징 백도 네트콤 과학기술 유한회사이며 발명의 명칭이 "지역성 말투를 구분하는 음성 데이터 인식 방법, 장치 및 서버"이고, 출원일자가 2013년 12월 19일인 중국 특허 출원의 우선권을 주장하는 바, 상기 중국 특허 출원의 모든 내용은 참조로서 본원 발명에 원용된다.
본 발명은 음성 데이터 처리 기술 분야에 관한 것으로, 특히 지역성 말투를 구분하는 음성 데이터 인식 방법, 장치 및 서버에 관한 것이다.
중국의 넓은 국토 면적으로 인하여 지역성 말투를 포함하는 중국어 방언의 종류가 아주 많다. 부동한 지방에서 이용되는 방언들은 발음 특징, 어속 특징상에서 차이점들을 가지고 있다. 따라서, 동일한 음향 모형을 이용하여 부동한 지방의 방언에 대해 음성인식을 진행할 경우, 인식 정확도가 높지 않은 현상이 발생하게 된다. 통일된 중국어 표준말의 음향 모형을 이용하여 부동한 지방의 방언에 대해 음성인식할 경우 식별 정확도가 높지 않은 문제를 해결하기 위하여, 부동한 지방의 방언들은 상응한 방언의 맞춤형 음향 모형으로 각각 트레이닝하는 것은 일종의 괜찮은 방식이다.
음향 모형의 트레이닝은 대량의 트레이닝 데이터가 수요된다. 현재, 위챗(Wechat), 미톡(Mitalk)등 인스턴트 메신저가 유행함에 따라, 인터넷 상에 대량의 원본의 음성 데이터가 저장되어 있다. 이러한 음성 데이터들은 부동한 지방의 방언에 대한 음향 모형을 트레이닝하기 위한 트레이닝 데이터로 이용될 수 있다. 그러나, 기존의 기술에는 이러한 음성 데이터 중 어느 것들이 표준말 음성 데이터이고 어느 것들이 지역성 음성 데이터인지 자동으로 구분하는 방법이 존재하지 않으므로, 원본의 음성 데이터를 이용하여 지방의 방언에 대한 음향 모형을 트레이닝하기 전에 먼저 이러한 원본의 음성 데이터에 대해 수동으로 지역라벨을 표기하여야 하는데, 이는 대량의 인력과 물력을 소요한다.
본 발명의 실시예는 지역성 말투를 구분하는 음성 데이터 인식 방법, 장치 및 서버를 제공하여 원본의 음성 데이터로부터 자동으로 지역성 음성 데이터를 인식한다.
제1 방면에 있어서, 본 발명의 실시예는 지역성 말투를 구분하는 음성 데이터 인식 방법을 제공하며, 상기 방법은,
음성 데이터의 음성인식 신뢰도 및/또는 신호 대 잡음비를 산출하고 상기 음성인식 신뢰도 및/또는 신호 대 잡음비에 근거하여 음성 데이터로부터 지역성 음성 데이터를 선별하는 단계; 및
상기 지역성 음성 데이터의 지역 속성에 근거하여 상기 지역성 음성 데이터가 속하는 지역을 확정하는 단계;를 포함한다.
제2 방면에 있어서, 본 발명의 실시예는 지역성 말투를 구분하는 음성 데이터 인식 장치를 제공하며, 상기 장치는,
음성 데이터의 음성인식 신뢰도 및/또는 신호 대 잡음비를 산출하고 상기 음성인식 신뢰도 및/또는 신호 대 잡음비에 근거하여 음성 데이터로부터 지역성 음성 데이터를 선별하기 위한 음성 데이터 선별 모듈; 및
상기 지역성 음성 데이터의 지역 속성에 근거하여 상기 지역성 음성 데이터가 속하는 지역을 확정하는 지역 확정 모듈;을 포함한다.
제3 방면에 있어서, 본 발명의 실시예는 지역성 말투를 구분하는 음성 데이터 인식 방법을 실행하는 서버를 제공하며, 상기 서버는 적어도 하나의 프로세서, 메모리 장치 및 적어도 하나의 컴퓨터 프로그램을 포함하고, 상기 적어도 하나의 컴퓨터 프로그램은 상기 메모리 장치에 저장되며 상기 적어도 하나의 프로세서로 실행되되, 상기 상기 컴퓨터 프로그램은,
음성 데이터의 음성인식 신뢰도 및/또는 신호 대 잡음비를 산출하고 상기 음성인식 신뢰도 및/또는 신호 대 잡음비에 근거하여 음성 데이터로부터 지역성 음성 데이터를 선별하도록 조작시키는 명령; 및
상기 지역성 음성 데이터의 지역 속성에 근거하여 상기 지역성 음성 데이터가 속하는 지역을 확정하도록 조작시키는 명령;을 포함한다.
본 발명의 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 방법, 장치 및 서버는 음성 데이터의 신뢰도 및/또는 신호 대 잡음비를 산출하고 대량의 음성 데이터로부터 지역성 음성 데이터를 자동으로 인식해내므로써 음성 데이터를 수동으로 표기하는 작업양을 감소하고 음성 데이터 처리의 효율을 향상시킨다.
본 발명의 기타 특징, 목적 및 장점들은 하기 도면을 결합하여 진행하는 비제한적 실시예들에 대한 구제적인 설명을 통하여 더욱 명확해 질 것이다.
도1은 본 발명의 제1 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 방법의 흐름도이다.
도2는 본 발명의 제1 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 방법의 신호 흐름도이다
도3은 본 발명의 제2 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 방법의 흐름도이다.
도4는 본 발명의 제2 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 방법에서의 신호 대 잡음비 산출의 흐름도이다.
도5는 본 발명의 제2 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 방법의 신호 흐름도이다.
도6은 본 발명의 제3 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 장치의 구조도이다.
도7은 본 발명의 제5 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 방법을 실행하는 서버의 하드웨어 구조도이다.
이하, 첨부된 도면 및 실시예들을 결합하여 본 발명을 상세히 설명하기로 한다. 본 명세서에 설명된 구체적인 실시예들은 오직 해당 발명을 설명하기 위한 것일 뿐, 해당 발명을 한정하기 위한 것이 아님을 자명하여야 할 것이다. 또한, 설명의 편의를 위하여, 도면에는 모든 내용이 도시되어 있는 것이 아니라 오직 본 발명에 관련된 부분만 도시되어 있다.
제1 실시예
도1은 본 발명의 제1 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 방법의 흐름도이다. 도1을 참조하면, 상기 지역성 말투를 구분하는 음성 데이터 인식 방법은 아래와 같은 단계들을 포함한다.
S110, 음성 데이터의 음성인식 신뢰도 및/또는 신호 대 잡음비를 산출하고 음성인식 신뢰도 및/또는 신호 대 잡음비에 근거하여 음성 데이터로부터 지역성 음성 데이터를 선별한다.
기존의 기술에서 음성인식을 위한 음향 모형은 모두 저잡음에 관한 것이고, 지역성 말투에 대한 표준말 음성 트레이닝을 위한 음향 모형은 없었다. 이러한 음향 모형들을 이용하여 지역성 음성 데이터에 대한 음성인식을 진행할 경우 음성인식 신뢰도가 높지 않은 문제가 발생하게 되고 음성인식의 인식비율이 높지 않은 문제가 발생하게 된다. 음성인식시 지역성 음성 데이터의 음성인식 신뢰도가 높지 않은 특징이 존재하므로, 지역성 음성 데이터의 음성인식 신뢰도를 산출한 다음 산출된 지역성 음성 데이터의 음성인식 신뢰도에 근거하여 지역성 음성 데이터를 선별할 수 있다.
그러나, 음성 데이터의 음성인식 신뢰도가 높지 않은 문제를 초래하는 원인은 음성 데이터에 비교적 높은 잡음이 존재하기 때문일 수도 있으므로, 음성 데이터의 신호 대 잡음비를 산출한 후, 신호 대 잡음비가 낮으므로 인한 음성인식 신뢰도가 낮은 음성 데이터를 제거하도록 음성 데이터에서 신호 대 잡음비가 비교적 작은 음성 데이터를 필터링할 수도 있다. 음성 데이터에서 신호 대 잡음비가 비교적 작은 음성 데이터를 필터링한 후, 나머지 음성 데이터는 지역성 말투로 인해 음성인식 신뢰도가 높지 않은 음성 데이터, 즉 지역성 음성 데이터이다.
본 실시예에 있어서, 음성 데이터의 음성인식 신뢰도 및/또는 신호 대 잡음비를 산출하고 음성인식 신뢰도 및/또는 신호 대 잡음비에 근거하여 음성 데이터로부터 지역성 음성 데이터를 선별한다. 음성 데이터의 음성인식 신뢰도와 신호 대 잡음비를 동시에 산출하고 산출된 음성인식 신뢰도와 신호 대 잡음비에 근거하여 음성 데이터로부터 지역성 음성 데이터를 선별하거나, 음성 데이터의 음성인식 신뢰도 또는 신호 대 잡음비를 별도로 산출하여 산출된 음성인식 신뢰도 또는 신호 대 잡음비에 근거하여 음성 데이터로부터 지역성 음성 데이터를 선별할 수 있음을 자명하여야 한다.
S120, 상기 지역성 음성 데이터의 지역 속성에 근거하여 상기 지역성 음성 데이터가 속하는 지역을 확정한다.
음성 데이터로부터 지역성 음성 데이터를 선별한 후, 선별된 지역성 음성 데이터에 대해 상기 지역성 음성 데이터가 속하는 지역을 확정한다. 상기 지역성 음성 데이터에 대해 그가 속하는 지역을 확정하는 것은 상기 지역성 음성 데이터의 지역 속성에 근거하여 상기 지역성 음성 데이터가 속하는 지역을 확정하여야 한다. 바람직하게, 상기 지역 속성은 상기 음성 데이터의 소스 IP주소 귀속지 또는 상기 음성 데이터의 소스 사용자 귀속지를 포함한다. 먼저 대량의 음성 데이터로부터 선별을 진행해야 하므로, 지역 속성을 기반으로 진행하는 지역표기의 계산양을 일정하게 감소하고 해당 지역구분의 정확성을 개선한다.
도2는 본 발명의 제1 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 방법의 신호 흐름도이다. 도2를 참조하면, 음성 데이터를 신뢰도 및/또는 신호 대 잡음비 분류기(201)에 입력하여 음성식별 신뢰도 및/또는 신호 대 잡음비에 근거하여 상기 음성 데이터를 분류하고, 음성인식 신뢰도 및/또는 신호 대 잡음비에 근거하여 분류된 음성 데이터를 지역 속성 분류기(202)에 입력하여 음성 데이터의 지역 속성에 근거하여 상기 음성 데이터를 분류하여 최종적으로 지역 속성에 근거하여 분류된 지역성 음성 데이터를 획득한다.
본 실시예에 있어서, 음성 데이터의 음성인식 신뢰도 및/또는 신호 대 잡음비를 산출하고 대량의 음성 데이터로부터 지역성 음성 데이터를 선별하고 대량의 음성 데이터로부터 지역성 음성 데이터를 자동으로 인식해내므로써 대량의 음성 데이터를 수동으로 표기하는 작업양을 감소하고 음성 데이터 처리의 효율을 향상시킨다.
제2 실시예
도3은 본 발명의 제2 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 방법의 흐름도이다. 상기 지역성 말투를 구분하는 음성 데이터 인식 방법은 상술한 실시예를 기반으로 하며, 음성 데이터의 음성인식 신뢰도 및/또는 신호 대 잡음비를 산출하고 음성인식 신뢰도 및/또는 신호 대 잡음비에 근거하여 음성 데이터로부터 지역성 음성 데이터를 선별하는 단계는, 음성 데이터의 음성인식 신뢰도를 산출하고 상기 음성인식 신뢰도가 중간의 값의 범위에 처하는 음성 데이터를 선택하는 단계와, 선택된 음성 데이터의 신호 대 잡음비를 산출하고 신호 대 잡음비가 설정 역치보다 큰 음성 데이터를 지역성 음성 데이터로 하는 단계를 포함한다.
도3을 참조하면, 상기 지역성 말투를 구분하는 음성 데이터 인식 방법은 아래와 같은 단계들을 포함한다.
S310, 음성 데이터의 음성인식 신뢰도를 산출하고 상기 음성인식 신뢰도가 중간의 값의 범위에 처하는 음성 데이터를 선택한다.
신뢰는 정확한 확률를 가리키고, 신뢰도는 이러한 확률을 평가하는 도량이며 모 사건의 믿음성 정도를 나타낸다. 음성인식에서, 신뢰도는 모형과 관측 데이터사이의 매칭 정도를 평가하는 함수로 정의되며, 이러한 함수의 값은 부동한 관측 데이터에 대한 비교성을 구비한다.
음성인식에서, 신뢰도의 연구는 매우 중요한 과제이며, 더욱이 음성 기술이 광범위하게 응용되는 오늘 날에도 음성인식의 출력 결과의 신뢰도 예측을 진행하고 그의 믿음성 정도를 판단하고 있으며 점점 많은 분야에서 새로운 응용으로 발전되고 있다.
본 실시예에서, 음성인식 신뢰도는 음성 데이터를 인식할 때 산출된 신뢰도이다.
음성인식 알고리즘을 이용하여 인식할 때의 표준말 음성의 음성 데이터의 신뢰도가 일반적으로 비교적 높으므로, 값의 범위가 비교적 높은 신뢰도의 음성 데이터를 배제하는 것은 표준말의 음성 데이터를 배제하는 것에 해당된다. 한편, 신뢰도가 비교적 낮은 데이터는 유효한 음성을 포함하지 않을 수 있으므로, 값의 범위가 비교적 작은 신뢰도의 음성 데이터를 배제하는 것은 무효 음성 데이터를 배제하는 것에 해당된다. 따라서, 음성 데이터의 신뢰도를 산출한 후, 음성인식 신뢰도가 중간에 처하는 음성 데이터를 지역성 음성 데이터일 가능성이 있는 음성 데이터로 선택한다. 신뢰도가 중간에 처한다는 것은 신뢰도의 값의 범위에서 제일 큰 값의 범위와 제일 작은 값의 범위를 배제한 후 보류되는 중간에 처한 값을 가리키며, 배제된 값의 범위의 크기는 한정된 것이 아니라 경험 또는 실제 수요에 따라 성정할 수 있다. 본 실시예에서, 바람직하게 음성인식 신뢰도가 30% 내지 80% 사이에 처하는 음성 데이터를 지역성 음성 데이터일 가능성이 있는 음성 데이터로 선택한다.
음성 데이터의 음성인식 신뢰도의 산출은 반드시 음성 데이터의 특징에 의거하여야 한다. 음성 데이터의 음성인식 신뢰도를 산출하기 위한 특징은 음성 데이터의 우도, 상태 상주 정보 및 우도비율을 포함할 수 있다.
우도는 음성 데이터와 모형 데이터사이의 유사 정도를 나타내는 지표이다. 상태 상주 정보는 음성인식 과정에서 음향 모형이 어느 한 음성인식 상태에 상주하는 관련 정보를 가리킨다. 우도비율은 음성 데이터와 모형 데이터사이의 유사 정도의 비례값이다.
본 실시예에서, 음성 데이터의 우도, 상태 상주 정보 및 우도비율을 의거하여 음성 데이터의 음성인식 신뢰도를 산출할 수 있다.
S320, 선택된 음성 데이터의 신호 대 잡음비를 산출하고 신호 대 잡음비가 설정 역치보다 큰 음성 데이터를 지역성 음성 데이터로 한다.
음성인식에서 음성 데이터의 신뢰도가 높지 않은 원인은 음성 데이터 중에 비교적 큰 잡음이 포함되어 있기 때문일 수 있으므로, 선택된 음성 데이터에 대해 그의 신호 대 잡음비를 산출하고 신호 대 잡음비가 비교적 작은 음성 데이터를 제거하며 신호 대 잡음비가 비교적 큰 음성 데이터를 지역성 음성 데이터로 한다.
신호 대 잡음비는 음성 데이터 중의 정상적인 음성신호의 공율과 음성 데이터 중의 잡음신호의 공율의 비례값이다. 선택된 음성 데이터의 신호 대 잡음비를 산출하고 신호 대 잡음비가 비교적 큰 음성 데이터를 지역성 음성 데이터로 하는 것은 선택된 음성 데이터 중의 정상적인 음성신호의 공율과 음성 데이터 중의 잡음신호의 공율의 비례값을 산출 한 정상적인 음성신호의 공율과 음성 데이터 중의 잡음신호의 공율의 비례값이 신호 대 잡음비의 역치보다 큰 음성 데이터를 지역성 음성 데이터로 하는 것을 의미한다.
S330, 상기 지역성 음성 데이터의 지역 속성에 근거하여 상기 지역성 음성 데이터의 지역성 음성 데이터가 속하는 지역을 확정한다.
음성인식 신뢰도와 신호 대 잡음비를 산출하고 대량의 음성 데이터로부터 지역성 음성 데이터를 인식한 후, 상기 지역성 음성 데이터의 지역 속성에 의거하여 상기 지역성 음성 데이터에 대해 그가 속하는 지역을 확정한다.
바람직하게, 상기 음성 데이터의 소스 IP주소 귀속지 또는 음성 데이터의 소스 사용자 귀속지에 의거하여 상기 지역성 음성 데이터가 속하는 지역을 확정할 수 있다.
도4는 본 발명의 제2 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 방법에서의 신호 대 잡음비 산출의 흐름도이다. 도4를 참조하면, 바람직하게, 선택된 음성 데이터의 신호 대 잡음비를 산출하는 단계는 아래와 같은 단계들을 포함한다.
S321, 피치검출 알고리즘을 이용하여 상기 음성 데이터의 피치 데이터를 검출한다.
상기 음성 데이터의 신호 대 잡음비를 산출하기 위하여, 먼저 상기 음성 데이터 중 어느 부분이 상기 음성 데이터의 피치 데이터(즉, 정상적인 음성 데이터)이고 어느 부분이 상기 음성 데이터의 잡음 데이터인지 구분하여야 한다.
피치검출 알고리즘은 상기 음성 데이터로부터 피치 데이터를 검출하는 알고리즘이다. 대표적인 피치검출 알고리즘은 스펙트럼 차감법, 위이너 필터링법 및 단시간 스펙트럼의 최소평균제곱오차의 추산법을 포함한다. 본 실시예에서, 스펙트럼 차감법, 위이너 필터링법 또는 단시간 스펙트럼의 최소평균제곱오차의 추산법를 이용하여 상기 음성 데이터로부터 피치 데이터를 검출할 수 있다.
S322, 검출된 피치 데이터에 근거하여 상기 음성 데이터의 잡음 데이터를 획득한다.
상기 음성 데이터로부터 피치 데이터를 검출한 후, 나머지 음성 데이터는 상기 음성 데이터 중의 잡음 데이터에 해당된다. 따라서, 간단하게 상기 음성 데이터와 상기 음성 데이터로부터 검출된 피치 데이터의 차이를 구하여 상기 음성 데이터 중의 잡음 데이터를 획득할 수 있다.
S323, 상기 피치 데이터 및 상기 잡음 데이터에 근거하여 상기 음성 데이터의 신호 대 잡음비를 산출한다.
상기 음성 데이터로부터 상기음성 데이터의 피치 데이터와 잡음 데이터를 획득한 후, 상기 피치 데이터 및 상기 잡음 데이터에 근거하여 상기 음성 데이터의 신호 대 잡음비를 산출할 수 있다. 구체적으로, 먼저 상기 피치 데이터 및 상기 잡음 데이터의 공율을 산출한 후 양자간의 비례값을 산출하여 상기 음성 데이터의 신호 대 잡음비를 획득할 수 있다.
도5는 본 발명의 제2 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 방법의 신호 흐름도이다. 도5를 참조하면, 음성 데이터를 신뢰도 분류기(501)에 입력하여 음성인식 신뢰도에 근거하여 음성 데이터를 분류하고, 음성인식 신뢰도의 값이 중간에 처하는 음성 데이터를 신호 대 잡음비 분류기(502)에 입력하여 신호 대 잡음비에 근거하여 음성 데이터를 분류하고, 신호 대 잡음비가 비교적 큰 음성 데이터를 지역 속성 분류기(503)에 입력하여 음성 데이터의 지역 속성에 근거하여 음성 데이터를 분류하며, 지역 속성 분류가 완료된 음성 데이터를 지역성 음성 데이터로 한다.
본 실시예는 대량의 음성 데이터로부터 먼저 음성인식 신뢰도가 중간에 처하고 신호 대 잡음비가 성정역치보다 큰 음성 데이터를 선별하되, 이러한 조작은 후속의 지역 속성을 이용하여 지역을 구분하는 조작에서 처리될 데이터 양을 감소시킬 수 있다. 다음, 음성 데이터의 지역 속성에 근거하여 음성 데이터를 분류하므로써 지역성 음성 데이터의 선별과 표기를 실현하고 음성 데이터에 대한 처리 효율을 진일보 향상 시킨다.
제3 실시예
도6은 본 발명의 제3 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 장치의 구조도이다. 도6을 참조하면, 상기 지역성 말투를 구분하는 음성 데이터 인식 장치는 음성 데이터 선별 모듈(610) 및 지역 확정 모듈(620)을 포함한다.
상기 음성 데이터 선별 모듈(610)은 음성 데이터의 음성인식 신뢰도 및/또는 신호 대 잡음비를 산출하고 음성인식 신뢰도 및/또는 신호 대 잡음비에 근거하여 음성 데이터로부터 지역성 음성 데이터를 선별한다.
상기 지역 확정 모듈(620)은 상기 지역성 음성 데이터의 지역 속성에 근거하여 상기 지역성 음성 데이터가 속하는 지역을 확정한다.
바람직하게, 상기 음성 데이터 선별 모듈(610)은 신뢰도 선택 서브모듈(611) 및 신호 대 잡음비 선택 서브모듈(612)을 포함한다.
상기 신뢰도 선택 서브모듈(611)은 음성 데이터의 음성인식 신뢰도를 산출하고 상기 음성인식 신뢰도가 중간의 값의 범위에 처하는 음성 데이터를 선택한다.
상기 신호 대 잡음비 선택 서브모듈(612)은 선택된 음성 데이터의 신호 대 잡음비를 산출하고 신호 대 잡음비가 설정 역치보다 큰 음성 데이터를 지역성 음성 데이터로 한다.
바람직하게, 상기 지역 속성은 상기 음성 데이터의 소스 IP주소 귀속지 또는 상기 음성 데이터의 소스 사용자 귀속지를 포함한다.
바람직하게, 상기 음성 데이터 선별 모듈은 음성 데이터의 음성인식 신뢰도를 산출하되, 구체적으로 음성 데이터의 우도, 상태 상주 정보 및/또는 우도비율을 기반으로 음성 데이터의 음성인식 신뢰도를 산출한다.
바람직하게, 선택된 중간의 값의 범위는 30% 내지 80%이다.
바람직하게, 상기 음성 데이터 선별 모듈은 음성 데이터의 신호 대 잡음비를 산출하되, 구체적으로,
피치검출 알고리즘을 이용하여 상기 음성 데이터의 피치 데이터를 검출하고;
검출된 피치 데이터에 근거하여 상기 음성 데이터의 잡음 데이터를 획득하고;
상기 피치 데이터 및 상기 잡음 데이터에 근거하여 상기 음성 데이터의 신호 대 잡음비를 산출한다.
바람직하게, 상기 피치검출 알고리즘은 펙트럼 차감법, 위이너 필터링법 및 단시간 스펙트럼의 최소평균제곱오차의 추산법을 포함한다.
본 실시예는 음성 데이터의 음성인식 신뢰도 및 신호 대 잡음비를 산출하고, 음성인식 신뢰도가 중간에 처하고 신호 대 잡음비가 비교적 큰 음성 데이터를 지역성 음성 데이터로 선택하고 대량의 음성 데이터로부터 지역성 음성 데이터를 자동으로 인식해내므로써 음성 데이터를 수동으로 표기하는 것을 피면하고 음성 데이터 처리의 효율을 향상시킨다. 상술한 본 발명의 실시예의 번호는 실시예의 우열을 대표하는 것이 아니라 오로지 설명하기 위한 것일 뿐이다.
제4 실시예
본 실시예는 비휘발성 컴퓨터 저장매체를 제공하며, 상기 컴퓨터 저장매체는 하나 또는 다수의 모듈을 저장하고, 상기 하나 또는 다수의 모듈이 지역성 말투를 구분하는 음성 데이터 인식 방법을 실행하는 서버에 의해 실행될 경우, 상기 서버는,
음성 데이터의 음성인식 신뢰도 및/또는 신호 대 잡음비를 산출하고 상기 음성인식 신뢰도 및/또는 신호 대 잡음비에 근거하여 음성 데이터로부터 지역성 음성 데이터를 선별하고;
상기 지역성 음성 데이터의 지역 속성에 근거하여 상기 지역성 음성 데이터가 속하는 지역을 확정한다.
상기 저장매체에 저장된 모듈이 상기 서버에 의해 실행될 경우, 음성 데이터의 음성인식 신뢰도 및/또는 신호 대 잡음비를 산출하고 상기 음성인식 신뢰도 및/또는 신호 대 잡음비에 근거하여 음성 데이터로부터 지역성 음성 데이터로를 선별하는 단계는, 바람직하게,
음성 데이터의 음성인식 신뢰도를 산출하고 상기 음성인식 신뢰도가 중간의 값의 범위에 처하는 음성 데이터를 선택하는 단계와;
선택된 음성 데이터의 신호 대 잡음비를 산출하고 신호 대 잡음비가 설정 역치보다 큰 음성 데이터를 지역성 음성 데이터로 하는 단계;를 포함할 수 있다.
상기 저장매체에 저장된 모듈이 상기 서버에 의해 실행될 경우, 상기 지역 속성은 바람직하게 상기 음성 데이터의 소스 IP주소 귀속지 또는 상기 음성 데이터의 소스 사용자 귀속지를 포함할 수 있다.
상기 저장매체에 저장된 모듈이 상기 서버에 의해 실행될 경우, 음성 데이터의 음성인식 신뢰도를 산출하는 단계는, 바람직하게,
음성 데이터의 우도, 상태 상주 정보 및/또는 우도비율을 기반으로 음성 데이터의 음성인식 신뢰도를 산출하는 단계를 포함할 수 있다.
상기 저장매체에 저장된 모듈이 상기 서버에 의해 실행될 경우, 선택된 중간의 값의 범위는 바람직하게 30% 내지 80%일 수 있다.
상기 저장매체에 저장된 모듈이 상기 서버에 의해 실행될 경우, 음성 데이터의 신호 대 잡음비를 산출하는 단계는, 바람직하게,
피치검출 알고리즘을 이용하여 상기 음성 데이터의 피치 데이터를 검출하는 단계와;
검출된 피치 데이터에 근거하여 상기 음성 데이터의 잡음 데이터를 획득하는 단계와;
상기 피치 데이터 및 상기 잡음 데이터에 근거하여 상기 음성 데이터의 신호 대 잡음비를 산출하는 단계;를 포함할 수 있다.
상기 저장매체에 저장된 모듈이 상기 서버에 의해 실행될 경우, 상기 피치검출 알고리즘은 바람직하게 스펙트럼 차감법, 위이너 필터링법 또는 단시간 스펙트럼의 최소평균제곱오차의 추산법을 포함할 수 있다.
제5 실시예
도7은 본 발명의 제5 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 방법을 실행하는 서버의 하드웨어 구조도이다. 도7를 참조하면, 본 발명의 제5 실시예가 제공하는 지역성 말투를 구분하는 음성 데이터 인식 방법을 실행하는 서버의 하드웨어 구조 예시도를 도시하였다. 상기 서버는,
하나 또는 다수의 프로세서(710) (도7에는 하나의 프로세서(710)가 예시됨); 메모리 장치(720); 및 하나 또는 다수의 모듈을 포함한다.
상기 서버는 입력 장치(730)와 출력 장치(740)를 더 포함할 수 있다. 상기 서버 중의 프로세서(710), 메모리 장치(720), 입력 장치(730) 및 출력 장치(740)는 버스라인 또는 기타 방식을 통하여 연결될 수 있으며, 도7에는 버스라인을 통하여 연결되는 예를 도시하였다.
메모리 장치(720)는 컴퓨터 판독가능한 저장매체로서, 소프트웨어 프로그램, 컴퓨터 실행가능한 프로그램 및 모듈을 저장할 수 있으며, 예를 들면 본 발명의 실시예 중의 지역성 말투를 구분하는 음성 데이터 인식 방법에 대응되는 프로그램 명령/모듈 (예를 들면, 도6에 도시된 지역성 말투를 구분하는 음성 데이터 인식 장치 중의 음성 데이터 선별 모듈(610)와 지역 확정 모듈(620))을 저장할 수 있다. 프로세서(710)는 메모리 장치(720) 중에 저장된 소프트웨어 프로그램, 명령 및 모듈을 운행하여 서버의 각종 기능성 응용 및 데이터 처리를 실행한다. 즉, 상기 방법 실시예 중의 지역성 말투를 구분하는 음성 데이터 인식 방법을 실현한다.
메모리 장치(720)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있으며, 여기서, 프로그램 저장 영역은 운영체제, 적어도 하나의 기능이 필요로 한 응용 프로그램을 저장할 수 있고, 데이터 저장 영역은 단말기 장치의 사용에 따라 창출된 데이터 등을 저장할 수 있다. 또한, 메모리 장치(720)는 고속 랜덤 액세스 메모리 장치를 포함할 수 있고, 적어도 하나의 디스크 메모리 장치, 플래시 메모리 장치, 또는 기타 비휘발성 고체형 메모리 장치와 같은 비휘발성 메모리 장치를 포함할 수도 있다. 일부 실시예에서, 메모리 장치(720)는 프로세서(710)에 대해 원격 설치되는 메모리 장치를 더 포함할 수 있으며, 이러한 원격 메모리 장치는 네트워크를 통하여 단말기 장치에 연결될 수 있다. 상기 네트워크의 실시예는 인터넷, 기업 내부 네트워크, 리어 워크, 이동 통신망 및 이들의 조합을 포함할 수 있으나, 이에 한정된 것은 아니다.
입력 장치(730)는 입력되는 수자 또는 문자정보를 수신하고 단말기 장치의 사용자 설정 및 기능 제어에 관한 키 신호 입력을 생성할 수 있다. 출력 장치(740)는 스크린 등과 같은 표시장치를 포함할 수 있다.
상기 하나 또는 다수의 모듈은 상기 메모리 장치(720)에 저장되고, 상기 하나 또는 다수의 프로세서(710)에 의해 실행될 경우,
음성 데이터의 음성인식 신뢰도 및/또는 신호 대 잡음비를 산출하고 상기 음성인식 신뢰도 및/또는 신호 대 잡음비에 근거하여 음성 데이터로부터 지역성 음성 데이터를 선별하고;
상기 지역성 음성 데이터의 지역 속성에 근거하여 상기 지역성 음성 데이터가 속하는 지역을 확정한다.
나아가, 음성 데이터의 음성인식 신뢰도 및/또는 신호 대 잡음비를 산출하고 상기 음성인식 신뢰도 및/또는 신호 대 잡음비에 근거하여 음성 데이터로부터 지역성 음성 데이터를 선별하는 단계는,
음성 데이터의 음성인식 신뢰도를 산출하고 상기 음성인식 신뢰도가 중간의 값의 범위에 처하는 음성 데이터를 선택하는 단계와;
선택된 음성 데이터의 신호 대 잡음비를 산출하고 신호 대 잡음비가 설정 역치보다 큰 음성 데이터를 지역성 음성 데이터로 하는 단계;를 포함한다.
나아가, 상기 지역 속성은 상기 음성 데이터의 소스 IP주소 귀속지 또는 상기 음성 데이터의 소스 사용자 귀속지를 포함한다.
나아가, 음성 데이터의 음성인식 신뢰도를 산출하는 단계는,
음성 데이터의 우도, 상태 상주 정보 및/또는 우도비율을 기반으로 음성 데이터의 음성식별 신뢰도 산출하는 단계를 포함한다.
나아가, 선택된 중간에 처한 값의 범위는30% 내지 80%이다.
나아가, 음성 데이터의 신호 대 잡음비를 산출하는 단계는,
피치검출 알고리즘를 이용하여 상기 음성 데이터의 피치 데이터를 검출하는 단계와;
검출된 피치 데이터에 근거하여 상기 음성 데이터의 잡음 데이터를 획득하는 단계와;
상기 피치 데이터 및 상기 잡음 데이터에 근거하여 상기 음성 데이터의 신호 대 잡음비를 산출하는 단계;를 포함한다.
나아가, 상기 피치검출 알고리즘은 스펙트럼 차감법, 위이너 필터링법 또는 단시간 스펙트럼의 최소평균제곱오차의 추산법을 포함한다.
보다 싶이, 상술한 본 발명의 각 모듈 또는 각 단계는 범용의 컴퓨터 장치로 실현할 수 있으며, 선택가능하게, 이들을 컴퓨터 장치가 실행 가능한 프로그램 코드로 실현하고 메모리 장체에 저장하여 컴퓨터 장치로 실행하거나, 이들을 각종의 집적회로 모듈로 각각 제작하거나, 이들 중의 다수의 모듈 또는 단계를 하나의 집적회로 모듈로실현할 수 있음을 해당 기술분야에서 통상의 지식을 가진 자가 자명할 것이다. 본 발명은 임의의 특정 하드웨어 및 소프트웨어의 결합에 한정되지 않는다.
본 명세서 중의 각 실시예는 모두 점진적인 방식으로 설명하였는 바, 각 실시예에서 주력하여 설명하는 부분은 모두 기타 실시예와의 차이점들이며, 각 실시예들 간의 동일하거나 유사한 부분들은 상호 참조하면 될 것이다.
본 명세서에 있어서, "제1", "제2"와 같은 용어는 오직 하나의 실체 또는 조작을 다른 하나의 실체 또는 조작과 구분하기 위한 것일 뿐, 이러한 실체 또는 조작들 간에 이러한 실질적 관계나 순서가 반드시 존재해야 한다고 요구하거나 암시하는 것이 아님을 자명하여야 한다.
이상의 설명은 오직 본 발명의 실시예일 뿐, 본 발명의 범위를 한저하기 위한 것이 아니며, 본 발명의 명세서 도면 내용을 이용하여 제작된 등가구조 또는 등가흐름의 변환이나 직접적 또는 간접적으로 기타 상응한 기술분야에서의 운용은 모두 동등하게 본 발명의 범위내에 포함된다.

Claims (15)

  1. 음성 데이터의 음성인식 신뢰도를 산출하고 상기 음성인식 신뢰도가 제1 기준값보다 크고 제2 기준값보다 작은 범위에 처하는 음성 데이터를 선택하는 단계;
    선택된 음성 데이터의 신호 대 잡음비를 산출하고 신호 대 잡음비가 설정 역치보다 큰 음성 데이터를 지역성 음성 데이터로 하는 단계; 및
    상기 지역성 음성 데이터의 지역 속성에 근거하여 상기 지역성 음성 데이터가 속하는 지역을 확정하는 단계;를 포함하는 것을 특징으로 하는 지역성 말투를 구분하는 음성 데이터 인식 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 지역 속성은 상기 음성 데이터의 소스 IP주소 귀속지 또는 상기 음성 데이터의 소스 사용자 귀속지를 포함하는 것을 특징으로 하는 지역성 말투를 구분하는 음성 데이터 인식 방법.
  4. 제1항에 있어서,
    음성 데이터의 음성인식 신뢰도를 산출하는 단계는,
    음성 데이터의 우도, 상태 상주 정보 및/또는 우도비율을 기반으로 음성 데이터의 음성인식 신뢰도를 산출하는 단계를 포함하는 것을 특징으로 하는 지역성 말투를 구분하는 음성 데이터 인식 방법.
  5. 제1항에 있어서,
    상기 제1 기준값은 30%이고, 상기 제2 기준값은 80%인 것을 특징으로 하는 지역성 말투를 구분하는 음성 데이터 인식 방법.
  6. 제1항에 있어서,
    음성 데이터의 신호 대 잡음비를 산출하는 단계는,
    피치검출 알고리즘을 이용하여 상기 음성 데이터의 피치 데이터를 검출하는 단계;
    검출된 피치 데이터에 근거하여 상기 음성 데이터의 잡음 데이터를 획득하는 단계; 및
    상기 피치 데이터 및 상기 잡음 데이터에 근거하여 상기 음성 데이터의 신호 대 잡음비를 산출하는 단계;를 포함하는 것을 특징으로 하는 지역성 말투를 구분하는 음성 데이터 인식 방법.
  7. 제6항에 있어서,
    상기 피치검출 알고리즘은 스펙트럼 차감법, 위이너 필터링법 또는 단시간 스펙트럼의 최소평균제곱오차의 추산법을 포함하는 것을 특징으로 하는 지역성 말투를 구분하는 음성 데이터 인식 방법.
  8. 음성 데이터의 음성인식 신뢰도 및 신호 대 잡음비 중 적어도 하나를 산출하고 상기 음성인식 신뢰도 및 신호 대 잡음비 중 적어도 하나에 근거하여 음성 데이터로부터 지역성 음성 데이터를 선별하기 위한 음성 데이터 선별 모듈; 및
    상기 지역성 음성 데이터의 지역 속성에 근거하여 상기 지역성 음성 데이터가 속하는 지역을 확정하는 지역 확정 모듈;을 포함하되,
    상기 음성 데이터 선별 모듈은,
    음성 데이터의 음성인식 신뢰도를 산출하고 상기 음성인식 신뢰도가 제1 기준값보다 크고 제2 기준값보다 작은 범위에 속하는 음성 데이터를 선택하는 신뢰도 선택 서브모듈; 및
    선택된 음성 데이터의 신호 대 잡음비를 산출하고 신호 대 잡음비가 설정 역치보다 큰 음성 데이터를 지역성 음성 데이터로 하는 신호 대 잡음비 선택 서브모듈을 포함하는 것을 특징으로 하는 지역성 말투를 구분하는 음성 데이터 인식 장치.
  9. 삭제
  10. 제8항에 있어서,
    상기 지역 속성은 상기 음성 데이터의 소스 IP주소 귀속지 또는 상기 음성 데이터의 소스 사용자 귀속지를 포함하는 것을 특징으로 하는 지역성 말투를 구분하는 음성 데이터 인식 장치.
  11. 제8항에 있어서,
    상기 음성 데이터 선별 모듈은 음성 데이터의 음성인식 신뢰도를 산출하며, 구체적으로, 음성 데이터의 우도, 상태 상주 정보 및/또는 우도비율을 기반으로 음성 데이터의 음성인식 신뢰도를 산출하는 것을 특징으로 하는 지역성 말투를 구분하는 음성 데이터 인식 장치.
  12. 제8항에 있어서,
    상기 제1 기준값은 30%이고, 상기 제2 기준값은 80%인 것을 특징으로 하는 지역성 말투를 구분하는 음성 데이터 인식 장치.
  13. 제8항에 있어서,
    상기 음성 데이터 선별 모듈은 음성 데이터의 신호 대 잡음비를 산출하며, 구체적으로, 피치검출 알고리즘를 이용하여 상기 음성 데이터의 피치 데이터를 검출하고 검출된 피치 데이터에 근거하여 상기 음성 데이터의 잡음 데이터를 획득하며 상기 피치 데이터 및 상기 잡음 데이터에 근거하여 상기 음성 데이터의 신호 대 잡음비를 산출하는 것을 특징으로 하는 지역성 말투를 구분하는 음성 데이터 인식 장치.
  14. 제13항에 있어서,
    상기 피치검출 알고리즘은 스펙트럼 차감법, 위이너 필터링법 또는 단시간 스펙트럼의 최소평균제곱오차의 추산법을 포함하는 것을 특징으로 하는 지역성 말투를 구분하는 음성 데이터 인식 장치.
  15. 적어도 하나의 프로세서, 메모리 장치 및 적어도 하나의 컴퓨터 프로그램을 포함하며, 상기 적어도 하나의 컴퓨터 프로그램은 상기 메모리 장치에 저장되며 상기 적어도 하나의 프로세서로 실행되되,
    상기 컴퓨터 프로그램은,
    음성 데이터의 음성인식 신뢰도를 산출하고 상기 음성인식 신뢰도가 제1 기준값보다 크고 제2 기준값보다 작은 범위에 처하는 음성 데이터를 선택하는 명령;
    선택된 음성 데이터의 신호 대 잡음비를 산출하고 신호 대 잡음비가 설정 역치보다 큰 음성 데이터를 지역성 음성 데이터로 하는 명령; 및
    상기 지역성 음성 데이터의 지역 속성에 근거하여 상기 지역성 음성 데이터가 속하는 지역을 확정하도록 조작시키는 명령;을 포함하는 것을 특징으로 하는 지역성 말투를 구분하는 음성 데이터 인식 방법을 실행하는 서버.
KR1020157034612A 2013-12-19 2014-12-18 지역성 말투를 구분하는 음성 데이터 인식 방법, 장치 및 서버 KR101734829B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201310703949.3 2013-12-19
CN201310703949.3A CN103680493A (zh) 2013-12-19 2013-12-19 区分地域性口音的语音数据识别方法和装置
PCT/CN2014/094205 WO2015090215A1 (zh) 2013-12-19 2014-12-18 区分地域性口音的语音数据识别方法、装置和服务器

Publications (2)

Publication Number Publication Date
KR20160024858A KR20160024858A (ko) 2016-03-07
KR101734829B1 true KR101734829B1 (ko) 2017-05-12

Family

ID=50317847

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157034612A KR101734829B1 (ko) 2013-12-19 2014-12-18 지역성 말투를 구분하는 음성 데이터 인식 방법, 장치 및 서버

Country Status (5)

Country Link
US (1) US9928831B2 (ko)
JP (1) JP6229046B2 (ko)
KR (1) KR101734829B1 (ko)
CN (1) CN103680493A (ko)
WO (1) WO2015090215A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210143928A (ko) * 2018-05-21 2021-11-29 베이징 긱플러스 테크놀러지 씨오. 엘티디 오더 처리 방법 및 장치, 서버 및 저장 매체

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103680493A (zh) * 2013-12-19 2014-03-26 百度在线网络技术(北京)有限公司 区分地域性口音的语音数据识别方法和装置
US10319369B2 (en) * 2015-09-22 2019-06-11 Vendome Consulting Pty Ltd Methods for the automated generation of speech sample asset production scores for users of a distributed language learning system, automated accent recognition and quantification and improved speech recognition
CN106055610B (zh) * 2016-05-25 2020-02-14 维沃移动通信有限公司 语音信息的检索方法及移动终端
CN106251859B (zh) * 2016-07-22 2019-05-31 百度在线网络技术(北京)有限公司 语音识别处理方法和装置
CN106534500A (zh) * 2016-10-31 2017-03-22 努比亚技术有限公司 一种基于人物属性的个性化服务系统及方法
US10650844B2 (en) 2018-01-18 2020-05-12 Wipro Limited Method and response recommendation system for recommending a response for a voice-based user input
CN109192194A (zh) * 2018-08-22 2019-01-11 北京百度网讯科技有限公司 语音数据标注方法、装置、计算机设备及存储介质
CN109545238B (zh) * 2018-12-11 2022-05-10 珠海一微半导体股份有限公司 一种基于清洁机器人的语音去噪装置
CN111951786A (zh) * 2019-05-16 2020-11-17 武汉Tcl集团工业研究院有限公司 声音识别模型的训练方法、装置、终端设备及介质
US11495234B2 (en) 2019-05-30 2022-11-08 Lg Electronics Inc. Data mining apparatus, method and system for speech recognition using the same
CN110517664B (zh) * 2019-09-10 2022-08-05 科大讯飞股份有限公司 多方言识别方法、装置、设备及可读存储介质
CN111369981B (zh) * 2020-03-02 2024-02-23 北京远鉴信息技术有限公司 一种方言地域识别方法、装置、电子设备及存储介质
CN111651976B (zh) * 2020-07-07 2023-08-25 中国银行股份有限公司 姓名播报方法和装置
USD960391S1 (en) 2020-11-06 2022-08-09 Canvas Craft, Inc. Drive thru booth
CN112750428A (zh) * 2020-12-29 2021-05-04 平安普惠企业管理有限公司 语音交互方法、装置和计算机设备
CN113053367B (zh) * 2021-04-16 2023-10-10 北京百度网讯科技有限公司 语音识别方法、语音识别的模型训练方法以及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007071904A (ja) * 2005-09-02 2007-03-22 Yamaha Corp 地域別発音学習支援装置
US20110295590A1 (en) * 2010-05-26 2011-12-01 Google Inc. Acoustic model adaptation using geographic information

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07303053A (ja) * 1994-05-02 1995-11-14 Oki Electric Ind Co Ltd 地域判定装置及び音声認識装置
JP3798530B2 (ja) * 1997-09-05 2006-07-19 松下電器産業株式会社 音声認識装置及び音声認識方法
US7224981B2 (en) * 2002-06-20 2007-05-29 Intel Corporation Speech recognition of mobile devices
JP4583772B2 (ja) * 2004-02-05 2010-11-17 日本電気株式会社 音声認識システム、音声認識方法および音声認識用プログラム
US20090030687A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Adapting an unstructured language model speech recognition system based on usage
CN101329868B (zh) 2008-07-31 2011-06-01 林超 一种针对地区语言使用偏好的语音识别优化系统及其方法
US8160878B2 (en) * 2008-09-16 2012-04-17 Microsoft Corporation Piecewise-based variable-parameter Hidden Markov Models and the training thereof
CN101393740B (zh) * 2008-10-31 2011-01-19 清华大学 一种计算机多方言背景的汉语普通话语音识别的建模方法
JP2010277359A (ja) * 2009-05-28 2010-12-09 Funai Electric Co Ltd 自動翻訳対応電話システムおよび自動翻訳対応電話機
US8265928B2 (en) * 2010-04-14 2012-09-11 Google Inc. Geotagged environmental audio for enhanced speech recognition accuracy
US9245525B2 (en) * 2011-01-05 2016-01-26 Interactions Llc Automated speech recognition proxy system for natural language understanding
US9129605B2 (en) * 2012-03-30 2015-09-08 Src, Inc. Automated voice and speech labeling
JP5982671B2 (ja) * 2012-04-24 2016-08-31 株式会社日立製作所 音声信号処理方法、及び音声信号処理システム
CN102915731B (zh) * 2012-10-10 2019-02-05 百度在线网络技术(北京)有限公司 一种个性化的语音识别的方法及装置
CN103117825A (zh) * 2012-12-31 2013-05-22 广东欧珀移动通信有限公司 一种移动终端方言播报方法及装置
CN103065631B (zh) * 2013-01-24 2015-07-29 华为终端有限公司 一种语音识别的方法、装置
CN103337245B (zh) * 2013-06-18 2016-06-01 北京百度网讯科技有限公司 基于子带信号的信噪比曲线的噪声抑制方法及装置
CN103680493A (zh) * 2013-12-19 2014-03-26 百度在线网络技术(北京)有限公司 区分地域性口音的语音数据识别方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007071904A (ja) * 2005-09-02 2007-03-22 Yamaha Corp 地域別発音学習支援装置
US20110295590A1 (en) * 2010-05-26 2011-12-01 Google Inc. Acoustic model adaptation using geographic information

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
민소희 외 4명, ‘스코어 기반 관측신뢰도를 이용한 잡음환경하 화자식별’, 음성과학 14(4), pp.145~156, 2007년 12월.*

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210143928A (ko) * 2018-05-21 2021-11-29 베이징 긱플러스 테크놀러지 씨오. 엘티디 오더 처리 방법 및 장치, 서버 및 저장 매체
KR102440421B1 (ko) * 2018-05-21 2022-09-05 베이징 긱플러스 테크놀러지 씨오. 엘티디 오더 처리 방법 및 장치, 서버 및 저장 매체

Also Published As

Publication number Publication date
US9928831B2 (en) 2018-03-27
US20160284344A1 (en) 2016-09-29
JP2016520879A (ja) 2016-07-14
WO2015090215A1 (zh) 2015-06-25
JP6229046B2 (ja) 2017-11-08
CN103680493A (zh) 2014-03-26
KR20160024858A (ko) 2016-03-07

Similar Documents

Publication Publication Date Title
KR101734829B1 (ko) 지역성 말투를 구분하는 음성 데이터 인식 방법, 장치 및 서버
CN105632486B (zh) 一种智能硬件的语音唤醒方法和装置
CN110472675B (zh) 图像分类方法、图像分类装置、存储介质与电子设备
KR100745976B1 (ko) 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치
CN109801646B (zh) 一种基于融合特征的语音端点检测方法和装置
CN109344257B (zh) 文本情感识别方法及装置、电子设备、存储介质
TW201543467A (zh) 語音輸入方法、裝置和系統
CN111916061B (zh) 语音端点检测方法、装置、可读存储介质及电子设备
US9997168B2 (en) Method and apparatus for signal extraction of audio signal
CN113327626B (zh) 语音降噪方法、装置、设备及存储介质
CN110443350B (zh) 基于数据分析的模型质量检测方法、装置、终端及介质
JP2015176175A (ja) 情報処理装置、情報処理方法、およびプログラム
US11657316B2 (en) Self-feeding deep learning method and system
KR102314824B1 (ko) 딥러닝 기반 감지상황에서의 음향 사건 탐지 방법
CN111833902A (zh) 唤醒模型训练方法、唤醒词识别方法、装置及电子设备
US10522160B2 (en) Methods and apparatus to identify a source of speech captured at a wearable electronic device
CN111291749B (zh) 手势识别方法、装置及机器人
CN110738080A (zh) 一种识别改装机动车的方法、装置和电子设备
CN108133116B (zh) Cad户型图墙厚自动识别方法及系统
KR100429896B1 (ko) 잡음 환경에서의 음성신호 검출방법 및 그 장치
CN114399992B (zh) 语音指令响应方法、装置及存储介质
US20180108345A1 (en) Device and method for audio frame processing
CN113035238B (zh) 音频评测方法、装置、电子设备和介质
CN111612890B (zh) 二维户型图自动生成三维模型的方法、装置和电子设备
CN111027667B (zh) 意图类别的识别方法和装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant