KR20200108775A - 트레이닝 말뭉치를 생성하는 방법, 장치, 기기 및 저장 매체 - Google Patents

트레이닝 말뭉치를 생성하는 방법, 장치, 기기 및 저장 매체 Download PDF

Info

Publication number
KR20200108775A
KR20200108775A KR1020200014487A KR20200014487A KR20200108775A KR 20200108775 A KR20200108775 A KR 20200108775A KR 1020200014487 A KR1020200014487 A KR 1020200014487A KR 20200014487 A KR20200014487 A KR 20200014487A KR 20200108775 A KR20200108775 A KR 20200108775A
Authority
KR
South Korea
Prior art keywords
corpus
user
voice
action
log
Prior art date
Application number
KR1020200014487A
Other languages
English (en)
Other versions
KR102345156B1 (ko
Inventor
시챵 딩
지저우 후앙
종웨이 지앙
웬타오 마
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20200108775A publication Critical patent/KR20200108775A/ko
Application granted granted Critical
Publication of KR102345156B1 publication Critical patent/KR102345156B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 트레이닝 말뭉치를 생성하는 방법, 장치, 기기 및 저장 매체를 개시한다. 당해 방법은, 목표 애플리케이션 프로그램에 연관되는 사용자 행위 로그에서 복수의 태깅할 말뭉치 데이터를 마이닝하는 단계 - 말뭉치 데이터는, 사용자 음성을 포함하고 음성 인식 결과에 대응되는 제1 행위 로그와, 제1 행위 로그와 시간적으 연관되고 동일한 사용자한테 속하는 제2 행위 로그를 포함함 - ; 및 각 태깅할 말뭉치 데이터 중 제1 행위 로그와 제2 행위 로그 사이의 연관 관계에 따라 각 말뭉치 데이터로 중의 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백 말뭉치 또는 음성 피드백 말뭉치로 판정하는 단계;를 포함한다. 본 발명의 실시예는 사용자 행위에 따라 음성 인식의 양성 피드백 말뭉치와 음성 피드백 말뭉치를 자동으로, 지향성 있게 마이닝하고 이를 후속의 음성 인식 모델에 제공하여 트레이닝함으로써 음성 인식 효과를 효과적으로 향상시킬 수 있고 음성 인식 모델의 반복 주기를 대폭 단축시킬 수 있으며 대량의 자원을 절약한다.

Description

트레이닝 말뭉치를 생성하는 방법, 장치, 기기 및 저장 매체{TRAINING CORPUS GENERATING METHOD, APPARATUS, DEVICE AND STORAGE MEDIUM}
본 발명의 실시예는 데이터 처리 기술에 관한 것으로, 특히 트레이닝 말뭉치를 생성하는 방법, 장치, 기기 및 저장 매체에 관한 것이다.
현재의 지도(map) 류 애플리케이션 프로그램의 음성 인식 모델의 최적화에는 주로 다음과 같은 3단계가 필요하다. 수만 시간의 오디오 및 대응되는 시나리오 정보를 랜덤으로 추출하고; 거액의 금전과 시간을 소모하면서 수동으로 태깅하여 트레이닝 말뭉치를 생성하고; 새로운 트레이닝 말뭉치로 음성 인식 모델을 재트레이닝하고 튜닝한다.
발명자가 본 발명을 구현하는 과정에 발견한 바는, 종래 기술은 음성 인식의 트레이닝 말뭉치가 주로 수동으로 태깅된 랜덤 오디오에서 오는바, 따라서 주로 다음의 두 문제를 초래하게 된다. 수동 태깅이므로 음성 인식 모델의 반복(iteration) 주기가 지나치게 길어 자원 소모가 보다 심하고; 랜덤으로 추출된 오디오로 인하여 대량의 무효 태깅이 있게 된다(틀리게 인식되는 말뭉치가 증가하는 것은 올바르게 인식되는 말뭉치가 증가하는 것보다 더 가치 있음).
본 발명의 실시예는 트레이닝 말뭉치를 생성하는 방법, 장치, 기기 및 저장 매체를 제공함으로써 사용자 행위에 따라 음성 인식의 트레이닝 말뭉치를 자동으로 지향성 있게 마이닝하는 것을 구현하고자 한다.
제1 측면으로, 본 발명의 실시예는 트레이닝 말뭉치를 생성하는 방법을 제공하는바,
목표 애플리케이션 프로그램에 연관되는 사용자 행위 로그에서 복수의 태깅할 말뭉치 데이터를 마이닝하는 단계 - 말뭉치 데이터는, 사용자 음성을 포함하고 음성 인식 결과에 대응되는 제1 행위 로그와, 제1 행위 로그와 시간적으로 연관되고 동일한 사용자한테 속하는 제2 행위 로그를 포함함 - ; 및
각 태깅할 말뭉치 데이터 중 제1 행위 로그와 제2 행위 로그 사이의 연관 관계에 따라 각 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백(positive feedback) 말뭉치 또는 음성 피드백(negative feedback) 말뭉치로 판정하는 단계;를 포함한다.
제2 측면으로, 본 발명의 실시예는 트레이닝 말뭉치를 생성하는 장치를 더 제공하는바,
목표 애플리케이션 프로그램에 연관되는 사용자 행위 로그에서 복수의 태깅할 말뭉치 데이터를 마이닝하는 말뭉치 데이터 마이닝 모듈 - 상기 말뭉치 데이터는, 사용자 음성을 포함하고 음성 인식 결과에 대응되는 제1 행위 로그와, 상기 제1 행위 로그와 시간적으로 연관되고 동일한 사용자한테 속하는 제2 행위 로그를 포함함-; 및
상기 각 태깅할 말뭉치 데이터 중 제1 행위 로그와 제2 행위 로그 사이의 연관 관계에 따라 각 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백 말뭉치 또는 음성 피드백 말뭉치로 판정하는 말뭉치 판정 모듈; 을 포함한다.
제3 측면으로, 본 발명의 실시예는 컴퓨터 기기를 더 제공하는바, 메모리, 프로세서 및 메모리에 저장되고 프로세서에 의하여 실행 가능한 컴퓨터 프로그램을 포함하되, 상기 프로세서에 의하여 상기 프로그램이 실행될 경우, 본 발명의 실시예들에 따른 트레이닝 말뭉치를 생성하는 방법을 구현한다.
제4 측면으로, 본 발명의 실시예는 컴퓨터 프로그램이 저장되어 있는 컴퓨터 판독가능 저장 매체를 더 제공하는바, 당해 컴퓨터 프로그램이 프로세서에 의하여 실행될 경우, 본 발명의 실시예들에 따른 트레이닝 말뭉치를 생성하는 방법을 구현한다.
본 발명의 실시예의 기술안은, 목표 애플리케이션 프로그램에 연관되는 사용자 행위 로그에서 복수의 태깅할 말뭉치 데이터를 마이닝하고, 말뭉치 데이터는, 사용자 음성을 포함하고 음성 인식 결과에 대응되는 제1 행위 로그와, 제1 행위 로그와 시간적으로 연관되고 동일한 사용자한테 속하는 제2 행위 로그를 포함한다. 각 태깅할 말뭉치 데이터 중 제1 행위 로그와 제2 행위 로그 사이의 연관 관계에 따라 각 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백 말뭉치 또는 음성 피드백 말뭉치로 판정함으로써, 종래 기술에 있어서 음성 인식의 트레이닝 말뭉치가 주로 수동으로 태깅된 랜덤 오디오에서 오는 것으로 인하여 음성 인식 모델의 반복 주기가 지나치게 길게 되고 자원 소모가 보다 심하고 대량의 무효 태깅이 있게 되는 문제를 해결하는바, 사용자 행위에 따라 음성 인식의 양성 피드백 말뭉치와 음성 피드백 말뭉치를 자동으로, 지향성 있게 마이닝하고, 이를 후속의 음성 인식 모델에 제공하여 트레이닝함으로써 음성 인식 효과를 효과적으로 향상시킬 수 있고, 음성 인식 모델의 반복 주기를 대폭 단축시킬 수 있으며 대량의 자원을 절약한다.
도1은 본 발명의 실시예1에 의하여 제공되는 트레이닝 말뭉치를 생성하는 방법의 흐름도이다.
도2a는 본 발명의 실시예2에 의하여 제공되는 트레이닝 말뭉치를 생성하는 방법의 흐름도이다.
도2b는 본 발명의 실시예2에 의하여 제공되는 위치 검색(search) 시나리오의 사용자 음성 입력 페이지의 개략도이다.
도2c는 본 발명의 실시예2에 의하여 제공되는 위치 검색 시나리오의 위치 검색 서비스에 매칭되는 검색 결과 페이지의 개략도이다.
도2d는 본 발명의 실시예2에 의하여 제공되는 노선 검색 시나리오의 사용자 음성 입력 페이지의 개략도이다.
도2e는 본 발명의 실시예2에 의하여 제공되는 노선 검색 서비스에 매칭되는 검색 결과 페이지의 개략도이다.
도2f는 본 발명의 실시예2에 의하여 제공되는 노선 내비게이팅 시나리오의 사용자 음성 입력 페이지의 개략도이다.
도2g는 본 발명의 실시예2에 의하여 제공되는 노선 내비게이팅 시나리오의 내비게이팅 페이지의 개략도이다.
도2h는 본 발명의 실시예2에 의하여 제공되는 노선 내비게이팅 시나리오의 목적지로 내비게이팅하여 가는 페이지의 개략도이다.
도3a는 본 발명의 실시예3에 의하여 제공되는 트레이닝 말뭉치를 생성하는 방법의 흐름도이다.
도3b는 본 발명의 실시예3에 의하여 제공되는 검색 시나리오의 사용자 음성 입력 페이지의 개략도이다.
도3c는 본 발명의 실시예3에 의하여 제공되는 검색 시나리오의 수정 음성 입력 페이지의 개략도이다.
도3d는 본 발명의 실시예3에 의하여 제공되는 검색 시나리오의 수정 텍스트 입력 페이지의 개략도이다.
도4a는 본 발명의 실시예4에 의하여 제공되는 트레이닝 말뭉치를 생성하는 방법의 흐름도이다.
도4b는 본 발명의 실시예4에 의하여 제공되는 양성 피드백 말뭉치를 마이닝하는 방법의 전체적인 흐름도이다.
도4c는 본 발명의 실시예4에 의하여 제공되는 종래 모델에 의하여 정확한 오디오와 텍스트를 인식하는 마이닝 방법의 흐름도이다.
도4d는 본 발명의 실시예4에 의하여 제공되는 종래 모델에 의하여 정확한 오디오와 텍스트를 인식하는 마이닝 방법의 핵심 논리의 흐름도이다.
도4e는 본 발명의 실시예4에 의하여 제공되는 음성 피드백 말뭉치를 마이닝하는 방법의 전체적인 흐름도이다.
도4f는 본 발명의 실시예4에 의하여 제공되는 종래 모델에 의하여 틀린 오디오와 텍스트 및 잠재적인 정확한 텍스트를 인식하는 마이닝 방법의 흐름도이다.
도4g는 본 발명의 실시예4에 의하여 제공되는 종래 모델에 의하여 틀린 오디오와 텍스트 및 잠재적인 정확한 텍스트를 인식하는 마이닝 방법의 핵심 논리의 흐름도이다.
도5는 본 발명의 실시예5에 의하여 제공되는 트레이닝 말뭉치를 생성하는 장치의 개략적인 구조도이다.
도6은 본 발명의 실시예6에 의하여 제공되는 컴퓨터 기기의 개략적인 구조도이다.
이하 첨부 도면 및 실시예를 결부하여 본 발명에 대해 더 나아가 상세히 설명하고자 한다. 여기서 설명되는 구체 실시예는 단지 본 발명을 해석하기 위한 것으로, 본 발명을 한정하기 위한 것이 아님을 이해할 수 있다. 부연하자면, 설명의 편의를 위하여, 첨부 도면에는 전체 구조가 아닌, 단지 본 발명과 상관되는 부분만 도시하였을 뿐이다.
부연하자면, 설명의 편의를 위하여, 첨부 도면에는 전부의 내용이 아닌, 본 발명과 관련되는 부분만 도시한다. 예시적 실시예에 대하여 더욱 상세하게 토론하기 전에 언급해야 할 것은, 일부 예시적 실시예는 흐름도가 보여주는 처리 또는 방법으로 설명되고, 비록 흐름도에서 각 조작(또는 단계)은 순차적인 처리로 설명되지만 그 중의 허다한 조작은 병렬로, 병행으로 또는 동시에 구현될 수 있다. 이 외에, 각 조작의 순차는 다시 배치될 수 있다. 그 조작이 완료될 시, 상기 처리는 종료될 수 있고, 그러나 또한 첨부 도면에 포함되지 않은 추가 단계를 구비할 수도 있다. 상기 처리는 방법, 함수, 프로시저, 서브루틴, 서브-프로그램 등에 대응될 수 있다.
이해의 편의를 위하여, 본 발명의 실시예의 주요 발명 구상에 대하여 간단히 설명하고자 한다. 우선, 발명자는 종래 기술에 있어서 첫번째 주요 문제인, 수동 태깅으로 인하여 음성 인식 모델의 반복 주기가 지나치게 길어져 자원 소모가 보다 심한 점에 대하여, 자동으로 사용자 행위를 통해 종래 모델에 의하여 오디오 및 그 텍스트를 인식함으로써 트레이닝 말뭉치를 마이닝하여 이를 수동 태깅이 필요없이 직접적으로 트레이닝에 사용하는 것이 가능한지 여부에 대하여 고민해 보았다.
다음, 발명자는 종래 기술에 있어서 두번째 주요 문제인, 랜덤으로 추출된 오디오로 인하여 대량의 무효 태깅이 있게 되는 점(틀리게 인식되는 말뭉치가 증가하는 것은 올바르게 인식되는 말뭉치가 증가하는 것보다 더 가치가 있음)에 대하여, 음성 인식의 트레이닝 말뭉치를 지향성 있게 마이닝하는 것으로, 트레이닝 말뭉치의 마이닝 작업을 두 부분의 구체 작업인, 올바르게 인식되는 말뭉치를 마이닝하는 것과 틀리게 인식되는 말뭉치를 마이닝하는 것, 즉 양성 피드백 말뭉치 마이닝과 음성 피드백 말뭉치 마이닝으로 나누는 것이 가능한지 여부에 대하여 고민해 보았다.
상술한 사고에 기초하여, 발명자는, 트레이닝 말뭉치의 마이닝 작업을 두 부분의 구체 작업인 양성 피드백 말뭉치 마이닝과 음성 피드백 말뭉치 마이닝으로 나누는 것에 대하여 창조적으로 제기하였다. 양성 피드백 말뭉치 마이닝은, 사용자 행위를 통해, 종래 음성 인식 모델에 의하여 올바르게 인식되는 오디오 및 그 텍스트를 마이닝하고, 이를 수동 태깅이 필요없이 직접적으로 음성 인식 모델 트레이닝에 사용하는 단계;를 포함한다. 음성 피드백 말뭉치 마이닝은, 사용자 행위를 통해, 종래 음성 인식 모델에 의하여 틀리게 인식되는 오디오를 마이닝하고, 이를 수동으로 태깅하여 트레이닝 말뭉치를 생성하는 단계;를 포함한다. 이렇게 하는 장점은, 첫째로는, 인식 모델의 반복 주기가 대폭 단축되고 대량의 자원이 절약되며; 둘째로는, 더욱 지향성 있게 오디오를 추출하여 수동으로 태깅함으로써 후속의 음성 인식 모델의 반복이 더욱 효과적이게 된다. 따라서, 사용자에 따른 과거 행위를 구현함으로써 음성 인식의 트레이닝 말뭉치를 자동으로, 지향성 있게 마이닝하고 이를 후속의 음성 인식 모델에 제공하여 트레이닝하도록 하는바, 따라서 음성 인식 효과를 더욱 효과적으로 향상시킨다.
실시예1
도1은 본 발명의 실시예1에 의하여 제공되는 트레이닝 말뭉치를 생성하는 방법의 흐름도이다. 본 실시예는 음성 인식의 트레이닝 말뭉치를 생성하는 상황에 적용 가능하다. 당해 방법은 본 발명의 실시예에 의하여 제공되는 트레이닝 말뭉치를 생성하는 장치로 수행될 수 있고, 당해 장치는 소프트웨어 및/또는 하드웨어의 방식을 적용하여 구현 가능한바, 일반적으로는 트레이닝 말뭉치를 생성하는 기기에 집적될 수 있다. 트레이닝 말뭉치를 생성하는 기기는 컴퓨터 등을 포함하나 이에 한정되지 않는다. 예를 들면, 도1에 도시한 바와 같이, 본 실시예의 방법은 구체적으로 하기 단계를 포함한다.
단계101, 목표 애플리케이션 프로그램에 연관되는 사용자 행위 로그에서 복수의 태깅할 말뭉치 데이터를 마이닝하는바, 말뭉치 데이터는, 사용자 음성을 포함하고 음성 인식 결과에 대응되는 제1 행위 로그와, 제1 행위 로그와 시간적으로 연관되고 동일한 사용자한테 속하는 제2 행위 로그를 포함한다.
여기서, 사용자 행위 로그는 사용자가 매 회마다 목표 애플리케이션 프로그램을 사용하여 생성되는 행위 데이터(예를 들면, 액세스, 브라우징, 음성 사용, 검색, 클릭 등)이다. 사용자가 목표 애플리케이션 프로그램을 사용하기만 하면 목표 애플리케이션 프로그램에 연관되는 사용자 행위 로그가 생성되는바, 이는 사용자 행위가 기록된다.
사용자가 목표 애플리케이션 프로그램에서 음성 기능을 사용하고나면, 대응되는 제1 행위 로그가 생성된다. 제1 행위 로그는 음성을 사용한 사용자 행위를 기록하는바, 사용자 음성 및 대응되는 음성 인식 결과를 포함한다.
제1 행위 로그와 목표 애플리케이션 프로그램의 기타 사용자 행위 로그를 사용자와 시간에 따라 연결함으로써 제1 행위 로그와 시간적으로 연관되고, 동일한 사용자한테 속하는 사용자 행위 로그를 획득하고, 이를 제2 행위 로그로 결정한다. 예를 들어, 사용자 행위 로그가 그 획득되는 시간이 제1 행위 로그 시간 이후에 위치하는 것으로, 제1 행위 로그 시간과의 시간 간격이 미리 설정된 시간 역치보다 작고, 동일한 사용자의 사용자 행위 로그에 속하는 것이면, 이를 제2 행위 로그로 결정한다.
단계102, 각 태깅할 말뭉치 데이터 중 제1 행위 로그와 제2 행위 로그 사이의 연관 관계에 따라, 각 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백 말뭉치 또는 음성 피드백 말뭉치로 판정한다.
여기서, 트레이닝 말뭉치의 마이닝 작업은 두가지의 특정 작업인 양성 피드백 말뭉치 마이닝과 음성 피드백 말뭉치 마이닝으로 나뉜다. 양성 피드백 말뭉치는 올바르게 인식되는 말뭉치이다. 음성 피드백 말뭉치는 틀리게 인식되는 말뭉치이다.
사용자가 음성 기능을 사용하고 나서, 예상 가능한 후속 행위가 있다면 당해 인식은 올바르다고 간주될 수 있다. 따라서, 양성 피드백 말뭉치 마이닝 단계는, 제1 행위 로그의 로그 유형에 따라 제1 행위 로그에 대응되는 사용자 예상 행위를 획득하는 단계; 및 사용자 예상 행위가 제2 행위 로그에 매칭된다고 결정될 경우, 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백 말뭉치로 판정하는 단계;를 포함할 수 있다.
일 구체적인 실시예에서, 목표 애플리케이션 프로그램은 지도 류 애플리케이션 프로그램이다. 제1 행위 로그의 로그 유형이 사용자 음성에 대응되는 음성 인식 결과를 목적지로 사용하여 위치 검색 서비스를 개시하는 것이라고 결정될 경우, 사용자 예상 행위는 사용자가 위치 검색 서비스에 매칭되는 검색 결과 페이지에서 목적지에 매칭되는 노선 검색 서비스를 개시하는 선택 사항을 선택하는 것으로 결정된다. 사용자 예상 행위가 제2 행위 로그에 매칭된다고 결정될 경우, 즉, 제2 행위 로그에 기록된 사용자 행위가, 사용자가 위치 검색 서비스에 매칭되는 검색 결과 페이지에서 목적지에 매칭되는 노선 검색 서비스를 개시하는 선택 사항을 선택하는 것으로 결정될 경우, 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백 말뭉치로 판정한다. 다른 구체적인 실시예에서, 목표 애플리케이션 프로그램은 지도 류 애플리케이션 프로그램이다. 제1 행위 로그의 로그 유형이 사용자 음성에 대응되는 음성 인식 결과를 목적지로 하여 노선 검색 서비스를 개시하는 것으로 결정될 경우, 사용자 예상 행위는 사용자가 노선 검색 서비스에 매칭되는 노선 검색 페이지에서 목적지로 내비게이팅하여 가는 선택 사항을 선택하는 것으로 결정된다. 사용자 예상 행위가 제2 행위 로그에 매칭된다고 결정될 경우, 즉, 제2 행위 로그에 기록된 사용자 행위가, 사용자가 노선 검색 서비스에 매칭되는 노선 검색 페이지에서 목적지로 내비게이팅하여 가는 선택 사항을 선택하는 것으로 결정될 경우, 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백 말뭉치로 판정한다.
다른 구체적인 실시예에서, 목표 애플리케이션 프로그램은 지도 류 애플리케이션 프로그램이다. 제1 행위 로그의 로그 유형이 사용자 음성에 대응되는 음성 인식 결과를 목적지로 하여 노선 내비게이팅 서비스를 개시하는 것으로 결정될 경우, 사용자 예상 행위는 사용자가 성공적으로 목적지에 도착하는 것으로 결정된다. 사용자 예상 행위가 제2 행위 로그에 매칭된다고 결정될 경우, 즉, 제2 행위 로그에 기록된 사용자 행위가, 사용자가 성공적으로 목적지에 도착한 것으로 결정될 경우, 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백 말뭉치로 판정한다.
사용자가 음성 기능을 사용하고 나서, 단시간 내에 수정 행위가 있는 경우, 처음의 음성 인식의 텍스트는 틀린것으로 간주될 수 있다. 수정 행위는 구체적으로 음성 기능을 사용한 재입력 수정과 수동 입력 수정, 이 두 가지를 포함한다. 따라서, 음성 피드백 말뭉치 마이닝은, 제 2 행위 로그에 대응되는 사용자 행위가 설정된 시간 내에서의 제1 행위 로그에 대한 수정 행위라고 결정될 경우, 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 음성 피드백 말뭉치로 판정하는 단계;를 포함할 수 있다.
일 구체적인 실시예에서, 제2 행위 로그에 대응되는 사용자 행위가 수정 음성을 재입력하는 것이고 수정 음성에 대응되는 수정 인식 결과와 음성 인식 결과가 의미적 연관 조건을 충족시킨다고 결정될 경우, 제2 행위 로그에 대응되는 사용자 행위가 수정 행위임을 결정하고, 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 음성 피드백 말뭉치로 판정한다. 또는 제2 행위 로그에 대응되는 사용자 행위가 수정 텍스트를 입력하는 것이고, 수정 텍스트와 음성 인식 결과가 의미적 연관 조건을 충족시킨다고 결정될 경우, 제2 행위 로그에 대응되는 사용자 행위가 수정 행위임을 결정하고, 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 음성 피드백 말뭉치로 판정한다.
본 발명의 실시예는 트레이닝 말뭉치를 생성하는 방법을 제공하는 것으로, 목표 애플리케이션 프로그램에 연관되는 사용자 행위 로그에서 복수의 태깅할 말뭉치 데이터를 마이닝한다. 말뭉치 데이터는, 사용자 음성을 포함하고 음성 인식 결과에 대응되는 제1 행위 로그와, 제1 행위 로그와 시간적으로 연관되고 동일한 사용자한테 속하는 제2 행위 로그를 포함한다. 각 태깅할 말뭉치 데이터 중 제1 행위 로그와 제2 행위 로그 사이의 연관 관계에 따라, 각 상기 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백 말뭉치 또는 음성 피드백 말뭉치로 판정한다. 이로써, 종래 기술에 있어서 음성 인식의 트레이닝 말뭉치가 주로 수동으로 태깅된 랜덤 오디오에서 오는 것으로 인하여 음성 인식 모델의 반복 주기가 지나치게 길게 되고, 자원 소모가 보다 심하고 대량의 무효 태깅이 있게 되는 문제를 해결하는바, 사용자 행위에 따라 음성 인식의 양성 피드백 말뭉치와 음성 피드백 말뭉치를 자동으로, 지향성 있게 마이닝하고, 이를 후속의 음성 인식 모델에 제공하여 트레이닝함으로써, 음성 인식 효과를 효과적으로 향상시킬 수 있고, 음성 인식 모델의 반복 주기를 대폭 단축시킬 수 있으며, 대량의 자원을 절약한다.
실시예2
도2a는 본 발명의 실시예2에 의하여 제공되는 트레이닝 말뭉치를 생성하는 방법의 흐름도이다. 본 실시예는 상술한 하나 또는 복수의 실시예 중의 각 선택 가능한 방안과 결합될 수 있다. 본 실시예에서, 각 태깅할 말뭉치 데이터 중 제1 행위 로그와 제2 행위 로그 사이의 연관 관계에 따라 각 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백 말뭉치 또는 음성 피드백 말뭉치로 판정하는 단계는, 제1 행위 로그의 로그 유형에 따라 제1 행위 로그에 대응되는 사용자 예상 행위를 획득하는 단계; 및 사용자 예상 행위가 제2 행위 로그에 매칭된다고 결정될 경우, 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백 말뭉치로 판정하는 단계; 를 포함할 수 있다.
대응하게, 예를 들면 도2a에 도시한 바와 같이, 본 실시예의 방법은 다음과 같은 단계를 포함한다.
단계201, 목표 애플리케이션 프로그램에 연관되는 사용자 행위 로그에서 복수의 태깅할 말뭉치 데이터를 마이닝하는바, 말뭉치 데이터는, 사용자 음성을 포함하고 음성 인식 결과에 대응되는 제1 행위 로그와, 제1 행위 로그와 시간적으로 연관되고 동일한 사용자한테 속하는 제2 행위 로그를 포함한다.
단계202, 제1 행위 로그의 로그 유형에 따라 제1 행위 로그에 대응되는 사용자 예상 행위를 획득한다.
여기서, 사용자가 음성 기능을 사용하고 나서, 예상 가능한 후속 행위가 있는 경우, 당해 인식은 올바르다고 간주될 수 있다. 목표 애플리케이션 프로그램은 지도 류 애플리케이션 프로그램을 포함할 수 있다.
제1 행위 로그의 로그 유형에 따라 제1 행위 로그에 대응되는 사용자 예상 행위를 획득하는 단계는, 제1 행위 로그의 로그 유형이 사용자 음성에 대응되는 음성 인식 결과를 목적지로 사용하여 위치 검색 서비스를 개시하는 것이라고 결정될 경우, 사용자 예상 행위는 사용자가 위치 검색 서비스에 매칭되는 검색 결과 페이지에서 목적지에 매칭되는 노선 검색 서비스를 개시하는 선택 사항을 선택하는 것임을 결정하는 단계;를 포함할 수 있다.
예를 들면, 사용자가 '꿍왠웨푸(公園悅府)'라는 사용자 음성을 입력하면(예를 들면 도2b), 음성 인식으로 '꿍왠웨푸'의 텍스트를 음성 인식 결과로 획득하고(음성 동적 태그(21)가 음성 인식 결과를 실시간으로 표시함), 위치 검색 수요를 개시하여, 위치 검색 서비스에 매칭되는 검색 결과 페이지(예를 들면 도2c)로 진입한다. 사용자 예상 행위는 사용자가 검색 결과 페이지에서 '여기로 가기'(22)를 클릭하는 것이다(예를 들면 도2c). 제1 행위 로그의 로그 유형에 따라 제1 행위 로그에 대응되는 사용자 예상 행위를 획득하는 단계는, 제1 행위 로그의 로그 유형이 사용자 음성에 대응되는 음성 인식 결과를 목적지로 하여 노선 검색 서비스를 개시하는 것이라고 결정될 경우, 사용자 예상 행위는 사용자가 노선 검색 서비스에 매칭되는 노선 검색 페이지에서 목적지로 내비게이팅하여 가는 선택 사항을 선택하는 것임을 결정하는 단계;를 포함할 수 있다.
예를 들면, 사용자가 '꿍왠웨푸로 가기'라는 사용자 음성을 입력하면(예를 들면 도2d) 음성 인식으로 '꿍왠웨푸로 가기'의 텍스트를 음성 인식 결과로 획득하고(음성 동적 태그(23)가 음성 인식 결과를 실시간으로 표시함) 노선 검색 수요를 개시하여, 노선 검색 서비스에 매칭되는 검색 결과 페이지(예를 들면 도2e)로 진입한다. 사용자 예상 행위는 사용자가 검색 결과 페이지에서 '내비게이팅 개시'(24)를 클릭하는 것이다(예를 들면 도2e).
제1 행위 로그의 로그 유형에 따라 제1 행위 로그에 대응되는 사용자 예상 행위를 획득하는 단계는, 제1 행위 로그의 로그 유형이 사용자 음성에 대응되는 음성 인식 결과를 목적지로 하여 노선 내비게이팅 서비스를 개시하는 것이라고 결정될 경우, 사용자 예상 행위는 사용자가 성공적으로 목적지에 도착하는 것임을 결정하는 단계;를 포함할 수 있다.
예를 들면, 사용자가 '시얼치(西二旗)로 내비게이팅해 가기'라는 사용자 음성을 입력하면(예를 들면 도2f), 음성 인식으로 '시얼치로 내비게이팅해 가기'의 텍스트를 음성 인식 결과로 획득하고(음성 동적 태그(25)가 음성 인식 결과를 실시간으로 표시함), 노선 내비게이팅 수요를 개시하여 내비게이팅 페이지(예를 들면 도2g)로 진입한다. 사용자 예상 행위는 사용자가 성공적으로 목적지에 도착하는 것이다(예를 들면 도2h).
단계203, 사용자 예상 행위가 제2 행위 로그에 매칭된다고 결정될 경우, 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백 말뭉치로 판정한다.
일 구체적인 실시예에서, 사용자 예상 행위가 제2 행위 로그에 매칭된다고 결정될 경우, 즉, 제2 행위 로그에 기록된 사용자 행위가, 사용자가 위치 검색 서비스에 매칭되는 검색 결과 페이지에서 목적지에 매칭되는 노선 검색 서비스를 개시하는 선택 사항을 선택하는 것이라고 결정될 경우, 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백 말뭉치로 판정한다.
예를 들면, 사용자가 '꿍왠웨푸'라는 사용자 음성을 입력하면(예를 들면 도2b), 음성 인식으로 '꿍왠웨푸'의 텍스트를 음성 인식 결과로 획득하고(음성 동적 태그(21)가 음성 인식 결과를 실시간으로 표시함), 노선 검색 수요를 개시하여 위치 검색 서비스에 매칭되는 검색 결과 페이지(예를 들면 도2c)로 진입한다. 사용자 예상 행위는 사용자가 검색 결과 페이지에서 '여기로 가기'(22)를 클릭하는 것이다(예를 들면 도2c). 제2 행위 로그에 기록된 사용자 행위가 사용자가 '여기로 가기'(22)를 클릭하는 것(예를 들면 도2c)인 경우, 노선 검색 서비스를 개시하여 노선 검색 서비스에 매칭되는 검색 결과 페이지(예를 들면 도2e)로 진입하는바, 이 경우 당해 사용자 음성의 음성 인식 결과는 정확한 것으로 간주되고, 따라서 '꿍왠웨푸'라는 사용자 음성 및 음성 인식 결과는 하나의 양성 피드백 말뭉치로 판정된다.
다른 구체적인 실시예에서, 사용자 예상 행위가 제2 행위 로그에 매칭된다고 결정될 경우, 즉, 제2 행위 로그에 기록된 사용자 행위가, 사용자가 노선 검색 서비스에 매칭되는 노선 검색 페이지에서 목적지로 내비게이팅하여 가는 선택 사항을 선택하는 것이라고 결정될 경우, 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백 말뭉치로 판정한다.
예를 들면, 사용자가 '꿍왠웨푸로 가기'라는 사용자 음성을 입력하면(예를 들면 도2d), 음성 인식으로 '꿍왠웨푸로 가기'의 텍스트를 음성 인식 결과로 획득하고(음성 동적 태그(23)가 음성 인식 결과를 실시간으로 표시함), 노선 검색 수요를 개시하여 노선 검색 서비스에 매칭되는 검색 결과 페이지(예를 들면 도2e)에 진입한다. 사용자 예상 행위는 사용자가 검색 결과 페이지에서 '내비게이팅 개시'(24)를 클릭하는 것이다(예를 들면 도2e). 제2 행위 로그에 기록된 사용자 행위가 사용자가 검색 결과 페이지에서 '내비게이팅 개시'(24)를 클릭하는 것(예를 들면 도2e)인 경우, 당해 사용자 음성의 음성 인식 결과는 정확한 것으로 간주되고, 따라서 '꿍왠웨푸로 가기'라는 사용자 음성 및 음성 인식 결과는 하나의 양성 피드백 말뭉치로 판정된다. 다른 구체적인 실시예에서, 사용자 예상 행위가 제2 행위 로그에 매칭된다고 결정될 경우, 즉, 제2 행위 로그에 기록된 사용자 행위가, 사용자가 성공적으로 목적지에 도착했다고 결정될 경우, 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백 말뭉치로 판정한다.
예를 들면, 사용자가 '시얼치로 내비게이팅해 가기'라는 사용자 음성을 입력하면(예를 들면 도2f), 음성 인식으로 '시얼치로 내비게이팅해 가기'의 텍스트를 음성 인식 결과로 획득하고(음성 동적 태그(25)가 음성 인식 결과를 실시간으로 표시함), 노선 내비게이팅 수요를 개시하여 내비게이팅 페이지(예를 들면 도2g)로 진입한다. 사용자 예상 행위는 사용자가 성공적으로 목적지에 도착하는 것이다(예를 들면 도2h). 제2 행위 로그에 기록된 사용자 행위가 사용자가 최종적으로 당해 노정을 완주하는 것(예를 들면 도2h)인 경우, 당해 사용자 음성의 음성 인식 결과는 정확한 것으로 간주되고, 따라서 '시얼치로 내비게이팅해 가기'라는 사용자 음성 및 음성 인식 결과는 하나의 양성 피드백 말뭉치로 판정된다.
본 발명의 실시예는 트레이닝 말뭉치를 생성하는 방법을 제공하는바, 제1 행위 로그의 로그 유형에 따라 제1 행위 로그에 대응되는 사용자 예상 행위를 획득하고, 사용자 예상 행위가 제2 행위 로그에 매칭된다고 결정될 경우, 말뭉치 데이터 중 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백 말뭉치로 판정하는바, 양성 피드백 말뭉치의 마이닝에서 양성 피드백 말뭉치를 자동화로 생성 가능하여, 수동 태깅이 필요 없고 모델 반복 효율을 대폭 향상시킨다.
실시예3
도3a는 본 발명의 실시예3에 의하여 제공되는 트레이닝 말뭉치를 생성하는 방법의 흐름도이다. 본 실시예는 상술한 하나 또는 복수의 실시예 중의 각 선택 가능한 방안과 결합될 수 있는바, 본 실시예에서, 각 태깅할 말뭉치 데이터 중 제1 행위 로그와 제2 행위 로그 사이의 연관 관계에 따라 각 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백 말뭉치 또는 음성 피드백 말뭉치로 판정하는 단계는, 제2 행위 로그에 대응되는 사용자 행위가 설정된 시간 내에서의 제1 행위 로그에 대한 수정 행위라고 결정될 경우, 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 음성 피드백 말뭉치로 판정하는 단계;를 포함할 수 있다.
또한, 상기 말뭉치 데이터 중의 상기 사용자 음성 및 대응되는 음성 인식 결과를 음성 피드백 말뭉치로 판정하는 단계 이후, 수정 인식 결과 또는 수정 텍스트를 잠재적인 정확한 결과로 하여 음성 피드백 말뭉치에 추가하는 단계; 음성 피드백 말뭉치를 수동 태깅 모델에 송신하여 수동 태깅 모델에 의하여 잠재적인 정확한 결과에 대하여 사용자 음성에 대응되는 정확한 인식 결과를 태깅하도록 하는 단계; 및 수동 태깅 모델로부터 피드백된 태깅 결과를 사용하여 음성 피드백 말뭉치를 업데이트하는 단계; 를 더 포함할 수 있다.
대응하게, 도3a에 도시한 바와 같이, 본 실시예의 방법은 다음과 같은 단계를 포함한다.
단계301, 목표 애플리케이션 프로그램에 연관되는 사용자 행위 로그에서 복수의 태깅할 말뭉치 데이터를 마이닝하는바, 말뭉치 데이터는, 사용자 음성을 포함하고 음성 인식 결과에 대응되는 제1 행위 로그와, 제1 행위 로그와 시간적으로 연관되고 동일한 사용자한테 속하는 제2 행위 로그를 포함한다.
단계302, 제2 행위 로그에 대응되는 사용자 행위가 설정된 시간 내에서의 제1 행위 로그에 대한 수정 행위라고 결정될 경우, 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 음성 피드백 말뭉치로 판정한다.
사용자가 음성 기능을 사용하고 나서, 단시간 내에 수정 행위가 있는 경우, 처음의 음성 인식의 텍스트는 틀린 것으로 간주될 수 있다. 수정 행위는 구체적으로 음성 기능을 사용한 재입력 수정과 수동 입력 수정, 두 가지를 포함한다.
제2 행위 로그에 대응되는 사용자 행위가 설정된 시간 내에서의 제1 행위 로그에 대한 수정 행위라는 것이 결정되는 단계는, 제2 행위 로그에 대응되는 사용자 행위가 수정 음성을 재입력하는 것이고, 또한 수정 음성에 대응되는 수정 인식 결과와 음성 인식 결과가 의미적 연관 조건을 충족시킨다고 결정될 경우, 제2 행위 로그에 대응되는 사용자 행위가 수정 행위임을 결정하는 단계;를 포함할 수 있다.
의미적 연관 조건은, 수정 인식 결과 또는 수정 텍스트가 음성 인식 결과와 다르고 수정 인식 결과 또는 수정 텍스트와 음성 인식 결과가 미리 설정된 의미적 유사도 조건을 충족시키는 것;을 포함할 수 있다. 구체적으로, 미리 설정된 의미적 유사도 조건은, 수정 인식 결과 또는 수정 텍스트와 음성 인식 결과의 의미적 유사도가 미리 설정된 유사도 역치 보다 크거나 같은 것;일 수 있다.
예를 들면, 사용자가 '쥐왠(菊園)'라는 사용자 음성A를 말하였으나, 음성 인식으로는 틀린 텍스트W '쥐란(居然)'을 음성 인식 결과로 획득하였고(음성 동적 태그(31)가 음성 인식 결과를 실시간으로 표시함), 노선 검색 수요를 개시하였다(도3b와 같음). 이 경우 사용자가 음성 기능을 사용하여 재차 다시 '쥐왠'하고 수정 음성B를 말하면, 음성 인식으로 새로운 텍스트R '쥐왠'을 수정 음성에 대응되는 수정 인식 결과로 획득한다(도3c와 같이, 음성 동적 태그(31)가 음성 인식 결과를 실시간으로 표시함). 수정 음성에 대응되는 수정 인식 결과로, 하나의 새로운 텍스트R을 획득한다. 텍스트W와 텍스트R이 서로 다르고, 또한 텍스트W와 텍스트R이 미리 설정된 의미적 유사도 조건을 충족시킨다면, 즉 텍스트W와 텍스트R가 문자적으로 서로 다르면서 의미적으로는 매우 근접한 경우, 사용자 음성A의 음성 인식 결과는 틀린 것으로 간주되며, 따라서 사용자 음성A, 텍스트W, 텍스트R는 하나의 음성 피드백 말뭉치로 판정된다.
제2 행위 로그에 대응되는 사용자 행위가 설정된 시간 내에서의 상기 제1 행위 로그에 대한 수정 행위라는 것을 결정하는 단계는, 제2 행위 로그에 대응되는 사용자 행위가 수정 텍스트를 입력하는 것이고 수정 텍스트와 음성 인식 결과가 의미적 연관 조건을 충족시킨다고 결정될 경우, 제2 행위 로그에 대응되는 사용자 행위가 수정 행위임을 결정하는 단계;를 포함할 수 있다.
예를 들면, 사용자가 '쥐왠'하고 사용자 음성A를 말하였으나, 음성 인식으로는 틀린 텍스트W '쥐란'을 음성 인식 결과로 획득하였고(음성 동적 태그(31)가 음성 인식 결과를 실시간으로 표시함), 노선 검색 수요를 개시하였다(도3b와 같음). 이 경우 사용자가 수정 텍스트 '쥐왠'을 수동으로 입력한다(도3d와 같이, 텍스트 입력 태그(32)가 사용자가 수동으로 입력한 텍스트를 실시간으로 표시함). 수정 텍스트로, 하나의 새로운 텍스트R을 획득한다. 텍스트W와 텍스트R이 서로 다르고 텍스트W와 텍스트R이 미리 설정된 의미적 유사도 조건을 충족시킨다면, 즉 텍스트W와 텍스트R가 문자적으로 서로 다르면서 의미적으로는 매우 근접한 경우, 사용자 음성A의 음성 인식 결과는 틀린 것으로 간주되며, 따라서 사용자 음성A, 텍스트W, 텍스트R는 하나의 음성 피드백 말뭉치로 판정된다.
단계303, 수정 인식 결과 또는 수정 텍스트를 잠재적인 정확한 결과로 하여 음성 피드백 말뭉치에 추가한다.
여기서, 수정 인식 결과 또는 수정 텍스트는 사용자 음성에 대응되는 잠재적인 정확한 텍스트일 수 있다. 수정 인식 결과, 사용자 음성 및 대응되는 음성 인식 결과를 음성 피드백 말뭉치에 추가한다. 또는 수정 텍스트, 사용자 음성 및 대응되는 음성 인식 결과를 음성 피드백 말뭉치에 추가한다.
단계304, 음성 피드백 말뭉치를 수동 태깅 모델에 송신하여, 수동 태깅 모델에 의하여 잠재적인 정확한 결과에 대하여 사용자 음성에 대응되는 정확한 인식 결과를 태깅하도록 한다.
여기서, 수동 태깅 모델은 잠재적인 정확한 결과를 참조하여 음성 피드백 말뭉치에 대하여 수동 태깅한다. 수동 태깅 모델은 잠재적인 정확한 결과에 대하여 사용자 음성에 대응되는 정확한 인식 결과를 태깅한다. 예를 들면, 잠재적인 정확한 결과 '쥐왠'에 대하여, 사용자 음성에 대응되는 정확한 인식 결과 '쥐왠'을 태깅한다.
단계305, 수동 태깅 모델에 의하여 피드백되는 태깅 결과를 사용하여 음성 피드백 말뭉치를 업데이트한다.
여기서, 수동 태깅 모델에 의하여 피드백되는 태깅 결과를 사용하는 단계에서는, 수정 인식 결과, 사용자 음성 및 대응되는 음성 인식 결과를 포함하는 음성 피드백 말뭉치를 사용자 음성, 대응되는 음성 인식 결과 및 사용자 음성에 대응되는 정확한 인식 결과로 업데이트한다. 또는, 수정 텍스트, 사용자 음성 및 대응되는 음성 인식 결과를 포함하는 음성 피드백 말뭉치를 사용자 음성, 대응되는 음성 인식 결과 및 사용자 음성에 대응되는 정확한 인식 결과로 업데이트한다.
본 발명의 실시예는 트레이닝 말뭉치를 생성하는 방법을 제공하는바, 제2 행위 로그에 대응되는 사용자 행위가 설정된 시간 내에서의 제1 행위 로그에 대한 수정 행위라는 것을 결정하는 경우, 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 음성 피드백 말뭉치로 판정하고, 수정 인식 결과 또는 수정 텍스트를 잠재적인 정확한 결과로 하여 음성 피드백 말뭉치에 추가하고, 음성 피드백 말뭉치를 수동 태깅 모델에 송신하여, 수동 태깅 모델에 의하여 잠재적인 정확한 결과에 대하여 사용자 음성에 대응되는 정확한 인식 결과를 태깅하도록 하고, 수동 태깅 모델로부터 피드백된 태깅 결과를 사용하여 음성 피드백 말뭉치를 업데이트함으로써, 음성 피드백 말뭉치의 마이닝에 있어서, 지향성 있게 트레이닝 말뭉치를 생성하고, 종래 음성 인식 모델에 의하여 틀리게 인식되는 사용자 음성을 수집하여 음성 인식 모델에 대하여 다시 지향적으로 트레이닝할 수 있는바, 음성 인식 모델의 인식 효과를 더욱 효율적으로 향상시키고, 더욱 지향성 있게 오디오를 추출하여 수동으로 태깅함으로써 후속의 음성 인식 모델의 반복을 더욱 효과적이게 할 수 있다.
실시예4
도4a는 본 발명의 실시예4에 의하여 제공되는 트레이닝 말뭉치를 생성하는 방법의 흐름도이다. 본 실시예는 상술한 하나 또는 복수의 실시예 중의 각 선택 가능한 방안과 결합될 수 있는바, 본 실시예에서, 각 말뭉치 데이터 중 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백 말뭉치 또는 음성 피드백 말뭉치로 판정하는 단계 이후, 양성 피드백 트레이닝 말뭉치 및 음성 피드백 트레이닝 말뭉치에 따라 트레이닝 말뭉치 세트를 구축하고, 트레이닝 말뭉치 세트를 트레이닝 말뭉치 검사 플랫폼으로 송신하는 단계; 트레이닝 말뭉치 검사 플랫폼에 의하여 피드백된 트레이닝 말뭉치 세트에 대응되는 정확률 인덱스 값을 수신하는 단계; 및 정확률 인덱스 값이 미리 설정된 정확률 문턱값을 충족시킨다고 결정될 경우, 트레이닝 말뭉치 세트를 사용하여 목표 애플리케이션 프로그램의 음성 인식 모델에 대하여 최적화 트레이닝하는 단계; 를 더 포함할 수 있다.
트레이닝 말뭉치 검사 플랫폼에 의하여 피드백된 트레이닝 말뭉치 세트에 대응되는 정확률 인덱스 값을 수신하는 단계 이후, 정확률 인덱스 값이 미리 설정된 정확률 문턱값을 충족시키지 않는다고 결정될 경우, 다시 목표 애플리케이션 프로그램에 연관되는 사용자 행위 로그에 따라 복수의 새로운 태깅할 말뭉치 데이터를 마이닝하고 새로운 태깅할 말뭉치 데이터에서 새로운 양성 피드백 말뭉치 또는 음성 피드백 말뭉치를 판정하는 단계;를 더 포함할 수 있다. .
대응하게, 도4a에 도시한 바와 같이, 본 실시예의 방법은 다음과 같은 단계를 포함한다.
단계401, 목표 애플리케이션 프로그램에 연관되는 사용자 행위 로그에서 복수의 태깅할 말뭉치 데이터를 마이닝하는바, 말뭉치 데이터는, 사용자 음성을 포함하고 음성 인식 결과에 대응되는 제1 행위 로그와, 제1 행위 로그와 시간적으로 연관되고 동일한 사용자한테 속하는 제2 행위 로그를 포함한다.
단계402, 각 태깅할 말뭉치 데이터 중 제1 행위 로그와 제2 행위 로그 사이의 연관 관계에 따라 각 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백 말뭉치 또는 음성 피드백 말뭉치로 판정한다.
단계403, 양성 피드백 트레이닝 말뭉치 및 음성 피드백 트레이닝 말뭉치에 따라 트레이닝 말뭉치 세트를 구축하고, 트레이닝 말뭉치 세트를 트레이닝 말뭉치 검사 플랫폼으로 송신한다.
여기서, 트레이닝 말뭉치 검사 플랫폼은 트레이닝 말뭉치 세트 중의 양성 피드백 트레이닝 말뭉치 및 음성 피드백 트레이닝 말뭉치를 검사한다.
단계404, 트레이닝 말뭉치 검사 플랫폼에 의하여 피드백된 트레이닝 말뭉치 세트에 대응되는 정확률 인덱스 값을 수신한다.
여기서, 트레이닝 말뭉치 검사 플랫폼은 트레이닝 말뭉치 세트 중의 각 트레이닝 말뭉치가 정확한지 여부를 판단하고, 트레이닝 말뭉치 세트에 대응되는 정확률 인덱스 값을 계산한다. 정확률 인덱스 값은, 정확한 것으로 판단된 트레이닝 말뭉치의 수량과 트레이닝 말뭉치 세트 중 트레이닝 말뭉치 총량의 비율일 수 있다.
예를 들면, 트레이닝 말뭉치 세트 중 트레이닝 말뭉치의 총량이 1000개이다. 정확한 것으로 판단된 트레이닝 말뭉치의 수량은 900개이다. 그러면 정확률 인덱스 값은 0.9이다.
단계405, 정확률 인덱스 값이 미리 설정된 정확률 문턱값을 충족시키는지 여부를 판단하는바, Yes인 경우, 단계406을 수행하고; 아니면 단계407을 수행한다.
여기서, 미리 설정된 정확률 문턱값은 수요에 따라 설정 가능하다. 예를 들어, 미리 설정된 정확률 문턱값은 0.8일 수 있다.
단계406, 트레이닝 말뭉치 세트를 사용하여, 목표 애플리케이션 프로그램의 음성 인식 모델에 대하여 최적화 트레이닝한다.
여기서, 정확률 인덱스 값이 미리 설정된 정확률 문턱값을 충족시킨다고 결정될 경우, 트레이닝 말뭉치 세트를 직접 사용하여 목표 애플리케이션 프로그램의 음성 인식 모델에 대하여 최적화 트레이닝한다.
단계407, 다시 목표 애플리케이션 프로그램에 연관되는 사용자 행위 로그에 따라 복수의 새로운 태깅할 말뭉치 데이터를 마이닝하고, 새로운 태깅할 말뭉치 데이터에서 새로운 양성 피드백 말뭉치 또는 음성 피드백 말뭉치를 판정한다.
여기서, 정확률 인덱스 값이 미리 설정된 정확률 문턱값을 충족시키지 않는다고 결정될 경우, 다시 목표 애플리케이션 프로그램에 연관되는 사용자 행위 로그에 따라 양성 피드백 말뭉치와 음성 피드백 말뭉치를 마이닝한다. 다시 마이닝한 양성 피드백 말뭉치와 음성 피드백 말뭉치의 정확률 인덱스 값이 여전히 미리 설정된 정확률 문턱값을 충족시키지 못하는 경우, 다시 목표 애플리케이션 프로그램에 연관되는 사용자 행위 로그에 따라 양성 피드백 말뭉치와 음성 피드백 말뭉치를 마이닝하는바, 이 과정은, 정확률 인덱스 값이 미리 설정된 정확률 문턱값을 만족시키는 양성 피드백 말뭉치와 음성 피드백 말뭉치가 마이닝될 때까지 순환 반복된다.
양성 피드백 말뭉치를 마이닝하는 방법의 전체적인 흐름도는 도4b에 도시한 바와 같이, 다음과 같은 단계를 포함한다.
단계411, 로그를 연결한다.
여기서, 음성을 사용한 사용자 행위 로그와 지도의 기타 사용자 행위 로그를 사용자와 시간에 따라 연결한다.
단계412, 올바르게 인식된 오디오와 텍스트를 마이닝한다.
여기서, 종래 모델에 의하여 올바르게 인식되는 오디오와 텍스트를 마이닝한다.
단계413, 트레이닝 말뭉치를 검사한다.
여기서, 단계412(가장 핵심적인 과정)에 있어서, 종래 모델에 의하여 정확한 오디오와 텍스트를 인식하는 마이닝 방법의 흐름도는 도4c에 도시한 바와 같다(위치 검색 시나리오 흐름도가 왼쪽, 노선 검색 시나리오 흐름도가 가운데, 노선 내비게이팅 시나리오 흐름도가 오른쪽).
위치 검색 시나리오의 종래 모델에 의하여 정확한 오디오와 텍스트를 인식하는 마이닝 방법은 다음과 같은 단계를 포함한다.
단계421, 음성을 사용하여 위치 검색을 개시한다.
단계422, 목적지에 매칭되는 노선 검색 서비스를 개시하는 선택 사항을 선택할것인가: Yes인 경우, 단계423을 수행하고; 아니라면, 단계423을 건너뛰어 후속의 단계를 수행한다.
단계423, 양성 피드백 말뭉치로 보류한다.
노선 검색 시나리오의 종래 모델에 의하여 정확한 오디오와 텍스트를 인식하는 마이닝 방법은 다음과 같은 단계를 포함한다.
단계481, 음성을 사용하여 노선 검색을 개시한다.
단계482, 목적지로 내비게이팅하여 가는 선택 사항을 선택할 것인가: Yes인 경우, 단계483을 수행하고; 아니라면, 단계483을 건너뛰어 후속의 단계를 수행한다.
단계483, 양성 피드백 말뭉치로 보류한다.
노선 내비게이팅 시나리오의 종래 모델에 의하여 정확한 오디오와 텍스트를 인식하는 마이닝 방법은 다음과 같은 단계를 포함한다.
단계431, 음성을 사용하여 내비게이팅을 개시한다.
단계432, 사용자가 성공적으로 목적지에 도착하였는가: Yes인 경우, 단계433을 수행하고; 아니라면, 단계433을 건너뛰어 후속의 단계를 수행한다.
단계433, 양성 피드백 말뭉치로 보류한다.
종래 모델에 의하여 정확한 오디오와 텍스트를 인식하는 마이닝 방법의 핵심 논리는 나아가 더 추상화하면 도4d에 도시한 바와 같은바, 다음과 같은 단계를 포함한다.
단계441, 음성을 사용하여 제1 회 행위를 개시한다.
단계442, 예상 가능한 후속 행위가 있는가: Yes인 경우, 단계443을 수행하고; 아니라면, 단계443을 건너뛰어 후속의 단계를 수행한다.
단계443, 양성 피드백 말뭉치로 보류한다.
음성 피드백 말뭉치를 마이닝하는 방법의 전체적인 흐름도는 도4e에 도시한 바와 같은바, 다음과 같은 단계를 포함한다.
단계451, 로그를 연결한다.
단계452, 틀리게 인식된 오디오 및 관련 정보를 마이닝한다.
단계453, 잠재적인 정확한 텍스트를 참조하여 수동으로 태깅한다.
단계454, 트레이닝 말뭉치를 검사한다.
여기서, 단계452(가장 핵심적인 과정)에 있어서, 종래 모델에 의하여 틀린 오디오와 텍스트 및 잠재적인 정확한 텍스트를 인식하는 마이닝 방법의 흐름도는 도4f에 도시한 바와 같은바(검색 시나리오를 예로 듬), 다음과 같은 단계를 포함한다.
단계461, 음성을 사용하여 검색한다.
단계462, 단시간 내에 다시 검색하는가: Yes인 경우, 단계463을 수행하고; 아니라면, 단계463과 464를 건너뛰어 후속의 단계를 수행한다.
단계463, 검색어가 다르지만 유사한가: Yes인 경우, 단계464를 수행하고; 아니라면, 단계464를 건너뛰어 후속의 단계를 수행한다.
단계464, 음성 피드백 말뭉치로 보류한다.
종래 모델에 의하여 틀린 오디오와 텍스트 및 잠재적인 정확한 텍스트를 인식하는 마이닝 방법의 핵심 논리는 나아가 더 추상화하면 도4g에 도시한 바와 같은바, 다음과 같은 단계를 포함한다.
단계471, 음성을 사용하여 제1 회 행위를 개시한다.
단계472, 단시간 내에 수정이 있는가: Yes인 경우, 단계473을 수행하고; 아니라면, 단계473을 건너뛰어 후속의 단계를 수행한다.
단계473, 음성 피드백 말뭉치로 보류한다.
본 발명의 실시예는 트레이닝 말뭉치를 생성하는 방법을 제공하는 것으로, 양성 피드백 트레이닝 말뭉치 및 음성 피드백 트레이닝 말뭉치에 따라 트레이닝 말뭉치 세트를 구축하고, 트레이닝 말뭉치 세트를 트레이닝 말뭉치 검사 플랫폼으로 송신하고, 트레이닝 말뭉치 검사 플랫폼에 의하여 피드백된 트레이닝 말뭉치 세트에 대응되는 정확률 인덱스 값을 수신하고, 정확률 인덱스 값이 미리 설정된 정확률 문턱값을 충족시키는지 여부에 따라 트레이닝 말뭉치 세트를 사용하여, 목표 애플리케이션 프로그램의 음성 인식 모델에 대하여 최적화 트레이닝할지, 아니면 목표 애플리케이션 프로그램에 연관되는 사용자 행위 로그에 따라 양성 피드백 말뭉치와 음성 피드백 말뭉치를 다시 마이닝할지 여부를 결정하는바, 생성되는 트레이닝 말뭉치를 검사할 수 있고, 이로써 음성 인식 모델에 정확한 트레이닝 말뭉치를 제공하고 나아가 음성 인식 효과를 더 효과적으로 향상시킨다。
실시예5
도5는 본 발명의 실시예5에 의하여 제공되는 트레이닝 말뭉치를 생성하는 장치의 개략적인 구조도이다. 도5에 도시한 바와 같이, 상기 장치는 말뭉치 데이터 마이닝 모듈(501)과 말뭉치 판정 모듈(502)을 포함한다.
여기서, 말뭉치 데이터 마이닝 모듈(501)은, 목표 애플리케이션 프로그램에 연관되는 사용자 행위 로그에서 복수의 태깅할 말뭉치 데이터를 마이닝하고, 말뭉치 데이터는, 사용자 음성을 포함하고 음성 인식 결과에 대응되는 제1 행위 로그와, 제1 행위 로그와 시간적으로 연관되고 동일한 사용자한테 속하는 제2 행위 로그를 포함한다. 말뭉치 판정 모듈(502)은, 각 태깅할 말뭉치 데이터 중 제1 행위 로그와 제2 행위 로그 사이의 연관 관계에 따라 각 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백 말뭉치 또는 음성 피드백 말뭉치로 판정한다.
본 발명의 실시예는 트레이닝 말뭉치를 생성하는 장치를 제공하는 것으로, 목표 애플리케이션 프로그램에 연관되는 사용자 행위 로그에서 복수의 태깅할 말뭉치 데이터를 마이닝하고, 말뭉치 데이터는, 사용자 음성을 포함하고 음성 인식 결과에 대응되는 제1 행위 로그와, 제1 행위 로그와 시간적으로 연관되고 동일한 사용자한테 속하는 제2 행위 로그를 포함한다. 각 태깅할 말뭉치 데이터 중 제1 행위 로그와 제2 행위 로그 사이의 연관 관계에 따라 각 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백 말뭉치 또는 음성 피드백 말뭉치로 판정한다. 따라서, 종래 기술에 있어서 음성 인식의 트레이닝 말뭉치가 주로 수동으로 태깅된 랜덤 오디오에서 오는 것으로 인하여 음성 인식 모델의 반복 주기가 지나치게 길게 되고 자원 소모가 보다 심하고 대량의 무효 태깅이 있게 되는 문제를 해결하는바, 사용자 행위에 따라 음성 인식의 양성 피드백 말뭉치와 음성 피드백 말뭉치를 자동으로, 지향성 있게 마이닝하고 이를 후속의 음성 인식 모델에 제공하여 트레이닝함으로써 음성 인식 효과를 효과적으로 향상시킬 수 있고 음성 인식 모델의 반복 주기를 대폭 단축시킬 수 있으며 대량의 자원을 절약한다.
상술한 각 실시예에 기초하여, 말뭉치 판정 모듈(502)은, 제1 행위 로그의 로그 유형에 따라 제1 행위 로그에 대응되는 사용자 예상 행위를 획득하는 예상 행위 획득 유닛; 및 사용자 예상 행위가 제2 행위 로그에 매칭된다고 결정될 경우, 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백 말뭉치로 판정하는 제1 판정 유닛; 을 포함할 수 있다.
상술한 각 실시예에 기초하여, 말뭉치 판정 모듈(502)은 제2 판정 유닛을 포함할 수 있으며, 상기 제2 판정 유닛은 제2 행위 로그에 대응되는 사용자 행위가 설정된 시간 내에서의 제1 행위 로그에 대한 수정 행위라고 결정될 경우, 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 음성 피드백 말뭉치로 판정한다.
상술한 각 실시예에 기초하여, 목표 애플리케이션 프로그램은 지도 류 애플리케이션 프로그램을 포함할 수 있다.
상술한 각 실시예에 기초하여, 예상 행위 획득 유닛은 제1 결정 서브유닛을 포함할 수 있으며, 제1 결정 서브유닛은 제1 행위 로그의 로그 유형이 사용자 음성에 대응되는 음성 인식 결과를 목적지로 사용하여, 위치 검색 서비스를 개시하는 것이라고 결정될 경우, 사용자 예상 행위는 사용자가 위치 검색 서비스에 매칭되는 검색 결과 페이지에서 목적지에 매칭되는 노선 검색 서비스를 개시하는 선택 사항을 선택하는 것임을 결정한다 .
상술한 각 실시예에 기초하여, 예상 행위 획득 유닛은 제2 결정 서브유닛을 포함할 수 있으며, 제2 결정 서브유닛은 제1 행위 로그의 로그 유형이 사용자 음성에 대응되는 음성 인식 결과를 목적지로 하여 노선 검색 서비스를 개시하는 것이라고 결정될 경우, 사용자 예상 행위는 사용자가 노선 검색 서비스에 매칭되는 노선 검색 페이지에서 목적지로 내비게이팅하여 가는 선택 사항을 선택하는 것임을 결정한다.
상술한 각 실시예에 기초하여, 예상 행위 획득 유닛은 제3 결정 서브유닛을 포함할 수 있으며, 제3 결정 서브유닛은 제1 행위 로그의 로그 유형이 사용자 음성에 대응되는 음성 인식 결과를 목적지로 하여 노선 내비게이팅 서비스를 개시하는 것이라고 결정될 경우, 사용자 예상 행위는 사용자가 성공적으로 목적지에 도착하는 것임을 결정한다.
상술한 각 실시예에 기초하여, 제2 판정 유닛은, 제2 행위 로그에 대응되는 사용자 행위가 수정 음성을 재입력하는 것이고 수정 음성에 대응되는 수정 인식 결과와 음성 인식 결과가 의미적 연관 조건을 충족시킨다고 결정될 경우, 제2 행위 로그에 대응되는 사용자 행위가 수정 행위임을 결정하는 제3 결정 서브유닛; 및/또는 제2 행위 로그에 대응되는 사용자 행위가 수정 텍스트를 입력하는 것이고 수정 텍스트와 음성 인식 결과가 의미적 연관 조건을 충족시킨다고 결정될 경우, 제2 행위 로그에 대응되는 사용자 행위가 수정 행위임을 결정하는 제4 결정 서브유닛; 을 포함할 수 있다.
상술한 각 실시예에 기초하여, 의미적 연관 조건은, 수정 인식 결과 또는 수정 텍스트가 음성 인식 결과와 다르고, 또한 수정 인식 결과 또는 수정 텍스트와 음성 인식 결과가 미리 설정된 의미적 유사도 조건을 충족시키는 것;을 포함할 수 있다.
상술한 각 실시예에 기초하여, 제2 판정 유닛은, 수정 인식 결과 또는 수정 텍스트를 잠재적인 정확한 결과로 하여 음성 피드백 말뭉치에 추가하는 결과 추가 서브유닛; 음성 피드백 말뭉치를 수동 태깅 모델에 송신하여, 수동 태깅 모델에 의하여 잠재적인 정확한 결과에 대하여 사용자 음성에 대응되는 정확한 인식 결과를 태깅하도록 하는 결과 태깅 서브유닛; 및 수동 태깅 모델로부터 피드백된 태깅 결과를 사용하여 음성 피드백 말뭉치를 업데이트하는 말뭉치 업데이트 서브유닛; 을 더 포함할 수 있다.
상술한 각 실시예에 기초하여, 양성 피드백 트레이닝 말뭉치 및 음성 피드백 트레이닝 말뭉치에 따라 트레이닝 말뭉치 세트를 구축하고 트레이닝 말뭉치 세트를 트레이닝 말뭉치 검사 플랫폼으로 송신하는 말뭉치 세트 송신 모듈; 트레이닝 말뭉치 검사 플랫폼에 의하여 피드백된 트레이닝 말뭉치 세트에 대응되는 정확률 인덱스 값을 수신하는 인덱스 값 수신 모듈; 및 정확률 인덱스 값이 미리 설정된 정확률 문턱값을 충족시킨다고 결정될 경우, 트레이닝 말뭉치 세트를 사용하여 목표 애플리케이션 프로그램의 음성 인식 모델에 대하여 최적화 트레이닝하는 말뭉치 세트 사용 모듈; 을 더 포함할 수 있다.
상술한 각 실시예에 기초하여, 트레이닝 말뭉치를 생성하는 장치는 말뭉치 재생성 모듈을 더 포함할 수 있으며, 말뭉치 재생성 모듈은 정확률 인덱스 값이 미리 설정된 정확률 문턱값을 충족시키지 않는다고 결정될 경우, 다시 목표 애플리케이션 프로그램에 연관되는 사용자 행위 로그에 따라, 복수의 새로운 태깅할 말뭉치 데이터를 마이닝하고, 새로운 태깅할 말뭉치 데이터에서 새로운 양성 피드백 말뭉치 또는 음성 피드백 말뭉치를 판정한다.
상술한 트레이닝 말뭉치를 생성하는 장치는 본 발명의 임의의 실시예에 의하여 제공되는 트레이닝 말뭉치를 생성하는 방법을 수행할 수 있는바, 트레이닝 말뭉치를 생성하는 방법을 수행하는 것에 대응되는 기능 모듈과 유익한 효과를 가진다.
실시예6
도6는 본 발명의 실시예6에 의하여 제공되는 컴퓨터 기기의 개략적인 구조도이다. 도6는 본 발명의 구현 방식을 구현하기에 적합한 예시적 컴퓨터 기기(612)의 블록도를 도시한다. 도6가 표시하는 컴퓨터 기기(612)는 하나의 예시일 뿐, 본 발명의 실시예의 기능과 사용 범위에 대하여 어떠한 한정을 주어서도 안된다.
도6에 도시한 바와 같이, 컴퓨터 기기(612)는 범용 컴퓨팅 기기의 형식으로 표현된다. 컴퓨터 기기(612)의 컴포넌트는 하나 또는 복수의 프로세서 또는 프로세스 유닛(616), 시스템 메모리(628), 부동한 시스템 컴포넌트(시스템 메모리(628)와 프로세스 유닛(616)을 포함)를 연결하는 버스(618)를 포함할 수 있으나, 이에 한정되지 않는다.
버스(618)는 여러 유형의 버스 구조 중의 한 가지 또는 여러 가지 가지를 표시하는바, 메모리 버스 또는 메모리 제어기, 주변 버스, 가속 그래픽 포트, 프로세서 또는 복수 가지 버스 구조에서의 임의 버스 구조를 사용하는 로컬 버스를 포함한다. 예를 들면, 이러한 아키텍처는 산업 표준 아키텍처(ISA) 버스, 마이크로채널 아키텍처 버스(MAC) 버스, 확장 ISA버스, 비디오 전자공학 표준위원회(VESA) 로컬 버스 및 주변 컴포넌트 상호 연결(PCI) 버스를 포함하나 이에 한정되지 않는다.
컴퓨터 기기(612)는 전형적으로 복수 가지 컴퓨터 시스템 판독 가능 매체를 포함한다. 이러한 매체는 임의의 컴퓨터 기기(612)에 의하여 액세스될 수 있는 사용 가능 매체일 수 있는바, 휘발성 및 비휘발성 매체, 제거 가능한 및 제거 불가능한 매체를 포함할 수 있다.
시스템 메모리(628)는 휘발성 메모리 형식의 컴퓨터 시스템 판독 가능 매체, 예컨대 랜덤 액세스 메모리(RAM)(630) 및/또는 캐시 메모리(632)를 포함할 수 있다. 컴퓨터 기기(612)는 기타 제거 가능한/제거 불가능한, 휘발성/비휘발성 컴퓨터 시스템 저장 매체를 나아가 더 포함할 수 있다. 그냥 예로 들면, 저장 시스템(634)은 제거 불가능한, 비휘발성 자기 매체(도6에 미도시, 통상적으로는 '하드 디스크 드라이브'임)에 대해 판독 및 기록하기 위한 것일 수 있다. 비록 도6에는 미도시하였지만, 제거 가능한 비휘발성 자기 디스크(예컨대 '플로피 디스크')에 대해 판독 및 기록하기 위한 자기 디스크 드라이브, 그리고 제거 가능한 비휘발성 광디스크(예컨대 CD-ROM, DVD-ROM 또는 기타 광 매체)에 대해 판독 및 기록하기 위한 광디스크 드라이브가 제공될 수 있다. 이러한 상황에서, 매개 드라이브는 하나 또는 복수의 데이터 매체 인터페이스를 통해 버스(618)와 상호 연결될 수 있다. 메모리(628)는 프로그램 제품을 적어도 하나 포함할 수 있는바, 당해 프로그램 제품은 한 그룹(예컨대 적어도 하나)의 프로그램 모듈을 구비하는바, 이러한 프로그램 모듈은 본 발명의 각 실시예의 기능을 실행하도록 구성된다.
한 그룹(적어도 하나)의 프로그램 모듈(642)을 구비하는 프로그램/유틸리티 도구(640)는 예컨대 메모리(628)에 저장될 수 있는바, 이러한 프로그램 모듈(642)은 운영 체제, 하나 또는 복수 응용 프로그램, 기타 프로그램 모듈 및 프로그램 데이터를 포함하나 이에 한정되지 않고, 이러한 예시에서의 하나 또는 일종의 조합에는 네트워크 환경의 구현이 포함될 수 있다. 프로그램 모듈(642)은 통상적으로 본 발명에서 설명된 실시예 중의 기능 및/또는 방법을 실행한다.
컴퓨터 기기(612)는 하나 또는 복수의 주변 기기(614)(예컨대 키보드, 위치 지정 도구, 디스플레이(624) 등)와 통신할 수도 있고, 또한 하나 또는 복수 사용자가 당해 컴퓨터 기기(612)와 인터렉션 가능하도록 하는 기기와 통신할 수도 있고, 및/또는 당해 컴퓨터 기기(612)가 하나 또는 복수 기타 컴퓨팅 기기와 통신을 진행할 수 있도록 하는 임의 기기(예컨대 네트워크 카드, 모뎀 등)와 통신할 수도 있다. 이러한 통신은 입력/출력(I/O) 인터페이스(622)를 통해 진행할 수 있다. 그리고, 컴퓨터 기기(612)는 또한 네트워크 어댑터(620)를 통해 하나 또는 복수의 네트워크(예컨대 근거리 통신망(LAN), 광역 통신망(WAN) 및/또는 공용 네트워크, 예컨대 인터넷)와 통신할 수 있다. 도시한 바와 같이, 네트워크 어댑터(620)는 버스(618)를 통해 컴퓨터 기기(612)의 기타 모듈과 통신한다. 알아야 할 것은, 비록 도시되지 않았지만, 컴퓨터 기기(612)에 결합하여 기타 하드웨어 및/또는 소프트웨어 모듈를 사용할 수 있는바, 마이크로코드, 기기 드라이버, 리던던트 프로세스 유닛, 외장 자기 디스크 드라이브 어레이, RAID 시스템, 자기 테이프 드라이브 및 데이터 백업 저장 시스템 등이 포함되나 이에 한정되지 않는다.
프로세스 유닛(616)은 시스템 메모리(628)에 저장되어 있는 프로그램을 작동시키는 것을 통해 각 종 기능 애플리케이션 및 데이터 처리를 실행하는바, 예컨대 본 발명의 실시예에 의하여 제공되는 트레이닝 말뭉치를 생성하는 방법을 실행한다. 즉, 목표 애플리케이션 프로그램에 연관되는 사용자 행위 로그에서 복수의 태깅할 말뭉치 데이터를 마이닝하고, 말뭉치 데이터는, 사용자 음성을 포함하고 음성 인식 결과에 대응되는 제1 행위 로그와, 제1 행위 로그와 시간적으로 연관되고 동일한 사용자한테 속하는 제2 행위 로그를 포함한다. 각 태깅할 말뭉치 데이터 중 제1 행위 로그와 제2 행위 로그 사이의 연관 관계에 따라 각 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백 말뭉치 또는 음성 피드백 말뭉치로 판정한다.
실시예7
본 발명의 실시예7은 컴퓨터 프로그램이 저장되어 있는 컴퓨터 판독가능 저장 매체를 제공하는바, 당해 프로그램이 프로세서에 의하여 실행될 경우, 본 출원의 모든 발명의 실시예에 의하여 제공되는 트레이닝 말뭉치를 생성하는 방법을 구현한다. 즉, 목표 애플리케이션 프로그램에 연관되는 사용자 행위 로그에서 복수의 태깅할 말뭉치 데이터를 마이닝하고, 말뭉치 데이터는, 사용자 음성을 포함하고 음성 인식 결과에 대응되는 제1 행위 로그와, 제1 행위 로그와 시간적으로 연관되고 동일한 사용자한테 속하는 제2 행위 로그를 포함한다. 각 태깅할 말뭉치 데이터 중 제1 행위 로그와 제2 행위 로그 사이의 연관 관계에 따라 각 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백 말뭉치 또는 음성 피드백 말뭉치로 판정한다.
하나 또는 복수의 컴퓨터 판독 가능한 매체의 임의 조합을 적용할 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터 판독 가능 신호 매체 또는 컴퓨터 판독 가능 저장 매체일 수 있다. 컴퓨터 판독 가능 저장 매체는 예컨대 전기, 자기, 광, 전자기, 적외선, 또는 반도체의 시스템, 장치 또는 디바이스, 또는 이들의 임의 조합일수 있으나 이에 한정되지 않는다. 컴퓨터 판독 가능 저장 매체의 더 구체적인 예(불완전 리스트)는, 하나 또는 복수의 도선을 구비하는 전기적 연결, 휴대용 컴퓨터 자기 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 소거 및 프로그램 가능 읽기 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 콤팩트 디스크 읽기 전용 메모리(CD-ROM), 광 저장 디바이스, 자기 저장 디바이스, 또는 상술한 것의 임의의 적합한 조합을 포함한다. 본 문서에서, 컴퓨터 판독 가능 저장 매체는 프로그램을 포함하거나 저장하는, 임의의 유형 매체일 수 있고, 당해 프로그램은 명령어 실행 시스템, 장치 또는 디바이스에 의해 사용되거나 또는 이들과 결합되어 사용될 수 있다.
컴퓨터 판독 가능 신호 매체는 기저대역에서 또는 반송파의 일부분으로 전파되는 데이터 신호를 포함할 수 있고, 컴퓨터 판독 가능 프로그램 코드가 그 중에 탑재되어 있다. 이렇게 전파되는 데이터 신호는 복수 가지 형식을 적용할 수 있는바, 이는 전자기 신호, 광 신호 또는 상술한 것의 임의의 적합한 조합을 포함하나, 이에 한정되지 않는다. 컴퓨터 판독가능 신호 매체는 또한 컴퓨터 판독가능 저장 매체 이외의 임의의 컴퓨터 판독가능 매체일 수 있고, 당해 컴퓨터 판독가능 매체는 명령어 실행 시스템, 장치 또는 디바이스에 의해 사용되거나 또는 이들과 결합되어 사용되는 프로그램을 송신, 전파, 또는 전송할 수 있다.
컴퓨터 판독가능 매체에 포함되는 프로그램 코드는 임의의 적당한 매체를 사용하여 전송할 수 있는바, 이는 무선, 전선, 광케이블, RF 등, 또는 상술한 임의의 적합한 조합을 포함하나, 이에 한정되지 않는다.
한가지 또는 복수 가지 프로그램 설계 언어 또는 그 조합으로 본 발명의 조작을 실행하기 위한 컴퓨터 프로그램 코드를 작성할 수 있고, 상기 프로그램 설계 언어는 Java, Smalltalk, C++와 같은 객체 지향 프로그램 설계 언어를 포함하고, 또한 'C' 언어 또는 이와 유사한 프로그램 설계 언어와 같은 종래의 절차 지향 프로그램 설계 언어도 포함한다. 프로그램 코드는 사용자 컴퓨터에서 전부 실행되거나, 사용자 컴퓨터에서 일부 실행되거나, 하나의 독립적인 소프트웨어 패키지로서 실행되어 일부는 사용자 컴퓨터에서, 일부는 원격 컴퓨터에서 실행되거나, 혹은 원격 컴퓨터에서 또는 서버에서 전부 실행될 수 있다. 원격 컴퓨터와 관련되는 상황에서, 원격 컴퓨터는 근거리 통신망(LAN) 및 광역 통신망(WAN)을 포함하는 임의 유형의 네트워크를 통해 사용자 컴퓨터에 연결되거나 외부 컴퓨터에 연결될 수 있다(예컨대, 인터넷 서비스 제공자를 이용하여 인터넷을 통해 연결된다).
유의하여야 할 것은, 상술한 것은 단지 본 발명의 보다 바람직한 실시예 및 운용된 기술 원리일 뿐이다. 당업자라면, 본 발명은 여기 기술된 특정 실시예에 한정되는 것이 아니고, 당업자에게 있어서 본 발명의 보호 범위를 이탈하지 않으면서 복수 가지 분명한 변화, 재조정 및 치환이 진행 가능하다는 것을 이해하게 될 것이다. 때문에 비록 상술의 실시예를 통해 본 발명에 대한 보다 상세한 설명을 진행하였지만 본 발명은 상술한 실시예에만 한정되는 것이 아니며 본 발명의 구상을 이탈하지 않은 상황에서 또한 기타 등가 실시예를 더 많이 포함할 수가 있고, 본 발명의 범위는 첨부된 특허청구범위의 범위에 의해 결정된다.

Claims (15)

  1. 트레이닝 말뭉치를 생성하는 방법에 있어서,
    목표 애플리케이션 프로그램에 연관되는 사용자 행위 로그에서 복수의 태깅할 말뭉치 데이터를 마이닝하는 단계 - 상기 말뭉치 데이터는, 사용자 음성을 포함하고 음성 인식 결과에 대응되는 제1 행위 로그와, 상기 제1 행위 로그와 시간적으로 연관되고 동일한 사용자한테 속하는 제2 행위 로그를 포함함 - ; 및
    각 상기 태깅할 말뭉치 데이터 중 제1 행위 로그와 제2 행위 로그 사이의 연관 관계에 따라, 각 상기 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백 말뭉치 또는 음성 피드백 말뭉치로 판정하는 단계; 를 포함하는 것,
    을 특징으로 하는 트레이닝 말뭉치를 생성하는 방법.
  2. 제1항에 있어서,
    각 상기 태깅할 말뭉치 데이터 중 제1 행위 로그와 제2 행위 로그 사이의 연관 관계에 따라, 각 상기 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백 말뭉치 또는 음성 피드백 말뭉치로 판정하는 단계는,
    제1 행위 로그의 로그 유형에 따라, 상기 제1 행위 로그에 대응되는 사용자 예상 행위를 획득하는 단계; 및
    상기 사용자 예상 행위가 상기 제2 행위 로그에 매칭된다고 결정될 경우, 상기 말뭉치 데이터 중의 상기 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백 말뭉치로 판정하는 단계; 를 포함하는 것,
    을 특징으로 하는 트레이닝 말뭉치를 생성하는 방법.
  3. 제1항에 있어서,
    각 상기 태깅할 말뭉치 데이터 중 제1 행위 로그와 제2 행위 로그 사이의 연관 관계에 따라, 각 상기 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백 말뭉치 또는 음성 피드백 말뭉치로 판정하는 단계는,
    제2 행위 로그에 대응되는 사용자 행위가 설정된 시간 내에서의 상기 제1 행위 로그에 대한 수정 행위라고 결정될 경우, 상기 말뭉치 데이터 중의 상기 사용자 음성 및 대응되는 음성 인식 결과를 음성 피드백 말뭉치로 판정하는 단계를 포함하는 것,
    을 특징으로 하는 트레이닝 말뭉치를 생성하는 방법.
  4. 제1항에 있어서,
    상기 목표 애플리케이션 프로그램은 지도 류 애플리케이션 프로그램을 포함하는 것,
    을 특징으로 하는 트레이닝 말뭉치를 생성하는 방법.
  5. 제2항에 있어서,
    제1 행위 로그의 로그 유형에 따라, 상기 제1 행위 로그에 대응되는 사용자 예상 행위를 획득하는 단계는,
    상기 제1 행위 로그의 로그 유형이 상기 사용자 음성에 대응되는 음성 인식 결과를 목적지로 사용하여 위치 검색 서비스를 개시하는 것이라고 결정될 경우, 상기 사용자 예상 행위는 사용자가 상기 위치 검색 서비스에 매칭되는 검색 결과 페이지에서 상기 목적지에 매칭되는 노선 검색 서비스를 개시하는 선택 사항을 선택하는 것임을 결정하는 단계를 포함하는 것,
    을 특징으로 하는 트레이닝 말뭉치를 생성하는 방법.
  6. 제2항에 있어서,
    제1 행위 로그의 로그 유형에 따라, 상기 제1 행위 로그에 대응되는 사용자 예상 행위를 획득하는 단계는,
    상기 제1 행위 로그의 로그 유형이 상기 사용자 음성에 대응되는 음성 인식 결과를 목적지로 하여 노선 검색 서비스를 개시하는 것이라고 결정될 경우, 상기 사용자 예상 행위는 사용자가 상기 노선 검색 서비스에 매칭되는 노선 검색 페이지에서 상기 목적지로 내비게이팅하여 가는 선택 사항을 선택하는 것임을 결정하는 단계를 포함하는 것,
    을 특징으로 하는 트레이닝 말뭉치를 생성하는 방법.
  7. 제2항에 있어서,
    제1 행위 로그의 로그 유형에 따라, 상기 제1 행위 로그에 대응되는 사용자 예상 행위를 획득하는 단계는,
    상기 제1 행위 로그의 로그 유형이 상기 사용자 음성에 대응되는 음성 인식 결과를 목적지로 하여 노선 내비게이팅 서비스를 개시하는 것이라고 결정될 경우, 상기 사용자 예상 행위는 사용자가 성공적으로 상기 목적지에 도착하는 것임을 결정하는 단계를 포함하는 것,
    을 특징으로 하는 트레이닝 말뭉치를 생성하는 방법.
  8. 제3항에 있어서,
    제2 행위 로그에 대응되는 사용자 행위가 설정된 시간 내에서의 상기 제1 행위 로그에 대한 수정 행위라는 것을 결정하는 단계는,
    상기 제2 행위 로그에 대응되는 사용자 행위가 수정 음성을 재입력하는 것이고, 상기 수정 음성에 대응되는 수정 인식 결과와 상기 음성 인식 결과가 의미적 연관 조건을 충족시킨다고 결정될 경우, 상기 제2 행위 로그에 대응되는 사용자 행위가 수정 행위임을 결정하는 단계; 및/또는
    상기 제2 행위 로그에 대응되는 사용자 행위가 수정 텍스트를 입력하는 것이고, 상기 수정 텍스트와 상기 음성 인식 결과가 의미적 연관 조건을 충족시킨다고 결정될 경우, 상기 제2 행위 로그에 대응되는 사용자 행위가 수정 행위임을 결정하는 단계; 를 포함하는 것,
    을 특징으로 하는 트레이닝 말뭉치를 생성하는 방법.
  9. 제8항에 있어서,
    상기 의미적 연관 조건은,
    상기 수정 인식 결과 또는 상기 수정 텍스트가 상기 음성 인식 결과와 다르고, 상기 수정 인식 결과 또는 상기 수정 텍스트와 상기 음성 인식 결과가 미리 설정된 의미적 유사도 조건을 충족시키는 것을 포함하는 것,
    을 특징으로 하는 트레이닝 말뭉치를 생성하는 방법.
  10. 제3항에 있어서,
    상기 말뭉치 데이터 중의 상기 사용자 음성 및 대응되는 음성 인식 결과를 음성 피드백 말뭉치로 판정하는 단계 이후,
    수정 인식 결과 또는 수정 텍스트를 잠재적인 정확한 결과로 하여 상기 음성 피드백 말뭉치에 추가하는 단계;
    상기 음성 피드백 말뭉치를 수동 태깅 모델에 송신하여, 상기 수동 태깅 모델에 의하여 상기 잠재적인 정확한 결과에 대하여 상기 사용자 음성에 대응되는 정확한 인식 결과를 태깅하도록 하는 단계; 및
    상기 수동 태깅 모델로부터 피드백된 태깅 결과를 사용하여, 상기 음성 피드백 말뭉치를 업데이트하는 단계; 를 더 포함하는 것,
    을 특징으로 하는 트레이닝 말뭉치를 생성하는 방법.
  11. 제1항에 있어서,
    각 상기 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백 말뭉치 또는 음성 피드백 말뭉치로 판정하는 단계 이후,
    양성 피드백 트레이닝 말뭉치 및 음성 피드백 트레이닝 말뭉치에 따라, 트레이닝 말뭉치 세트를 구축하고, 상기 트레이닝 말뭉치 세트를 트레이닝 말뭉치 검사 플랫폼으로 송신하는 단계;
    상기 트레이닝 말뭉치 검사 플랫폼에 의하여 피드백된 상기 트레이닝 말뭉치 세트에 대응되는 정확률 인덱스 값을 수신하는 단계; 및
    상기 정확률 인덱스 값이 미리 설정된 정확률 문턱값을 충족시킨다고 결정될 경우, 상기 트레이닝 말뭉치 세트를 사용하여 상기 목표 애플리케이션 프로그램의 음성 인식 모델에 대하여 최적화 트레이닝하는 단계; 를 더 포함하는 것,
    을 특징으로 하는 트레이닝 말뭉치를 생성하는 방법.
  12. 제11항에 있어서,
    상기 트레이닝 말뭉치 검사 플랫폼에 의하여 피드백된 상기 트레이닝 말뭉치 세트에 대응되는 정확률 인덱스 값을 수신하는 단계 이후,
    상기 정확률 인덱스 값이 미리 설정된 정확률 문턱값을 충족시키지 않는다고 결정될 경우, 다시 목표 애플리케이션 프로그램에 연관되는 사용자 행위 로그에 따라 복수의 새로운 태깅할 말뭉치 데이터를 마이닝하고, 새로운 태깅할 말뭉치 데이터에서 새로운 양성 피드백 말뭉치 또는 음성 피드백 말뭉치를 판정하는 단계를 더 포함하는 것,
    을 특징으로 하는 트레이닝 말뭉치를 생성하는 방법.
  13. 트레이닝 말뭉치를 생성하는 장치에 있어서,
    목표 애플리케이션 프로그램에 연관되는 사용자 행위 로그에서 복수의 태깅할 말뭉치 데이터를 마이닝하는 말뭉치 데이터 마이닝 모듈 - 상기 말뭉치 데이터는, 사용자 음성을 포함하고 음성 인식 결과에 대응되는 제1 행위 로그와, 상기 제1 행위 로그와 시간적으로 연관되고 동일한 사용자한테 속하는 제2 행위 로그를 포함함 - ; 및
    각 상기 태깅할 말뭉치 데이터 중 제1 행위 로그와 제2 행위 로그 사이의 연관 관계에 따라, 각 상기 말뭉치 데이터 중의 사용자 음성 및 대응되는 음성 인식 결과를 양성 피드백 말뭉치 또는 음성 피드백 말뭉치로 판정하는 말뭉치 판정 모듈; 을 포함하는 것,
    을 특징으로 하는 트레이닝 말뭉치를 생성하는 장치.
  14. 컴퓨터 기기에 있어서,
    메모리, 프로세서 및 메모리에 저장되고 프로세서에 의하여 실행 가능한 컴퓨터 프로그램을 포함하며,
    상기 프로세서에 의하여 상기 프로그램이 실행될 경우, 제1항 내지 제12항 중 어느 한항의 트레이닝 말뭉치를 생성하는 방법을 구현하는 것,
    을 특징으로 하는 컴퓨터 기기.
  15. 컴퓨터 프로그램이 저장되어 있는 컴퓨터 판독가능 저장 매체에 있어서,
    당해 컴퓨터 프로그램이 프로세서에 의하여 실행될 경우, 제1항 내지 제12항 중 어느 한항의 트레이닝 말뭉치를 생성하는 방법이 구현되는 것,
    을 특징으로 하는 컴퓨터 판독가능 저장 매체.
KR1020200014487A 2019-03-11 2020-02-06 트레이닝 말뭉치를 생성하는 방법, 장치, 기기 및 저장 매체 KR102345156B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910179796.4A CN109949797B (zh) 2019-03-11 2019-03-11 一种训练语料的生成方法、装置、设备及存储介质
CN201910179796.4 2019-03-11

Publications (2)

Publication Number Publication Date
KR20200108775A true KR20200108775A (ko) 2020-09-21
KR102345156B1 KR102345156B1 (ko) 2021-12-29

Family

ID=67008690

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200014487A KR102345156B1 (ko) 2019-03-11 2020-02-06 트레이닝 말뭉치를 생성하는 방법, 장치, 기기 및 저장 매체

Country Status (5)

Country Link
US (1) US11348571B2 (ko)
EP (1) EP3709295B1 (ko)
JP (1) JP6936888B2 (ko)
KR (1) KR102345156B1 (ko)
CN (1) CN109949797B (ko)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091812B (zh) * 2019-11-26 2022-05-17 思必驰科技股份有限公司 小语种语料的生成方法及系统
CN111312219B (zh) * 2020-01-16 2023-11-28 上海携程国际旅行社有限公司 电话录音标注方法、系统、存储介质和电子设备
US11043208B1 (en) * 2020-02-20 2021-06-22 Clinc, Inc. Systems and methods for mixed setting training for slot filling machine learning tasks in a machine learning task-oriented dialogue system
CN111914114A (zh) * 2020-07-31 2020-11-10 海信视像科技股份有限公司 一种badcase挖掘方法及电子设备
CN111916088B (zh) * 2020-08-12 2022-09-27 腾讯科技(深圳)有限公司 一种语音语料的生成方法、设备及计算机可读存储介质
CN112002326A (zh) * 2020-10-28 2020-11-27 深圳市一恒科电子科技有限公司 一种交互方法及机器人设备
CN112417116B (zh) * 2020-11-18 2022-03-15 四川长虹电器股份有限公司 一种基于少样本语料的问句理解模型训练方法和系统
CN112614479B (zh) * 2020-11-26 2022-03-25 北京百度网讯科技有限公司 训练数据的处理方法、装置及电子设备
US11676593B2 (en) * 2020-12-01 2023-06-13 International Business Machines Corporation Training an artificial intelligence of a voice response system based on non_verbal feedback
CN112700763B (zh) * 2020-12-26 2024-04-16 中国科学技术大学 语音标注质量评价方法、装置、设备及存储介质
CN112905232B (zh) * 2021-02-05 2023-11-28 中国海洋大学 一种基于语法分析树的程序代码平行语料挖掘方法及系统
US11816432B2 (en) * 2021-02-09 2023-11-14 Capital One Services, Llc Systems and methods for increasing accuracy in categorizing characters in text string
CN112767924A (zh) 2021-02-26 2021-05-07 北京百度网讯科技有限公司 语音识别方法、装置、电子设备及存储介质
CN113327591B (zh) * 2021-06-16 2023-01-17 北京有竹居网络技术有限公司 一种语音处理方法及装置
CN113539245B (zh) * 2021-07-05 2024-03-15 思必驰科技股份有限公司 语言模型自动训练方法及系统
CN114974221B (zh) * 2022-04-29 2024-01-19 中移互联网有限公司 语音识别模型训练方法及装置、计算机可读存储介质
CN115687935A (zh) * 2023-01-05 2023-02-03 粤港澳大湾区数字经济研究院(福田) 语音识别的后处理方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017049537A (ja) * 2015-09-04 2017-03-09 株式会社東芝 操作装置、訂正方法およびプログラム

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US6374221B1 (en) 1999-06-22 2002-04-16 Lucent Technologies Inc. Automatic retraining of a speech recognizer while using reliable transcripts
JP3726125B2 (ja) 2001-08-15 2005-12-14 独立行政法人情報通信研究機構 テキストコーパスの誤り検出方法及び装置
US7203644B2 (en) * 2001-12-31 2007-04-10 Intel Corporation Automating tuning of speech recognition systems
US7383170B2 (en) * 2003-10-10 2008-06-03 At&T Knowledge Ventures, L.P. System and method for analyzing automatic speech recognition performance data
EP1709625A1 (en) * 2004-01-20 2006-10-11 Koninklijke Philips Electronics N.V. Method and system for determining the topic of a conversation and obtaining and presenting related content
JP4784056B2 (ja) 2004-08-18 2011-09-28 パナソニック電工株式会社 音声認識機能付制御装置
US7412387B2 (en) * 2005-01-18 2008-08-12 International Business Machines Corporation Automatic improvement of spoken language
US9620117B1 (en) * 2006-06-27 2017-04-11 At&T Intellectual Property Ii, L.P. Learning from interactions for a spoken dialog system
TWI321313B (en) * 2007-03-03 2010-03-01 Ind Tech Res Inst Apparatus and method to reduce recognization errors through context relations among dialogue turns
US20080243504A1 (en) * 2007-03-30 2008-10-02 Verizon Data Services, Inc. System and method of speech recognition training based on confirmed speaker utterances
JP5336805B2 (ja) 2008-09-26 2013-11-06 株式会社東芝 音声翻訳装置、方法、およびプログラム
CA2865187C (en) * 2012-05-15 2015-09-22 Whyz Technologies Limited Method and system relating to salient content extraction for electronic content
US9601111B2 (en) * 2012-11-13 2017-03-21 GM Global Technology Operations LLC Methods and systems for adapting speech systems
CN103871402B (zh) * 2012-12-11 2017-10-10 北京百度网讯科技有限公司 语言模型训练系统、语音识别系统及相应方法
CN103971677B (zh) * 2013-02-01 2015-08-12 腾讯科技(深圳)有限公司 一种声学语言模型训练方法和装置
US9679558B2 (en) * 2014-05-15 2017-06-13 Microsoft Technology Licensing, Llc Language modeling for conversational understanding domains using semantic web resources
KR102225404B1 (ko) * 2014-05-23 2021-03-09 삼성전자주식회사 디바이스 정보를 이용하는 음성인식 방법 및 장치
US9378731B2 (en) * 2014-09-25 2016-06-28 Google Inc. Acoustic model training corpus selection
US9792281B2 (en) * 2015-06-15 2017-10-17 Microsoft Technology Licensing, Llc Contextual language generation by leveraging language understanding
CN106992001B (zh) * 2017-03-29 2020-05-22 百度在线网络技术(北京)有限公司 语音指令的处理方法、装置和系统
CN107657048B (zh) 2017-09-21 2020-12-04 麒麟合盛网络技术股份有限公司 用户识别方法及装置
US10453454B2 (en) * 2017-10-26 2019-10-22 Hitachi, Ltd. Dialog system with self-learning natural language understanding
JP6654611B2 (ja) 2017-12-05 2020-02-26 株式会社日立製作所 成長型対話装置
CN108153875B (zh) 2017-12-26 2022-03-11 北京金山安全软件有限公司 语料处理方法、装置、智能音箱和存储介质
CN110489517B (zh) 2018-05-09 2023-10-31 鼎捷软件股份有限公司 虚拟助理的自动学习方法及系统
CN109192194A (zh) * 2018-08-22 2019-01-11 北京百度网讯科技有限公司 语音数据标注方法、装置、计算机设备及存储介质
CN109308895B (zh) * 2018-12-04 2019-12-27 百度在线网络技术(北京)有限公司 声学模型训练方法、装置、设备及计算机可读介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017049537A (ja) * 2015-09-04 2017-03-09 株式会社東芝 操作装置、訂正方法およびプログラム

Also Published As

Publication number Publication date
CN109949797B (zh) 2021-11-12
CN109949797A (zh) 2019-06-28
JP6936888B2 (ja) 2021-09-22
EP3709295A1 (en) 2020-09-16
KR102345156B1 (ko) 2021-12-29
JP2020149053A (ja) 2020-09-17
US20200294489A1 (en) 2020-09-17
US11348571B2 (en) 2022-05-31
EP3709295B1 (en) 2022-11-30

Similar Documents

Publication Publication Date Title
KR20200108775A (ko) 트레이닝 말뭉치를 생성하는 방법, 장치, 기기 및 저장 매체
CN109002510B (zh) 一种对话处理方法、装置、设备和介质
WO2020108063A1 (zh) 特征词的确定方法、装置和服务器
CN111144128B (zh) 语义解析方法和装置
CN113342345A (zh) 深度学习框架的算子融合方法、装置
JP2020030408A (ja) オーディオにおける重要語句を認識するための方法、装置、機器及び媒体
CN108776696B (zh) 节点配置方法及装置、存储介质和电子设备
EP4113357A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
CN111079408B (zh) 一种语种识别方法、装置、设备及存储介质
CN109947924B (zh) 对话系统训练数据构建方法、装置、电子设备及存储介质
CN113836925B (zh) 预训练语言模型的训练方法、装置、电子设备及存储介质
US20190237071A1 (en) Voice recognition method, device and server
US10049108B2 (en) Identification and translation of idioms
CN116737908A (zh) 知识问答方法、装置、设备和存储介质
CN112270169B (zh) 对白角色预测方法、装置、电子设备及存储介质
US9471890B2 (en) Enterprise decision management
CN112925889A (zh) 自然语言处理方法、装置、电子设备和存储介质
CN112989066A (zh) 数据处理方法和装置、电子设备、计算机可读介质
US10055401B2 (en) Identification and processing of idioms in an electronic environment
CN115965018B (zh) 信息生成模型的训练方法、信息生成方法和装置
US20220138435A1 (en) Method and apparatus for generating a text, and storage medium
CN114491040B (zh) 信息挖掘方法及装置
CN113204667B (zh) 音频标注模型的训练与音频标注的方法、装置
CN109815325B (zh) 答案抽取方法、装置、服务器及存储介质
CN113849170A (zh) 代码分享方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant