KR20220141225A - 음성 인식 방법 및 장치 - Google Patents

음성 인식 방법 및 장치 Download PDF

Info

Publication number
KR20220141225A
KR20220141225A KR1020220026581A KR20220026581A KR20220141225A KR 20220141225 A KR20220141225 A KR 20220141225A KR 1020220026581 A KR1020220026581 A KR 1020220026581A KR 20220026581 A KR20220026581 A KR 20220026581A KR 20220141225 A KR20220141225 A KR 20220141225A
Authority
KR
South Korea
Prior art keywords
candidate
recognition
entity
similarity
popular
Prior art date
Application number
KR1020220026581A
Other languages
English (en)
Inventor
리아오 장
인로우 자오
정샹 지앙
시아오인 푸
웨이 웨이
Original Assignee
베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 filed Critical 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Publication of KR20220141225A publication Critical patent/KR20220141225A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/048Fuzzy inferencing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Automation & Control Theory (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 음성과 딥 러닝 기술 분야에 관한 음성 인식 방법 및 장치를 개시한다. 구체적인 구현 방식은, 음성 인식 모델이 인식할 음성에 대해 출력한 인식 점수의 상위 N개의 후보 인식 결과를 획득하고, 상기 N은 1보다 큰 양의 정수이며, 후보 인식 결과와 미리 수집된 인기 엔티티의 발음 유사도에 기반하여, 상기 N개의 후보 인식 결과를 각각 채점하여, 각 후보 인식 결과의 유사도 점수를 획득하고, 상기 후보 인식 결과의 인식 점수와 유사도 점수를 종합하여, 상기 N개의 후보 인식 결과로부터 상기 인식할 음성에 대응하는 인식 결과를 결정한다. 본 발명은 인식 정밀도를 향상시킬 수 있다.

Description

음성 인식 방법 및 장치 {SPEECH RECOGNITION METHOD AND DEVICE}
본 발명은 컴퓨터 애플리케이션 기술 분야에 관한 것이고, 특히, 음성과 딥 러닝 기술 분야에 관한 것이다.
최근 수십 년 동안, 음성 인식 기술은 현저한 발전을 이루었고, 공업, 가전, 통신, 자동차 전자, 의료, 가정 서비스, 소비 전자 제품 등의 각 분야에 점차적으로 진출하고 있다. 기존의 음성 인식 아키텍처에서, 도 1에 도시된 바와 같이, 디코더는 음성 인식 모델에서의 음향 모델을 사용하여 음성으로부터 음절까지의 확률 계산을 수행하고, 음성 인식 모델에서의 언어 모델을 사용하여 음절로부터 텍스트까지의 확률 계산을 하고, 확률 점수가 가장 높은 텍스트를 음성 인식 결과로 최종적으로 출력한다.
그러나, 일부 수직 또는 전문 분야의 음성 인식 시나리오에서, 일부 특정한 엔티티는 일반적으로 의미 논리와 다르기 때문에, 인식 정밀도가 낮다.
이를 고려하여, 본 발명은 인식 정밀도를 향상시키기 위한 음성 인식 방법 및 장치를 제공한다.
본 발명의 제1 측면에 따르면, 음성 인식 방법을 제공하고, 상기 음성 인식 방법은,
음성 인식 모델이 인식할 음성에 대해 출력한 인식 점수의 상위 N개의 후보 인식 결과를 획득하는 단계 - 상기 N은 1보다 큰 양의 정수임 -;
후보 인식 결과와 미리 수집된 인기 엔티티 사이의 발음 유사도에 기반하여, 상기 N개의 후보 인식 결과를 각각 채점하여, 각각의 후보 인식 결과의 유사도 점수를 획득하는 단계; 및
상기 후보 인식 결과의 인식 점수와 유사도 점수를 종합하여, 상기 N개의 후보 인식 결과로부터 상기 인식할 음성에 대응하는 인식 결과를 결정하는 단계;를 포함한다.
본 발명의 제2 측면에 따르면, 음성 인식 장치를 제공하고, 상기 음성 인식 장치는,
음성 인식 모델이 인식할 음성에 대해 출력한 인식 점수의 상위 N개의 후보 인식 결과를 획득하기 위한 후보 획득 유닛 - 상기 N은 1보다 큰 양의 정수임 -;
후보 인식 결과와 미리 수집된 인기 엔티티 사이의 발음 유사도에 기반하여, 상기 N개의 후보 인식 결과를 각각 채점하여, 각각의 후보 인식 결과의 유사도 점수를 획득하기 위한 유사도 채점 유닛; 및
상기 후보 인식 결과의 인식 점수와 유사도 점수를 종합하여, 상기 N개의 후보 인식 결과로부터 상기 인식할 음성에 대응하는 인식 결과를 결정하기 위한 결과 결정 유닛;을 포함한다.
본 발명의 제3 측면에 따르면, 전자 기기를 제공하고, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서에 통신 연결되는 메모리;를 포함하고, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서에 의해 상술한 방법이 수행되도록 한다.
본 발명의 제4 측면에 따르면, 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 기록 매체를 제공하고, 상기 컴퓨터 명령은 상기 컴퓨터가 상술한 방법을 수행하도록 한다.
본 발명의 제5 측면에 따르면, 컴퓨터 프로그램 제품은 컴퓨터 프로그램을 포함하고, 상기 컴퓨터 프로그램이 프로세서에 의해 수행될 때, 상술한 방법을 구현한다.
상기 기술 방식으로부터 알 수 있는 것은, 음성 인식 모델이 후보 인식 결과에 대한 인식 점수를 획득하는 것에 기반하여, 후보 인식 결과와 미리 수집된 인기 엔티티의 발음 유사도를 각 후보 결과에 대한 채점을 합산하고, 채점과 엔티티 점수를 종합하여 최종적인 인식 결과를 결정하여, 최종적인 인식 결과가 가능한 발음 상에서 인기 엔티티와 유사하도록 함으로써, 인식 정밀도를 향상시킨다.
본 명세서에서 설명된 내용은 본 발명의 실시예의 키 또는 중요한 특징을 식별하려는 것이 아니고, 또한 본 발명의 범위를 제한하려는 것도 아닌 것을 이해하여야 한다. 본 발명의 다른 특징은 하기의 명세서를 통해 용이하게 이해할 수 있다.
첨부 도면은 본 해결수단을 더 잘 이해하기 위한 것으로, 본 발명에 대해 한정하는 것으로 구성되지 않는다.
도 1은 종래 기술에서의 음성 인식 방법의 개략도를 도시한다.
도 2는 본 발명의 실시예의 음성 인식 방법 또는 장치에 적용될 수 있는 예시적인 시스템 아키텍처를 도시한다.
도 3은 본 발명의 실시예에 의해 제공되는 음성 인식 방법의 흐름도이다.
도 4a는 본 발명의 실시예에 의해 제공되는 엔티티 리소스 트리의 예시도이다.
도 4b는 본 발명의 실시예에 의해 제공되는 엔티티 리소스 퍼지 트리의 예시도이다.
도 5는 본 발명의 실시예에 의해 제공되는 음성 인식 방법의 개략도이다.
도 6은 본 발명의 실시예에 의해 제공되는 음성 인식 장치의 구조도이다.
도 7은 본 발명의 실시예를 구현하기 위한 전자 기기의 블록도이다.
하기는 첨부된 도면을 결부하여 본 발명의 예시적 실시예를 설명하되, 여기에는 이해를 돕기 위한 본 발명의 실시예의 다양한 세부 사항이 포함되며, 이는 단지 예시적인 것으로 간주되어야 한다. 따라서, 본 기술분야의 통상의 기술자는 본 발명의 범위와 사상을 벗어나지 않으면서, 여기서 설명되는 실시예에 대한 다양한 변경과 수정이 이루어질 수 있음을 이해해야 한다. 마찬가지로, 명확성 및 간결성을 위해, 아래의 설명에서 공지된 기능과 구조에 대한 설명을 생략한다.
도 2는 본 발명의 실시예의 음성 인식 방법 또는 장치에 적용될 수 있는 예시적인 시스템 아키텍처를 도시한다.
도 2에 도시된 바와 같이, 상기 시스템 아키텍처는 단말 디바이스(201, 202), 네트워크(203), 및 서버(204)를 포함할 수 있다. 네트워크(203)는 단말 디바이스(201, 202)와 서버(204) 사이의 통신 링크를 위한 매체를 제공한다. 네트워크(203)는 유선, 무선통신 링크, 또는 광섬유 케이블 등과 같은 다양한 접속 유형을 포함할 수 있다.
사용자는 단말 디바이스(201, 202)를 사용하여 네트워크(203)를 통해 서버(204)와 인터랙션을 수행할 수 있다. 단말 디바이스(201, 202)에는, 음성 인터랙션 애플리케이션, 지도류 애플리케이션, 웹 브라우저 애플리케이션, 통신류 애플리케이션 등 다양한 애플리케이션이 인스톨될 수 있다.
단말 디바이스(201, 202)는 음성 방송을 서포트하는 여러가지 전자 기기일 수 있다. 스마트폰, 태블릿, 노트북, 스마트 웨어러블 기기 등이 포함되지만, 이에 한정되지 않는다. 본 출원에 의해 제공되는 방송 음성을 생성하는 장치는 상술한 서버(204)에 설치하여 수행할 수 있고, 단말 디바이스(201, 202)에 설치하여 수행할 수도 있다. 복수의 소프트웨어 또는 소프트웨어 모듈 (예를 들어, 분산 서비스를 제공한다)로 구현할 수 있고, 단일 소프트웨어 또는 소프트웨어 모듈로 구현할 수도 있고, 여기서 구체적으로 한정하지 않는다.
예를 들어, 음성 인식 장치는, 상술한 서버(204) 측에 설치되어 수행되면, 사용자는 단말 디바이스(201)를 통해 음성 요구를 입력하고, 단말 디바이스(201)에 의해 음성 요구를 서버(204)에 송신한다. 서버(204)는 본 발명의 실시예에 의해 제공되는 방식을 사용하여 음성 인식을 수행한 후에 음성 인식 결과를 획득하고, 상기 음성 인식 결과에 기반하여 응답한다. 예를 들어, 음성 인식 결과를 단말 디바이스(201)에 반환하고, 사용자에게 표시한다. 또한, 예를 들어, 음성 인식 결과에 기반하여 그 중에 포함되는 명령 등을 수행한다. 또한, 서버(204) 측에는, 본 발명의 실시예에 의해 제공되는 음성 인식 모델을 트레이닝하는 장치가 설치되어 있을 수도 있고, 음성 인식 모델을 미리 트레이닝하여 상술한 음성 인식을 수행한다.
서버(204)는, 단일인 서버일 수 있고, 복수의 서버에 의해 구성되는 서버 그룹일 수 있다. 도 1의 단말 디바이스, 네트워크 및 서버의 수는 단순한 예시적인 것으로 이해할 수 있다. 구현 요구에 따라, 임의의 수의 단말 디바이스, 네트워크 및 서버일 수 있다.
도 3은 본 발명의 실시예에 의해 제공되는 음성 인식 방법의 흐름도이다. 상기 장치는 서버 측에 위치한 애플리케이션일 수 있거나, 또는 서버 측에 위치한 애플리케이션 내의 플러그인 또는 소프트웨어 개발 킷(Software Development Kit, SDK) 등의 기능 유닛일 수도 있거나, 또는, 강한 계산 능력을 소유하는 컴퓨터 단말에 위치할 수도 있고, 본 발명의 실시예는 이에 대해 특히 한정하지 않는다. 도 3에 도시된 바와 같이, 상기 방법은, 하기와 같은 단계를 포함할 수 있다.
단계 301: 음성 인식 모델이 인식할 음성에 대해 출력한 인식 점수의 상위 N개의 후보 인식 결과를 획득하고, N은 1보다 큰 양의 정수이다.
단계 302: 후보 인식 결과와 미리 수집된 인기 엔티티 사이의 발음 유사도에 기반하여, 상기 N개의 후보 인식 결과를 각각 채점하여, 각각의 후보 인식 결과의 유사도 점수를 획득한다.
단계 303: 후보 인식 결과의 인식 점수와 유사도 점수를 종합하여, 상술한 N개의 후보 인식 결과로부터 인식할 음성에 대응하는 인식 결과를 결정한다.
도 3에 도시된 실시예로부터 알 수 있는 것은, 음성 인식 모델이 후보 인식 결과에 대한 인식 점수를 획득하는 것에 기반하여, 후보 인식 결과와 미리 수집된 인기 엔티티의 발음 유사도를 각각의 후보 결과에 대한 채점을 융합하고, 채점과 엔티티 점수를 종합하여 최종적인 인식 결과를 결정하여, 최종적인 인식 결과가 가능한 발음 상에서 인기 엔티티와 유사하도록 함으로써, 인식 정밀도를 향상시킨다.
본 발명에 의해 제공되는 상술한 음성 인식의 방법은, 여러가지 분야에 적용될 수 있고, 상응하게, 상술한 인기 엔티티는 분야에 대응하는 특정한 유형의 인기 엔티티일 수 있다. 예를 들어, 지도류 응용 분야, 즉 상술한 인기 엔티티는 POI 또는 장소 등이 특정한 유형일 수 있다. 또한, 예를 들어, 의학류 응용 분야, 즉 상술한 인기 엔티티는 질병, 약품 등이 특정한 유형일 수 있다. 상술한 방법의 이해를 쉽게 하기 위해, 하기의 실시예는, 지도류 응용 분야를 예로 설명한다.
하기는 실시예를 결합하여 상술한 실시예의 각 단계를 상세히 설명한다.
먼저, 상술한 단계 301에서, 본 발명은 음성 인식 모델의 처리에 대해 임의의 수정 및 영향을 미치지 않고, 디코더는 여전히 음향 모델과 언어 모델을 사용하여 후보 인식 결과와 각 후보 인식 결과의 인식 점수를 획득한다.
그 중, 인식 점수에 따라 각 후보 인식 결과를 정렬하고, 상위 N개의 후보 인식 결과를 선택할 수 있다. N은 1보다 큰 양의 정수이다.
이 부분의 내용을 고려하여 본 실시예에서는 변경되지 않았으므로, 여기에서는 상세히 설명하지 않는다.
예를 들어, 사용자가 장소를 포함하는 음성 요구 "
Figure pat00001
로 네비게이션"을 입력한 후, 사용자 발음, 환경 등의 요인의 영향에 의해, 디코더의 인식 결과는 반드시 정확하지 않을 수 있다. 예를 들어, 음성 인식 모델을 사용하여 상기 음성 요구를 인식한 후, 인식 점수가 상위 3개인 인식 결과:
"
Figure pat00002
로 네비게이션", "
Figure pat00003
로 네비게이션", 및 "
Figure pat00004
로 네비게이션"을 획득한다. 기존의 구현 방식을 사용하여 제1번째의 인식 결과를 직접 선택할 경우, 인식 결과가 옳지 않은 것을 알 수 있다.
하기는 실시예를 결합하여 상술한 단계 302, 즉 "후보 인식 결과와 미리 수집된 특정한 유형의 인기 엔티티의 발음 유사도에 기반하여, 상기 N개의 후보 인식 결과를 각각 채점하여, 각 후보 인식 결과의 유사도 점수를 획득한다"를 상세히 설명한다.
먼저, 본 발명의 실시예에서, 특정한 유형의 인기 엔티티를 미리 수집한다. 현재의 각 분야의 엔티티가 인기인지 여부는, 대부분 유동량에 기반하여 판단하므로, 유동량에 기반하여 특정한 유형의 인기 엔티티를 통계하여, 인기 엔티티 리스트를 생성할 수 있다. 그 중, 상술한 유동량은, 사용자가 현장에 방문하여 생성된 인구 유동량일 수 있고, 사용자가 온라인으로 방문 또는 요구 등을 하여 생성된 유동량일 수 있다.
지도류 응용 분야의 장소를 예로 들면, 먼저, 사용자가 현장에 방문하여 생성된 인구 유동량(human traffic)에 기반하여 많은 인기 장소를 통계할 수 있다. 예를 들어, 인구 유동량에 기반하여 인구 유동량이 미리 설정된 인구 유동량 역치를 넘는 인기 장소를 통계하거나, 또는 인구 유동량이 상위 미리 설정된 수량에 있는 인기 장소를 통계할 수 있다. 또한, 인구 유동량에 기반하여 통계된 인기 장소 내의 각 인기 장소에 대한 요구를 통계하고, 요구 유동량(request traffic)이 미리 설정된 요구 유동량 역치를 넘은 인기 장소를 통계하거나, 또는 요구 유동량이 상위 미리 설정된 수량에 있는 인기 장소를 통계할 수도 있다. 통계된 인기 장소는 인기 장소 리스트를 형성한다.
상술한 장소에 기반한 통계는 단지 유동량을 기준으로 하고, 임의의 사용자의 프라이버시 정보를 획득할 필요가 없고, 사용자 프라이버시를 잘 보호하는 전제 하에서, 후속에 "인기 장소"를 베이스로 하는 개성화에 기초를 제공할 수 있다. 유동량이 큰 장소에 대한 음성 인식의 최적화를 중점적으로 구현하고, 다수의 사용자의 요구를 더 쉽게 만족할 수 있다.
또한, 의학류 응용 분야를 예로 들면, 유동량 (예를 들어, 검색량, 방문량, 뉴스에서 키워드로 하는 출현량 등)에 기반하여 통계한 후, 유동량이 미리 설정된 유동량 역치를 넘는 인기병 또는 약품을 획득할 수 있다. 예를 들어, 메바코, 휴미라, 세레타이드 등이다.
또한, 엔터테인먼트류 응용 분야를 예로 들면, 유동량 (예를 들어, 검색량, 방문량, 뉴스에서 키워드로 하는 출현량 등)에 기반하여 통계한 후, 유동량이 미리 설정된 유동량 역치를 넘는 인기 프로그램, 인기 스타, 인기 이벤트 등을 획득할 수 있다. 예를 들어, 매일, 매주, 매월 등의 엔터테인먼트의 핫 워드 순위로부터 상술한 인기 엔티티를 획득할 수 있다.
또한, 바람직한 실시 형태로서, 상술한 인기 엔티티 리스트를 트리 구조로 저장하여, 엔티티 리소스 트리를 획득할 수 있다. 그 중, 엔티티 리소스 트리에서, 각 노드는 인기 엔티티 내의 워드이며, 노드 사이의 에지는 워드 사이의 순서 관계이며, 또한, 본 발명의 후보 인식 결과에 대해 수행하는 유사도 채점은, 발음 유사도에 기반한 것이기 때문에, 엔티티 리소스 트리에 각 노드의 발음이 라벨링되어 있다.
간단한 예를 제시하면, 인기 장소 리스트에 하기의 인기 장소 "
Figure pat00005
", "
Figure pat00006
", 및 "
Figure pat00007
"가 존재한다고 가정하면, 형성된 엔티티 리소스 트리는 도 4a에 도시된다. 엔티티 리소스 트리에서의 각 노드에 대한 발음 라벨링은, 병음 형식을 사용한다. 병음 이외에, 다른 발음 라벨링 방식을 사용할 수도 있고, 여기에서는 제한하지 않는다.
상술한 엔티티 리소스 트리로부터 알 수 있는 것은, 같은 프리픽스의 엔티티에 대해, 실제로 같은 프리픽스 부분에 대해 한 번만 저장하면 되고, 즉 프리픽스를 결합하여, 메모리를 절약한다. 또한, 트리 구조는, 쿼리 매칭을 하는 프로세스에서 더 신속히 응답할 수 있다.
위에서 형성된 엔티티 리소스 트리에 대해, 서버 측 또는 클라우드 측에서 로딩할 때, 이를 미리 설정된 범위 내의 사용자 음성 인식에 작용할 수 있다. 예를 들어, 장소 리소스 트리에 대해, 거리가 장소에서 미리 설정된 거리 범위(예를 들어, 5km) 내의 사용자의 음성 인식에 작용할 수 있다.
바람직한 실시 형태로서, N개의 후보 인식 결과를 채점할 때, 하기의 2단계의 채점법을 사용하여 각 후보 인식 결과를 각각 채점 할 수 있고,
제1 단계는, 유사도를 미리 판정한다. 후보 인식 결과를 엔티티 리소스 퍼지 트리에서 매칭하고, 매칭할 수 없을 경우, 상기 후보 인식 결과의 유사도 점수를 0으로 직접 결정할 수 있고, 매칭할 수 있을 경우, 제2 단계 채점 처리를 계속 수행할 수 있다.
그 중, 엔티티 리소스 퍼지 트리는 엔티티 리소스 트리를 확장한 후에 획득된다. 확장 방식은, 엔티티 리소스 트리에서 위에서 노드의 유사한 발음을 확장하여 라벨링 하고, 상기 유사한 발음의 확장은, 주로 미리 설정된 규칙에 기반한다. 실제로 노드의 라벨링 발음에 대해 "퍼지" 처리를 하고, 유사한 발음을 매칭할 때에 미세한 차이를 허용할 수 있다. 상술한 미리 설정된 규칙은, 주로, 앞뒤 비음의 확장, 성조의 확장, 성운모의 확장 등을 포함한다.
여전히, 도 4a를 예로 들면, 일부 사용자의 발음은, 앞뒤 비음 상에서 정확하게 파악할 수 없는 가능성이 있기 때문에, "京"에 라벨링된 발음을 "jin"으로 확장할 수 있다. 또한, 예를 들어, 일부 사용자의 발음은, 성모 또는 운모에서 정확하게 파악할 수 없는 가능성이 있으며, 예를 들어, "l"와 "n"을 구별하지 못하므로, "
Figure pat00008
"에 라벨링된 발음을 "nou"로 확장할 수 있다. 예를 들어, "ou"와 "ong"를 구별하지 못하므로, "
Figure pat00009
"에 라벨링된 발음을 "long"로 확장할 수 있다. 또한, 예를 들어, 일부 사용자는, 일부 워드의 인지에 차이가 존재할 가능성이 있으므로, 많은 사용자는, "
Figure pat00010
"를 "xia"로 읽으므로, "
Figure pat00011
"에 라벨링된 발음을 "xia"로 확장할 수 있다. 이러면, 도 4b에 도시된 엔티티 리소스 퍼지 트리를 확장한다.
후보 인식 결과에 대해, 예를 들어, "
Figure pat00012
로 네비게이션", "
Figure pat00013
로 네비게이션", 및 "
Figure pat00014
로 네비게이션"이다. 상술한 엔티티 리소스 퍼지 트리와 매칭한 후, "
Figure pat00015
로 네비게이션", 및 "
Figure pat00016
로 네비게이션"은, 모두 엔티티 리소스 퍼지 트리에서 발음에 기반하여 매칭할 수 있고, "
Figure pat00017
로 네비게이션"은, 엔티티 리소스 퍼지 트리에서 발음에 기반하여 매칭할 수 없다. 따라서, "
Figure pat00018
로 네비게이션"의 유사도 점수를 0으로 결정할 수 있고, "
Figure pat00019
로 네비게이션", 및 "
Figure pat00020
로 네비게이션"은, 제2 단계 채점 처리에 송신한다.
제2 단계는, 유사도 계산 모델을 사용하여 채점한다. 유사도 계산 모델을 사용하여 후보 인식 결과와 매칭된 인기 엔티티의 발음 유사도의 최대값을 계산하고, 상기 최대값을 후보 인식 결과의 유사도 점수로 한다.
상술한 예를 계속하여, 후보 인식 결과 "
Figure pat00021
로 네비게이션"과 "
Figure pat00022
로 네비게이션"에 대해 제2 단계 채점을 각각 수행한다.
"
Figure pat00023
로 네비게이션"을 예로 들면, 엔티티 리소스 퍼지 트리에서 매칭하여 2개의 인기 엔티티를 획득하고, 1개는 "
Figure pat00024
"이며, 다른 하나는 "
Figure pat00025
"라고 가정한다. 유사도 계산 모델을 사용하여 후보 인식 결과와 매칭하여 획득한 2개의 인기 엔티티의 발음 유사도를 계산하고, "
Figure pat00026
로 네비게이션"은, "
Figure pat00027
"의 발음 유사도와 100%이며, "
Figure pat00028
"와의 발음 유사도가 60%이며, 이러면, 최대값 100%에 기반하여 상기 후보 인식 결과 "
Figure pat00029
로 네비게이션"의 유사도 점수가 100점 (100분위수제를 가정한다)인 것을 결정한다. 같은 방식에 기반하여 "
Figure pat00030
로 네비게이션"에 대해 그의 유사도 점수를 결정할 수도 있다.
유사도 계산 모델을 통해, 실제로 발음 유사도가 정확하게 계산되고, 상기 유사도 계산 모델은 모든 인기 엔티티의 공통 모델이다.
유사도 계산 모델은 임의의 2개의 텍스트 사이의 발음 유사도를 계산할 수 있는 모델을 사용할 수 있다. 발음이 유사한 것과 유사하지 않는 인기 장소 페어 (2개의 인기 장소를 포함한다)에 대해 발음 유사도 점수의 라벨링을 미리 수행하여, 트레이닝 데이터로 하여 트레이닝 유사도 모델을 계산할 수도 있다.
상술한 2단계의 채점 모드를 통해, 제1 단계 유사도의 미리 판정 프로세스에서 매칭 할 수 없을 경우, 후속의 유사도 계산 모델에 기반한 채점을 수행하지 않으므로, 유사도 계산 모델의 계산 회수를 줄인다. 그러나, 한 단계의 채점 모드만을 사용하고, 즉 제1 단계 채점을 수행하지 않고, 각 후보 인식 결과에 대해 상술한 제2 단계 유사도 계산 모델에 기반한 채점을 직접 수행하고, 즉 유사도 계산 모델을 직접 사용하여 후보 인식 결과와 각 인기 엔티티의 발음 유사도의 최대값을 계산하고, 상기 최대값에 기반하여 후보 인식 결과의 유사도 점수를 결정하는 것으로, 구현할 수도 있다. 하지만, 2단계의 채점 모드보다 효율적으로 못하다.
또한, 제2 단계 채점 프로세스에서, 단지, 제1 단계 유사도를 통해 미리 판정된 후보 인식 결과와 제1 단계 유사도의 미리 판정 프로세스에서 퍼지 매칭하여 획득한 일부 인기 엔티티를 계산하면 된다. 따라서, 원래의 후보 인식 결과와 전부의 인기 엔티티에 대해 유사도 계산을 수행할 필요가 있는 프로세스를, 상기 일부 인기 엔티티만과 유사도 계산을 수행하는 프로세스로 간략화하므로, 계산량을 크게 줄인다.
하기는, 상술한 단계 303, 즉 "후보 인식 결과의 인식 점수와 유사도 점수를 종합하여, 상술한 N개의 후보 인식 결과로부터 인식할 음성에 대응하는 인식 결과를 결정한다"를 상세히 설명한다.
본 단계에서, 후보 인식 결과의 인식 점수와 유사도 점수를 가중치 합산하여, N개의 후보 인식 결과의 최종 점수를 획득하고, 그 다음에, 최종 점수를 사용하여 인식할 음성에 대응하는 인식 결과를 결정할 수 있다.
그 중, 상술한 가중치 합산 처리를 할 때에 사용되는 무게는, 경험값일 수 있고, 실험값일 수도 있다.
최종 점수를 사용하여 인식할 음성에 대응하는 인식 결과를 결정할 때, 1개의 인식 결과만을 출력했을 경우, 최종 점수가 가장 높은 후보 인식 결과를 인식할 음성에 대응하는 인식 결과로 할 수 있다. M개의 인식 결과를 출력할 수 있을 경우, 최종 점수의 순서에 따라 상위 M개에 배열된 인식 결과를 출력할 수 있고, M≤N이다.
상술한 예를 계속하여, 단계 301에서, 음성 인식 모델에 의해 획득된 인식 점수가 상위 3개인 인식 결과: "
Figure pat00031
로 네비게이션", 및 "
Figure pat00032
로 네비게이션"은, 모두 엔티티 리소스 퍼지 트리에서 발음에 기반하여 매칭할 수 있고, "
Figure pat00033
로 네비게이션"은 발음 유사도에 기반한 채점을 경과한 후, "
Figure pat00034
로 네비게이션"이 인기 장소 리스트 내의 장소 "
Figure pat00035
"와 발음상에서 유사도가 가장 높기 때문에, "
Figure pat00036
로 네비게이션"에 대한 유사도 점수는, "
Figure pat00037
로 네비게이션"과 "
Figure pat00038
로 네비게이션"보다 현저히 높다. 이러면, 인식 점수와 유사도 점수에 대해 가중치 합산을 한 후, "
Figure pat00039
로 네비게이션"의 최종 점수가 높아지므로, 최종적으로 획득된 인식 결과의 정밀도를 향상시킨다.
도 5에 도시된 바와 같이, 유사도 채점 유닛(상술한 발음 유사도에 기반한 채점을 수행하는데 사용된다)은, 음성 인식 프로세스에서 디코더의 처리 프로세스에 대해 개입하지 않고, 디코더에 의해 출력된 후보 인식 결과에 대해 최종 점수의 조정을 한다.
이상은 본 발명에 의해 제공되는 방법에 대해 수행하는 상세한 설명이며, 하기는 실시예를 결합하여 본 발명에 의해 제공되는 장치를 상세히 설명한다.
도 6은 본 발명의 실시예에 의해 제공되는 음성 인식 장치의 구조도이다. 도 6에 도시된 바와 같이, 상기 장치(600)는 후보 획득 유닛(601), 유사도 채점 유닛(602), 및 결과 결정 유닛(603)을 포함할 수 있고, 엔티티 통계 유닛(604), 리소스 저장 유닛(605), 및 리소스 로딩 유닛(606)을 더 포함할 수 있다. 각 구성 유닛의 주요 기능은 다음과 같다.
후보 획득 유닛(601)은, 음성 인식 모델이 인식할 음성에 대해 출력한 인식 점수의 상위 N개의 후보 인식 결과를 획득하는데 사용되고, N은 1보다 큰 양의 정수이다.
유사도 채점 유닛(602)은, 후보 인식 결과와 미리 수집된 인기 엔티티의 발음 유사도에 기반하여, N개의 후보 인식 결과를 각각 채점하여, 각 후보 인식 결과의 유사도 점수를 획득하는데 사용된다.
결과 결정 유닛(603)은, 후보 인식 결과의 인식 점수와 유사도 점수를 종합하여, N개의 후보 인식 결과로부터 인식할 음성에 대응하는 인식 결과를 결정하는데 사용된다.
엔티티 통계 유닛(604)은, 사전에 유동량에 기반하여 인기 엔티티를 통계하여, 인기 엔티티 리스트를 생성하는데 사용된다.
리소스 저장 유닛(605)은, 인기 엔티티 리스트를 트리 구조로 저장하여, 엔티티 리소스 트리를 획득하는데 사용되고, 엔티티 리소스 트리 내의 노드는 인기 엔티티 내의 워드이며, 노드 사이의 에지는 워드 사이의 순서 관계이며, 엔티티 리소스 트리에 각 노드의 발음이 라벨링되어 있다.
리소스 로딩 유닛(606)은, 엔티티 리소스 트리를 로딩하여 미리 설정된 범위 내의 사용자 음성 인식에 적용하는데 사용된다.
구현 가능한 방식으로서, 상술한 유사도 채점 유닛(602)은, N개의 후보 인식 결과에 대해 하기의 내용을 각각 수행할 수 있고, 상기 내용은, 유사도 계산 모델을 사용하여 후보 인식 결과와 각 인기 엔티티의 발음 유사도의 최대값을 계산하고, 상기 최대값을 상기 후보 인식 결과의 유사도 점수로 한다.
바람직한 실시 형태로서, 상술한 유사도 채점 유닛(602)은, N개의 후보 인식 결과에 대해 하기의 내용을 각각 수행할 수 있고, 상기 내용은,
후보 인식 결과를 엔티티 리소스 퍼지 트리에서 매칭하고, 엔티티 리소스 퍼지 트리는 엔티티 리소스 트리에서 각 노드의 유사한 발음을 확장하여 라벨링하는 것을 통해 획득하고,
매칭될 경우, 유사도 계산 모델을 사용하여 상기 후보 인식 결과와 매칭된 인기 엔티티의 발음 유사도의 최대값을 계산하고, 상기 최대값에 기반하여 상기 후보 인식 결과의 유사도 점수를 결정하고, 매칭되지 않을 경우, 상기 후보 인식 결과의 유사도 점수를 0으로 결정한다.
구현 가능한 방식으로서, 상술한 결과 결정 유닛(603)은, 후보 인식 결과의 인식 점수와 엔티티 점수에 대해 가중치 합산을 하고, N개의 후보 인식 결과의 최종 점수를 획득하고, 최종 점수를 사용하여 인식할 음성에 대응하는 인식 결과를 결정할 수 있다.
그 중에 1개가 전형적인 응용 시나리오로서, 인기 엔티티는 유동량에 기반하여 통계된 인기 관심 포인트(POI) 또는 인기 장소를 포함할 수 있다.
이 이외, 다른 시나리오에 적용될 수도 있고, 예를 들어, 의학류 분야의 인기 질병, 인기 약품, 엔터테인먼트류 분야의 핫 검색 이벤트, 인기 스타, 인기 프로그램 등이다.
본 명세서의 각 실시예는, 모두 점진적인 방식을 사용하여 설명하고, 각 실시예 사이의 동일하고 유사한 부분은 서로 참조할 수 있고, 각 실시예는 모두 다른 실시예와의 차이를 중점적으로 설명한다. 특히, 장치의 실시예는 방법의 실시예와 기본적으로 유사하므로, 설명은 비교적 간단하고, 관련되는 부분은 방법의 실시예의 일부 설명을 참조하면 된다.
본 발명의 실시예에 따르면, 본 발명은 또한, 전자 기기, 판독 가능 기록 매체 및 컴퓨터 프로그램 제품을 제공한다.
도 7에 도시된 바와 같이, 본 발명의 실시예에 따른 데이터 처리 방법의 전자 기기의 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 운영 플랫폼, 개인 디지털 비서, 서버, 블레이드 서버, 대형 컴퓨터, 및 다른 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 의미한다. 전자 기기는 개인 디지털 처리, 셀룰러폰, 스마트폰, 웨어러블 기기 및 다른 유사한 계산 장치와 같은 다양한 형태의 이동 장치를 의미할 수도 있다. 본문에서 나타낸 부재, 이들의 연결과 관계, 및 이들의 기능은 단지 예시적인 것으로, 본문에서 설명 및/또는 요구된 본 발명의 구현을 한정하지 않는다.
도 7에 도시된 바와 같이, 기기(700)는 컴퓨팅 유닛(701)을 포함하고, 컴퓨팅 유닛(701)은 판독 전용 메모리(ROM)(702)에 저장되어 있는 컴퓨터 프로그램 또는 저장 유닛(708)으로부터 랜덤 액세스 메모리(RAM)(703)에 로드된 컴퓨터 프로그램에 따라, 다양한 적절한 동작과 처리를 실행할 수 있다. RAM(703)에는 기기(700)가 동작하는데 필요한 여러가지 프로그램과 데이터도 저장할 수 있다. 컴퓨팅 유닛(701), ROM(702) 및 RAM(703)는 버스(704)를 통해 서로 연결된다. 입력/출력 (I/O) 인터페이스(705)도 버스(704)에 연결된다.
기기(700) 중의 복수 컴포넌트는 I/O 인터페이스(705)에 연결되고, 키보드, 마우스 등과 같은 입력 유닛(706); 여러가지 타입의 디스플레이, 스피커 등과 같은 출력 유닛(707); 디스크, 광디스크 등과 같은 저장 유닛(708) 및 네트워크 카드, 모뎀, 무선통신 트랜시버 등과 같은 통신 유닛(709)을 포함한다. 통신 유닛(709)은 기기(700)가 인터넷 등과 같은 컴퓨터 네트워크 및 여러가지 통신 네트워크 중의 적어도 하나를 통해 다른 기기와 정보/데이터를 교환할 수 있다.
컴퓨팅 유닛(301)은 여러가지 처리와 계산 능력을 갖춘 범용 처리 컴포넌트 및 전용 처리 컴포넌트 중의 적어도 하나일 수 있다. 컴퓨팅 유닛(701)의 일부 예는, 중앙 처리 유닛(CPU), 그래픽스 처리 유닛(GPU), 다양한 전용 인공지능(AI) 계산 팁, 다양한 기계학습 모델 알고리즘을 실행하는 컴퓨팅 유닛, 디지털 신호 프로세서(DSP) 및 임의의 적절한 프로세서, 컨트롤러, 마이크로 컨트롤러 등을 포함하지만, 이에 한정되지 않는다. 컴퓨팅 유닛(701)은 데이터 처리 방법 등과 같은 상기의 다양한 방법과 처리를 실행한다. 예를 들면, 일부 실시예에서, 데이터 처리 방법은 저장 유닛(708) 등과 같은 기계 판독 가능 매체에 유형적으로 포함되는 컴퓨터 소프트웨어 프로그램으로 구현할 수 있다.
일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(702) 및 통신 유닛(709) 중의 적어도 하나를 통해 기기(700)에 로드 및/또는 인스톨될 수 있다. 컴퓨터 프로그램이 RAM(703)에 로드되어 컴퓨팅 유닛(701)에 의해 실행될 경우, 상기의 데이터 처리 방법의 하나 또는 복수의 단계를 실행할 수 있다. 대안적으로, 다른 실시예에서, 컴퓨팅 유닛(701)은 다른 임의의 적절한 방식(예를 들면, 펌웨어에 의해)을 통해 데이터 처리 방법을 실행하도록 구성될 수 있다.
설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 필드 프로그래밍 가능한 게이트 어레이(FPGA), 특정 용도 대상 집적 회로(ASIC), 특정 용도 대상 표준제품(ASSP), 시스템 온 칩 시스템(SOC), 부하 프로그래밍 가능 논리 장치(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 결합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 다수의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 또는 다수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치, 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.
본 발명의 방법을 실시하기 위한 프로그램 코드는 하나 또는 복수의 프로그래밍 언어의 임의의 결합을 사용하여 작성할 수 있다. 이러한 프로그램 코드는 프로그램 코드가 프로세서 또는 컨트롤러에 의해 실행될 때 흐름도 및 블록도 중의 적어도 하나에 규정된 기능/동작이 실행되도록, 대형 기계(슈퍼 컴퓨터), 전용 컴퓨터 또는 다른 프로그램 가능한 데이터 처리 장치의 프로세서 또는 컨트롤러에 제공할 수 있다. 프로그램 코드는 완전히 기계에서 실행되거나, 부분적으로 기계에서 실행되거나, 독립된 소프트웨어 패키지로서 부분적으로 기계에서 실행되고, 부분적으로 리모트 기계에서 실행되거나 또는 완전히 리모트 기계 또는 서버에서 실행될 수 있다.
본 발명의 문맥에서, 기계 판독 가능 매체는 명령 실행 시스템, 장치 또는 기기의 사용, 또는 명령 실행 시스템, 장치 또는 기기와 결합하여 사용되는 프로그램을 포함하거나 저장할 수 있는 유형적인 매체일 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 기록 매체일 수 있다. 기계 판독 가능 매체는 전자, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템, 장치 또는 기기, 또는 상술한 내용의 임의의 적절한 결합을 포함하지만, 이에 한정되지 않는다. 기계 판독 가능 기록 매체의 더 구체적인 예는 하나 또는 복수의 와이어에 기반한 전기 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그래머블 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 포터블 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 장치, 자기 저장 장치 또는 상술한 내용의 임의의 적절한 결합을 포함한다.
사용자와의 인터랙션을 제공하기 위하여, 컴퓨터에서 여기서 설명된 시스템 및 기술을 실시할 수 있고, 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시 장치) 모니터); 및 키보드 및 지향 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하며, 사용자는 상기 키보드 및 상기 지향 장치를 통해 컴퓨터에 입력을 제공한다. 다른 타입의 장치는 또한 사용자와의 인터랙션을 제공할 수 있는데, 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 감지 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있고; 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력)로 사용자로부터의 입력을 수신할 수 있다.
여기서 설명된 시스템 및 기술은 백엔드 부재를 포함하는 계산 시스템(예를 들어, 데이터 서버로 사용됨), 또는 미들웨어 부재를 포함하는 계산 시스템(예를 들어, 애플리케이션 서버), 또는 프론트 엔드 부재를 포함하는 계산 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비하는 사용자 컴퓨터인 바, 사용자는 상기 그래픽 사용자 인터페이스 또는 상기 네트워크 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백엔드 부재, 미들웨어 부재, 또는 프론트 엔드 부재의 임의의 결합을 포함하는 계산 시스템에서 구현될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예는, 근거리 통신망(LAN), 광역망(WAN), 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고 일반적으로 통신 네트워크를 통해 서로 인터랙션한다. 대응되는 컴퓨터에서 실행되고 또한 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다. 서버는 클라우드 서버일 수 있고, 클라우드 계산 또는 클라우드 호스트일 수도 있으며, 클라우드 계산 서비스 시스템 중의 하나의 호스트 제품일 수 있어, 종래의 물리 호스트와 가상 전용 서버(Virtual Private Server) 서비스에 존재하는 관리 곤란도가 높고, 업무 확장성이 약한 것을 해결한다. 서버는 분산 시스템의 서버일 수 있거나, 또는 블록 체인을 결합한 서버일 수도 있다.
위에서 설명된 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 발명에 기재된 각 단계는 동시에, 순차적으로, 또는 상이한 순서로 수행될 수 있으며, 본 발명에 개시된 기술적 해결수단이 이루고자 하는 결과를 구현할 수 있는 한, 본문은 여기서 한정되지 않는다.
상기 구체적인 실시형태는 본 발명의 보호 범위를 한정하지 않는다. 본 기술분야의 통상의 기술자는, 설계 요구 및 다른 요소에 따라 다양한 수정, 결합, 서브 결합 및 대체를 진행할 수 있음을 이해해야 한다. 본 발명의 정신 및 원칙 내에서 이루어진 임의의 수정, 등가 교체 및 개선 등은 모두 본 발명의 보호 범위 내에 포함되어야 한다.

Claims (19)

  1. 음성 인식 방법(speech recognition method)에 있어서,
    음성 인식 모델이 인식할 음성에 대해 출력한 인식 점수의 상위 N개의 후보 인식 결과를 획득하는 단계 - 상기 N은 1보다 큰 양의 정수임 -;
    후보 인식 결과와 미리 수집된 인기 엔티티 사이의 발음 유사도에 기반하여, 상기 N개의 후보 인식 결과를 각각 채점하여, 각각의 후보 인식 결과의 유사도 점수를 획득하는 단계; 및
    상기 후보 인식 결과의 인식 점수와 유사도 점수를 종합하여, 상기 N개의 후보 인식 결과로부터 상기 인식할 음성에 대응하는 인식 결과를 결정하는 단계;를 포함하는,
    음성 인식 방법.
  2. 제1항에 있어서,
    사전에 유동량(traffic)에 기반하여 인기 엔티티를 통계하여, 인기 엔티티 리스트를 생성하는 단계를 더 포함하는,
    음성 인식 방법.
  3. 제2항에 있어서,
    상기 인기 엔티티 리스트를 트리 구조로 저장하여, 엔티티 리소스 트리를 획득하는 단계를 더 포함하고,
    상기 엔티티 리소스 트리 내의 노드는 인기 엔티티 내의 워드이며,
    노드 사이의 에지는 워드 사이의 순서 관계이며,
    상기 엔티티 리소스 트리에 각 노드의 발음이 라벨링되어 있는,
    음성 인식 방법.
  4. 제3항에 있어서,
    상기 엔티티 리소스 트리를 로딩하여 미리 설정된 범위 내의 사용자 음성 인식에 적용하는 단계를 더 포함하는,
    음성 인식 방법.
  5. 제2항에 있어서,
    상기 후보 인식 결과와 미리 수집된 인기 엔티티 사이의 발음 유사도에 기반하여, 상기 N개의 후보 인식 결과를 각각 채점하여, 각각의 후보 인식 결과의 유사도 점수를 획득하는 단계는,
    상기 N개의 후보 인식 결과에 대해: 하기 단계를 각각 수행하는,
    음성 인식 방법:
    유사도 계산 모델을 사용하여 후보 인식 결과와 각각의 인기 엔티티의 발음 유사도의 최대값을 계산하고, 상기 최대값에 기반하여 상기 후보 인식 결과의 유사도 점수를 결정하는 단계.
  6. 제3항에 있어서,
    상기 후보 인식 결과와 미리 수집된 인기 엔티티 사이의 발음 유사도에 기반하여, 상기 N개의 후보 인식 결과를 각각 채점하여, 각각의 후보 인식 결과의 유사도 점수를 획득하는 단계는,
    상기 N개의 후보 인식 결과에 대해: 하기 단계들을 각각 수행하는,
    음성 인식 방법:
    후보 인식 결과를 엔티티 리소스 퍼지 트리에서 매칭하는 단계-상기 엔티티 리소스 퍼지 트리는 상기 엔티티 리소스 트리에서 각 노드의 유사한 발음을 확장하여 라벨링하는 것을 통해 획득함-;
    매칭될 경우, 유사도 계산 모델을 사용하여 상기 후보 인식 결과와 매칭된 인기 엔티티의 발음 유사도의 최대값을 계산하고, 상기 최대값에 기반하여 상기 후보 인식 결과의 유사도 점수를 결정하고, 매칭되지 않을 경우, 상기 후보 인식 결과의 유사도 점수를 0으로 결정하는 단계.
  7. 제1항에 있어서,
    상기 후보 인식 결과의 인식 점수와 유사도 점수를 종합하여, 상기 N개의 후보 인식 결과로부터 상기 인식할 음성에 대응하는 인식 결과를 결정하는 단계는,
    상기 후보 인식 결과의 인식 점수와 유사도 점수를 가중치 합산하여, 상기 N개의 후보 인식 결과의 최종 점수를 획득하는 단계; 및
    상기 최종 점수를 사용하여 상기 인식할 음성에 대응하는 인식 결과를 결정하는 단계;를 포함하는,
    음성 인식 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 인기 엔티티는 유동량에 기반하여 통계된 인기 관심 포인트(POI) 또는 인기 장소를 포함하는,
    음성 인식 방법.
  9. 음성 인식 장치(speech recognition device)에 있어서,
    음성 인식 모델이 인식할 음성에 대해 출력한 인식 점수의 상위 N개의 후보 인식 결과를 획득하기 위한 후보 획득 유닛 - 상기 N은 1보다 큰 양의 정수임 -;
    상기 후보 인식 결과와 미리 수집된 인기 엔티티 사이의 발음 유사도에 기반하여, 상기 N개의 후보 인식 결과를 각각 채점하여, 각각의 후보 인식 결과의 유사도 점수를 획득하기 위한 유사도 채점 유닛; 및
    상기 후보 인식 결과의 인식 점수와 유사도 점수를 종합하여, 상기 N개의 후보 인식 결과로부터 상기 인식할 음성에 대응하는 인식 결과를 결정하기 위한 결과 결정 유닛;을 포함하는,
    음성 인식 장치.
  10. 제9항에 있어서,
    사전에 유동량(traffic)에 기반하여 상기 인기 엔티티를 통계하여, 인기 엔티티 리스트를 생성하기 위한 엔티티 통계 유닛을 더 포함하는,
    음성 인식 장치.
  11. 제10항에 있어서,
    상기 인기 엔티티 리스트를 트리 구조로 저장하여, 엔티티 리소스 트리를 획득하기 위한 리소스 저장 유닛을 더 포함하고,
    상기 엔티티 리소스 트리 내의 노드는 인기 엔티티 내의 워드이며,
    노드 사이의 에지는 워드 사이의 순서 관계이며,
    상기 엔티티 리소스 트리에 각 노드의 발음이 라벨링되어 있는,
    음성 인식 장치.
  12. 제10항에 있어서,
    엔티티 리소스 트리를 로딩하여 미리 설정된 범위 내의 사용자 음성 인식에 적용하기 위한 리소스 로딩 유닛을 더 포함하는,
    음성 인식 장치.
  13. 제10항에 있어서,
    상기 유사도 채점 유닛은 구체적으로, 각각의 상기 N개의 후보 인식 결과에 대해:
    유사도 계산 모델을 사용하여 후보 인식 결과와 각 인기 엔티티의 발음 유사도의 최대값을 계산하고, 상기 최대값에 기반하여 상기 후보 인식 결과의 유사도 점수를 결정하는데 사용되는,
    음성 인식 장치.
  14. 제11항에 있어서,
    상기 유사도 채점 유닛은 구체적으로, 각각의 상기 N개의 후보 인식 결과에 대해:
    후보 인식 결과를 엔티티 리소스 퍼지 트리에서 매칭하고, 상기 엔티티 리소스 퍼지 트리는 상기 엔티티 리소스 트리에서 각 노드의 유사한 발음을 확장하여 라벨링하는 것을 통해 획득하고,
    매칭될 경우, 유사도 계산 모델을 사용하여 상기 후보 인식 결과와 매칭된 인기 엔티티의 발음 유사도의 최대값을 계산하고, 상기 최대값에 기반하여 풍작 상기 후보 인식 결과의 유사도 점수를 결정하고, 매칭되지 않을 경우, 상기 후보 인식 결과의 유사도 점수를 0으로 결정하는데 사용되는,
    음성 인식 장치.
  15. 제9항에 있어서,
    상기 결과 결정 유닛은 구체적으로, 상기 후보 인식 결과의 인식 점수와 엔티티 점수를 가중치 합산하여, 상기 N개의 후보 인식 결과의 최종 점수를 획득하고, 상기 최종 점수를 사용하여 상기 인식할 음성에 대응하는 인식 결과를 결정하는데 사용되는,
    음성 인식 장치.
  16. 제9항 내지 제15항 중 어느 한 항에 있어서,
    상기 인기 엔티티는 유동량에 기반하여 통계된 인기 관심 포인트(POI) 또는 인기 장소를 포함하는,
    음성 인식 장치.
  17. 전자 기기에 있어서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서에 통신 연결되는 메모리;를 포함하고,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서에 의해 제1항 내지 제8항 중 어느 한 항의 방법이 수행되도록 하는,
    전자 기기.
  18. 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 기록 매체에 있어서,
    상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제8항 중 어느 한 항의 방법을 수행하도록 하는,
    비일시적 컴퓨터 판독 가능 기록 매체.
  19. 비일시적 컴퓨터 판독 가능 기록 매체에 저장되어 있는 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램은 상기 컴퓨터가 제1항 내지 제8항 중 어느 한 항의 방법을 수행하도록 하는,
    비일시적 컴퓨터 판독 가능 기록 매체에 저장되어 있는 컴퓨터 프로그램.
KR1020220026581A 2021-04-12 2022-03-02 음성 인식 방법 및 장치 KR20220141225A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110390219.7A CN113223516B (zh) 2021-04-12 2021-04-12 语音识别方法和装置
CN202110390219.7 2021-04-12

Publications (1)

Publication Number Publication Date
KR20220141225A true KR20220141225A (ko) 2022-10-19

Family

ID=77087115

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220026581A KR20220141225A (ko) 2021-04-12 2022-03-02 음성 인식 방법 및 장치

Country Status (5)

Country Link
US (1) US20220328040A1 (ko)
EP (1) EP4075424B1 (ko)
JP (1) JP7362996B2 (ko)
KR (1) KR20220141225A (ko)
CN (1) CN113223516B (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115547337B (zh) * 2022-11-25 2023-03-03 深圳市人马互动科技有限公司 语音识别方法及相关产品

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1189203B1 (en) * 2000-09-18 2006-05-17 L & H Holdings USA, Inc. Homophone selection in speech recognition
JP2004219693A (ja) * 2003-01-15 2004-08-05 Sharp Corp 音声認識装置、音声認識方法、音声認識プログラム、および、プログラム記録媒体
US7747437B2 (en) * 2004-12-16 2010-06-29 Nuance Communications, Inc. N-best list rescoring in speech recognition
WO2011071484A1 (en) * 2009-12-08 2011-06-16 Nuance Communications, Inc. Guest speaker robust adapted speech recognition
EP2700071B1 (en) * 2011-04-20 2014-12-24 Robert Bosch GmbH Speech recognition using multiple language models
US8521539B1 (en) * 2012-03-26 2013-08-27 Nuance Communications, Inc. Method for chinese point-of-interest search
US9047868B1 (en) * 2012-07-31 2015-06-02 Amazon Technologies, Inc. Language model data collection
US9190057B2 (en) * 2012-12-12 2015-11-17 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
JP2014119536A (ja) * 2012-12-14 2014-06-30 Jvc Kenwood Corp 音認識装置
US20180349380A1 (en) * 2015-09-22 2018-12-06 Nuance Communications, Inc. Systems and methods for point-of-interest recognition
CN106776763B (zh) * 2016-11-22 2019-12-06 北京云知声信息技术有限公司 目的地搜索方法及装置
US10388272B1 (en) * 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
CN110099246A (zh) * 2019-02-18 2019-08-06 深度好奇(北京)科技有限公司 监控调度方法、装置、计算机设备及存储介质
CN110310631A (zh) * 2019-06-28 2019-10-08 北京百度网讯科技有限公司 语音识别方法、装置、服务器和存储介质
US11494434B2 (en) * 2019-07-31 2022-11-08 Rovi Guides, Inc. Systems and methods for managing voice queries using pronunciation information
KR20210060897A (ko) * 2019-11-19 2021-05-27 삼성전자주식회사 음성 처리 방법 및 장치

Also Published As

Publication number Publication date
US20220328040A1 (en) 2022-10-13
EP4075424B1 (en) 2023-05-24
CN113223516B (zh) 2022-11-29
CN113223516A (zh) 2021-08-06
EP4075424A1 (en) 2022-10-19
JP2022162525A (ja) 2022-10-24
JP7362996B2 (ja) 2023-10-18

Similar Documents

Publication Publication Date Title
WO2020182122A1 (zh) 用于生成文本匹配模型的方法和装置
US10650102B2 (en) Method and apparatus for generating parallel text in same language
CN112487173B (zh) 人机对话方法、设备和存储介质
KR20220034069A (ko) 모델 훈련 및 폰트 라이브러리 구축 방법, 장치, 설비 및 저장 매체
US10199036B2 (en) Method and device for implementing voice input
JP7351942B2 (ja) 分野フレーズマイニング方法、装置及び電子機器
CN113407850B (zh) 一种虚拟形象的确定和获取方法、装置以及电子设备
US20230004798A1 (en) Intent recognition model training and intent recognition method and apparatus
KR20210098880A (ko) 차량용 기기의 음성 처리 방법, 장치, 기기 및 저장 매체
KR20220064940A (ko) 음성 생성 방법, 장치, 전자기기 및 저장매체
CN113836314B (zh) 知识图谱构建方法、装置、设备以及存储介质
EP3992814A2 (en) Method and apparatus for generating user interest profile, electronic device and storage medium
CN117421398A (zh) 人机交互方法、装置、设备以及存储介质
KR20220141225A (ko) 음성 인식 방법 및 장치
CN113919424A (zh) 文本处理模型的训练、文本处理方法、装置、设备和介质
US20230141932A1 (en) Method and apparatus for question answering based on table, and electronic device
US20230085684A1 (en) Method of recommending data, electronic device, and medium
JP7372402B2 (ja) 音声合成方法、装置、電子機器及び記憶媒体
CN114758649B (zh) 一种语音识别方法、装置、设备和介质
JP2023078411A (ja) 情報処理方法、モデルトレーニング方法、装置、機器、媒体及びプログラム製品
US20230111511A1 (en) Intersection vertex height value acquisition method and apparatus, electronic device and storage medium
JP2022088586A (ja) 音声認識方法、音声認識装置、電子機器、記憶媒体コンピュータプログラム製品及びコンピュータプログラム
CN113223500B (zh) 语音识别方法、训练语音识别模型的方法及对应装置
CN113553413A (zh) 对话状态的生成方法、装置、电子设备和存储介质
JP2023514863A (ja) 情報を交換するための方法及び装置