KR102334299B1 - 음성 정보 처리 방법, 장치, 프로그램 및 저장 매체 - Google Patents

음성 정보 처리 방법, 장치, 프로그램 및 저장 매체 Download PDF

Info

Publication number
KR102334299B1
KR102334299B1 KR1020197032746A KR20197032746A KR102334299B1 KR 102334299 B1 KR102334299 B1 KR 102334299B1 KR 1020197032746 A KR1020197032746 A KR 1020197032746A KR 20197032746 A KR20197032746 A KR 20197032746A KR 102334299 B1 KR102334299 B1 KR 102334299B1
Authority
KR
South Korea
Prior art keywords
word
target word
phoneme
ambiguous
phoneme sequence
Prior art date
Application number
KR1020197032746A
Other languages
English (en)
Other versions
KR20210032875A (ko
Inventor
위 니우
홍위 왕
수에팡 우
Original Assignee
베이징 시아오미 모바일 소프트웨어 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 시아오미 모바일 소프트웨어 컴퍼니 리미티드 filed Critical 베이징 시아오미 모바일 소프트웨어 컴퍼니 리미티드
Publication of KR20210032875A publication Critical patent/KR20210032875A/ko
Application granted granted Critical
Publication of KR102334299B1 publication Critical patent/KR102334299B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K7/00Methods or arrangements for sensing record carriers, e.g. for reading patterns
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 음성 정보 처리 방법, 장치, 프로그램 및 저장 매체에 관한 것으로, 상기 방법은 음성 식별 기술에 기반하여, 수집된 음성 정보에 대응되는 텍스트 정보-상기 텍스트 정보는 단어를 포함함-를 확정하는 단계, 상기 텍스트 정보 중의 단어를 목표 단어로 하고, 상기 목표 단어에 대응되는 음소 시퀀스와 복수 개의 단어 및 각 단어에 대응되는 음소 시퀀스를 포함하는 미리 설정된 발음 사전에 따라, 상기 목표 단어에 대응되는 모호한 단어를 확정하는 단계, 및 상기 목표 단어와 상기 목표 단어에 대응되는 모호한 단어를 출력하는 단계를 포함한다. 본 발명의 기술 방안에 의해, 종래 음성 식별 기술에 존재하는 동음, 혼용되기 쉬운 발음 등의 단어에 대한 식별이 정확하지 않는 문제를 해결할 수 있으며, 사용자 체험을 향상시킨다.

Description

음성 정보 처리 방법, 장치, 프로그램 및 저장 매체
본 발명은 정보 기술분야에 관한 것으로, 특히 음성 정보 처리 방법, 장치, 프로그램 및 저장 매체에 관한 것이다.
정보 기술의 고속 발전에 따라, 음성 식별(Automatic Speech Recognition, ASR) 기술도 신속한 발전을 가져왔다. 음성 식별은 컴퓨터를 이용하여 음성에서 텍스트로의 자동 전환을 실현하는 종합적인 응용 기술이며, 신호처리, 모드 식별, 기계 학습, 수치 해석, 자연어 처리, 고성능 컴퓨팅 등을 포함하는 일련의 기초 학과를 집성한 우수한 성과이며, 기술분야, 학과를 걸치는 하나의 응용형 연구이고, 이미 언어학습 등 분야에서 광범하게 응용되고 있다.
일반적으로, 관련 기술에서의 음성 식별 기술은 통계적 패턴 인식의 알고리즘을 기반으로 수집된 음성 정보를 식별한다. 하지만, 언어 학습 등 기술분야에 있어서, 영문 등 언어에는 음이 동일한 단어, 발음이 쉽게 혼용될 수 있는 단어가 대량으로 존재하고, 이러한 단어들은 관련 기술의 음성 식별 기술로 정확히 식별하기 어렵다.
본 발명은 상기 관련 기술에 존재하고 있는 문제를 해결하기 위하여, 음성 정보 처리 방법, 장치, 프로그램 및 저장 매체를 제공한다.
본 발명의 실시예의 제 1 양태에 따르면,
음성 식별 기술에 기반하여, 수집된 음성 정보에 대응되는 텍스트 정보-상기 텍스트 정보는 단어를 포함함-를 확정하는 단계,
상기 텍스트 정보 중의 단어를 목표 단어로 하고, 상기 목표 단어에 대응되는 음소 시퀀스와 미리 설정된 발음 사전-상기 발음 사전은 복수 개의 단어와 각 단어에 대응하는 음소 시퀀스를 포함함-에 따라, 상기 목표 단어에 대응되는 모호한 단어를 확정하는 단계;및
상기 목표 단어와 상기 목표 단어에 대응되는 모호한 단어를 출력하는 단계를 포함하는 음성 정보 처리 방법을 제공한다.
선택적으로, 상기 목표 단어에 대응되는 음소 시퀀스와 미리 설정된 발음 사전에 따라 상기 목표 단어에 대응되는 모호한 단어를 확정하는 단계는,
상기 발음 사전의 단어에서 대응되는 음소 시퀀스가 상기 목표 단어에 대응되는 음소 시퀀스와 동일한 단어를 선취하여, 상기 목표 단어에 대응되는 모호한 단어로 한다.
선택적으로, 상기 목표 단어에 대응되는 음소 시퀀스와 미리 설정된 발음 사전에 따라, 상기 목표 단어에 대응되는 모호한 단어를 확정하는 단계는,
상기 목표 단어에 대응되는 음소 시퀀스가 제1 프리셋 타입의 음소를 포함하면, 상기 목표 단어에 대응되는 음소 시퀀스를 기준 시퀀스로 하고, 상기 발음 사전의 단어에서 대응되는 음소 시퀀스가 아래 조건을 만족하는 단어를 선취하여, 상기 목표 단어에 대응되는 모호한 단어로 하는 단계를 포함하고,
상기 조건은 대응되는 음소 시퀀스는 상기 제1 프리셋 타입의 음소를 포함하고, 상기 제1 프리셋 타입의 음소의 상기 음소 시퀀스에서의 위치가, 상기 기준 시퀀스 중 상기 제1 프리셋 타입의 음소의 상기 기준 시퀀스에서의 위치와 동일하고,
상기 음소 시퀀스에서 상기 제1 프리셋 타입의 음소를 제외한 음소로 구성된 제1음소 시퀀스가 상기 기준 시퀀스에서 상기 제1프리셋 타입의 음소를 제외한 음소로 구성된 제 2 음소 시퀀스와 동일하다.
선택적으로, 상기 목표 단어에 대응되는 음소 시퀀스와 미리 설정된 발음 사전에 따라, 상기 목표 단어에 대응되는 모호한 단어를 확정하는 단계는,
상기 목표 단어에 대응되는 음소 시퀀스의 첫 번째 음소와/또는 마지막 하나의 음소가 제 2 프리셋 타입의 음소이면, 상기 음소 시퀀스에서 상기 제 2 프리셋 타입의 음소를 제외한 음소를 새로운 음소 시퀀스로 취합하고, 상기 발음 사전의 단어에서, 대응되는 음소 시퀀스가 상기 새로운 음소 시퀀스와 동일한 단어를 선취하여 상기 목표 단어에 대응되는 모호한 단어로 한다.
선택적으로, 상기 목표 단어와 상기 목표 단어에 대응되는 모호한 단어를 출력하는 단계는,
미리 설정된 우선순위에 따라 상기 목표 단어에 대응되는 모호한 단어를 순서 배열하는 단계,
상기 목표 단어에 대응되는 모호한 단어의 수량이 미리 설정된 수량보다 많으면, 순서배열 결과에 따라, 상기 목표 단어에 대응되는 모든 모호한 단어에서 상기 미리 설정된 수량만큼 모호한 단어를 선별하고, 상기 목표 단어와 선별된 모호한 단어를 출력하는 단계, 및
상기 목표 단어에 대응되는 모호한 단어의 수량이 상기 미리 설정된 수량보다 적거나 동일하면, 상기 순서배열 결과에 따라 상기 목표 단어와 상기 목표 단어에 대응되는 모든 모호한 단어를 출력하는 단계를 포함한다.
본 발의 명의 실시예의 제 2 측면에 따르면,
음성 식별 기술을 기반으로, 수집된 음성 정보에 대응되는 텍스트 정보-상기 텍스트 정보는 단어를 포함함-를 확정하도록 구성된 제 1 확정 모듈,
상기 텍스트 정보 중의 단어를 목표 단어로 하고, 상기 목표 단어에 대응되는 음소 시퀀스와 미리 설정된 발음 사전-상기 발음 사전은 복수 개의 단어와 각 단어에 대응되는 음소 시퀀스를 포함함-에 따라, 상기 목표 단어에 대응되는 모호한 단어를 확정하도록 구성된 제2 확정 모듈, 및
상기 목표 단어와 상기 목표 단어에 대응되는 모호한 단어를 출력하도록 구성된 출력 모듈을 포함하는 음성 정보 처리 장치를 제공한다.
선택적으로, 상기 제2 확정 모듈은,
상기 발음 사전의 단어에서 대응되는 음소 시퀀스가 상기 목표 단어에 대응되는 음소 시퀀스와 동일한 단어를 선취하여, 상기 목표 단어에 대응되는 모호한 단어로 하도록 구성된 제 1 선취 서브 모듈을 포함한다.
선택적으로 상기 제2 확정 모듈은,
상기 목표 단어에 대응되는 음소 시퀀스가 제 1 프리셋 타입의 음소를 포함하면, 상기 목표 단어에 대응되는 음소 시퀀스를 기준 시퀀스로 하고, 상기 발음 사전의 단어에서 대응되는 음소 시퀀스가 아래 조건을 만족하는 단어를 선취하여 상기 목표 단어에 대응되는 모호한 단어로 하도록 구성된 제 2 선취 서브 모듈을 포함한다.
상기 조건은 대응되는 음소 시퀀스는 상기 제 1 프리셋 타입의 음소를 포함하고, 상기 제 1 프리셋 타입의 음소의 상기 음소 시퀀스에서의 위치가, 상기 기준 시퀀스 중 상기 제 1 프리셋 타입의 음소의 상기 기준 시퀀스에서의 위치와 동일하고,
상기 음소 시퀀스에서 상기 제 1 프리셋 타입의 음소를 제외한 음소로 구성된 제 1 음소 시퀀스가 상기 기준 시퀀스에서 상기 제 1 프리셋 타입의 음소를 제외한 음소로 구성된 제 2 음소 시퀀스와 동일하다.
선택적으로, 상기 제 2 확정 모듈은,
상기 목표 단어에 대응되는 음소 시퀀스의 첫 번째 음소와/또는 마지막 하나의 음소가 제 2 프리셋 타입의 음소일 경우, 상기 음소 시퀀스에서 상기 제 2 프리셋 타입의 음소를 제외한 음소를 새로운 음소 시퀀스로 취합하고, 상기 발음 사전의 단어에서, 대응되는 음소 시퀀스가 상기 새로운 음소 시퀀스와 동일한 단어를 선취하여, 상기 목표 단어에 대응되는 모호한 단어로 하도록 구성된 제 3 선취 서브 모듈을 포함한다.
선택적으로, 상기 출력 모듈은,
미리 설정된 우선순위에 따라 상기 목표 단어에 대응되는 모호한 단어에 대해 순서배열하도록 구성된 순서배열 서브 모듈;
상기 목표 단어에 대응되는 모호한 단어의 수량이 미리 설정된 수량보다 많으면, 순서배열 결과에 따라, 상기 목표 단어에 대응되는 모든 모호한 단어에서 상기 미리 설정된 수량만큼 모호한 단어를 선별하고, 상기 목표 단어와 선별된 모호한 단어를 출력하도록 구성된 제 1 출력 서브 모듈, 및
상기 목표 단어에 대응되는 모호한 단어의 수량이 상기 미리 설정된 수량보다 적거나 동일하면, 상기 순서배열 결과에 따라 상기 목표 단어와 상기 목표 단어에 대응되는 모든 모호한 단어를 출력하도록 구성된 제 2 출력 서브 모듈을 포함한다.
본 발명의 실시예의 제 3 양태에 따르면, 프로세서와 프로세서에 의해 실행 가능한 명령어를 저장하기 위한 메모리를 포함하고,
여기서, 상기 프로세서는,
음성 식별 기술을 기반으로, 수집된 음성 정보에 대응되는 텍스트 정보-상기 텍스트 정보는 단어를 포함함-를 확정하고,
상기 텍스트 정보 중의 단어를 목표 단어로 하고, 상기 목표 단어에 대응되는 음소 시퀀스와 미리 설정된 발음 사전-상기 발음 사전은 복수 개의 단어 및 각 단어에 대응되는 음소 시퀀스를 포함함-에 따라, 상기 목표 단어에 대응되는 모호한 단어를 확정하며,
상기 목표 단어와 상기 목표 단어에 대응되는 모호한 단어를 출력하도록 구성되는 음성 정보 처리 장치를 제공한다.
본 발명의 제 4 양태에 따르면, 프로세서에 의해 실행되는 것을 통하여 상기 방법을 구현하는 컴퓨터 판독가능한 기록매체에 기록된 프로그램이 제공된다.
본 발의 명의 실시예의 제 5 양태에 따르면, 상기 프로그램이 기록된 컴퓨터 판독가능한 저장매체가 제공된다.
본 발명의 실시예가 제공하는 기술적 방안은 아래 기재된 유익한 효과를 포함할 수 있다.
본 발명에 의하면, 음성 식별 기술에 기반하여, 수집된 음성 정보에 대응되는 텍스트 정보를 확정하고, 텍스트 정보 중의 단어를 목표 단어로 하고, 목표 단어에 대응되는 음소 시퀀스와 미리 설정된 발음 사전에 따라, 목표 단어에 대응되는 모호한 단어를 확정하며, 사용자가 선택하도록 목표 단어와 목표 단어에 대응되는 모호한 단어를 출력한다. 따라서, 종래 음성 식별 기술에 존재하는 동음, 혼용되기 쉬운 발음 등의 단어에 대한 식별이 정확하지 않는 문제를 해결할 수 있으며, 사용자 체험을 향상시킨다.
이해해야 할 것은, 이상에서 진행된 일반적인 설명과 후술 될 세부적인 설명은 예시적이고 해석적인 것일 뿐, 본 발명을 한정하지 않는다.
하기의 도면은 명세서에 병합되어 본 명세서의 일부를 구성하고 본 발명에 부합하는 실시예를 표시하며 명세서와 함께 본 발명의 원리를 해석한다.
도 1은 예시적인 일 실시예에 따른 실시 환경의 모식도이다.
도 2는 예시적인 일 실시예에 따른 음성 정보 처리 제어 방법의 흐름도이다.
도 3은 예시적인 일 실시예에 따른 음성 정보 처리 장치의 블록도이다.
도 4는 다른 예시적인 일 실시예에 따른 음성 정보 처리 장치의 블록도이다.
도 5는 예시적인 일 실시예에 따른 음성 정보 처리 방법을 위한 장치의 블록도이다.
도 6은 또 다른 예시적인 일 실시예에 따른 음성 정보 처리 방법을 위한 장치의 블록도이다.
여기서, 예시적인 실시예에 대하여 상세하게 설명하고, 그 사례를 도면에 표시한다. 하기의 서술이 도면에 관련될 때, 달리 명시하지 않는 경우, 서로 다른 도면에서의 동일한 부호는 동일한 구성 요소 또는 유사한 구성 요소를 나타낸다. 하기의 예시적인 실시예에서 서술한 실시 방식은 본 발명에 부합되는 모든 실시 방식을 대표하는 것이 아니며, 실시 방식들은 다만 첨부된 특허 청구의 범위에 기재한 본 발명의 일부 측면에 부합되는 장치 및 방법의 예이다.
설명해야 할 것은, 본 발명의 명세서와 특허청구 범위 및 상기 도면에서의 용어 "제 1", "제 2" 등은 유사한 대상을 구분하기 위함이고, 특정 순서나 선후 순서로 이해해서는 안된다.
본 발명의 실시예가 제공하는 음성 정보 처리 방법을 설명하기 전에, 먼저 본 발명의 실시예에 관한 실시 환경에 대해 설명한다. 도 1은 본 발명의 실시예에 관한 실시 환경의 모식도이고, 도 1에 도시한 바와 같이, 본 발명의 실시예에 관한 실시 환경은 사용자 단말기(10)와 서버(20)를 포함하고, 사용자 단말기(10)와 서버(20) 사이는 통신 가능하게 연결된다. 사용자 단말기(10)는 내장된 음성 수집 장치(예를 들어, 마이크로폰)에 의해 사용자가 입력한 음성 정보를 수집하고 수집된 음성 정보를 서버(20)에 송신하며, 서버(20)는 수집된 음성 정보를 처리하여 음성 정보에 대응되는 텍스트 정보 및 텍스트 정보 중의 단어에 대응되는 모호한 단어를 확정하고, 텍스트 정보 중의 단어 및 단어에 대응하는 모호한 단어를 사용자 단말기(10)기에 송신하며, 사용자 단말기(10)는 사용자가 선택하도록 서버가 피드백하는 단어 및 이에 대응하는 모호한 단어를 표시한다.
설명해야 할 것은, 상기 실시 환경에 있어서, 사용자 단말기(10)와 서버(20) 사이는 각종 유선 또는 무선 기술을 이용하여 통신적으로 연결이 이루어질 수 있다. 예컨대, 연결 방식은 블루투스, 와이파이(Wireless-Fidelity, WIFI), 2G 네트워크, 3G 네트워크, 4G 네트워크, 5G 네트워크 등을 포함할 수 있으나 이에 한정되지 않는다. 사용자 단말기(10)는 예를 들어, 스마트폰, 태블릿 PC, 개인 휴대 정보 단말기(Personal Digital Assistant, PDA), 스마트 웨어러블 디바이스 등일 수 있고, 서버(20)는 음성 정보 처리 기능을 제공할 수 있는 임의의 기기일 수 있다.
이와 더불어, 본 발명의 실시예가 제공하는 음성 정보 처리 방법은 사용자 단말기(10) 로컬에서도 수행될 수 있으며, 구체적으로, 사용자 단말기(10)는 내장된 음성 수집 장치(예를 들어, 마이크로폰)에 의하여 음성 정보를 수집할 수 있고, 수집된 음성 정보를 처리하여, 음성 정보에 대응되는 텍스트 정보 및 텍스트 정보 중의 단어에 대응되는 모호한 단어를 확정하고, 그 후, 사용자가 선택하도록 표시 장치(예를 들어, 디스플레이)에 의해 텍스트 정보 중의 단어 및 단어에 대응되는 모호한 단어를 출력하여 표시한다.
도 1에 도시한 실시 환경을 기반으로, 본 발명의 실시예는 음성 정보 처리 방법을 제공하되, 상기 방법은 도 1에 도시한 사용자 단말기(10) 또는 서버(20)에 적용될 수 있다. 도 2를 참조하면, 도 2는 예시적인 일 실시예에 따른 음성 정보 처리 제어 방법의 흐름도이고, 상기 방법은 하기와 같은 단계를 포함한다.
단계(S201): 음성 식별 기술을 기반으로, 수집된 음성 정보에 대응되는 텍스트 정보를 확정한다.
여기서, 텍스트 정보는 단어를 포함한다.
구체적으로 실시할 때, 먼저 수집된 음성 정보에 대해 노이즈 감소, 프레이밍 처리, 프리 엠퍼시스(Pre-emphasis)와 윈도 기능 처리 등 전처리를 수행하고, 처리된 음성 정보에 대해 특징 추출을 수행한다. 이어서, 추출된 특징을 미리 이루어진 음성 식별 모델에 입력하여, 대응되는 텍스트 정보를 얻는다. 여기서, 상기 음성 식별 모델은 대량의 음성 정보 및 이에 대응되는 텍스트 정보를 이용하여 훈련하여 얻은 것일 수 있으며, 예시적으로, 음성 식별 모델은 은닉 마르코프 모델(Hidden Markov Model, HMM)일 수 있고, 뉴럴 네트워크 모델(Neural Network, NN)일 수도 있으나, 본 발명의 실시예는 이에 대해 한정하지 않는다.
설명해야 할 것은, 수집된 음성 정보에 대해 전처리하는 것과 특징 추출의 구체 방식은 당업자가 모두 알고 있는 사항에 해당되며, 본 발명의 실시예에서는 상세한 설명을 생략한다.
이와 더불어, 당업자가 모두 알고 있는 다른 음성 식별 기술에 의해 수집된 음성 정보를 처리하고, 음성 정보에 대응되는 텍스트 정보를 확정할 수도 있으나, 본 발명의 실시예는 이에 대해 한정하지 않는다.
단계(S202): 텍스트 정보 중의 단어를 목표 단어로 하고, 목표 단어에 대응되는 음소 시퀀스와 미리 설정된 발음 사전에 따라, 목표 단어에 대응되는 모호한 단어를 확정한다
여기서, 발음 사전은 복수 개의 단어와 각 단어에 대응되는 음소 시퀀스를 포함한다.
본 발명의 실시예에 있어서, 음소는 음성의 최소 유닛이고, 음소 시퀀스는 복수 개의 음소를 취합하여 이루어진 순서 있는 시퀀스이다. 발음 사전을 조회하여 목표 단어에 대응되는 음소 시퀀스를 확정할 수 있고, 예컨대, 단어가 "bad"이면, 대응되는 음소 시퀀스는 3개의 음소 /b/, /ae/, /d/를 포함한다. 구체적으로 실시 할 때, 미리 다양한 언어의 발음 사전을 설정할 수 있고, 수집된 음성에 대응되는 언어에 따라 상기 언어에 대응되는 발음 사전을 선택하며, 예컨대, 음성에 대응되는 언어가 영문일 경우, 영문의 발음 사전을 선택한다.
영문 등 언어 중에는 동음 단어를 쉽게 구분할 수 없고, 구분하기 어려운 음소(예를 들어, /ae/와/e/)를 포함한 단어(예를 들어, bad와 bed)를 혼용하기 쉬우며, 첫째 또는 마지막 하나의 음소가 무성음(Voiceless consonant)인 단어가 다른 단어와 혼용 하기 쉬운(예를 들어, bite와 buy) 등 원인을 고려하여, 구체적으로 실시할 때, 단계(S201)에서는 이러한 상황에 대하여 하기 세 가지 선택적인 실시 방식 중의 하나 또는 여러개에 의해 구현될 수 있다.
실시 방식1:동음 단어에 대하여
동음 단어는 대응되는 음소 시퀀스가 동일하므로, 구체적으로 실시할 때, 발음 사전의 단어에서 대응되는 음소 시퀀스가 목표 단어에 대응되는 음소 시퀀스와 같은 단어를 선취(選取)하여, 목표 단어에 대응되는 모호한 단어로 할 수 있다. 예컨대, 목표 단어가 two 일 경우, 그의 음성 기호는 /tu:/이고, 대응되는 음소 시퀀스는 /t/, /u:/이며, 이리하여 해당되는 발음 사전에서 음소 시퀀스가 동일한 단어 too를 선취하여 상기 목표 단어 two의 모호한 단어로 하고; 마찬가지로, 목표 단어가 be 이면, 대응되는 발음 사전에서 음소 시퀀스가 목표 단어 be의 음소 시퀀스(/b/, /i:/)와 동일한 단어 bee를 선취하여 상기 목표 단어 be의 모호한 단어로 한다.
실시 방식2:구분하기 어려운 음소를 포함하는 단어에 대하여
구체적으로, 목표 단어에 대응되는 음소 시퀀스가 제 1 프리셋(preset) 타입의 음소를 포함하면, 목표 단어에 대응되는 음소 시퀀스를 기준 시퀀스로 하고, 발음 사전의 단어에서 대응되는 음소 시퀀스가 아래 조건을 만족하는 단어를 선취하여 목표 단어에 대응되는 모호한 단어로 한다. ① 대응되는 음소 시퀀스가 제 1 프리셋 타입의 음소를 포함하고, 상기 제 1 프리셋 타입의 음소의 상기 음소 시퀀스에서의 위치가, 기준 시퀀스 중의 제 1 프리셋 타입의 음소의 기준 시퀀스에서의 위치와 동일하다. ② 상기 음소 시퀀스에서 제 1 프리셋 타입을 제외한 음소가 구성한 제 1 음소 시퀀스가 기준 시퀀스 중 제 1 프리셋 타입을 제외한 음소가 구성한 제 2 음소 시퀀스와 동일하다. 여기서, 제 1 프리셋 타입의 음소는 사용자 또는 제조사에 의해 실수요에 따라 설정될 수 있으며, 예를 들어, 제 1 프리셋 타입의 음소는 /ae/, /e/, /a:/ 등 쉽게 구분되지 않는 음소를 포함할 수 있으나 이에 한정되지 않는다.
예컨대, 목표 단어가 bed 이고, 이에 대응되는 음성 기호가 /bed/이고, 대응되는 음소 시퀀스가 /b/, /e/, /d/이며, 제 1 프리셋 타입의 음소 /e/를 포함한다. 이러면 발음 사전의 단어에서 단어 bad(대응되는 음소 시퀀스가 /b/, /ae/, /d/)를 선취하여 상기 목표 단어 bed의 모호한 단어로 한다.
실시 방식3:대응되는 첫째 또는 마지막 하나의 음소가 무성음인 단어에 대하여
상기 정황에서, 음성 정보에 대해 식별할 때, 상기 단어의 무성음 음소가 무시되어 식별 결과가 정확하지 않는 문제가 존재할 수 있다. 예컨대, 단어 bite는 쉽게 단어 buy로 틀리게 식별되며, 따라서 목표 단어에 대응되는 음소 시퀀스의 첫 번째 음소와/또는 마지막 하나의 음소가 제 2 프리셋 타입의 음소이면, 상기 음소 시퀀스에서 상기 제 2 프리셋 타입의 음소를 제외한 음소를 새로운 음소 시퀀스로 취합하고, 발음 사전의 단어에서 대응되는 음소 시퀀스가 상기 새로운 음소 시퀀스와 동일한 단어를 선취하여, 목표 단어에 대응되는 모호한 단어로 한다. 여기서, 제 2 프리셋 타입의 음소는 사용자 또는 제조사에 의해 수요에 따라 설정될 수 있으며, 제 2 프리셋 타입의 음소는 예를 들어 /p/, /t/, /k/, /s/, /f/ 등과 같은 무성음을 포함할 수 있으나 이에 한정되지 않는다.
예컨대, 목표 단어가 bite 이고, 이에 대응되는 음성 기호가/bait/이고, 대응되는 음소 시퀀스가 /b/, /ai/, /t/이고, 이의 마지막 하나의 음소가 제 2 프리셋 타입의 음소이면, 음소 /t/를 제외한 음소를 새로운 음소 시퀀스/b/, /ai/로 취합하고, 발음 사전에서 상기 새로운 음소 시퀀스와 동일한 단어 buy를 선취하여 목표 단어bite에 대응되는 모호한 단어로 한다.
단계(S203): 목표 단어 및 목표 단어에 대응되는 모호한 단어를 출력한다.
선택적인 일 실시 방식에 있어서, 목표 단어 및 목표 단어에 대응되는 모든 모호한 단어를 출력할 수 있다.
다른 선택적인 일 실시 방식에 있어서, 목표 단어에 대응되는 모호한 단어가 대량인 경우를 고려하여, 사용자가 선택하도록 모든 모호한 단어를 제공하면, 일정한 정도로 사용자의 체험에 영향을 주게 되므로, 미리 설정된 우선순위에 따라 목표 단어에 대응되는 모호한 단어에 대해 순서배열하고, 목표 단어에 대응되는 모호한 단어의 수량이 미리 설정된 수량보다 많으면, 순서배열 결과에 따라 목표 단어에 대응되는 모든 모호한 단어에서 미리 설정된 수량만큼 모호한 단어를 선별하고 목표 단어와 선별된 모호한 단어를 출력할 수 있다; 목표 단어에 대응되는 모호한 단어의 수량이 미리 설정된 수량보다 적거나 동일하면, 순서배열 결과에 따라 목표 단어와 목표 단어에 대응되는 모든 모호한 단어를 출력할 수 있다. 예컨대, 미리 설정된 우선순위에 따라 목표 단어에 대응되는 모든 모호한 단어를 높은 것으로부터 낮은 것으로 나열하는 내림차순으로 순서배열하고, 모호한 단어의 수량이 미리 설정된 수량 N보다 크면, 순서배열 결과에 따라 우선순위가 높은 상위 N 개의 모호한 단어를 선별하고 목표 단어와 상기 N 개의 모호한 단어를 출력하여 표시할 수 있다. 선택적으로, 목표 단어에 대응되는 모든 모호한 단어를 낮은 것으로부터 높은 것으로 나열하는 오름차순으로 순서배열하고, 모호한 단어의 수량이 미리 설정된 수량 N 보다 많으면, 순서배열 결과에 따라 우선순위가 높은 하위 N 개의 모호한 단어를 선별하고 목표 단어와 상기 N 개의 모호한 단어를 출력하여 표시할 수 있다.
여기서, 미리 설정된 수량과 미리 설정된 우선순위는 사용자 또는 제조사에 의해 수요에 따라 미리 설정된 것일 수 있고, 미리 설정된 수량은 예를 들어, 10~20 사이의 임의의 정수일 수 있으며, 미리 설정된 우선순위는 예를 들어, ①상기 실시 방식1에 따라 획정된 모호한 단어(즉, 발음이 목표 단어와 동일한 모호한 단어)>다른 실시 방식에 따라 확정된 모호한 단어 ② 상기 실시 방식2에 따라 확정된 모호한 단어 중 음소 /e/를 포함하는 목표 단어에 대해, 음소 /ae/를 포함한 모호한 단어>음소 /a:/를 포함한 모호한 단어 ③일상생활에서 나타나는 빈도가 비교적 높은 모호한 단어>일상생활에서 나타나는 빈도가 비교적 낮은 모호한 단어 등일 수 있다.
설명해야 할 것은, 상기 실시예의 상기 음성 정보 처리 방법이 사용자 단말기에 의해 실시되면, 사용자 단말기의 처리 유닛은 목표 단어와 목표 단어에 대응되는 모호한 단어를 사용자 단말기의 디스플레이 장치(예를 들어, 스크린)에 표시하여 사용자가 이러한 단어 중에서 정확한 단어를 선취하도록 할 수 있다. 상기 실시예의 상기 음성 정보 처리 방법이 서버에 의해 실시되면, 서버는 목표 단어와 목표 단어에 대응되는 모호한 단어를 서버와 통신 가능하게 연결된 사용자 단말기에 송신하고, 사용자가 이러한 단어 중에서 정확한 단어를 선취하도록 사용자 단말기에 의해 목표 단어 및 이에 대응되는 모호한 단어를 표시한다.
상기 음성 정보 처리 방법에 의하면, 음성 식별 기술을 기반으로 수집된 음성 정보에 대응되는 텍스트 정보를 확정하고, 텍스트 정보 중의 단어를 목표 단어로 하고, 목표 단어에 대응되는 음소 시퀀스와 미리 설정된 발음 사전에 따라 목표 단어에 대응되는 모호한 단어를 확정하고, 사용자가 선택하도록 목표 단어와 목표 단어에 대응되는 모호한 단어를 출력한다. 이는, 종래 음성 식별 기술에 존재하는 동음, 혼용되기 쉬운 발음 등의 단어에 대한 식별이 정확하지 않는 문제를 해결할 수 있으며, 사용자 체험을 향상시킨다.
본 발명의 실시예는 정보 처리 장치를 더 제공하며, 상기 장치는 도 1에 도시한 사용자 단말기(10) 또는 서버(20)에 적용할 수 있다. 도 3을 참조하면 도 3은 예시적인 일 실시예에 따른 음성 정보 처리 장치의 블록도이고, 상기 장치(300)는,
음성 식별 기술을 기반으로, 수집된 음성 정보에 대응되는 텍스트 정보-상기 텍스트 정보는 단어를 포함함-를 확정하도록 구성되는 제 1 확정 모듈(301);
상기 텍스트 정보 중의 단어를 목표 단어로 하고, 상기 목표 단어에 대응되는 음소 시퀀스와 미리 설정된 발음 사전- 상기 발음 사전은 복수 개의 단어 및 각 단어에 대응되는 음소 시퀀스를 포함함-에 따라, 상기 목표 단어에 대응되는 모호한 단어를 확정하도록 구성되는 제 2 확정 모듈(302);및
상기 목표 단어와 상기 목표 단어에 대응되는 모호한 단어를 출력하도록 구성되는 출력 모듈(303)를 포함한다.
선택적으로, 도 4에 도시한 바와 같이, 상기 제 2 확정 모듈(302)은,
상기 발음 사전의 단어에서 대응되는 음소 시퀀스가 상기 목표 단어에 대응되는 음소 시퀀스와 동일한 단어를 선취하여, 상기 목표 단어에 대응되는 모호한 단어로 하도록 구성된 제 1 선취 서브 모듈(321)을 포함한다.
선택적으로, 도 4에 도시한 바와 같이, 상기 제 2 확정 모듈(302)은,
상기 목표 단어에 대응되는 음소 시퀀스에 제 1 프리셋 타입의 음소를 포함할 경우, 상기 목표 단어에 대응되는 음소 시퀀스를 기준 시퀀스로 하고, 상기 발음 사전의 단어에서 대응되는 음소 시퀀스가 아래 조건을 만족하는 단어를 선취하여, 상기 목표 단어에 대응되는 모호한 단어로 하도록 구성된 제 2 선취 서브 모듈(322)을 포함한다.
상기 조건은 대응되는 음소 시퀀스는 상기 제1프리셋 타입의 음소를 포함하고, 상기 제 1 프리셋 타입의 음소의 상기 음소 시퀀스에서의 위치와, 상기 기준 시퀀스 중 상기 제 1 프리셋 타입의 음소의 상기 기준 시퀀스에서의 위치가 동일하고,
상기 음소 시퀀스 중 상기 제 1 프리셋 타입의 음소를 제외한 음소로 구성된 제 1 음소 시퀀스와, 상기 기준 시퀀스 중 상기 제 1 프리셋 타입의 음소를 제외한 음소로 구성된 제 2 음소 시퀀스가 동일하다.
선택적으로, 도 4에 도시한 바와 같이, 상기 제 2 확정 모듈(302)은,
상기 목표 단어에 대응되는 음소 시퀀스의 첫 번째 음소와/또는 마지막 하나의 음소가 제 2 프리셋 타입의 음소일 경우, 상기 음소 시퀀스 중 상기 제 2 프리셋 타입의 음소를 제외한 음소를 새로운 음소 시퀀스로 취합하고, 상기 발음 사전의 단어들로부터, 대응되는 음소 시퀀스가 상기 새로운 음소 시퀀스와 동일한 단어를 선취하여, 상기 목표 단어에 대응되는 모호한 단어로 하도록 구성된 제 3 선취 서브 모듈(323)을 포함한다.
선택적으로, 도 4에 도시한 바와 같이, 상기 출력 모듈(303)은,
미리 설정된 우선순위에 따라 상기 목표 단어에 대응되는 모호한 단어에 대해 순서배열스하도록 구성된 순서배열 서브 모듈(331);
상기 목표 단어에 대응되는 모호한 단어의 수량이 미리 설정된 수량보다 많을 경우, 순서배열 결과에 따라, 상기 목표 단어에 대응되는 모든 모호한 단어들로부터 상기 미리 설정된 수량만큼 모호한 단어를 선별하고, 상기 목표 단어와 선별된 모호한 단어를 출력하도록 구성된 제 1 출력 서브 모듈(332); 및
상기 목표 단어에 대응되는 모호한 단어의 수량이 상기 미리 설정된 수량보다 적거나 동일할 경우, 상기 순서배열 결과에 따라 상기 목표 단어와 상기 목표 단어에 대응되는 모든 모호한 단어를 출력하도록 구성된 제 2 출력 서브 모듈(333)을 포함한다.
상기 실시예의 장치에 있어서, 각 모듈이 조작을 수행하는 구체 방식은 이미 관련된 방법의 실시예에서 상세하게 설명하였으므로, 상세한 설명은 생략한다.
또한, 설명의 편의와 간결함을 위하여, 상기 각 기능 모듈로만 구분한 것을 예로 하여 설명했지만, 실제 적용하는데 있어서, 수요에 따라 상기 기능을 서로 다른 기능모듈에 의해 이루어지도록 분배할 수 있는 것은 해당 기술분야 당업자는 명확히 알 수 있을 것이다. 즉, 이상 설명한 모든 또는 일부 기능이 이루어지도록 장치의 내부 구조는 다른 기능 모듈로 구획할 수 있다.
상기 음성 식별 장치를 이용함으로써, 음성 식별 기술에 기반하여, 수집된 음성 정보에 대응되는 텍스트 정보를 확정하고, 텍스트 정보 중의 단어를 목표 단어로 하고, 목표 단어에 대응되는 음소 시퀀스와 미리 설정된 발음 사전에 따라, 목표 단어에 대응되는 모호한 단어를 확정하며, 사용자가 선택하도록 목표 단어와 목표 단어에 대응되는 모호한 단어를 출력한다. 따라서 종래 음성 식별 기술에 존재하는 동음, 혼용되기 쉬운 발음 등의 단어에 대한 식별이 정확하지 않는 문제를 해결할 수 있으며, 사용자 체험을 향상시킨다.
본 발명은 컴퓨터 판독 가능한 저장 매체를 더 제공하며, 상기 저장 매체에는 컴퓨터 프로그램 명령어가 저장되고, 프로세서에 의해 상기 명령어가 실행되면 본 발명이 제공하는 음성 정보 처리 방법의 단계가 실현된다.
본 발명은 음성 정보 처리 장치를 더 제공하고, 상기 음성 정보 처리 장치는 프로세서와 프로세서에 의해 실행될 수 있는 명령어를 저장하기 위한 메모리를 포함한다. 여기서, 상기 프로세서는 본 발명이 제공하는 음성 정보 처리 방법의 단계를 실현하도록 구성된다.
도 5는 예시적인 일 실시예에 따른 음성 정보 처리 방법을 위한 장치(500)의 블록도이다. 예컨대, 장치(500)는 사용자 단말기일 수 있다. 예컨대, 장치(500)는 휴대 전화, 컴퓨터, 디지털 방송 단말기, 메시지 송수신 장치, 게임 콘솔, 태블릿 디바이스, 의료 기기, 헬스 기기, 개인 휴대 정보 단말기 등일 수 있다.
도 5를 참조하면, 장치(500)는 프로세싱 유닛(502), 메모리(504), 전원 유닛(506), 멀티미디어 유닛(508), 오디오 유닛(510), 입출력(I/O) 인터페이스(512), 센서 유닛(514) 및 통신 유닛(516) 중의 임의의 적어도 하나 이상을 포함할 수 있다.
프로세싱 유닛(502)은 일반적으로 장치(500)의 전체 조작,예를 들어, 디스플레이,전화 호출,데이터 통신,카메라 조작 및 기록 조작에 관련된 조작을 제어할 수 있다. 프로세싱 유닛(502)은 임의의 적어도 하나 이상의 프로세서(520)를 구비하여 명령어를 실행함으로써 상기 방법의 전부 또는 일부 단계를 완성할 수 있다. 또한, 프로세싱 유닛(502)은 기타 유닛과의 인터랙션을 편리하게 하도록 임의의 적어도 하나 이상의 모듈을 포함할 수 있다. 예를 들어, 프로세싱 유닛(502)은 멀티미디어 유닛(508)과의 인터랙션을 편리하게 할 수 있도록 멀티미디어 모듈을 포함할 수 있다.
메모리(504)는 장치(500)의 조작을 서포트 하기 위하여 각종 유형의 데이터를 저장하도록 설치된다. 이러한 데이터는 예를 들어 장치(500)에서 임의의 애플리케이션이나 방법을 조작하기 위한 명령어, 연락처 데이터, 전화 번호부 데이터, 메시지, 사진, 동영상 등을 포함할 수 있다. 메모리(504)는 임의의 유형의 휘발성 또는 비휘발성 메모리 예를 들어 SRAM(Static Random Access Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), EPROM(Erasable Programmable Read Only Memory), PROM(Programmable ROM), ROM(Read Only Memory), 자기 메모리, 플래시 메모리, 자기 디스크 또는 콤팩트 디스크에 의해 또는 이들의 조합에 의해 실현될 수있다.
전원 유닛(506)은 장치(500)의 각 유닛에 전력을 공급하기 위한 것이며, 전원 관리 시스템, 임의의 적어도 하나 이상의 전원 및 장치(500)를 위하여 전력을 생성, 관리 및 분배하는데 관련된 기타 유닛을 포함할 수 있다.
멀티미디어 유닛(508)은 장치(500)와 사용자 사이에 출력 인터페이스를 제공하는 스크린을 포함할 수 있다. 일 실시예에 있어서, 스크린은 액정 디스플레이(LCD) 또는 터치 패널(TP)을 포함할 수 있다. 스크린이 터치 패널을 포함하는 경우, 사용자의 입력 신호를 수신하도록 터치 스크린으로 실현될 수 있다. 또한, 터치 패널은 터치, 슬라이딩 및 터치 패널위에서의 제스처(gesture)를 감지하도록 임의의 적어도 하나 이상의 터치 센서를 포함할 수 있다. 상기 터치 센서는 터치 또는 슬라이딩 동작의 경계위치를 감지할 수 있을 뿐만 아니라, 터치 또는 슬라이딩 조작에 관련되는 지속시간 및 압력을 검출할 수 있다. 일 실시예에 있어서, 멀티미디어 유닛(508)은 전면 카메라 및/또는 후면 카메라를 포함할 수 있다. 장치(500)가 예를 들어 촬영 모드 또는 동영상 모드 등 조작 모드 상태에 있을 때, 전면 카메라 및/또는 후면 카메라는 외부의 멀티미디어 데이터를 수신할 수 있다. 전면 카메라 및 후면 카메라 각각은 고정된 광학 렌즈 시스템 또는 가변 초점 거리 및 광학 줌 기능을 구비할 수 있다.
오디오 유닛(510)은 오디오 신호를 출력 및/또는 입력하도록 설정될 수 있다. 예를 들어, 오디오 유닛(510)은 마이크(MIC)를 포함할 수 있다. 장치(500)가 예를 들어 호출 모드, 기록 모드 또는 음성 인식 모드 등 조작 모드 상태에 있을 때, 마이크는 외부의 오디오 신호를 수신하도록 설정될 수 있다. 수신된 오디오 신호는 메모리(504)에 저장되거나 또는 통신 유닛(516)을 통해 송신될 수 있다. 일 실시예에 있어서, 오디오 유닛(510)은 오디오 신호를 출력하는 스피커를 더 포함할 수 있다.
I/O 인터페이스(512)는 프로세싱 유닛(502)과 주변 인터페이스 모듈 사이에 인터페이스를 제공하기 위한 것이다. 상기 주변 인터페이스 모듈은 키보드,클릭 휠,버튼 등일 수 있다. 이러한 버튼은 홈 버튼, 볼륨 버튼, 작동 버튼 및 잠금 버튼 등을 포함하되 이에 한정되지 않는다.
센서 유닛(514)은 장치(500)를 위해 각 방면의 상태를 평가하는 임의의 적어도 하나 이상의 센서를 포함할 수 있다. 예를 들어, 센서 유닛(514)은 장치(500)의 온/오프 상태, 유닛의 상대적인 포지셔닝을 검출할 수 있다. 예를 들어, 상기 유닛은 장치(500)의 디스플레이 및 작은 키패드일 수 있다. 센서 유닛(514)은 장치(500) 또는 장치(500)의 유닛의 위치 변경, 사용자와 장치(500)사이의 접촉여부, 장치(500)의 방위 또는 가속/감속 및 장치(500)의 온도 변화를 검출할 수 있다. 센서 유닛(514)은 어떠한 물리적 접촉도 없는 상황에서 근처의 물체를 검출하도록 구성되는 근접 센서를 포함할 수 있다. 센서 유닛(514)은 이미지 형성 응용에 이용하기 위한 광 센서 예를 들어 CMOS 또는 CCD 이미지 센서를 포함할 수 있다. 일 실시예에 있어서, 상기 센서 유닛(514)은 가속도 센서, 자이로 스코프 센서, 자기 센서, 압력 센서 또는 온도 센서를 더 포함할 수 있다.
통신 유닛(516)은 장치(500)와 기타 기기 사이의 무선 또는 유선 통신을 편리하게 진행하게 하도록 설정될 수 있다. 장치(500)는 통신 표준을 기반으로 하는 무선 네트워크 예를 들어 WiFi, 2G, 3G, 4G, 5G 또는 이들의 조합에 액세스할 수 있다. 일 예시적인 실시예에 있어서, 통신 유닛(516)은 브로드캐스팅 채널을 통해 외부의 브로드캐스팅 관리 시스템에서의 브로드캐스팅 신호 또는 브로드캐스팅 관련 정보를 수신할 수 있다. 일 예시적인 실시예에 있어서, 상기 통신 유닛(516)은 근거리 통신을 촉진하기 위한 근거리 무선 통신(NFC) 모듈을 더 포함할 수 있다. 예를 들어, NFC 모듈은 RFID기술, IrDA기술, UWB기술, 블루투스(BT) 기술 및 기타 기술에 의해 실현될 수 있다.
일 예시적인 실시예에 있어서, 장치(500)는 상기 임의의 어느 한 실시예가 제공한 방법을 실행하기 위하여 임의의 적어도 하나 이상의 ASIC(Application Specific Integrated Circuit), DSP(Digital Signal Processor), DSPD(Digital Signal Processing Device), PLD(Programmable Logic Device), FPGA(Field-Programmable Gate Array), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서, 또는 기타 전자 소자에 의해 실현될 수 있다.
일 예시적인 실시예에서 명령어를 포함한 비일시적인 컴퓨터 판독 가능한 기록매체 예를 들어 명령어를 포함한 메모리(504)를 더 제공한다. 상기 명령어는 장치(500)의 프로세서(520)에 의해 실행되어 상기 임의의 어느 한 실시예가 제공한 방법을 완성할 수 있다. 예를 들어, 상기 비일시적인 컴퓨터 판독 가능한 기록 매체는, ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크 및 광 데이터 메모리 등일 수 있다
도 6은 다른 예시적인 일 실시예에 따른 음성 정보 처리 방법을 위한 장치(600)를 나타내는 블록도이다. 예를 들어, 장치(600)는 서버로 제공될 수 있다. 도 6을 참조하면, 장치(600)는 하나 이상의 프로세서를 포함하는 프로세싱 유닛(622) 및 프로세싱 유닛(622)에 의해 실행 가능한 명령어, 예를 들어 애플리케이션 프로그램을 저장하는 메모리(632)가 대표로 되는 메모리 리소스를 포함한다. 메모리(632)에 저장되는 애플리케이션 프로그램은 하나 이상의 각각이 한 세트의 명령어에 대응하는 모듈을 포함할 수 있다. 또한, 프로세싱 유닛(622)은 상기 음성 정보 처리 방법을 실행하기 위해 명령어를 실행하도록 구성된다.
장치(600)는, 장치(600)의 전원 관리를 실행하도록 구성되는 전원 유닛(626)과 장치(600)를 인터넷에 연결시키도록 구성되는 유선 또는 무선 인터넷 인터페이스(650) 및 입출력(I/O) 인터페이스(658)를 구비한다. 장치(600)는 메모리(632)에 저장된 운영 체제, 예를 들어 Windows ServerTM, MAc OS XTM, UnixTM, LinuxTM, FreeBSDTM 또는 이들에 유사한 운영 체제 등에 의해 조작될 수 있다.
통상의 지식을 가진 자는 명세서에 대한 이해 및 명세서에 기재된 발명에 대한 실시를 통해 본 발명의 다른 실시방안을 용이하게 얻을 수 있다. 당해 출원의 취지는 본 발명에 대한 임의의 변형, 용도 또는 적응적인 변화를 포함하고, 이러한 변형, 용도 또는 적응적 변화는 본 발명의 일반적인 원리에 따르고, 당해 출원이 공개하지 않은 본 기술 분야의 공지기술 또는 통상의 기술수단을 포함한다. 명세서 및 실시예는 단지 예시적인 것으로서, 본 발명의 진정한 범위와 취지는 다음의 특허청구 범위에 의해 결정된다.
본 발명은 상기에 서술되고 도면에 도시된 특정 구성에 한정되지 않고 그 범위를 이탈하지 않는 상황에서 다양한 수정 및 변경을 실시할 수 있음에 이해되어야 한다. 본 발명의 범위는 단지 첨부된 특허청구 범위에 의해서만 한정된다.

Claims (13)

  1. 음성 식별 기술에 기반하여, 수집된 음성 정보에 대응되는 텍스트 정보-상기 텍스트 정보는 음이 동일하고 발음이 혼용될 수 있는 단어를 포함함-를 확정하는 단계,
    상기 텍스트 정보 중의 단어를 목표 단어로 하고, 상기 목표 단어에 대응되는 음소 시퀀스와 미리 설정된 발음 사전-상기 발음 사전은 복수 개의 단어 및 각 단어에 대응되는 음소 시퀀스를 포함함-에 따라, 상기 목표 단어에 대응되는 모호한 단어를 확정하는 단계, 및
    사용자가 선택하도록 상기 목표 단어와 상기 목표 단어에 대응되는 모호한 단어를 출력하는 단계를 포함하는
    것을 특징으로 하는 음성 정보 처리 방법.
  2. 제1항에 있어서,
    상기 목표 단어에 대응되는 음소 시퀀스와 미리 설정된 발음 사전에 따라 상기 목표 단어에 대응되는 모호한 단어를 확정하는 단계는,
    상기 발음 사전의 단어에서 대응되는 음소 시퀀스가 상기 목표 단어에 대응되는 음소 시퀀스와 동일한 단어를 선취하여, 상기 목표 단어에 대응되는 모호한 단어로 하는
    것을 특징으로 하는 음성 정보 처리 방법.
  3. 제1항에 있어서,
    상기 목표 단어에 대응되는 음소 시퀀스와 미리 설정된 발음 사전에 따라, 상기 목표 단어에 대응되는 모호한 단어를 확정하는 단계는,
    상기 목표 단어에 대응되는 음소 시퀀스가 제1 프리셋 타입의 음소를 포함하면, 상기 목표 단어에 대응되는 음소 시퀀스를 기준 시퀀스로 하고, 상기 발음 사전의 단어에서 대응되는 음소 시퀀스가 아래 조건을 만족하는 단어를 선취하여, 상기 목표 단어에 대응되는 모호한 단어로 하는 단계를 포함하고,
    상기 조건은
    대응되는 음소 시퀀스는 상기 제1 프리셋 타입의 음소를 포함하고, 상기 제1 프리셋 타입의 음소의 상기 음소 시퀀스에서의 위치가, 상기 기준 시퀀스 중 상기 제1 프리셋 타입의 음소의 상기 기준 시퀀스에서의 위치와 동일하고,
    상기 음소 시퀀스에서 상기 제1 프리셋 타입의 음소를 제외한 음소로 구성된 제1 음소 시퀀스가 상기 기준 시퀀스에서 상기 제1 프리셋 타입의 음소를 제외한 음소로 구성된 제2 음소 시퀀스와 동일한
    것을 특징으로 하는 음성 정보 처리 방법.
  4. 제1항에 있어서,
    상기 목표 단어에 대응되는 음소 시퀀스와 미리 설정된 발음 사전에 따라, 상기 목표 단어에 대응되는 모호한 단어를 확정하는 단계는,
    상기 목표 단어에 대응되는 음소 시퀀스의 첫 번째 음소와/또는 마지막 하나의 음소가 제 2 프리셋 타입의 음소이면, 상기 음소 시퀀스에서 상기 제 2 프리셋 타입의 음소를 제외한 음소를 새로운 음소 시퀀스로 취합하고, 상기 발음 사전의 단어에서, 대응되는 음소 시퀀스가 상기 새로운 음소 시퀀스와 동일한 단어를 선취하여 상기 목표 단어에 대응되는 모호한 단어로 하는
    것을 특징으로 하는 음성 정보 처리 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 목표 단어와 상기 목표 단어에 대응되는 모호한 단어를 출력하는 단계는,
    미리 설정된 우선순위에 따라 상기 목표 단어에 대응되는 모호한 단어를 순서 배열하는 단계;
    상기 목표 단어에 대응되는 모호한 단어의 수량이 미리 설정된 수량보다 많으면, 순서배열 결과에 따라, 상기 목표 단어에 대응되는 모든 모호한 단어에서 상기 미리 설정된 수량만큼 모호한 단어를 선별하고, 상기 목표 단어와 선별된 모호한 단어를 출력하는 단계;및
    상기 목표 단어에 대응되는 모호한 단어의 수량이 상기 미리 설정된 수량보다 적거나 동일하면, 상기 순서배열 결과에 따라 상기 목표 단어와 상기 목표 단어에 대응되는 모든 모호한 단어를 출력하는 단계를 포함하는
    것을 특징으로 하는 음성 정보 처리 방법.
  6. 음성 식별 기술을 기반으로, 수집된 음성 정보에 대응되는 텍스트 정보-상기 텍스트 정보는 음이 동일하고 발음이 혼용될 수 있는 단어를 포함함-를 확정하도록 구성된 제1 확정 모듈,
    상기 텍스트 정보 중의 단어를 목표 단어로 하고, 상기 목표 단어에 대응되는 음소 시퀀스와 미리 설정된 발음 사전-상기 발음 사전은 복수 개의 단어 및 각 단어에 대응되는 음소 시퀀스를 포함함-에 따라, 상기 목표 단어에 대응되는 모호한 단어를 확정하도록 구성된 제2 확정 모듈, 및
    사용자가 선택하도록 상기 목표 단어와 상기 목표 단어에 대응되는 모호한 단어를 출력하도록 구성된 출력 모듈을 포함하는
    것을 특징으로 하는 음성 정보 처리 장치.
  7. 제6항에 있어서,
    상기 제2 확정 모듈은,
    상기 발음 사전의 단어에서 대응되는 음소 시퀀스가 상기 목표 단어에 대응되는 음소 시퀀스와 동일한 단어를 선취하여, 상기 목표 단어에 대응되는 모호한 단어로 하도록 구성된 제1 선취 서브 모듈을 포함하는
    것을 특징으로 하는 음성 정보 처리 장치.
  8. 제6항에 있어서,
    상기 제2 확정 모듈은,
    상기 목표 단어에 대응되는 음소 시퀀스가 제1 프리셋 타입의 음소를 포함하면, 상기 목표 단어에 대응되는 음소 시퀀스를 기준 시퀀스로 하고, 상기 발음 사전의 단어에서 대응되는 음소 시퀀스가 아래 조건을 만족하는 단어를 선취하여 상기 목표 단어에 대응되는 모호한 단어로 하도록 구성된 제 2 선취 서브 모듈을 포함하고,
    상기 조건은
    대응되는 음소 시퀀스는 상기 제1프리셋 타입의 음소를 포함하고, 상기 제1 프리셋 타입의 음소의 상기 음소 시퀀스에서의 위치가, 상기 기준 시퀀스 중 상기 제1 프리셋 타입의 음소의 상기 기준 시퀀스에서의 위치와 동일하고,
    상기 음소 시퀀스에서 상기 제1프리셋 타입의 음소를 제외한 음소로 구성된 제1 음소 시퀀스가 상기 기준 시퀀스에서 상기 제1프리셋 타입의 음소를 제외한 음소로 구성된 제2 음소 시퀀스와 동일한
    것을 특징으로 하는 음성 정보 처리 장치.
  9. 제6항에 있어서,
    상기 제2 확정 모듈은,
    상기 목표 단어에 대응되는 음소 시퀀스의 첫 번째 음소와/또는 마지막 하나의 음소가 제2 프리셋 타입의 음소이면, 상기 음소 시퀀스에서 상기 제2 프리셋 타입의 음소를 제외한 음소를 새로운 음소 시퀀스로 취합하고, 상기 발음 사전의 단어에서, 대응되는 음소 시퀀스가 상기 새로운 음소 시퀀스와 동일한 단어를 선취하여 상기 목표 단어에 대응되는 모호한 단어로 하도록 구성된 제3 선취 서브 모듈을 포함하는
    것을 특징으로 하는 음성 정보 처리 장치.
  10. 제6항 내지 제9항 중 어느 한 항에 있어서,
    상기 출력 모듈은,
    미리 설정된 우선순위에 따라 상기 목표 단어에 대응되는 모호한 단어를 순서 배열하도록 구성된 순서배열 서브 모듈,
    상기 목표 단어에 대응되는 모호한 단어의 수량이 미리 설정된 수량보다 많으면, 순서배열 결과에 따라, 상기 목표 단어에 대응되는 모든 모호한 단어에서 상기 미리 설정된 수량만큼 모호한 단어를 선별하고, 상기 목표 단어와 선별된 모호한 단어를 출력하도록 구성된 제1 출력 서브 모듈, 및
    상기 목표 단어에 대응되는 모호한 단어의 수량이 상기 미리 설정된 수량보다 적거나 동일하면, 상기 순서배열 결과에 따라 상기 목표 단어와 상기 목표 단어에 대응되는 모든 모호한 단어를 출력하도록 구성된 제2 출력 서브 모듈을 포함하는
    것을 특징으로 하는 음성 정보 처리 장치.
  11. 프로세서와 프로세서에 의해 실행 가능한 명령어를 저장하기 위한 메모리를 포함하고,
    여기서, 상기 프로세서는,
    음성 식별 기술을 기반으로, 수집된 음성 정보에 대응되는 텍스트 정보-상기 텍스트 정보는 음이 동일하고 발음이 혼용될 수 있는 단어를 포함함-를 확정하고,
    상기 텍스트 정보 중의 단어를 목표 단어로 하고, 상기 목표 단어에 대응되는 음소 시퀀스와 미리 설정된 발음 사전-상기 발음 사전은 복수 개의 단어 및 각 단어에 대응되는 음소 시퀀스를 포함함-에 따라, 상기 목표 단어에 대응되는 모호한 단어를 확정하며,
    사용자가 선택하도록 상기 목표 단어와 상기 목표 단어에 대응되는 모호한 단어를 출력하도록 구성되는
    것을 특징으로 하는 음성 정보 처리 장치.
  12. 프로세서에 의해 실행되는 것을 통하여 제 1 항 내지 제 4 항 중 어느 한 항에 기재된 음성 정보 처리 방법을 실현하는,
    컴퓨터 판독 가능한 저장 매체에 기록된 프로그램.
  13. 제 12 항에 기재된 프로그램이 기록된 컴퓨터 판독 가능한 저장 매체.
KR1020197032746A 2019-09-09 2019-10-15 음성 정보 처리 방법, 장치, 프로그램 및 저장 매체 KR102334299B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910848567.7 2019-09-09
CN201910848567.7A CN112562675B (zh) 2019-09-09 2019-09-09 语音信息处理方法、装置及存储介质
PCT/CN2019/111308 WO2021046958A1 (zh) 2019-09-09 2019-10-15 语音信息处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
KR20210032875A KR20210032875A (ko) 2021-03-25
KR102334299B1 true KR102334299B1 (ko) 2021-12-06

Family

ID=69157636

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197032746A KR102334299B1 (ko) 2019-09-09 2019-10-15 음성 정보 처리 방법, 장치, 프로그램 및 저장 매체

Country Status (7)

Country Link
US (1) US11270693B2 (ko)
EP (1) EP3790001B1 (ko)
JP (1) JP7116088B2 (ko)
KR (1) KR102334299B1 (ko)
CN (1) CN112562675B (ko)
RU (1) RU2733816C1 (ko)
WO (1) WO2021046958A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489657A (zh) * 2020-12-04 2021-03-12 宁夏新航信息科技有限公司 一种数据分析系统与数据分析方法
CN113053362A (zh) * 2021-03-30 2021-06-29 建信金融科技有限责任公司 语音识别的方法、装置、设备和计算机可读介质
CN113409767B (zh) * 2021-05-14 2023-04-25 北京达佳互联信息技术有限公司 一种语音处理方法、装置、电子设备及存储介质
CN113689882A (zh) * 2021-08-24 2021-11-23 上海喜马拉雅科技有限公司 发音评测方法、装置、电子设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002215184A (ja) * 2001-01-19 2002-07-31 Casio Comput Co Ltd 音声認識装置、及びプログラム
CN109841209A (zh) 2017-11-27 2019-06-04 株式会社速录抓吧 语音识别设备和系统

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6363342B2 (en) 1998-12-18 2002-03-26 Matsushita Electric Industrial Co., Ltd. System for developing word-pronunciation pairs
KR100318762B1 (ko) * 1999-10-01 2002-01-04 윤덕용 외래어 음차표기의 음성적 거리 계산방법
US7062436B1 (en) * 2003-02-11 2006-06-13 Microsoft Corporation Word-specific acoustic models in a speech recognition system
US7590533B2 (en) * 2004-03-10 2009-09-15 Microsoft Corporation New-word pronunciation learning using a pronunciation graph
JP4604178B2 (ja) * 2004-11-22 2010-12-22 独立行政法人産業技術総合研究所 音声認識装置及び方法ならびにプログラム
CN201054644Y (zh) * 2006-07-25 2008-04-30 陈修志 具有语音识别及翻译功能的移动终端
US8201087B2 (en) * 2007-02-01 2012-06-12 Tegic Communications, Inc. Spell-check for a keyboard system with automatic correction
US7983915B2 (en) * 2007-04-30 2011-07-19 Sonic Foundry, Inc. Audio content search engine
KR101300839B1 (ko) * 2007-12-18 2013-09-10 삼성전자주식회사 음성 검색어 확장 방법 및 시스템
US8560318B2 (en) * 2010-05-14 2013-10-15 Sony Computer Entertainment Inc. Methods and system for evaluating potential confusion within grammar structure for set of statements to be used in speech recognition during computing event
JP2013125144A (ja) * 2011-12-14 2013-06-24 Nippon Hoso Kyokai <Nhk> 音声認識装置およびそのプログラム
US9135912B1 (en) 2012-08-15 2015-09-15 Google Inc. Updating phonetic dictionaries
US9293129B2 (en) * 2013-03-05 2016-03-22 Microsoft Technology Licensing, Llc Speech recognition assisted evaluation on text-to-speech pronunciation issue detection
US9196246B2 (en) * 2013-06-14 2015-11-24 Mitsubishi Electric Research Laboratories, Inc. Determining word sequence constraints for low cognitive speech recognition
CN103677729B (zh) * 2013-12-18 2017-02-08 北京搜狗科技发展有限公司 一种语音输入方法和系统
KR102380833B1 (ko) * 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
CN105243143B (zh) * 2015-10-14 2018-07-24 湖南大学 基于即时语音内容检测的推荐方法及系统
CN106935239A (zh) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
CN107195296B (zh) * 2016-03-15 2021-05-04 阿里巴巴集团控股有限公司 一种语音识别方法、装置、终端及系统
US10593346B2 (en) * 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
CN107665705B (zh) * 2017-09-20 2020-04-21 平安科技(深圳)有限公司 语音关键词识别方法、装置、设备及计算机可读存储介质
CN108417202B (zh) * 2018-01-19 2020-09-01 苏州思必驰信息科技有限公司 语音识别方法及系统
US10839159B2 (en) * 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
CN109493846B (zh) * 2018-11-18 2021-06-08 深圳市声希科技有限公司 一种英语口音识别系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002215184A (ja) * 2001-01-19 2002-07-31 Casio Comput Co Ltd 音声認識装置、及びプログラム
CN109841209A (zh) 2017-11-27 2019-06-04 株式会社速录抓吧 语音识别设备和系统

Also Published As

Publication number Publication date
KR20210032875A (ko) 2021-03-25
CN112562675A (zh) 2021-03-26
US20210074273A1 (en) 2021-03-11
RU2733816C1 (ru) 2020-10-07
US11270693B2 (en) 2022-03-08
EP3790001B1 (en) 2023-07-12
JP2022503255A (ja) 2022-01-12
JP7116088B2 (ja) 2022-08-09
WO2021046958A1 (zh) 2021-03-18
EP3790001A1 (en) 2021-03-10
CN112562675B (zh) 2024-05-24

Similar Documents

Publication Publication Date Title
KR102334299B1 (ko) 음성 정보 처리 방법, 장치, 프로그램 및 저장 매체
CN107705783B (zh) 一种语音合成方法及装置
CN111369971B (zh) 语音合成方法、装置、存储介质和电子设备
CN110634483A (zh) 人机交互方法、装置、电子设备及存储介质
WO2021128880A1 (zh) 一种语音识别方法、装置和用于语音识别的装置
CN110992927B (zh) 音频生成方法、装置、计算机可读存储介质及计算设备
CN109961791B (zh) 一种语音信息处理方法、装置及电子设备
WO2021208531A1 (zh) 一种语音处理方法、装置和电子设备
CN110083846B (zh) 翻译语音输出方法、装置、存储介质和电子设备
CN105139848B (zh) 数据转换方法和装置
US12014730B2 (en) Voice processing method, electronic device, and storage medium
CN108364635B (zh) 一种语音识别的方法和装置
KR20190068133A (ko) 오디오 데이터에 포함된 음소 정보를 이용하여 어플리케이션을 실행하기 위한 전자 장치 및 그의 동작 방법
CN112037756A (zh) 语音处理方法、装置和介质
CN112735396A (zh) 语音识别纠错方法、装置及存储介质
US20210089726A1 (en) Data processing method, device and apparatus for data processing
CN111640452B (zh) 一种数据处理方法、装置和用于数据处理的装置
CN110930977B (zh) 一种数据处理方法、装置和电子设备
CN105913841B (zh) 语音识别方法、装置及终端
CN112331194A (zh) 一种输入方法、装置和电子设备
KR102567003B1 (ko) 전자 장치 및 그 동작방법
CN106098066B (zh) 语音识别方法及装置
US20220051667A1 (en) Method and device for controlling operation mode of terminal device, and medium
KR20200056754A (ko) 개인화 립 리딩 모델 생성 방법 및 장치
WO2017206133A1 (zh) 语音识别方法及装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant