KR20220112560A - 실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템 - Google Patents

실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템 Download PDF

Info

Publication number
KR20220112560A
KR20220112560A KR1020210016252A KR20210016252A KR20220112560A KR 20220112560 A KR20220112560 A KR 20220112560A KR 1020210016252 A KR1020210016252 A KR 1020210016252A KR 20210016252 A KR20210016252 A KR 20210016252A KR 20220112560 A KR20220112560 A KR 20220112560A
Authority
KR
South Korea
Prior art keywords
speech
time
voice
domain
encoding
Prior art date
Application number
KR1020210016252A
Other languages
English (en)
Other versions
KR102608344B1 (ko
Inventor
최성집
최현집
Original Assignee
주식회사 퀀텀에이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 퀀텀에이아이 filed Critical 주식회사 퀀텀에이아이
Priority to KR1020210016252A priority Critical patent/KR102608344B1/ko
Publication of KR20220112560A publication Critical patent/KR20220112560A/ko
Application granted granted Critical
Publication of KR102608344B1 publication Critical patent/KR102608344B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 감지되는 음성을 기반으로 패킷 변환 처리하여 생성되는 음성 패킷 스트림(Packet Stream) 데이터의 헤더(Header) 파트에 포함된 시간 정보를 이용해 시간 순으로 각 음성 패킷 스트림 데이터의 음성정보를 포함하고 있는 페이로드(Payload) 파트를 연결하여 음성 프레임(Speech Frame)을 생성하는 스트림 통합기(Stream Integrator)로부터 제공되는 상기 음성 프레임을 기반으로 음성 DNA를 생성하고, 생성된 음성 DNA를 이용해 감지된 음성에 대응되는 텍스트를 추출하는 실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템에 관한 것입니다.

Description

실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템 {SPEECH RECOGNITION AND SPEECH DNA GENERATION SYSTEM IN REAL TIME END-TO-END}
본 발명은 스트림 통합기(Stream Integrator)를 통해 감지되는 음성 기반의 음성 패킷 데이터를 이용해 생성되는 음성 프레임을 기반으로 음성 DNA를 생성함과 동시에 감지된 음성에 대응되는 텍스트를 실시간으로 추출함에 있어, 더욱 효율적인 딥러닝 수행 메커니즘과 더욱 신속하고 정확한 음성 인식 결과물로서의 텍스트를 추출 제공 가능한 음성 인식 시스템에 관한 것이다.
음성인식 기술은 키보드나 마우스와 같은 별도의 입력 수단을 이용하기 않고 음성 신호에 반응하여 각종 장비 및 해당 장비가 갖춘 기능적 특성을 제어하는 인터페이스를 구축하는 분야에서, 최근에는 콜센터 운영 및 회의로 자동작성과 같이 특정 업무의 효율성을 높이는 방향으로 까지 영역을 넓혀가고 있다.
이러한 음성 인식 기술은 인공지능의 적용에서부터 해당 인공지능의 학습에 필요한 데이터베이스 구축에 이르기까지 많은 시각과 비용이 소요됨은 물론이고, 이를 제어 관리하는 시스템의 구축 및 더욱 정확한 음성 인식 결과물의 제공 등을 위한 각종 기술적 고도화 및 발전이 요구되고 있는 실정이다.
기존의 음성 인식 시스템을 구축하기 위안 각종 모듈들의 복합적 구조는 하나의 일 예로서 DNN-HMM 기반의 음향 모델과 어휘 사전, 언어 모델을 하나의 decoding network로 구성된 복잡한 구조의 종래 시스템이 존재한다.
이러한 종래 시스템과 대비되어 DNN-HMM 기반 음향모델, weighted finite state transducer (WFST)를 이용한 decoding network, N-gram을 이용한 언어모델로 구성된 복잡한 방법을 대체하여 텍스트에 대한 speech signal 혹은 특징만으로 구성된 네트워크를 이용하는 end-to-end 방식의 시스템 또한 존재한다.
하지만 기존의 end-to-end 방식의 음성 인식 시스템 역시 한국어 음절 단위로 모델의 출력을 구성할 경우 가능한 초성, 중성, 종성의 조합이 총 11,172개의 출력을 필요로는 점과 같은 한국어가 가지고 있는 문자적 특성을 고려할 때 여전히 적용에 어려움이 존재하였다.
이에 따라, 기존의 음성 인식 시스템 및 해당 시스템에 구축되는 각종 모듈, 알고리즘, 모델 등을 한국어의 문자적 특성을 고려하여 최적화시키기 위한 각종 기술적 노력들이 진행되고 있는 실정이다.
이와 관련하여 입력된 음성 신호를 음소 단위로 분석한 결과에 대하여, 문자열 도메인에서 그 음소의 조합과 해석을 통하여 임의로 구성 가능한 단어 사전에서 최적의 인식 결과를 찾아내는 방법의 음성 인식을 처리함에 있어 음절이나 단어 또는 문장 단위를 기반으로 주파수 도메인에서 음성 인식을 처리하는 기존 음성 인식 시스템보다 음성 인식의 인식률과 성능을 효과적으로 향상시키기 위해 마련된 종래기술에 대한 선행문헌에는 대한민국 공개특허공보 제10-2010-0026028호의 "음소 단위(PLU: Phone Like Unit)를 기반으로 하는 음성 인식을 위한 점수 행렬(score matrix) 구축과 음소 단위 순서(PLU sequence)의 최적 경로 처리 기법에 의한 음성 신호의 문자 변환 장치 구현에 대한 방법 연구"(이하, '종래기술'이라고 함)이 있다.
하지만, 종래기술을 비롯한 기존의 음성 인식을 통한 텍스트 제공과 관련한 시스템의 경우, 복잡함 모듈상의 구성을 갖추고 있을 뿐만 아니라 언어의 배치 순서를 확률적으로 계산하는 언어 모델과 기 설정된 별도의 발음 사전이 요구되었으며 음성 인식의 처리 과정상의 기능적 효율이 현저히 낮은 문제점이 있었다.
이 뿐만 아니라, 종래기술을 비롯한 기존의 음성 인식을 통한 텍스트 제공과 관련한 시스템의 경우, 인공지능을 활용한 음성인식 및 이의 학습에 있어 여전히 많은 시간과 비용이 요구되고 있었으며 음성의 화자가 가진 개별적 특징을 고려하지 못할 뿐만 아니라 궁극적으로 적확한 텍스트의 도출에도 도달하지 못하는 문제점이 존재하였다.
본 발명은 상기 문제점을 해결하기 위해 창작된 것으로써, 본 발명의 목적은 복잡함 모듈상의 구성을 갖추고 있을 뿐만 아니라 언어의 배치 순서를 확률적으로 계산하는 언어 모델과 기 설정된 별도의 발음 사전 없이도 음성 패킷 스트림을 기반으로 더욱 신속하고 효율적으로 텍스트를 도출해낼 수 있는 음성 인식 시스템을 제공하는데 있다.
또한, 본 발명의 또 다른 목적은 인공지능을 활용한 음성인식 및 이의 학습에 필요한 각종 학습 데이터의 생성에 있어 시간과 비용 상의 절약이 효과적으로 이루어지며, 음성을 제공하는 화자의 개인적 특성을 고려하여 화자의 인식 및 구별을 기반으로 한 음성 인식이 수행될 수 있어 궁극적으로 음성 인식 결과물로서의 텍스트 정확도를 상당히 고도하게 향상시킨 음성 인식 시스템을 제공하는데 있다.
상기 목적을 달성하기 위하여 본 발명은, 감감지되는 음성을 기반으로 패킷 변환 처리하여 생성되는 음성 패킷 스트림(Packet Stream) 데이터의 헤더(Header) 파트에 포함된 시간 정보를 이용해 시간 순으로 각 음성 패킷 스트림 데이터의 음성정보를 포함하고 있는 페이로드(Payload) 파트를 연결하여 음성 프레임(Speech Frame)을 생성하는 스트림 통합기(Stream Integrator)로부터 제공되는 상기 음성 프레임을 기반으로 음성 DNA를 생성하고, 동시에 감지된 음성에 대응되는 텍스트를 추출하는 실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템에 있어서, 상기 스트림 통합기를 통해 생성된 음성 프레임을 기반으로 시간에 따른 주파수(Frequency) 변화를 벡터화하여 주파수 특징(Frequency Feature)을 나타낸 적어도 하나 이상의 주파수 도메인(Frequency Domain)과 상기 스트림 통합기를 통해 생성된 음성 프레임을 기반으로 시간에 따른 진폭(Amplitude) 변화를 벡터화하여 시간 특징(Time Feature)을 나타낸 적어도 하나 이상의 시간 도메인(Time Domain)을 추출 생성하는 스트림 특징(Stream Feature) 추출부; 및 상기 스트림 특징 추출부를 통해 생성된 주파수 도메인과 시간 도메인을 기반으로 인코딩 및 디코딩 처리를 통해 상호 통합된 음성 DNA를 생성하고, 상기 음성 DNA를 이용해 예측 텍스트(Raw Text)를 도출하는 인코딩/디코딩(Encoding/Decording) 수행부;를 포함한다.
그리고 상기 실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템은, 음성 프레임(Speech Frame)상의 묵음구간(Blank)을 기준으로 구분되는 시작구간과 종료구간이 프레임 별로 태깅(Tagging)되어 스크립트형태로 마련된 학습용 데이터가 기 저장되며, 상기 학습용 데이터를 통해 음성 프레임상의 시작구간과 종료구간에 대한 태깅(Tagging)을 수행하는 기능의 학습이 이루어지는 태깅 알고리즘이 갖춰짐에 따라, 상기 스트림 통합기를 통해 생성된 음성 프레임의 신호 스트림 상의 묵음구간(Blank)을 기준으로 구분되는 시작구간과 종료구간의 태깅(Tagging)을 상기 태깅 알고리즘을 이용해 수행하여 위치가 표지된 특징 스트림(Postinoal Tagged Character Stream) 정보를 생성하는 태깅(Tagging) 수행부;를 더 포함하며. 상기 태깅 수행부에 설치된 태깅 알고리즘은 생성되는 위치가 표지된 특징 스트림 정보를 학습용 데이터로 활용하여 학습을 수행한다.
또한, 상기 인코딩/디코딩 수행부는, 상기 스트림 특징 추출부를 통해 생성된 주파수 도메인을 기 설정된 소정의 주파수 대역별로 구간을 나누어, 각 구간별 특징을 추출하여 인코딩(Encoding)을 수행하는 제1인코딩부분; 상기 스트림 특징 추출부를 통해 생성된 시간 도메인을 기 설정된 소정의 진폭 신호 강도별로 구간을 나누어, 각 구간별 특징을 추출하여 인코딩(Encoding)을 수행하는 제2인코딩부분; 상기 제1인코딩부분을 통해 인코딩을 거친 주파수 대역별 특징 기반의 주파수 도메인을 주 도메인으로 하고, 상기 제2인코딩부분을 토해 인코딩을 거친 진폭 신호 강도별 특징 기반의 시간 도메인을 주 도메인과 관련한 정보 보강을 위한 보조 도메인으로 하여 디코딩(Decoding)을 수행하는 제1디코딩부분; 및 상기 제2인코딩부분을 토해 인코딩을 거친 진폭 신호 강도별 특징 기반의 시간 도메인을 주 도메인으로 하고, 상기 제1인코딩부분을 통해 인코딩을 거친 주파수 대역별 특징 기반의 주파수 도메인을 주 도메인과 관련한 정보 보강을 위한 보조 도메인으로 하여 디코딩(Decoding)을 수행하는 제2디코딩부분;을 포함한다.
아울러, 상기 인코딩/디코딩 수행부는, 상기 제1디코딩부분을 통해 생성되는 제1디코딩 도메인과 상기 제2디코딩부분을 통해 생성되는 제2디코딩 도메인을 통합시켜 종합음성특징 도메인으로서의 상기 음성 DNA를 생성하는 음성 DNA 생성부분; 및 상기 음성 DNA 생성부분을 통해 생성된 상기 음성 DNA의 종합음성특징 도메인을 분석하여 예측 텍스트(Raw Text)를 도출하는 예측 텍스트 생성부분;을 더 포함한다.
여기서, 상기 제1인코딩부분을 통해 추출되는 주파수 대역 구간별 특징은 주파수 도메인상의 전체 시간축 내 특정 시간구간에 걸쳐 주파수 대역 구간별로 특정 문자가 대응되어 위치할 확률에 관한 어텐션(Attention)을 포함하며, 제2인코딩부분을 통해 추출되는 진폭 신호 강도 구간별 특징은 시간 도메인상의 전체 시간축 내 특정 시간구간에 걸쳐 진폭 신호 강도 구간별로 특정 문자가 대응되어 위치할 확률에 관한 어텐션(Attention)을 포함한다.
그리고 상기 실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템은, 자연어 처리(NLP, Natural Language Processing) 알고리즘이 갖춰지며, 상기 태깅 수행부를 통해 생성되는 위치가 표지된 특징 스트림 정보를 기반으로 상기 자연어 처리 알고리즘을 이용해 상기 인코딩/디코딩 수행부를 통해 생성된 예측 텍스트(Raw Text)를 음성 인식 결과물로서의 최종 텍스트로 변환시키는 센텐스 인핸서(Sentence Enhancer)형 텍스트 변환부;를 더 포함한다.
여기서, 상기 센텐스 인핸서형 텍스트 변환부는, 상기 인코딩/디코딩 수행부를 통해 생성된 예측 텍스트(Raw Text)를 이루는 문자간의 연결상태에 대한 상관관계를 분석하여 상기 자연어 처리 알고리즘의 학습에 이용 가능한 제1자연어 처리용 학습 데이터를 생성하는 인코더 형태의 제1자연어 처리 알고리즘 학습부분; 및 상기 제1자연어 처리 알고리즘 학습부분을 통해 생성된 제1자연어 처리용 학습 데이터와 상기 센텐스 인핸서형 텍스트 변환부를 통해 변환 처리된 최종 텍스트 간의 상관관계를 분석하여 상기 자연어 처리 알고리즘의 학습에 이용 가능한 제2자연어 처리용 학습 데이터를 생성하는 디코더 형태의 제2자연어 처리 알고리즘 학습부분;를 포함한다.
또한, 상기 스트림 특징 추출부, 인코딩/디코딩 수행부, 태깅 수행부 및 센텐스 인핸서형 텍스트 변환부는 하나의 메모리 내에 상호 연동 가능한 형태로 구축되어 기능 처리를 수행하게 된다.
본 발명에 의하면 다음과 같은 효과가 있다.
첫째, 복잡함 모듈상의 구성을 갖추고 있을 뿐만 아니라 언어의 배치 순서를 확률적으로 계산하는 언어 모델과 기 설정된 별도의 발음 사전 없이도 음성 패킷 스트림을 기반으로 더욱 신속하고 효율적으로 텍스트를 도출해낼 수 있다.
둘째, 인공지능을 활용한 음성인식 및 이의 학습에 필요한 각종 학습 데이터의 생성에 있어 시간과 비용 상의 절약이 효과적으로 이루어진다.
셋째, 음성을 제공하는 화자의 개인적 특성을 고려하여 화자의 인식 및 구별을 기반으로 한 음성 인식이 수행될 수 있다.
넷째, 궁극적으로 음성 인식 결과물로서의 텍스트 정확도를 상당히 고도하게 향상시킨 음성 인식 시스템을 제공할 수 있다.
도1은 본 발명에 따른 실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템의 구성을 도시한 블럭도이다.
본 발명의 바람직한 실시예에 대하여 첨부된 도면을 참조하여 더 구체적으로 설명하되, 이미 주지된 기술적 부분에 대해서는 설명의 간결함을 위해 생략하거나 압축하기로 한다.
<실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템에 관한 설명>
먼저, 본 발명은 실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템(100)에 관한 것으로, 감지되는 음성을 기반으로 패킷 변환 처리하여 생성되는 음성 패킷 스트림(Packet Stream) 데이터의 헤더(Header) 파트에 포함된 시간 정보를 이용해 시간 순으로 각 음성 패킷 스트림 데이터의 음성정보를 포함하고 있는 페이로드(Payload) 파트를 연결하여 음성 프레임(Speech Frame)을 생성하는 스트림 통합기(Stream Integrator, SI)로부터 제공되는 상기 음성 프레임을 기반으로 음성 DNA를 생성하고, 이와 동시에 감지된 음성에 대응되는 텍스트를 실시간으로 추출하기 위해 도1과 같이 스트림 특징 추출부(110), 인코딩/디코딩 수행부(120), 태깅 수행부(130) 및 센텐스 인핸서형 텍스트 변환부(140)를 포함한다.
우선, 본 발명은 실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템(100)은 E2E ASR(End-to-End Automatic Speech Recognition)을 수행하고, 이를 위한 인공지능 학습구조 및 구성을 갖추고 있다.
특정 화자가 말을 하여 음성을 발생시키면, 해당 음성은 인식 후 디지털 처리되어 Wav 혹은 Pcm과 같은 형태의 파일로 변환된 후 네트워크상의 이용 및 이동을 위해 패킷 처리모듈(미도시)를 통해 패킷 변환 처리되어 음성 패킷 스트림(Packet Stream) 데이터가 된다.
이러한 음성 패킷 스트림(Packet Stream) 데이터는 헤더-페이로드의 각 파트별 영역이 연결된 구조를 기본적으로 갖추고 있으나, 수신되는 데이터가 일정한 시간적 순서를 지켜 순차적으로 정돈되어 수신되는 것이 아니기 때문에 스트림 통합기(SI)를 통해 음성 프레임(Speech Frame)의 형태로 갖춰질 필요가 있다.
구체적으로, 음성 패킷 스트림(Packet Stream) 데이터의 헤더(Header) 파트에는 신호의 출처 및 도착과 관련한 각종 정보를 비롯해 시간 정보 역시 포함되어 있고, 페이로드(Payload) 파트에는 인식된 각종 음성정보가 포함되어 있다.
스트림 특징 추출부(110)는 스트림 통합기(SI)를 통해 생성된 음성 프레임을 기반으로 시간에 따른 주파수(Frequency) 변화를 벡터화하여 주파수 특징(Frequency Feature)을 나타낸 적어도 하나 이상의 주파수 도메인(Frequency Domain)과 스트림 통합기(SI)를 통해 생성된 음성 프레임을 기반으로 시간에 따른 진폭(Amplitude) 변화를 벡터화하여 시간 특징(Time Feature)을 나타낸 적어도 하나 이상의 시간 도메인(Time Domain)을 추출 생성한다.
여기서, 스트림 특징 추출부(110)를 통해 생성되는 주파수 도메인(Frequency Domain)은 시간의 변화에 따른 주파수(Frequency) 변화를 벡터화한 도메인 정보로서 이를 통해 해당 음성의 주파수 특징(Frequency Feature)을 파악할 수 있다.
예를 들어, 주파수 도메인(Frequency Domain)은 x축은 시간의 단위를 나타내어 1초를 수백 혹은 수천의 비트 단위로 나누어 구간을 표시하고, y축은 주파수(Frequency)의 대역 크기를 Hz단위로 나누어 구간을 표시한 형태의 벡터 정보로 마련될 수 있으나 이에 한정되지 아니한다.
또한, 스트림 특징 추출부(110)를 통해 생성되는 시간 도메인(Time Domain)은 시간의 변화에 따른 진폭(Amplitude) 변화를 벡터화한 도메인 정보로서 이를 통해 해당 음성의 시간 특징(Time Feature)을 파악할 수 있다.
예를 들어, 시간 도메인(Time Domain)은 x축은 시간의 단위를 나타내어 1초를 수백 혹은 수천의 비트 단위로 나누어 구간을 표시하고, y축은 진폭(Amplitude)의 신호 강도를 일정 규격으로 나누어 구간을 표시한 형태의 벡터 정보로 마련될 수 있으나 이에 한정되지 아니한다.
인코딩/디코딩(Encoding/Decording) 수행부(120)는 스트림 특징 추출부(110)를 통해 생성된 주파수 도메인과 시간 도메인을 기반으로 인코딩 및 디코딩 처리를 통해 상호 통합된 음성 DNA를 생성하고, 더 나아가 생성된 음성 DNA를 이용해 예측 텍스트(Raw Text)를 도출하는 과정을 거치게 된다.
이를 위해, 인코딩/디코딩 수행부(120)는 제1인코딩부분(121), 제2인코딩부분(122), 제1디코딩부분(123), 제2디코딩부분(124), 음성 DNA 생성부분(125), 예측 텍스트 생성부분(126)을 포함한다.
먼저, 제1인코딩부분(121)은 스트림 특징 추출부(110)를 통해 생성된 주파수 도메인을 기 설정된 소정의 주파수 대역별로 구간을 나누어, 각 구간별 특징을 추출하여 인코딩(Encoding)을 수행한다.
여기서, 제1인코딩부분(121)을 통해 추출되는 주파수 대역 구간별 특징은 주파수 도메인상의 전체 시간축 내 특정 시간구간에 걸쳐 주파수 대역 구간별로 특정 문자가 대응되어 위치할 확률에 관한 어텐션(Attention)을 포함한다.
또한, 제1인코딩부분(121)을 통해 인코딩되는 주파수 대역 구간별 특징 순환신경망(RNN, recurrent neural network)에 관한 정보 역시 포함된다.
이와 동시에, 제2인코딩부분(122)은 스트림 특징 추출부(110)를 통해 생성된 시간 도메인을 기 설정된 소정의 진폭 신호 강도별로 구간을 나누어, 각 구간별 특징을 추출하여 인코딩(Encoding)을 수행한다.
여기서, 제2인코딩부분(122)을 통해 추출되는 진폭 신호 강도 구간별 특징은 시간 도메인상의 전체 시간축 내 특정 시간구간에 걸쳐 진폭 신호 강도 구간별로 특정 문자가 대응되어 위치할 확률에 관한 어텐션(Attention)을 포함한다.
아울러, 또한, 제2인코딩부분(122)을 통해 인코딩되는 진폭 신호 강도 구간별 특징 순환신경망(RNN, recurrent neural network)에 관한 정보 역시 포함된다.
다음으로, 제1디코딩부분(123)은 제1인코딩부분(121)을 통해 인코딩을 거친 주파수 대역별 특징 기반의 주파수 도메인을 주 도메인으로 하고, 제2인코딩부분(122)을 통해 인코딩을 거친 진폭 신호 강도별 특징 기반의 시간 도메인을 주 도메인과 관련한 정보 보강을 위한 보조 도메인으로 하여 디코딩(Decoding)을 수행하게 된다.
이를 통해, 디코딩되어 나오는 도메인의 특징은 주파수 도메인을 통해 나타나고 있는 주파수 특징(Frequency Feature)을 기저로 하여, 부분별로 결여된 시간 특징(Time Feature)이 보강되어 한 번에 주파수 특징과 시간 특징 모두를 파악할 수 있을 뿐만 아니라 상호 보완적으로 더욱 체계화된 멜 스펙트로그램(Mel-Spectrogram) 형태의 벡터 구조를 갖춘 도메인을 얻게 된다.
또한, 제2디코딩부분(124)는 제2인코딩부분(122)을 토해 인코딩을 거친 진폭 신호 강도별 특징 기반의 시간 도메인을 주 도메인으로 하고, 제1인코딩부분(121)을 통해 인코딩을 거친 주파수 대역별 특징 기반의 주파수 도메인을 주 도메인과 관련한 정보 보강을 위한 보조 도메인으로 하여 디코딩(Decoding)을 수행하게 된다.
이를 통해, 디코딩되어 나오는 도메인의 특징은 시간 도메인을 통해 나타나고 있는 시간 특징(Time Feature)을 기저로 하여, 부분별로 결여된 주파수 특징(Frequency Feature)이 보강되어 한 번에 주파수 특징과 시간 특징 모두를 파악할 수 있을 뿐만 아니라 상호 보완적으로 더욱 체계화된 멜 스펙트로그램(Mel-Spectrogram) 형태의 벡터 구조를 갖춘 도메인을 얻게 된다.
다음으로, 음성 DNA 생성부분(125)은 제1디코딩부분(121)을 통해 생성되는 제1디코딩 도메인과 제2디코딩부분(122)을 통해 생성되는 제2디코딩 도메인을 통합시켜 종합적인 특정 화자의 음성특징이 반영된 종합음성특징을 나타내어 화자별로 구분되어 식별 데이터로 활용 가능한 형태인 벡터화된 정보로서의 음성 DNA를 생성하게 된다.
이를 통해, 음성 DNA는 화자를 구분하여 인식하며 음성인식을 수행함에 이용될 뿐만 아니라, 아래 설명될 인공지능 기반의 음성인식에 요구되는 각종 텍스트 도출과 관련한 알고리즘들의 학습에도 화자별로 구분하여 특징을 학습할 수 있도록 할 수 있다.
예측 텍스트 생성부분(126)은 음성 DNA 생성부분(125)을 통해 생성된 상기 음성 DNA의 종합음성특징 도메인을 분석하여 예측 텍스트(Raw Text)를 도출하게 된다.
여기서, 예측 텍스트(Raw Text)는 아래 설명될 음성 신호 내 묵음구간을 이용해 도출되는 특정 문자, 단어, 혹은 문장 단위의 시작구간과 종료구간을 태깅하는 과정과 자연어 처리 과정을 거치지 않은 예비적인 1차 텍스트 도출 결과에 해당한다.
구체적으로, 예측 텍스트 생성부분(126)은 화자의 음성에 완전하지는 않지만 상당부분 대응되는 예측 텍스트(Raw Text)를 도출하기 위한 별도의 기능 수행 알고리즘을 갖추고 있도록 실시할 수 있으며, 해당 알고리즘 실시에 따라 별도의 모듈로 독립되어 구성을 추가로 갖추거나, 아래 설명될 센텐스 인핸서형 텍스트 변환부(140)에 반영시킬 수도 있으나 특정하게 한정되지 아니한다.
태깅(Tagging) 수행부(130)는 음성 프레임상의 묵음구간(Blank)을 기준으로 구분되는 시작구간과 종료구간의 위치 표지가 태깅을 통해 이루어진 결과물로서 위치가 표지된 특징 스트림(Postinoal Tagged Character Stream) 정보를 생성한다.
여기서, 태깅(Tagging) 수행부(130)는 우선적으로 음성 프레임상의 묵음구간(Blank)을 기준으로 구분되는 시작구간과 종료구간이 데이터 별로 태깅(Tagging)되어 스크립트형태로 마련된 학습용 데이터가 기 저장하기 위한 별도의 데이터 베이스로서 학습용 데이터 저장공간(130M)이 구비될 수 있으며, 실시에 따라 시스템 전체상에 별도의 데이터베이스가 독립적으로 구성되어 상호 연동을 통한 태깅(Tagging) 수행부(130)의 기능 수행이 이루어지도록 구현될 수 있으나 이에 한정되지 않는다.
또한, 태깅(Tagging) 수행부(130)는 학습용 데이터 저장공간(130M)에 기 저장된 학습용 데이터를 통해 음성 프레임상의 시작구간과 종료구간에 대한 태깅(Tagging)을 수행하는 기능의 학습이 이루어지는 태깅 알고리즘(130A)이 갖춰진다.
이에 따라, 태깅(Tagging) 수행부(130)는 스트림 통합기(SI)를 통해 생성된 음성 프레임상의 묵음구간(Blank)을 기준으로 구분되는 시작구간과 종료구간의 태깅(Tagging)을 기 마련되어 학습을 거친 태깅 알고리즘을 이용해 수행하게 되며, 이와 같은 태깅 기능의 수행에는 제1인코딩부분(121)을 통해 인코딩을 거친 주파수 대역별 특징 기반의 주파수 도메인, 제2인코딩부분(122)을 토해 인코딩을 거친 진폭 신호 강도별 특징 기반의 시간 도메인, 제1디코딩부분(121)을 통해 생성되는 제1디코딩 도메인, 제2디코딩부분(122)을 통해 생성되는 제2디코딩 도메인 및 예측 텍스트 생성부분(126)을 통해 생성된 예측 텍스트 중 적어도 하나 이상의 정보를 기반으로 활용하여 진행되게 된다.
결과적으로, 위치가 표지된 특징 스트림(Postinoal Tagged Character Stream) 정보가 생성되고, 해당 정보는 태깅 알고리즘의 학습용 데이터로 활용되어 학습 수행과정에 제공되게 되고, 실시에 따라 앞 서 설명한 학습용 데이터 저장공간(130M)에 구분되어 저장 관리될 수도 있다.
센텐스 인핸서(Sentence Enhancer)형 텍스트 변환부(140)는 내부에 별도의 자연어 처리(NLP, Natural Language Processing) 알고리즘(140A)이 갖춰지며, 태깅 수행부(130)를 통해 생성되는 위치가 표지된 특징 스트림 정보를 기반으로 자연어 처리 알고리즘(140A)을 이용해 인코딩/디코딩 수행부(120)를 통해 생성된 예측 텍스트(Raw Text)를 음성 인식 결과물로서의 최종 텍스트로 변환시킨다.
이와 같이, 예측 텍스트(Raw Text)를 자연어 처리과정을 거쳐 변환되는 음성 인식 결과물로서의 최종 텍스트는 화자가 내뱉은 음성에 더욱 정확하게 대응되는 결과를 갖추게 되어 기능의 신뢰도를 더욱 높이게 된다.
더욱이, 센텐스 인핸서(Sentence Enhancer)형 텍스트 변환부(140)는 자연어 처리 알고리즘(140A)의 학습을 통해 기능적 개선이 지속적으로 이루어질 수 있도록 제1자연어 처리 알고리즘 학습부분(141)과 제2자연어 처리 알고리즘 학습부분(142)를 더 포함하게 된다.
우선, 제1자연어 처리 알고리즘 학습부분(141)은 하나의 인코더로서 인코딩/디코딩 수행부(120)를 통해 생성된 예측 텍스트(Raw Text)를 이루는 문자간의 연결상태에 대한 상관관계를 분석하여 자연어 처리 알고리즘(140A)의 학습에 이용 가능한 제1자연어 처리용 학습 데이터를 생성한다.
다음으로, 제2자연어 처리 알고리즘 학습부분(142)은 하나의 디코더로서 제1자연어 처리 알고리즘 학습부분(141)을 통해 생성된 제1자연어 처리용 학습 데이터와 센텐스 인핸서형 텍스트 변환부(140)를 통해 변환 처리된 최종 텍스트 간의 상관관계를 분석하여 상기 자연어 처리 알고리즘의 학습에 이용 가능한 제2자연어 처리용 학습 데이터를 생성한다.
이와 같이, 생성되는 제1자연어 처리용 학습 데이터 및 제2자연어 처리용 학습 데이터는 별도의 데이터베이스 공간에 기록 저장 가능하며, 이를 자연어 처리 알고리즘(140A)이 학습에 활용하여 자연어 처리와 관련한 딥러닝이 진행될 수 있게 구현 가능하다.
그리고 앞 서 설명한 스트림 특징 추출부(110), 인코딩/디코딩 수행부(120), 태깅 수행부(130) 및 센텐스 인핸서형 텍스트 변환부(140)는 하나의 메모리(M) 내에 상호 연동 가능한 형태로 같이 구축되어 기능 처리를 수행하게 됨에 따라, 더욱 신속하고 효율적인 음성인식 기능의 수행이 이루어질 수 있게 된다.
이는 더욱이 음성 시스템 내에 구성 및 구조를 구축함에 있어 더욱 간소화되어 복잡성을 최소화시킴으로서 기능적, 비용적 효율을 충분히 높게 마련할 수 있다.
본 발명에 개시된 실시예는 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의해서 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 보호범위는 아래 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.
100 : 실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템
110 : 스트림 특징 추출부
120 : 인코딩/디코딩 수행부
121 : 제1인코딩부분 122 : 제2인코딩부분
123 : 제1디코딩부분 124 : 제2디코딩부분
125 : 음성 DNA 생성부분 125 : 예측 텍스트 생성부분
130 : 태깅 수행부
130M : 학습용 데이터 저장공간
130A : 태깅 알고리즘
140 : 센텐스 인핸서형 텍스트 변환부
141 : 제1자연어 처리 알고리즘 학습부분
142 : 제2자연어 처리 알고리즘 학습부분
140A : 자연어 처리 알고리즘
SI : 스트림 통합기
M : 메모리

Claims (8)

  1. 감지되는 음성을 기반으로 패킷 변환 처리하여 생성되는 음성 패킷 스트림(Packet Stream) 데이터의 헤더(Header) 파트에 포함된 시간 정보를 이용해 시간 순으로 각 음성 패킷 스트림 데이터의 음성정보를 포함하고 있는 페이로드(Payload) 파트를 연결하여 음성 프레임(Speech Frame)을 생성하는 스트림 통합기(Stream Integrator)로부터 제공되는 상기 음성 프레임을 기반으로 음성 DNA를 생성하고, 동시에 감지된 음성에 대응되는 텍스트를 추출하는 실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템에 있어서,
    상기 스트림 통합기를 통해 생성된 음성 프레임을 기반으로 시간에 따른 주파수(Frequency) 변화를 벡터화하여 주파수 특징(Frequency Feature)을 나타낸 적어도 하나 이상의 주파수 도메인(Frequency Domain)과 상기 스트림 통합기를 통해 생성된 음성 프레임을 기반으로 시간에 따른 진폭(Amplitude) 변화를 벡터화하여 시간 특징(Time Feature)을 나타낸 적어도 하나 이상의 시간 도메인(Time Domain)을 추출 생성하는 스트림 특징(Stream Feature) 추출부; 및
    상기 스트림 특징 추출부를 통해 생성된 주파수 도메인과 시간 도메인을 기반으로 인코딩 및 디코딩 처리를 통해 상호 통합된 음성 DNA를 생성하고, 상기 음성 DNA를 이용해 예측 텍스트(Raw Text)를 도출하는 인코딩/디코딩(Encoding/Decording) 수행부;를 포함하는 것을 특징으로 하는
    실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템.
  2. 제1항에 있어서,
    상기 실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템은,
    음성 프레임(Speech Frame)상의 묵음구간(Blank)을 기준으로 구분되는 시작구간과 종료구간이 프레임 별로 태깅(Tagging)되어 스크립트형태로 마련된 학습용 데이터가 기 저장되며, 상기 학습용 데이터를 통해 음성 프레임상의 시작구간과 종료구간에 대한 태깅(Tagging)을 수행하는 기능의 학습이 이루어지는 태깅 알고리즘이 갖춰짐에 따라, 상기 스트림 통합기를 통해 생성된 음성 프레임의 신호 스트림 상의 묵음구간(Blank)을 기준으로 구분되는 시작구간과 종료구간의 태깅(Tagging)을 상기 태깅 알고리즘을 이용해 수행하여 위치가 표지된 특징 스트림(Postinoal Tagged Character Stream) 정보를 생성하는 태깅(Tagging) 수행부;를 더 포함하며.
    상기 태깅 수행부에 설치된 태깅 알고리즘은 생성되는 위치가 표지된 특징 스트림 정보를 학습용 데이터로 활용하여 학습을 수행하는 것을 특징으로 하는
    실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템.
  3. 제2항에 있어서,
    상기 인코딩/디코딩 수행부는,
    상기 스트림 특징 추출부를 통해 생성된 주파수 도메인을 기 설정된 소정의 주파수 대역별로 구간을 나누어, 각 구간별 특징을 추출하여 인코딩(Encoding)을 수행하는 제1인코딩부분;
    상기 스트림 특징 추출부를 통해 생성된 시간 도메인을 기 설정된 소정의 진폭 신호 강도별로 구간을 나누어, 각 구간별 특징을 추출하여 인코딩(Encoding)을 수행하는 제2인코딩부분;
    상기 제1인코딩부분을 통해 인코딩을 거친 주파수 대역별 특징 기반의 주파수 도메인을 주 도메인으로 하고, 상기 제2인코딩부분을 토해 인코딩을 거친 진폭 신호 강도별 특징 기반의 시간 도메인을 주 도메인과 관련한 정보 보강을 위한 보조 도메인으로 하여 디코딩(Decoding)을 수행하는 제1디코딩부분; 및
    상기 제2인코딩부분을 토해 인코딩을 거친 진폭 신호 강도별 특징 기반의 시간 도메인을 주 도메인으로 하고, 상기 제1인코딩부분을 통해 인코딩을 거친 주파수 대역별 특징 기반의 주파수 도메인을 주 도메인과 관련한 정보 보강을 위한 보조 도메인으로 하여 디코딩(Decoding)을 수행하는 제2디코딩부분;을 포함하는 것을 특징으로 하는
    실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템.
  4. 제3항에 있어서,
    상기 인코딩/디코딩 수행부는,
    상기 제1디코딩부분을 통해 생성되는 제1디코딩 도메인과 상기 제2디코딩부분을 통해 생성되는 제2디코딩 도메인을 통합시켜 종합음성특징 도메인으로서의 상기 음성 DNA를 생성하는 음성 DNA 생성부분; 및
    상기 음성 DNA 생성부분을 통해 생성된 상기 음성 DNA의 종합음성특징 도메인을 분석하여 예측 텍스트(Raw Text)를 도출하는 예측 텍스트 생성부분;을 더 포함하는 것을 특징으로 하는
    실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템.
  5. 제3항에 있어서,
    상기 제1인코딩부분을 통해 추출되는 주파수 대역 구간별 특징은 주파수 도메인상의 전체 시간축 내 특정 시간구간에 걸쳐 주파수 대역 구간별로 특정 문자가 대응되어 위치할 확률에 관한 어텐션(Attention)을 포함하며,
    제2인코딩부분을 통해 추출되는 진폭 신호 강도 구간별 특징은 시간 도메인상의 전체 시간축 내 특정 시간구간에 걸쳐 진폭 신호 강도 구간별로 특정 문자가 대응되어 위치할 확률에 관한 어텐션(Attention)을 포함하는 것을 특징으로 하는
    실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템.
  6. 제2항에 있어서,
    상기 실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템은,
    자연어 처리(NLP, Natural Language Processing) 알고리즘이 갖춰지며, 상기 태깅 수행부를 통해 생성되는 위치가 표지된 특징 스트림 정보를 기반으로 상기 자연어 처리 알고리즘을 이용해 상기 인코딩/디코딩 수행부를 통해 생성된 예측 텍스트(Raw Text)를 음성 인식 결과물로서의 최종 텍스트로 변환시키는 센텐스 인핸서(Sentence Enhancer)형 텍스트 변환부;를 더 포함하는 것을 특징으로 하는
    실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템.

  7. 제6항에 있어서,
    상기 센텐스 인핸서형 텍스트 변환부는,
    상기 인코딩/디코딩 수행부를 통해 생성된 예측 텍스트(Raw Text)를 이루는 문자간의 연결상태에 대한 상관관계를 분석하여 상기 자연어 처리 알고리즘의 학습에 이용 가능한 제1자연어 처리용 학습 데이터를 생성하는 인코더 형태의 제1자연어 처리 알고리즘 학습부분; 및
    상기 제1자연어 처리 알고리즘 학습부분을 통해 생성된 제1자연어 처리용 학습 데이터와 상기 센텐스 인핸서형 텍스트 변환부를 통해 변환 처리된 최종 텍스트 간의 상관관계를 분석하여 상기 자연어 처리 알고리즘의 학습에 이용 가능한 제2자연어 처리용 학습 데이터를 생성하는 디코더 형태의 제2자연어 처리 알고리즘 학습부분;를 포함하는 것을 특징으로 하는
    실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템.
  8. 제7항에 있어서,
    상기 스트림 특징 추출부, 인코딩/디코딩 수행부, 태깅 수행부 및 센텐스 인핸서형 텍스트 변환부는 하나의 메모리 내에 상호 연동 가능한 형태로 구축되어 기능 처리를 수행하게 되는 것을 특징으로 하는
    실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템.
KR1020210016252A 2021-02-04 2021-02-04 실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템 KR102608344B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210016252A KR102608344B1 (ko) 2021-02-04 2021-02-04 실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210016252A KR102608344B1 (ko) 2021-02-04 2021-02-04 실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템

Publications (2)

Publication Number Publication Date
KR20220112560A true KR20220112560A (ko) 2022-08-11
KR102608344B1 KR102608344B1 (ko) 2023-11-29

Family

ID=82803428

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210016252A KR102608344B1 (ko) 2021-02-04 2021-02-04 실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템

Country Status (1)

Country Link
KR (1) KR102608344B1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980032825A (ko) * 1996-10-18 1998-07-25 이데이노브유끼 음성 분석 방법 및 음성 부호화 방법 및 장치
KR20010108402A (ko) * 1999-03-26 2001-12-07 요트.게.아. 롤페즈 클라이언트 서버 음성 인식
KR20130133629A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
KR20140089795A (ko) * 2013-01-07 2014-07-16 엘지전자 주식회사 홈 어플라이언스 및 그 동작방법
KR20140106715A (ko) * 2012-03-08 2014-09-03 엘지전자 주식회사 다수의 디바이스 음성 제어 장치 및 방법
KR20190002812A (ko) * 2017-06-30 2019-01-09 삼성에스디에스 주식회사 음성 인식 방법 및 그 장치

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980032825A (ko) * 1996-10-18 1998-07-25 이데이노브유끼 음성 분석 방법 및 음성 부호화 방법 및 장치
KR20010108402A (ko) * 1999-03-26 2001-12-07 요트.게.아. 롤페즈 클라이언트 서버 음성 인식
KR20140106715A (ko) * 2012-03-08 2014-09-03 엘지전자 주식회사 다수의 디바이스 음성 제어 장치 및 방법
KR20130133629A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
KR20140089795A (ko) * 2013-01-07 2014-07-16 엘지전자 주식회사 홈 어플라이언스 및 그 동작방법
KR20190002812A (ko) * 2017-06-30 2019-01-09 삼성에스디에스 주식회사 음성 인식 방법 및 그 장치

Also Published As

Publication number Publication date
KR102608344B1 (ko) 2023-11-29

Similar Documents

Publication Publication Date Title
Ghai et al. Literature review on automatic speech recognition
CN110364171B (zh) 一种语音识别方法、语音识别系统及存储介质
Arora et al. Automatic speech recognition: a review
CN112002308A (zh) 一种语音识别方法及装置
CN113470662A (zh) 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配
CN112581963B (zh) 一种语音意图识别方法及系统
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
CN115910066A (zh) 用于区域配电网的智能调度指挥与运营系统
KR20160061071A (ko) 발음 변이를 적용시킨 음성 인식 방법
Ananthi et al. Speech recognition system and isolated word recognition based on Hidden Markov model (HMM) for Hearing Impaired
Kadambe et al. Language identification with phonological and lexical models
KR102608344B1 (ko) 실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템
JP2001195087A (ja) 音声認識システム
KR102299269B1 (ko) 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치
Azim et al. Using Character-Level Sequence-to-Sequence Model for Word Level Text Generation to Enhance Arabic Speech Recognition
JPH07230294A (ja) 言語識別装置
KR102358087B1 (ko) 발달 장애인 음성 인식 점수 산출 장치 및 그 방법
Achour et al. Review of Automatic Speech Recognition Methodologies
Mahmud Performance Analysis of Different Acoustic Features Based on LSTM for Bangla Speech Recognition
KR20180057315A (ko) 자연어 발화 음성 판별 시스템 및 방법
US20240203398A1 (en) Multi-modal voice recognition system and method for conversation summarization
Kumaran et al. Attention shift decoding for conversational speech recognition.
KR102300303B1 (ko) 발음 변이를 적용시킨 음성 인식 방법
KR102382191B1 (ko) 음성 감정 인식 및 합성의 반복 학습 방법 및 장치
JPH08110790A (ja) 音声認識装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right