KR20230036891A - 음성 신호 대응 응답 텍스트 처리 장치 및 방법 - Google Patents

음성 신호 대응 응답 텍스트 처리 장치 및 방법 Download PDF

Info

Publication number
KR20230036891A
KR20230036891A KR1020210119945A KR20210119945A KR20230036891A KR 20230036891 A KR20230036891 A KR 20230036891A KR 1020210119945 A KR1020210119945 A KR 1020210119945A KR 20210119945 A KR20210119945 A KR 20210119945A KR 20230036891 A KR20230036891 A KR 20230036891A
Authority
KR
South Korea
Prior art keywords
voice
chatbot
decoder
response text
speech
Prior art date
Application number
KR1020210119945A
Other languages
English (en)
Inventor
전형배
강병옥
강점자
박전규
오유리
정훈
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020210119945A priority Critical patent/KR20230036891A/ko
Publication of KR20230036891A publication Critical patent/KR20230036891A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/02User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

음성 신호 대응 응답 텍스트 처리 장치 및 방법이 개시된다. 본 발명의 일실시예에 따른 음성 신호 대응 응답 텍스트 처리 장치는 음성 신호를 입력 받아 임베딩을 수행하여 음성 임베딩 벡터를 생성하는 음성-챗봇 인코더 및 상기 음성 임베딩 벡터에 포함된 음향 정보와 언어 정보를 해석하여 응답 텍스트 데이터를 생성하는 음성-챗봇 디코더를 포함한다.

Description

음성 신호 대응 응답 텍스트 처리 장치 및 방법 {APPARATUS AND METHOD FOR PROCESSING RESPONSE TEXT CORRESPONDING TO SPEECH SIGNAL}
본 발명은 지능형 로봇 기술에 관한 것으로, 보다 상세하게는 음성 신호 대응 응답 텍스트 처리 기술에 관한 것이다.
지능형 로봇이나 모바일 에이전트의 대화시스템은 음성인식 기능과 대화처리 기능을 순차적으로 수행하여 서비스를 수행한다. 음성인식과 대화처리 기술 각각은 딥러닝을 통해 성능이 높아졌고, 이를 통해 음성 인터페이스 기반 대화시스템의 성능도 높아지고 있다. 하지만, 음성인식과 대화처리를 순차적으로 수행하는 구조적인 특징으로 인해 음성인식에서의 인식 오류가 대화처리에 입력으로 사용되며 오류가 전파되는 문제점을 가지고 있다.
한편, 한국등록특허 제 10-1710921 호“대화형 음성봇 서버 및 이를 이용한 무인 상담 방법”는 다양한 종류의 음성봇에 공통으로 들어가는 기능을 모듈화한 대화형 음성봇 서버를 이용하여 콜처리, 시나리오 관리 및 구어체 처리 기능을 제공하는 시스템 및 방법에 관하여 개시하고 있다.
본 발명은 음성인식 오류의 전파를 방지하고 대화 시스템의 성능을 향상시키는 것을 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 일실시예에 따른 음성 신호 대응 응답 텍스트 처리 장치는 음성 신호를 입력 받아 임베딩을 수행하여 음성 임베딩 벡터를 생성하는 음성-챗봇 인코더 및 상기 음성 임베딩 벡터에 포함된 음향 정보와 언어 정보를 해석하여 응답 텍스트 데이터를 생성하는 음성-챗봇 디코더를 포함한다.
또한, 상기한 목적을 달성하기 위한 본 발명의 일실시예에 따른 음성 신호 대응 응답 텍스트 처리 방법은 음성 신호 대응 응답 텍스트 처리 장치의 음성 신호 대응 응답 텍스트 처리 방법에 있어서, 음성 신호를 입력 받아 임베딩을 수행하여 음성 임베딩 벡터를 생성하는 단계 및 상기 음성 임베딩 벡터에 포함된 음향 정보와 언어 정보를 해석하여 응답 텍스트 데이터를 생성하는 단계를 포함한다.
본 발명은 음성인식 오류의 전파를 방지하고 대화 시스템의 성능을 향상시킬 수 있다.
도 1 및 도 2는 본 발명의 일실시예에 따른 음성 신호 대응 응답 텍스트 처리 장치를 나타낸 블록도이다.
도 3은 본 발명의 일실시예에 따른 기계 학습을 위한 데이터베이스들을 나타낸 도면이다.
도 4는 본 발명의 일실시예에 따른 음성 신호 대응 응답 텍스트 처리 방법을 나타낸 동작흐름도이다.
도 5는 도 4에 도시된 모델 학습 단계의 일 예를 세부적으로 나타낸 동작흐름도이다.
도 6은 본 발명의 일실시예에 따른 컴퓨터 시스템을 나타낸 도면이다.
본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1 및 도 2는 본 발명의 일실시예에 따른 음성 신호 대응 응답 텍스트 처리 장치를 나타낸 블록도이다. 도 3은 본 발명의 일실시예에 따른 기계 학습을 위한 데이터베이스들을 나타낸 도면이다.
도 1을 참조하면, 본 발명의 일실시예에 따른 음성 신호 대응 응답 텍스트 처리 장치는 음성-챗봇 인코더(110), 음성-챗봇 디코더(120), 스피치 디코더(130) 및 챗봇 인코더(140)를 포함한다.
도 1은 SPEECH SIGNAL "에어컨이 망가졌어요"를 발성한 예제에 대한 동작설명을 나타낸 것을 알 수 있다.
음성-챗봇 인코더(110)와 음성-챗봇 디코더(120)는 Sequence-to-Sequence 구조의 종단형 음성 인식 구조와 유사한 인코더-디코더(Encoder-Decoder) 구조로 구성될 수 있다.
음성-챗봇 인코더(110)는 음성 신호를 입력 받아 임베딩을 수행하여 음성 임베딩 벡터(Speech Embedding Vector)를 생성할 수 있다.
이 때, 음성-챗봇 인코더(110)는 음성 신호를 잠재 공간(latent space)으로 임베딩을 수행할 수 있다.
이 때, 음성 임베딩 벡터는 음향 정보 및 발화 전체 음성의 문맥적 언어 정보를 포함할 수 있다.
음성-챗봇 디코더(120)는 상기 음성 임베딩 벡터에 포함된 음향 정보와 언어 정보를 해석하여 응답 텍스트 데이터를 생성할 수 있다.
이 때, 음성-챗봇 디코더(120)는 입력 발화에 응답으로 적합한 문자열을 응답 텍스트 데이터로 생성할 수 있다.
이 때, 음성-챗봇 디코더(120)는 텍스트 임베딩 벡터(Text Embedding vector)를 추가로 입력 받아 더욱 적절한 응답 텍스트 데이터를 생성할 수 있다.
또한, 음성-챗봇 인코더(110) 및 음성-챗봇 디코더(120)는Sequence-to-Sequence 구조로 구성되어, RNN 계열의 LSTM, Transformer, Conformer 등의 네트워크로 정의하여 기계학습에 기반하여 모델 학습을 수행할 수 있다.
스피치 디코더(130)는 음성 임베딩 벡터에 대한 ASR(Automatic Speech Recognition)의 교차 엔트로피 손실(Cross-Entropy Loss)를 계산할 수 있다.
챗봇 인코더(140)는 음성이 없이 서비스 도메인의 대화 텍스트 데이터만 추가로 구축하는 경우, 텍스트 임베딩 벡터를 생성하여 음성-챗봇 디코더(120)를 통해 응답 텍스트를 생성하고, 대화 텍스트 데이터에 대한 평가 지표로 Bleu Score Loss(Bilingual Evaluation Understudy Score Loss) 를 계산하여 음성-챗봇 디코더(120)를 학습할 수 있도록 한다.
이 때, 챗봇 인코더(140)는 스피치 디코더(130)가 출력한 시스템 입력 텍스트 데이터를 입력 받아 텍스트 임베딩 벡터를 생성할 수 있다.
이 때, 음성-챗봇 디코더(120)는 평가 지표로 Bleu Score Loss 를 이용하여 챗봇 인코더(140)로부터 입력 받은 텍스트 임베딩 벡터로부터 응답 텍스트 데이터에 대한 학습을 수행할 수 있다.
이 때, 음성-챗봇 디코더(120)는 서비스 도메인 음성 데이터에 기반한 학습과정을 통해 음성-챗봇 인코더(110)에서 생성한 음성 임베딩 벡터를 입력으로 하여 응답 텍스트를 생성하고, 평가 지표로 Bleu Score Loss 를 이용하여 학습을 수행할 수 있다.
이 때, 음성-챗봇 디코더(120)는 서비스 도메인 음성 데이터에 기반한 학습 과정을 통해 음성 임베딩 벡터를 학습할 수 있고, 스피치 디코더(130)의 음성 임베딩 벡터에 대한 ASR(Automatic Speech Recognition)의 교차 엔트로피 손실(Cross-Entropy Loss)를 보조적으로 사용하여 학습을 수행할 수 있다.
도 2를 참조하면, 학습이 완료된 음성 신호 대응 응답 텍스트 처리 장치에서는 학습에 사용되는 스피치 디코더(130)와 챗봇 인코더(140)가 없이 음성-챗봇 인코더(110) 및 음성-챗봇 디코더(120)를 이용하여 입력받은 음성 신호로부터 응답 텍스트 데이터를 출력하는 과정을 나타낸 것을 알 수 있다.
도 3을 참조하면, 음성-챗봇 인코더(110) 및 음성-챗봇 디코더(120)의 학습을 위한 데이터를 제공하는 데이터베이스들(151, 152, 153, 154)을 나타낸 것을 알 수 있다.
이 때, 음성-챗봇 인코더(110) 및 스피치 디코더(130)는 대량의 음성 데이터 및 전사데이터(Transcription Data)(151)에 기반한 Seq2Seq ASR 사전 학습을 수행할 수 있다.
이 때, 음성-챗봇 인코더(110) 및 스피치 디코더(130)의 입력은 음성데이터에 상응할 수 있다.
이 때, 스피치 인코더(130)의 타겟은 전사데이터 이며, 음성-챗봇 인코더(110) 및 스피치 디코더(130)는 Speech Encoder - Speech Decoder 구조의 음성인식 학습을 수행할 수 있다.
또한, 음성-챗봇 디코더(120) 및 챗봇 인코더(140)는 대량의 대화 텍스트(사용자 입력 텍스트 데이터 및 시스템 응답 텍스트 데이터)(152)에 기반한 Seq2Seq 챗봇 사전학습을 수행할 수 있다.
이 때, 음성-챗봇 디코더(120) 및 챗봇 인코더(140)는 대량의 대화 텍스트 데이터(사용자 입력 텍스트 데이터 및 시스템 응답 텍스트 데이터)(152) 기반 학습을 수행할 수 있다.
이 때, 입력은 사용자 입력 텍스트 데이터이고, 음성-챗봇 디코더(120)의 학습 타겟은 시스템 응답 텍스트 데이터이며, 음성-챗봇 디코더(120)는 Chatbot Encoder - Chatbot Decoder 구조의 챗봇 모델 학습을 수행할 수 있다.
또한, 음성-챗봇 인코더(110) 및 음성-챗봇 디코더(120)는 음성 데이터에 기반한 학습(Fine-Tuning)을 수행할 수 있다.
음성-챗봇 인코더(110) 및 음성-챗봇 디코더(120)는 도메인 음성데이터, 전사데이터, 시스템 응답 텍스트 데이터(153)에 기반한 학습을 수행할 수 있다.
이 때, 입력은 음성데이터, 음성-챗봇 디코더(120)의 학습 타겟은 시스템 응답 텍스트 데이터, 스피치 디코더(130)의 학습 타겟은 전사데이터에 상응할 수 있다.
이 때, 사전 학습된 음성-챗봇 인코더(110), 음성-챗봇 디코더(120) 및 스피치 디코더(130)는 시스템 응답 텍스트 데이터에 기반한 추가 학습을 수행할 수 있다.
또한, 음성-챗봇 디코더(120)는 텍스트 데이터에 기반한 학습(Fine-Tuning)을 수행할 수 있다.
이 때, 음성-챗봇 디코더(120) 및 챗봇 인코더(140)는 서비스 도메인 사용자 입력 텍스트 및 시스템 응답 텍스트 데이터(154)에 기반한 학습(Fine-Tuning)을 수행할 수 있다.
이 때, 입력은 사용자 입력 텍스트 데이터, 음성-챗봇 디코더(120)의 학습 타겟은 시스템 응답 텍스트 데이터에 상응할 수 있다.
이 때, 음성-챗봇 디코더(120)는 서비스 도메인 대화 데이터에 기반한 학습 과정을 통해 동일한 의미의 다양한 사용자 입력 문장 패턴에 대해서도 추가 학습을 수행할 수 있다.
또한, 음성-챗봇 인코더(110) 및 음성-챗봇 디코더(120)는 서비스 도메인 음성 데이터에 기반한 학습과 서비스 도메인 대화 데이터에 기반한 학습 결과가 수렴하는지 판단하고, 수렴하지 않는 경우, 음성 데이터와 텍스트 데이터에 기반한 학습을 반복적으로 수행할 수 있다.
도 4는 본 발명의 일실시예에 따른 음성 신호 대응 응답 텍스트 처리 방법을 나타낸 동작흐름도이다. 도 5는 도 4에 도시된 모델 학습 단계의 일 예를 세부적으로 나타낸 동작흐름도이다.
도 4를 참조하면, 본 발명의 일실시예에 따른 음성 신호 대응 응답 텍스트 처리 방법은 먼저 음성 데이터를 입력 받을 수 있다(S210).
즉, 단계(S210)는 음성-챗봇 인코더(110)가 음성 데이터를 입력 받아 임베딩을 수행하여 음성 임베딩 벡터(Speech Embedding Vector)를 생성할 수 있다.
이 때, 단계(S210)는 음성 데이터를 잠재 공간(latent space)으로 임베딩을 수행할 수 있다.
이 때, 음성 임베딩 벡터는 음향 정보 및 발화 전체 음성의 문맥적 언어 정보를 포함할 수 있다.
또한, 본 발명의 일실시예에 따른 음성 신호 대응 응답 텍스트 처리 방법은 응답 텍스트 데이터를 생성할 수 있다(S220).
즉, 단계(S220)는 음성-챗봇 디코더(120)가 상기 음성 임베딩 벡터에 포함된 음향 정보와 언어 정보를 해석하여 응답 텍스트 데이터를 생성할 수 있다.
이 때, 단계(S220)는 입력 발화에 응답으로 적합한 문자열을 응답 텍스트 데이터로 생성할 수 있다.
이 때, 단계(S220)는 텍스트 임베딩 벡터(Text Embedding vector)를 추가로 입력 받아 더욱 적절한 응답 텍스트 데이터를 생성할 수 있다.
또한, 본 발명의 일실시예에 따른 음성 신호 대응 응답 텍스트 처리 방법은 음성 신호 대응 응답 텍스트 처리를 위한 모델을 학습할 수 있다(S230).
즉, 단계(S230)는 음성-챗봇 인코더(110) 및 음성-챗봇 디코더(120)가Sequence-to-Sequence 구조로 구성되어, RNN 계열의 LSTM, Transformer, Conformer 등의 네트워크로 정의하여 기계학습에 기반하여 모델 학습을 수행할 수 있다.
이 때, 단계(S230)는 스피치 디코더(130)가, 음성 임베딩 벡터에 대한 ASR(Automatic Speech Recognition)의 교차 엔트로피 손실(Cross-Entropy Loss)를 계산할 수 있다.
이 때, 단계(S230)는 챗봇 인코더(140)가, 음성이 없이 서비스 도메인의 대화 텍스트 데이터만 추가로 구축하는 경우, 텍스트 임베딩 벡터를 생성하여 음성-챗봇 디코더(120)를 통해 응답 텍스트를 생성하고, 대화 텍스트 데이터에 대한 평가 지표로 Bleu Score Loss(Bilingual Evaluation Understudy Score Loss) 를 계산하여 음성-챗봇 디코더(120)를 학습할 수 있다.
이 때, 단계(S230)는 음성-챗봇 디코더(120)가, 평가 지표로 Bleu Score Loss 를 이용하여 챗봇 인코더(140)로부터 입력 받은 텍스트 임베딩 벡터로부터 응답 텍스트 데이터에 대한 학습을 수행할 수 있다.
이 때, 단계(S230)에서 챗봇 인코더(140)는 스피치 디코더(130)가 출력한 시스템 입력 텍스트 데이터를 입력 받아 텍스트 임베딩 벡터를 생성할 수 있다.
이 때, 단계(S230)는 음성-챗봇 디코더(120)가, 서비스 도메인 음성 데이터에 기반한 학습과정을 통해 음성-챗봇 인코더(110)에서 생성한 음성 임베딩 벡터를 입력으로 하여 응답 텍스트를 생성하고, 평가 지표로 Bleu Score Loss 를 이용하여 학습을 수행할 수 있다.
이 때, 단계(S230)는 음성-챗봇 디코더(120)가, 서비스 도메인 음성 데이터에 기반한 학습 과정을 통해 음성 임베딩 벡터를 학습할 수 있고, 스피치 디코더(130)의 음성 임베딩 벡터에 대한 ASR(Automatic Speech Recognition)의 교차 엔트로피 손실(Cross-Entropy Loss)를 보조적으로 사용하여 학습을 수행할 수 있다.
도 4를 참조하면, 단계(S230)는 먼저 Seq2Seq ASR 사전 학습 및 Seq2Seq 챗봇 사전학습을 수행할 수 있다(S310).
즉, 단계(S310)는 음성-챗봇 인코더(110) 및 스피치 디코더(130)가 대량의 음성 데이터 및 전사데이터(Enterprise Data)(151)에 기반한 Seq2Seq ASR 사전 학습을 수행할 수 있다.
이 때, 음성-챗봇 인코더(110) 및 스피치 디코더(130)의 입력은 음성데이터에 상응할 수 있다.
이 때, 스피치 디코더(130)의 타겟은 전사데이터 이며, 음성-챗봇 인코더(110) 및 스피치 디코더(130)는 Speech Encoder - Speech Decoder 구조의 음성인식 학습을 수행할 수 있다.
또한, 단계(S310)는 음성-챗봇 디코더(120) 및 챗봇 인코더(140)가, 대량의 대화 텍스트(사용자 입력 텍스트 데이터 및 시스템 응답 텍스트 데이터)(152)에 기반한 Seq2Seq 챗봇 사전학습을 수행할 수 있다.
이 때, 단계(S310)는 음성-챗봇 디코더(120) 및 챗봇 인코더(140)가, 대량의 대화 텍스트 데이터(사용자 입력 텍스트 데이터 및 시스템 응답 텍스트 데이터)(152) 기반 학습을 수행할 수 있다.
이 때, 입력은 사용자 입력 텍스트 데이터이고, 음성-챗봇 디코더(120)의 학습 타겟은 시스템 응답 텍스트 데이터이며, 음성-챗봇 디코더(120)는 Chatbot Encoder - Chatbot Decoder 구조의 챗봇 모델 학습을 수행할 수 있다.
또한, 단계(S230)는 음성-챗봇 인코더(110) 및 음성-챗봇 디코더(120)가, 음성 데이터에 기반한 학습(Fine-Tuning)을 수행할 수 있다.
이 때, 단계(S320)는 음성-챗봇 인코더(110) 및 음성-챗봇 디코더(120)가, 도메인 음성데이터, 전사데이터, 시스템 응답 텍스트 데이터(153)에 기반한 학습을 수행할 수 있다.
이 때, 입력은 음성데이터, 음성-챗봇 디코더(120)의 학습 타겟은 시스템 응답 텍스트 데이터, 스피치 디코더(130)의 학습 타겟은 전사데이터에 상응할 수 있다.
이 때, 단계(S320)는 사전 학습된 음성-챗봇 인코더(110), 음성-챗봇 디코더(120) 및 스피치 디코더(130)가, 시스템 응답 텍스트 데이터에 기반한 추가 학습을 수행할 수 있다.
또한, 단계(S230)는 음성-챗봇 디코더(120)가, 텍스트 데이터에 기반한 학습(Fine-Tuning)을 수행할 수 있다(S330).
이 때, 단계(S330)는 음성-챗봇 디코더(120)가, 서비스 도메인 사용자 입력 텍스트 및 시스템 응답 텍스트 데이터(154)에 기반한 학습을 수행할 수 있다.
이 때, 입력은 사용자 입력 텍스트 데이터, 음성-챗봇 디코더(120)의 학습 타겟은 시스템 응답 텍스트 데이터에 상응할 수 있다.
이 때, 단계(S330)는 음성-챗봇 디코더(120)가, 서비스 도메인 대화 데이터에 기반한 학습 과정을 통해 동일한 의미의 다양한 사용자 입력 문장 패턴에 대해서도 추가 학습을 수행할 수 있다.
또한, 단계(S340)는 음성-챗봇 인코더(110) 및 음성-챗봇 디코더(120)가, 서비스 도메인 음성 데이터에 기반한 학습과 서비스 도메인 대화 데이터에 기반한 학습 결과가 수렴하는지 판단하고, 수렴하지 않는 경우, 단계(S320)으로 되돌아가 음성 데이터(S320)와 텍스트 데이터에 기반한 학습(S330)을 반복적으로 수행할 수 있다.
도 6은 본 발명의 일실시예에 따른 컴퓨터 시스템을 나타낸 도면이다.
도 6을 참조하면, 본 발명의 일실시예에 따른 음성 신호 대응 응답 텍스트 처리 장치는 컴퓨터로 읽을 수 있는 기록매체와 같은 컴퓨터 시스템(1100)에서 구현될 수 있다. 도 6에 도시된 바와 같이, 컴퓨터 시스템(1100)은 버스(1120)를 통하여 서로 통신하는 하나 이상의 프로세서(1110), 메모리(1130), 사용자 인터페이스 입력 장치(1140), 사용자 인터페이스 출력 장치(1150) 및 스토리지(1160)를 포함할 수 있다. 또한, 컴퓨터 시스템(1100)은 네트워크(1180)에 연결되는 네트워크 인터페이스(1170)를 더 포함할 수 있다. 프로세서(1110)는 중앙 처리 장치 또는 메모리(1130)나 스토리지(1160)에 저장된 프로세싱 인스트럭션들을 실행하는 반도체 장치일 수 있다. 메모리(1130) 및 스토리지(1160)는 다양한 형태의 휘발성 또는 비휘발성 저장 매체일 수 있다. 예를 들어, 메모리는 ROM(1131)이나 RAM(1132)을 포함할 수 있다.
이상에서와 같이 본 발명의 일실시예에 따른 음성 신호 대응 응답 텍스트 처리 장치 및 방법은 상기한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.
110: 음성-챗봇 인코더 120: 음성-챗봇 디코더
130: 스피치 디코더 140: 챗봇 인코더
1100: 컴퓨터 시스템 1110: 프로세서
1120: 버스 1130: 메모리
1131: 롬 1132: 램
1140: 사용자 인터페이스 입력 장치
1150: 사용자 인터페이스 출력 장치
1160: 스토리지 1170: 네트워크 인터페이스
1180: 네트워크

Claims (1)

  1. 음성 신호를 입력 받아 임베딩을 수행하여 음성 임베딩 벡터를 생성하는 음성-챗봇 인코더; 및
    상기 음성 임베딩 벡터에 포함된 음향 정보와 언어 정보를 해석하여 응답 텍스트 데이터를 생성하는 음성-챗봇 디코더;
    를 포함하는 것을 특징으로 하는 음성 신호 대응 응답 텍스트 처리 장치.
KR1020210119945A 2021-09-08 2021-09-08 음성 신호 대응 응답 텍스트 처리 장치 및 방법 KR20230036891A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210119945A KR20230036891A (ko) 2021-09-08 2021-09-08 음성 신호 대응 응답 텍스트 처리 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210119945A KR20230036891A (ko) 2021-09-08 2021-09-08 음성 신호 대응 응답 텍스트 처리 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20230036891A true KR20230036891A (ko) 2023-03-15

Family

ID=85512106

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210119945A KR20230036891A (ko) 2021-09-08 2021-09-08 음성 신호 대응 응답 텍스트 처리 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20230036891A (ko)

Similar Documents

Publication Publication Date Title
US20200090647A1 (en) Keyword Detection In The Presence Of Media Output
US10685647B2 (en) Speech recognition method and device
CN113168828A (zh) 基于合成数据训练的会话代理管线
CN111627432B (zh) 主动式外呼智能语音机器人多语种交互方法及装置
JP2023545988A (ja) トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル
KR20230086737A (ko) 단순화된 스트리밍 및 비스트리밍 스피치 인식을 위한 캐스케이드 인코더들
JP2020042257A (ja) 音声認識方法及び装置
US20230419964A1 (en) Resolving unique personal identifiers during corresponding conversations between a voice bot and a human
JP2024510817A (ja) 効率的なストリーミング非リカレントオンデバイスエンドツーエンドモデル
CN115346517A (zh) 一种流式语音识别方法、装置、设备及存储介质
JP2023162265A (ja) テキストエコー消去
KR20220010259A (ko) 음성 신호 처리 방법 및 장치
CN114783405B (zh) 一种语音合成方法、装置、电子设备及存储介质
KR20210042707A (ko) 음성 처리 방법 및 장치
KR20200102309A (ko) 단어 유사도를 이용한 음성 인식 시스템 및 그 방법
KR20230036891A (ko) 음성 신호 대응 응답 텍스트 처리 장치 및 방법
US7206738B2 (en) Hybrid baseform generation
CN115346520A (zh) 语音识别的方法、装置、电子设备和介质
KR102519618B1 (ko) 단대단 신경망 번역 시스템 및 그 방법
KR20240065125A (ko) 희귀 단어 스피치 인식을 위한 대규모 언어 모델 데이터 선택
WO2022086640A1 (en) Fast emit low-latency streaming asr with sequence-level emission regularization
JP2020173441A (ja) 音声認識方法及び装置
KR102448733B1 (ko) 문맥 내 턴 구성을 고려하여 응답을 선택하는 대화 시스템 및 그 방법
US20230298609A1 (en) Generalized Automatic Speech Recognition for Joint Acoustic Echo Cancellation, Speech Enhancement, and Voice Separation
WO2022145015A1 (ja) 信号処理装置、信号処理方法及び信号処理プログラム