KR20230036891A

KR20230036891A - 음성 신호 대응 응답 텍스트 처리 장치 및 방법

Info

Publication number: KR20230036891A
Application number: KR1020210119945A
Authority: KR
Inventors: 전형배; 강병옥; 강점자; 박전규; 오유리; 정훈
Original assignee: 한국전자통신연구원
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2023-03-15

Abstract

음성 신호 대응 응답 텍스트 처리 장치 및 방법이 개시된다. 본 발명의 일실시예에 따른 음성 신호 대응 응답 텍스트 처리 장치는 음성 신호를 입력 받아 임베딩을 수행하여 음성 임베딩 벡터를 생성하는 음성-챗봇 인코더 및 상기 음성 임베딩 벡터에 포함된 음향 정보와 언어 정보를 해석하여 응답 텍스트 데이터를 생성하는 음성-챗봇 디코더를 포함한다.

Description

음성 신호 대응 응답 텍스트 처리 장치 및 방법 {APPARATUS AND METHOD FOR PROCESSING RESPONSE TEXT CORRESPONDING TO SPEECH SIGNAL}

본 발명은 지능형 로봇 기술에 관한 것으로, 보다 상세하게는 음성 신호 대응 응답 텍스트 처리 기술에 관한 것이다.

지능형 로봇이나 모바일 에이전트의 대화시스템은 음성인식 기능과 대화처리 기능을 순차적으로 수행하여 서비스를 수행한다. 음성인식과 대화처리 기술 각각은 딥러닝을 통해 성능이 높아졌고, 이를 통해 음성 인터페이스 기반 대화시스템의 성능도 높아지고 있다. 하지만, 음성인식과 대화처리를 순차적으로 수행하는 구조적인 특징으로 인해 음성인식에서의 인식 오류가 대화처리에 입력으로 사용되며 오류가 전파되는 문제점을 가지고 있다.

한편, 한국등록특허 제 10-1710921 호“대화형 음성봇 서버 및 이를 이용한 무인 상담 방법”는 다양한 종류의 음성봇에 공통으로 들어가는 기능을 모듈화한 대화형 음성봇 서버를 이용하여 콜처리, 시나리오 관리 및 구어체 처리 기능을 제공하는 시스템 및 방법에 관하여 개시하고 있다.

본 발명은 음성인식 오류의 전파를 방지하고 대화 시스템의 성능을 향상시키는 것을 목적으로 한다.

상기한 목적을 달성하기 위한 본 발명의 일실시예에 따른 음성 신호 대응 응답 텍스트 처리 장치는 음성 신호를 입력 받아 임베딩을 수행하여 음성 임베딩 벡터를 생성하는 음성-챗봇 인코더 및 상기 음성 임베딩 벡터에 포함된 음향 정보와 언어 정보를 해석하여 응답 텍스트 데이터를 생성하는 음성-챗봇 디코더를 포함한다.

또한, 상기한 목적을 달성하기 위한 본 발명의 일실시예에 따른 음성 신호 대응 응답 텍스트 처리 방법은 음성 신호 대응 응답 텍스트 처리 장치의 음성 신호 대응 응답 텍스트 처리 방법에 있어서, 음성 신호를 입력 받아 임베딩을 수행하여 음성 임베딩 벡터를 생성하는 단계 및 상기 음성 임베딩 벡터에 포함된 음향 정보와 언어 정보를 해석하여 응답 텍스트 데이터를 생성하는 단계를 포함한다.

본 발명은 음성인식 오류의 전파를 방지하고 대화 시스템의 성능을 향상시킬 수 있다.

도 1 및 도 2는 본 발명의 일실시예에 따른 음성 신호 대응 응답 텍스트 처리 장치를 나타낸 블록도이다.
도 3은 본 발명의 일실시예에 따른 기계 학습을 위한 데이터베이스들을 나타낸 도면이다.
도 4는 본 발명의 일실시예에 따른 음성 신호 대응 응답 텍스트 처리 방법을 나타낸 동작흐름도이다.
도 5는 도 4에 도시된 모델 학습 단계의 일 예를 세부적으로 나타낸 동작흐름도이다.
도 6은 본 발명의 일실시예에 따른 컴퓨터 시스템을 나타낸 도면이다.

본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1 및 도 2는 본 발명의 일실시예에 따른 음성 신호 대응 응답 텍스트 처리 장치를 나타낸 블록도이다. 도 3은 본 발명의 일실시예에 따른 기계 학습을 위한 데이터베이스들을 나타낸 도면이다.

도 1을 참조하면, 본 발명의 일실시예에 따른 음성 신호 대응 응답 텍스트 처리 장치는 음성-챗봇 인코더(110), 음성-챗봇 디코더(120), 스피치 디코더(130) 및 챗봇 인코더(140)를 포함한다.

도 1은 SPEECH SIGNAL "에어컨이 망가졌어요"를 발성한 예제에 대한 동작설명을 나타낸 것을 알 수 있다.

음성-챗봇 인코더(110)와 음성-챗봇 디코더(120)는 Sequence-to-Sequence 구조의 종단형 음성 인식 구조와 유사한 인코더-디코더(Encoder-Decoder) 구조로 구성될 수 있다.

음성-챗봇 인코더(110)는 음성 신호를 입력 받아 임베딩을 수행하여 음성 임베딩 벡터(Speech Embedding Vector)를 생성할 수 있다.

이 때, 음성-챗봇 인코더(110)는 음성 신호를 잠재 공간(latent space)으로 임베딩을 수행할 수 있다.

이 때, 음성 임베딩 벡터는 음향 정보 및 발화 전체 음성의 문맥적 언어 정보를 포함할 수 있다.

음성-챗봇 디코더(120)는 상기 음성 임베딩 벡터에 포함된 음향 정보와 언어 정보를 해석하여 응답 텍스트 데이터를 생성할 수 있다.

이 때, 음성-챗봇 디코더(120)는 입력 발화에 응답으로 적합한 문자열을 응답 텍스트 데이터로 생성할 수 있다.

이 때, 음성-챗봇 디코더(120)는 텍스트 임베딩 벡터(Text Embedding vector)를 추가로 입력 받아 더욱 적절한 응답 텍스트 데이터를 생성할 수 있다.

또한, 음성-챗봇 인코더(110) 및 음성-챗봇 디코더(120)는Sequence-to-Sequence 구조로 구성되어, RNN 계열의 LSTM, Transformer, Conformer 등의 네트워크로 정의하여 기계학습에 기반하여 모델 학습을 수행할 수 있다.

스피치 디코더(130)는 음성 임베딩 벡터에 대한 ASR(Automatic Speech Recognition)의 교차 엔트로피 손실(Cross-Entropy Loss)를 계산할 수 있다.

챗봇 인코더(140)는 음성이 없이 서비스 도메인의 대화 텍스트 데이터만 추가로 구축하는 경우, 텍스트 임베딩 벡터를 생성하여 음성-챗봇 디코더(120)를 통해 응답 텍스트를 생성하고, 대화 텍스트 데이터에 대한 평가 지표로 Bleu Score Loss(Bilingual Evaluation Understudy Score Loss) 를 계산하여 음성-챗봇 디코더(120)를 학습할 수 있도록 한다.

이 때, 챗봇 인코더(140)는 스피치 디코더(130)가 출력한 시스템 입력 텍스트 데이터를 입력 받아 텍스트 임베딩 벡터를 생성할 수 있다.

이 때, 음성-챗봇 디코더(120)는 평가 지표로 Bleu Score Loss 를 이용하여 챗봇 인코더(140)로부터 입력 받은 텍스트 임베딩 벡터로부터 응답 텍스트 데이터에 대한 학습을 수행할 수 있다.

이 때, 음성-챗봇 디코더(120)는 서비스 도메인 음성 데이터에 기반한 학습과정을 통해 음성-챗봇 인코더(110)에서 생성한 음성 임베딩 벡터를 입력으로 하여 응답 텍스트를 생성하고, 평가 지표로 Bleu Score Loss 를 이용하여 학습을 수행할 수 있다.

이 때, 음성-챗봇 디코더(120)는 서비스 도메인 음성 데이터에 기반한 학습 과정을 통해 음성 임베딩 벡터를 학습할 수 있고, 스피치 디코더(130)의 음성 임베딩 벡터에 대한 ASR(Automatic Speech Recognition)의 교차 엔트로피 손실(Cross-Entropy Loss)를 보조적으로 사용하여 학습을 수행할 수 있다.

도 2를 참조하면, 학습이 완료된 음성 신호 대응 응답 텍스트 처리 장치에서는 학습에 사용되는 스피치 디코더(130)와 챗봇 인코더(140)가 없이 음성-챗봇 인코더(110) 및 음성-챗봇 디코더(120)를 이용하여 입력받은 음성 신호로부터 응답 텍스트 데이터를 출력하는 과정을 나타낸 것을 알 수 있다.

도 3을 참조하면, 음성-챗봇 인코더(110) 및 음성-챗봇 디코더(120)의 학습을 위한 데이터를 제공하는 데이터베이스들(151, 152, 153, 154)을 나타낸 것을 알 수 있다.

이 때, 음성-챗봇 인코더(110) 및 스피치 디코더(130)는 대량의 음성 데이터 및 전사데이터(Transcription Data)(151)에 기반한 Seq2Seq ASR 사전 학습을 수행할 수 있다.

이 때, 음성-챗봇 인코더(110) 및 스피치 디코더(130)의 입력은 음성데이터에 상응할 수 있다.

이 때, 스피치 인코더(130)의 타겟은 전사데이터 이며, 음성-챗봇 인코더(110) 및 스피치 디코더(130)는 Speech Encoder - Speech Decoder 구조의 음성인식 학습을 수행할 수 있다.

또한, 음성-챗봇 디코더(120) 및 챗봇 인코더(140)는 대량의 대화 텍스트(사용자 입력 텍스트 데이터 및 시스템 응답 텍스트 데이터)(152)에 기반한 Seq2Seq 챗봇 사전학습을 수행할 수 있다.

이 때, 음성-챗봇 디코더(120) 및 챗봇 인코더(140)는 대량의 대화 텍스트 데이터(사용자 입력 텍스트 데이터 및 시스템 응답 텍스트 데이터)(152) 기반 학습을 수행할 수 있다.

이 때, 입력은 사용자 입력 텍스트 데이터이고, 음성-챗봇 디코더(120)의 학습 타겟은 시스템 응답 텍스트 데이터이며, 음성-챗봇 디코더(120)는 Chatbot Encoder - Chatbot Decoder 구조의 챗봇 모델 학습을 수행할 수 있다.

또한, 음성-챗봇 인코더(110) 및 음성-챗봇 디코더(120)는 음성 데이터에 기반한 학습(Fine-Tuning)을 수행할 수 있다.

음성-챗봇 인코더(110) 및 음성-챗봇 디코더(120)는 도메인 음성데이터, 전사데이터, 시스템 응답 텍스트 데이터(153)에 기반한 학습을 수행할 수 있다.

이 때, 입력은 음성데이터, 음성-챗봇 디코더(120)의 학습 타겟은 시스템 응답 텍스트 데이터, 스피치 디코더(130)의 학습 타겟은 전사데이터에 상응할 수 있다.

이 때, 사전 학습된 음성-챗봇 인코더(110), 음성-챗봇 디코더(120) 및 스피치 디코더(130)는 시스템 응답 텍스트 데이터에 기반한 추가 학습을 수행할 수 있다.

또한, 음성-챗봇 디코더(120)는 텍스트 데이터에 기반한 학습(Fine-Tuning)을 수행할 수 있다.

이 때, 음성-챗봇 디코더(120) 및 챗봇 인코더(140)는 서비스 도메인 사용자 입력 텍스트 및 시스템 응답 텍스트 데이터(154)에 기반한 학습(Fine-Tuning)을 수행할 수 있다.

이 때, 입력은 사용자 입력 텍스트 데이터, 음성-챗봇 디코더(120)의 학습 타겟은 시스템 응답 텍스트 데이터에 상응할 수 있다.

이 때, 음성-챗봇 디코더(120)는 서비스 도메인 대화 데이터에 기반한 학습 과정을 통해 동일한 의미의 다양한 사용자 입력 문장 패턴에 대해서도 추가 학습을 수행할 수 있다.

또한, 음성-챗봇 인코더(110) 및 음성-챗봇 디코더(120)는 서비스 도메인 음성 데이터에 기반한 학습과 서비스 도메인 대화 데이터에 기반한 학습 결과가 수렴하는지 판단하고, 수렴하지 않는 경우, 음성 데이터와 텍스트 데이터에 기반한 학습을 반복적으로 수행할 수 있다.

도 4는 본 발명의 일실시예에 따른 음성 신호 대응 응답 텍스트 처리 방법을 나타낸 동작흐름도이다. 도 5는 도 4에 도시된 모델 학습 단계의 일 예를 세부적으로 나타낸 동작흐름도이다.

도 4를 참조하면, 본 발명의 일실시예에 따른 음성 신호 대응 응답 텍스트 처리 방법은 먼저 음성 데이터를 입력 받을 수 있다(S210).

즉, 단계(S210)는 음성-챗봇 인코더(110)가 음성 데이터를 입력 받아 임베딩을 수행하여 음성 임베딩 벡터(Speech Embedding Vector)를 생성할 수 있다.

이 때, 단계(S210)는 음성 데이터를 잠재 공간(latent space)으로 임베딩을 수행할 수 있다.

또한, 본 발명의 일실시예에 따른 음성 신호 대응 응답 텍스트 처리 방법은 응답 텍스트 데이터를 생성할 수 있다(S220).

즉, 단계(S220)는 음성-챗봇 디코더(120)가 상기 음성 임베딩 벡터에 포함된 음향 정보와 언어 정보를 해석하여 응답 텍스트 데이터를 생성할 수 있다.

이 때, 단계(S220)는 입력 발화에 응답으로 적합한 문자열을 응답 텍스트 데이터로 생성할 수 있다.

이 때, 단계(S220)는 텍스트 임베딩 벡터(Text Embedding vector)를 추가로 입력 받아 더욱 적절한 응답 텍스트 데이터를 생성할 수 있다.

또한, 본 발명의 일실시예에 따른 음성 신호 대응 응답 텍스트 처리 방법은 음성 신호 대응 응답 텍스트 처리를 위한 모델을 학습할 수 있다(S230).

즉, 단계(S230)는 음성-챗봇 인코더(110) 및 음성-챗봇 디코더(120)가Sequence-to-Sequence 구조로 구성되어, RNN 계열의 LSTM, Transformer, Conformer 등의 네트워크로 정의하여 기계학습에 기반하여 모델 학습을 수행할 수 있다.

이 때, 단계(S230)는 스피치 디코더(130)가, 음성 임베딩 벡터에 대한 ASR(Automatic Speech Recognition)의 교차 엔트로피 손실(Cross-Entropy Loss)를 계산할 수 있다.

이 때, 단계(S230)는 챗봇 인코더(140)가, 음성이 없이 서비스 도메인의 대화 텍스트 데이터만 추가로 구축하는 경우, 텍스트 임베딩 벡터를 생성하여 음성-챗봇 디코더(120)를 통해 응답 텍스트를 생성하고, 대화 텍스트 데이터에 대한 평가 지표로 Bleu Score Loss(Bilingual Evaluation Understudy Score Loss) 를 계산하여 음성-챗봇 디코더(120)를 학습할 수 있다.

이 때, 단계(S230)는 음성-챗봇 디코더(120)가, 평가 지표로 Bleu Score Loss 를 이용하여 챗봇 인코더(140)로부터 입력 받은 텍스트 임베딩 벡터로부터 응답 텍스트 데이터에 대한 학습을 수행할 수 있다.

이 때, 단계(S230)에서 챗봇 인코더(140)는 스피치 디코더(130)가 출력한 시스템 입력 텍스트 데이터를 입력 받아 텍스트 임베딩 벡터를 생성할 수 있다.

이 때, 단계(S230)는 음성-챗봇 디코더(120)가, 서비스 도메인 음성 데이터에 기반한 학습과정을 통해 음성-챗봇 인코더(110)에서 생성한 음성 임베딩 벡터를 입력으로 하여 응답 텍스트를 생성하고, 평가 지표로 Bleu Score Loss 를 이용하여 학습을 수행할 수 있다.

이 때, 단계(S230)는 음성-챗봇 디코더(120)가, 서비스 도메인 음성 데이터에 기반한 학습 과정을 통해 음성 임베딩 벡터를 학습할 수 있고, 스피치 디코더(130)의 음성 임베딩 벡터에 대한 ASR(Automatic Speech Recognition)의 교차 엔트로피 손실(Cross-Entropy Loss)를 보조적으로 사용하여 학습을 수행할 수 있다.

도 4를 참조하면, 단계(S230)는 먼저 Seq2Seq ASR 사전 학습 및 Seq2Seq 챗봇 사전학습을 수행할 수 있다(S310).

즉, 단계(S310)는 음성-챗봇 인코더(110) 및 스피치 디코더(130)가 대량의 음성 데이터 및 전사데이터(Enterprise Data)(151)에 기반한 Seq2Seq ASR 사전 학습을 수행할 수 있다.

이 때, 스피치 디코더(130)의 타겟은 전사데이터 이며, 음성-챗봇 인코더(110) 및 스피치 디코더(130)는 Speech Encoder - Speech Decoder 구조의 음성인식 학습을 수행할 수 있다.

또한, 단계(S310)는 음성-챗봇 디코더(120) 및 챗봇 인코더(140)가, 대량의 대화 텍스트(사용자 입력 텍스트 데이터 및 시스템 응답 텍스트 데이터)(152)에 기반한 Seq2Seq 챗봇 사전학습을 수행할 수 있다.

이 때, 단계(S310)는 음성-챗봇 디코더(120) 및 챗봇 인코더(140)가, 대량의 대화 텍스트 데이터(사용자 입력 텍스트 데이터 및 시스템 응답 텍스트 데이터)(152) 기반 학습을 수행할 수 있다.

또한, 단계(S230)는 음성-챗봇 인코더(110) 및 음성-챗봇 디코더(120)가, 음성 데이터에 기반한 학습(Fine-Tuning)을 수행할 수 있다.

이 때, 단계(S320)는 음성-챗봇 인코더(110) 및 음성-챗봇 디코더(120)가, 도메인 음성데이터, 전사데이터, 시스템 응답 텍스트 데이터(153)에 기반한 학습을 수행할 수 있다.

이 때, 단계(S320)는 사전 학습된 음성-챗봇 인코더(110), 음성-챗봇 디코더(120) 및 스피치 디코더(130)가, 시스템 응답 텍스트 데이터에 기반한 추가 학습을 수행할 수 있다.

또한, 단계(S230)는 음성-챗봇 디코더(120)가, 텍스트 데이터에 기반한 학습(Fine-Tuning)을 수행할 수 있다(S330).

이 때, 단계(S330)는 음성-챗봇 디코더(120)가, 서비스 도메인 사용자 입력 텍스트 및 시스템 응답 텍스트 데이터(154)에 기반한 학습을 수행할 수 있다.

이 때, 단계(S330)는 음성-챗봇 디코더(120)가, 서비스 도메인 대화 데이터에 기반한 학습 과정을 통해 동일한 의미의 다양한 사용자 입력 문장 패턴에 대해서도 추가 학습을 수행할 수 있다.

또한, 단계(S340)는 음성-챗봇 인코더(110) 및 음성-챗봇 디코더(120)가, 서비스 도메인 음성 데이터에 기반한 학습과 서비스 도메인 대화 데이터에 기반한 학습 결과가 수렴하는지 판단하고, 수렴하지 않는 경우, 단계(S320)으로 되돌아가 음성 데이터(S320)와 텍스트 데이터에 기반한 학습(S330)을 반복적으로 수행할 수 있다.

도 6은 본 발명의 일실시예에 따른 컴퓨터 시스템을 나타낸 도면이다.

도 6을 참조하면, 본 발명의 일실시예에 따른 음성 신호 대응 응답 텍스트 처리 장치는 컴퓨터로 읽을 수 있는 기록매체와 같은 컴퓨터 시스템(1100)에서 구현될 수 있다. 도 6에 도시된 바와 같이, 컴퓨터 시스템(1100)은 버스(1120)를 통하여 서로 통신하는 하나 이상의 프로세서(1110), 메모리(1130), 사용자 인터페이스 입력 장치(1140), 사용자 인터페이스 출력 장치(1150) 및 스토리지(1160)를 포함할 수 있다. 또한, 컴퓨터 시스템(1100)은 네트워크(1180)에 연결되는 네트워크 인터페이스(1170)를 더 포함할 수 있다. 프로세서(1110)는 중앙 처리 장치 또는 메모리(1130)나 스토리지(1160)에 저장된 프로세싱 인스트럭션들을 실행하는 반도체 장치일 수 있다. 메모리(1130) 및 스토리지(1160)는 다양한 형태의 휘발성 또는 비휘발성 저장 매체일 수 있다. 예를 들어, 메모리는 ROM(1131)이나 RAM(1132)을 포함할 수 있다.

이상에서와 같이 본 발명의 일실시예에 따른 음성 신호 대응 응답 텍스트 처리 장치 및 방법은 상기한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.

110: 음성-챗봇 인코더 120: 음성-챗봇 디코더
130: 스피치 디코더 140: 챗봇 인코더
1100: 컴퓨터 시스템 1110: 프로세서
1120: 버스 1130: 메모리
1131: 롬 1132: 램
1140: 사용자 인터페이스 입력 장치
1150: 사용자 인터페이스 출력 장치
1160: 스토리지 1170: 네트워크 인터페이스
1180: 네트워크

Claims

음성 신호를 입력 받아 임베딩을 수행하여 음성 임베딩 벡터를 생성하는 음성-챗봇 인코더; 및
상기 음성 임베딩 벡터에 포함된 음향 정보와 언어 정보를 해석하여 응답 텍스트 데이터를 생성하는 음성-챗봇 디코더;
를 포함하는 것을 특징으로 하는 음성 신호 대응 응답 텍스트 처리 장치.