KR20200028767A - 발화자의 감정 분석에 따른 언어 순화 장치 - Google Patents

발화자의 감정 분석에 따른 언어 순화 장치 Download PDF

Info

Publication number
KR20200028767A
KR20200028767A KR1020180107339A KR20180107339A KR20200028767A KR 20200028767 A KR20200028767 A KR 20200028767A KR 1020180107339 A KR1020180107339 A KR 1020180107339A KR 20180107339 A KR20180107339 A KR 20180107339A KR 20200028767 A KR20200028767 A KR 20200028767A
Authority
KR
South Korea
Prior art keywords
voice
feature vector
language
data
emotion
Prior art date
Application number
KR1020180107339A
Other languages
English (en)
Inventor
김화연
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020180107339A priority Critical patent/KR20200028767A/ko
Publication of KR20200028767A publication Critical patent/KR20200028767A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 발화자의 감정 분석에 따른 언어 순화 장치에 관한 것이다. 본 발명은 입력되는 발화자의 원본 음성에서 음성 데이터를 추출하는 음성 데이터 추출부; 추출된 음성 데이터에서 음성 특징 벡터를 추출하는 음성 특징 벡터 추출부; 추출된 음성 데이터를 문자 데이터로 변환하는 문자 데이터 변환부; 변환된 문자 데이터에서 언어 특징 벡터를 추출하는 언어 특징 벡터 추출부; 추출된 음성 특징 벡터와 언어 특징 벡터를 이용하여 입력된 음성의 감정을 분류하는 감정 분류부; 입력된 음성의 감정이 부정적으로 판단되면, 언어 특징 벡터를 이용하여 부정적 문자 데이터를 치환 가능한 긍정적 문자 데이터로 변환하는 문장 변환부; 및 변환된 긍정적 문자 데이터를 입력된 음성 특징 벡터에 합성하여 변환된 긍정적 음성 언어를 생성하여 전달하는 음성 합성부;를 포함한다.

Description

발화자의 감정 분석에 따른 언어 순화 장치{Language refinement apparatus based on emotion analysis of speaker}
본 발명은 발화자의 감정 분석에 따른 언어 순화 장치에 관한 것으로, 더욱 상세하게는 콜센터와 같이 통화 서비스에서 발화에 내포된 감정을 분석하여 부정적인 발화문이 존재할 경우 해당 발화문을 대응되는 긍정적인 발화문으로 변환하여 청자에게 제공하는 발화자의 감정 분석에 따른 언어 순화 장치에 관한 것이다.
최근 고객과 직접 접촉하지 않고 전화로 비대면적인 상호서비스를 하는 콜센터에서 근무하는 상담사들의 감정 노동 문제에 대해 심각성이 대두되고 있다.
이를 해결하기 위해 다양한 방법들이 제시되고 있다. 상담 전화가 시작되기 전에 따뜻한 문구를 들려주어 감정 노동을 일으키는 부정적인 언어 표현을 예방하는 방법, 인공지능 기술을 적용하여 고객의 감정을 분석하여 부정적인 표현을 사용하는 고객을 담당 상담사에게 새로 연결하는 등의 방법이 시도되고 있다.
하지만, 종래에 제안된 방법들은 고객의 의지에 맡기는 간접적인 해결 방법이거나, 다른 상담사에게 새로 연결함으로써 상담 전화가 부자연스럽고, 모든 상담사들이 감정 노동 문제로부터 벗어날 수 없는 해결 방법이다.
본 발명은 종래 문제점을 해결하기 위해 안출된 것으로, 화자의 발화에 내포된 감정을 분석하고, 부정적인 발화 구문을 순화된 발화 구문으로 변환하여 청자에게 제공하여 자연스러운 상담 전화 서비스를 제공하면서도 직접적으로 감정 노동 문제를 해결할 수 있는 발화자의 감정 분석에 따른 언어 순화 장치를 제공하는데 그 목적이 있다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 발화자의 감정 분석에 따른 언어 순화 장치는 입력되는 발화자의 원본 음성에서 음성 데이터를 추출하는 음성 데이터 추출부; 상기 추출된 음성 데이터에서 음성 특징 벡터를 추출하는 음성 특징 벡터 추출부; 상기 추출된 음성 데이터를 문자 데이터로 변환하는 문자 데이터 변환부; 변환된 문자 데이터에서 언어 특징 벡터를 추출하는 언어 특징 벡터 추출부; 상기 추출된 음성 특징 벡터와 언어 특징 벡터를 이용하여 입력된 음성의 감정을 분류하는 감정 분류부; 입력된 음성의 감정이 부정적으로 판단되면, 언어 특징 벡터를 이용하여 부정적 문자 데이터를 치환 가능한 긍정적 문자 데이터로 변환하는 문장 변환부; 및 변환된 긍정적 문자 데이터를 입력된 음성 특징 벡터에 합성하여 변환된 긍정적 음성 언어를 생성하여 전달하는 음성 합성부;를 포함한다.
상기 음성 특징 벡터 추출부는, MFCC를 이용하는 것이 바람직하다.
그리고 상기 언어 특징 벡터 추출부는, 형태소 분석, 개체명 인식, 감정 단어 사전 매칭 방법 중 하나 이상의 방법을 이용하는 것이다.
한편, 상기 음성 특징 벡터는, 음성의 억양, 크기, 속도 정보를 포함한다.
상기 감정 분류부는, 음성 특징 벡터와 언어 특징 벡터를 결합하여 하나의 감정 특징 벡터로 생성한 후 상기 감정 특징 벡터를 "convolutional layer와 max-pooling"을 이용하여 감정 특징을 추출하고, 추출된 감정 특징을 "fully connected layer와 softmax"를 이용하여 긍정 또는 부정에 대한 감정 결과 값으로 분류한다.
그리고, 상기 문장 변환부는, 문장 데이터가 입력되면, 삭제 용어사전 데이터베이스를 참조하여 해당 문장 데이터에서 삭제용어를 삭제하고, "LSTM 기반의 Seq2seq 모델 및 후처리 작업"을 통해 상기 삭제용어가 삭제된 문장 데이터를 순화된 문장 데이터로 변환한다.
상기 음성 합성부는, 상기 순화된 문장 데이터와 입력된 음성 특징 벡터에 따른 음성 임베딩 값을 음성 임베딩 데이터베이스에서 검출하고, 상기 순화된 문장 데이터를 검출된 음성 임베딩 값에 합성한 합성 음성 언어를 생성한다.
본 발명의 일 실시예에 따르면, 발화자의 본래 음성 언어를 순화하여 변환하되 본래 음성의 특징이 유지됨에 따라 순화된 합성 음성을 청자에게 제공할 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 발화자의 감정 분석에 따른 언어 순화 장치의 구성 블록을 설명하는 도면이다.
도 2는 도 1에 도시된 감정 분류부의 세부 구성 블록을 설명하기 위한 도면.
도 3은 도 1에 도시된 문장 변환부의 세부 구성 블록을 설명하기 위한 도면.
도 4는 도 1에 도시된 음성 합성부의 세부 구성 블록을 설명하기 위한 도면.
도 5는 본 발명의 일 실시예에 따른 발화자의 감정 분석에 따른 언어 순화 방법을 설명하기 위한 순서도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
이하, 본 발명의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 상세히 설명하기로 한다. 도 1은 본 발명의 일 실시예에 따른 발화자의 감정 분석에 따른 언어 순화 장치의 구성 블록을 설명하는 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 발화자의 감정 분석에 따른 언어 순화 장치는 음성 데이터 추출부(100), 음성 특징 벡터 추출부(200), 문자 데이터 변환부(300), 언어 특징 벡터 추출부(400), 감정 분류부(500), 문장 변환부(600) 및 음성 합성부(700)를 포함한다.
음성 데이터 추출부(100)는 입력되는 발화자의 원본 음성에서 음성 데이터를 추출한다. 일 예로, 발화자가 "그만 좀 전화해라 xx"와 같이 발화하면, 음성 데이터 추출부(100)는 발화자의 원본 음성에서 "그만 좀 전화해라 xx"라는 음성 데이터를 추출한다.
그리고 음성 특징 벡터 추출부(200)는 음성 데이터 추출부(100)에 의해 추출된 음성 데이터에서 음성 특징 벡터를 추출한다. 본 실시예에서는 음성 특징 벡터 추출부(200)는 MFCC(Mel Frequency Cepstral Coefficient)가 이용되고 있으나, 이를 한정하지 않고, HMM Classifier를 이용한 LPC(Linear Prediction Coefficients) 또는 LPCC(Linear Prediction Cepstral Coefficient) 기법이 이용될 수도 있다. 여기서, 상기 음성 특징 벡터는 음성의 억양, 크기, 속도 정보를 포함한다.
문자 데이터 변환부(300)는 음성 데이터 추출부(100)에 의해 상기 추출된 음성 데이터를 문자 데이터로 변환한다.
언어 특징 벡터 추출부(400)는 문자 데이터 변환부(300)에 의해 변환된 문자 데이터에서 언어 특징 벡터를 추출한다. 이때, 언어 특징 벡터 추출부(400)는 단어의 긍정 또는 부정에 대한 정보, 단어의 존댓말 여부에 대한 정보를 포함하는 감정 단어 사전 데이터베이스를 참조하여 언어 특징 벡터를 추출한다. 본 실시예에서의 언어 특징 벡터 추출부(400)는 형태소 분석, 개체명 인식, 감정 단어 사전 매칭 방법 중 하나 이상이 이용될 수 있다.
감정 분류부(500)는 상기 추출된 음성 특징 벡터와 언어 특징 벡터를 이용하여 입력된 원본 음성의 감정을 분류한다. 본 실시예에서의 감정 분류부(500)는 도 2에 도시된 바와 같이, 음성 특징 벡터 추출부(200)로부터 제공되는 음성 특징 벡터와 언어 특징 벡터 추출부(400)로부터 제공되는 언어 특징 벡터를 결합하여 하나의 감정 특징 벡터를 생성한다(S501).
이후, 감정 분류부(500)는 "콘볼루션 계층(convolutional layer)과 통합 계층(max-pooling)"을 이용하여 생성된 감정 특징 벡터의 감정 특징을 추출하고(S502), 추출된 감정 특징을 "완전하게 연결된 계층(fully connected layer)과 softmax"를 이용하여 긍정 또는 부정에 대한 감정 결과 값(긍정은 1, 부정은 0)으로 분류한다(S503). 이러한, 감정 분류부(500)는 심층 신경망의 한 종류인 콘볼루션 신경망이 이용될 수 있다.
한편, 문장 변환부(600)는 입력된 원본 음성의 감정이 부정적으로 판단되면, 언어 특징 벡터를 이용하여 부정적 문자 데이터를 치환 가능한 긍정적 문자 데이터로 변환한다. 본 실시예에서의 문장 변환부(600)는 도 3에 도시된 바와 같이, 문장 데이터(예, "그만 좀 전화해라 XX")가 입력되면(S601), 삭제 용어사전 데이터베이스(601)를 참조하여 해당 문장 데이터에서 삭제용어(예, XX)를 삭제한다(S602).
이후, 문장 변환부(600)는 언어 특징 벡터를 참조하여 "LSTM(Long Short Term Memory) 기반의 Seq2seq 모델 및 후처리 작업"을 통해 삭제용어가 삭제된 문장 데이터("그만 좀 전화해라")를 순화된 문장 데이터("죄송하지만 전화를 자제해주셨으면 좋겠습니다")로 변환한다(S603). 여기서, 삭제 용어사전 데이터베이스(601)에는 비속어 및 금지어 정보가 저장된다.
이어서, 음성 합성부(700)는 변환된 긍정적 문자 데이터를 입력된 음성 특징 벡터에 합성하여 변환된 긍정적 음성 언어를 생성하여 전달한다. 여기서, 상기 음성 합성부(700)는 도 4에 도시된 바와 같이, 상기 순화된 문장 데이터와 입력된 음성 특징 벡터에 따른 음성 임베딩 값을 음성 임베딩 데이터베이스(701)에서 검출하고, 상기 순화된 문장 데이터를 검출된 음성 임베딩 값에 합성한 합성 음성을 생성한다.
본 발명의 일 실시예에 따르면, 발화자의 본래 음성 언어를 순화하여 변환하되 본래 음성의 특징이 유지됨에 따라 순화된 합성 음성을 청자에게 제공할 수 있는 효과가 있다.
도 5는 본 발명의 일 실시예에 따른 발화자의 감정 분석에 따른 언어 순화 방법을 설명하기 위한 순서도이다.
도 5에 도시된 바와 같이, 본 발명의 일 실시예에 따른 발화자의 감정 분석에 따른 언어 순화 방법은 발화자의 감정 분석에 따른 언어 순화 장치의 세부 구성에 의해 수행되는 것이 바람직하다.
먼저, 음성 데이터 추출부(100)는 입력되는 발화자의 원본 음성에서 음성 데이터를 추출한다(S100).
이어서, 음성 특징 벡터 추출부(200)는 상기 추출된 음성 데이터에서 음성 특징 벡터를 추출한다(S200). 본 실시예에서는 음성 특징 벡터 추출부(200)는 MFCC(Mel Frequency Cepstral Coefficient)가 이용되고 있으나, 이를 한정하지 않고, HMM Classifier를 이용한 LPC(Linear Prediction Coefficients) 또는 LPCC(Linear Prediction Cepstral Coefficient) 기법이 이용될 수도 있다. 여기서, 상기 음성 특징 벡터는, 음성의 억양, 크기, 속도 정보를 포함한다.
한편, 문자 데이터 변환부(300)는 상기 추출된 음성 데이터를 문자 데이터로 변환한다(S300). 본 실시예에서의 언어 특징 벡터 추출부(400)는, 형태소 분석, 개체명 인식, 감정 단어 사전 매칭 방법 중 하나 이상이 이용될 수 있다.
그리고, 언어 특징 벡터 추출부(400)는 변환된 문자 데이터에서 언어 특징 벡터를 추출한다(S400). 본 실시예에서의 언어 특징 벡터 추출부(400)는, 형태소 분석, 개체명 인식, 감정 단어 사전 매칭 방법 중 하나 이상이 이용될 수 있다.
이후, 감정 분류부(500)는 상기 추출된 음성 특징 벡터와 언어 특징 벡터를 이용하여 입력된 음성의 감정을 분류하고, 분류된 음성의 감정이 부정적 음성 언어인지를 판단한다(S500). 본 실 시예에서의 감정 분류부(500)는, 음성 특징 벡터와 언어 특징 벡터를 결합하여 하나의 감정 특징 벡터로 생성한 후 상기 감정 특징 벡터를 "convolutional layer와 max-pooling"을 이용하여 감정 특징을 추출하고, 추출된 감정 특징을 "fully connected layer와 softmax"를 이용하여 긍정 또는 부정에 대한 감정 결과 값으로 분류한다.
만약, 상기 판단 단계(S500)에서 분류된 음성의 감정이 부정적 음성 문장이면(YES), 문장 변환부(600)는 언어 특징 벡터를 이용하여 부정적 문자 데이터를 치환 가능한 긍정적 문자 데이터로 변환한다(S600). 본 실시예에서의 문장 변환부(600)는, 문장 데이터가 입력되면, 삭제 용어사전 데이터베이스를 참조하여 해당 문장 데이터에서 삭제용어를 삭제하고, "LSTM 기반의 Seq2seq 모델 및 후처리 작업"을 통해 상기 삭제용어가 삭제된 문장 데이터를 순화된 문장 데이터로 변환한다.
이어서, 음성 합성부(700)는 변환된 긍정적 문자 데이터를 입력된 음성 특징 벡터에 합성하여 변환된 긍정적 음성 언어를 생성하여 전달한다(S700).
본 발명의 일 실시예에 따르면, 발화자의 본래 음성 언어를 순화하여 변환하되 본래 음성의 특징이 유지됨에 따라 순화된 합성 음성을 청자에게 제공할 수 있는 효과가 있다.
이상, 본 발명의 구성에 대하여 첨부 도면을 참조하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명이 속하는 기술분야에 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 변형과 변경이 가능함은 물론이다. 따라서 본 발명의 보호 범위는 전술한 실시예에 국한되어서는 아니 되며 이하의 특허청구범위의 기재에 의하여 정해져야 할 것이다.
100 : 음성 데이터 추출부 200 : 음성 특징 벡터 추출부
300 : 문자 데이터 변환부 400 : 언어 특징 벡터 추출부
500 : 감정 분류부 600 : 문장 변환부
700 : 음성 합성부

Claims (1)

  1. 입력되는 발화자의 원본 음성에서 음성 데이터를 추출하는 음성 데이터 추출부;
    상기 추출된 음성 데이터에서 음성 특징 벡터를 추출하는 음성 특징 벡터 추출부;
    상기 추출된 음성 데이터를 문자 데이터로 변환하는 문자 데이터 변환부;
    변환된 문자 데이터에서 언어 특징 벡터를 추출하는 언어 특징 벡터 추출부;
    상기 추출된 음성 특징 벡터와 언어 특징 벡터를 이용하여 입력된 음성의 감정을 분류하는 감정 분류부;
    입력된 음성의 감정이 부정적으로 판단되면, 언어 특징 벡터를 이용하여 부정적 문자 데이터를 치환 가능한 긍정적 문자 데이터로 변환하는 문장 변환부; 및
    변환된 긍정적 문자 데이터를 입력된 음성 특징 벡터에 합성하여 변환된 긍정적 음성 언어를 생성하여 전달하는 음성 합성부;를 포함하는 발화자의 감정 분석에 따른 언어 순화 장치.

KR1020180107339A 2018-09-07 2018-09-07 발화자의 감정 분석에 따른 언어 순화 장치 KR20200028767A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180107339A KR20200028767A (ko) 2018-09-07 2018-09-07 발화자의 감정 분석에 따른 언어 순화 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180107339A KR20200028767A (ko) 2018-09-07 2018-09-07 발화자의 감정 분석에 따른 언어 순화 장치

Publications (1)

Publication Number Publication Date
KR20200028767A true KR20200028767A (ko) 2020-03-17

Family

ID=70004072

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180107339A KR20200028767A (ko) 2018-09-07 2018-09-07 발화자의 감정 분석에 따른 언어 순화 장치

Country Status (1)

Country Link
KR (1) KR20200028767A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111862931A (zh) * 2020-05-08 2020-10-30 北京嘀嘀无限科技发展有限公司 一种语音生成方法及装置
US11869535B1 (en) * 2019-12-12 2024-01-09 Amazon Technologies, Inc. Character-level emotion detection

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11869535B1 (en) * 2019-12-12 2024-01-09 Amazon Technologies, Inc. Character-level emotion detection
CN111862931A (zh) * 2020-05-08 2020-10-30 北京嘀嘀无限科技发展有限公司 一种语音生成方法及装置

Similar Documents

Publication Publication Date Title
CN111246027B (zh) 一种实现人机协同的语音通讯系统及方法
EP1564722B1 (en) Automatic identification of telephone callers based on voice characteristics
WO2016150257A1 (en) Speech summarization program
Ince Digital Speech Processing: Speech Coding, Synthesis and Recognition
US20220027507A1 (en) Use of asr confidence to improve reliability of automatic audio redaction
WO2008084476A2 (en) Vowel recognition system and method in speech to text applications
CN111508501B (zh) 一种电话机器人中带口音的语音识别方法及系统
KR20070008991A (ko) 텍스트의 카테고리 분류 장치 및 그 방법
KR20200105589A (ko) 음성 감정 인식 방법 및 시스템
JP2020071675A (ja) 対話要約生成装置、対話要約生成方法およびプログラム
Jawarkar et al. Use of fuzzy min-max neural network for speaker identification
Karat et al. Conversational interface technologies
Shahin Employing both gender and emotion cues to enhance speaker identification performance in emotional talking environments
US10872615B1 (en) ASR-enhanced speech compression/archiving
JP2020071676A (ja) 対話要約生成装置、対話要約生成方法およびプログラム
KR20200028767A (ko) 발화자의 감정 분석에 따른 언어 순화 장치
CN113744742A (zh) 对话场景下的角色识别方法、装置和系统
CN112349266A (zh) 一种语音编辑方法及相关设备
TW201322250A (zh) 多語言語音合成方法
CN113990288B (zh) 一种语音客服自动生成部署语音合成模型的方法
Furui Robust methods in automatic speech recognition and understanding.
Sharma et al. Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art
KR102370437B1 (ko) 버추얼 상담 시스템 및 이를 이용한 상담방법
KR101765154B1 (ko) 음성을 사이버 수화로 제공하는 방법
CN113903327A (zh) 一种基于深度神经网络的语音环境气氛识别方法