KR20230171168A

KR20230171168A - 화자분할 기술이 적용된 앱을 이용한 단말기 음성 대화 방법

Info

Publication number: KR20230171168A
Application number: KR1020220071412A
Authority: KR
Inventors: 박남도
Original assignee: 주식회사 엔디소프트
Priority date: 2022-06-13
Filing date: 2022-06-13
Publication date: 2023-12-20

Abstract

본 발명은 단말기를 이용한 통화 중 주변에 있는 타인의 음성 정보가 유입되더라도 이를 분리하여 제거함으로써 통화 상태방에게 단말기 사용자의 음성만이 전송될 수 있도록 하여 선명한 통화 품질을 제공할 수 있도록 한 "화자분할 기술이 적용된 앱을 이용한 단말기 음성 대화 방법"에 관한 것이다.
본 발명의 기술적 사상인 단말기 사용자들의 음성 특징 정보를 저장하는 서버를 매개로 하는 화자분할 기술이 적용된 앱을 이용한 단말기 음성 대화 방법은,
(a) 제 1 단말기를 통하여 적어도 1인 이상의 화자 음성을 수신하는 단계;
(b) 적어도 1인 이상의 상기 화자 음성을 서버로 전송하는 단계;
(c) 상기 서버는 기학습된 자동 음성 인식(ASR) 모델을 이용하여 상기 적어도 1인 이상의 상기 화자 음성을 개별적으로 분할하여 적어도 하나 이상의 분할 음성을 생성하는 단계;
(d) 적어도 하나 이상의 상기 분할 음성 각각의 특징점을 추출하는 단계;
(e) 상기 제 1 단말기 사용자의 음성과 매칭되는 특징점을 갖는 분할 음성을 상기 제 1 단말기의 사용자 음성으로 선택하는 화자 분할 단계;
(f) 상기 제 1 단말기의 상기 사용자 음성을 무선 통신을 통하여 제 2 단말기로 전송하는 단계;
(g) 상기 제 2 단말기에서 상기 사용자 음성을 출력하는 단계를 구비하며,
상기 제 1 단말기 사용자의 음성과 매칭되는 특징점을 갖는 분할 음성을 상기 제 1 단말기의 사용자 음성으로 선택하는 화자 분할하는 (e) 단계는
음성 특징 추출 기술인 MPCC(mel-frequency cepstral coefficients)를 사용하여 각각의 상기 분할 음성을 전처리하고 벡터값으로 변환하는 단계;
상기 분할 음성의 어순 정보를 획득하기 위하여 TDNN 레이어를 통한 후, 슬라이딩 윈도우(sliding window)를 통해 상기 분할 음성의 데이타 정보를 일정한 범위를 가지고 순차젓으로 이동하면서 일정하게 겹치는 간격(오버랩)으로 N(N은 1 이상의 자연수)개의 세그먼트로 나누는 단계;
상기 N 개의 세그먼트를 N개의 세그먼트 벡터로 압축한 후 상기 분할 음성의 데이타 정보에 대한 벡터값들을 대표하는 하나의 벡터값으로 압축시키는 단계;
상기 분할 음성의 데이타 정보에 대한 벡터값들을 대표하는 하나의 벡터값과 상기 서버에 저장된 상기 사용자 음성의 음성 특징을 비교하여 유사도가 가장 높은 분할 음성을 상기 사용자 음성으로 선택하여 화자를 분리하는 단계로 이루어진다.
본 발명의 단말기 사용자들의 음성 특징 정보를 저장하는 서버를 매개로 하는 화자분할 기술이 적용된 앱을 이용한 단말기 음성 대화 방법을 실시하는 경우 단말기로 입력되는 복수의 화자 음성 중 사용자 음성만을 별도로 분할하고 이렇게 분할된 사용자 음성 정보만을 통화 상대방의 단말기로 전송하여 출력되도록 함으로써 노이즈 없는 선명한 통화 품질 제공이 가능하다는 이점이 있다.

Description

화자분할 기술이 적용된 앱을 이용한 단말기 음성 대화 방법{Voice Conversation Method Using A terminal having an app with speaker diarisation technology}

본 발명은 화자분할 기술이 적용된 앱을 이용한 단말기 음성 대화 방법에 관한 것으로, 보다 구체적으로는 단말기를 이용한 통화 중 주변에 있는 타인의 음성 정보가 유입되더라도 이를 분리하여 제거함으로써 통화 상태방에게 단말기 사용자의 음성만이 전송될 수 있도록 하여 선명한 통화 품질을 제공할 수 있도록 한 "화자분할 기술이 적용된 앱을 이용한 단말기 음성 대화 방법"에 관한 것이다.

화자 분할이란 다수의 화자가 발성한 내용을 녹음한 음성 파일로부터 각 화자 별로 발성 구간을 분할하는 기술을 말한다.

예컨대, 한국등록특허 제10-1833731호에는 화자의 음성을 인식하는 환경의 변화 및 화자의 발화 상태에 영향 없이 화자의 음성을 통해 화자를 구분할 수 있는 화자 인식 모델을 생성하는 기술이 개시되어 있다.

이러한 화자분할 기술은 회의, 인터뷰, 거래, 재판 등 여러 화자가 일정한 순서 없이 발성하는 상황에서 발성 내용을 화자 별로 분할하여 자동 기록하는 제반 기술로 회의록 자동 작성 등에 활용되고 있다.

예컨대, 특허출원번호가 10-2019-0078789이고 발명의 명칭이 "분할 음성 인식을 기반으로 발화자의 음성에 대응하는 텍스트의 생성이 가능한 음성 인식 장치 및 그 동작 방법"인 선행특허문헌에서는 두 개의 음성 인식부를 통해 중첩 구간이 발생하도록 각각 발화자의 음성을 시간차를 두어 인식한 후 상기 중첩 구간에 존재하는 중복 텍스트를 매개로 해서 각 음성 인식 텍스트를 하나로 결합함으로써, 긴 시간 동안 인가되는 발화자의 음성도 정확하게 인식할 수 있는 음성 인식 장치 및 그 동작 방법에 관한 기술을 제안하고 있다.

또한, 특허출원번호가 10-2016-0073320이고, 발명의 명칭이 "머신 러닝을 통한 화자 인식 모델 생성 방법 및 장치"인 선행특허문헌에서는 화자의 음성을 인식한 환경 요소 즉, 음성 발화 장소, 음성 인식 장치 및 화자의 발화 상태와 무관하게 화자의 음성을 인식하여 화자를 구분할 수 있는 기술을 제한하고 있으며, 특허출원번호가 10-2019-0141938이고 발명의 명칭이 "기계학습 기반의 화자 분리 방법 및 그를 위한 장치"인 선행특허문헌에서는 기계학습을 사용하여 복수의 화자 음성이 혼합된 혼합 음성에서 화자를 분리하기 위하여 "적어도 하나의 화자의 음성들로 구성된 혼합 음성을 입력 받는 음성 입력 단계; 상기 혼합 음성을 기반으로 특정 화자에 대한 제1 음성(A')을 생성하여 출력하는 음성 생성 단계; 및 상기 제1 음성을 상기 특정 화자의 실제 제2 음성(A)과 구분하고, 상기 혼합 음성과 상기 제1 음성 및 상기 제2 음성을 기반으로 생성된 잔차 음성을 구분하여 화자 분리가 수행되도록 하는 음성 구분 단계를 수행하되, 상기 음성 구분 단계는, 상기 제1 음성 및 상기 제2 음성이 동일한 음성인지 여부를 구분하는 타겟 음성 구분 단계; 및 상기 혼합 음성과 상기 제1 음성을 기반으로 생성된 제1 잔차 음성과 상기 혼합 음성과 상기 제2 음성을 기반으로 생성된 제2 잔차 음성이 동일한 음성인지 여부를 구분하는 잔차 음성 구분 단계로 구성되는 발명을 제안하고 있다.

또한, 특허출원번호가 10-2020-0085369이고, 발명의 명칭이 "음성 신호들을 화자에 따라 분리하기 위한 음성 분리 장치 및 음성 분리 방법"인 선행특허문헌에서는 입력된 복수의 음성 신호들을 화자별로 분리 및 인식하고, 복수의 음성 신호들을 대응하는 화자 식별자와 매칭하여 저장할 수 있는 음성 분리 방법을 제안면서 "화자 등록 트리거 신호를 생성하는 단계; 음성 신호들을 수신하는 단계; 상기 화자 등록 트리거 신호에 응답하여, 상기 음성 신호들을 이용하여 화자의 위치를 나타내는 화자 위치 정보를 생성하는 단계; 상기 음성 신호들을 이용하여 화자를 식별하기 위한 화자 식별자를 생성하는 단계; 상기 화자 위치 정보를 기준 화자 위치 정보로서 저장하는 단계; 및 상기 화자 식별자를 기준 화자 식별자로서 저장하는 단계를 포함하고, 상기 기준 화자 위치 정보와 상기 기준 화자 식별자는 서로 매칭되어 저장하는 음성 분리 방법 기술을 제안하고 있다.

즉, 위에서 간략히 참조한 바와 같이, 본 기술 분야인 화자 분할 기술에는 다양한 방식의 화자 분할 방법이 제안되고 있음을 알 수 있다.

1. 특허출원번호 : 10-2020-0066240, 발명의 명칭 : 멀티디바이스 기반 화자분할 성능 향상을 위한 방법 및 시스템 2. 특허출원번호 : 10-2019-0078789, 발명의 명칭 : 분할 음성 인식을 기반으로 발화자의 음성에 대응하는 텍스트의 생성이 가능한 음성 인식 장치 및 그 동작 방법 3. 특허출원번호 : 10-2016-0073320, 발명의 명칭 : 머신 러닝을 통한 화자 인식 모델 생성 방법 및 장치 4. 특허출원번호 : 10-2014-0014318, 발명의 명칭 : 화자 분할 기반 다자간 자동 통번역 운용 시스템 및 방법과 이를 지원하는 장치 5. 특허출원번호 : 10-2021-0112110, 발명의 명칭 : 음성인식을 이용한 회의 관리 시스템 6. 특허출원번호 : 10-2014-0095570, 발명의 명칭 : 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법 7. 특허출원번호 : 10-2019-0141938, 발명의 명칭 : 기계학습 기반의 화자 분리 방법 및 그를 위한 장치 8. 특허출원번호 : 10-2020-0085369, 발명의 명칭 : 음성 신호들을 화자에 따라 분리하기 위한 음성 분리 장치 및 음성 분리 방법

1. Eigenvoice 기반 화자가중치 거리측정 방식을 이용한 화자 분할 시스템 (Speaker Segmentation System Using Eigenvoice-based Speaker Weight Distance Method), 최무열 (부산대학교 전자공학과) , 김형순 (부산대학교 전자공학과), 한국음향학회지= The journal of the acoustical society of Korea v.31 no.4 ,pp. 266 - 272 , 2012 , 1225-4428 , 한국음향학회 2. 화자분할을 위한 지역적 특성 기반 밀도 클러스터링 (Local Distribution Based Density Clustering for Speaker Diarization), 노진상 (고려대학교 영상정보처리협동) , 손수원 (고려대학교 전기전자공학과) , 김성수 (삼성전자) , 이재원 (삼성전자) , 고한석 (고려대학교 전기전자공학과), 한국음향학회지= The journal of the acoustical society of Korea v.34 no.4 ,pp. 303 - 309 , 2015 , 1225-4428 , 한국음향학회 3. 화자 구분 시스템의 관심 화자 추출을 위한 i-vector 유사도 기반의 음성 분할 기법 (I-vector similarity based speech segmentation for interested speaker to speaker diarization system), 배아라 (인천대학교 컴퓨터공학부) , 윤기무 (미디어젠) , 정재희 (인천대학교 컴퓨터공학부) , 정보경 (인천대학교 컴퓨터공학부) , 김우일 (인천대학교 컴퓨터공학부), 한국음향학회지= The journal of the acoustical society of Korea v.39 no.5 ,pp. 461 - 467 , 2020 , 1225-4428 , 한국음향학회 4. 문맥 독립 화자인식을 위한 공간 분할 벡터 양자기 설계 (A Classified Space VQ Design for Text-Independent Speaker Recognition), 임동철 (아주대학교 대학원 전자공학부) , 이행세 (아주대학교 전자공학부), 정보처리학회논문지. The KIPS transactions. Part B. Part B v.10B no.6 ,pp. 673 - 680 , 2003 , 1598-284x , 한국정보처리학회 5. 화상회의 영상에서 움직이는 화자의 분할 및 추적 알고리즘 (Segmentation and Tracking Algorithm for Moving Speaker in the Video Conference Image) 최우영 (명지대학교 전자정보통신공학부) , 김한메 (명지대학교 대학원 전자공학과), 전기전자학회논문지 = Journal of IKEEE v.6 no.1 = no.10 ,pp. 54 - 64 , 2002 , 1226-7244 , 한국전기전자학회

본 발명에서는 단말기를 이용한 통화 중, 주변 사람들의 목소리가 통화 상대방에게 전송되는 것을 방지하기 위하여 단말기 사용자인 화자의 음성을 별도로 분리하여 통화 상대방에게 전송될 수 있도록 하는 방법을 제안하고자 한다.

본 발명의 기술적 사상인 단말기 사용자들의 음성 특징 정보를 저장하는 서버를 매개로 하는 화자분할 기술이 적용된 앱을 이용한 단말기 음성 대화 방법은,

(a) 제 1 단말기를 통하여 적어도 1인 이상의 화자 음성을 수신하는 단계;

(b) 적어도 1인 이상의 상기 화자 음성을 서버로 전송하는 단계;

(c) 상기 서버는 기학습된 자동 음성 인식(ASR) 모델을 이용하여 상기 적어도 1인 이상의 상기 화자 음성을 개별적으로 분할하여 적어도 하나 이상의 분할 음성을 생성하는 단계;

(d) 적어도 하나 이상의 상기 분할 음성 각각의 특징점을 추출하는 단계;

(e) 상기 제 1 단말기 사용자의 음성과 매칭되는 특징점을 갖는 분할 음성을 상기 제 1 단말기의 사용자 음성으로 선택하는 화자 분할 단계;

(f) 상기 제 1 단말기의 상기 사용자 음성을 무선 통신을 통하여 제 2 단말기로 전송하는 단계;

(g) 상기 제 2 단말기에서 상기 사용자 음성을 출력하는 단계를 구비하며,

상기 제 1 단말기 사용자의 음성과 매칭되는 특징점을 갖는 분할 음성을 상기 제 1 단말기의 사용자 음성으로 선택하는 화자 분할하는 (e) 단계는

음성 특징 추출 기술인 MPCC(mel-frequency cepstral coefficients)를 사용하여 각각의 상기 분할 음성을 전처리하고 벡터값으로 변환하는 단계;

상기 분할 음성의 어순 정보를 획득하기 위하여 TDNN 레이어를 통한 후, 슬라이딩 윈도우(sliding window)를 통해 상기 분할 음성의 데이타 정보를 일정한 범위를 가지고 순차젓으로 이동하면서 일정하게 겹치는 간격(오버랩)으로 N(N은 1 이상의 자연수)개의 세그먼트로 나누는 단계;

상기 N 개의 세그먼트를 N개의 세그먼트 벡터로 압축한 후 상기 분할 음성의 데이타 정보에 대한 벡터값들을 대표하는 하나의 벡터값으로 압축시키는 단계;

상기 분할 음성의 데이타 정보에 대한 벡터값들을 대표하는 하나의 벡터값과 상기 서버에 저장된 상기 사용자 음성의 음성 특징을 비교하여 유사도가 가장 높은 분할 음성을 상기 사용자 음성으로 선택하여 화자를 분리하는 단계로 이루어진다.

본 발명에서 제안하는 화자분할 기술이 적용된 앱을 이용한 단말기 음성 대화 방법을 실시하는 경우 단말기를 이용한 통화 중 주변의 노이즈 음성을 제거할 수 있으므로 선명하게 통화 상대방의 음성을 들을 수 있다는 이점이 있다.

도 1은 본 발명에서 제안하는 화자분할 기술이 적용된 앱을 이용한 단말기 음성 대화 방법을 설명하는 전체 개념도이다.
도 2는 본 발명에 적용된 SR 모델 학습 프로세스를 설명하는 일예이다.
도 3는 본 발명의 실시를 위하여 사용된 화자 분할 모듈에서 처리하는 화자 분할 방법의 일예를 설명하는 흐름도이다.

이하, 도면 등을 참조하여 본 발명에서 제안하는 기술적 사상인 화자분할 기술이 적용된 앱을 이용한 단말기 음성 대화 방법에 대하여 설명하기로 한다.

도 1은 본 발명에서 제안하는 화자분할 기술이 적용된 앱을 이용한 단말기 음성 대화 방법을 설명하는 전체 개념도이다.

도 1에 도시된 바와 같이, 모바일폰과 같이 음성 통화가 가능한 단말기를 소지하는 사용자(A)가 타인(D)과 통화를 하고 있는 와중에 사용자(A) 주변에 있던 또 다른 타인(B, C 등)의 음성이 사용자(A)의 단말기로 입력되는 경우, 사용자(A)의 음성만이 타인(D)의 단말기로 전송되도록 할 필요가 있다.

이에 본 발명에서는 각 단말기에 화자분할 기술이 적용되는 본 발명의 앱을 설치함으로써 이를 가능하도록 하였다.

이를 위하여, 본 발명에서는 단말기에 설치된 앱과 연동되는 화자 분할 기능을 갖는 AI서버(이하, 간단히 서버라고 부른다)를 제공한다.

먼저, 본 발명의 실시를 위하여 각 단말기 사용자는 본 발명에서 제공하는 화자 분할 기능을 제공하는 통화 앱을 설치한다.

다음, 사용자(A)가 자신의 단말기의 상기 통화 앱을 활성화 시킨 후 타인(D)와 통화를 한다.

다음, 사용자(A) 단말기를 통하여 적어도 하나 이상의 화자 음성이 수신되는 경우, 예컨대 사용자(A) 주변에 있는 타인(B, C 등)이 사용자(A)가 통화를 하는 중에 말을 하는 경우, 이들 화자의 음성(즉, A, B, C,..등의 음성)이 모두 사용자(A)의 단말기로 입력된다.

이렇게 입력된 화자들의 음성들은 사용자(A)의 단말기를 통하여 AI 서버(이하, 서버)로 전송된다.

따라서, 서버는 화자1, 화자2, 화자 3의 음성 정보를 수신하게 된다.

본 발명의 서버에서는 이들 화자 음성을 개별적으로 분할하는 과정을 거친 후, 분할된 3개 종류의 음성 중 어느 음성 정보가 사용자(A)의 음성인지 여부를 판단한다.

서버에서, 예컨대 화자 2의 음성 정보가 사용자(A)의 음성이라고 판단하는 경우, 화자2의 음성 정보에 대응하는 단어3, 단어, 4, 및 단어 6의 조합을 선택한 후 통화 상대방(D)의 단말기로 전송한다.

따라서 통화 상대방(D)은 노이즈가 제거된 상태로 자신의 통화 상대방(A)의 음성을 선명하게 들을 수 있게 된다.

이러한 기능을 가능하게 하기 위하여 본 발명의 서버는 자동 음성 인식(ASR: Automatic Speech Recognition) 모듈과 화자 분할 (SD ; Speaker Diarisation) 모듈을 구비하고 있다.

알려진 바와 같이, 자동 음성 인식(ASR: Automatic Speech Recognition) 모듈은 사람의 음성 정보를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등에 적용되고 있으며, 최근에는 기계 학습 기술로 훈련하여 생성된 ASR 모델을 이용하여 입력된 음성이 특정 화자인지 여부를 판단하기 위한 모둘로 자주 사용되고 있으며 본 발명 실시에 적용된 ASR 모듈은 단말기를 통하여 입력된 복수의 화자 정보를 상호 분할하는 기능을 수행한다.

한편, 본 발명의 화자 분할(SD ; Speaker Diarisation) 모듈은 분할된 복수개의 화자 음성 정보 각각에 대하여 어느 화자가 사용자 화자의 음성 정보인지 여부를 판단하는 기능을 수행한다.

지금까지 설명한 본 발명의 기술적 사상을 순차적으로 요약하여 설명하면 다음과 같은 방식으로 처리됨을 알 수 있다.

1. 단말기에서 활성화시킨 통화 앱을 통한 음성 입력 시에, 여러 음성이 들어왔을 경우, 음성데이터를 AI 서버로 전송한다.(예컨대, 채팅방, STT입력 등의 상황을 가정할 수 있다)

2. 상기 1의 AI 서버에 저장되어있던 미리 학습된 ASR모듈을 통해 해당 음성데이터에 몇 개의 목소리가 있는지를 확인하기 위하여 각 화자의 음성을 분할한다(참고로, ASR 모듈은 언어별로 존재할 수 있다)

3. 상기 2의 ASR모듈을 통해 분할된 목소리 중 단말기 사용자 본인의 목소리가 무엇인지 판별하기 위해 AI서버에 미리 학습해둔 사용자 목소리 인식 모델인 SR 모듈을 통해 사용자의 화자 음성을 판단한다

4. 이렇게 판단된 사용자의 음성이 통화 상대방의 단말기로 전송되어 출력된다(본 발명 서버에서는 인식된 사용자의 음성이 아닌 타인의 음성 정보는 필터링하여 제거한다)

따라서, 본 발명을 실시하는 경우 사용자 단말기로 입력된 복수개의 음성 중에서 사용자 화자 음성만이 통화 상대방에게 전송되어 출력되는 것을 알 수 있다.

참고로, 사용자의 음성 정보를 추출하기 위하여 본 발명의 SR 모듈 학습 프로세스는 다음과 같이 사전 처리되어 제공된다.

1. 사전에, 사용자 단말기의 통화 앱을 통하여 사용자 음성 정보를 순차적으로 복수회 입력한다.

2. 순차적으로 입력된 사용자 음성은 (WAV 포맷) 데이터 파일로 저장된다.

3. 데이터 파일로 저장된 사용자 음성 데이터를 AI 서버로 전송한다.

4. 서버에서는 MPCC기술을 사용하여 사용자 목소리 특징(Feature)을 추출한다.

5. 추출된 목소리 특징(Features)을 입력 데이터로 하여 SR 모듈을 학습시킨다.

6. 학습 완료 후, 사용자 개인의 SR모듈에 저장한다.

이후, 단말기를 통하여 입력되는 음성이 단말기 사용자의 음성 특징과 일치하는지 여부를 판단할 수 있게 된다

도 2는 위에서 설명한 SR 모델 학습 프로세스를 설명하는 일예이다.

도시된 바와 같이, 단말기 사용자는 예컨대, 6가지 음성 패턴이 단말기를 통하여 서버로 전송되면, 서버의 SR 모듈은 사용자의 각 음성 정보를 음성 파일로 저정하고 MFCC를 통하여 목소리 특징을 추출하고 이들 목소리 특징을 학습시킨 후 SR 모델에 저장하며, 이후 단말기를 통하여 음성 정보가 전송되면 해당 음성 정보의 특징을 추출하여 SR 모델에 저장된 사용자의 음성인지 여부를 판단하는 기능을 수행한다.

따라서, 본 발명에서는 이러한 자동 음성 인식 모듈과 화자 분할 모듈을 이용하여 복수개의 화자 음성 정보를 상호 분리한 후, 이들 각각의 음성 정보의 특징을 추출한 후 단말기 사용자의 화자 정보를 판별할 수 있게 된다.

다음, 도 3는 본 발명의 실시를 위하여 사용된 화자 분할 모듈에서 처리하는 화자 분할 방법의 일예를 설명하는 흐름도이다.

도 3에서와 같이, 본 발명의 화자 분할 방법은 다음과 같은 단계로 이루어진다.

1. 음성 특징 추출에 사용되는 대표적인 기술인 MPCC(mel-frequency cepstral coefficients)를 사용하여 음성 신호 정보를 전처리하고 벡터값으로 전환한다. 참고로, 음성 정보 처리시 사용되는 MFCC는 입력 음성을 짧은 구간(대개 25ms 내외)의 프레임으로 나눈 후 프레임 각각에 푸리에 변환을 실시해 해당 구간 음성(frame)에 담긴 주파수(frequency) 정보를 추출하여 음성 특징을 추출하는 기술이다.

2. 다음, 음성 데이터의 어순 정보(단어 위치 정보)를 얻기 위하여 TDNN(Time Delay Neural Network) 레이어를 통한 후, 슬라이딩 윈도우(sliding window)를 통해 전체 음성 데이터를 일정한 범위를 가지고 순차적으로 이동하면서 일정하게 겹치는 간격(오버랩)으로 N개의 세그먼트로 나눈다.

3. N개의 세그먼트 각각을 N개의 세그먼트 벡터로 압축한 후, 전체 음성 데이터에 대한 벡터값들을 대표하는 하나의 벡터값으로 압축시킨다.

4. 화자별로 점수를 포함한 벡터값(0과 1사이)를 상호 비교하여 가장 높은 벡터값을 갖는 화자를 분리한다.

본 발명은 전술한 화자 분할 방법을 이용함으로써 단말기 사용자의 화자 음성 정보를 분리할 수 있다.

지금까지 설명한 본 발명에 따른 화자분할 기술이 적용된 앱을 이용한 단말기 음성 대화 방법을 전체적으로 정리하여 살명하면 다음과 같은 단계로 처리됨을 알 수 있다.

즉, 본 발명에서 제안하는 기술적 사상인 단말기 사용자들의 음성 특징 정보를 저장하는 서버를 매개로 하는 화자분할 기술이 적용된 앱을 이용한 단말기 음성 대화 방법은,

상기 분할 음성의 어순 정보를 획득하기 위하여 TDNN 레이어를 통한 후, 슬라이딩 윈도우(sliding window)를 통해 상기 분할 음성의 데이타 정보를 일정한 범위를 가지고 순차젓으로 이동하면서 일정하게 겹치는 간격(오버랩)으로 N 개의 세그먼트로 나누는 단계;

이상에서 설명한 본 발명의 단말기 사용자들의 음성 특징 정보를 저장하는 서버를 매개로 하는 화자분할 기술이 적용된 앱을 이용한 단말기 음성 대화 방법을 실시하는 경우 단말기로 입력되는 복수의 화자 음성 중 사용자 음성만을 별도로 분할하고 이렇게 분할된 사용자 음성 정보만을 통화 상대방의 단말기로 전송하여 출력되도록 함으로써 노이즈 없는 선명한 통화 품질 제공이 가능하다는 이점이 있다.

Claims

단말기 사용자들의 음성 특징 정보를 저장하는 서버를 매개로 하는 화자분할 기술이 적용된 앱을 이용한 단말기 음성 대화 방법으로서,
(a) 제 1 단말기를 통하여 적어도 1인 이상의 화자 음성을 수신하는 단계;
(b) 적어도 1인 이상의 상기 화자 음성을 서버로 전송하는 단계;
(c) 상기 서버는 기학습된 자동 음성 인식(ASR) 모델을 이용하여 상기 적어도 1인 이상의 상기 화자 음성을 개별적으로 분할하여 적어도 하나 이상의 분할 음성을 생성하는 단계;
(d) 적어도 하나 이상의 상기 분할 음성 각각의 특징점을 추출하는 단계;
(e) 상기 제 1 단말기 사용자의 음성과 매칭되는 특징점을 갖는 분할 음성을 상기 제 1 단말기의 사용자 음성으로 선택하는 화자 분할 단계;
(f) 상기 제 1 단말기의 상기 사용자 음성을 무선 통신을 통하여 제 2 단말기로 전송하는 단계;
(g) 상기 제 2 단말기에서 상기 사용자 음성을 출력하는 단계를 구비하며,
상기 제 1 단말기 사용자의 음성과 매칭되는 특징점을 갖는 분할 음성을 상기 제 1 단말기의 사용자 음성으로 선택하는 화자 분할하는 (e) 단계는
음성 특징 추출 기술인 MPCC(mel-frequency cepstral coefficients)를 사용하여 각각의 상기 분할 음성을 전처리하고 벡터값으로 변환하는 단계;
상기 분할 음성의 어순 정보를 획득하기 위하여 TDNN 레이어를 통한 후, 슬라이딩 윈도우(sliding window)를 통해 상기 분할 음성의 데이타 정보를 일정한 범위를 가지고 순차젓으로 이동하면서 일정하게 겹치는 간격(오버랩)으로 N개(N은 1 이상의 자연수)의 세그먼트로 나누는 단계;
상기 N 개의 세그먼트를 N개의 세그먼트 벡터로 압축한 후 상기 분할 음성의 데이타 정보에 대한 벡터값들을 대표하는 하나의 벡터값으로 압축시키는 단계;
상기 분할 음성의 데이타 정보에 대한 벡터값들을 대표하는 하나의 벡터값과 상기 서버에 저장된 상기 사용자 음성의 음성 특징을 비교하여 유사도가 가장 높은 분할 음성을 상기 사용자 음성으로 선택하여 화자를 분리하는 단계를 구비하는 것을 특징으로 하는 화자분할 기술이 적용된 앱을 통한 단말기 음성 대화 방법.