KR102549882B1

KR102549882B1 - 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 시스템 및 방법

Info

Publication number: KR102549882B1
Application number: KR1020220133467A
Authority: KR
Inventors: 김동진; 김성표
Original assignee: 브레인소프트주식회사
Priority date: 2022-05-23
Filing date: 2022-10-17
Publication date: 2023-06-30
Also published as: WO2023229321A1

Abstract

본 발명은 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 시스템 및 방법에 관한 것이다.
본 발명에 따른 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 시스템은, 임의의 회의에 참여한 복수의 참여자들의 발언에 따른 음성을 각각 녹음하고, 녹음한 음성을 모바일 통신 네트워크를 통해 모바일 앱 서버로 각각 전송하는 복수의 휴대폰; 및 복수의 휴대폰으로부터 각각 전송된 음성을 각각 수신하고, 수신한 음성으로부터 참여자별 음성을 각각 분리하며, 분리된 참여자별 음성을 바탕으로 음성인식 결과물(speech-to-text)을 참여자별로 각각 생성하고, 참여자별로 각각 생성된 음성인식 결과물을 취합하여 하나의 전체적인 회의록을 구성하는 모바일 앱 서버를 포함하여 구성된다.
이와 같은 본 발명에 의하면, 회의 시 다수의 휴대폰을 이용하여 다수의 참여자의 발언에 따른 음성을 각각 인식하고, 인식된 음성을 텍스트로 변환함으로써 회의록을 자동으로 생성할 수 있다.

Description

다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 시스템 및 방법{System and method for automatically generating meeting minutes based on voice recognition using multiple mobile phones}

본 발명은 음성인식 기반의 회의록 자동 생성 시스템 및 방법에 관한 것으로서, 더 상세하게는 회의 시 다수의 휴대폰을 이용하여 다수의 참여자의 발언에 따른 음성을 각각 인식하고, 인식된 음성을 텍스트로 변환함으로써 회의록을 자동으로 생성할 수 있는 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 시스템 및 방법에 관한 것이다.

일반적으로, 어떤 회의를 할 때, 회의 내용을 기록으로 남기기 위해 회의록을 작성한다. 이와 같은 회의록은 대개 회의 진행 중에 혹은 회의를 마친 후, 회의 참여자나 회의 관련자가 수기로 혹은 컴퓨터(노트북 PC, 태블릿 PC, 데스크탑 PC 등)를 이용하여 작성한다. 그런데, 회의 내용이 단순하거나 가벼운 경우에는 회의록 작성이 비교적 수월하지만, 회의 내용이 복잡하거나 무거운 경우에는 회의록 작성이 상대적으로 힘들고, 적지 않은 노고를 수반한다.

또한, 다수의 회의 참여자가 회의록을 각자 작성해야 하는 경우, 작성된 회의 내용이 서로 다를 수 있고, 어떤 중대 사안에 대해 내용을 누락하거나, 내용을사실 그대로 기록하지 못하는 등의 문제가 발생할 수 있다. 그리고 이와 같은 문제가 발생할 경우, 대인 관계나 비지니스 측면, 기업 운영이나 정책 실행 또는 국가 간의 외교 분야 등에서 심각한 결과를 초래할 수 있다.

따라서, 다양한 형태의 회의와 관련하여 신속하고 정확한 회의록 작성에 대한 필요성이 대두되고 있다.

한국 공개특허공보 제10-2022-0089367호(2022.06.28.)

본 발명은 상기와 같은 사항을 감안하여 창출된 것으로서, 회의 시 다수의 휴대폰을 이용하여 다수의 참여자의 발언에 따른 음성을 각각 인식하고, 인식된 음성을 텍스트로 변환함으로써 회의록을 자동으로 생성할 수 있는 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 시스템 및 방법을 제공함에 그 목적이 있다.

상기의 목적을 달성하기 위하여 본 발명에 따른 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 시스템은,

임의의 회의에 참여한 복수의 참여자들의 발언에 따른 음성을 각각 녹음하고, 녹음한 음성을 모바일 통신 네트워크를 통해 모바일 앱 서버로 각각 전송하는 복수의 휴대폰; 및

상기 복수의 휴대폰으로부터 각각 전송된 음성을 각각 수신하고, 수신한 음성으로부터 참여자별 음성을 각각 분리하며, 분리된 참여자별 음성을 바탕으로 음성인식 결과물(speech-to-text)을 참여자별로 각각 생성하고, 참여자별로 각각 생성된 음성인식 결과물을 취합하여 하나의 전체적인 회의록을 구성하는 모바일 앱 서버를 포함하는 점에 그 특징이 있다.

여기서, 상기 모바일 앱 서버는,

상기 복수의 휴대폰으로부터 각각 전송된 음성을 각각 수신하는 휴대폰 음성 수신부;

상기 휴대폰 음성 수신부를 통해 수신한 각 음성에서 음성별 스펙트로그램을 각각 추출하는 음성별 스펙트로그램 추출부;

상기 음성별 스펙트로그램 추출부에 의해 추출된 각 음성별 스펙트로그램에서 음성 발생시간을 동기화 처리하는 음성 발생시간 동기화부;

상기 음성 발생시간 동기화부에 의해 동기화 처리된 각 음성별 스펙트로그램들을 각 쌍별로 각 스펙트로그램의 각 시간, 주파수 값들을 비교하여 각 참여자의 착석 방향을 추출하는 참여자별 착석방향 추출부;

각 스펙트로그램에서 상기 참여자별 착석방향 추출부에 의해 추출된 각 참여자의 착석 방향의 시간, 주파수 값을 증폭하고 다른 방향의 값은 감쇠시켜서 참여자별 스펙트로그램을 생성하는 참여자별 스펙트로그램 생성부;

상기 참여자별 스펙트로그램 생성부에 의해 생성된 참여자별 스펙트로그램을 입력받아 참여자별 스펙트로그램을 각 참여자의 음성으로 변환하는 참여자별 스펙트로그램/음성 변환부;

상기 참여자별 스펙트로그램/음성 변환부에 의해 변환된 각 참여자별 음성을 입력받아 음성을 텍스트로 변환하여 결과물(speech-to-text)을 생성하는 참여자별 음성/텍스트 변환부;

상기 참여자별 음성/텍스트 변환부에 의해 생성된 각각의 결과물을 취합하여 하나의 전체 회의록을 구성하는 회의록 구성부; 및

상기 회의록 구성부에 의해 구성된 회의록을 상기 복수의 휴대폰으로 각각 전송하는 회의록 전송부를 포함하여 구성될 수 있다.

이때, 상기 음성별 스펙트로그램 추출부가 각 음성에서 음성별 스펙트로그램을 각각 추출함에 있어서, DJ-변환(DJ-Transform, DJT)을 이용하여 음성별 스펙트로그램을 각각 추출할 수 있다.

이때, 또한 상기 참여자별 스펙트로그램 생성부가 각 참여자의 착석 방향의 시간, 주파수 값을 증폭하고 다른 방향의 값은 감쇠시켜서 참여자별 스펙트로그램을 생성함에 있어서, 상기 휴대폰이 참여자 1인당 각각 1개씩 배치된 경우에는 시간, 주파수별로 여러 개의 스펙트로그램 값들을 비교하여 가장 큰 값을 제외한 나머지 값들을 감쇠시켜서 참여자별 스펙트로그램을 생성할 수 있다.

여기서, 또한 상기 참여자별 스펙트로그램 생성부가 각 참여자의 착석 방향의 시간, 주파수 값을 증폭하고 다른 방향의 값은 감쇠시켜서 참여자별 스펙트로그램을 생성함에 있어서, 상기 휴대폰의 개수가 참여자 수보다 적은 경우에는, 각 스펙트로그램 쌍에서 각 시간, 주파수별로 두 개의 스펙트로그램 값의 비율을 측정하여 비율 분포를 구성하고, 구성된 비율 분포에서 각 피크(peak)에 해당하는 비율별로 각 참여자의 음성 스펙트로그램을 생성할 수 있다.

이때, 상기 음성 스펙트로그램을 생성함에 있어서, 각 시간, 주파수별로 스펙트로그램 쌍에서의 스펙트로그램 값의 비율이 상기 비율 분포를 많이 벗어날수록 크게 감쇠시키는 방식으로 음성 스펙트로그램을 생성할 수 있다.

이때, 또한 상기 참여자별 스펙트로그램/음성 변환부가 참여자별 스펙트로그램을 각 참여자의 음성으로 변환함에 있어서, 역DJ-변환(Inverse DJ-Transform, Inverse DJT)을 이용하여 스펙트로그램을 음성으로 변환할 수 있다.

또한, 상기의 목적을 달성하기 위하여 본 발명에 따른 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 방법은,

a) 임의의 회의에 참여한 복수의 참여자들 앞에 놓인 복수의 휴대폰이 회의 진행에 따라 참여자들의 발언에 의한 음성을 각각 녹음하는 단계;

b) 상기 복수의 휴대폰이 각각 녹음한 음성을 모바일 통신 네트워크를 통해 모바일 앱 서버로 각각 전송하는 단계;

c) 상기 모바일 앱 서버가 상기 복수의 휴대폰으로부터 각각 전송된 음성을 각각 수신하고, 수신한 음성으로부터 참여자별 음성을 각각 분리하는 단계;

d) 상기 모바일 앱 서버가 상기 분리된 참여자별 음성을 바탕으로 음성인식 결과물(speech-to-text)을 참여자별로 각각 생성하는 단계; 및

e) 상기 모바일 앱 서버가 상기 참여자별로 각각 생성된 상기 음성인식 결과물을 취합하여 하나의 전체적인 회의록을 구성하는 단계를 포함하는 점에 그 특징이 있다.

여기서, 상기 단계 e) 이후에 상기 모바일 앱 서버가 상기 구성된 회의록을 상기 복수의 휴대폰으로 각각 전송하는 단계를 더 포함할 수 있다.

또한, 상기 단계 c)에서 상기 모바일 앱 서버가 수신한 음성으로부터 참여자별 음성을 각각 분리함에 있어서, 사전에 회의 참여자 수를 설정하여 음성 분리 결과 개수를 지정할 수 있다.

또한, 상기 단계 c)에서 상기 모바일 앱 서버가 수신한 음성으로부터 참여자별 음성을 각각 분리함에 있어서, 각 음성에서 음성별 스펙트로그램을 각각 추출할 수 있다.

이때, 상기 각 음성에서 음성별 스펙트로그램을 각각 추출함에 있어서, DJ-변환(DJ-Transform, DJT)을 이용하여 음성별 스펙트로그램을 각각 추출할 수 있다.

이때, 또한 상기 추출된 각 음성별 스펙트로그램에서 음성 발생시간을 동기화 처리할 수 있다.

이때, 또한 상기 동기화 처리된 각 음성별 스펙트로그램들을 각 쌍별로 각 스펙트로그램의 각 시간, 주파수 값들을 비교하여 각 참여자의 착석 방향을 추출할 수 있다.

이때, 또한 상기 추출된 각 참여자의 착석 방향의 시간, 주파수 값을 증폭하고 다른 방향의 값은 감쇠시켜서 참여자별 스펙트로그램을 생성할 수 있다.

이때, 또한 상기 각 참여자의 착석 방향의 시간, 주파수 값을 증폭하고 다른 방향의 값은 감쇠시켜서 참여자별 스펙트로그램을 생성함에 있어서, 상기 휴대폰이 참여자 1인당 각각 1개씩 배치된 경우에는 시간, 주파수별로 여러 개의 스펙트로그램 값들을 비교하여 가장 큰 값을 제외한 나머지 값들을 감쇠시켜서 참여자별 스펙트로그램을 생성할 수 있다.

여기서, 또한 상기 각 참여자의 착석 방향의 시간, 주파수 값을 증폭하고 다른 방향의 값은 감쇠시켜서 참여자별 스펙트로그램을 생성함에 있어서, 상기 휴대폰의 개수가 참여자 수보다 적은 경우에는, 각 스펙트로그램 쌍에서 각 시간, 주파수별로 두 개의 스펙트로그램 값의 비율을 측정하여 비율 분포를 구성하고, 구성된 비율 분포에서 각 피크(peak)에 해당하는 비율별로 각 참여자의 음성 스펙트로그램을 생성할 수 있다.

또한, 상기 단계 c)에서 상기 모바일 앱 서버가 수신한 음성으로부터 참여자별 음성을 각각 분리함에 있어서, 참여자별 스펙트로그램을 각 참여자의 음성으로 변환할 수 있다.

이때, 참여자별 스펙트로그램을 각 참여자의 음성으로 변환함에 있어서, 역DJ-변환(Inverse DJ-Transform, Inverse DJT)을 이용하여 스펙트로그램을 음성으로 변환할 수 있다.

이와 같은 본 발명에 의하면, 회의 시 다수의 휴대폰을 이용하여 다수의 참여자의 발언에 따른 음성을 각각 인식하고, 인식된 음성을 텍스트로 변환함으로써 회의록을 자동으로 생성할 수 있는 장점이 있다.

도 1은 본 발명에 따른 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 시스템의 구성을 개략적으로 나타낸 도면이다.
도 2는 본 발명에 따른 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 방법의 실행 과정을 나타낸 흐름도이다.
도 3은 2개 이상의 휴대폰으로 회의 시 참여자들의 발언에 따른 음성을 녹음하는 것을 나타낸 도면이다.
도 4는 회의 시 회의 참여자 1인당 휴대폰 1대가 배치된 경우를 나타낸 도면이다.
도 5는 회의 시 휴대폰의 개수가 회의 참여자 수보다 더 적은 경우를 나타낸 도면이다.
도 6은 두 스펙트로그램 쌍에서 각 시간, 주파수별로 비율을 측정하는 개요를 나타낸 도면이다.
도 7은 각 점에서 측정된 비율을 이용하여 비율 분포를 측정하는 개요를 나타낸 도면이다.
도 8은 2개의 스펙트로그램에서 3개의 스펙트로그램을 분리하는 개요를 나타낸 도면이다.

본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정되어 해석되지 말아야 하며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 한다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈", "장치" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

이하 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다.

도 1은 본 발명의 실시예에 따른 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 시스템의 구성을 개략적으로 나타낸 도면이다.

도 1을 참조하면, 본 발명에 따른 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 시스템(100)은 복수의 휴대폰(101)과 모바일 앱 서버(105)를 포함하여 구성된다.

복수의 휴대폰(101)은 임의의 회의에 참여한 복수의 참여자들(도 3 내지 도 5 참조)의 발언에 따른 음성을 각각 녹음하고, 녹음한 음성을 모바일 통신 네트워크를 통해 모바일 앱 서버(105)로 각각 전송한다. 여기서, 복수의 휴대폰(101)은 각각 스마트폰일 수 있다. 여기서, 도 3에 도시된 바와 같이 회의 참여자도 2인이고, 휴대폰(101)도 2개인 경우에는 휴대폰(101)의 마이크가 가능한 한 반대 방향이 되도록 휴대폰(101)을 배치한다. 그리고 휴대폰이 여러 개일 경우에는 가능한 한 휴대폰을 원형으로 배치한다. 또한, 휴대폰(101)이 도 4에 도시된 바와 같이, 회의 참여자 1인당 1개일 경우에는 회의 참여자 각자의 앞에 휴대폰(101)을 배치한다.

모바일 앱 서버(105)는 상기 복수의 휴대폰(101)으로부터 각각 전송된 음성(이때, 각 휴대폰에서 전송하는 음성(소리)은 다수의 음성(소리)이 섞인 상태임)을 각각 수신하고, 수신한 음성으로부터 참여자별 음성을 각각 분리하며, 분리된 참여자별 음성을 바탕으로 음성인식 결과물(speech-to-text)을 참여자별로 각각 생성하고, 참여자별로 각각 생성된 음성인식 결과물을 취합하여 하나의 전체적인 회의록을 구성한다. 더 나아가, 모바일 앱 서버(105)는 구성된 회의록을 상기 복수의 휴대폰(101)으로 각각 전송하는 기능을 더 구비할 수 있다.

여기서, 이상과 같은 모바일 앱 서버(105)는 휴대폰 음성 수신부(110), 음성별 스펙트로그램 추출부(120), 음성 발생시간 동기화부(130), 참여자별 착석방향 추출부(140), 참여자별 스펙트로그램 생성부(150), 참여자별 스펙트로그램/음성 변환부(160), 참여자별 음성/텍스트 변환부(170), 회의록 구성부(180) 및 회의록 전송부(190)를 포함하여 구성된다.

휴대폰 음성 수신부(110)는 상기 복수의 휴대폰(101)으로부터 각각 전송된 음성을 각각 수신한다.

음성별 스펙트로그램 추출부(120)는 상기 휴대폰 음성 수신부(110)를 통해 수신한 각 음성에서 음성별 스펙트로그램을 각각 추출한다. 이때, 이와 같은 음성별 스펙트로그램 추출부(120)가 각 음성에서 음성별 스펙트로그램을 각각 추출함에 있어서, DJ-변환(DJ-Transform, DJT)을 이용하여 음성별 스펙트로그램을 각각 추출할 수 있다. 여기서, DJ-변환(DJT)은 복소수 영역에서 외력의 라플라스 변환으로 해석될 수 있으며 DJT의 역은 역 라플라스 변환에서 파생된다. 외력이 감쇠 조화 진동자(DHO)에 가해지면, 그 에너지나 운동의 진폭은 외력의 주파수에 의존하고, 외력의 주파수가 감쇠 조화 진동자의 고유 주파수에 가까울 때 공진이 발생한다. 따라서, 다양한 주파수의 감쇠 조화 진동자의 응답을 관찰함으로써 신호의 스펙트럼을 분석할 수 있다. DJT는 외력으로 작용하는 신호가 주어졌을 때 실질적으로 50Hz에서 8,000Hz에 이르는 다양한 고유 주파수를 갖는 감쇠 조화 진동자(DHO)들의 응답으로 정의된다. 이와 같은 DJ-변환(DJT)과 관련해서는 본 출원인에 의해 선출원된 "한국 등록특허공보 등록번호 제10-2277952호(디제이 변환에 의한 주파수 추출 방법)"와 "한국 등록특허공보 등록번호 제10-2164306호(디제이변환에 기초한 기본주파수 추출 방법)" 등에 자세히 설명되어 있으므로, 그것을 참조하는 것으로 갈음하고, 여기에서는 DJ-변환(DJT)에 대한 상세한 설명은 생략하기로 한다.

음성 발생시간 동기화부(130)는 상기 음성별 스펙트로그램 추출부(120)에 의해 추출된 각 음성별 스펙트로그램에서 음성 발생시간을 동기화 처리한다.

참여자별 착석방향 추출부(140)는 상기 음성 발생시간 동기화부(130)에 의해 동기화 처리된 각 음성별 스펙트로그램들을 각 쌍별로 각 스펙트로그램의 각 시간, 주파수 값들을 비교하여 각 참여자의 착석 방향을 추출한다.

참여자별 스펙트로그램 생성부(150)는 각 스펙트로그램에서 상기 참여자별 착석방향 추출부(140)에 의해 추출된 각 참여자의 착석 방향의 시간, 주파수 값을 증폭하고 다른 방향의 값은 감쇠시켜서 참여자별 스펙트로그램을 생성한다. 이때, 이와 같은 참여자별 스펙트로그램 생성부(150)가 각 참여자의 착석 방향의 시간, 주파수 값을 증폭하고 다른 방향의 값은 감쇠시켜서 참여자별 스펙트로그램을 생성함에 있어서, 상기 휴대폰(101)이 도 3 및 도 4에 도시된 바와 같이, 참여자 1인당 각각 1개씩 배치된 경우에는 시간, 주파수별로 여러 개의 스펙트로그램 값들을 비교하여 가장 큰 값을 제외한 나머지 값들을 감쇠시켜서 참여자별 스펙트로그램을 생성할 수 있다.

여기서, 또한 상기 참여자별 스펙트로그램 생성부(150)가 각 참여자의 착석 방향의 시간, 주파수 값을 증폭하고 다른 방향의 값은 감쇠시켜서 참여자별 스펙트로그램을 생성함에 있어서, 도 5에 도시된 바와 같이, 상기 휴대폰(101)의 개수가 참여자 수보다 적은 경우(예컨대, 회의 참여자는 4인이고, 휴대폰은 3개인 경우)에는, 각 스펙트로그램 쌍에서 각 시간, 주파수별로 두 개의 스펙트로그램 값의 비율을 측정하여 비율 분포를 구성하고, 구성된 비율 분포에서 각 피크(peak)에 해당하는 비율별로 각 참여자의 음성 스펙트로그램을 생성할 수 있다.

여기서, 이상과 같이 각 스펙트로그램 쌍에서 각 시간, 주파수별로 두 개의 스펙트로그램 값의 비율을 측정하여 비율 분포를 구성하고, 구성된 비율 분포에서 각 피크(peak)에 해당하는 비율별로 각 참여자의 음성 스펙트로그램을 생성하는 것과 관련하여 조금 더 설명을 부가해 보기로 한다.

먼저, 두 스펙트로그램 쌍에서 각 시간, 주파수별로 비율을 측정하는 방법에 대해 도 6을 참조하여 설명해 보기로 한다.

도 6은 두 스펙트로그램 쌍에서 각 시간, 주파수별로 비율을 측정하는 개요를 나타낸 도면이다.

도 6에 도시된 바와 같이, 시간 및 주파수의 좌표가 같은 두 점에서 주파수의 크기를 비교하여 비율을 측정한다. 예를 들면, 도 6의 (a)와 같은 첫 번째 스펙트로그램의 각 시간, 주파수에서의 값을 l(t, f)이라 하고, (b)와 같은 두 번째 스펙트로그램의 각 시간, 주파수에서의 값을 r(t, f)이라 하자. 또한, l(t, f) > r(t, f)이면 비율 ratio(t, f) = 상수 * (r(t, f)/l(t, f) - 1)로 정의하고, l(t, f) < r(t, f)이면 비율 ratio(t, f) = 상수 * (1 - l(t, f)/r(t, f))로 정의하자. 이때, 상수를 2로 정하면 비율을 [-2, 2]에 대응시킬 수 있다. 여기서, 상수는 가시화를 위한 것이므로 임의로 정할 수 있다.

다음에, 각 점에서 측정된 비율을 이용하여 비율 분포를 측정하는 방법에 대해 도 7을 참조하여 설명해 보기로 한다.

도 7은 각 점에서 측정된 비율을 이용하여 비율 분포를 측정하는 개요를 나타낸 도면이다.

도 7을 참조하면, 각 비율 ratio(t, f)의 분포를 히스토그램으로 작성하기로 한다. 히스토그램 작성은 예를 들어 다음과 같이 할 수 있다.

먼저, 비율 범위를 0.01 간격으로 나누고 각 범위의 비중을 weight[i]라 하자. 여기서 i는 -2.0, -1.99, -1.98, …, 0, 0.01, …, 2.0에 해당한다. 이후, 모든 weight[i]를 0으로 초기화한다. 그런 다음, 각 ratio(t, f)가 어느 범위에 들어가는지를 계산한 후, weight[i]의 값을 max(l(t, f), r(t, f))만큼 증가시킨다.

이렇게 하여 히스토그램 작성이 완료되면, 피크를 기준으로 구간을 분리하여 각 음성 방향별로 비율 구간을 추출한다.

예를 들면, 3명의 소리가 있을 경우에 각 사람의 비율 구간은 [-2.0, -0.3], [-0.3, 0.3], [0.3, 2]로 나눌 수 있다. 도 7의 (a), (b)는 추출된 비율 분포 히스토그램을 선으로 표현한 결과를 나타낸 것이다. 도 7에서 (a)는 음성이 두 개일 때를 나타낸 것이고, (b)는 음성이 세 개일 때를 나타낸 것이다.

다음으로, 두 개의 입력 스펙트로그램으로 구성된 비율 분포에서 각 참여자의 음성 스펙트로그램을 생성하는 방법에 대해 설명해 보기로 한다.

도 8은 2개의 스펙트로그램에서 3개의 스펙트로그램을 분리하는 개요를 나타낸 도면이다.

도 8을 참조하면, 우선 각 구간별로 생성될 스펙트로그램의 각 시간, 주파수 값을 0으로 초기화한다. 그런 후, 주어진 두 개의 스펙트로그램을 사용하여 각 시간, 주파수별로 비율 ratio(t, f)을 계산한 후 다음과 같은 과정을 진행한다.

먼저, 미리 추출된 음성 비율 구간 중 ratio(t, f)를 포함하는 구간을 확인한다.

그런 다음, 확인된 구간에 대응하여 생성될 스펙트로그램의 (t, f)(즉, 시간, 주파수) 값을 아래와 같은 방법으로 결정한다.

1) 해당 음성 비율 구간이 0보다 왼쪽에 있으면 첫 번째 스펙트로그램의 (t, f) 값을 해당 구간의 결과로 생성될 스펙트로그램의 (t, f) 값으로 저장한다.

2) 구간이 0을 포함하고 있으면, 두 개의 입력 스펙트로그램 중 미리 선택된 스펙트로그램의 (t, f) 값을 해당 구간의 결과로 생성될 스펙트로그램의 (t, f) 값으로 저장한다.

3) 해당 음성 비율 구간이 0보다 오른쪽에 있으면 두 번째 스펙트로그램의 (t, f) 값을 해당 구간의 결과로 생성될 스펙트로그램의 (t, f) 값으로 저장한다.

이상과 같은 일련의 과정을 통해 두 개의 입력 스펙트로그램으로 구성된 비율 분포에서 각 참여자의 음성 스펙트로그램을 생성하게 되는 것이다. 도 8에서 (a)는 주어진 2개의 스펙트로그램이고, (b)는 3개로 분리된 스펙트로그램 결과를 나타낸 것이다.

다시 도 1을 참조하면, 참여자별 스펙트로그램/음성 변환부(160)는 상기 참여자별 스펙트로그램 생성부(150)에 의해 생성된 참여자별 스펙트로그램을 입력받아 참여자별 스펙트로그램을 각 참여자의 음성으로 변환한다. 이때, 이러한 참여자별 스펙트로그램/음성 변환부(160)가 참여자별 스펙트로그램을 각 참여자의 음성으로 변환함에 있어서, 역DJ-변환(Inverse DJ-Transform, Inverse DJT)을 이용하여 스펙트로그램을 음성으로 변환할 수 있다. 여기서, 역DJ-변환(Inverse DJT)은 위에서 설명한 DJT의 역으로, 역 라플라스 변환에서 파생된다. 여기에서는 이에 대한 상세한 설명은 생략하기로 한다.

참여자별 음성/텍스트 변환부(170)는 상기 참여자별 스펙트로그램/음성 변환부(160)에 의해 변환된 각 참여자별 음성을 입력받아 음성을 텍스트로 변환하여 결과물(speech-to-text)을 생성한다.

회의록 구성부(180)는 상기 참여자별 음성/텍스트 변환부(170)에 의해 생성된 각각의 결과물을 취합하여 하나의 전체 회의록을 구성한다.

회의록 전송부(190)는 상기 회의록 구성부(180)에 의해 구성된 회의록을 상기 복수의 휴대폰(101)으로 각각 전송한다.

이상과 같은 모바일 앱 서버(105)는 위에서 설명한 바와 같은 다수의 개별 구성 요소들의 결합체로 구성될 수도 있고, 하나의 컴퓨터 시스템으로 구성될 수도 있다.

그러면, 이하에서는 이상과 같은 구성을 가지는 본 발명에 따른 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 시스템을 바탕으로 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 방법에 대해 설명해 보기로 한다.

도 2는 본 발명의 실시예에 따른 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 방법의 실행 과정을 나타낸 흐름도이다.

도 2를 참조하면, 본 발명에 따른 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 방법은, 먼저 임의의 회의에 참여한 복수의 참여자들 앞에 놓인 복수의 휴대폰(101)(도 3 내지 도 5 참조)이 회의 진행에 따라 참여자들의 발언에 의한 음성을 각각 녹음한다(단계 S201).

그런 후, 상기 복수의 휴대폰(101)이 각각 녹음한 음성을 모바일 통신 네트워크를 통해 모바일 앱 서버(105)로 각각 전송한다(단계 S202).

그러면, 모바일 앱 서버(105)는 상기 복수의 휴대폰(101)으로부터 각각 전송된 음성을 각각 수신하고, 수신한 음성으로부터 참여자별 음성을 각각 분리한다(단계 S203). 여기서, 모바일 앱 서버(105)가 수신한 음성으로부터 참여자별 음성을 각각 분리함에 있어서, 사전에 회의 참여자 수를 설정하여 음성 분리 결과 개수를 지정할 수 있다.

또한, 여기서 상기 모바일 앱 서버(105)가 수신한 음성으로부터 참여자별 음성을 각각 분리함에 있어서, 각 음성에서 음성별 스펙트로그램을 각각 추출할 수 있다. 이때, 상기 각 음성에서 음성별 스펙트로그램을 각각 추출함에 있어서, DJ-변환(DJ-Transform, DJT)을 이용하여 음성별 스펙트로그램을 각각 추출할 수 있다.

이때, 또한 상기 각 참여자의 착석 방향의 시간, 주파수 값을 증폭하고 다른 방향의 값은 감쇠시켜서 참여자별 스펙트로그램을 생성함에 있어서, 상기 휴대폰 (101)이 도 3 및 도 4에 도시된 바와 같이, 참여자 1인당 각각 1개씩 배치된 경우에는 시간, 주파수별로 여러 개의 스펙트로그램 값들을 비교하여 가장 큰 값을 제외한 나머지 값들을 감쇠시켜서 참여자별 스펙트로그램을 생성할 수 있다.

여기서, 또한 상기 각 참여자의 착석 방향의 시간, 주파수 값을 증폭하고 다른 방향의 값은 감쇠시켜서 참여자별 스펙트로그램을 생성함에 있어서, 도 5에 도시된 바와 같이, 상기 휴대폰(101)의 개수가 참여자 수보다 적은 경우(예를 들면, 회의 참여자는 4인이고, 휴대폰은 3개인 경우)에는, 각 스펙트로그램 쌍에서 각 시간, 주파수별로 두 개의 스펙트로그램 값의 비율을 측정하여 비율 분포를 구성하고, 구성된 비율 분포에서 각 피크(peak)에 해당하는 비율별로 각 참여자의 음성 스펙트로그램을 생성할 수 있다.

또한, 상기 단계 S203에서 상기 모바일 앱 서버(105)가 수신한 음성으로부터 참여자별 음성을 각각 분리함에 있어서, 참여자별 스펙트로그램을 각 참여자의 음성으로 변환할 수 있다.

한편, 이상에 의해 모바일 앱 서버(105)가 수신한 음성으로부터 참여자별 음성을 각각 분리한 후, 모바일 앱 서버(105)는 상기 분리된 참여자별 음성을 바탕으로 음성인식 결과물(speech-to-text)을 참여자별로 각각 생성한다(단계 S204).

그런 후, 모바일 앱 서버(105)는 상기 참여자별로 각각 생성된 상기 음성인식 결과물을 취합하여 하나의 전체적인 회의록을 구성한다(단계 S205).

여기서, 상기 단계 S205 이후에 상기 모바일 앱 서버(105)가 상기 구성된 회의록을 상기 복수의 휴대폰(101)으로 각각 전송하는 단계를 더 포함할 수 있다.

이상과 같이 모바일 앱 서버(105)가 상기 구성된 회의록을 상기 복수의 휴대폰(101)으로 각각 전송함에 따라 회의 참여자들은 회의 종료 후 별도의 회의록 작성을 위한 노고를 하지 않아도 동일한 내용의 회의록을 각각 받아볼 수 있게 되며, 자신의 휴대폰 또는 컴퓨터 등에 회의록을 보관하여 필요할 때는 언제든지 열람할 수 있게 된다.

이상의 설명과 같이, 본 발명에 따른 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 시스템 및 방법은, 회의 시 다수의 휴대폰을 이용하여 다수의 참여자의 발언에 따른 음성을 각각 인식하고, 인식된 음성을 텍스트로 변환함으로써 회의록을 자동으로 생성할 수 있는 장점이 있다.

이상, 바람직한 실시예를 통하여 본 발명에 관하여 상세히 설명하였으나, 본 발명은 이에 한정되는 것은 아니며, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 다양하게 변경, 응용될 수 있음은 당해 기술분야의 통상의 기술자에게 자명하다. 따라서, 본 발명의 진정한 보호 범위는 다음의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술적 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

100:(본 발명)다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 시스템
101: 휴대폰 105: 모바일 앱 서버
110: 휴대폰 음성 수신부 120: 음성별 스펙트로그램 추출부
130: 음성 발생시간 동기화부 140: 참여자별 착석방향 추출부
150: 참여자별 스펙트로그램 생성부 170: 참여자별 음성/텍스트 변환부
160: 참여자별 스펙트로그램/음성 변환부
180: 회의록 구성부 190: 회의록 전송부

Claims

임의의 회의에 참여한 복수의 참여자들의 발언에 따른 음성을 각각 녹음하고, 녹음한 음성을 모바일 통신 네트워크를 통해 모바일 앱 서버로 각각 전송하는 복수의 휴대폰; 및
상기 복수의 휴대폰으로부터 각각 전송된 음성을 각각 수신하고, 수신한 음성으로부터 참여자별 음성을 각각 분리하며, 분리된 참여자별 음성을 바탕으로 음성인식 결과물(speech-to-text)을 참여자별로 각각 생성하고, 참여자별로 각각 생성된 음성인식 결과물을 취합하여 하나의 전체적인 회의록을 구성하는 모바일 앱 서버를 포함하고,
상기 모바일 앱 서버는,
상기 복수의 휴대폰으로부터 각각 전송된 음성을 각각 수신하는 휴대폰 음성 수신부;
상기 휴대폰 음성 수신부를 통해 수신한 각 음성에서 음성별 스펙트로그램을 각각 추출하는 음성별 스펙트로그램 추출부;
상기 음성별 스펙트로그램 추출부에 의해 추출된 각 음성별 스펙트로그램에서 음성 발생시간을 동기화 처리하는 음성 발생시간 동기화부;
상기 음성 발생시간 동기화부에 의해 동기화 처리된 각 음성별 스펙트로그램들을 각 쌍별로 각 스펙트로그램의 각 시간, 주파수 값들을 비교하여 각 참여자의 착석 방향을 추출하는 참여자별 착석방향 추출부;
각 스펙트로그램에서 상기 참여자별 착석방향 추출부에 의해 추출된 각 참여자의 착석 방향의 시간, 주파수 값을 증폭하고 다른 방향의 값은 감쇠시켜서 참여자별 스펙트로그램을 생성하는 참여자별 스펙트로그램 생성부;
상기 참여자별 스펙트로그램 생성부에 의해 생성된 참여자별 스펙트로그램을 입력받아 참여자별 스펙트로그램을 각 참여자의 음성으로 변환하는 참여자별 스펙트로그램/음성 변환부;
상기 참여자별 스펙트로그램/음성 변환부에 의해 변환된 각 참여자별 음성을 입력받아 음성을 텍스트로 변환하여 결과물(speech-to-text)을 생성하는 참여자별 음성/텍스트 변환부;
상기 참여자별 음성/텍스트 변환부에 의해 생성된 각각의 결과물을 취합하여 하나의 전체 회의록을 구성하는 회의록 구성부; 및
상기 회의록 구성부에 의해 구성된 회의록을 상기 복수의 휴대폰으로 각각 전송하는 회의록 전송부를 포함하는 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 시스템.
삭제
제1항에 있어서,
상기 음성별 스펙트로그램 추출부가 각 음성에서 음성별 스펙트로그램을 각각 추출함에 있어서, DJ-변환(DJ-Transform, DJT)을 이용하여 음성별 스펙트로그램을 각각 추출하는 것을 특징으로 하는 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 시스템.
제1항에 있어서,
상기 참여자별 스펙트로그램 생성부가 각 참여자의 착석 방향의 시간, 주파수 값을 증폭하고 다른 방향의 값은 감쇠시켜서 참여자별 스펙트로그램을 생성함에 있어서, 상기 휴대폰이 참여자 1인당 각각 1개씩 배치된 경우에는 시간, 주파수별로 여러 개의 스펙트로그램 값들을 비교하여 가장 큰 값을 제외한 나머지 값들을 감쇠시켜서 참여자별 스펙트로그램을 생성하는 것을 특징으로 하는 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 시스템.
제1항에 있어서,
상기 참여자별 스펙트로그램 생성부가 각 참여자의 착석 방향의 시간, 주파수 값을 증폭하고 다른 방향의 값은 감쇠시켜서 참여자별 스펙트로그램을 생성함에 있어서, 상기 휴대폰의 개수가 참여자 수보다 적은 경우에는, 각 스펙트로그램 쌍에서 각 시간, 주파수별로 두 개의 스펙트로그램 값의 비율을 측정하여 비율 분포를 구성하고, 구성된 비율 분포에서 각 피크(peak)에 해당하는 비율별로 각 참여자의 음성 스펙트로그램을 생성하는 것을 특징으로 하는 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 시스템.
제5항에 있어서,
상기 음성 스펙트로그램을 생성함에 있어서, 각 시간, 주파수별로 스펙트로그램 쌍에서의 스펙트로그램 값의 비율이 상기 비율 분포를 많이 벗어날수록 크게 감쇠시키는 방식으로 음성 스펙트로그램을 생성하는 것을 특징으로 하는 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 시스템.
제1항에 있어서,
상기 참여자별 스펙트로그램/음성 변환부가 참여자별 스펙트로그램을 각 참여자의 음성으로 변환함에 있어서, 역DJ-변환(Inverse DJ-Transform, Inverse DJT)을 이용하여 스펙트로그램을 음성으로 변환하는 것을 특징으로 하는 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 시스템.
a) 임의의 회의에 참여한 복수의 참여자들 앞에 놓인 복수의 휴대폰이 회의 진행에 따라 참여자들의 발언에 의한 음성을 각각 녹음하는 단계;
b) 상기 복수의 휴대폰이 각각 녹음한 음성을 모바일 통신 네트워크를 통해 모바일 앱 서버로 각각 전송하는 단계;
c) 상기 모바일 앱 서버가 상기 복수의 휴대폰으로부터 각각 전송된 음성을 각각 수신하고, 수신한 음성으로부터 참여자별 음성을 각각 분리하는 단계;
d) 상기 모바일 앱 서버가 상기 분리된 참여자별 음성을 바탕으로 음성인식 결과물(speech-to-text)을 참여자별로 각각 생성하는 단계; 및
e) 상기 모바일 앱 서버가 상기 참여자별로 각각 생성된 상기 음성인식 결과물을 취합하여 하나의 전체적인 회의록을 구성하는 단계를 포함하고,
상기 단계 c)에서 상기 모바일 앱 서버가 수신한 음성으로부터 참여자별 음성을 각각 분리함에 있어서, 참여자별 스펙트로그램을 각 참여자의 음성으로 변환하는 것을 특징으로 하는 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 방법.
제8항에 있어서,
상기 단계 e) 이후에 상기 모바일 앱 서버가 상기 구성된 회의록을 상기 복수의 휴대폰으로 각각 전송하는 단계를 더 포함하는 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 방법.
제8항에 있어서,
상기 단계 c)에서 상기 모바일 앱 서버가 수신한 음성으로부터 참여자별 음성을 각각 분리함에 있어서, 사전에 회의 참여자 수를 설정하여 음성 분리 결과 개수를 지정하는 것을 특징으로 하는 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 방법.
제8항에 있어서,
상기 단계 c)에서 상기 모바일 앱 서버가 수신한 음성으로부터 참여자별 음성을 각각 분리함에 있어서, 각 음성에서 음성별 스펙트로그램을 각각 추출하는 것을 특징으로 하는 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 방법.
제11항에 있어서,
상기 각 음성에서 음성별 스펙트로그램을 각각 추출함에 있어서, DJ-변환(DJ-Transform, DJT)을 이용하여 음성별 스펙트로그램을 각각 추출하는 것을 특징으로 하는 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 방법.
제11항에 있어서,
상기 추출된 각 음성별 스펙트로그램에서 음성 발생시간을 동기화 처리하는 것을 특징으로 하는 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 방법.
제13항에 있어서,
상기 동기화 처리된 각 음성별 스펙트로그램들을 각 쌍별로 각 스펙트로그램의 각 시간, 주파수 값들을 비교하여 각 참여자의 착석 방향을 추출하는 것을 특징으로 하는 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 방법.
제14항에 있어서,
상기 추출된 각 참여자의 착석 방향의 시간, 주파수 값을 증폭하고 다른 방향의 값은 감쇠시켜서 참여자별 스펙트로그램을 생성하는 것을 특징으로 하는 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 방법.
제15항에 있어서,
상기 각 참여자의 착석 방향의 시간, 주파수 값을 증폭하고 다른 방향의 값은 감쇠시켜서 참여자별 스펙트로그램을 생성함에 있어서, 상기 휴대폰이 참여자 1인당 각각 1개씩 배치된 경우에는 시간, 주파수별로 여러 개의 스펙트로그램 값들을 비교하여 가장 큰 값을 제외한 나머지 값들을 감쇠시켜서 참여자별 스펙트로그램을 생성하는 것을 특징으로 하는 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 방법.
제15항에 있어서,
상기 각 참여자의 착석 방향의 시간, 주파수 값을 증폭하고 다른 방향의 값은 감쇠시켜서 참여자별 스펙트로그램을 생성함에 있어서, 상기 휴대폰의 개수가 참여자 수보다 적은 경우에는, 각 스펙트로그램 쌍에서 각 시간, 주파수별로 두 개의 스펙트로그램 값의 비율을 측정하여 비율 분포를 구성하고, 구성된 비율 분포에서 각 피크(peak)에 해당하는 비율별로 각 참여자의 음성 스펙트로그램을 생성하는 것을 특징으로 하는 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 방법.
제17항에 있어서,
상기 음성 스펙트로그램을 생성함에 있어서, 각 시간, 주파수별로 스펙트로그램 쌍에서의 스펙트로그램 값의 비율이 상기 비율 분포를 많이 벗어날수록 크게 감쇠시키는 방식으로 음성 스펙트로그램을 생성하는 것을 특징으로 하는 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 방법.
삭제
제8항에 있어서,
상기 참여자별 스펙트로그램을 각 참여자의 음성으로 변환함에 있어서, 역DJ-변환(Inverse DJ-Transform, Inverse DJT)을 이용하여 스펙트로그램을 음성으로 변환하는 것을 특징으로 하는 다수의 휴대폰을 이용한 음성인식 기반의 회의록 자동 생성 방법.