KR102464674B1

KR102464674B1 - 웹rtc·위밋형 음성인식 딥러닝을 통한 하이브리드형 실시간 ai 회의록 생성장치 및 방법

Info

Publication number: KR102464674B1
Application number: KR1020220070248A
Authority: KR
Inventors: 우창우
Original assignee: 주식회사 위밋커뮤니케이션솔루션
Priority date: 2022-06-09
Filing date: 2022-06-09
Publication date: 2022-11-09

Abstract

본 발명에서는 종래 기술의 경우에 음성인식을 딥러닝시키는 구성이 없어, 음성인식을 통해 실시간 문자로 표출이 어렵고, 이로 인해, 실시간 AI 회의록 생성이 어려운 문제점과, 음성인식의 경우 사용자의 발화 내용이 해당 음성인식의 언어모델에 학습되지 않는 내용일 경우, 화상회의시 팝업창에 문자표출시, 버퍼링이 걸려 한템포 늦게 문자가 표출되고, 문자가 표출되더라도, 오타 및 이해할 수 없는 오류의 문자가 표출되는 문제점과, 화상회의시, 1:1이 아닌, 1:10, 1:50의 다자간 접속시, 음성인식 속도가 떨어지고, 문자변환속도가 현저히 떨어져, 실시간으로 회의록을 생성시키기가 힘든 문제점을 개선하고자, 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈(100), 화상회의 네트워크망 형성모듈(200), 위밋(WeMeet)형 음성인식 딥러닝모듈(300)이 구성됨으로서, 웹RTC·위밋형 음성인식 딥러닝을 통한 하이브리드형 실시간 AI 회의록 생성장치를 통해 음성인식을 딥러닝시킨 후, 랭귀지 모델과 빔 탐색(beam search)을 통해, 확률이 높은 문자 조합으로 이루어진 문자 데이터를 생성시킬 수 있어, 화상회의시, 지역별 음색, 어눌한 말투를 90%의 정확한 인식률과 함께 1~2초 이내의 실시간 음석인식 처리속도로 높일 수 있고, 웹RTC를 통해, 화상회의시, 1:100의 다자간 접속시, 음성인식 속도를 그대로 유지한 채, 실시간으로 회의록을 생성시킬 수 있으며, 발언하는 발언자별로 식별ID를 설정시켜, 발언자별로 음성인식 자막을 구분하여 표시해 줄 수 있어, 회의록 정보 파악이 쉽고, 발언자별, 안건별, 발언시간별로, 회의록을 자동 서식화시킬 수 있어, 경쟁력과 수익성을 향상시킬 수 있는 웹RTC·위밋형 음성인식 딥러닝을 통한 하이브리드형 실시간 AI 회의록 생성장치 및 방법을 제공하는데 그 목적이 있다.

Description

웹RTC·위밋형 음성인식 딥러닝을 통한 하이브리드형 실시간 AI 회의록 생성장치 및 방법{Hybrid-type real-time meeting minutes generation device and method through WebRTC/WeMeet-type voice recognition deep learning}

본 발명은 화상회의시, 발언자의 음성을 딥러닝시킨 후, 확률이 높은 문자 조합으로 이루어진 문자 데이터를 생성시키고, 생성시킨 문자데이터를 웹 브라우저상에 문자자막으로 이루어진 실시간 AI 회의록으로 표출시킬 수 있는 웹RTC·위밋형 음성인식 딥러닝을 통한 하이브리드형 실시간 AI 회의록 생성장치 및 방법에 관한 것이다.

화상회의 시에는 여러 명의 참석자가 존재하여 다수가 말을 하게 된다.

이때, 회의록을 사람이 직접 작성하는 것이 아닌, 발언자의 음성을 실시간으로 글자로 인식하고, 이를 최종 회의록으로 산출하는 것이 필요하다.

그리고, 회의에 참여하는 사람이 여러명일 경우에는 대화를 모두 받아적고, 회의록을 작성하기기 쉽지 않았다.

이러한 문제점을 해결하기 위해, 종래기술로, 국내공개특허공보 제10-2022-0016625호에서 "인공지능 기반 미팅 어시스턴트 장치 및 그 방법"에 제시된 바 있으나, 이는 음성인식을 딥러닝시키는 구성이 없어, 음성인식을 통해 실시간 문자로 표출이 어렵고, 이로 인해, 실시간 AI 회의록 생성이 어려운 문제점이 있었다.

그리고, 기존 AI 회의록 장치가 많이 나와있지만, 음성인식의 경우 사용자의 발화 내용이 해당 음성인식의 언어모델에 학습되지 않는 내용일 경우, 화상회의시 팝업창에 문자표출시, 버퍼링이 걸려 한템포 늦게 문자가 표출되고, 문자가 표출되더라도, 오타 및 이해할 수 없는 오류의 문자가 표출되는 문제점이 있었다.

또한, 가끔, 휴대폰으로 녹음을 해서 회의록을 작성해보지만, 회의참석자마다 구분해서 작성하는 부분이 가장 어려운 문제였다.

그리고, 화상회의시, 1:1이 아닌, 1:10, 1:50의 다자간 접속시, 음성인식 속도가 떨어지고, 문자변환속도가 현저히 떨어져, 실시간으로 회의록을 생성시키기가 힘든 문제점이 있었다.

국내공개특허공보 제10-2022-0016625호

상기의 문제점을 해결하기 위해 본 발명에서는 웹RTC·위밋형 음성인식 딥러닝을 통한 하이브리드형 실시간 AI 회의록 생성장치를 통해 음성인식을 딥러닝시킨 후, 랭귀지 모델과 빔 탐색(beam search)을 통해, 확률이 높은 문자 조합으로 이루어진 문자 데이터를 생성시킬 수 있고, 웹RTC를 통해, 화상회의시, 1:100의 다자간 접속시, 음성인식 속도를 그대로 유지한 채, 실시간으로 회의록을 생성시킬 수 있으며, 발언하는 발언자별로 식별ID를 설정시켜, 발언자별로 음성인식 자막을 구분하여 표시해 줄 수 있는 웹RTC·위밋형 음성인식 딥러닝을 통한 하이브리드형 실시간 AI 회의록 생성장치 및 방법을 제공하는데 그 목적이 있다.

상기의 목적을 달성하기 위해 본 발명에 따른 웹RTC·위밋형 음성인식 딥러닝을 통한 하이브리드형 실시간 AI 회의록 생성장치는

화상회의시, 화상회의 참석자들의 음성을 딥러닝시킨 후, 확률이 높은 문자 조합으로 이루어진 문자 데이터를 생성시키고, 생성시킨 문자데이터를 웹 브라우저상에 문자자막으로 이루어진 실시간 AI 회의록으로 표출시키도록 구성됨으로서 달성된다.

상기 웹RTC·위밋형 음성인식 딥러닝을 통한 하이브리드형 실시간 AI 회의록 생성장치는 보다 구체적으로,

화상회의 참석자용 클라이언트모듈 내에 웹·앱형태로 이루어지고, 웹RTC(Web Real-Time Communication)을 통해 활성화되어, 화상회의 참석자용 클라이언트모듈들을 하나로 연결시켜, 화면상에 다자간 접속상태로 표출시킨 후, 데이터공유와 화상회의를 수행시키면서 화상회의 참석자들의 음성을 위밋(WeMeet)형 음성인식 딥러닝모듈로 전송시키고, 위밋(WeMeet)형 음성인식 딥러닝모듈로부터 문자데이터를 수신받아, 실시간 AI 회의록을 화면상에 표출시키는 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈(100)과,

웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈과 위밋(WeMeet)형 음성인식 딥러닝모듈 사이를 온라인 무선통신으로 화상회의 네트워크망을 형성시키는 화상회의 네트워크망 형성모듈(200)과,

웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈로부터 전송된 화상회의 참석자들의 음성을 리커런트 뉴럴 네트워크 트랜스듀서(Recurrent Neural Network Transducer)를 통해 딥러닝시킨 후, 랭귀지 모델과 빔 탐색(beam search)을 통해, 확률이 높은 문자 조합으로 이루어진 문자 데이터를 생성시키고, 생성시킨 문자 데이터를 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈쪽으로 전송시키는 위밋(WeMeet)형 음성인식 딥러닝모듈(300)로 구성되는 것을 특징으로 한다.

또한, 본 발명에 따른 웹RTC·위밋형 음성인식 딥러닝을 통한 하이브리드형 실시간 AI 회의록 생성방법은

화상회의 참석자용 클라이언트모듈 내에서 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈을 활성화시키는 단계(S10)와,

화상회의 네트워크망 형성모듈을 통해, 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈과 위밋(WeMeet)형 음성인식 딥러닝모듈 사이를 온라인 무선통신으로 화상회의 네트워크망을 형성시키는 단계(S20)와,

웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈을 통해, 화상회의 참석자용 클라이언트모듈들을 하나로 연결시켜, 화면상에 다자간 접속상태로 표출시킨 후, 데이터공유와 화상회의를 수행시키면서 화상회의 참석자들의 음성을 위밋(WeMeet)형 음성인식 딥러닝모듈로 전송시키는 단계(S30)와,

위밋(WeMeet)형 음성인식 딥러닝모듈을 통해, 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈로부터 전송된 화상회의 참석자들의 음성을 리커런트 뉴럴 네트워크 트랜스듀서(Recurrent Neural Network Transducer)를 통해 딥러닝시키는 단계(S40)와,

위밋(WeMeet)형 음성인식 딥러닝모듈을 통해, 랭귀지 모델과 빔 탐색(beam search)을 통해, 확률이 높은 문자 조합으로 이루어진 문자 데이터를 생성시키는 단계(S50)와,

위밋(WeMeet)형 음성인식 딥러닝모듈을 통해, 생성시킨 문자 데이터를 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈쪽으로 전송시키는 단계(S60)와,

웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈을 통해, 위밋(WeMeet)형 음성인식 딥러닝모듈로부터 문자데이터를 수신받아, 실시간 AI 회의록을 화면상에 표출시키는 단계(S70)로 이루어짐으로서 달성된다.

이상에서 설명한 바와 같이, 본 발명에서는

첫째, 웹RTC·위밋형 음성인식 딥러닝을 통한 하이브리드형 실시간 AI 회의록 생성장치를 통해 음성인식을 딥러닝시킨 후, 랭귀지 모델과 빔 탐색(beam search)을 통해, 확률이 높은 문자 조합으로 이루어진 문자 데이터를 생성시킬 수 있어, 화상회의시, 지역별 음색, 어눌한 말투를 90%의 정확한 인식률과 함께 1~2초 이내의 실시간 음석인식 처리속도로 높일 수 있다.

둘째, 웹RTC를 통해, 화상회의시, 1:100의 다자간 접속시, 음성인식 속도를 그대로 유지한 채, 실시간으로 회의록을 생성시킬 수 있다.

셋째, 발언하는 발언자별로 식별ID를 설정시켜, 발언자별로 음성인식 자막을 구분하여 표시해 줄 수 있어, 회의록 정보 파악이 쉽고, 발언자별, 안건별, 발언시간별로, 회의록을 자동 서식화시킬 수 있어, 경쟁력과 수익성을 향상시킬 수 있다.

도 1은 본 발명에 따른 웹RTC·위밋형 음성인식 딥러닝을 통한 하이브리드형 실시간 AI 회의록 생성장치의 구성요소를 도시한 블럭도,
도 2는 본 발명에 따른 웹RTC·위밋형 음성인식 딥러닝을 통한 하이브리드형 실시간 AI 회의록 생성장치의 구성요소를 도시한 구성도,
도 3은 본 발명에 따른 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈의 구성요소를 도시한 블럭도,
도 4는 본 발명에 따른 RTC형 구성제어부의 구성요소를 도시한 블럭도,
도 5는 본 발명에 따른 위밋(WeMeet)형 음성인식 딥러닝모듈의 구성요소를 도시한 블럭도,
도 6은 본 발명에 따른 스피치(Speech) 데이터 생성부의 구성요소를 도시한 블럭도,
도 7은 본 발명에 따른 스펙트로그램(Spectrogram)을 도시한 일실시예도,
도 8은 본 발명에 따른 리커런트 뉴럴 네트워크 트랜스듀서(Recurrent Neural Network Transducer)형 딥러닝 엔진모듈의 구성요소를 도시한 블럭도,
도 9는 본 발명에 따른 리커런트 뉴럴 네트워크 트랜스듀서(Recurrent Neural Network Transducer)형 딥러닝 엔진모듈의 이해를 돕기 위해, Pr(k|t,u)로 정의된 출력 확률 격자 그래프,
도 10은 본 발명에 따른 빔 서치 디코더(Beam Search Decoder)부를 통해, 확률이 높은 문자 조합을 취하여 표출시킴으로서, 화상회의 참석자들의 음성을 문자자막으로 채팅창 및 메인 화면상에 표시해 주는 것을 도시한 일실시예도,
도 11은 본 발명에 따른 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈의 RTC형 구성제어부를 통해, 회원가입하는 것을 도시한 일실시예도,
도 12는 본 발명에 따른 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈의 RTC형 구성제어부를 통해, 로그인 후, "내 페이지"를 클릭하여 방문하는 것을 도시한 일실시예도,
도 13은 본 발명에 따른 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈의 RTC형 구성제어부를 통해, 사용승인된 서비스 상품인지를 체크한 후 확인하는 것을 도시한 일실시예도,
도 14는 본 발명에 따른 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈의 RTC형 구성제어부를 통해, AI 회의록을 클릭한 후, 연결-타입A 또는 연결-타입B 중 어느 하나가 선택하여 서비스 연결시키는 것을 도시한 일실시예도,
도 15는 본 발명에 따른 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈의 RTC형 구성제어부를 통해, 화상회의를 개설하고 초대하는 것을 도시한 일실시예도,
도 16은 본 발명에 따른 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈의 RTC형 구성제어부를 통해, 전체화면 공유시, 디스플레이가 2개일 경우에 화면을 선택하도록 하고, 선택된 화면에서 동영상 파일을 재생할 경우에 시스템 오디오를 공유시키는 것을 도시한 일실시예도,
도 17은 본 발명에 따른 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈의 RTC형 구성제어부를 통해, "창"선택시, 현재 열려진 문서 파일들 중에 선택 공유시키는 것을 도시한 일실시예도,
도 18은 본 발명에 따른 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈의 RTC형 구성제어부를 통해, "크롬 탭"선택시, 열려진 웹페이지의 내용 및 동영상을 공유시키는 것을 도시한 일실시예도,
도 19는 본 발명에 따른 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈의 RTC형 구성제어부를 통해, 공유실행후, 내 카메라 열기를 실행하면 공유화면속에 내 화면이 보여지고, 공유 실행시, 타일뷰 상태이므로, 타일뷰 화면 자체를 클릭하여 선택하면 큰 화면으로 전환되는 것을 도시한 일실시예도,
도 20은 본 발명에 따른 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈의 RTC형 구성제어부를 통해, 공유 실행후, 내 카메라 열기를 실행하면, 공유화면속에 내 화면이 보여지게 되는 것을 도시한 일실시예도,
도 21은 본 발명에 따른 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈의 RTC형 구성제어부를 통해, 멀티뷰 클릭시 타일뷰 형태로 전환되고, 타일뷰 클릭시 멀티뷰 형태로 전환되는 것을 도시한 일실시예도,
도 22는 본 발명에 따른 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈의 RTC형 구성제어부를 통해, 다른 사람을 초대하기 위해 회의링크를 클린한 후, 클릭한 회의링크를 복사해서 카톡이나 문자메세지를 보내어, 화상회의에 초대하고자 하는 참석자를 초대시키는 것을 도시한 일실시예도,
도 23은 본 발명에 따른 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈의 RTC형 구성제어부를 통해, 자동으로 회의록이 링크되어 채팅창 화면상에 표출되는 것을 도시한 일실시예도,
도 24는 본 발명에 따른 실시간 문자자막 표시부를 통해, 발언자의 실시간 음성을 문자자막으로 채팅창 및 메인 화면상에 표시해주고, 음성인식 자막구분표시부를 통해, 발언자별로 음성인식 자막을 구분하여 표시해주는 것을 도시한 일실시예도,
도 25는 본 발명에 따른 실시간 문자자막표시부와, 음성인식 자막 구분표시부를 통해, 미팅호스트와 이차장간의 화상회의시, 미팅호스트와 이차장간의 음성을 문자자막으로 채팅창 및 메인 화면상에 표시해주고, 미팅호스트와 이차장별로 음성인식 자막을 구분하여 표시해주는 것을 도시한 일실시예도,
도 26은 본 발명에 따른 웹RTC·위밋형 음성인식 딥러닝을 통한 하이브리드형 실시간 AI 회의록 생성방법을 도시한 순서도.

먼저, 본 발명에서 설명되는 위밋(WeMeet)형 음성인식 딥러닝모듈에서 "위밋(WeMeet)"은 본 출원인 "주식회사 위밋커뮤니케이션솔루션"의 영문이름인 " WeMeet CommunicationSolution"의 앞글자를 따온 약어로서, 본 출원인이 수년간의 연구와 노력끝에, 화상회의 참석자들의 음성을 리커런트 뉴럴 네트워크 트랜스듀서(Recurrent Neural Network Transducer)를 통해 딥러닝 시킨 후, 랭귀지 모델과 빔 탐색(beam search)을 통해, 확률이 높은 문자 조합으로 이루어진 문자 데이터를 생성 시키고, 생성시킨 문자 데이터를 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈쪽으로 전송시키는 특징 을 부각시키고자, " 위밋(WeMeet)형 음성인식 딥러닝모듈 "이라는 명칭을 지정한 것이다.

이하, 본 발명에 따른 바람직한 실시예를 도면을 첨부하여 설명한다.

도 1은 본 발명에 따른 웹RTC·위밋형 음성인식 딥러닝을 통한 하이브리드형 실시간 AI 회의록 생성장치의 구성요소를 도시한 블럭도에 관한 것이고, 도 2는 본 발명에 따른 웹RTC·위밋형 음성인식 딥러닝을 통한 하이브리드형 실시간 AI 회의록 생성장치의 구성요소를 도시한 구성도에 관한 것으로, 이는 화상회의시, 화상회의 참석자들의 음성을 딥러닝시킨 후, 확률이 높은 문자 조합으로 이루어진 문자 데이터를 생성시키고, 생성시킨 문자데이터를 웹 브라우저상에 문자자막으로 이루어진 실시간 AI 회의록으로 표출시키도록 구성된다.

보다 구체적으로, 상기 하이브리드형 실시간 AI 회의록 생성장치(1)는 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈(100), 화상회의 네트워크망 형성모듈(200), 위밋(WeMeet)형 음성인식 딥러닝모듈(300)로 구성된다.

먼저, 본 발명에 따른 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈(100)에 관해 설명한다.

상기 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈(100)은 화상회의 참석자용 클라이언트모듈 내에 웹·앱형태로 이루어지고, 웹RTC(Web Real-Time Communication)을 통해 활성화되어, 화상회의 참석자용 클라이언트모듈들을 하나로 연결시켜, 화면상에 다자간 접속상태로 표출시킨 후, 데이터공유와 화상회의를 수행시키면서 화상회의 참석자들의 음성을 위밋(WeMeet)형 음성인식 딥러닝모듈로 전송시키고, 위밋(WeMeet)형 음성인식 딥러닝모듈로부터 문자데이터를 수신받아, 실시간 AI 회의록을 화면상에 표출시키는 역할을 한다.

이는 도 3에 도시한 바와 같이, RTC형 피어커넥션부(110), RTC형 다자간 화상회의설정부(120), RTC형 데이터채널부(130), RTC형 데이터 채널이벤트부(140), RTC형 세션구성부(150), RTC형 ICE 캔디데이트부(160), RTC형 티피송신부(170), RTC형 티피수신부(180), RTC형 아이스서버부(190), RTC형 회의록변환제어부(190a), RTC형 아이덴터티프로바이더부(190b), RTC형 식별 형성부(190c), RTC형 DTMF 관리부(190d), RTC형 구성제어부(190e)로 구성된다.

[RTC형 피어커넥션부(110)]

상기 RTC형 피어커넥션부(100)는 화상회의 참석자용 클라이언트모듈과 원격지의 또 다른 화상회의 참석자용 클라이언트모듈 간을 웹RTC 연결시키는 역할을 한다.

이는 화상회의 참석자용 클라이언트모듈들 간의 효율적인 데이터 스트리밍을 처리하도록 구성된다.

[RTC형 다자간 화상회의설정부(120)]

상기 RTC형 다자간 화상회의설정부(120)는 화상회의시, 최대참석인원 100명으로 연결시켜, HD급 영상 및 음성품질을 제공하는 역할을 한다.

[RTC형 데이터채널부(130)]

상기 RTC형 데이터채널부(130)는 연결된 화상회의 참석자용 클라이언트모듈 간의 양방향 또는 다방향 데이터 채널을 형성시키는 역할을 한다.

[RTC형 데이터 채널이벤트부(140)]

상기 RTC형 데이터 채널이벤부(140)는 RTC형 데이터채널부를 RTC형 피어커넥션부에 연결하는 동안 발생하는 이벤트를 나타내고 설정하는 역할을 한다.

여기서, 이벤트는 인터페이스와 함께 전송되는 데이터채널(datachannel)이다.

[RTC형 세션구성부(150)]

상기 RTC형 세션구성부(150)는 세션의 매개변수를 구성하고 형성시키는 역할을 한다.

[RTC형 ICE 캔디데이트부(160)]

상기 RTC형 ICE 캔디데이트부(150)는 RTC형 피어커넥션부 설정을 위한 후보 인터넷 연결설정(ICE: Internet connectivity establishment) 역할을 한다.

[RTC형 티피송신부(170)]

상기 RTC형 티피송신부(170)는 RTC형 피어커넥션부에서 미디어스트림스택의 데이터 인코딩 및 전송을 관리하는 역할을 한다.

이는 RTC형 티피수신부로부터 수신된 데이터(문서, 동영상파일)를 화면상에 표출시키거나, 또 다른 화상회의 참석자용 클라이언트모듈쪽으로 전송시키도록 구성된다.

[RTC형 티피수신부(180)]

상기 RTC형 티피수신부(180)는 RTC형 피어커넥션부에서 미디어스트림스택의 데이터 수신 및 디코딩을 관리하는 역할을 한다.

이는 화상회의 참석자용 클라이언트모듈로부터 전송된 데이터(문서, 동영상파일)를 수신받는다.

[RTC형 아이스서버부(190)]

상기 RTC형 아이스서버부(190)는 위밋(WeMeet)형 음성인식 딥러닝모듈과 양방향데이터통신으로 연결되어, RTC형 피어커넥션부를 통해 연결된 화상회의 참석자의 음성을 위밋(WeMeet)형 음성인식 딥러닝모듈쪽으로 전송시키고, 위밋(WeMeet)형 음성인식 딥러닝모듈로부터 확률이 높은 문자 조합으로 이루어진 문자 데이터를 수신받는 역할을 한다.

[RTC형 회의록변환제어부(190a)]

상기 RTC형 회의록변환제어부(190a)는 RTC형 아이스서버부로부터 수신된 문자데이터를 전달받아, 문자자막으로 이루어진 실시간 AI 회의록을 화면상에 표출시키도록 제어하는 역할을 한다.

이는 채팅창에 형성된 실시간회의록링크설정부, 실시간 문자자막 표시부와 연결되어 구성된다.

즉, 실시간회의록링크설정부를 통해, 음성인식 자막 종료를 클릭한 후, 5초후에 해당 링크를 클릭하면 실시간 AI 회의록 페이지가 새창에서 오픈된다.

그리고, 실시간 문자자막 표시부를 통해, 화상회의시 화상회의 참석자들의 음성이, 말함과 동시에 문자자막으로 변환되어, 채팅창 및 메인 화면상에 표시해준다.

이를 통해, 회의종료시 동시에 자동 속기록을 산출할 수 있도록 구성된다.

또한, 회의종료후, 모든 음성 대화 내용은 속기록 형식의 회의록으로 자동 산출되도록 구성된다.

[RTC형 아이덴터티프로바이더부(190b)]

상기 RTC형 아이덴터티프로바이더부(190b)는 회의 호스트가 화상회의에 참석한 화상회의 참석자용 클라이언트모듈을 대상으로 신원확인(Identity Assertion)을 생성 및 검증을 요청시키는 역할을 한다.

[RTC형 식별 형성부(190c)]

상기 RTC형 식별 형성부(190c)는 화상회의시 화상회의 참석자용 클라이언트모듈을 통해 발언하는 발언자별로 식별ID를 설정시키는 역할을 한다.

이는 음성인식 자막구분표시부와 연결되어 구성된다.

즉, 음성인식 자막구분표시부를 통해, 발언자별로 음성인식 자막을 구분하여 표시해준다.

[RTC형 DTMF 관리부(190d)]

상기 RTC형 DTMF 관리부(190d)는 RTC형 피어커넥션부에 대한 DTMF(듀얼 톤 다중 주파수) 신호의 인코딩 및 전송을 관리하는 역할을 한다.

여기서, DTMF(Dual Tone Multi Frequency)는 화상회의 호스트전용 메인창에 활성화된 전화기 이모티콘의 버튼을 눌렀을때 발생되어 전화하고싶은 해당 화상회의 참석자용 클라이언트모듈쪽으로 보내어지는 신호를 말한다.

이는 전화연결설정부와 연결되어 구성된다.

[RTC형 구성제어부(190e)]

상기 RTC형 구성제어부(190e)는 화상회의 호스트전용 메인창의 구성을 형성시키고, 구성간의 연결과 동작을 제어시키는 역할을 한다.

이는 도 4에 도시한 바와 같이, 참석자이름표출부(190e-1), 회의참석유무선택부(190e-2), 마이크오픈클로즈형성부(190e-3), 카메라오픈클로즈형성부(190e-4), 화면문서공유형성부(190e-5), 타일뷰·멀티뷰보기형성부(190e-6), 초대설정부(190e-7), 추가설정부(190e-8), 전화연결설정부(190e-9), 마이크동작상태표시부(190e-10), 음성인식 AI참석확인부(190e-11), 채팅창오픈형성부(190e-12), 실시간회의록링크설정부(190e-13), 실시간 문자자막 표시부(190e-14), 음성인식 자막구분표시부(190e-15)로 구성된다.

여기서, 호스트는 회의룸개설, 참석자 초대, 회의룸 비밀번호 설정, 전체 음소거, 일부 참석자 음소거 및 영상닫기, 강퇴 기능, 음성인식 시작 및 종료기능을 관리하고 제어하도록 구성된다.

그리고, 상기 화상회의 호스트전용 메인창은 화면좌측프레임상에 회의참석한 참석자 이름이 표시되는 참석자이름표출부(190e-1)가 형성되고, 그 참석자이름표출부 하단에 위치되어, 회의참석유무를 선택하는 회의참석유무선택부(190e-2)가 형성되며, 그 회의참석유무선택부 하단 일측에 마이크오픈클로즈형성부(190e-3)가 형성되고, 그 마이크오픈클로즈형성부 일측에 카메라오픈클로즈형성부(190e-4)가 형성되며, 그 카메라오픈클로즈형성부 일측에 화면문서공유형성부(190e-5)가 형성되고, 그 화면문서공유형성부 일측에 타일뷰·멀티뷰보기형성부(190e-6)가 형성되며, 그 타일뷰·멀티뷰보기형성부 일측에 초대설정부(190e-7)가 형성되며, 그 초대설정부 일측에 추가설정부(190e-8)가 형성되어 구성된다.

추가설정부 일측에 전화연결설정부(190e-9)가 형성되어 구성된다.

상기 전화연결설정부 하단 일측에 마이크동작상태표시부(190e-10)가 형성되어 구성된다.

상기 마이크오픈클로즈형성부(190e-3)는 마이크오픈클로즈를 이모티콘으로 형성시켜서, 내 마이크와 스피커의 동작상태를 확인하고, 최초사용시 테스트 진행을 수행시키는 역할을 한다.

그리고, 노트북 등의 내장마이크 사용시 주변잡음으로 음성인식 품질에 영향을 주기 때문에, 음성인식 시작전에 헤드셋 연결 및 사용이 되도록 안내메세지가 활성화되어 구성된다.

상기 카메라오픈클로즈형성부(190e-4)는 카메라오픈클로즈를 이모티콘으로 형성시켜서, 내 카메라의 활성 또는 비활성을 선택하고, 별도의 외장 카메라를 연결시켜 선택시키는 역할을 한다.

상기 화면문서공유형성부(190e-5)는 화면상에 참석자들에게 문서를 공유하는 역할을 수행한다.

이는 문서공유뿐만 아니라, 화면상에서 동영상파일을 공유시키고, 시스템오디오 공유를 통해 선택된 화면에서 동영상파일을 재생시키도록 구성된다.

상기 타일뷰·멀티뷰보기형성부(190e-6)는 참석자와 연결된 화상 화면상태를 타일뷰형태 또는 멀티뷰형태로 형성시키는 역할을 한다.

이는 타일뷰·멀티뷰 클릭시 큰화면으로 2개 분리가 되도록 구성된다.

즉, 멀티뷰 클릭시 타일뷰 형태로 전환되고, 타일뷰 클릭시 멀티뷰 형태로 전환된다.

상기 초대설정부(190e-7)는 화상회의에 초대하고자 하는 참석자를 설정시키는 역할을 한다.

이는 다른 사람을 초대하기 위해 회의링크를 클린한 후, 클릭한 회의링크를 복사해서 카톡이나 문자메세지를 보내어, 화상회의에 초대하고자 하는 참석자를 초대시키도록 구성된다.

상기 추가설정부(190e-8)는 추가설정기능을 수행시키는 역할을 한다.

이는 추가설정부를 클릭하면, 추가설정 팝업창이 활성화된다.

여기서, 추가설정 팝업창은 초대, 영상품질설정, 전체화면보기, 보안옵션, 음성인식시작, 모두 음소거, YouTube 비디오 공유, 배경선택, 접속자 통계, 설정, 단축키보기로 구성된다.

상기 전화연결설정부(190e-9)는 화상회의에 참석한 특정 참석자와 1:1로 전화연결시키는 역할을 한다.

이는 회원가입시 입력된 전화번호가 그대로 화상회의 호스트전용 메인창으로 링크되어, 인터넷IP통신라인을 통해 전화가 연결되도록 구성된다.

상기 마이크동작상태표시부(190e-10)는 현재 동작되는 내 마이크의 인식이 정상임을 타내고, 마이크 또는 카메라의 인식이 비정상일 경우에 사선으로 표시시키는 역할을 한다.

또한, 상기 화상회의 호스트전용 메인창은 우측 하단 일측에 음성인식 AI참석확인부(190e-11)가 형성되어 구성된다.

여기서, 음성인식 AI참석확인부(190e-11)는 음성인식 AI참석유무를 확인하는 역할을 한다.

그리고, 화면문서공유형성부 일측에 채팅창오픈형성부(190e-12)가 형성된다.

상기 채팅창오픈형성부(190e-12)는 화면 좌측 일측에 화상회의에 참석한 참석자들간의 채팅과정을 하나의 채팅창으로 오픈시켜 형성시키는 역할을 한다.

그리고, 채팅창 상에 실시간회의록링크설정부(190e-13)가 설정되어 구성된다.

여기서, 실시간회의록링크설정부(190e-13)는 음성인식 자막 종료를 클릭한 후, 5초후에 해당 링크를 클릭하면 자동회의록 페이지가 새창에서 오픈되도록 설정시키는 역할을 한다.

상기 채팅창에는 발언자의 화상회의 참석자들의 음성을 문자자막으로 채팅창 및 메인 화면상에 표시해주는 실시간 문자자막 표시부(190e-14)와, 발언자별로 음성인식 자막을 구분하여 표시해주는 음성인식 자막구분표시부(190e-15)로 구성된다.

다음으로, 본 발명에 따른 화상회의 네트워크망 형성모듈(200)에 관해 설명한다.

상기 화상회의 네트워크망 형성모듈(200)은 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈과 위밋(WeMeet)형 음성인식 딥러닝모듈 사이를 온라인 무선통신으로 화상회의 네트워크망을 형성시키는 역할을 한다.

이는 1:1 뿐만 아니라, 1:100 다자간 접속이 되도록 네트워크항을 형성시킨다.

다음으로, 본 발명에 따른 위밋(WeMeet)형 음성인식 딥러닝모듈(300)에 관해 설명한다.

상기 위밋(WeMeet)형 음성인식 딥러닝모듈(300)은 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈로부터 전송된 화상회의 참석자들의 음성을 리커런트 뉴럴 네트워크 트랜스듀서(Recurrent Neural Network Transducer)를 통해 딥러닝시킨 후, 랭귀지 모델과 빔 탐색(beam search)을 통해, 확률이 높은 문자 조합으로 이루어진 문자 데이터를 생성시키고, 생성시킨 문자 데이터를 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈쪽으로 전송시키는 역할을 한다.

이는 도 5에 도시한 바와 같이, 스피치(Speech) 데이터 생성부(310), 리커런트 뉴럴 네트워크 트랜스듀서(Recurrent Neural Network Transducer)형 딥러닝 엔진모듈(320), 랭귀지 모델(Language model) 디코딩부(330), 빔 서치 디코더(Beam Search Decoder)부(340), 문자데이터 전송부(350)로 구성된다.

첫째, 본 발명에 따른 스피치(Speech) 데이터 생성부(310)에 관해 설명한다.

상기 스피치(Speech) 데이터 생성부(310)는 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈로부터 전송된 화상회의 참석자들 중 화상회의 참석자들의 음성을 오디오 전처리시킨 후, 스피치 데이터로 생성시키는 역할을 한다.

여기서, 오디오 전처리는 에코제거, 노이즈제거, 방향확인, 세기조절을 말한다.

이는 도 6에 도시한 바와 같이, 음성파일(Waveform)(311), 발화 텍스트(Utterance)(312), 위치정렬(Alignment)부(313), 스피치 특징(Speech Feature) 추출부(314)로 구성된다.

상기 오디오 전처리된 음성은 음성파일(Waveform)로 저장이 된다.

상기 음성파일(Waveform)(311)은 들어오는 소리 세기의 표현인 음성파형을 파일형태로 형성시키는 역할을 한다.

이는 세기 표현이라고 할 수 있는데, 16,000Hz로 녹음된 음성이라고 하면 1/16,000초마다 들어온 소리가 어느 정도의 세기를 가지고 있는지 기록한 것을 말한다.

헤르츠(Hertz, 기호 : Hz)에서 1Hz는 1초에 한번을 의미한다.

즉, 100Hz는 1초에 100번을 반복 혹은 진동한다.

음성을 헤르츠 단위의 주파수(frequency)로 관측할 수 있고, 사람이 들을 수 있는 모든 소리른 다양한 주파수 성분들의 합으로 이루어져 구성된다.

주파수가 높을수록 음이 높게 들리게된다.

그리고, 음성파일(Waveform)형태의 데이터는 전처리를 통해서 유의미한 정보를 가지고 있는 여러 형태로 만든다.

또한, 음성파일(Waveform)은 푸리에 변환(Fourier transform, FT)을 거쳐서 스펙트로그램(Spectrogram)이라는 피쳐로 바꿀 수 있다.

이렇게 음성 파형을 변환시키는 이유는 음성에 들어있는 정보(발음의 종류, 성별, 음색, 높이 등)을 음성신호/파형에서 바로 얻어낼 수 없고, 수학적인 신호처리를 거쳐서 추출할 수 있기 때문이다.

그 중 푸리에 변환이라는 함수를 사용해서 특정 시간 길이의 음성조각(프레임이라고 함)이 각각의 주파수 성분들을 얼마만큼 갖고 있는지를 의미하는 스펙트럼을 얻을 수 있다.

그리고, 음성전체로부터 얻은 여러개의 스펙트럼을 시간 축에 나열하면 시간 변화에 따른 스펙트럼의 변화인 스펙트로그램을 얻게 된다.

일반적인 STT에서는 특징 추출(Feature Extraction)로서 푸리에 변환을 거치고, 아쿠스틱 모델(Acoustic Model)과 렉시콘(Lexicon)과 랭귀지 모델(Language Model)을 합쳐 디코더로 만들어, 여러 과정을 거쳐 조합하는 과정이었다면, 본 발명에서는 리커런트 뉴럴 네트워크 트랜스듀서(Recurrent Neural Network Transducer)형 딥러닝 엔진모듈을 통해, 이 모든 것을 하나로 할 수 있도록 구성된다.

상기 발화 텍스트(Utterance)(312)는 사용자가 소리를 내어 말을 하는 것을 텍스트 형태로 형성시키는 역할을 한다.

상기 위치정렬(Alignment)부(313)는 말하는 과정에서 어디서부터 어디까지 몇초까지 어떤 텍스트에 해당하는 것인지를 위치를 정렬시키는 역할을 한다.

음성의 어떤 부분이 텍스트의 어떤 부분인가 하는 정렬문제가 발생된다.

즉, 음성파일(Waveform)을 Speech Feature 추출부를 통해 스피치 특징(Speech Feature)을 추출하고, 텍스트로 인식시킨다.

하지만, 경계가 명확하지 않고, 텍스트는 발음기호가 아니어서 라벨링하기가 어려운 문제점이 발생된다.

또한, 프레임마다 정확한 답을 주기 힘듦문제점과 텍스트와 관련없는 여러 부분들이 있게된다.

일예로, "최근 음성인식을 이용한 딥러닝은 다양한 곳에서 사용되고 있습니다."

여기서, 음성파일(Waveform)은 10초에 16,000Hz 엔코딩시키는 160K프레임이 형성되고, Speech Feature 추출부는 10ms 윈도윙시키는 1000steps로 스피치 특징을 추출시키며, 텍스트는 12~16워드로 구성된다.

상기 스피치 특징(Speech Feature) 추출부(314)는 스피치 특징을 추출하는 역할을 한다.

사람목소리의 기본발음단위는 음소이다.

즉, 도 7에 도시한 바와 같이, 사람의 후두에서 발생되는 음소는 음성파일(Waveform)로 나오고, 음성파일(Waveform)을 STFT(Short-Time Fourier Transform)프로그램을 통해 25ms 또는 10ms씩 겹쳐서 만든것이 스펙트로그램(Spectrogram)이다.

저주파수는 촘촘하게, 고주파수는 넓게 해서 멜 프리퀀스(Mel-frequency)로 이루어진 멜 스펙트로그램(Mel Spectrogram)을 형성시킨다.

이러한 과정을 통해, 스피치 특징(Speech Feature)을 추출시킬 수 있다.

둘째, 본 발명에 따른 리커런트 뉴럴 네트워크 트랜스듀서(Recurrent Neural Network Transducer)형 딥러닝 엔진모듈(320)에 관해 설명한다.

상기 리커런트 뉴럴 네트워크 트랜스듀서(Recurrent Neural Network Transducer)형 딥러닝 엔진모듈(320)은 스피치(Speech) 데이터 생성부로부터 생성된 스피치(Speech) 데이터를 입력하여, 최적의 정렬(Alignment)을 찾아내기 위해 모든 시퀀스를 나열한 후 연산시켜 딥러닝시키는 역할을 한다.

이는 위치정렬(Alignment)부의 위치정렬(Alignment) 없이 자동으로 알아서 훈련이 되어 위치를 조정해준다.

그리고, 도 8에 도시한 바와 같이, 음성정보만 입력되어야 다음 라벨로 진행되는 제1 음성 스텝 진행부(321)와, 다음으로, 지금까지의 텍스트정보만으로 다음 라벨로 진행되는 텍스트 스텝 진행부(322)와, 지금상태의 음성 스텝을 진행하는 제2 음성 스텝 진행부(323)와, 지금 상태의 텍스트 스텝 진행부 모두를 고려한 최종예측부(324)로 구성된다.

도 9는 본 발명에 따른 리커런트 뉴럴 네트워크 트랜스듀서(Recurrent Neural Network Transducer)형 딥러닝 엔진모듈의 이해를 돕기 위해, Pr(k|t,u)로 정의된 출력 확률 격자 그래프를 도시한 것이다. 도 9의 t,u의 노드는 transcription 시퀀스에서 점 t에 의한 출력 시퀀스의 첫 번째 u 요소를 출력할 확률을 나타낸다.

노드 t,u를 떠나는 수평 방향의 화살표는 (t,u)에서 아무것도 출력하지 않는 확률(t,u)을 나타낸다.

그리고, 수직 방향의 화살표는 요소 u+1을 출력할 확률 y(t,u)을 나타내고, 하단의 검은색 노드는 출력이 방출되기 전에 null 상태를 나타낸다.

그리고, 왼쪽 하단에서 시작하여 오른쪽 상단의 종료 노드에 도달하는 경로는 입력과 출력 시퀀스 간의 가능한 정렬에 해당된다.

각 정렬은 확률 1로 시작하고 최종 확률은 통과하는 화살표의 전이 확률의 곱 (빨간색 경로에 대해 표시)이다.

일예로, 매순간마다 텍스트를 진행하면서, 1000개를 하나씩 보면서 다음 라벨로 넘어가야 할지를, 아니면, 이 텍스트에서 이대로 머물러야겠는 것을 훈련한다. 이때, 다음 라벨이 나올 때까지 해당 섹터내에서만 훈련을 진행하고, 다음 라벨이 나오면 다음 레벨로 넘어가게된다.

즉, 스피치(Speech) 데이터 중 "나는 학교를 간다"에서 "나는~"는 "학교를~"이 나올때까지, "나는~"이라는 텍스트에서 머물러셔 훈련한다. 그리고, "학교를~"이 나오면, 다음의 텍스트로 넘어가는 훈련을 한다.

그리고, 음성프레임이 매순간나올 때마다, 지금의 텍스트 내에 머물러야할지, 다음 라벨의 텍스트로 넘어가야할지를 훈련한다.

가능한 모든 경로, 패스(path)의 조합으로 확률을 계산하고, 그 확률을 높이는 방향으로 훈련을 한다.

본 발명에 따른 리커런트 뉴럴 네트워크 트랜스듀서(Recurrent Neural Network Transducer)형 딥러닝 엔진모듈은 엔코더에 프리딕션 네트워크(Prediction Network)를 연결해서 사용한다.

프리딕션 네트워크(Prediction Network)를 연결시켜줌으로써 랭귀지 모델(Language model)의 효과를 얻을 수 있도록 구성된다.

셋째, 본 발명에 따른 랭귀지 모델(Language model) 디코딩부(330)에 관해 설명한다.

상기 랭귀지 모델(Language model) 디코딩부(330)는 리커런트 뉴럴 네트워크 트랜스듀서(Recurrent Neural Network Transducer)형 딥러닝 엔진모듈을 딥러닝된 음성인식데이터 중 빔 탐색(beam search) 확률을 높일 수 있는 랭귀지 모델(언어모형 : Language model)을 형성시키는 역할을 한다.

즉, 디코딩시에 따로 훈련된 언어모형을 이용하여 정확도를 높일 수 있다.

여기서, 훈련된 언어모형은 지역별 음색, 어눌한 말투, 전국 단위 방대한 학습데이터, 화상회의시 전문분야(경제, 정치, 외교, 기술, 행정)별 학습데이터를 기반으로 형성된다.

그리고, 음성인식모형에 입력으로 들어오는 음성은 아무 의미없는 발음들이 아니라, 언어적 맥락이나 문법과 같이 음성과 독립적인 언어적 특성이 존재하는 문장이다.

따라서, 이러한 정보를 따로 학습한 뒤에 모형에 추가하여 인식의 정확도를 높일 수 있다.

넷째, 본 발명에 따른 빔 서치 디코더(Beam Search Decoder)부(340)에 관해 설명한다.

상기 빔 서치 디코더(Beam Search Decoder)부(340)는 주어진 문자 다음에 선택될 수 있는 문자의 모든 가능한 경우의 수를 계산한 후, 미리 정한 상위 N개 확률의 문자 조합만을 취하여 목표 문자열을 찾을때까지 반복하는 경험적 탐색역할을 수행하여, 확률이 높은 문자 조합으로 이루어진 문자 데이터를 생성시키는 역할을 한다.

이는 모든 가능한 문자열을 탐색하는 대신 빔 탐색(beam search)을 이용하여 기억해야 하는 노드를 제한하는 기법을 사용한다.

이는 지금 선택이 영향을 미칠 여러 미래를 보고 확률이 가장 높은 조합을 선택하도록 구성된다.

그리고, 실시간 문자자막 표시처리에서도 성능을 높일 수 있다.

또한, 가짓수를 여럿 들고 있어야 하기 때문에, 메모리 사용량 & 계산량을 높일 수가 있다.

도 10에 도시한 바와 같이, 첫째, 현재 제일 확률이 높은 8개를 선택한다.

둘째, 각각에서 다시 그 다음 확률높은 8개를 선택한다.

셋째, 현재 후보들 중 가장 확률 높은 8개를 선택한다.

엔드 투 센턴스(End to sentence)가 나올 때까지 둘째와 셋째를 반복하도록 구성된다.

이를 통해, 확률이 높은 문자 조합을 취하여 표출시킴으로서, 화상회의 참석자들의 음성을 문자자막으로 채팅창 및 메인 화면상에 표시해 줄 수 있다.

넷째, 본 발명에 따른 문자데이터 전송부(350)에 관해 설명한다.

상기 문자데이터 전송부(350)는 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈쪽으로 문자 데이터를 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈쪽으로 전송시키는 역할을 한다.

이하, 본 발명에 따른 웹RTC·위밋형 음성인식 딥러닝을 통한 하이브리드형 실시간 AI 회의록 생성방법에 관해 구체적으로 설명한다.

도 26은 본 발명에 따른 웹RTC·위밋형 음성인식 딥러닝을 통한 하이브리드형 실시간 AI 회의록 생성방법을 도시한 순서도에 관한 것이다.

먼저, 화상회의 참석자용 클라이언트모듈 내에서 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈을 활성화시킨다(S10).

다음으로, 화상회의 네트워크망 형성모듈을 통해, 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈과 위밋(WeMeet)형 음성인식 딥러닝모듈 사이를 온라인 무선통신으로 화상회의 네트워크망을 형성시킨다(S20).

다음으로, 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈을 통해, 화상회의 참석자용 클라이언트모듈들을 하나로 연결시켜, 화면상에 다자간 접속상태로 표출시킨 후, 데이터공유와 화상회의를 수행시키면서 화상회의 참석자들의 음성을 위밋(WeMeet)형 음성인식 딥러닝모듈로 전송시킨다(S30).

다음으로, 위밋(WeMeet)형 음성인식 딥러닝모듈을 통해, 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈로부터 전송된 화상회의 참석자들의 음성을 리커런트 뉴럴 네트워크 트랜스듀서(Recurrent Neural Network Transducer)를 통해 딥러닝시킨다(S40).

이는 스피치(Speech) 데이터 생성부로부터 생성된 스피치(Speech) 데이터를 입력하여, 최적의 정렬(Alignment)을 찾아내기 위해 모든 시퀀스를 나열한 후 연산시켜 딥러닝시킨다.

즉, 제1 음성 스텝 진행부(321)를 통해 음성정보가 입력되면 다음 라벨로 진행시키고, 텍스트 스텝 진행부(322)를 통해 지금까지의 텍스트정보만으로 다음 라벨로 진행시키며, 제2 음성 스텝 진행부(323)를 통해 지금상태의 음성 스텝을 진행시키고, 최종예측부(324)를 통해 지금 상태의 텍스트 스텝 진행부 모두를 고려한 최종예측을 진행시킨다.

다음으로, 위밋(WeMeet)형 음성인식 딥러닝모듈을 통해, 랭귀지 모델과 빔 탐색(beam search)을 통해, 확률이 높은 문자 조합으로 이루어진 문자 데이터를 생성시킨다(S50).

다음으로, 위밋(WeMeet)형 음성인식 딥러닝모듈을 통해, 생성시킨 문자 데이터를 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈쪽으로 전송시킨다(S60).

끝으로, 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈을 통해, 위밋(WeMeet)형 음성인식 딥러닝모듈로부터 문자데이터를 수신받아, 실시간 AI 회의록을 화면상에 표출시킨다(S70).

[일실시예]

가. 먼저, 접속주소(https://www.k-voucher.kr/page/productSearch?mod

e=update&seq=221)에 들어가 접속한다.

나. 회원가입을 한다.

이는 도 11에 도시한 바와 같이, 로그인 ID, 비밀번호, 비밀번호확인, 사업자등록번호(이는 K 바우처 사업에 등록된 유효환 사업자등록번호를 입력), 회사명(K 바우처 사업에 등록된 유효한 회사이름), 사용자이름, E-mail 주소, 휴대폰번호를 입력하는 입력창이 활성화되어 구성된다.

본 발명에서는 실시간회의록을 구매할 경우에, 12개의 회의호스트용ID를 개설할 수 있도록 구성된다.

회원가입시, 개설한 로그인ID와 비밀번호는 회의호스트 인증 ID, 비밀번호와 동일하도록 구성된다.

회원가입 후, 사용승인 메일을 수신하시면 사용이 가능하도록 구성된다.

다. 도 12에 도시한 바와 같이, 로그인 후, "내 페이지"를 클릭하여 방문한다.

라. 도 13에 도시한 바와 같이, 사용승인된 서비스 상품인지를 체크한 후 확인한다.

마. 도 14에 도시한 바와 같이, AI 회의록을 클릭한 후, 연결-타입A 또는 연결-타입B 중 어느 하나가 선택하여 서비스 연결시킨다.

여기서, 연결-타입A는 가입한 회원의 휴대폰번호로 미팅룸주소를 생성시키고, 연결-타입B는 무작위(Random) 6자리 숫자로 미팅룸주소를 생성시킨다.

바. 도 15에 도시한 바와 같이, 화상회의를 개설하고 초대한다.

즉, 미팅페이지에 접속하고, 초대링크를 카톡이나 문자메세지로 전달시킨 후, 초대링크한 참석자를 중심으로 화상회의를 연결시킨다.

사. 화면상에서 문서공유, 동영상파일공유시킨다.

이는 화면문서공유형성부를 통해, 문서공유뿐만 아니라, 화면상에서 동영상파일을 공유시키고, 시스템오디오 공유를 통해 선택된 화면에서 동영상파일을 재생시킨다.

즉, 도 16에 도시한 바와 같이, 전체화면 공유시, 디스플레이가 2개일 경우에 화면을 선택하도록 하고, 선택된 화면에서 동영상 파일을 재생할 경우에 시스템 오디오를 공유시킨다.

그리고, 도 17에 도시한 바와 같이, "창"선택시, 현재 열려진 문서 파일들 중에 선택 공유시킨다.

또한, 도 18에 도시한 바와 같이, "크롬 탭"선택시, 열려진 웹페이지의 내용 및 동영상의 공유가 가능하도록 한다.

그리고, 도 19에 도시한 바와 같이, 공유실행후, 내 카메라 열기를 실행하면 공유화면속에 내 화면이 보여지고, 공유 실행시, 타일뷰 상태이므로, 타일뷰 화면 자체를 클릭하여 선택하면 큰 화면으로 전환된다.

또한, 도 20에 도시한 바와 같이, 공유 실행후, 내 카메라 열기를 실행하면, 공유화면속에 내 화면이 보여지게 된다.

본 발명에 따른 타일뷰·멀티뷰보기형성부를 통해, 도 21에 도시한 바와 같이, 타일뷰·멀티뷰 클릭시 큰화면으로 2개 분리가 된다.

아. 화상회의시, 다른 사람을 초대한다.

이는 초대설정부를 통해, 도 22에 도시한 바와 같이, 다른 사람을 초대하기 위해 회의링크를 클린한 후, 클릭한 회의링크를 복사해서 카톡이나 문자메세지를 보내어, 화상회의에 초대하고자 하는 참석자를 초대시킨다.

자. 채팅창을 오픈시켜 활성화시킨다.

이는 채팅창오픈형성부를 통해, 화면 좌측 일측에 화상회의에 참석한 참석자들간의 채팅과정을 하나의 채팅창으로 오픈시켜 형성시킨다.

차. 채팅창 상에 실시간회의록링크를 설정한다.

이는 실시간회의록링크설정부를 통해, 음성인식 자막 종료를 클릭한 후, 5초후에 해당 링크를 클릭하면 자동회의록 페이지가 새창에서 오픈되도록 설정시킨다.

이는 도 23에 도시한 바와 같이, 자동으로 회의록이 링크되어 채팅창 화면상에 표출된다.

상기 채팅창에는 도 24에 도시한 바와 같이, 실시간 문자자막 표시부를 통해, 발언자의 실시간 음성을 문자자막으로 채팅창 및 메인 화면상에 표시해주고, 음성인식 자막구분표시부를 통해, 발언자별로 음성인식 자막을 구분하여 표시해준다.

그리고, 도 25에 도시한 바와 같이, 일실시예로서, 미팅호스트와 이차장간의 화상회의시, 미팅호스트와 이차장간의 음성을 문자자막으로 채팅창 및 메인 화면상에 표시해주고, 미팅호스트와 이차장별로 음성인식 자막을 구분하여 표시해준다.

이러한 동작과정을 통해 온라인 화상회의 뿐만아니라, 원격수업시 각 발언자의 음성을 문자로 실시간으로 변환시킬 수 있다.

즉, 발언자가 여러명일 경우에도, 실시간으로 각 발언자의 음성이 문자자막으로 변환되어 채팅창에 자동으로 입력된다.

1 : 하이브리드형 실시간 AI 회의록 생성장치
100 : 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈
110 : RTC형 피어커넥션부
120 : RTC형 다자간 화상회의설정부
130 : RTC형 데이터채널부
140 : RTC형 데이터 채널이벤트부
150 : RTC형 세션구성부
160 : RTC형 ICE 캔디데이트부
170 : RTC형 티피송신부
180 : RTC형 티피수신부
190 : RTC형 아이스서버부
190a : RTC형 회의록변환제어부
190b : RTC형 아이덴터티프로바이더부
190c : RTC형 식별 형성부
190d : RTC형 DTMF 관리부
190e : RTC형 구성제어부
200 : 화상회의 네트워크망 형성모듈
300 : 위밋(WeMeet)형 음성인식 딥러닝모듈
310 : 스피치(Speech) 데이터 생성부
320 : 리커런트 뉴럴 네트워크 트랜스듀서(Recurrent Neural Network Transducer)형 딥러닝 엔진모듈
330 : 랭귀지 모델(Language model) 디코딩부
340 : 빔 서치 디코더(Beam Search Decoder)부

Claims

화상회의시, 화상회의 참석자들의 음성을 딥러닝시킨 후, 문자 데이터를 생성시키고, 생성시킨 문자데이터를 웹 브라우저상에 문자자막으로 이루어진 실시간 AI 회의록으로 표출시키는 웹RTC·위밋형 음성인식 딥러닝을 통한 하이브리드형 실시간 AI 회의록 생성장치에 있어서,
상기 하이브리드형 실시간 AI 회의록 생성장치는
화상회의 참석자용 클라이언트모듈 내에 웹·앱형태로 이루어지고, 웹RTC(Web Real-Time Communication)을 통해 활성화되어, 화상회의 참석자용 클라이언트모듈들을 하나로 연결시켜, 화면상에 다자간 접속상태로 표출시킨 후, 데이터공유와 화상회의를 수행시키면서 화상회의 참석자들의 음성을 위밋(WeMeet)형 음성인식 딥러닝모듈로 전송시키고, 위밋(WeMeet)형 음성인식 딥러닝모듈로부터 문자데이터를 수신받아, 실시간 AI 회의록을 화면상에 표출시키는 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈(100)과,
웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈과 위밋(WeMeet)형 음성인식 딥러닝모듈 사이를 온라인 무선통신으로 화상회의 네트워크망을 형성시키는 화상회의 네트워크망 형성모듈(200)과,
웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈로부터 전송된 화상회의 참석자들의 음성을 리커런트 뉴럴 네트워크 트랜스듀서(Recurrent Neural Network Transducer)를 통해 딥러닝시킨 후, 랭귀지 모델과 빔 탐색(beam search)을 통해, 문자 데이터를 생성시키고, 생성시킨 문자 데이터를 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈쪽으로 전송시키는 위밋(WeMeet)형 음성인식 딥러닝모듈(300)로 구성되는 것을 특징으로 하는 웹RTC·위밋형 음성인식 딥러닝을 통한 하이브리드형 실시간 AI 회의록 생성장치.
삭제
제1항에 있어서, 상기 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈(100)은
화상회의 참석자용 클라이언트모듈과 원격지의 또 다른 화상회의 참석자용 클라이언트모듈 간을 웹RTC 연결시키는 RTC형 피어커넥션부(100)와,
화상회의시, 최대참석인원 100명으로 연결시켜, HD급 영상 및 음성품질을 제공하는 RTC형 다자간 화상회의설정부(120)와,
연결된 화상회의 참석자용 클라이언트모듈 간의 양방향 또는 다방향 데이터 채널을 형성시키는 RTC형 데이터채널부(130)와,
RTC형 데이터채널부를 RTC형 피어커넥션부에 연결하는 동안 발생하는 이벤트를 나타내고 설정하는 RTC형 데이터 채널이벤부(140)와,
세션의 매개변수를 구성하고 형성시키는 RTC형 세션구성부(150)와,
RTC형 피어커넥션부 설정을 위한 후보 인터넷 연결설정(ICE: Internet connectivity establishment) 역할을 하는 RTC형 ICE 캔디데이트부(150)와,
RTC형 피어커넥션부에서 미디어스트림스택의 데이터 인코딩 및 전송을 관리하는 RTC형 티피송신부(170)와,
RTC형 피어커넥션부에서 미디어스트림스택의 데이터 수신 및 디코딩을 관리하는 RTC형 티피수신부(180)와,
위밋(WeMeet)형 음성인식 딥러닝모듈과 양방향데이터통신으로 연결되어, RTC형 피어커넥션부를 통해 연결된 화상회의 참석자의 음성을 위밋(WeMeet)형 음성인식 딥러닝모듈쪽으로 전송시키고, 위밋(WeMeet)형 음성인식 딥러닝모듈로부터 문자 데이터를 수신받는 RTC형 아이스서버부(190)와,
RTC형 아이스서버부로부터 수신된 문자데이터를 전달받아, 문자자막으로 이루어진 실시간 AI 회의록을 화면상에 표출시키도록 제어하는 RTC형 회의록변환제어부(190a)와,
회의 호스트가 화상회의에 참석한 화상회의 참석자용 클라이언트모듈을 대상으로 신원확인(Identity Assertion)을 생성 및 검증을 요청시키는 RTC형 아이덴터티프로바이더부(190b)와,
화상회의시 화상회의 참석자용 클라이언트모듈을 통해 발언하는 발언자별로 식별ID를 설정시키는 RTC형 식별 형성부(190c)와,
RTC형 피어커넥션부에 대한 DTMF(듀얼 톤 다중 주파수) 신호의 인코딩 및 전송을 관리하는 RTC형 DTMF 관리부(190d)와,
화상회의 호스트전용 메인창의 구성을 형성시키고, 구성간의 연결과 동작을 제어시키는 RTC형 구성제어부(190e)로 구성되는 것을 특징으로 하는 웹RTC·위밋형 음성인식 딥러닝을 통한 하이브리드형 실시간 AI 회의록 생성장치.
제3항에 있어서, 상기 RTC형 구성제어부(190e)는
회의참석한 참석자 이름이 표시되는 참석자이름표출부(190e-1)와,
회의참석유무를 선택하는 회의참석유무선택부(190e-2)와,
마이크오픈클로즈를 이모티콘으로 형성시켜서, 내 마이크와 스피커의 동작상태를 확인하고, 최초사용시 테스트 진행을 수행시키는 마이크오픈클로즈형성부(190e-3)와,
카메라오픈클로즈를 이모티콘으로 형성시켜서, 내 카메라의 활성 또는 비활성을 선택하고, 별도의 외장 카메라를 연결시켜 선택시키는 카메라오픈클로즈형성부(190e-4)와,
화면상에 참석자들에게 문서를 공유하는 역할을 수행하는 화면문서공유형성부(190e-5)와,
참석자와 연결된 화상 화면상태를 타일뷰형태 또는 멀티뷰형태로 형성시키는 타일뷰·멀티뷰보기형성부(190e-6)와,
화상회의에 초대하고자 하는 참석자를 설정시키는 초대설정부(190e-7)와,
추가설정기능을 수행시키는 추가설정부(190e-8)와,
화상회의에 참석한 특정 참석자와 1:1로 전화연결시키는 전화연결설정부(190e-9)와,
현재 동작되는 내 마이크의 인식이 정상임을 타내고, 마이크 또는 카메라의 인식이 비정상일 경우에 사선으로 표시시키는 마이크동작상태표시부(190e-10)와,
음성인식 AI참석유무를 확인하는 음성인식 AI참석확인부(190e-11)와,
화상회의에 참석한 참석자들간의 채팅과정을 하나의 채팅창으로 오픈시켜 형성시키는 채팅창오픈형성부(190e-12)와,
음성인식 자막 종료를 클릭한 후, 5초후에 해당 링크를 클릭하면 자동회의록 페이지가 새창에서 오픈되도록 설정시키는 실시간회의록링크설정부(190e-13)와,
발언자의 화상회의 참석자들의 음성을 문자자막으로 채팅창 및 메인 화면상에 표시해주는 실시간 문자자막 표시부(190e-14)와,
발언자별로 음성인식 자막을 구분하여 표시해주는 음성인식 자막구분표시부(190e-15)로 구성되는 것을 특징으로 하는 웹RTC·위밋형 음성인식 딥러닝을 통한 하이브리드형 실시간 AI 회의록 생성장치.
제1항에 있어서, 상기 위밋(WeMeet)형 음성인식 딥러닝모듈(300)은
웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈로부터 전송된 화상회의 참석자들 중 화상회의 참석자들의 음성을 오디오 전처리시킨 후, 스피치 데이터로 생성시키는 스피치(Speech) 데이터 생성부(310)와,
스피치(Speech) 데이터 생성부로부터 생성된 스피치(Speech) 데이터를 입력하여, 최적의 정렬(Alignment)을 찾아내기 위해 모든 시퀀스를 나열한 후 연산시켜 딥러닝시키는 리커런트 뉴럴 네트워크 트랜스듀서(Recurrent Neural Network Transducer)형 딥러닝 엔진모듈(320)과,
리커런트 뉴럴 네트워크 트랜스듀서(Recurrent Neural Network Transducer)형 딥러닝 엔진모듈을 딥러닝된 음성인식데이터 중 빔 탐색(beam search) 확률을 높일 수 있는 랭귀지 모델(언어모형 : Language model)을 형성시키는 랭귀지 모델(Language model) 디코딩부(330)와,
주어진 문자 다음에 선택될 수 있는 문자의 모든 가능한 경우의 수를 계산한 후, 미리 정한 상위 N개 확률의 문자 조합만을 취하여 목표 문자열을 찾을때까지 반복하는 경험적 탐색역할을 수행하여, 문자 데이터를 생성시키는 빔 서치 디코더(Beam Search Decoder)부(340)와,
웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈쪽으로 문자 데이터를 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈쪽으로 전송시키는 문자데이터 전송부(350)로 구성되는 것을 특징으로 하는 웹RTC·위밋형 음성인식 딥러닝을 통한 하이브리드형 실시간 AI 회의록 생성장치.
제5항에 있어서, 상기 스피치(Speech) 데이터 생성부(310)는
들어오는 소리 세기의 표현인 음성파형을 파일형태로 형성시키는 음성파일(Waveform)(311)과,
사용자가 소리를 내어 말을 하는 것을 텍스트 형태로 형성시키는 발화 텍스트(Utterance)(312)와,
말하는 과정에서 어디서부터 어디까지 몇초까지 어떤 텍스트에 해당하는 것인지를 위치를 정렬시키는 위치정렬(Alignment)부(313)와,
스피치 특징을 추출하는 스피치 특징(Speech Feature) 추출부(314)로 구성되는 것을 특징으로 하는 웹RTC·위밋형 음성인식 딥러닝을 통한 하이브리드형 실시간 AI 회의록 생성장치.
제6항에 있어서, 상기 스피치 특징(Speech Feature) 추출부(314)는
사람의 후두에서 발생되는 음소가 음성파일(Waveform)로 나오고, 그 음성파일(Waveform)을 STFT(Short-Time Fourier Transform)프로그램을 통해 25ms 또는 10ms씩 겹쳐서 스펙트로그램(Spectrogram)으로 형성시키는 것을 특징으로 하는 웹RTC·위밋형 음성인식 딥러닝을 통한 하이브리드형 실시간 AI 회의록 생성장치.
제5항에 있어서, 상기 리커런트 뉴럴 네트워크 트랜스듀서(Recurrent Neural Network Transducer)형 딥러닝 엔진모듈(320)은
음성정보만 입력되어야 다음 라벨로 진행되는 제1 음성 스텝 진행부(321)와, 지금까지의 텍스트정보만으로 다음 라벨로 진행되는 텍스트 스텝 진행부(322)와,
지금상태의 음성 스텝을 진행하는 제2 음성 스텝 진행부(323)와,
지금 상태의 텍스트 스텝 진행부 모두를 고려한 최종예측부(324)로 구성되는 것을 특징으로 하는 웹RTC·위밋형 음성인식 딥러닝을 통한 하이브리드형 실시간 AI 회의록 생성장치.
화상회의 참석자용 클라이언트모듈 내에서 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈을 활성화시키는 단계(S10)와,
화상회의 네트워크망 형성모듈을 통해, 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈과 위밋(WeMeet)형 음성인식 딥러닝모듈 사이를 온라인 무선통신으로 화상회의 네트워크망을 형성시키는 단계(S20)와,
웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈을 통해, 화상회의 참석자용 클라이언트모듈들을 하나로 연결시켜, 화면상에 다자간 접속상태로 표출시킨 후, 데이터공유와 화상회의를 수행시키면서 화상회의 참석자들의 음성을 위밋(WeMeet)형 음성인식 딥러닝모듈로 전송시키는 단계(S30)와,
위밋(WeMeet)형 음성인식 딥러닝모듈을 통해, 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈로부터 전송된 화상회의 참석자들의 음성을 리커런트 뉴럴 네트워크 트랜스듀서(Recurrent Neural Network Transducer)를 통해 딥러닝시키는 단계(S40)와,
위밋(WeMeet)형 음성인식 딥러닝모듈을 통해, 랭귀지 모델과 빔 탐색(beam search)을 통해, 문자 데이터를 생성시키는 단계(S50)와,
위밋(WeMeet)형 음성인식 딥러닝모듈을 통해, 생성시킨 문자 데이터를 웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈쪽으로 전송시키는 단계(S60)와,
웹RTC(Web Real-Time Communication)형 화상회의 플랫폼 모듈을 통해, 위밋(WeMeet)형 음성인식 딥러닝모듈로부터 문자데이터를 수신받아, 실시간 AI 회의록을 화면상에 표출시키는 단계(S70)로 이루어지는 것을 특징으로 하는 웹RTC·위밋형 음성인식 딥러닝을 통한 하이브리드형 실시간 AI 회의록 생성방법.
제9항에 있어서, 상기 화상회의 참석자들의 음성을 리커런트 뉴럴 네트워크 트랜스듀서(Recurrent Neural Network Transducer)를 통해 딥러닝시키는 것(S40)은
스피치(Speech) 데이터 생성부로부터 생성된 스피치(Speech) 데이터를 입력하여, 최적의 정렬(Alignment)을 찾아내기 위해 모든 시퀀스를 나열한 후 연산시켜 딥러닝시키는 것으로, 제1 음성 스텝 진행부(321)를 통해 음성정보가 입력되면 다음 라벨로 진행시키고, 텍스트 스텝 진행부(322)를 통해 지금까지의 텍스트정보만으로 다음 라벨로 진행시키며, 제2 음성 스텝 진행부(323)를 통해 지금상태의 음성 스텝을 진행시키고, 최종예측부(324)를 통해 지금 상태의 텍스트 스텝 진행부 모두를 고려한 최종예측을 진행시키는 것을 특징으로 하는 웹RTC·위밋형 음성인식 딥러닝을 통한 하이브리드형 실시간 AI 회의록 생성방법.