KR20220058078A

KR20220058078A - 사용자 단말, 서버 및 이들을 이용한 화상 통신 방법

Info

Publication number: KR20220058078A
Application number: KR1020200143399A
Authority: KR
Inventors: 서영애
Original assignee: 한국전자통신연구원
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2022-05-09

Abstract

음성, 영상 및 텍스트 중 적어도 하나를 기반으로 하는 다자간 화상 통신 방법이 제공된다. 상기 방법은 복수의 사용자 단말 중 제1 사용자 단말로부터 음성 및 영상 중 적어도 하나를 수신하는 단계; 상기 음성 또는 영상에 포함된 음성 데이터를 텍스트로 전사하는 단계; 상기 전사된 텍스트를 대상으로 미리 설정된 텍스트 정련 정도에 기초하여 텍스트 정련 결과를 생성하는 단계; 및 상기 복수의 단말 중 상기 제1 사용자 단말과 다자간 화상 통신 중인 적어도 하나의 제2 사용자 단말로 상기 텍스트 정련 결과를 제공하는 단계를 포함한다.

Description

사용자 단말, 서버 및 이들을 이용한 화상 통신 방법{USER DEVICE, SERVER AND MULTI-PARTY VIDEO COMMUNICATION METHOD THEREOF}

본 발명은 사용자 단말, 서버 및 이들을 이용한 화상 통신 방법에 관한 것으로, 음성, 영상 및 텍스트 중 적어도 하나를 기반으로 하여 발화 내용을 정련하고, 감정 정보를 부가 합성하여 타 사용자에게 제공할 수 있는 단말, 서버 및 방법에 관한 것이다.

인터넷 기반의 원격 화상회의를 진행함에 있어 다수의 인원이 참여할 경우, 각 참여자의 화상 데이터를 병렬적으로 동시에 수신하여 출력해야 한다. 이 과정에서 제한된 통신 환경과 시스템의 성능에 따라 수신과 출력이 원활하지 못하여, 사용자의 발화가 명확히 전달되지 못해 여러가지 불편함이 드러나고 있는 실정이다.

이러한 문제를 해소하기 위해, 최근 화상회의 시스템은 기본적 기능 외의 다양한 부가적 기능이 개발되고 있다. 그러나, 여전히 기존 화상회의 시스템들은 사용자의 음성 발화를 그대로 전달, 저장 및 검색하는 정도에만 국한되어 있다.

본 발명의 실시예는 둘 이상의 위치에서 쌍방향 오디오 전송을 기본으로 회의나 통신을 수행하는 화상회의 또는 음성 통신에 있어서 발화자의 음성 발화를 정련한 후 상대방에게 전달하는 발화 정련 기능과, 음성 발화가 어려운 상황에서의 감정 정보를 포함하는 텍스트를 음성 발화로 변환하여 전달하는 감정 반영 음성 합성 기능을 제공하는 사용자 단말, 서버 및 이들을 이용한 화상 통신 방법을 제공한다.

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 음성, 영상 및 텍스트 중 적어도 하나를 기반으로 하는 다자간 화상 통신 방법은 복수의 사용자 단말 중 제1 사용자 단말로부터 음성 및 영상 중 적어도 하나를 수신하는 단계; 상기 음성 또는 영상에 포함된 음성 데이터를 텍스트로 전사하는 단계; 상기 전사된 텍스트를 대상으로 미리 설정된 텍스트 정련 정도에 기초하여 텍스트 정련 결과를 생성하는 단계; 및 상기 복수의 단말 중 상기 제1 사용자 단말과 다자간 화상 통신 중인 적어도 하나의 제2 사용자 단말로 상기 텍스트 정련 결과를 제공하는 단계를 포함한다.

또한, 본 발명의 제2 측면에 따른 음성, 영상 및 텍스트 중 적어도 하나를 기반으로 하는 다자간 화상 통신 서버는 복수의 사용자 단말과 데이터를 송수신하는 통신모듈, 제1 사용자 단말로부터의 음성 데이터를 텍스트 정련 과정에 기초하여 적어도 하나의 제2 사용자 단말로 제공하기 위한 프로그램이 저장된 메모리 및 상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함한다. 이때, 상기 프로세서는 상기 프로그램을 실행시킴에 따라, 상기 통신모듈을 통해 복수의 사용자 단말 중 제1 사용자 단말로부터 음성 및 영상 중 적어도 하나를 수신하면, 상기 음성 또는 영상에 포함된 음성 데이터를 텍스트로 전사하고, 전사된 텍스트를 대상으로 미리 설정된 텍스트 정련 정도에 기초하여 텍스트 정련 결과를 생성한 후, 상기 복수의 단말 중 상기 제1 사용자 단말과 다자간 화상 통신 중인 적어도 하나의 제2 사용자 단말로 상기 텍스트 정련 결과를 제공한다.

또한, 본 발명의 제3 측면에 따른 음성, 영상 및 텍스트 중 적어도 하나를 기반으로 적어도 하나의 타 사용자 단말과의 다자간 화상 통신을 수행하는 사용자 단말은 텍스트를 입력하기 위한 키보드와, 음성을 입력하기 위한 마이크 및 영상을 입력하기 위한 카메라를 포함하는 입력부, 상기 음성 또는 영상에 포함된 음성 데이터를 텍스트로 전사하고, 전사된 텍스트를 대상으로 미리 설정된 텍스트 정련 정도에 기초한 텍스트 정련 결과를 생성하는 텍스트 정련 결과 생성부, 상기 다자간 화상 통신 중인 적어도 하나의 타 사용자 단말로 상기 텍스트 정련 결과를 제공하는 통신부 및 영상을 출력하는 스크린과, 음성을 출력하는 스피커를 포함하며, 상기 타 사용자 단말로부터 수신되는 텍스트 정련 결과를 상기 영상에 텍스트 형태로 결합하여 제공하거나, 상기 음성의 형태로 제공하거나, 상기 영상에 부가하여 제공하는 출력부를 포함한다.

이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공될 수 있다.

본 발명에 따르면, 그룹콜이나 화상회의에 참석한 발화자가 불명확하거나 장황한 발화를 한 경우 해당 발화가 다른 참석자에게 그대로 전달되는 대신, 명확하고 간결한 표현으로 정련되어 전달되도록 하여, 발화자가 전달하고자 하는 의미가 더 명확하게 전달될 수 있도록 하는 효과를 기대할 수 있다.

또한, 발화를 희망하나 음성으로의 발화가 불가능하거나 곤란한 경우에도, 텍스트의 입력을 통해 발화자의 음성 특징 뿐만 아니라 발화시의 감정표현까지 반영된 음성의 전달이 가능해짐으로 인해, 공간적 제약에 구애받지 않고 음성 통신 및 화상회의에 참석할 수 있도록 할 수 있다.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 다자간 화상 통신 시스템을 설명하기 위한 도면이다.
도 2는 텍스트 정련 결과의 일 예시를 도시한 도면이다.
도 3은 감정 정보를 추출한 일 예시를 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 다자간 통신 방법의 순서도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

본 발명은 서버(100), 사용자 단말(200) 및 이들을 이용한 화상 통신 방법에 관한 것이다.

스마트폰 등을 이용하여 여러 명이 동시에 음성 통화를 할 수 있는 카카오톡의 그룹콜과 같은 다자간 음성 통신 시스템은, 발화자의 발화를 그대로 상대방에게 전달해주는 음성 통신 기능 외에 별다른 부가 기능을 포함하고 있지 않다.

한편, 최근 코로나 19 바이러스의 여파로 비대면 접촉을 통한 화상회의 시스템의 활용이 급격히 늘고 있는 화상회의 시스템은 기존 시스템 대비 다양한 부가 기능을 제공하고 있다.

화상회의 시스템이란 둘 이상의 위치에서 쌍방향 비디오와 오디오 전송을 동시에 주고 받으면서 원격으로 회의를 진행할 수 있도록 해주는 시스템이다. 화상회의 시스템의 일 예로는 현재 줌(Zoom), 행아웃(Hang outs), 팀즈(Teams), 라인웍스(Line Works), 시스코 웹엑스(Cisco Webex), 리모트 미팅(Remote Meeting), 구루미(Gooroomee) 등이 있다. 현재 화상회의 시스템과 관련하여 국내외의 다양한 화상회의 솔루션이 출시 및 사용되고 있으며, 지속적으로 관련 시스템이 개발되고 있다. 이러한 화상회의 시스템은 화상회의 참석자들이 시간과 공간의 제약을 받지 않고 재택 근무, 원격 교육, 친구와의 만남 등을 할 수 있도록 해주는 장점이 있다.

화상회의 시스템의 필수 기능은 얼마나 쉽게, 그리고 얼마나 많이 회의 참석자를 연결할 수 있는지를 의미하는 계정과의 연결성 및 확장성, 화상회의 시 전달되는 음성과 영상의 품질 및 보안성을 들 수 있으며, 그 외 다양한 부가적 기능이 화상회의 솔루션마다 다양하게 제공된다.

구글 미트(Google Meet, (구)행아웃 미트, Hang outs Meet)는 구글 보이스 계정 연결을 통해 전화번호, SMS 문자 메시지 보내기, 음성 사서함을 통합하는 기능을 추가로 제공하며, 회의 중의 대화 내역들이 Gmail로 자동 저장되는 기능을 제공한다. 또한, 마이크로소프트에서 지원하는 팀즈는 MS 오피스와 스카이프(Skype), 오피스365 등 MS 프로그램의 통합 기능이 있으며 원격 교육 지원을 위해 과제작성, 생활기록부, 수업용 전자 필기장 사용 및 저장 기능 등을 제공하며, 중요한 대화를 저장하거나 채팅 및 팀 대화에서 원하는 내용을 검색할 수 있다. 그 외에도 화상회의시 화면 및 컨텐츠 공유 기능 등의 다양한 기능들을 추가하여 화상회의 시에 편의성을 높이고 있다.

최근 베타 테스트 중인 미출시 솔루션들은 새로운 형태의 부가 기능을 가지고 있다. 일 예로, 어라운드(Around)는 화상회의를 위해 컴퓨터 전체 화면에 화상회의 앱을 띄우지 않고 '떠다니는 얼굴 모양(Floating Head)' 형태로 상대방의 비디오 피드를 자동 크롭해 보여줌으로써 화상회의를 하면서도 참석자가 다른 일을 병행할 수 있는 기능을 추가하였다. 코스크린(CoScreen)은 본인 창과 화상회의 참석자들과의 공동 업무 창을 구분하고 참석자가 선택적으로 작업을 할 수 있게 해주며, 자신의 컴퓨터 화면에서 원하는 창만을 세컨드 스크린의 공동 업무 공간 캔버스로 끌어다 놓아 화상회의 참여자와 공유할 수 있고, 나머지 자신의 컴퓨터 화면은 자신만 볼 수 있도록 하였다. 그레인(Grain)은 화상회의 중 중요한 부분을 캡쳐할 수 있다. 참석자의 음성에 대해 자동 녹취가 가능하며 저장된 녹취록 중에서 특정 텍스트를 선택하고 관련된 비디오 하이라이트를 생성할 수 있으며, 저장된 비디오 하이라이트와 자동 녹취록, 메모 등은 다른 팀원과의 손쉽게 공유가 가능하다. 그레인을 통해 화상통화에서 작성한 메모를 비디오 하이라이트 요약과 녹취록으로 자동 변환해 실시간 화상회의에 참석하지 못한 비동기 참여자들에게 손쉽게 공유함으로써의 회의 불참자에 대한 공백을 메우는 데 도움을 줄 수도 있다.

이상과 같이 최근의 화상회의 시스템들은 기본적 기능 이외의 다양한 부가적 기능이 개발되고 있다. 그러나, 여전히 기존의 화상회의 시스템들은 사용자의 음성 발화를 그대로 전달, 저장 및 검색하는 정도에만 국한되어 있다.

한편, 음성을 수단으로 하는 다자간 음성 통신이나 화상회의에 참석한 발화자의 발화를 분석하면 뉴스 앵커의 발화처럼 문법적이거나 간단명료하지 않은 경우가 많다. 일반적으로 사람이 하는 발화의 상당 부분은 비문법적이고, 잘못된 단어를 발화하거나, 더듬거나, 중복 발화하는 경우가 많다. 면대면 음성 교환이 이루어지는 경우는 내가 발화한 말이 그대로 상대방에게 전달되어 이를 수정할 기회가 없으나, 음성 통신 시스템이나 화상회의 시스템을 통해 상대에게 전달되는 발화자의 발화는 가공, 교정될 기회를 가질 수 있다.

또한, 기존의 면대면 회의와 비교하여 화상회의가 시간과 공간적 제약을 해소하였다고 하지만, 여전히 환경상의 제약을 받는 경우가 있다. 화상회의는 기본 입력 장치가 마이크이고, 출력장치는 스피커이다. 이때, 출력장치는 이어폰이나 헤드셋을 사용함으로써 참석자 1인에게만 온전히 전달될 수 있다. 하지만, 입력장치는 여전히 마이크에 의존하기 때문에, 화상회의를 위한 밀폐된 조용한 곳이 아닌 등의 이유로 회의 참석자가 음성으로 발화하기 부적합한 상황이거나, 주변이 시끄러운 곳일 경우, 참석자의 음성이 다른 참석자들에게 제대로 전달되지 않을 수 있다. 이는 음성 통신 시스템에서도 마찬가지이다.

이러한 상황들에 기반하여 본 발명의 일 실시예에 따른 서버, 사용자 단말 및 이들을 이용한 화상 통신 방법은, 음성통신 시스템이나 화상회의 시스템을 이용하여 음성을 주요 수단으로 하여 통신이나 회의를 진행함에 있어, 발화 정련 및 감정 반영 음성합성 기능을 통해 사용자의 음성 발화를 지원하는 기능을 제공함으로써, 음성통신 시스템이나 화상회의 참석자들이 편리하고 효율적으로 음성을 교환할 수 있도록 할 수 있다.

이하에서는 도 1 내지 도 3을 참조하여, 본 발명의 일 실시예에 따른 다자간 화상 통신 서버(100)와 사용자 단말(200)을 설명하도록 한다.

도 1은 본 발명의 일 실시예에 따른 다자간 화상 통신 시스템(1)을 설명하기 위한 도면이다.

본 발명의 일 실시예에 따른 다자간 화상 통신 시스템(1)은 다자간 화상 통신 서버(100, 이하 서버) 및 복수의 사용자 단말(200)을 포함한다. 이때, 복수의 사용자 단말(200)의 개수는 특별히 한정되지는 않으며, 다자간 화상 통신이므로 적어도 둘 이상의 사용자 단말(200)을 포함해야 한다.

또한, 본 발명의 일 실시예에서 사용자 단말(200)을 이용하는 사용자는 발화자일 수 있으나 반드시 이에 한정되는 것은 아니며, 사용자 단말(200)을 이용하는 사용자와 발화자는 그 주체가 상이할 수 있음은 물론이다.

이때, 도 1에 다자간 화상 통신 시스템(1)을 구성하는 각 구성요소는 네트워크(network)를 통해 연결될 수 있다. 네트워크는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크(network)의 일 예에는 UNB(Ultra Narrow-Band), 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.

전술한 발화 정련 기능과 감정 반영 음성합성 기능은 서버(100)에 의해 수행될 수 있다. 또한, 실시예에 따라 해당 기능 제공을 위한 프로그램이 어플리케이션 형태로 구성되어 사용자 단말(200)에 설치된 후, 사용자 단말(200)을 통해 제공될 수도 있다.

또한, 본 발명의 설명에서는 화상회의를 위한 실시예를 중심으로 설명하였으나, 반드시 이에 한정되는 것은 아니며, 음성 통신 시스템이나 화상회의 시스템 등과 같이 음성을 기본 의사 소통 수단으로 하여 원격으로 둘 이상의 위치에서 쌍방향 오디오 전송을 수행하는 시스템에 모두 적용이 가능함은 물론이다.

일 실시예로, 본 발명은 서버(100)에서 다자간 화상 통신을 위한 발화 정련 및 감정 반영 음성합성 기능을 제공할 수 있으며, 이 경우 서버(100)는 통신모듈(110), 메모리(120) 및 프로세서(130)를 포함한다.

통신모듈(110)은 복수의 사용자 단말(200)과 데이터를 송수신한다. 이때, 송수신되는 데이터는 음성, 영상 및 텍스트를 기본으로 한다. 일 실시예로, 통신모듈(110)은 제1 사용자 단말(200a)에 의한 기본 음성, 기본 영상 및 기본 텍스트를 제2 사용자 단말(200b)로 가공 없이 그대로 전달할 수 있음은 물론이고, 기본 음성, 기본 영상 및 기본 텍스트를 대상으로 텍스트 정련 결과로 가공하여 제2 사용자 단말(200b)로 제공할 수도 있다.

메모리(120)에는 제1 사용자 단말(200a)로부터의 음성 데이터를 텍스트 정련 과정에 기초하여 적어도 하나의 제2 사용자 단말(200b)로 제공하기 위한 프로그램이 저장된다.

프로세서(130)는 메모리(120)에 저장된 프로그램을 실행시킴에 따라, 제1 사용자 단말(200a)로부터의 음성 또는 영상에 포함된 음성 데이터를 텍스트로 전사하고, 전사된 텍스트를 대상으로 미리 설정된 텍스트 정련 정도에 기초하여 텍스트 정련 결과를 생성한다.

일 실시예로, 프로세서(130)는 전사된 텍스트를 대상으로 복수의 등급별로 구분된 텍스트 정련 정도에 기초하여 텍스트 정련 결과를 생성할 수 있다.

여기에서, 텍스트 정련 정도는 제1 단계 내지 제4단계의 등급으로 구분될 수 있다. 예를 들어, 제1 단계는 전사된 텍스트에 포함된 말더듬음 현상, 간투어 및 중복 발화 중 하나 이상을 대상으로 텍스트 정련 결과를 생성하는 단계이다. 제2 단계는 전사된 텍스트의 비문법적 표현을 대상으로 텍스트 정련 결과를 생성하는 단계이며, 제3 단계는 전사된 텍스트에 부가 정보를 제공하는 단계이다. 또한, 제4 단계는 전사된 텍스트가 소정의 길이 이상인 경우 요약 정보를 제공하는 단계이다. 이때, 텍스트 정련 정도는 텍스트 정련이 수행되지 않은 로우 데이터 상태를 그대로 두는 단계도 포함할 수 있음은 물론이다.

프로세서(130)는 이러한 제1 내지 제4 단계 중 어느 하나의 텍스트 정련 정도를 선택하여 적용한 텍스트 정련 결과를 생성할 수 있으며, 또는 둘 이상의 단계를 조합한 텍스트 정련 정보를 선택 적용한 텍스트 정련 결과를 생성할 수도 있다.

도 2는 텍스트 정련 결과의 일 예시를 도시한 도면이다.

도 2에서는 전사된 텍스트를 대상으로 제1 단계와 제2 단계에 따른 텍스트 정련 결과를 생성한 것이다.

한편, 프로세서(130)는 미리 설정된 텍스트 정련 정도에 따른 학습 코퍼스를 미리 준비한 후, 학습 코퍼스를 기반으로 신경망 기반의 알고리즘을 학습시킬 수 있다. 이와 같이 학습된 신경망 기반의 알고리즘을 기반으로 서버(100)는 전사된 택스트를 대상으로 미리 설정된 텍스트 정련 정도에 따라 텍스트 정련 결과를 생성할 수 있다.

예를 들어, 프로세서(130)는 미리 설정된 정련 정도에 따른 학습 코퍼스를 이용하여 RNN(Recurrent Neural Network, 순환 신경망)이나 트랜스포머(Transformer) 기반의 뉴런 네트워크를 학습시킬 수 있다.

이후, 프로세서(130)는 통신모듈(110)을 통해 제1 사용자 단말(200a)과 다자간 화상 통신 중인 적어도 하나의 제2 사용자 단말(200b)로 텍스트 정련 결과를 제공한다. 이때, 프로세서(30)는 선택적으로 텍스트 정련 결과를 발화자에게 제시하여 미리 보여준 후 전송하거나, 또는 발화자에게 미리 보여주지 않고 즉시 제공하는 것도 가능하다.

일 실시예로, 프로세서(130)는 텍스트 정련 결과를 수신한 영상에 합성하거나, 영상과 독립된 형태로 제2 사용자 단말(200b)로 제공할 수 있다.

다른 실시예로, 프로세서(130)는 텍스트 정련 결과를 제1 사용자 단말(200a)로부터 수신한 음성에 상응하도록 음성 데이터로 변환한 후, 변환된 음성 데이터를 음성 또는 영상에 포함된 음성 데이터와 합성한 후, 제2 사용자 단말(200b)로 제공할 수 있다.

이와 같이 정련된 텍스트에 기반한 음성이나 텍스트가 상대방에게 전달될 경우, 의미의 전달이 더욱 명확해질 수 있다. 또한, 다른 나라 언어를 사용하는 외국인과의 화상회의 시에 상대방이 번역 기능을 사용하여 화상회의를 진행하고자 할 경우, 번역의 정확도가 더욱 높아지게 되는 장점이 있다. 또한, 회의 시의 대화 내용을 기록, 정리하는 기능을 사용하게 될 경우에도 더 정확하고 명료한 기록을 남길 수 있다.

이와 더불어, 프로세서(130)는 발화자의 음성에 상응하도록 음성 데이터를 변환함에 있어, 발화자에 상응하는 음성 또는 영상에 포함된 음성 데이터로부터 발화자의 음성 특징 정보를 추출하고, 추출된 음성 특징 정보를 기반으로 텍스트 정련 결과를 음성 데이터로 변환할 수 있다.

즉, 프로세서(130)는 기 제공된 발화자의 음성 특징 정보에 기반하여 음성을 발화자의 발음과 유사한 형태로 합성할 수 있다. 여기에서 음성 특징 정보는 발화시의 톤, 음색, 속도 정보 중 적어도 하나를 포함할 수 있다. 일 예로, 동일 단어에서의 음성 특징 정보를 동일하게 반영하여 합성하거나, 동일 단어를 포함하는 구문 또는 문장에서의 평균 톤, 평균 발음 속도를 산출하고, 이를 반영하여 합성하는 등 다양한 방법을 적용할 수 있다.

이때, 본 발명의 일 실시예는 가장 최근 제공받은 발화자의 음성 특징 정보를 기반으로 음성 데이터의 변환 과정을 수행할 수도 있으며, 이전 발화 내용이 있는 경우 이전 발화로부터 추출된 음성 특징 정보를 이용하여 더욱 빠른 합성이 가능하게끔 할 수도 있다.

또한, 본 발명의 일 실시예에서 프로세서(130)는 음성 특징 정보와 함께 감정 정보를 더 이용하여 텍스트 정련 결과를 음성 데이터로 변환할 수 있다.

즉, 프로세서(130)는 음성 또는 영상에 포함된 음성 데이터나, 제1 사용자 단말(200a)로부터 입력된 텍스트, 이모티콘 중 적어도 하나에 기초한 감정 정보를 추출하고, 발화자의 음성 특징 정보와 감정 정보를 기반으로 텍스트 정련 결과를 음성 데이터로 변환할 수 있다.

일 실시예로, 발화자의 감정 정보는 음성 특징 정보로부터 추출될 수 있다. 예를 들어, 발화자의 톤이나 속도 등에 기초하여 감정 정보가 추출될 수 있다. 또는, 발화자의 발화 내용인 텍스트 전사 결과로부터 추출될 수도 있다. 예를 들어, 발화자가 직접 입력한 텍스트 기반의 이모티콘(^^, ^^;;, J, ,ㅎㅎ, ㅋㅋ, OTL 등), 일반적인 메신저를 통해 제공되는 이미지 등을 기반으로 하는 이모티콘을 통해 감정 정보를 추출할 수 있으며, 텍스트에서의 감정 관련 단어(기쁘다, 슬프다, 기분이 안좋다 등)를 통해 감정 정보를 추출할 수도 있다.

이와 같이 감정 정보를 추출하면, 감정 정보와 음성 특징 정보를 함께 이용하여 텍스트 정련 결과를 음성 데이터로 변환하게 되며, 일 예로 제1 시점에서 추출된 감정 정보 및 음성 특징 정보와, 제1 시점 이후의 제2 시점에서 추출된 감정 정보와 음성 특징 정보가 기 설정된 유사도를 갖는 경우, 제1 시점에서 변환된 음성 데이터와 유사하도록 제2 시점에서의 음성 데이터를 변환할 수 있다.

도 3은 감정 정보를 추출한 일 예시를 도시한 도면이다. 도 3에서의 감정의 분류는 일 예시에 불과하며 실제 실시예에서는 더욱 다양한 분류로 적용 가능하다.

한편, 본 발명의 일 실시예는 화상회의 참가자가 음성으로 발화를 전달할 수 없는 등, 음성 전달이 어려운 환경에서, 프로세서(130)는 제1 사용자 단말의 키보드나 터치 스크린과 같은 입력부를 통해 텍스트를 수신할 수 있으며, 수신한 텍스트를 대상으로 미리 설정된 텍스트 정련 정도에 기초하여 텍스트 정련 결과를 생성할 수 있다. 즉, 본 발명의 일 실시예에서의 텍스트 정련은 발화자의 음성 발화만을 대상으로 하는 것이 아니라, 키보드 등을 통해 직접 입력된 텍스트를 대상으로 텍스트 정련 과정을 수행할 수도 있다.

일 예로, 미리 설정된 텍스트 정련 정도에 따라, 사용자가 직접 입력한 텍스트를 정련하지 않고 그대로 음성으로 합성할 수도 있으며, 소정의 단계에 따른 텍스트 정련 과정을 거친 후 음성으로 합성할 수도 있다.

이와 같은 일련의 과정에 따라, 본 발명의 일 실시예는 텍스트 정련 결과를 영상에 텍스트 형태로 결합하여 제공하거나, 합성된 음성 데이터를 음성으로 제공하거나, 영상에 부가하여 제공할 수 있다.

다시 말해, 프로세서(130)는 제1 사용자 단말(200a)로부터 입력된 기본 영상, 음성 및 텍스트를 가공 없이 그대로 제2 사용자 단말(200b)로 제공할 수도 있으며, 영상 또는 음성에 포함된 음성 데이터를 대상으로 텍스트 정련 결과를 생성한 후 이를 다시 영상 또는 음성에 합성하여 제2 사용자 단말(200b)로 제공할 수 있다. 또한, 프로세서(130)는 입력된 텍스트를 대상으로 텍스트 정련 결과를 생성한 후 이를 음성 특징 정보를 이용하여 음성으로 합성한 후 영상 또는 음성 형태로 제2 사용자 단말(200b)로 제공할 수도 있으며, 텍스트 정련 결과를 그대로 제2 사용자 단말(200b)로 제공할 수도 있다.

본 발명의 또 다른 실시예로, 본 발명은 사용자 단말(200)에서 다자간 화상 통신을 위한 발화 정련 및 감정 반영 음성합성 기능을 제공할 수 있으며, 이 경우 서버(100)는 각 사용자 단말(200) 간의 통신을 중계하기 위한 통신 서버일 수 있으며, 또는 사용자 단말(200)에 미리 설치된 어플리케이션을 관리하기 위한 관리 서버(100)일 수 있다.

일 실시예로, 사용자 단말(200)은 스마트폰, 태블릿, PDA, 랩톱, 데스크톱, 서버 등과 같은 컴퓨터 장치 또는 전기 통신 장치를 의미한다.

한편, 사용자 단말(200)을 통해 제공되는 텍스트 정련 기능은 전술한 서버(100)를 통해 제공될 수 있는바, 중복되는 설명은 생략하도록 한다.

사용자 단말(200)은 입력부(210), 텍스트 정련 결과 생성부(220), 음성 합성부(230), 감정 정보 추출부(240), 통신부(250) 및 출력부(260)를 포함한다.

입력부(210)는 영상을 입력하기 위한 카메라(211)와, 음성을 입력하기 위한 마이크(212), 그리고 텍스트를 입력하기 위한 키보드(213)를 포함한다.

텍스트 정련 결과 생성부(220)는 음성 또는 영상에 포함된 음성 데이터를 텍스트로 전사하고, 전사된 텍스트를 대상으로 미리 설정된 텍스트 정련 정도에 기초한 텍스트 정련 결과를 생성한다. 또한, 텍스트 정련 결과 생성부(220)는 사용자가 직접 입력한 텍스트를 대상으로 미리 설정된 텍스트 정련 정도에 기초한 텍스트 정련 결과를 생성한다.

음성 합성부(230)는 텍스트 정련 결과를 마이크로부터 수신한 음성에 상응하도록 음성 데이터로 변환하고, 변환된 음성 데이터를 음성 또는 영상에 포함된 음성 데이터와 합성한다. 이때, 음성 합성부(230)는 음성 또는 영상에 포함된 음성 데이터로부터 발화자의 음성 특징 정보를 추출하고, 추출된 발화자의 음성 특징 정보를 기반으로 텍스트 정련 결과를 음성 데이터로 변환할 수 있다. 또한, 음성 합성부(230)는 음성, 영상뿐 아니라, 사용자가 직접 입력한 텍스트 자체를 그대로 음성 데이터로 변환하거나, 사용자가 입력한 텍스트를 대상으로 생성된 텍스트 정련 결과를 음성 데이터로 변환할 수도 있다.

감정 정보 추출부(240)는 음성 또는 영상에 포함된 음성 데이터나, 입력된 텍스트, 이모티콘 중 적어도 하나에 기초한 감정 정보를 추출한다. 음성 합성부(230)는 발화자의 음성 특징 정보 및 감정 정보를 기반으로 텍스트 정련 결과를 음성 데이터로 변환할 수 있다.

통신부(250)는 다자간 화상 통신 중인 적어도 하나의 타 사용자 단말로 텍스트 정련 결과를 제공한다.

출력부(260)는 영상을 출력하는 스크린, 음성을 출력하는 스피커를 포함하며, 타 사용자 단말로부터 수신되는 텍스트 정련 결과를 영상에 텍스트 형태로 결합하여 제공하거나, 음성의 형태로 제공하거나, 영상에 부가하여 제공할 수 있다.

한편, 텍스트 정련 결과 생성부(220), 음성 합성부(230) 및 감정 정보 추출부(240)는 전술한 서버(100)와 유사하게, 메모리 및 프로세서의 구성을 통해 구현될 수 있다.

이하에서는 도 4를 참조하여, 본 발명의 일 실시예에 따른 다자간 화상 통신 방법을 설명하도록 한다.

도 4는 본 발명의 일 실시예에 따른 다자간 통신 방법의 순서도이다.

한편, 도 4에 도시된 각 단계는 전술한 서버(100)에 의해 수행되는 것으로 이해할 수 있지만, 이에 제한되는 것은 아니다.

먼저, 서버는 복수의 사용자 단말 중 제1 사용자 단말의 카메라(211) 또는 마이크(212)로부터 음성 및 영상 중 적어도 하나를 수신하면(S110), 음성 또는 영상에 포함된 음성 데이터를 텍스트로 전사한다(S120). 이때, 서버(100)는 키보드(213)를 통해 별도로 텍스트를 입력받을 수도 있다.

다음으로, 서버(100)는 전사된 텍스트를 대상으로 미리 설정된 텍스트 정련 정도에 기초하여 텍스트 정련 결과를 생성하고(S130), 텍스트 정련 결과를 발화자의 음성에 상응하도록 음성 데이터로 변환하여 음성 또는 영상으로 합성한다(S140). 이때, 서버(100)는 입력된 텍스트나 발화자의 음성으로부터 감정 정보를 추출하고, 감정 정보를 더 반영하여 음성 데이터를 음성 또는 영상으로 합성할 수 있다.

이후, 서버(100)는 복수의 단말 중 제1 사용자 단말(200a)과 다자간 화상 통신 중인 적어도 하나의 제2 사용자 단말(200b)로 텍스트 정련 결과를 제공한다(S150).

한편, 상술한 설명에서, 단계 S110 내지 단계 S150 은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. 아울러, 기타 생략된 내용이라 하더라도 도 1 내지 도 3에 기술된 내용은 도 4의 내용에도 적용된다.

이상에서 전술한 본 발명의 일 실시예는, 하드웨어인 서버와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.

상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.

상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.

본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.

이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.

1: 다자간 화상 통신 시스템
100: 다자간 화상 통신 서버
200: 사용자 단말

Claims

음성, 영상 및 텍스트 중 적어도 하나를 기반으로 하는 다자간 화상 통신 방법에 있어서,
복수의 사용자 단말 중 제1 사용자 단말로부터 음성 및 영상 중 적어도 하나를 수신하는 단계;
상기 음성 또는 영상에 포함된 음성 데이터를 텍스트로 전사하는 단계;
상기 전사된 텍스트를 대상으로 미리 설정된 텍스트 정련 정도에 기초하여 텍스트 정련 결과를 생성하는 단계; 및
상기 복수의 단말 중 상기 제1 사용자 단말과 다자간 화상 통신 중인 적어도 하나의 제2 사용자 단말로 상기 텍스트 정련 결과를 제공하는 단계를 포함하는 다자간 화상 통신 방법.
제1항에 있어서,
상기 전사된 텍스트를 대상으로 미리 설정된 텍스트 정련 정도에 기초하여 텍스트 정련 결과를 생성하는 단계는,
상기 전사된 텍스트를 대상으로 복수의 등급별로 구분된 텍스트 정련 정도에 기초하여 텍스트 정련 결과를 생성하는 것인 다자간 화상 통신 방법.
제2항에 있어서,
상기 전사된 텍스트를 대상으로 미리 설정된 텍스트 정련 정도에 기초하여 텍스트 정련 결과를 생성하는 단계는,
상기 전사된 텍스트에 포함된 말더듬음 현상, 간투어 및 중복발화 중 하나 이상을 대상으로 텍스트 정련 결과를 생성하는 제1 단계, 상기 전사된 텍스트의 비문법적 표현을 대상으로 텍스트 정련 결과를 생성하는 제2 단계, 상기 전사된 텍스트에 부가 정보를 제공하는 제3 단계 및 상기 전사된 텍스트가 소정의 길이 이상인 경우 요약 정보를 제공하는 제4 단계 중 하나 이상의 단계에 따른 텍스트 정련 정도에 기초하여 상기 텍스트 정련 결과를 생성하는 것인 다자간 화상 통신 방법.
제1항에 있어서,
상기 전사된 텍스트를 대상으로 미리 설정된 텍스트 정련 정도에 기초하여 텍스트 정련 결과를 생성하는 단계는,
상기 미리 설정된 텍스트 정련 정도에 따른 학습 코퍼스를 미리 준비하는 단계; 및
상기 학습 코퍼스를 기반으로 신경망 기반의 알고리즘을 학습시키는 단계를 더 포함하며,
상기 전사된 텍스트를 대상으로 상기 학습된 신경망 기반의 알고리즘에 기초하여 상기 미리 설정된 텍스트 정련 정도에 따라 텍스트 정련 결과를 생성하는 것인 다자간 화상 통신 방법.
제1항에 있어서,
상기 텍스트 정련 결과를 상기 제1 사용자 단말로부터 수신한 음성에 상응하도록 음성 데이터로 변환하는 단계; 및
상기 변환된 음성 데이터를 상기 음성 또는 영상에 포함된 음성 데이터와 합성하는 단계를 더 포함하는 다자간 화상 통신 방법.
제5항에 있어서,
상기 텍스트 정련 결과를 상기 제1 사용자 단말로부터 수신한 음성에 상응하도록 음성 데이터로 변환하는 단계는,
상기 음성 또는 영상에 포함된 음성 데이터로부터 발화자의 음성 특징 정보를 추출하는 단계; 및
상기 발화자의 음성 특징 정보를 기반으로 상기 텍스트 정련 결과를 음성 데이터로 변환하는 단계를 포함하는 다자간 화상 통신 방법.
제6항에 있어서,
상기 복수의 사용자 단말 중 제1 사용자 단말로부터 텍스트를 수신하는 단계; 및
상기 수신한 텍스트를 대상으로 미리 설정된 텍스트 정련 정도에 기초하여 상기 텍스트 정련 결과로 생성하는 단계를 더 포함하고,
상기 텍스트 정련 결과를 상기 제1 사용자 단말로부터 수신한 음성에 상응하도록 음성 데이터로 변환하는 단계는,
상기 제1 사용자 단말로부터 수신한 텍스트를 그대로 음성 데이터로 변환하거나, 상기 수신한 텍스트를 대상으로 생성된 텍스트 정련 결과를 음성 데이터로 변환하는 다자간 화상 통신 방법.
제7항에 있어서,
상기 텍스트 정련 결과를 상기 제1 사용자 단말로부터 수신한 음성에 상응하도록 음성 데이터로 변환하는 단계는,
상기 음성 또는 영상에 포함된 음성 데이터나 제1 사용자 단말로부터 입력된 텍스트, 이모티콘 중 적어도 하나에 기초한 감정 정보를 추출하는 단계를 더 포함하고,
상기 발화자의 음성 특징 정보를 기반으로 상기 텍스트 정련 결과를 음성 데이터로 변환하는 단계는,
상기 발화자의 음성 특징 정보 및 감정 정보를 기반으로 상기 텍스트 정련 결과를 음성 데이터로 변환하는 것인 다자간 화상 통신 방법.
제5항에 있어서,
상기 복수의 단말 중 적어도 하나의 제2 사용자 단말로 상기 텍스트 정련 결과를 제공하는 단계는,
상기 텍스트 정련 결과를 상기 영상에 텍스트 형태로 결합하여 제공하거나, 상기 합성된 음성 데이터를 음성으로 제공하거나, 영상에 부가하여 제공하는 것인 다자간 화상 통신 방법.
음성, 영상 및 텍스트 중 적어도 하나를 기반으로 하는 다자간 화상 통신 서버에 있어서,
복수의 사용자 단말과 데이터를 송수신하는 통신모듈,
제1 사용자 단말로부터의 음성 데이터를 텍스트 정련 과정에 기초하여 적어도 하나의 제2 사용자 단말로 제공하기 위한 프로그램이 저장된 메모리 및
상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함하되,
상기 프로세서는 상기 프로그램을 실행시킴에 따라, 상기 통신모듈을 통해 복수의 사용자 단말 중 제1 사용자 단말로부터 음성 및 영상 중 적어도 하나를 수신하면, 상기 음성 또는 영상에 포함된 음성 데이터를 텍스트로 전사하고, 전사된 텍스트를 대상으로 미리 설정된 텍스트 정련 정도에 기초하여 텍스트 정련 결과를 생성한 후, 상기 복수의 단말 중 상기 제1 사용자 단말과 다자간 화상 통신 중인 적어도 하나의 제2 사용자 단말로 상기 텍스트 정련 결과를 제공하는 것인 다자간 화상 통신 서버.
음성, 영상 및 텍스트 중 적어도 하나를 기반으로 적어도 하나의 타 사용자 단말과의 다자간 화상 통신을 수행하는 사용자 단말에 있어서,
텍스트를 입력하기 위한 키보드와, 음성을 입력하기 위한 마이크 및 영상을 입력하기 위한 카메라를 포함하는 입력부,
상기 음성 또는 영상에 포함된 음성 데이터를 텍스트로 전사하고, 전사된 텍스트를 대상으로 미리 설정된 텍스트 정련 정도에 기초한 텍스트 정련 결과를 생성하는 텍스트 정련 결과 생성부,
상기 다자간 화상 통신 중인 적어도 하나의 타 사용자 단말로 상기 텍스트 정련 결과를 제공하는 통신부 및
영상을 출력하는 스크린과, 음성을 출력하는 스피커를 포함하며, 상기 타 사용자 단말로부터 수신되는 텍스트 정련 결과를 상기 영상에 텍스트 형태로 결합하여 제공하거나, 상기 음성의 형태로 제공하거나, 상기 영상에 부가하여 제공하는 출력부를 포함하는 사용자 단말.