KR101981091B1

KR101981091B1 - 감정시각화자막 생성장치

Info

Publication number: KR101981091B1
Application number: KR1020170175772A
Authority: KR
Inventors: 장경선; 김성엽; 신준한; 정종훈; 구예진; 김선영
Original assignee: 충남대학교산학협력단
Priority date: 2017-12-20
Filing date: 2017-12-20
Publication date: 2019-05-22

Abstract

본 발명에 의한 감정시각화자막 생성장치는, 음성신호로부터 음성을 분석하는 음성 인식부; 음성신호로부터 감정을 분석하는 감정 인식부; 음성 인식부의 분석 결과를 바탕으로 음성을 문자로 변환한 자막을 생성할 때, 감정 인식부의 분석결과를 이용하여 감정시각화자막을 생성하는 자막 생성부; 상기 감정시각화자막을 표시할 수 있는 디스플레이부;를 포함하고, 상기 감정시각화자막은 음성의 감정에 따라 자막의 색이 달라지는 것을 특징으로 한다.

Description

감정시각화자막 생성장치{DEVICE FOR CREATING SUBTITLES THAT VISUALIZES EMOTION}

본 발명은 감정시각화자막 생성장치에 관한 것으로, 보다 상세하게는 음성의 감정에 따라 색이 다른 자막을 생성하는 감정시각화자막 생성장치에 관한 것이다.

현재 음성 인식을 통하여 사람의 목소리를 자동적으로 문자로 변환하는 기술 및 말하는 사람의 감정을 인식하는 기술 등이 되어 있다.

특허문헌 1 내지 4는 그러한 기술의 예이다.

특허문헌 1은, 청각장애우를 위한 통화 음성 문자 변환장치에 관한 것이다. 이 변환장치(핸드폰 통화 음성을 문자로 변환하여 디스플레이 기켜주는 장치)는 통상적으로 음성인식 칩과 음성 인터넷 브라우저를 핸드폰에 내장하는 방식이 아닌 핸드폰의 USB 케이블을 토하여 외부에 장착하는 제품이다. 이 제품은 소리를 문자화 하는 음성인식 칩과 음성 인터넷 브라우저를 탑재하여 본 발명의 기기를 통하여 통화 내용을 텍스트로 시각화 해 LCD창을 통해 디스플레이되 수 있도록 고안한 제품이다. 이를 이용한다면 음성통화가 불가능한 공간(예 : 공공장소 및 공공 미팅)에서의 사용이 용이하며, 특히 청각 장애우의 경우 통화 내용을 듣지는 못하지만 시각적으로 볼 수 있기 때문에 본 기기를 핸드폰에 연결하여 편리하게 커뮤니케이션할 수 있을 것이다.

특허문헌 2는, 문장으로부터의 감정 인식 및 표시 방법과 시스템에 관한 것이다. 이 발명에서는 메신저나 채팅에서 전달되는 텍스트를 분석하여 텍스트 내에 포함된 감정을 인식하고 이를 캐릭터의 표정이나 동작 등을 이용하여 시각적으로 표시할 수 있는 방법을 제공한다. 먼저 샘플 문장들을 분석하여 각 문장에 그 문장이 나타내는 감정 상태를 코드로 부여하고, 해당 감정 상태를 나타내는 문장이 나타날 선험적 확률을 계산한다. 다음, 문장 내에 포함된 어절(띄어쓰기를 단위로 구분됨)에 대해 그 어절이 나타내는 감정 상태를 코드로 부여하고, 해당 감정 상태의 문장 내에서 해당 어절이 나타날 가능성을 계산한다. 이와 같이 두 값이 계산되면, 분석 대상의 문장의 어절을 분석하여 각 상태별로 상태 i의 선험적 확률과 해당 문장 내의 단어들이 상태 i에서 나타날 확률을 모두 곱하여 해당 문장의 각 상태별 확률을 계산하고, 이 중 가장 높은 확률을 갖는 감정 상태를 그 문장의 감정 상태로 결정한다. 한편, 그 자체로 텍스트의 감정을 표시할 수 있는 그림문자(이모티콘), 의성어/의태어, 감정을 나타내는 기호(!, ?) 등은 별도로 처리하여 처리의 효율을 높인다.

특허문헌 3은, 사용자 감정 인식 방법 및 장치에 관한 것으로, 감정 음성 DB에서 음성 특징 벡터를 추출하여 상기 음성 특징 벡터에 대응하는 감정 정보를 이용해 일반 감정 인식 모델을 생성하는 단계, 상기 감정 음성 DB에서 추출한 상기 음성 특징 벡터에 대하여 사용자 평가를 통해 개인 감정 인식 모델을 생성하는 단계, 사용자의 음성을 입력 받아 입력 받은 상기 사용자 음성의 음성 특징 벡터를 추출하는 단계, 상기 추출한 사용자 음성의 음성 특징 벡터를 상기 일반 감정 인식 모델 및 상기 개인 감정 인식 모델을 이용하여 음성을 분석하는 단계 및 상기 분석한 음성을 바탕으로 상기 사용자 음성에 포함된 감정을 인식하는 단계를 포함하는 것을 특징으로 한다.

특허문헌 4는 실시간 통역 자막 제공 시스템 및 방법에 관한 것이다. 이 발명에서는, 통역자의 통역 음성을 입력받아 음성 인식하고 인식된 음성을 해당 통역 언어의 자막으로 실시간 자동 변환하여 송신하는 자막 생성 단말; 수화자의 모국어 자막을 요청하고, 요청에 상응하는 자막을 수신하여 디스플레이에 실시간 표시하는 자막 표시 단말; 상기 자막 생성 단말로부터 상기 변환된 자막을 수신하고, 상기 자막 표시 단말로부터 상기 수화자의 모국어 자막을 요청받으면, 상기 수신된 자막 중에서 상기 요청받은 모국어 자막에 상응하는 자막을 선택하여 상기 자막 표시 단말로 실시간 중계하는 실시간 자막 중계 서버를 구성한다. 상기와 같은 실시간 통역 자막 제공 시스템 및 방법에 의하면, 발화자의 음성에 대한 실시간 통역 자막을 자동으로 제공하고 통역자가 실시간으로 세세하게 수정하여 자막 표시 단말에 제공함으로써, 수화자는 회의/세미나에 대한 이해도와 집중도가 높아지는 효과가 있다. 또한, 자막 표시 단말에 발화자의 실시간 영상을 동기화하여 표시함으로써, 수화자는 자막 표시 단말만을 통해 통역 자막과 발화자의 제스쳐, 감정 등을 쉽게 파악할 수 있는 효과가 있다.

그러나 특허문헌 1 내지 4의 장치에서는, 말하는 사람의 음성을 자동적으로 문자로 변환하고 말하는 사람의 감정을 인지할 수는 있지만, 그 감정을 효과적으로 문자로 표현할 수는 없다.

따라서 청각 장애인이 음성을 자막으로 볼 때, 그 감정을 효과적으로 느낄 수 없다.

한국 공개특허공보 10-2007-0122329 A (공개일: 2007.12.31.) 한국 공개특허공보 10-2002-0042248 A (공개일: 2002.06.05.) 한국 공개특허공보 10-2006-0116586 A (공개일: 2016.10.10.) 한국 공개특허공보 10-2014-0121516 A (공개일: 2014.10.16.)

본 발명이 해결하고자는 하는 과제는, 말하는 사람의 음성을 자동적으로 문자로 변환하여 표시할 때, 말하는 사람의 감정을 인식한 후 효과적으로 문자로 표현하는 것이다.

상기 자막 생성부는, 말하는 사람의 목소리의 크기에 따라 문자의 크기를 다르게 표시된 감정시각화자막을 생성하도록 할 수 있다.

상기 자막 생성부는, 말하는 사람의 감정에 따라 자막의 문자의 폰트가 다르게 표시된 감정시각화자막을 생성하도록 할 수 있다.

본 발명의 다른 실시예에 의한 감정시각화자막 생성장치는, 화면표시장치; 상기 화면표시장치의 일부에 형성된 스마트폰 거치대; 상기 스마트폰 거치대에 거치될 수 있는 스마트폰;을 포함하고, 상기 스마트폰에 설치된 애플리케이션 프로그램은, 음성 인식부, 감정 인식부, 자막 인식부를 포함하고, 상기 스마트폰에 상기 애플리케이션 프로그램이 설치되면, 상기 스마트폰은 감정시각화자막을 스마트폰의 디스플레이부에 표시할 수 있고, 상기 음성 분석부는 음성신호로부터 음성을 분석할 수 있고, 상기 감정 인식부는 음성신호로부터 감정을 분석할 수 있고, 상기 자막 생성부는, 음성 인식부의 분석 결과를 바탕으로 음성을 문자로 변환한 자막을 생성할 때, 감정 인식부의 분석결과를 이용하여 감정시각화자막을 생성할 수 있고, 상기 감정시각화자막은 음성의 감정에 따라 자막의 색이 달라지는 것을 특징으로 한다.

본 발명에 의한 감정시각화자막 생성장치는, 말하는 사람의 음성을 자동적으로 문자로 변환하여 표시할 때 말하는 사람의 감정을 인식한 후 효과적으로 문자로 표현할 수 있도록 하므로, 청각 장애인이 음성을 자막으로 볼 때 그 감정을 효과적으로 느낄 수 있다.

도 1은 본 발명에 의한 감정시각화자막 생성장치의 구성도의 예
도 2는 스마트폰 거치대가 형성된 화면표시장치의 예
도 3은 도 2의 스마트폰 거치대에 스마트폰이 거치된 모습

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

도 1은 본 발명에 의한 감정시각화자막 생성장치의 구성도의 예이다.

도 1의 감정시각화자막 생성장치(100)는 디스플레이부(110), 음성 인식부(120), 감정 인식부(130), 자막 생성부(140)을 포함한다.

상기 디스플레이부(110)는 자막이 포함된 영상을 표시할 수 있는 장치이다.

음성 인식부(120)는 음성 신호로부터 언어적 의미를 식별하고 문자로 변화하는 부분이다. 음성 인식은 음성 파형을 입력하여 단어나 단어열을 식별하고 의미를 추출하는 처리 과정이며, 크게 음성 분석, 음소 인식, 단어 인식, 문장 해석, 의미 추출의 5가지로 분류된다. 좁은 의미로는 음성 분석에서 단어 인식까지를 말하는 경우가 많다. 인간-기계 인터페이스 개선의 하나로 음성으로 정보를 입력하는 음성 인식과 음성으로 정보를 출력하는 음성 합성 기술의 연구 개발이 오랫동안 진행되어 왔다. 대형 장치를 필요로 하였던 음성 인식 장치와 음성 합성 장치를 대규모 집적 회로(LSI)의 발달에 따라 가로세로 수 mm 크기 집적 회로 위에 실현할 수 있게 됨으로써 음성 입출력 장치가 실용화되었다. 현재 전화에 의한 은행 잔고 조회, 증권 시세 조회, 통신 판매의 신청, 신용 카드 조회, 호텔이나 항공기 좌석 예약 등에 사용된다. 그러나 이들 서비스는 제한된 수의 단어를 하나하나 떼어서 발음하는 음성을 인식하는 단어 음성 인식 장치를 사용한다. 본 발명에서의 음성 인식은 자연스러운 발성에 의한 음성을 인식하여 자료로서 문서에 입력하는 완전한 음성/텍스트 변환(full speech-to-text conversion)의 실현이다. 이때 단어를 인식할 뿐 아니라 구문 정보(문법), 의미 정보, 작업에 관련된 정보와 지식 등을 이용하여 연속 음성 또는 문장의 의미 내용을 정확하게 추출한다. 이러한 음성 인식 기술은 딥러닝을 포함한 다양한 기술이 공지되어 있으므로 자세한 설명은 생략한다.

상기 감정 인식부(130)는 음성으로부터 말하는 사람의 감정을 추정해낸다.

감정을 추정해내는 방법의 예로는, 각 감정에 따른 음성을 데이터 베이스화하고 사용자의 음성이 어느 감정의 음성과 유사한지를 비교해서 판단하는 것이다.

이 방법에서는, 감정 음성 DB에서 음성 특징 벡터를 추출하여 상기 음성 특징 벡터에 대응하는 감정 정보를 이용해 일반 감정인식 모델을 생성하는 단계; 상기 감정 음성 DB에서 추출한 상기 음성 특징 벡터에 대하여 사용자 평가를 통해 개인 감정 인식 모델을 생성하는 단계; 사용자의 음성을 입력 받아 입력 받은 상기 사용자 음성의 음성 특징 벡터를 추출하는 단계; 상기 추출한 사용자 음성의 음성 특징 벡터를 상기 일반 감정 인식 모델 및 상기 개인 감정 인식 모델을 이용하여 음성을 분석하는 단계; 및 상기 분석한 음성을 바탕으로 상기 사용자 음성에 포함된 감정을 인식하는 단계를 포함할 수 있다.

이러한 방법으로, 경계, 분노, 좌절, 비참함, 지루함, 피곤함, 침착, 만족, 기쁨, 행복, 즐거움, 놀람 등의 감정을 추정할 수 있다.

말하는 사람의 음성으로부터 감정을 추정하는 딥러닝을 포함한 다양한 기술이 공지되어 있으므로, 이에 대한 자세한 설명은 생략한다.

자막 생성부(140)는 음성 인식부(120)로부터 수신한 문자열과 감정 인식부(130)로부터 수신한 감정을 이용하여 감정이 표시된 자막을 생성한다. 여기서 자막이란 디스플레이부에 표시되는 문자열을 의미한다.

예를 들어, 분노의 감정은 빨간색 계열의 색을 사용하여 표시하고, 혐오의 감정은 보라색 계열의 색을 사용하여 표시하고, 슬픔의 감정은 짙은 파란색 계열의 색을 사용하여 표시하고, 놀람의 감정은 옅은 파란색 계열의 색을 사용하여 표시하고, 공포의 감정은 짙은 초록색의 계열의 색을 사용항 표시하고, 믿음의 감정은 옅은 초록색의 계열의 색을 사용하여 표시하고, 즐거움의 감정은 노란색 계열의 색을 사용하여 표시하고, 기대감은 주황색 계열의 색을 사용하여 표시할 수 있다. 즉 말하는 사람의 감정을 색으로 표시할 수 있다.

또한 말하는 사람의 감정을 자막 문자의 폰트로 표시할 수도 있다. 예를 들어, 보통의 어조이면 명조체, 단호한 감정의 어조이면 고딕체로 표시할 수 있다.

또한 말하는 사람의 감정을 자막 문자의 굵기로 표시할 수도 있다. 예를 들어 단호한 감정의 어조이면 문자의 굵은 문자로 표시할 수도 있다.

또한 말하는 사람의 목소리의 크기에 따라 자막의 크기를 다르게 할 수 있다. 예를 들어 보통 크기의 목소리이면 보통 크기의 자막(문자열)로 표시하고, 평균보다 큰 목소리이면 보통 크기보다 큰 자막(문자열)로 표시할 수 있다.

만일 자막 생성부(140)에서 목소리 크기에 따라 다른 크기의 자막을 생성할 수 있으려면, 자막 생성부(140)에 목소리 크기에 대한 정보를 얻을 수 있어야 한다. 목소리의 크기에 대한 정보를 얻는 것은 통상의 지식을 가진 자가 용이하게 할 수 있으므로 자세한 설명은 생략한다.

또한 문자열의 움직임으로 감정을 표시할 수도 있다. 즉 말하는 사람의 감정이 무척 즐거울 때, 문자열이 춤을 추듯이 움직이는 문자열로 표시할 수도 있다.

현재 문자열을 움직이게 구현하는 기술은 인터넷이나 스마트폰에서 많이 이용되고 있는 기술이므로, 자세한 설명은 생략한다.

자막 생성부(140)에서 생성된 자막은 디스플레이부(110)로 전송되어 디스플레이부(110)에 표시된다. 이때 자막만 표시될 수도 있고, 다른 영상과 함께 표시될 수도 있다.

상기 자막 생성부(140)에서 생성된 자막은 말하는 사람의 감정이 시각적으로 표시되어 있으므로 감정시각화자막이라 부를 수 있다.

자막 생성부(140)에서 감정이 포함된 자막(감정시각화자막)을 생성할 때, 감정을 표시하는 구체적인 방법(예를 들면, 화가 난 목소리는 빨간색으로 표시)는 사용자의 선택에 따라 변경할 수 있도록 할 수도 있다. 예를 들어 사용자의 선택에 따라 화난 목소리를 빨간색으로 표시하도록 할 수도 있고 까만색으로 표시하도록 할 수도 있다.

본 발명의 감정시각화자막 생성장치는 음성 인식부, 감정 인식부, 자막 생성부를 포함해야 하므로 장치의 가격이 고가가 될 수도 있다. 만일 스마트폰을 이용하여 이러한 기능을 구현한다면 비용을 절감할 수 있다.

다음은 그러한 예이다.

도 2는 스마트폰 거치대가 형성된 화면표시장치의 예이고, 도 3은 도 2의 스마트폰 거치대에 스마트폰이 거치된 모습이다.

즉 화면표시장치(200)(예를 들면, 컴퓨터 모니터 등)의 일부(예를 들면 측면)에 스마트폰 거치대(210)를 형성하고, 스마트폰 거치대(210)에 스마트폰(220)을 거치할 수 있도록 할 수 있다. 도 3과 같이 스마트폰을 거치하면, 사용자가 화면표시장치(200)의 화면을 보면서 스마트폰의 화면을 볼 수 있다.

만일 화면표시장치(200)로 영화를 보는 경우, 그 영화의 자막이 스마트폰(220)의 디스플레이부에 표시되고, 그 영화 자막이 말하는 사람의 감정에 따라 달라지도록 설정되어 있다면, 사용자(청각장애인)은 그 영화자막 만으로 말하는 사람의 감정을 느낄 수 있다.

이때 스마트폰은 화면표시장치(200)에 영상을 제공하는 장치와 유선 또는 무선으로 연결되어 그 장치로부터 음성 신호를 수신할 수 있어야 한다.

스마트폰은 그 수신된 음성신호로부터 음성과 감성을 추출해 낸 후 감정시각화자막(감정에 따라 다르게 표시된 자막)을 생성하여 스마트폰의 디스플레이부에 표시한다.

스마트폰이 이와 같이 동작하기 위해서는, 스마트폰이 이와 같이 동작하도록 하는 앱(애플리케이션 프로그램)이 스마트폰에 설치되어 있어야 한다.

상기 애플리케이션 프로그램은 음성 인식부, 감정 인식부, 자막 인식부로 명명된 소프트웨어 모듈을 포함하는 애플래케이션 프로그램이어야 한다.

즉, 상기 스마트폰에 상기 애플리케이션이 설치되면, 수신된 음성신호로부터 음성과 감정을 추출하여 감정시각화자막으로 변환한 후 스마트폰의 디스플레이부에 표시한다.

본 발명은 음성 인식과 감정 분석을 이용하여 청각장애인이 단순 음성 정보가 아닌 감성 정보를 포함한 정보를 얻는 효과를 지닌다. 청각장애인은 해당 기기를 이용하여 사용 목적에 맞는 서비스를 선택하여 제공받을 수 있으며 학습시 단순 음성 정보가 아닌 감성 정보를 포함한 정보를 얻음으로써 학습 효율이 향상될 수 있고, TV나 영화 라디오 등을 이용 시 감성 정보를 포함한 정보를 얻음으로써 비장애인이 느끼는 감정에 대해 같이 공감할 수 있도록 하는 효과를 가진다. 또한, 시각 장애인 뿐 아니라, 잡음이나 소음이 심한 환경 등에서 내용을 제대로 청취하기 어려운 환경에서, 자막의 시각화 뿐 아니라, 감성 정보도 시각화로 표현해줌으로써, 일반인들의 컨텐츠 감상에도 도움을 줄 수 있는 효과를 가진다.

본 발명에, 카메라와 같은 영상 입력 장치를 추가함으로써, 시청자의 표정으로부터 감정 상태를 인식하여, 표출된 감성 상태와 시청자의 감성 상태가 일치하는 경우에는, 해당 컨텐츠에 대한 피드백을 컨텐츠 제공자에게 제공할 수 있는 기능도 가능하다. 이런 기능은 컨텐츠의 선호도를 제공자에게 제공함으로써 컨텐츠의 개선 뿐 아니라, 컨텐츠에 대한 자동적인 추천 등도 가능하게 한다.

100: 감정시각화 자막생성장치
110: 디스플레이부
120: 음성 인식부
130: 감정 인식부
140: 자막생성부
200: 화면표시장치
210: 스마트폰 거치대
220: 스마트폰

Claims

삭제
삭제
삭제
화면표시장치;
상기 화면표시장치의 일부에 형성된 스마트폰 거치대;
상기 스마트폰 거치대에 거치될 수 있는 스마트폰;
을 포함하고,
상기 스마트폰에 설치된 애플리케이션 프로그램은, 음성 인식부, 감정 인식부, 자막 생성부를 포함하고,
상기 스마트폰에 상기 애플리케이션 프로그램이 설치되면, 상기 스마트폰은 감정시각화자막을 스마트폰의 디스플레이부에 표시할 수 있고,
상기 음성 인식부는 음성신호로부터 음성을 분석할 수 있고,
상기 감정 인식부는 음성신호로부터 감정을 분석할 수 있고,
상기 자막 생성부는, 음성 인식부의 분석 결과를 바탕으로 음성을 문자로 변환한 자막을 생성할 때, 감정 인식부의 분석결과를 이용하여 감정시각화자막을 생성할 수 있고,
상기 감정시각화자막은 음성의 감정에 따라 자막의 색이 달라지고,
상기 감정 인식부에서 감정을 인식할 때, 감정 음성 DB에서 음성 특징 벡터를 추출하여 상기 음성 특징 벡터에 대응하는 감정 정보를 이용해 일반 감정인식 모델을 생성하고, 상기 감정 음성 DB에서 추출한 상기 음성 특징 벡터에 대하여 사용자 평가를 통해 개인 감정 인식 모델을 생성하고, 사용자의 음성을 입력 받아 입력 받은 상기 사용자 음성의 음성 특징 벡터를 추출하고, 상기 추출한 사용자 음성의 음성 특징 벡터를 상기 일반 감정 인식 모델 및 상기 개인 감정 인식 모델을 이용하여 음성을 분석하고, 상기 분석한 음성을 바탕으로 상기 사용자 음성에 포함된 감정을 인식하여, 경계, 분노, 좌절, 비참함, 지루함, 피곤함, 침착, 만족, 기쁨, 행복, 즐거움, 놀람의 감정을 추정하고,
말하는 사람의 어조가 보통의 어조이면 명조체로 표시하고, 말하는 사람의 어조가 단호한 감정의 어조이면 고딕체로 표시하고,
말하는 사람의 목소리의 크기에 따라 자막의 크기를 다르게 표시하고,
말하는 사람이 즐거운 것으로 추정될 때, 문자열이 움직이는 문자열로 표시되는 것을 특징으로 하는 감정시각화자막 생성장치.