KR102657353B1

KR102657353B1 - 음성 인터페이스 stt 기반 자막 생성 장치, 및 음성 인터페이스 stt 기반 자막 생성 방법

Info

Publication number: KR102657353B1
Application number: KR1020220000150A
Authority: KR
Inventors: 이강찬; 조대수
Original assignee: 동서대학교 산학협력단
Priority date: 2022-01-03
Filing date: 2022-01-03
Publication date: 2024-04-16
Also published as: KR20230105046A

Abstract

음성 인터페이스 STT 기반 자막 생성 장치는 스트리밍 영상을 표시하는 표시부, 상기 스트리밍 영상에서 음성을 추출하고, 상기 음성을 문자로 변환하여 텍스트 데이터를 생성하는 음성 문자 변환부, 상기 스트리밍 영상의 상기 음성의 크기를 측정하여 음성 데이터를 생성하는 음성 크기 분석부, 상기 스트리밍 영상에서 표현되는 감정을 측정하여 감정 데이터를 생성하는 영상 감정 분석부, 및 상기 텍스트 데이터, 상기 음성 데이터, 및 상기 감정 데이터를 기초로 상기 스트리밍 영상의 상기 음성의 크기 및 상기 영상의 감정을 반영한 자막 데이터를 생성하는 자막 생성부를 포함한다.

Description

음성 인터페이스 STT 기반 자막 생성 장치, 및 음성 인터페이스 STT 기반 자막 생성 방법{DEVICE OF GENERATING SUBTITLE BASED ON VOICE INTERFACE STT, AND METHOD OF GENERATING SUBTITLE BASED ON VOICE INTERFACE STT}

본 발명은 자막 생성 장치 및 자막 생성 방법에 관한 것으로, 보다 상세하게는, 음성 인터페이스 STT에 기반하여 소리 크기 및 영상의 감정 등을 자막으로 표현하는 자막 생성 장치, 및 음성 인터페이스 STT에 기반하여 소리 크기 및 영상의 감정 등을 자막으로 표현하는 자막 생성 방법에 관한 것이다.

현재 음성 인식을 통하여 사람의 목소리를 자동적으로 문자로 변환하는 음성 인터페이스 STT 기술이 개발되어 상용화되고 있다. 대표적으로 음성 인터페이스 STT 기술은 스트리밍 자막 서비스에 적용되어, 동영상에서 출력되는 음성을 실시간으로 문자로 변환하고 영상 하단 또는 상단에 자막으로 출력한다.

한편, 자막은 음성을 직접 들을 수 없는 청각 장애인이 영상의 정보를 전달받고, 내용을 이해할 수 있는 유용한 도구로 사용되고 있지만, 자막은 음성을 텍스트로 전달할 뿐, 영상이 담고 있는 음성의 강조된 부분, 음성의 크기, 감정 등을 전달할 수 없다는 단점을 가지고 있다.

따라서, 청각 장애인들은 해당 영상 컨텐츠가 담고 있는 음성의 강조 부분, 소리의 크기, 및 감정 등을 알기 어려워, 영상 속 대화의 숨은 의미를 파악하지 못하거나 다른 방향으로 잘못 이해 수 있다는 문제점이 있다.

본 발명의 일 목적은 영상이 담고 있는 음성의 강조된 부분, 음성의 크기, 감정 등을 수집하고, 이를 실시간으로 반영한 자막을 출력하는 음성 인터페이스 STT 기반 자막 생성 장치를 제공하는 것이다.

본 발명의 다른 목적은 영상이 담고 있는 음성의 강조된 부분, 음성의 크기, 감정 등을 수집하고, 이를 실시간으로 반영한 자막을 출력하는 음성 인터페이스 STT 기반 자막 생성 방법을 제공하는 것이다.

다만, 본 발명이 해결하고자 하는 과제는 상기 언급된 과제에 한정되는 것이 아니며, 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위에서 다양하게 확장될 수 있을 것이다.

본 발명의 일 목적을 달성하기 위하여, 본 발명의 실시예들에 따른 음성 인터페이스 STT 기반 자막 생성 장치는 스트리밍 영상을 표시하는 표시부, 상기 스트리밍 영상에서 음성을 추출하고, 상기 음성을 문자로 변환하여 텍스트 데이터를 생성하는 음성 문자 변환부, 상기 스트리밍 영상의 상기 음성의 크기를 측정하여 음성 데이터를 생성하는 음성 크기 분석부, 상기 스트리밍 영상에서 표현되는 감정을 측정하여 감정 데이터를 생성하는 영상 감정 분석부, 및 상기 텍스트 데이터, 상기 음성 데이터, 및 상기 감정 데이터를 기초로 상기 스트리밍 영상의 상기 음성의 크기 및 상기 영상의 감정을 반영한 자막 데이터를 생성하는 자막 생성부를 포함할 수 있다.

일 실시예에서, 상기 자막 생성부는 상기 자막 데이터를 상기 표시부에 출력할 수 있다. 상기 표시부는 상기 자막 데이터를 입력받고, 상기 자막 데이터에 기초하여 상기 스트리밍 영상의 상기 음성의 크기 및 상기 영상의 감정을 반영한 자막을 실시간으로 출력할 수 있다.

일 실시예에서, 상기 음성 문자 변환부는 상기 스트리밍 영상의 상기 음성에서 대화음 및 배경음을 분류하고, 상기 음성 중 상기 대화음은 가공되지 않은 정자체의 문자로 변환하고, 상기 음성 중 상기 배경음은 괄호 기호 안에 기울어진 글자체의 문자로 변환할 수 있다.

일 실시예에서, 상기 자막 생성부는 상기 음성 데이터를 입력받고, 상기 스트리밍 영상의 상기 음성의 크기에 비례하여 자막의 크기를 조절할 수 있다.

일 실시예에서, 상기 자막 생성부는 상기 감정 데이터를 입력받고, 상기 스트리밍 영상에서 표현되는 감정에 따라 자막의 색상을 조절할 수 있다.

본 발명의 음성 인터페이스 STT 기반 자막 생성 장치 및 음성 인터페이스 STT 기반 자막 생성 방법은 영상이 담고 있는 음성의 강조된 부분, 음성의 크기, 감정 등을 수집하고, 이를 실시간으로 반영한 자막을 출력함으로써, 청각 장애인이 스트리밍 영상 시청 시 영상의 정보 및 의미를 더 효과적으로 인식할 수 있도록 도울 수 있다.

다만, 본 발명의 효과는 상술한 효과에 한정되는 것이 아니며, 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위에서 다양하게 확장될 수 있을 것이다.

도 1은 본 발명의 실시예들에 따른 음성 인터페이스 STT 기반 자막 장치의 개념도이다.
도 2는 도 1의 음성 인터페이스 STT 기반 자막 생성 장치의 구성을 나타내는 블록도이다.
도 3은 도 1의 음성 인터페이스 STT 기반 자막 생성 장치의 동작을 나타내는 순서도이다.

이하, 본 문서의 다양한 실시예들이 첨부된 도면을 참조하여 기재된다.

실시예 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다.

하기에서 다양한 실시예들을 설명에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.

그리고 후술되는 용어들은 다양한 실시예들에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다.

본 문서에서, "A 또는 B" 또는 "A 및/또는 B 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다.

"제1," "제2," "첫째," 또는 "둘째," 등의 표현들은 해당 구성요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.

어떤(예: 제1) 구성요소가 다른(예: 제2) 구성요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다.

본 명세서에서, "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, 하드웨어적 또는 소프트웨어적으로 "~에 적합한," "~하는 능력을 가지는," "~하도록 변경된," "~하도록 만들어진," "~를 할 수 있는," 또는 "~하도록 설계된"과 상호 호환적으로(interchangeably) 사용될 수 있다.

어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다.

예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(예: CPU 또는 application processor)를 의미할 수 있다.

또한, '또는' 이라는 용어는 배타적 논리합 'exclusive or' 이기보다는 포함적인 논리합 'inclusive or' 를 의미한다.

즉, 달리 언급되지 않는 한 또는 문맥으로부터 명확하지 않는 한, 'x가 a 또는 b를 이용한다' 라는 표현은 포함적인 자연 순열들(natural inclusive permutations) 중 어느 하나를 의미한다.

상술한 구체적인 실시예들에서, 발명에 포함되는 구성 요소는 제시된 구체적인 실시예에 따라 단수 또는 복수로 표현되었다.

그러나, 단수 또는 복수의 표현은 설명의 편의를 위해 제시한 상황에 적합하게 선택된 것으로서, 상술한 실시예들이 단수 또는 복수의 구성 요소에 제한되는 것은 아니며, 복수로 표현된 구성 요소라 하더라도 단수로 구성되거나, 단수로 표현된 구성 요소라 하더라도 복수로 구성될 수 있다.

한편, 발명의 설명에서는 구체적인 실시예에 관해 설명하였으나, 다양한 실시예들이 내포하는 기술적 사상의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다.

그러므로 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며 후술하는 청구범위뿐만 아니라 이 청구범위와 균등한 것들에 의해 정해져야 한다.

도 1은 본 발명의 실시예들에 따른 음성 인터페이스 STT 기반 자막 장치의 개념도이다.

도 1을 참조하면, 본 발명의 음성 인터페이스 STT 기반 자막 장치는 스트리밍 영상으로부터 자막을 생성하여 상기 스트리밍 영상의 하단에 자막을 출력할 수 있다.

자막은 음성을 직접 들을 수 없는 청각 장애인이 영상의 정보를 전달받고, 내용을 이해할 수 있는 유용한 도구로 사용되고 있지만, 기존의 자막은 음성을 텍스트로 전달할 뿐, 영상이 담고 있는 음성의 강조된 부분, 음성의 크기, 감정 등을 전달할 수 없다는 한계가 있었다.

본 발명의 음성 인터페이스 STT 기반 자막 장치는 영상이 담고 있는 음성의 강조된 부분, 음성의 크기, 감정 등을 수집하고, 상기 스트리밍 영상의 상기 음성의 크기 및 상기 영상의 감정을 반영한 자막을 제공할 수 있다.

본 발명의 음성 인터페이스 STT 기반 자막 장치에 의하면, 해당 영상 컨텐츠가 담고 있는 음성의 강조 부분, 소리의 크기, 및 감정 등을 알 수 있으므로, 청각 장애인 등 사용자는 영상 속 대화의 숨은 의미를 파악하고, 영상에 대한 깊은 이해가 가능할 수 있다.

도 2는 도 1의 음성 인터페이스 STT 기반 자막 생성 장치의 구성을 나타내는 블록도이고, 도 3은 도 1의 음성 인터페이스 STT 기반 자막 생성 장치의 동작을 나타내는 순서도이다.

도 2 및 3을 참조하면, 음성 인터페이스 STT 기반 자막 생성 장치는 표시부(100), 음성 문자 변환부(200), 음성 크기 분석부(300), 영상 감정 분석부(400), 및 자막 생성부(500)를 포함할 수 있다.

표시부(100)는 스트리밍 영상을 표시할 수 있다. 예를 들어, 표시부(100)는 드라마, 영화, 다큐, 만화, 동영상 강의, 화상회의 등 다양한 스트리밍 영상을 표시(S100)할 수 있다.

음성 문자 변환부(200)는 상기 스트리밍 영상에서 음성을 추출할 수 있다. 음성 문자 변환부(200) 상기 음성을 문자로 변환하여 텍스트 데이터를 생성(S200)할 수 있다.

음성 문자 변환부(200)는 음성 신호로부터 언어적 의미를 식별하고, 이를 문자로 변경할 수 있다. 음성 문자 변환은 음성 파형을 입력하여 단어나 단어열을 식별하고 의미를 추출하는 처리 과정이며, 크게 음성 분석, 음소 인식, 단어 인식, 문장 해석, 의미 추출의 5가지로 분류될 수 있다.

예를 들어, 음성 문자 변환부(200)는 인간-기계 인터페이스 개선의 하나로 음성으로 정보를 입력하는 음성 인식과 음성으로 정보를 출력하는 음성 합성 기술을 이용하여 음성 문자 변환을 수행할 수 있다.

음성 문자 변환부(200)는 음성 인식은 자연스러운 발성에 의한 음성을 인식하여 자료로서 문서에 입력하는 완전한 음성/텍스트 변환(full speech-to-text conversion)을 통해 음성에 포함된 단어를 인식할 뿐 아니라, 구문 정보(문법), 의미 정보, 작업에 관련된 정보와 지식 등을 이용하여 연속 음성 또는 문장의 의미 내용을 정확하게 추출할 수 있다.

일 실시예에서, 음성 문자 변환부(200)는 표시부(100)에서 표시되는 상기 스트리밍 영상의 상기 음성에서 대화음 및 배경음을 분류할 수 있다.

음성 문자 변환부(200)는 상기 음성 중 상기 대화음은 가공되지 않은 정자체의 문자로 변환하고, 상기 음성 중 상기 배경음은 괄호 기호 안에 기울어진 글자체의 문자로 변환할 수 있다.

예를 들어, 상기 음성 중 상기 대화음은 상기 표시부에 정자체의 자막으로 표시되고, 상기 음성 중 상기 배경음은 상기 표시부에 괄호 기호 안에 기울어진 글자체의 자막으로 표시될 수 있다.

음성 크기 분석부(300)는 상기 스트리밍 영상의 상기 음성의 크기를 측정하여 음성 데이터를 생성(S300)할 수 있다. 예를 들어, 음성 크기 분석부(300)는 상기 스트리밍 영상에 담긴 대화음의 크기 또는 배경음의 크기를 수치화 할 수 있다.

영상 감정 분석부(400)는 상기 스트리밍 영상에서 표현되는 감정을 측정하여 감정 데이터를 생성할 수 있다. 예를 들어, 영상 감정 분석부(400)는 상기 스트리밍 영상에 담긴 대화음의 감정 또는 배경음의 분위기를 수치화 할 수 있다.

영상 감정 분석부(400)는 각 감정에 따른 음성을 데이터 베이스화하고 사용자의 음성이 어느 감정의 음성과 유사한지를 비교해서 판단함으로써 감정을 추정할 수 있다.

예를 들어, 영상 감정 분석부(400)는 상기 스트리밍 영상에서 표현되는 경계, 분노, 좌절, 비참함, 지루함, 피곤함, 침착, 만족, 기쁨, 행복, 즐거움, 놀람 등의 감정을 추정할 수 있다.

자막 생성부(500)는 상기 텍스트 데이터, 상기 음성 데이터, 및 상기 감정 데이터를 기초로 상기 스트리밍 영상의 상기 음성의 크기 및 상기 영상의 감정을 반영한 자막 데이터를 생성할 수 있다.

자막 생성부(500)는 상기 음성 데이터를 입력받고, 상기 스트리밍 영상의 상기 음성의 크기에 비례하여 자막의 크기를 조절할 수 있다.

예를 들어, 자막 생성부(500)는 상기 스트리밍 영상의 상기 음성의 크기가 기준 음성보다 큰 경우 자막의 글자 크기를 확대하고, 상기 스트리밍 영상의 상기 음성의 크기가 기준 음성보다 작은 경우 자막의 글자 크기를 축소할 수 있다.

자막의 크기가 상기 음성의 크기에 비례하여 조절됨으로써, 사용자는 자막의 글자 크기를 통해 상기 스트리밍 영상의 음성의 크기를 시각적으로 인지할 수 있다.

자막 생성부(500)는 상기 감정 데이터를 입력받고, 상기 스트리밍 영상에서 표현되는 감정에 따라 자막의 색상을 조절할 수 있다.

예를 들어, 자막 생성부(500)는 상기 스트리밍 영상에서 표현되는 감정이 고조되는 경우 자막의 글자 색상을 빨간색으로 변경하고, 상기 스트리밍 영상에서 표현되는 감정이 완화되는 경우 자막의 글자 색상을 파란색으로 변경할 수 있다.

자막의 색상이 상기 스트리밍 영상에서 표현되는 감정에 따라 조절됨으로써, 사용자는 자막의 글자 색상을 통해 상기 스트리밍 영상의 감정 및 분위기를 시각적으로 인지할 수 있다.

자막 생성부(500)는 상기 자막 데이터를 상기 표시부(100)에 출력할 수 있다.

상기 표시부(100)는 상기 자막 데이터를 입력받고, 상기 자막 데이터에 기초하여 상기 스트리밍 영상의 상기 음성의 크기 및 상기 영상의 감정을 반영한 자막을 실시간으로 출력할 수 있다.

이와 같이, 본 발명의 음성 인터페이스 STT 기반 자막 생성 장치는 영상이 담고 있는 음성의 강조된 부분, 음성의 크기, 감정 등을 수집하고, 이를 실시간으로 반영한 자막을 출력함으로써, 청각 장애인이 스트리밍 영상 시청 시 영상의 정보 및 의미를 더 효과적으로 인식할 수 있도록 도울 수 있다.

따라서, 청각 장애인은 음성 인터페이스 STT 기반 자막 생성 장치를 이용하여 사용 목적에 맞는 서비스를 선택하여 제공받을 수 있으며, 학습시 단순 음성 정보가 아닌 감성 정보를 포함한 정보를 얻음으로써 학습 효율이 향상될 수 있으며, TV나 영화 라디오 등을 이용 시 감성 정보를 포함한 정보를 얻음으로써 비장애인이 느끼는 감정에 대해 같이 공감할 수 있도록 하는 효과를 가진다.

또한, 음성 인터페이스 STT 기반 자막 생성 장치는 청각 장애인뿐 아니라, 잡음이나 소음이 심한 환경 등에서 내용을 제대 로 청취하기 어려운 환경에서 음성의 크기를 시각화하고, 감정을 시각화함으로써, 일반인들의 컨텐츠 감상에도 도움을 줄 수 있는 효과를 가진다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능할 것이다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

100: 표시부
200: 음성 문자 변환부
300: 음성 크기 분석부
400: 영상 감정 분석부
500: 자막 생성부

Claims

스트리밍 영상을 표시하는 표시부;
상기 스트리밍 영상에서 음성을 추출하고, 상기 음성을 문자로 변환하여 텍스트 데이터를 생성하는 음성 문자 변환부;
상기 스트리밍 영상의 상기 음성의 크기를 측정하여 음성 데이터를 생성하는 음성 크기 분석부;
상기 스트리밍 영상에서 표현되는 감정을 측정하여 감정 데이터를 생성하는 영상 감정 분석부; 및
상기 텍스트 데이터, 상기 음성 데이터, 및 상기 감정 데이터를 기초로 상기 스트리밍 영상의 상기 음성의 크기 및 상기 영상의 감정을 반영한 자막 데이터를 생성하는 자막 생성부를 포함하는,
음성 인터페이스 STT 기반 자막 생성 장치.
제1항에 있어서,
상기 자막 생성부는 상기 자막 데이터를 상기 표시부에 출력하고,
상기 표시부는 상기 자막 데이터를 입력받고, 상기 자막 데이터에 기초하여 상기 스트리밍 영상의 상기 음성의 크기 및 상기 영상의 감정을 반영한 자막을 실시간으로 출력하는 것을 특징으로 하는,
음성 인터페이스 STT 기반 자막 생성 장치.
제1항에 있어서,
상기 음성 문자 변환부는,
상기 스트리밍 영상의 상기 음성에서 대화음 및 배경음을 분류하고, 상기 음성 중 상기 대화음은 가공되지 않은 정자체의 문자로 변환하고, 상기 음성 중 상기 배경음은 괄호 기호 안에 기울어진 글자체의 문자로 변환하는 것을 특징으로 하는,
음성 인터페이스 STT 기반 자막 생성 장치.
제1항에 있어서,
상기 자막 생성부는,
상기 음성 데이터를 입력받고, 상기 스트리밍 영상의 상기 음성의 크기에 비례하여 자막의 크기를 조절하는 것을 특징으로 하는,
음성 인터페이스 STT 기반 자막 생성 장치.
제1항에 있어서,
상기 자막 생성부는,
상기 감정 데이터를 입력받고, 상기 스트리밍 영상에서 표현되는 감정에 따라 자막의 색상을 조절하는 것을 특징으로 하는,
음성 인터페이스 STT 기반 자막 생성 장치.