KR102136059B1 - 그래픽 객체를 이용한 자막 생성 시스템 - Google Patents

그래픽 객체를 이용한 자막 생성 시스템 Download PDF

Info

Publication number
KR102136059B1
KR102136059B1 KR1020180133664A KR20180133664A KR102136059B1 KR 102136059 B1 KR102136059 B1 KR 102136059B1 KR 1020180133664 A KR1020180133664 A KR 1020180133664A KR 20180133664 A KR20180133664 A KR 20180133664A KR 102136059 B1 KR102136059 B1 KR 102136059B1
Authority
KR
South Korea
Prior art keywords
information
speaker
character
subtitle
data
Prior art date
Application number
KR1020180133664A
Other languages
English (en)
Other versions
KR20200050707A (ko
Inventor
한승룡
Original Assignee
주식회사 모두앤모두
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 모두앤모두 filed Critical 주식회사 모두앤모두
Priority to KR1020180133664A priority Critical patent/KR102136059B1/ko
Priority to PCT/KR2019/014501 priority patent/WO2020091431A1/ko
Publication of KR20200050707A publication Critical patent/KR20200050707A/ko
Application granted granted Critical
Publication of KR102136059B1 publication Critical patent/KR102136059B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06K9/00288
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Computational Linguistics (AREA)
  • Psychiatry (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Studio Circuits (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

본 발명은 그래픽 객체를 이용한 자막 생성 시스템에 관한 것이 개시된다. 상기 시스템은 콘텐츠 관리 서버로부터 오디오 데이터와 비디오 데이터를 포함하는 멀티미디어 콘텐츠를 수신하고, 상기 멀티미디어 콘텐츠를 이용하여 확장 자막 데이터를 생성하는 자막 생성기를 포함하고, 상기 자막 생성기는, 상기 오디오 데이터를 수신하고, 상기 오디오 데이터를 이용하여 기본 자막 데이터를 생성하는 기본 자막 데이터 생성기, 상기 오디오 데이터를 수신하고, 상기 오디오 데이터를 이용하여 음성 인식에 의한 화자 캐릭터 식별자 및 감정 분류 정보를 생성하는 음성 인식 처리기, 상기 비디오 데이터를 수신하고, 상기 비디오 데이터를 이용하여 안면 인식에 의한 등장 캐릭터 정보 및 감정 분류 정보를 생성하는 안면 인식 처리기, 상기 화자 캐릭터 식별자 및 상기 등장 캐릭터 정보를 수신하고, 화자 정보를 생성하는 화자 정보 생성기, 상기 음성 인식에 의한 감정 분류 정보, 상기 안면 인식에 의한 감정 분류 정보 및 상기 화자 정보를 수신하고, 감정 정보를 생성하는 감정 정보 생성기, 상기 기본 자막 데이터, 상기 화자 정보 및 상기 감정 정보를 수신하고, 확장 자막 데이터를 생성하는 확장 자막 데이터 생성기 및 화자 캐릭터의 음성 정보와 감정 정보 및 등장 캐릭터의 안면 정보와 감정 정보를 저장 및 관리하는 데이터 베이스를 포함하고, 상기 기본 자막 데이터는, 상기 오디오 데이터로부터 검출된 문자열, 시작 시점의 정보를 포함하고, 상기 화자 정보는, 상기 등장 캐릭터에 화자가 포함되는 경우, 상기 화자 캐릭터 식별자 및 상기 위치이고, 상기 화자가 장면에 등장하지 않는 경우, 상기 화자 캐릭터 식별자이고, 상기 감정 정보는, 상기 등장 캐릭터에 화자가 포함되는 경우, 상기 음성 인식 및 상기 안면 인식 결과를 조합한 정보이고, 상기 화자가 장면에 등장하지 않는 경우, 상기 음성 인식 결과를 반영한 정보이고, 상기 확장 자막 데이터는, 상기 문자열, 상기 시작 시점, 상기 화자 캐릭터 식별자, 상기 위치 및 상기 감정 정보에 상응하는 자막 그래픽 객체를 포함하고, 상기 멀티미디어 콘텐츠와 결합된다.

Description

그래픽 객체를 이용한 자막 생성 시스템{SYSTEM FOR GENERATING SUBTITLE USING GRAPHIC OBJECTS}
본 발명은 그래픽 객체를 이용한 자막 생성 시스템에 관한 것이다.
기존 청각 장애인을 위한 자막방송은 실시간 방송 또는 녹화방송에서 속기로 자막을 생성하고 있다. 영상의 화자가 말하는 속도에 맞춰 속기로 자막을 생성하다 보니, 오타 발생이 잦고, 자막과 실제 화면 간의 시간차가 발생하였다. 또한, 속기사의 역량에 따라 속기한 자막의 품질이 달리되는 문제점이 있다. 그리고 단순히 자막으로 영상 하단에 표시하는 것으로는 실제 배우의 감정, 감성 들을 이해하기 어려웠다. 예를 들어, 속기는 배우의 화난 목소리를 표현할 방법이 없고, 배우의 음성을 통한 감정을 느끼지 못하여 청각 장애인들은 영상을 보는 즐거움이 반감된다.
공개특허공보 제10-2009-0009674호, 2009.02.06
본 발명이 해결하고자 하는 과제는 그래픽 객체를 이용한 자막 생성 시스템을 제공하는 것이다.
본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상술한 과제를 해결하기 위한 본 발명의 일 면에 따른 그래픽 객체를 이용한 자막 생성 시스템은, 콘텐츠 관리 서버로부터 오디오 데이터와 비디오 데이터를 포함하는 멀티미디어 콘텐츠를 수신하고, 상기 멀티미디어 콘텐츠를 이용하여 확장 자막 데이터를 생성하는 자막 생성기를 포함하고, 상기 자막 생성기는, 상기 오디오 데이터를 수신하고, 상기 오디오 데이터를 이용하여 기본 자막 데이터를 생성하는 기본 자막 데이터 생성기, 상기 오디오 데이터를 수신하고, 상기 오디오 데이터를 이용하여 음성 인식에 의한 화자 캐릭터 식별자 및 감정 분류 정보를 생성하는 음성 인식 처리기, 상기 비디오 데이터를 수신하고, 상기 비디오 데이터를 이용하여 안면 인식에 의한 등장 캐릭터 정보 및 감정 분류 정보를 생성하는 안면 인식 처리기, 상기 화자 캐릭터 식별자 및 상기 등장 캐릭터 정보를 수신하고, 화자 정보를 생성하는 화자 정보 생성기, 상기 음성 인식에 의한 감정 분류 정보, 상기 안면 인식에 의한 감정 분류 정보 및 상기 화자 정보를 수신하고, 감정 정보를 생성하는 감정 정보 생성기, 상기 기본 자막 데이터, 상기 화자 정보 및 상기 감정 정보를 수신하고, 확장 자막 데이터를 생성하는 확장 자막 데이터 생성기 및 화자 캐릭터의 음성 정보와 감정 정보 및 등장 캐릭터의 안면 정보와 감정 정보를 저장 및 관리하는 데이터 베이스를 포함하고, 상기 기본 자막 데이터는, 상기 오디오 데이터로부터 검출된 문자열, 시작 시점의 정보를 포함하고, 상기 화자 정보는, 상기 등장 캐릭터에 화자가 포함되는 경우, 상기 화자 캐릭터 식별자 및 상기 위치이고, 상기 화자가 장면에 등장하지 않는 경우, 상기 화자 캐릭터 식별자이고, 상기 감정 정보는, 상기 등장 캐릭터에 화자가 포함되는 경우, 상기 음성 인식 및 상기 안면 인식 결과를 조합한 정보이고, 상기 화자가 장면에 등장하지 않는 경우, 상기 음성 인식 결과를 반영한 정보이고, 상기 확장 자막 데이터는, 상기 문자열, 상기 시작 시점, 상기 화자 캐릭터 식별자, 상기 위치 및 상기 감정 정보에 상응하는 자막 그래픽 객체를 포함하고, 상기 멀티미디어 콘텐츠와 결합된다.
일부 실시예에서, 상기 자막 그래픽 객체는, 상기 감정 정보에 상응하는 글자 종류, 글자 크기, 글자 색, 글자 굵기, 그래픽 객체의 형태, 그래픽 객체의 크기 및 그래픽 객체의 바탕색으로 출력된다.
일부 실시예에서, 상기 음성 인식 처리기는, 상기 데이터베이스와 연동하여 상기 화자 캐릭터 식별자 및 상기 감정 분류 정보를 생성한다.
일부 실시예에서, 상기 안면 인식 처리기는, 상기 데이터베이스와 연동하여 상기 등장 캐릭터 정보 및 상기 감정 분류 정보를 생성한다.
일부 실시예에서, 상기 등장 캐릭터 정보는, 등장 캐릭터 수, 등장 캐릭터 식별자, 위치를 포함한다.
일부 실시예에서, 자막 합성기를 더 포함하고, 상기 자막 합성기는, 상기 자막 생성기로부터 상기 확장 자막 데이터를 수신하고, 상기 멀티미디어 콘텐츠 및 상기 확장 자막 데이터를 합성한다.
상술한 과제를 해결하기 위한 본 발명의 또 다른 면에 따른 그래픽 객체를 이용한 자막 생성 시스템은, 콘텐츠 관리 서버로부터 오디오 데이터와 비디오 데이터를 포함하는 멀티미디어 콘텐츠 및 기본 자막 데이터를 수신하고, 상기 멀티미디어 콘텐츠 및 기본 자막 데이터를 이용하여 확장 자막 데이터를 생성하는 자막 생성기를 포함하고, 상기 자막 생성기는, 상기 오디오 데이터를 수신하고, 상기 오디오 데이터를 이용하여 음성 인식에 의한 화자 캐릭터 식별자 및 감정 분류 정보를 생성하는 음성 인식 처리기, 상기 비디오 데이터를 수신하고, 상기 비디오 데이터를 이용하여 안면 인식에 의한 등장 캐릭터 정보 및 감정 분류 정보를 생성하는 안면 인식 처리기, 상기 화자 캐릭터 식별자 및 상기 등장 캐릭터 정보를 수신하고, 화자 정보를 생성하는 화자 정보 생성기, 상기 음성 인식에 의한 감정 분류 정보, 상기 안면 인식에 의한 감정 분류 정보 및 상기 화자 정보를 수신하고, 감정 정보를 생성하는 감정 정보 생성기, 상기 기본 자막 데이터, 상기 화자 정보 및 상기 감정 정보를 수신하고, 확장 자막 데이터를 생성하는 확장 자막 데이터 생성기 및 화자 캐릭터의 음성 정보와 감정 정보 및 등장 캐릭터의 안면 정보와 감정 정보를 저장 및 관리하는 데이터 베이스를 포함하고, 상기 기본 자막 데이터는, 문자열, 시작 시점의 정보를 포함하고, 상기 화자 정보는, 상기 등장 캐릭터에 화자가 포함되는 경우, 상기 화자 캐릭터 식별자 및 상기 위치이고, 상기 화자가 장면에 등장하지 않는 경우, 상기 화자 캐릭터 식별자이고, 상기 감정 정보는, 상기 등장 캐릭터에 화자가 포함되는 경우, 상기 음성 인식 및 상기 안면 인식 결과를 조합한 정보이고, 상기 화자가 장면에 등장하지 않는 경우, 상기 음성 인식 결과를 반영한 정보이고, 상기 확장 자막 데이터는, 상기 문자열, 상기 시작 시점, 상기 화자 캐릭터 식별자, 상기 위치 및 상기 감정 정보에 상응하는 자막 그래픽 객체를 포함하고, 상기 멀티미디어 콘텐츠와 결합된다.
일부 실시예에서, 상기 자막 그래픽 객체는, 상기 감정 정보에 상응하는 글자 종류, 글자 크기, 글자 색, 글자 굵기, 그래픽 객체의 형태, 그래픽 객체의 크기 및 그래픽 객체의 바탕색으로 출력된다.
일부 실시예에서, 상기 음성 인식 처리기는, 상기 데이터베이스와 연동하여 상기 화자 캐릭터 식별자 및 상기 감정 분류 정보를 생성한다.
일부 실시예에서, 상기 안면 인식 처리기는, 상기 데이터베이스와 연동하여 상기 등장 캐릭터 정보 및 상기 감정 분류 정보를 생성한다.
일부 실시예에서, 상기 등장 캐릭터 정보는, 등장 캐릭터 수, 등장 캐릭터 식별자, 위치를 포함한다.
일부 실시예에서, 자막 합성기를 더 포함하고, 상기 자막 합성기는, 상기 자막 생성기로부터 상기 확장 자막 데이터를 수신하고, 상기 멀티미디어 콘텐츠 및 상기 확장 자막 데이터를 합성한다.
본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명의 그래픽 객체를 이용한 자막 생성 시스템에 의하면, 그래픽 객체를 이용한 자막 생성 시스템은 음성 인식 및 안면 인식에 의해서 화자 캐릭터 및 등장 캐릭터의 감정 정보를 생성하고, 감정 정보에 상응하는 확장 자막 데이터를 생성할 수 있다.
또한, 그래픽 객체를 이용한 자막 생성 시스템은 확장 자막이 표시되는 그래픽 객체를 감정 정보에 상응하도록 하여 청각 장애인에게 감정 정보를 시각적으로 전달할 수 있게 한다.
또한, 그래픽 객체를 이용한 자막 생성 시스템은 화자가 영상에 없는 경우 화자 캐릭터 식별자를 영상에 추가하여 청각 장애인에게 영상에 없는 화자를 시각적으로 인지할 수 있도록 한다.
또한, 그래픽 객체를 이용한 자막 생성 시스템은 하나의 영상에 복수의 화자가 있는 경우 그래픽 객체를 이용하여 자막을 화자와 대응되도록 하여 청각 장애인에게 복수의 화자 중 누가 발언하고 있는지를 시각적으로 인지할 수 있도록 한다.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 실시예에 따른 자막 생성기의 입출력도이다.
도 2는 본 발명의 실시예에 따른 자막 생성기의 구성도이다.
도 3은 본 발명의 실시예에 따른 기본 자막 데이터 생성기 및 음성 인식 처리기의 입출력도이다.
도 4는 본 발명의 실시예에 따른 안면 인식 처리기의 입출력도이다.
도 5는 본 발명의 실시예에 따른 화자 정보 생성기의 입출력도이다.
도 6은 본 발명의 실시예에 따른 감정 정보 생성기의 입출력도이다.
도 7은 본 발명의 실시예에 따른 확장 자막 데이터 생성기의 입출력도이다.
도 8은 본 발명의 실시예에 따른 그래픽 객체를 이용한 자막 생성 방법의 순서도이다.
도 9는 본 발명의 실시예에 따른 자막 합성기의 입출력도이다.
도 10은 본 발명의 실시예에 따른 확장 자막 데이터가 합성된 멀티미디어 콘텐츠의 예시도이다.
도 11은 본 발명의 실시예에 따른 자막 생성기 및 자막 합성기의 입출력도이다.
도 12는 본 발명의 실시예에 따른 자막 생성기의 입출력도이다.
도 13은 본 발명의 실시예에 따른 자막 생성기의 구성도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
도 1 내지 도 11에서는 멀티미디어 콘텐츠를 수신하여 실시간으로 기본 자막 데이터와 확장 자막 데이터를 생성하는 시스템을 기술하고, 도 12 내지 도 13에서는 콘텐츠 제작사에서 이미 생성한 기본 자막 데이터와 멀티미디어 콘텐츠를 수신하여 확장 자막 데이터를 생성하는 시스템을 기술한다.
멀티미디어 콘텐츠는 정보를 디지털화하여 정보기기로 생산, 유통, 소비되는 형태의 콘텐츠로써, 드라마, 영화, 뉴스, 애니메이션, 교육 프로그램, 게임 등이 있고, 오디오 데이터와 비디오 데이터로 구성된다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.
도 1은 본 발명의 실시예에 따른 자막 생성기(1000)의 입출력도이다.
도 1을 참조하면, 자막 생성기(1000)는 멀티미디어 콘텐츠를 수신하고, 확장 자막 데이터를 생성한다.
자막 생성기(1000)는 콘텐츠 관리 서버로부터 오디오 데이터와 비디오 데이터를 포함하는 멀티미디어 콘텐츠를 수신하고, 멀티미디어 콘텐츠를 이용하여 확장 자막 데이터를 생성한다.
콘텐츠 관리 서버는 멀티미디어 콘텐츠 제작사에 의해 운영되며, 멀티미디어 콘텐츠 및 기본 자막 데이터를 관리 및 저장한다. 콘텐츠 관리 서버는 멀티미디어 콘텐츠 만을 자막 생성기(1000)에 송신할 수 있고, 멀티미디어 콘텐츠와 콘텐츠 제작사에 의해 제작된 기본 자막 데이터를 동시에 자막 생성기(1000)에 송신할 수도 있다.
자막 생성기(1000)는 멀티미디어 콘텐츠를 소정의 규칙에 의해 데이터를 가공하여 화자의 감정 정보가 반영된 확장 자막 데이터를 생성할 수 있다.
도 2는 본 발명의 실시예에 따른 자막 생성기(1000)의 구성도이다.
도 2를 참조하면, 자막 생성기(1000)는 기본 자막 데이터 생성기(1100), 음성 인식 처리기(1200), 안면 인식 처리기(1300), 화자 정보 생성기(1400), 감정 정보 생성기(1500), 확장 자막 데이터 생성기(1600) 및 데이터베이스(1700)를 포함한다.
기본 자막 데이터 생성기(1100)는 오디오 데이터를 수신하고, 오디오 데이터를 이용하여 기본 자막 데이터를 생성한다. 기본 자막 데이터 생성기(1100)는 멀티미디어 콘텐츠 중 오디오 데이터를 수신하고, 오디오 데이터를 소정의 규칙에 의해 가공하여 기본 자막 데이터를 생성한다.
음성 인식 처리기(1200)는 오디오 데이터를 수신하고, 오디오 데이터를 이용하여 음성 인식에 의한 화자 캐릭터 식별자 및 감정 분류 정보를 생성한다. 음성 인식 처리기(1200)는 멀티미디어 콘텐츠 중 오디오 데이터를 수신하고, 오디오 데이터를 소정의 규칙에 의해 가공하여 화자 캐릭터 식별자 및 감정 분류 정보를 생성한다.
안면 인식 처리기(1300)는 비디오 데이터를 수신하고, 비디오 데이터를 이용하여 안면 인식에 의한 등장 캐릭터 정보 및 감정 분류 정보를 생성한다. 안면 인식 처리기(1300)는 멀티미디어 콘텐츠 중 비디오 데이터를 수신하고, 비디오 데이터를 소정의 규칙에 의해 가공하여 등장 캐릭터 정보 및 감정 분류 정보를 생성한다.
화자 정보 생성기(1400)는 화자 캐릭터 식별자 및 등장 캐릭터 정보를 수신하고, 화자 정보를 생성한다. 화자 정보 생성기(1400)는 음성 인식 처리기(1200)로부터 화자 캐릭터 식별자를 수신하고, 안면 인식 처리기(1300)로부터 등장 캐릭터 정보를 수신하고, 화자 캐릭터 식별자 및 등장 캐릭터 정보를 소정의 규칙에 의해 가공하여 화자 정보를 생성한다.
감정 정보 생성기(1500)는 음성 인식에 의한 감정 분류 정보, 안면 인식에 의한 감정 분류 정보 및 화자 정보를 수신하고, 감정 정보를 생성한다. 감정 정보 생성기(1500)는 음성 인식 처리기(1200)로부터 음성 인식에 의한 감정 분류 정보를 수신하고, 안면 인식 처리기(1300)로부터 안면 인식에 의한 감정 분류 정보를 수신하고, 음성 인식 및 안면 인식에 의한 감정 분류 정보를 소정의 규칙에 의해 가공하여 감정 정보를 생성한다.
확장 자막 데이터 생성기(1600)는 기본 자막 데이터, 화자 정보 및 감정 정보를 수신하고, 확장 자막 데이터를 생성한다. 확장 자막 데이터 생성기(1600)는 기본 자막 데이터 생성기(1100)로부터 기본 자막 데이터를 수신하고, 화자 정보 생성기(1400)로부터 화자 정보를 수신하고, 감정 정보 생성기(1500)로부터 감정 정보를 수신하고, 기본 자막 데이터와 화자 정보와 감정 정보를 소정의 규칙에 의해 가공하여 확장 자막 데이터를 생성한다.
데이터베이스(1700)는 화자 캐릭터의 음성 정보와 감정 정보 및 등장 캐릭터의 안면 정보와 감정 정보를 저장 및 관리한다. 데이터 베이스는 멀티미디어 콘텐츠 방송 사전에 화자 캐릭터의 음성 정보와 감정 정보 및 등장 캐릭터의 안면 정보와 감정 정보를 저장 및 관리할 수 있고, 멀티미디어 콘텐츠 방송 중 실시간으로 화자 캐릭터의 음성 정보와 감정 정보 및 등장 캐릭터의 안면 정보와 감정 정보를 저장 및 관리할 수 있다.
데이터베이스(1700)는 일정 시간 동안 특정 화자가 반복적 또는 주기적으로 등장 시에 멀티미디어 콘텐츠로부터 자동으로 화자 캐릭터의 음성 정보와 감정 정보 및 등장 캐릭터의 안면 정보와 감정 정보를 자막 생성기(1000)로부터 수신하여 저장 및 관리한다.
도 3은 본 발명의 실시예에 따른 기본 자막 데이터 생성기(1100) 및 음성 인식 처리기(1200)의 입출력도이다.
도 3을 참조하면, 기본 자막 데이터 생성기(1100)는 오디오 데이터를 수신하고, 기본 자막 데이터를 생성하고, 음성 인식 처리기(1200)는 오디오 데이터를 수신하고, 화자 캐릭터 식별자를 생성한다.
기본 자막 데이터 생성기(1100)는 오디오 데이터를 수신하고, 오디오 데이터를 이용하여 기본 자막 데이터를 생성한다. 기본 자막 데이터는 오디오 데이터로부터 검출된 문자열, 시작 시점의 정보를 포함한다.
음성 인식 처리기(1200)는 오디오 데이터를 수신하고, 오디오 데이터를 이용하여 음성 인식에 의한 화자 캐릭터 식별자 및 감정 분류 정보를 생성한다. 화자 캐릭터 식별자는 오디오 데이터 상에서 발언하고 있는 캐릭터, 등장 인물 등을 규정하기 위한 특정 기호, 아이콘 또는 이미지일 수 있다. 감정 분류 정보는 화자의 감정을 분류한 정보로써, 기쁨 슬픔, 분노 등 일 수 있다.
음성 인식 처리기(1200)는 오디오 데이터의 음성 정보를 음성 인식하고, 데이터베이스(1700)와 연동하여 화자 캐릭터 식별자 및 감정 분류 정보를 생성한다. 음성 인식 처리기(1200)는 멀티미디어 콘텐츠의 오디오 데이터로부터 음성 인식된 음성 정보가 데이터베이스(1700)의 음성 정보와 소정의 기준 이상 유사한 경우, 데이터베이스(1700)의 음성 정보에 상응하는 화자 캐릭터를 인식하여 화자 캐릭터 식별자를 생성한다. 또한, 음성 인식 처리기(1200)는 멀티미디어 콘텐츠의 오디오 데이터로부터 음성 인식된 음성 정보가 데이터베이스(1700)의 음성 정보와 소정의 기준 이상 유사한 경우, 데이터베이스(1700)의 음성 정보에 상응하는 감정 정보를 인식하여 감정 분류 정보를 생성한다.
도 4는 본 발명의 실시예에 따른 안면 인식 처리기(1300)의 입출력도이다.
도 4를 참조하면, 안면 인식 처리기(1300)는 비디오 데이터를 수신하고, 등장 캐릭터 정보 및 감정 분류 정보를 생성한다.
안면 인식 처리기(1300)는 비디오 데이터를 수신하고, 비디오 데이터를 이용하여 안면 인식에 의한 등장 캐릭터 정보 및 감정 분류 정보를 생성한다. 등장 캐릭터 정보는 등장 캐릭터 수, 등장 캐릭터 식별자, 위치를 포함한다. 또한, 감정 분류 정보는 등장 캐릭터의 감정을 분류한 정보로써, 기쁨 슬픔, 분노 등 일 수 있다.
안면 인식 처리기(1300)는 비디오 데이터의 안면 정보를 안면 인식하고, 데이터베이스(1700)와 연동하여 등장 캐릭터 정보 및 감정 분류 정보를 생성한다. 안면 인식 처리기(1300)는 멀티미디어 콘텐츠의 비디오 데이터로부터 안면 인식된 안면 정보가 데이터베이스(1700)의 안면 정보와 소정의 기준 이상 유사한 경우, 데이터베이스(1700)의 안면 정보에 상응하는 등장 캐릭터를 인식하여 등장 캐릭터 수, 식별자, 위치를 생성한다. 또한, 안면 인식 처리기(1300)는 멀티미디어 콘텐츠의 비디오 데이터로부터 안면 인식된 안면 정보가 데이터베이스(1700)의 안면 정보와 소정의 기준 이상 유사한 경우, 데이터베이스(1700)의 안면 정보에 상응하는 감정 정보를 인식하여 감정 분류 정보를 생성한다.
도 5는 본 발명의 실시예에 따른 화자 정보 생성기(1400)의 입출력도이다.
도 5를 참조하면, 화자 정보 생성기(1400)는 화자 캐릭터 식별자 및 등장 캐릭터 정보를 수신하고, 화자 정보를 생성한다.
화자 정보 생성기(1400)는 화자 캐릭터 식별자 및 등장 캐릭터 정보를 수신하고, 화자 정보를 생성한다.
화자 정보는 등장 캐릭터에 화자가 포함되는 경우, 화자 캐릭터 식별자 및 위치이고, 화자가 장면에 등장하지 않는 경우, 화자 캐릭터 식별자이다. 화자 정보 생성기(1400)는 화자 캐릭터 식별자와 등장 캐릭터 식별자가 소정의 기준 이상 유사한 경우, 등장 캐릭터에 화자가 포함된 것으로 판단하여, 화자 캐릭터 식별자와 위치의 화자 정보를 생성한다. 또한, 화자 정보 생성기(1400)는 화자 캐릭터 식별자와 등장 캐릭터 식별자가 소정의 기준 미만으로 유사한 경우, 화자가 장면에 등장하지 않는 것으로 판단하여, 화자 캐릭터 식별자의 화자 정보를 생성한다.
도 6은 본 발명의 실시예에 따른 감정 정보 생성기(1500)의 입출력도이다.
도 6을 참조하면, 감정 정보 생성기(1500)는 음성 인식에 의한 감정 분류 정보, 안면 인식에 의한 감정 분류 정보 및 화자 정보를 수신하고, 감정 정보를 생성한다.
감정 정보는 등장 캐릭터에 화자가 포함되는 경우, 음성 인식 및 안면 인식 결과를 조합한 정보이고, 화자가 장면에 등장하지 않는 경우, 음성 인식 결과를 반영한 정보이다. 감정 정보 생성기(1500)는 화자 캐릭터 식별자와 등장 캐릭터 식별자가 소정의 기준 이상 유사한 경우, 등장 캐릭터에 화자가 포함된 것으로 판단하여, 음성 인식에 의한 감정 분류 정보와 안면 인식에 의한 감정 분류 정보를 조합하여 감정 정보를 생성한다. 또한, 감정 정보 생성기(1500)는 화자 캐릭터 식별자와 등장 캐릭터 식별자가 소정의 기준 미만으로 유사한 경우, 화자가 장면에 등장하지 않는 것으로 판단하여, 음성 인식에 의한 감정 분류 정보를 이용하여 감정 정보를 생성한다.
도 7은 본 발명의 실시예에 따른 확장 자막 데이터 생성기(1600)의 입출력도이다.
도 7을 참조하면, 확장 자막 데이터 생성기(1600)는 기본 자막 데이터, 화자 정보 및 감정 정보를 수신하고, 확장 자막 데이터를 생성한다.
확장 자막 데이터 생성기(1600)는 기본 자막 데이터, 화자 정보 및 감정 정보를 수신하고, 확장 자막 데이터를 생성한다. 확장 자막 데이터는 문자열, 시작 시점, 화자 캐릭터 식별자, 위치 및 감정 정보에 상응하는 자막 그래픽 객체를 포함하고, 멀티미디어 콘텐츠와 결합된다.
확장 자막 데이터는 멀티미디어 콘텐츠의 자막이 출력되는 모든 시작 시점 마다 문자열, 화자 캐릭터 식별자, 등장 캐릭터 위치, 글자 종류, 글자 크기, 글자 색, 그래픽 객체의 형태, 그래픽 객체의 크기 및 그래픽 객체의 바탕색을 달리하여 문자열 만을 단순히 출력하는 것이 아닌 화자의 감정이 반영되도록 확장 자막 데이터를 구성할 수 있다.
자막 그래픽 객체는 문자열이 화면에 출력되게 하는 도구로써, 감정 정보에 상응하는 글자 종류, 글자 크기, 글자 색, 그래픽 객체의 형태, 그래픽 객체의 크기 및 그래픽 객체의 바탕색으로 출력된다. 자막 그래픽 객체는 도 10에서 자세히 설명된다.
도 8은 본 발명의 실시예에 따른 그래픽 객체를 이용한 자막 생성 방법의 순서도이다.
도 8을 참조하면, 그래픽 객체를 이용한 자막 생성 방법은, 기본 자막 데이터 생성 단계, 음성 인식 처리 단계, 안면 인식 처리 단계, 화자 정보 생성 단계, 감정 정보 생성 단계 및 확장 자막 데이터 생성 단계를 포함한다.
단계 S5100에서, 콘텐츠 관리 서버로부터 멀티미디어 콘텐츠 중 오디오 데이터를 수신하고, 오디오 데이터를 이용하여 기본 자막 데이터를 생성한다.
단계 S5200에서, 콘텐츠 관리 서버로부터 멀티미디어 콘텐츠 중 오디오 데이터를 수신하고, 오디오 데이터를 이용하여 음성 인식에 의한 화자 캐릭터 식별자 및 감정 분류 정보를 생성한다.
단계 S5300에서, 콘텐츠 관리 서버로부터 멀티미디어 콘텐츠 중 비디오 데이터를 수신하고, 비디오 데이터를 이용하여 안면 인식에 의한 등장 캐릭터 정보 및 감정 분류 정보를 생성한다.
단계 S5400에서, 화자 캐릭터 식별자 및 등장 캐릭터 정보를 수신하고, 화자 정보를 생성한다.
단계 S5500에서, 음성 인식에 의한 감정 분류 정보, 안면 인식에 의한 감정 분류 정보 및 화자 정보를 수신하고, 감정 정보를 생성한다.
단계 S5600에서, 기본 자막 데이터, 화자 정보 및 감정 정보를 수신하고, 확장 자막 데이터를 생성한다.
도 9는 본 발명의 실시예에 따른 자막 합성기(2000)의 입출력도이다.
도 9를 참조하면, 자막 합성기(2000)는 멀티미디어 콘텐츠 및 확장 자막 데이터를 수신하고, 확장 자막 데이터가 합성된 멀티미디어 콘텐츠를 생성한다.
자막 합성기(2000)는 자막 생성기(1000)로부터 확장 자막 데이터를 수신하고, 멀티미디어 콘텐츠 및 확장 자막 데이터를 합성한다. 확장 자막 데이터가 합성된 멀티미디어 콘텐츠는 도 10에서 자세히 설명한다.
자막 합성기(2000)는 멀티미디어 콘텐츠와 확장 자막 데이터가 서로 대응되는지를 판단하기 위해서 멀티미디어 콘텐츠의 식별자와 확장 자막 데이터의 식별자를 비교하여 서로 대응되는 경우에 멀티미디어 콘텐츠와 확장 자막 데이터를 합성한다.
도 10은 본 발명의 실시예에 따른 확장 자막 데이터가 합성된 멀티미디어 콘텐츠의 예시도이다.
도 10의 (a)를 참조하면, 화자가 영상에 없는 경우 확장 자막 데이터가 합성된 멀티미디어 콘텐츠의 예시도이다.
화자가 영상에 없는 멀티미디어 콘텐츠에서 단순히 영상 하단에 자막만 나온다면 청각 장애인은 어떤 등장 캐릭터가 자막을 발언하고 있는지 판단하기 어렵다. 따라서, 본 발명은 화자 캐릭터 식별자를 영상에 출력시키고, 화자 캐릭터 식별자의 위치에 확장 자막 데이터를 출력시킨다. 확장 자막 데이터의 감정 정보에 상응하는 자막 그래픽 객체는 말풍선 모양으로 영상에 출력될 수 있고, 화자의 감정 정보에 상응하도록 글자 종류, 글자 크기, 글자 색, 글자 굵기, 그래픽 객체의 형태, 그래픽 객체의 크기 및 그래픽 객체의 바탕색이 출력될 수 있다. 예를 들어, 화자의 감정 정보가 분노인 경우, 글자 크기를 소정의 기준 이상으로 크게 할 수 있고, 글자 색을 빨간색으로 글자의 굵기를 두껍게로 할 수 있고, 자막 그래픽 객체의 형태를 뾰족한 모양으로 할 수 있다.
화자의 감정 정보에 상응하는 글자 종류, 글자 크기, 글자 색, 글자 굵기, 그래픽 객체의 형태, 그래픽 객체의 크기 및 그래픽 객체의 바탕색은 자막 생성 시스템의 관리자에 의해 설정될 수 있고, 사용자인 청각 장애인의 취향에 따라 달리 설정될 수 있다.
도 10의 (b)를 참조하면, 복수의 화자가 영상에 있는 경우 확장 자막 데이터가 합성된 멀티미디어 콘텐츠의 예시도이다.
복수의 화자가 멀티미디어 콘텐츠에서 단순히 영상 하단에 자막만 나온다면 청각 장애인은 어떤 등장 캐릭터가 자막을 발언하고 있는지 판단하기 어렵다. 따라서, 본 발명은 확장 자막 데이터에 대응되는 등장 캐릭터를 판단하고, 해당 등장 캐릭터의 위치에 확장 자막 데이터를 출력할 수 있다.
도 11은 본 발명의 실시예에 따른 자막 생성기(1000) 및 자막 합성기(2000)의 입출력도이다.
도 11을 참조하면, 자막 생성기(1000)는 멀티미디어 콘텐츠를 수신하고, 확장 자막 데이터를 생성하고, 자막 합성기(2000)는 멀티미디어 콘텐츠 및 확장 자막 데이터를 수신하고, 확장 자막 데이터가 합성된 멀티미디어 콘텐츠를 생성한다.
자막 생성기(3000), 자막 합성기, 멀티미디어 콘텐츠, 확장 자막 데이터 및 확장 자막 데이터가 합성된 멀티미디어 콘텐츠에 대해서는 도면 1 내지 10에 기재되어 있으므로, 도 11의 설명에서는 생략한다.
도 12 및 13의 자막 생성기(3000)는 콘텐츠 제작사에서 이미 생성한 기본 자막 데이터와 멀티미디어 콘텐츠를 수신하여 확장 자막 데이터를 생성하는 시스템으로써, 기본 자막 데이터를 콘텐츠 제작사로부터 수신한다는 점에서 도 1 내지 10의 자막 생성기(3000)와 다르고, 용어의 설명은 동일함으로 이하에서는 간략히 기재한다.
도 12는 본 발명의 실시예에 따른 자막 생성기(3000)의 입출력도이다.
도 12를 참조하면, 자막 생성기(3000)는 멀티미디어 콘텐츠 및 기본 자막 데이터를 수신하고, 확장 자막 데이터를 생성한다.
자막 생성기(3000)는 콘텐츠 관리 서버로부터 오디오 데이터와 비디오 데이터를 포함하는 멀티미디어 콘텐츠 및 기본 자막 데이터를 수신하고, 멀티미디어 콘텐츠 및 기본 자막 데이터를 이용하여 확장 자막 데이터를 생성한다.
기본 자막 데이터는 문자열, 시작 시점의 정보를 포함한다.
자막 합성기는 자막 생성기(3000)로부터 확장 자막 데이터를 수신하고, 멀티미디어 콘텐츠 및 확장 자막 데이터를 합성한다.
도 13은 본 발명의 실시예에 따른 자막 생성기(3000)의 구성도이다.
도 13을 참조하면, 자막 생성기(3000)는 음성 인식 처리기(3100), 안면 인식 처리기(3200), 화자 정보 생성기(3300), 감정 정보 생성기(3400), 확장 자막 데이터 생성기(3500) 및 데이터베이스(3600)를 포함한다.
음성 인식 처리기(3100)는 오디오 데이터를 수신하고, 오디오 데이터를 이용하여 음성 인식에 의한 화자 캐릭터 식별자 및 감정 분류 정보를 생성한다.
음성 인식 처리기(3100)는 데이터베이스(3600)와 연동하여 화자 캐릭터 식별자 및 감정 분류 정보를 생성한다.
안면 인식 처리기(3200)는 비디오 데이터를 수신하고, 비디오 데이터를 이용하여 안면 인식에 의한 등장 캐릭터 정보 및 감정 분류 정보를 생성한다.
안면 인식 처리기(3200)는 데이터베이스(3600)와 연동하여 등장 캐릭터 정보 및 감정 분류 정보를 생성한다.
등장 캐릭터 정보는 등장 캐릭터 수, 등장 캐릭터 식별자, 위치를 포함한다.
화자 정보 생성기(3300)는 화자 캐릭터 식별자 및 등장 캐릭터 정보를 수신하고, 화자 정보를 생성한다.
화자 정보는 등장 캐릭터에 화자가 포함되는 경우, 화자 캐릭터 식별자 및 위치이고, 화자가 장면에 등장하지 않는 경우, 화자 캐릭터 식별자이다.
감정 정보 생성기(3400)는 음성 인식에 의한 감정 분류 정보, 안면 인식에 의한 감정 분류 정보 및 화자 정보를 수신하고, 감정 정보를 생성한다.
감정 정보는 등장 캐릭터에 화자가 포함되는 경우, 음성 인식 및 안면 인식 결과를 조합한 정보이고, 화자가 장면에 등장하지 않는 경우, 음성 인식 결과를 반영한 정보이다.
확장 자막 데이터 생성기(3500)는 기본 자막 데이터, 화자 정보 및 감정 정보를 수신하고, 확장 자막 데이터를 생성한다.
확장 자막 데이터는 문자열, 시작 시점, 화자 캐릭터 식별자, 위치 및 감정 정보에 상응하는 자막 그래픽 객체를 포함하고, 멀티미디어 콘텐츠와 결합된다.
자막 그래픽 객체는 감정 정보에 상응하는 글자 종류, 글자 크기, 글자 색, 그래픽 객체의 형태, 그래픽 객체의 크기 및 그래픽 객체의 바탕색으로 출력된다.
데이터베이스(3600)는 화자 캐릭터의 음성 정보와 감정 정보 및 등장 캐릭터의 안면 정보와 감정 정보를 저장 및 관리한다.
도 1 내지 11의 자막 생성기 및 자막 합성기와 도 12 내지 13의 자막 생성기 및 자막 합성기는 영상통화 환경에도 적용 가능하다.
일부 실시예에서, 스마트폰 내의 애플리케이션은 영상통화 멀티미디어 콘텐츠를 영상통화 멀티미디어 콘텐츠 관리 서버로 전송하고, 영상통화 멀티미디어 콘텐츠 관리 서버의 자막 생성기 및 자막 합성기는 확장 자막 데이터가 합성된 멀티미디어 콘텐츠를 생성할 수 있다.
다른 일부 실시예에서, 스마트폰 내의 애플리케이션은 자막 생성기 및 자막 합성기에 상응하는 프로그램이 내장되어 있고, 자막 생성기 및 자막 합성기에 상응하는 프로그램이 확장 자막 데이터가 합성된 멀티미디어 콘텐츠를 생성할 수 있다.
본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.
이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.
1000 : 자막 생성기
2000 : 자막 합성기

Claims (12)

  1. 콘텐츠 관리 서버로부터 오디오 데이터와 비디오 데이터를 포함하는 멀티미디어 콘텐츠를 수신하고, 상기 멀티미디어 콘텐츠를 이용하여 확장 자막 데이터를 생성하는 자막 생성기를 포함하고,
    상기 자막 생성기는,
    상기 오디오 데이터를 수신하고, 상기 오디오 데이터를 이용하여 기본 자막 데이터를 생성하는 기본 자막 데이터 생성기;
    상기 오디오 데이터를 수신하고, 상기 오디오 데이터를 이용하여 음성 인식에 의한 화자 캐릭터 식별자 및 감정 분류 정보를 생성하는 음성 인식 처리기;
    상기 비디오 데이터를 수신하고, 상기 비디오 데이터를 이용하여 안면 인식에 의한 등장 캐릭터 정보 및 감정 분류 정보를 생성하는 안면 인식 처리기;
    상기 화자 캐릭터 식별자 및 상기 등장 캐릭터 정보를 수신하고, 화자 정보를 생성하는 화자 정보 생성기;
    상기 음성 인식에 의한 감정 분류 정보, 상기 안면 인식에 의한 감정 분류 정보 및 상기 화자 정보를 수신하고, 감정 정보를 생성하는 감정 정보 생성기;
    상기 기본 자막 데이터, 상기 화자 정보 및 상기 감정 정보를 수신하고, 확장 자막 데이터를 생성하는 확장 자막 데이터 생성기; 및
    캐릭터의 음성 정보 및 안면 정보를 저장 및 관리하는 데이터베이스를 포함하고,
    상기 기본 자막 데이터는,
    상기 오디오 데이터로부터 검출된 문자열, 시작 시점의 정보를 포함하고,
    상기 화자 정보는,
    상기 등장 캐릭터에 화자가 포함되는 경우, 상기 화자 캐릭터 식별자 및 화자 캐릭터 위치이고, 상기 화자가 장면에 등장하지 않는 경우, 상기 화자 캐릭터 식별자이고,
    상기 감정 정보는,
    상기 등장 캐릭터에 화자가 포함되는 경우, 상기 음성 인식 및 상기 안면 인식 결과를 조합한 정보이고, 상기 화자가 장면에 등장하지 않는 경우, 상기 음성 인식 결과를 반영한 정보이고,
    상기 확장 자막 데이터는,
    상기 문자열, 상기 시작 시점, 상기 화자 정보, 및 상기 감정 정보에 상응하는 자막 그래픽 객체를 포함하고,
    상기 음성 인식 처리기는, 상기 오디오 데이터로부터 음성 인식된 음성 정보가 상기 데이터베이스에 저장된 음성 정보와 소정 기준 이상 유사하면 상기 데이터베이스에 저장된 음성 정보에 상응하는 화자 캐릭터를 식별하여 상기 화자 캐릭터 식별자를 생성하고,
    상기 안면 인식 처리기는, 상기 비디오 데이터로부터 안면 인식된 안면 정보가 상기 데이터베이스에 저장된 안면 정보와 소정 기준 이상 유사하면 상기 데이터베이스에 저장된 안면 정보에 상응하는 등장 캐릭터를 식별하여 상기 등장 캐릭터 정보를 생성하고,
    상기 화자 정보 생성기는, 상기 화자 캐릭터 식별자와 상기 등장 캐릭터 정보를 비교하고, 상기 비교 결과에 따라 상기 등장 캐릭터에 화자가 포함되는 경우인지 또는 상기 화자가 장면에 등장하지 않는 경우인지 판단하고,
    상기 자막 생성기로부터 상기 확장 자막 데이터를 수신하고, 상기 멀티미디어 콘텐츠 및 상기 확장 자막 데이터를 합성하는 자막 합성기를 더 포함하고,
    상기 자막 합성기는,
    상기 화자가 장면에 등장하지 않는 경우, 상기 화자 캐릭터 식별자가 출력되고, 상기 화자 캐릭터 식별자의 위치에 상기 감정 정보에 상응하는 자막 그래픽 객체가 출력되도록 상기 멀티미디어 콘텐츠 및 상기 확장 자막 데이터를 합성하는,
    그래픽 객체를 이용한 자막 생성 시스템.
  2. 제1 항에 있어서,
    상기 자막 그래픽 객체는,
    상기 감정 정보에 상응하는 글자 종류, 글자 크기, 글자 색, 글자 굵기, 그래픽 객체의 형태, 그래픽 객체의 크기 및 그래픽 객체의 바탕색 중 어느 하나가 반영되어 출력되는
    그래픽 객체를 이용한 자막 생성 시스템.
  3. 삭제
  4. 삭제
  5. 제1 항에 있어서,
    상기 등장 캐릭터 정보는,
    등장 캐릭터 수, 등장 캐릭터 식별자, 등장 캐릭터 위치를 포함하는
    그래픽 객체를 이용한 자막 생성 시스템.
  6. 삭제
  7. 콘텐츠 관리 서버로부터 오디오 데이터와 비디오 데이터를 포함하는 멀티미디어 콘텐츠 및 기본 자막 데이터를 수신하고, 상기 멀티미디어 콘텐츠 및 기본 자막 데이터를 이용하여 확장 자막 데이터를 생성하는 자막 생성기를 포함하고,
    상기 자막 생성기는,
    상기 오디오 데이터를 수신하고, 상기 오디오 데이터를 이용하여 음성 인식에 의한 화자 캐릭터 식별자 및 감정 분류 정보를 생성하는 음성 인식 처리기;
    상기 비디오 데이터를 수신하고, 상기 비디오 데이터를 이용하여 안면 인식에 의한 등장 캐릭터 정보 및 감정 분류 정보를 생성하는 안면 인식 처리기;
    상기 화자 캐릭터 식별자 및 상기 등장 캐릭터 정보를 수신하고, 화자 정보를 생성하는 화자 정보 생성기;
    상기 음성 인식에 의한 감정 분류 정보, 상기 안면 인식에 의한 감정 분류 정보 및 상기 화자 정보를 수신하고, 감정 정보를 생성하는 감정 정보 생성기;
    상기 기본 자막 데이터, 상기 화자 정보 및 상기 감정 정보를 수신하고, 확장 자막 데이터를 생성하는 확장 자막 데이터 생성기; 및
    캐릭터의 음성 정보 및 안면 정보를 저장 및 관리하는 데이터베이스를 포함하고,
    상기 기본 자막 데이터는,
    문자열, 시작 시점의 정보를 포함하고,
    상기 화자 정보는,
    상기 등장 캐릭터에 화자가 포함되는 경우, 상기 화자 캐릭터 식별자 및 화자 캐릭터 위치이고, 상기 화자가 장면에 등장하지 않는 경우, 상기 화자 캐릭터 식별자이고,
    상기 감정 정보는,
    상기 등장 캐릭터에 화자가 포함되는 경우, 상기 음성 인식 및 상기 안면 인식 결과를 조합한 정보이고, 상기 화자가 장면에 등장하지 않는 경우, 상기 음성 인식 결과를 반영한 정보이고,
    상기 확장 자막 데이터는,
    상기 문자열, 상기 시작 시점, 상기 화자 정보, 및 상기 감정 정보에 상응하는 자막 그래픽 객체를 포함하고,
    상기 음성 인식 처리기는, 상기 오디오 데이터로부터 음성 인식된 음성 정보가 상기 데이터베이스에 저장된 음성 정보와 소정 기준 이상 유사하면 상기 데이터베이스에 저장된 음성 정보에 상응하는 화자 캐릭터를 식별하여 상기 화자 캐릭터 식별자를 생성하고,
    상기 안면 인식 처리기는, 상기 비디오 데이터로부터 안면 인식된 안면 정보가 상기 데이터베이스에 저장된 안면 정보와 소정 기준 이상 유사하면 상기 데이터베이스에 저장된 안면 정보에 상응하는 등장 캐릭터를 식별하여 상기 등장 캐릭터 정보를 생성하고,
    상기 화자 정보 생성기는, 상기 화자 캐릭터 식별자와 상기 등장 캐릭터 정보를 비교하고, 상기 비교 결과에 따라 상기 등장 캐릭터에 화자가 포함되는 경우인지 또는 상기 화자가 장면에 등장하지 않는 경우인지 판단하고,
    상기 자막 생성기로부터 상기 확장 자막 데이터를 수신하고, 상기 멀티미디어 콘텐츠 및 상기 확장 자막 데이터를 합성하는 자막 합성기를 더 포함하고,
    상기 자막 합성기는,
    상기 화자가 장면에 등장하지 않는 경우, 상기 화자 캐릭터 식별자가 출력되고, 상기 화자 캐릭터 식별자의 위치에 상기 감정 정보에 상응하는 자막 그래픽 객체가 출력되도록 상기 멀티미디어 콘텐츠 및 상기 확장 자막 데이터를 합성하는,
    그래픽 객체를 이용한 자막 생성 시스템.
  8. 제7 항에 있어서,
    상기 자막 그래픽 객체는,
    상기 감정 정보에 상응하는 글자 종류, 글자 크기, 글자 색, 글자 굵기, 그래픽 객체의 형태, 그래픽 객체의 크기 및 그래픽 객체의 바탕색 중 어느 하나가 반영되어 출력되는
    그래픽 객체를 이용한 자막 생성 시스템.
  9. 삭제
  10. 삭제
  11. 제7 항에 있어서,
    상기 등장 캐릭터 정보는,
    등장 캐릭터 수, 등장 캐릭터 식별자, 등장 캐릭터 위치를 포함하는
    그래픽 객체를 이용한 자막 생성 시스템.
  12. 삭제
KR1020180133664A 2018-11-02 2018-11-02 그래픽 객체를 이용한 자막 생성 시스템 KR102136059B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020180133664A KR102136059B1 (ko) 2018-11-02 2018-11-02 그래픽 객체를 이용한 자막 생성 시스템
PCT/KR2019/014501 WO2020091431A1 (ko) 2018-11-02 2019-10-30 그래픽 객체를 이용한 자막 생성 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180133664A KR102136059B1 (ko) 2018-11-02 2018-11-02 그래픽 객체를 이용한 자막 생성 시스템

Publications (2)

Publication Number Publication Date
KR20200050707A KR20200050707A (ko) 2020-05-12
KR102136059B1 true KR102136059B1 (ko) 2020-07-21

Family

ID=70461908

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180133664A KR102136059B1 (ko) 2018-11-02 2018-11-02 그래픽 객체를 이용한 자막 생성 시스템

Country Status (2)

Country Link
KR (1) KR102136059B1 (ko)
WO (1) WO2020091431A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113794927A (zh) * 2021-08-12 2021-12-14 维沃移动通信有限公司 信息显示方法、装置及电子设备
KR102523048B1 (ko) * 2022-04-08 2023-04-18 조현석 가상공간에서의 소리 변환 시스템 및 그 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101900471B1 (ko) * 2017-03-23 2018-09-19 주식회사 아이티엑스엠투엠 반응 효과가 삽입된 방송 시스템

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7801910B2 (en) * 2005-11-09 2010-09-21 Ramp Holdings, Inc. Method and apparatus for timed tagging of media content
KR20090009674A (ko) 2007-07-20 2009-01-23 주식회사 씨엔 이지에스 화재감지 에스오씨의 회로구조
KR100977079B1 (ko) * 2008-06-24 2010-08-19 인하대학교 산학협력단 동영상의 자막 표시 방법
JP2016189158A (ja) * 2015-03-30 2016-11-04 富士フイルム株式会社 画像処理装置、画像処理方法、プログラムおよび記録媒体
KR101856192B1 (ko) * 2016-10-06 2018-06-20 주식회사 카카오 자막 생성 시스템, 자막 생성 방법, 그리고 콘텐트 생성 프로그램

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101900471B1 (ko) * 2017-03-23 2018-09-19 주식회사 아이티엑스엠투엠 반응 효과가 삽입된 방송 시스템

Also Published As

Publication number Publication date
WO2020091431A1 (ko) 2020-05-07
KR20200050707A (ko) 2020-05-12

Similar Documents

Publication Publication Date Title
CN110941954B (zh) 文本播报方法、装置、电子设备及存储介质
EP3758364B1 (en) Dynamic emoticon-generating method, computer-readable storage medium and computer device
CN107193841B (zh) 媒体文件加速播放、传输及存储的方法和装置
US20230232078A1 (en) Method and data processing apparatus
JP5564459B2 (ja) ビデオ会議に翻訳を追加するための方法及びシステム
TWI436808B (zh) Input support device, input support method and recording medium
KR102067446B1 (ko) 자막 생성 방법 및 시스템
KR20070020252A (ko) 메시지를 수정하기 위한 방법 및 시스템
US20230047858A1 (en) Method, apparatus, electronic device, computer-readable storage medium, and computer program product for video communication
KR102136059B1 (ko) 그래픽 객체를 이용한 자막 생성 시스템
CN111294606A (zh) 直播处理方法、装置、直播客户端及介质
CN114157920A (zh) 一种展示手语的播放方法、装置、智能电视及存储介质
KR20110100649A (ko) 음성을 합성하기 위한 방법 및 장치
JP2016091057A (ja) 電子機器
CN114363691A (zh) 语音字幕合成方法、装置、计算机设备及存储介质
CN110992984B (zh) 音频处理方法及装置、存储介质
JP4934090B2 (ja) 番組登場人物抽出装置及び番組登場人物抽出プログラム
JP2008252322A (ja) 要約提示装置及び要約提示方法
CN112995530A (zh) 视频的生成方法、装置及设备
KR20180128656A (ko) 원어민 동영상의 자막인지 및 해석기능을 갖는 영어 학습시스템을 이용한 영어 교육방법
US20230030502A1 (en) Information play control method and apparatus, electronic device, computer-readable storage medium and computer program product
CN112287129A (zh) 音频数据的处理方法、装置及电子设备
CN115623133A (zh) 线上会议方法、装置、电子设备及可读存储介质
CN112312062A (zh) 多人会议记录回放的3d展示方法、存储介质及终端设备
KR101647442B1 (ko) 비주얼 컨텐츠 제작 시스템, 방법 및 컴퓨터 판독 가능한 기록 매체

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant