KR102523816B1 - 영상이 재생되는 화면 상에 사용자의 질의 문장에 대한 답변 자막을 표시하는 전자 장치 및 그 동작 방법 - Google Patents

영상이 재생되는 화면 상에 사용자의 질의 문장에 대한 답변 자막을 표시하는 전자 장치 및 그 동작 방법 Download PDF

Info

Publication number
KR102523816B1
KR102523816B1 KR1020210059091A KR20210059091A KR102523816B1 KR 102523816 B1 KR102523816 B1 KR 102523816B1 KR 1020210059091 A KR1020210059091 A KR 1020210059091A KR 20210059091 A KR20210059091 A KR 20210059091A KR 102523816 B1 KR102523816 B1 KR 102523816B1
Authority
KR
South Korea
Prior art keywords
caption
subtitle
answer
electronic device
subtitles
Prior art date
Application number
KR1020210059091A
Other languages
English (en)
Other versions
KR20220151844A (ko
Inventor
손은채
안치연
원찬식
Original Assignee
주식회사 한글과컴퓨터
주식회사 한컴위드
(주)엠디에스인텔리전스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 한글과컴퓨터, 주식회사 한컴위드, (주)엠디에스인텔리전스 filed Critical 주식회사 한글과컴퓨터
Priority to KR1020210059091A priority Critical patent/KR102523816B1/ko
Publication of KR20220151844A publication Critical patent/KR20220151844A/ko
Application granted granted Critical
Publication of KR102523816B1 publication Critical patent/KR102523816B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7328Query by example, e.g. a complete video frame or video sequence
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4758End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for providing answers, e.g. voting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

영상이 재생되는 화면 상에 사용자의 질의 문장에 대한 답변 자막을 표시하는 전자 장치 및 그 동작 방법이 개시된다. 본 발명은 상기 전자 장치에서 제1 영상 데이터가 재생되기 시작하면, 사전 설정된 제1 재생 시간 간격으로 음성 인식을 수행하여 자막을 생성한 후, 생성된 자막을 자막 테이블에 기록하고, 상기 전자 장치에서 상기 제1 영상 데이터가 재생되는 도중, 제1 재생 시점에서 사용자에 의해, 제1 질의 문장이 입력되면서, 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 답변 자막에 대한 답변 자막 표시 명령이 인가되면, 상기 제1 재생 시점까지 상기 자막 테이블 상에 기록 완료된 복수의 자막들 중 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 적어도 하나의 제1 답변 자막을 선택하여 화면 상에 표시하는 전자 장치 및 그 동작 방법에 대한 것이다.

Description

영상이 재생되는 화면 상에 사용자의 질의 문장에 대한 답변 자막을 표시하는 전자 장치 및 그 동작 방법{ELECTRONIC APPARATUS WHICH DISPLAYS ANSWER SUBTITLES TO THE USER'S INQUIRY SENTENCE, ON THE SCREEN WHERE A VIDEO IS BEING PLAYED, AND THE OPERATING METHOD THEREOF}
본 발명은 영상이 재생되는 화면 상에 사용자의 질의 문장에 대한 답변 자막을 표시하는 전자 장치 및 그 동작 방법에 대한 것이다.
최근, 컴퓨터나 스마트폰 또는 태블릿 PC 등과 같은 전자 장치가 널리 보급됨에 따라, 이러한 전자 장치를 이용하여 시청할 수 있는 다양한 형태의 영상 콘텐츠들이 등장하고 있다.
특히, 전 세계적으로 COVID-19의 유행이 장기화됨에 따라, 사람들 간의 접촉과 이동이 제한되는 상황에서, 야외에서 활동을 하는 대신 전자 장치를 활용하여 다양한 영상을 시청하면서 여가 시간을 보내는 사용자들이 증가하고 있다.
이에 따라, 전자 장치를 활용하여 영상을 시청하는 데 있어서, 보다 편리한 기능이 도입되어야 할 필요성 또한 증대되고 있다.
관련해서, 기존의 기술에서는, 사용자가 영상을 시청하는 도중, 영상의 내용에 대한 질의 문장을 입력하면, 해당 질의 문장에 대한 답변을 제공하는 기능이 지원하지 않기 때문에, 사용자가 원하는 답변을 찾기 위해서는, 직접 영상의 내용을 일일이 확인하여 해당 질의 문장에 대한 답변을 찾아야 하는 번거로움이 있었다.
만약, 사용자가 질의 문장을 입력하면, 해당 질의 문장에 대한 답변 정보가 포함되어 있는 답변 자막을 영상이 재생되고 있는 화면 상에 표시하는 기술이 도입된다면, 사용자가 보다 편리하게 질의 문장에 대한 답변을 확인할 수 있을 것이다.
따라서, 전자 장치를 이용하여 영상을 시청하는 사용자의 편의성이 증대될 수 있도록 지원하기 위해, 영상이 재생되는 화면 상에 사용자의 질의 문장에 대한 답변 자막을 표시하는 기술에 대한 연구가 필요하다.
본 발명은 전자 장치에서 제1 영상 데이터가 재생되기 시작하면, 사전 설정된 제1 재생 시간 간격으로 음성 인식을 수행하여 자막을 생성한 후, 생성된 자막을 자막 테이블에 기록하고, 상기 전자 장치에서 상기 제1 영상 데이터가 재생되는 도중, 제1 재생 시점에서 사용자에 의해, 제1 질의 문장이 입력되면서, 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 답변 자막에 대한 답변 자막 표시 명령이 인가되면, 상기 제1 재생 시점까지 상기 자막 테이블 상에 기록 완료된 복수의 자막들 중 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 적어도 하나의 제1 답변 자막을 선택하여 화면 상에 표시하는 전자 장치 및 그 동작 방법을 제시함으로써, 상기 전자 장치를 이용하여 영상을 감상하는 사용자의 편의성이 증대될 수 있도록 지원하고자 한다.
본 발명의 일실시예에 따른 영상이 재생되는 화면 상에 사용자의 질의 문장에 대한 답변 자막을 표시하는 전자 장치는 영상 스트리밍(streaming) 서버로부터, 스트리밍 방식으로 제1 영상 데이터가 수신됨에 따라, 상기 전자 장치에서 제1 영상 데이터가 재생되기 시작하면, 사전 설정된 제1 재생 시간 간격으로 음성 인식을 수행하여 자막을 생성한 후 생성된 자막을 자막 테이블에 기록하는 자막 생성부, 상기 전자 장치에서 상기 제1 영상 데이터가 재생되는 도중, 제1 재생 시점에서 사용자에 의해, 제1 질의 문장이 입력되면서, 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 답변 자막을 화면 상에 표시할 것을 지시하는 답변 자막 표시 명령이 인가되면, 상기 자막 테이블로부터, 상기 제1 재생 시점까지 상기 자막 테이블 상에 기록 완료된 복수의 자막들을 추출하는 자막 추출부, 상기 복수의 자막들이 추출되면, 상기 복수의 자막들 중 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 적어도 하나의 제1 답변 자막을 선택하는 자막 선택부 및 상기 적어도 하나의 제1 답변 자막이 선택되면, 상기 적어도 하나의 제1 답변 자막을 화면 상에 표시하는 자막 표시부를 포함한다.
또한, 본 발명의 일실시예에 따른 영상이 재생되는 화면 상에 사용자의 질의 문장에 대한 답변 자막을 표시하는 전자 장치의 동작 방법은 영상 스트리밍 서버로부터, 스트리밍 방식으로 제1 영상 데이터가 수신됨에 따라, 상기 전자 장치에서 제1 영상 데이터가 재생되기 시작하면, 사전 설정된 제1 재생 시간 간격으로 음성 인식을 수행하여 자막을 생성한 후 생성된 자막을 자막 테이블에 기록하는 단계, 상기 전자 장치에서 상기 제1 영상 데이터가 재생되는 도중, 제1 재생 시점에서 사용자에 의해, 제1 질의 문장이 입력되면서, 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 답변 자막을 화면 상에 표시할 것을 지시하는 답변 자막 표시 명령이 인가되면, 상기 자막 테이블로부터, 상기 제1 재생 시점까지 상기 자막 테이블 상에 기록 완료된 복수의 자막들을 추출하는 단계, 상기 복수의 자막들이 추출되면, 상기 복수의 자막들 중 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 적어도 하나의 제1 답변 자막을 선택하는 단계 및 상기 적어도 하나의 제1 답변 자막이 선택되면, 상기 적어도 하나의 제1 답변 자막을 화면 상에 표시하는 단계를 포함한다.
본 발명은 전자 장치에서 제1 영상 데이터가 재생되기 시작하면, 사전 설정된 제1 재생 시간 간격으로 음성 인식을 수행하여 자막을 생성한 후, 생성된 자막을 자막 테이블에 기록하고, 상기 전자 장치에서 상기 제1 영상 데이터가 재생되는 도중, 제1 재생 시점에서 사용자에 의해, 제1 질의 문장이 입력되면서, 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 답변 자막에 대한 답변 자막 표시 명령이 인가되면, 상기 제1 재생 시점까지 상기 자막 테이블 상에 기록 완료된 복수의 자막들 중 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 적어도 하나의 제1 답변 자막을 선택하여 화면 상에 표시하는 전자 장치 및 그 동작 방법을 제시함으로써, 상기 전자 장치를 이용하여 영상을 감상하는 사용자의 편의성이 증대될 수 있도록 지원할 수 있다.
도 1은 본 발명의 일실시예에 따른 영상이 재생되는 화면 상에 사용자의 질의 문장에 대한 답변 자막을 표시하는 전자 장치의 구조를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 영상이 재생되는 화면 상에 사용자의 질의 문장에 대한 답변 자막을 표시하는 전자 장치의 동작 방법을 도시한 순서도이다.
이하에서는 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명하기로 한다. 이러한 설명은 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였으며, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 본 명세서 상에서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 사람에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.
본 문서에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다. 또한, 본 발명의 다양한 실시예들에 있어서, 각 구성요소들, 기능 블록들 또는 수단들은 하나 또는 그 이상의 하부 구성요소로 구성될 수 있고, 각 구성요소들이 수행하는 전기, 전자, 기계적 기능들은 전자회로, 집적회로, ASIC(Application Specific Integrated Circuit) 등 공지된 다양한 소자들 또는 기계적 요소들로 구현될 수 있으며, 각각 별개로 구현되거나 2 이상이 하나로 통합되어 구현될 수도 있다.
한편, 첨부된 블록도의 블록들이나 흐름도의 단계들은 범용 컴퓨터, 특수용 컴퓨터, 휴대용 노트북 컴퓨터, 네트워크 컴퓨터 등 데이터 프로세싱이 가능한 장비의 프로세서나 메모리에 탑재되어 지정된 기능들을 수행하는 컴퓨터 프로그램 명령들(instructions)을 의미하는 것으로 해석될 수 있다. 이들 컴퓨터 프로그램 명령들은 컴퓨터 장치에 구비된 메모리 또는 컴퓨터에서 판독 가능한 메모리에 저장될 수 있기 때문에, 블록도의 블록들 또는 흐름도의 단계들에서 설명된 기능들은 이를 수행하는 명령 수단을 내포하는 제조물로 생산될 수도 있다. 아울러, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 명령들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 가능한 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 정해진 순서와 달리 실행되는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 실질적으로 동시에 수행되거나, 역순으로 수행될 수 있으며, 경우에 따라 일부 블록들 또는 단계들이 생략된 채로 수행될 수도 있다.
도 1은 본 발명의 일실시예에 따른 영상이 재생되는 화면 상에 사용자의 질의 문장에 대한 답변 자막을 표시하는 전자 장치의 구조를 도시한 도면이다.
도 1을 참조하면, 영상이 재생되는 화면 상에 사용자의 질의 문장에 대한 답변 자막을 표시하는 전자 장치(110)는 자막 생성부(111), 자막 추출부(112), 자막 선택부(113) 및 자막 표시부(114)를 포함한다.
자막 생성부(111)는 영상 스트리밍(streaming) 서버(130)로부터, 스트리밍 방식으로 제1 영상 데이터가 수신됨에 따라, 전자 장치(110)에서 제1 영상 데이터가 재생되기 시작하면, 사전 설정된 제1 재생 시간 간격으로 음성 인식을 수행하여 자막을 생성한 후 생성된 자막을 자막 테이블에 기록한다.
이때, 본 발명의 일실시예에 따르면, 자막 생성부(111)는 상기 제1 재생 시간 간격으로 음성 인식을 수행하여 자막을 생성한 후 생성된 자막을 자막 테이블에 기록하기 위한 구체적인 구성으로, 이벤트 발생부(115), 부분 영상 데이터 생성부(116) 및 자막 생성 처리부(117)를 포함할 수 있다.
이벤트 발생부(115)는 전자 장치(110)에서 상기 제1 영상 데이터가 재생되기 시작하면, 상기 제1 영상 데이터의 최초 재생 시점을 시작으로 하여 상기 제1 재생 시간 간격마다, 음성 인식을 수행하기 위한 음성 인식 이벤트를 발생시킨다.
부분 영상 데이터 생성부(116)는 이벤트 발생부(115)에 의해 상기 음성 인식 이벤트가 발생되면, 상기 음성 인식 이벤트가 발생된 시점으로부터 상기 제1 재생 시간 동안에 영상 스트리밍 서버(130)로부터 스트리밍 방식으로 수신되는 영상 데이터를 결합함으로써, 부분 영상 데이터를 생성한다.
자막 생성 처리부(117)는 상기 부분 영상 데이터를 사전 구축된 음성 인식 모델에 입력으로 인가하여 음성 인식을 수행함으로써, 상기 부분 영상 데이터에 대한 자막을 생성한 후 생성된 자막을 상기 자막 테이블에 기록한다.
이때, 본 발명의 일실시예에 따르면, 자막 생성 처리부(117)는 상기 부분 영상 데이터에 대해, 사람의 음성에 대응되는 주파수 대역인 것으로 사전 설정된 제1 주파수 대역 이외의 주파수 대역의 소리 성분을 모두 제거한 후, 상기 제1 주파수 대역 이외의 주파수 대역의 소리 성분이 모두 제거된 부분 영상 데이터를 상기 음성 인식 모델에 입력으로 인가하여 음성 인식을 수행함으로써, 상기 부분 영상 데이터에 대한 자막을 생성할 수 있다.
이하에서는, 이벤트 발생부(115), 부분 영상 데이터 생성부(116) 및 자막 생성 처리부(117)의 동작을 예를 들어, 상세히 설명하기로 한다.
먼저, 영상 스트리밍 서버(130)로부터 스트리밍 방식으로 제1 영상 데이터가 수신됨에 따라, 전자 장치(110)에서 상기 제1 영상 데이터가 재생되기 시작하였다고 가정하자.
이때, 상기 제1 재생 시간을 '5초'라고 하는 경우, 이벤트 발생부(115)는 상기 제1 영상 데이터의 최초 재생 시점을 시작으로 하여 '5초' 간격마다, 음성 인식을 수행하기 위한 음성 인식 이벤트를 발생시킬 수 있다.
그러면, 부분 영상 데이터 생성부(116)는 상기 음성 인식 이벤트가 발생된 시점으로부터 '5초' 동안에 영상 스트리밍 서버(130)로부터 스트리밍 방식으로 수신되는 영상 데이터를 결합함으로써, 부분 영상 데이터를 생성할 수 있다.
관련해서, 상기 음성 인식 이벤트가 발생된 시점을 '상기 제1 영상 데이터의 최초 재생 시점'이라고 하는 경우, 부분 영상 데이터 생성부(116)는 '상기 제1 영상 데이터의 최초 재생 시점'으로부터 '5초' 동안에 영상 스트리밍 서버(130)로부터 스트리밍 방식으로 수신되는 영상 데이터를 결합함으로써, '분할 영상 데이터 1'을 생성할 수 있다.
이때, 사람의 음성에 대응되는 주파수 대역인 것으로 사전 설정된 제1 주파수 대역을 '50Hz ~ 4000Hz'라고 가정하자.
그러면, 자막 생성 처리부(117)는 '분할 영상 데이터 1'에 대해, '50Hz ~ 4000Hz' 이외의 주파수 대역의 소리 성분을 모두 제거한 후, '50Hz ~ 4000Hz' 이외의 주파수 대역의 소리 성분이 모두 제거된 '분할 영상 데이터 1'을 상기 음성 인식 모델에 입력하여 음성 인식을 수행함으로써, '분할 영상 데이터 1'에 대한 자막을 생성한 후, 생성된 자막을 상기 자막 테이블에 기록할 수 있다.
이렇게, 전자 장치(110)에서 상기 제1 영상 데이터가 재생되기 시작하면, 자막 생성부(111)는 '5초' 간격으로 음성 인식을 수행하여 자막을 생성한 후, 생성된 자막을 하기의 표 1과 같이, 자막 테이블에 기록할 수 있다.
생성된 자막
자막 1
자막 2
자막 3
자막 4
자막 5
...
이때, 전자 장치(110)에서 상기 제1 영상 데이터가 재생되는 도중, 제1 재생 시점에서 사용자(140)에 의해, 제1 질의 문장이 입력되면서, 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 답변 자막을 화면 상에 표시할 것을 지시하는 답변 자막 표시 명령이 인가되면, 자막 추출부(112)는 상기 자막 테이블로부터, 상기 제1 재생 시점까지 상기 자막 테이블 상에 기록 완료된 복수의 자막들을 추출한다.
예컨대, 전술한 예와 같이, 상기 제1 재생 시간을 '5초'라고 하고, 전자 장치(110)에서 상기 제1 영상 데이터가 재생되는 도중, '상기 제1 영상 데이터의 최초 재생 시점으로부터 26초가 지난 시점'에서 사용자(140)에 의해, 제1 질의 문장이 입력되면서, 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 답변 자막을 화면 상에 표시할 것을 지시하는 답변 자막 표시 명령이 인가되었다고 가정하자.
그러면, 자막 추출부(112)는 상기 표 1과 같은 자막 테이블로부터, '상기 제1 영상 데이터의 최초 재생 시점으로부터 26초가 지난 시점'까지 상기 표 1과 같은 자막 테이블 상에 기록 완료된 복수의 자막들을 추출할 수 있다.
관련해서, 자막 생성부(111)에 의해 '상기 제1 영상 데이터의 최초 재생 시점으로부터 26초가 지난 시점'까지 상기 자막 테이블 상에, '자막 1, 자막 2, 자막 3, 자막 4, 자막 5'가 기록 완료되었다고 하는 경우, 자막 추출부(112)는 상기 자막 테이블로부터, '자막 1, 자막 2, 자막 3, 자막 4, 자막 5'를 추출할 수 있다.
이렇게, 자막 추출부(112)에 의해 상기 복수의 자막들이 추출되면, 자막 선택부(113)는 상기 복수의 자막들 중 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 적어도 하나의 제1 답변 자막을 선택한다.
이때, 본 발명의 일실시예에 따르면, 자막 선택부(113)는 상기 복수의 자막들 중 상기 적어도 하나의 제1 답변 자막을 선택하기 위한 구체적인 구성으로, 사전 데이터베이스(118), 검색 키워드 선택부(119) 및 자막 선택 처리부(120)를 포함할 수 있다.
사전 데이터베이스(118)에는 사전 지정된 복수의 단어들이 저장되어 있다.
예컨대, 사전 지정된 복수의 단어들을 '단어 1, 단어 2, 단어 3, 단어 4, 단어 5'라고 하는 경우, 사전 데이터베이스(118)에는 하기의 표 2와 같이, 상기 복수의 단어들이 저장되어 있을 수 있다.
복수의 단어들
단어 1
단어 2
단어 3
단어 4
단어 5
검색 키워드 선택부(119)는 상기 제1 질의 문장에서 상기 복수의 단어들과 일치하는 단어가 존재하는지 여부를 확인하여, 상기 제1 질의 문장으로부터 상기 복수의 단어들과 일치하는 적어도 하나의 단어를 검색 키워드로 선택한다.
자막 선택 처리부(120)는 검색 키워드 선택부(119)에 의해 상기 적어도 하나의 단어가 검색 키워드로 선택되면, 상기 복수의 자막들 중에서, 상기 적어도 하나의 단어를 하나 이상 포함하고 있는 것으로 확인되는 자막을 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 상기 적어도 하나의 제1 답변 자막으로 선택한다.
이하에서는, 검색 키워드 선택부(119) 및 자막 선택 처리부(120)의 동작을 예를 들어, 상세히 설명하기로 한다.
먼저, 전술한 예와 같이, 자막 추출부(112)에 의해 상기 자막 테이블로부터, '자막 1, 자막 2, 자막 3, 자막 4, 자막 5'가 추출되었다고 가정하자.
그러면, 검색 키워드 선택부(119)는 상기 제1 질의 문장에서 상기 복수의 단어들인 '단어 1, 단어 2, 단어 3, 단어 4, 단어 5'와 일치하는 단어가 존재하는지 여부를 확인할 수 있다.
관련해서, 검색 키워드 선택부(119)가 상기 제1 질의 문장에서 '단어 1, 단어 2, 단어 3, 단어 4, 단어 5'와 일치하는 단어가 존재하는지 여부를 확인한 결과, 상기 제1 질의 문장에서 '단어 1, 단어 3, 단어 4'와 일치하는 단어가 존재하는 것으로 확인되었다고 하는 경우, 검색 키워드 선택부(119)는 상기 제1 질의 문장으로부터 '단어 1, 단어 3, 단어 4'를 검색 키워드로 선택할 수 있다.
그러면, 자막 선택 처리부(120)는 '자막 1, 자막 2, 자막 3, 자막 4, 자막 5' 중에서, '단어 1, 단어 3, 단어 4'를 하나 이상 포함하고 있는 것으로 확인되는 자막을 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 상기 적어도 하나의 제1 답변 자막으로 선택할 수 있다.
관련해서, 자막 선택 처리부(120)가 '자막 1, 자막 2, 자막 3, 자막 4, 자막 5' 각각에 대해, '단어 1, 단어 3, 단어 4'를 하나 이상 포함하고 있는지 여부를 확인한 결과, '자막 1, 자막 2, 자막 3, 자막 4, 자막 5' 중 '자막 2, 자막 5'에, '단어 1, 단어 3, 단어 4'가 하나 이상 포함되어 있는 것으로 확인되었다고 하는 경우, 자막 선택 처리부(120)는 '자막 2, 자막 5'를 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 상기 적어도 하나의 제1 답변 자막으로 선택할 수 있다.
이렇게, 자막 선택부(113)에 의해 상기 적어도 하나의 제1 답변 자막이 선택되면, 자막 표시부(114)는 상기 적어도 하나의 제1 답변 자막을 화면 상에 표시할 수 있다.
예컨대, 전술한 예와 같이, 자막 선택 처리부(120)에 의해 '자막 2, 자막 5'가 상기 적어도 하나의 제1 답변 자막으로 선택되었다고 하는 경우, 자막 표시부(114)는 '자막 2, 자막 5'를 화면 상에 표시할 수 있다.
즉, 전자 장치(110)는 전자 장치(110)에서 상기 제1 영상 데이터가 재생되기 시작하면, 상기 제1 재생 시간 간격으로 음성 인식을 수행하여 자막을 생성한 후, 생성된 자막을 상기 자막 테이블에 기록하고, 전자 장치(110)에서 상기 제1 영상 데이터가 재생되는 도중, 상기 제1 재생 시점에서 사용자(140)에 의해, 상기 제1 질의 문장이 입력되면서, 상기 답변 자막 표시 명령이 인가되면, 상기 제1 재생 시점까지 상기 자막 테이블 상에 기록 완료된 복수의 자막들 중 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 상기 적어도 하나의 제1 답변 자막을 선택하여 화면 상에 표시할 수 있다.
한편, 상황에 따라서는, 사용자(140)가 입력한 상기 제1 질의 문장의 언어가 상기 제1 영상 데이터의 언어와 상이한 외국어일 수 있다.
이러한 경우에, 본 발명의 일실시예에 따르면, 전자 장치(110)는 상기 적어도 하나의 제1 답변 자막을, 상기 제1 질의 문장의 언어와 동일한 언어로 번역하여 화면 상에 표시하는 기능을 추가로 지원할 수 있다.
이와 관련해서, 본 발명의 일실시예에 따르면, 상기 제1 영상 데이터는 사전 설정된 기본 언어의 음성으로 더빙된 영상 데이터로서, 자막 생성부(111)는 전자 장치(110)에서 상기 제1 영상 데이터가 재생되기 시작하면, 상기 제1 재생 시간 간격으로 음성 인식을 수행함으로써, 상기 기본 언어로 구성된 자막을 생성한 후 생성된 자막을 상기 자막 테이블에 기록할 수 있다.
예컨대, 상기 기본 언어를 '한국어'라고 하는 경우, 상기 제1 영상 데이터는 '한국어'의 음성으로 더빙된 영상 데이터일 수 있다.
또한, 전술한 예와 같이, 상기 제1 재생 시간을 '5초'라고 하는 경우, 자막 생성부(111)는 전자 장치(110)에서 상기 제1 영상 데이터가 재생되기 시작하면, '5초' 간격으로 음성 인식을 수행함으로써, '한국어'로 구성된 자막을 생성한 후 생성된 자막을 상기 자막 테이블에 기록할 수 있다.
이때, 자막 추출부(112)는 언어 감지부(121), 번역 처리부(122) 및 추출 처리부(123)를 포함할 수 있다.
언어 감지부(121)는 전자 장치(110)에서 상기 제1 영상 데이터가 재생되는 도중, 사용자(140)에 의해, 상기 제1 질의 문장이 입력되면서, 상기 답변 자막 표시 명령이 인가되면, 상기 자막 테이블로부터 상기 복수의 자막들을 추출하기 전에, 사전 구축된 언어 감지 엔진을 통해, 상기 제1 질의 문장의 언어를 감지한다.
번역 처리부(122)는 언어 감지부(121)에 의해 상기 제1 질의 문장의 언어가, 상기 기본 언어와 상이한 제1 외국어인 것으로 감지되면, 상기 제1 질의 문장을 사전 구축된 번역 엔진을 통해, 상기 기본 언어로 번역한다.
추출 처리부(123)는 번역 처리부(122)에 의해 상기 제1 질의 문장이 상기 기본 언어로 번역 완료되면, 상기 자막 테이블로부터, 상기 제1 재생 시점까지 상기 자막 테이블 상에 기록 완료된 상기 복수의 자막들을 추출한다.
이하에서는, 언어 감지부(121), 번역 처리부(122) 및 추출 처리부(123)의 동작을 예를 들어, 상세히 설명하기로 한다.
먼저, 전술한 예와 같이, 상기 기본 언어를 '한국어'라고 하고, 전자 장치(110)에서 '한국어'의 음성으로 더빙된 영상 데이터인 상기 제1 영상 데이터가 재생되기 시작함에 따라, 자막 생성부(111)에 의해, 생성된 '한국어'로 구성된 자막이 상기 자막 테이블에 기록되었다고 가정하자.
또한, 전술한 예와 같이, 전자 장치(110)에서 상기 제1 영상 데이터가 재생되는 도중, 사용자(140)에 의해, 상기 제1 질의 문장이 입력되면서, 상기 답변 자막 표시 명령이 인가되었다고 하는 경우, 언어 감지부(121)는 상기 자막 테이블로부터 상기 복수의 자막들을 추출하기 전에, 사전 구축된 언어 감지 엔진을 통해, 상기 제1 질의 문장의 언어를 감지할 수 있다.
그 결과, 상기 제1 질의 문장의 언어가 '영어'인 것으로 감지되었다고 하는 경우, '영어'는 상기 기본 언어인 '한국어'와 상이하므로, 번역 처리부(122)는 상기 제1 질의 문장을 사전 구축된 번역 엔진을 통해, '한국어'로 번역할 수 있다.
그러고 나서, 추출 처리부(123)는 상기 자막 테이블로부터, 상기 제1 재생 시점까지 상기 자막 테이블 상에 기록 완료된 상기 복수의 자막들을 추출할 수 있다.
이렇게, 자막 추출부(112)에 의해 상기 복수의 자막들이 추출되면, 자막 선택부(113)는 상기 복수의 자막들 중 상기 기본 언어로 번역된 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 상기 적어도 하나의 제1 답변 자막을 선택할 수 있다.
자막 표시부(114)는 자막 선택부(113)에 의해 상기 적어도 하나의 제1 답변 자막이 선택되면, 상기 적어도 하나의 제1 답변 자막을 상기 번역 엔진을 통해, 상기 제1 외국어로 번역한 후, 상기 제1 외국어로 번역된 상기 적어도 하나의 제1 답변 자막을 화면 상에 표시할 수 있다.
이하에서는, 자막 선택부(113) 및 자막 표시부(114)의 동작을 예를 들어, 상세히 설명하기로 한다.
먼저, 전술한 예와 같이, 상기 기본 언어를 '한국어'라고 하고, 언어 감지부(121)에 의해 상기 제1 질의 문장의 언어가 '영어'인 것으로 감지됨에 따라, 번역 처리부(122)에 의해 상기 제1 질의 문장이 '한국어'로 번역되었다고 하고, 그 이후, 자막 추출부(112)에 의해 상기 복수의 자막들 추출되었다고 가정하자.
그러면, 자막 선택부(113)는 상기 복수의 자막들 중 '한국어'로 번역된 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 상기 적어도 하나의 제1 답변 자막을 선택할 수 있다.
그러고 나서, 자막 표시부(114)는 상기 적어도 하나의 제1 답변 자막을 상기 번역 엔진을 통해, '영어'로 번역한 후, '영어'로 번역된 상기 적어도 하나의 제1 답변 자막을 화면 상에 표시할 수 있다.
도 2는 본 발명의 일실시예에 따른 영상이 재생되는 화면 상에, 사용자의 질의 문장에 대한 답변 자막을 표시하는 전자 장치의 동작 방법을 도시한 순서도이다.
단계(S210)에서는 영상 스트리밍 서버로부터, 스트리밍 방식으로 제1 영상 데이터가 수신됨에 따라, 상기 전자 장치에서 제1 영상 데이터가 재생되기 시작하면, 사전 설정된 제1 재생 시간 간격으로 음성 인식을 수행하여 자막을 생성한 후 생성된 자막을 자막 테이블에 기록한다.
단계(S220)에서는 상기 전자 장치에서 상기 제1 영상 데이터가 재생되는 도중, 제1 재생 시점에서 사용자에 의해, 제1 질의 문장이 입력되면서, 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 답변 자막을 화면 상에 표시할 것을 지시하는 답변 자막 표시 명령이 인가되면, 상기 자막 테이블로부터, 상기 제1 재생 시점까지 상기 자막 테이블 상에 기록 완료된 복수의 자막들을 추출한다.
단계(S230)에서는 상기 복수의 자막들이 추출되면, 상기 복수의 자막들 중 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 적어도 하나의 제1 답변 자막을 선택한다.
단계(S240)에서는 상기 적어도 하나의 제1 답변 자막이 선택되면, 상기 적어도 하나의 제1 답변 자막을 화면 상에 표시한다.
이때, 본 발명의 일실시예에 따르면, 단계(S210)에서는 상기 전자 장치에서 상기 제1 영상 데이터가 재생되기 시작하면, 상기 제1 영상 데이터의 최초 재생 시점을 시작으로 하여 상기 제1 재생 시간 간격마다, 음성 인식을 수행하기 위한 음성 인식 이벤트를 발생시키는 단계, 상기 음성 인식 이벤트가 발생되면, 상기 음성 인식 이벤트가 발생된 시점으로부터 상기 제1 재생 시간 동안에 상기 영상 스트리밍 서버로부터 스트리밍 방식으로 수신되는 영상 데이터를 결합함으로써, 부분 영상 데이터를 생성하는 단계 및 상기 부분 영상 데이터를 사전 구축된 음성 인식 모델에 입력으로 인가하여 음성 인식을 수행함으로써, 상기 부분 영상 데이터에 대한 자막을 생성한 후 생성된 자막을 상기 자막 테이블에 기록하는 단계를 포함할 수 있다.
이때, 본 발명의 일실시예에 따르면, 상기 부분 영상 데이터에 대한 자막을 생성한 후 생성된 자막을 상기 자막 테이블에 기록하는 단계는 상기 부분 영상 데이터에 대해, 사람의 음성에 대응되는 주파수 대역인 것으로 사전 설정된 제1 주파수 대역 이외의 주파수 대역의 소리 성분을 모두 제거한 후, 상기 제1 주파수 대역 이외의 주파수 대역의 소리 성분이 모두 제거된 부분 영상 데이터를 상기 음성 인식 모델에 입력으로 인가하여 음성 인식을 수행함으로써, 상기 부분 영상 데이터에 대한 자막을 생성할 수 있다.
또한, 본 발명의 일실시예에 따르면, 단계(S230)에서는 사전 지정된 복수의 단어들이 저장되어 있는 사전 데이터베이스를 유지하는 단계, 상기 제1 질의 문장에서 상기 복수의 단어들과 일치하는 단어가 존재하는지 여부를 확인하여, 상기 제1 질의 문장으로부터 상기 복수의 단어들과 일치하는 적어도 하나의 단어를 검색 키워드로 선택하는 단계 및 상기 적어도 하나의 단어가 검색 키워드로 선택되면, 상기 복수의 자막들 중에서, 상기 적어도 하나의 단어를 하나 이상 포함하고 있는 것으로 확인되는 자막을 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 상기 적어도 하나의 제1 답변 자막으로 선택하는 단계를 포함할 수 있다.
또한, 본 발명의 일실시예에 따르면, 상기 제1 영상 데이터는 사전 설정된 기본 언어의 음성으로 더빙된 영상 데이터일 수 있고, 이때, 단계(S210)에서는 상기 전자 장치에서 상기 제1 영상 데이터가 재생되기 시작하면, 상기 제1 재생 시간 간격으로 음성 인식을 수행함으로써, 상기 기본 언어로 구성된 자막을 생성한 후 생성된 자막을 상기 자막 테이블에 기록할 수 있으며, 단계(S220)에서는 상기 전자 장치에서 상기 제1 영상 데이터가 재생되는 도중, 상기 사용자에 의해, 상기 제1 질의 문장이 입력되면서, 상기 답변 자막 표시 명령이 인가되면, 상기 자막 테이블로부터 상기 복수의 자막들을 추출하기 전에, 사전 구축된 언어 감지 엔진을 통해, 상기 제1 질의 문장의 언어를 감지하는 단계, 상기 제1 질의 문장의 언어가, 상기 기본 언어와 상이한 제1 외국어인 것으로 감지되면, 상기 제1 질의 문장을 사전 구축된 번역 엔진을 통해, 상기 기본 언어로 번역하는 단계 및 상기 제1 질의 문장이 상기 기본 언어로 번역 완료되면, 상기 자막 테이블로부터, 상기 제1 재생 시점까지 상기 자막 테이블 상에 기록 완료된 상기 복수의 자막들을 추출하는 단계를 포함할 수 있고, 단계(S230)에서는 상기 복수의 자막들이 추출되면, 상기 복수의 자막들 중 상기 기본 언어로 번역된 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 상기 적어도 하나의 제1 답변 자막을 선택할 수 있으며, 단계(S240)에서는 상기 적어도 하나의 제1 답변 자막이 선택되면, 상기 적어도 하나의 제1 답변 자막을 상기 번역 엔진을 통해, 상기 제1 외국어로 번역한 후, 상기 제1 외국어로 번역된 상기 적어도 하나의 제1 답변 자막을 화면 상에 표시할 수 있다.
이상, 도 2를 참조하여 본 발명의 일실시예에 따른 영상이 재생되는 화면 상에 사용자의 질의 문장에 대한 답변 자막을 표시하는 전자 장치의 동작 방법에 대해 설명하였다. 여기서, 본 발명의 일실시예에 따른 영상이 재생되는 화면 상에 사용자의 질의 문장에 대한 답변 자막을 표시하는 전자 장치의 동작 방법은 도 1을 이용하여 설명한 전자 장치(110)의 동작에 대한 구성과 대응될 수 있으므로, 이에 대한 보다 상세한 설명은 생략하기로 한다.
본 발명의 일실시예에 따른 영상이 재생되는 화면 상에 사용자의 질의 문장에 대한 답변 자막을 표시하는 전자 장치의 동작 방법은 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다.
또한, 본 발명의 일실시예에 따른 영상이 재생되는 화면 상에 사용자의 질의 문장에 대한 답변 자막을 표시하는 전자 장치의 동작 방법은 컴퓨터와의 결합을 통해 실행시키기 위한 컴퓨터 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.
110: 영상이 재생되는 화면 상에 사용자의 질의 문장에 대한 답변 자막을 표시하는 전자 장치
111: 자막 생성부 112: 자막 추출부
113: 자막 선택부 114: 자막 표시부
115: 이벤트 발생부 116: 부분 영상 데이터 생성부
117: 자막 처리 생성부 118: 사전 데이터베이스
119: 검색 키워드 선택부 120: 자막 선택 처리부
121: 언어 감지부 122: 번역 처리부
123: 추출 처리부
130: 영상 스트리밍 서버
140: 사용자

Claims (12)

  1. 영상이 재생되는 화면 상에 사용자의 질의 문장에 대한 답변 자막을 표시하는 전자 장치에 있어서,
    영상 스트리밍(streaming) 서버로부터, 스트리밍 방식으로 제1 영상 데이터가 수신됨에 따라, 상기 전자 장치에서 제1 영상 데이터가 재생되기 시작하면, 사전 설정된 제1 재생 시간 간격으로 음성 인식을 수행하여 자막을 생성한 후 생성된 자막을 자막 테이블에 기록하는 자막 생성부;
    상기 전자 장치에서 상기 제1 영상 데이터가 재생되는 도중, 제1 재생 시점에서 사용자에 의해, 제1 질의 문장이 입력되면서, 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 답변 자막을 화면 상에 표시할 것을 지시하는 답변 자막 표시 명령이 인가되면, 상기 자막 테이블로부터, 상기 제1 재생 시점까지 상기 자막 테이블 상에 기록 완료된 복수의 자막들을 추출하는 자막 추출부;
    상기 복수의 자막들이 추출되면, 상기 복수의 자막들 중 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 적어도 하나의 제1 답변 자막을 선택하는 자막 선택부; 및
    상기 적어도 하나의 제1 답변 자막이 선택되면, 상기 적어도 하나의 제1 답변 자막을 화면 상에 표시하는 자막 표시부
    를 포함하고,
    상기 자막 생성부는
    상기 전자 장치에서 상기 제1 영상 데이터가 재생되기 시작하면, 상기 제1 영상 데이터의 최초 재생 시점을 시작으로 하여 상기 제1 재생 시간 간격마다, 음성 인식을 수행하기 위한 음성 인식 이벤트를 발생시키는 이벤트 발생부;
    상기 음성 인식 이벤트가 발생되면, 상기 음성 인식 이벤트가 발생된 시점으로부터 상기 제1 재생 시간 동안에 상기 영상 스트리밍 서버로부터 스트리밍 방식으로 수신되는 영상 데이터를 결합함으로써, 부분 영상 데이터를 생성하는 부분 영상 데이터 생성부; 및
    상기 부분 영상 데이터를 사전 구축된 음성 인식 모델에 입력으로 인가하여 음성 인식을 수행함으로써, 상기 부분 영상 데이터에 대한 자막을 생성한 후 생성된 자막을 상기 자막 테이블에 기록하는 자막 생성 처리부
    를 포함하는 전자 장치.
  2. 삭제
  3. 제1항에 있어서,
    상기 자막 생성 처리부는
    상기 부분 영상 데이터에 대해, 사람의 음성에 대응되는 주파수 대역인 것으로 사전 설정된 제1 주파수 대역 이외의 주파수 대역의 소리 성분을 모두 제거한 후, 상기 제1 주파수 대역 이외의 주파수 대역의 소리 성분이 모두 제거된 부분 영상 데이터를 상기 음성 인식 모델에 입력으로 인가하여 음성 인식을 수행함으로써, 상기 부분 영상 데이터에 대한 자막을 생성하는 것을 특징으로 하는 전자 장치.
  4. 제1항에 있어서,
    상기 자막 선택부는
    사전 지정된 복수의 단어들이 저장되어 있는 사전 데이터베이스;
    상기 제1 질의 문장에서 상기 복수의 단어들과 일치하는 단어가 존재하는지 여부를 확인하여, 상기 제1 질의 문장으로부터 상기 복수의 단어들과 일치하는 적어도 하나의 단어를 검색 키워드로 선택하는 검색 키워드 선택부; 및
    상기 적어도 하나의 단어가 검색 키워드로 선택되면, 상기 복수의 자막들 중에서, 상기 적어도 하나의 단어를 하나 이상 포함하고 있는 것으로 확인되는 자막을 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 상기 적어도 하나의 제1 답변 자막으로 선택하는 자막 선택 처리부
    를 포함하는 전자 장치.
  5. 제1항에 있어서,
    상기 제1 영상 데이터는 사전 설정된 기본 언어의 음성으로 더빙된 영상 데이터로서, 상기 자막 생성부는 상기 전자 장치에서 상기 제1 영상 데이터가 재생되기 시작하면, 상기 제1 재생 시간 간격으로 음성 인식을 수행함으로써, 상기 기본 언어로 구성된 자막을 생성한 후 생성된 자막을 상기 자막 테이블에 기록하고,
    상기 자막 추출부는
    상기 전자 장치에서 상기 제1 영상 데이터가 재생되는 도중, 상기 사용자에 의해, 상기 제1 질의 문장이 입력되면서, 상기 답변 자막 표시 명령이 인가되면, 상기 자막 테이블로부터 상기 복수의 자막들을 추출하기 전에, 사전 구축된 언어 감지 엔진을 통해, 상기 제1 질의 문장의 언어를 감지하는 언어 감지부;
    상기 제1 질의 문장의 언어가, 상기 기본 언어와 상이한 제1 외국어인 것으로 감지되면, 상기 제1 질의 문장을 사전 구축된 번역 엔진을 통해, 상기 기본 언어로 번역하는 번역 처리부; 및
    상기 제1 질의 문장이 상기 기본 언어로 번역 완료되면, 상기 자막 테이블로부터, 상기 제1 재생 시점까지 상기 자막 테이블 상에 기록 완료된 상기 복수의 자막들을 추출하는 추출 처리부
    를 포함하며,
    상기 자막 선택부는
    상기 복수의 자막들이 추출되면, 상기 복수의 자막들 중 상기 기본 언어로 번역된 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 상기 적어도 하나의 제1 답변 자막을 선택하고,
    상기 자막 표시부는
    상기 적어도 하나의 제1 답변 자막이 선택되면, 상기 적어도 하나의 제1 답변 자막을 상기 번역 엔진을 통해, 상기 제1 외국어로 번역한 후, 상기 제1 외국어로 번역된 상기 적어도 하나의 제1 답변 자막을 화면 상에 표시하는 것을 특징으로 하는 전자 장치.
  6. 영상이 재생되는 화면 상에 사용자의 질의 문장에 대한 답변 자막을 표시하는 전자 장치의 동작 방법에 있어서,
    영상 스트리밍(streaming) 서버로부터, 스트리밍 방식으로 제1 영상 데이터가 수신됨에 따라, 상기 전자 장치에서 제1 영상 데이터가 재생되기 시작하면, 사전 설정된 제1 재생 시간 간격으로 음성 인식을 수행하여 자막을 생성한 후 생성된 자막을 자막 테이블에 기록하는 단계;
    상기 전자 장치에서 상기 제1 영상 데이터가 재생되는 도중, 제1 재생 시점에서 사용자에 의해, 제1 질의 문장이 입력되면서, 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 답변 자막을 화면 상에 표시할 것을 지시하는 답변 자막 표시 명령이 인가되면, 상기 자막 테이블로부터, 상기 제1 재생 시점까지 상기 자막 테이블 상에 기록 완료된 복수의 자막들을 추출하는 단계;
    상기 복수의 자막들이 추출되면, 상기 복수의 자막들 중 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 적어도 하나의 제1 답변 자막을 선택하는 단계; 및
    상기 적어도 하나의 제1 답변 자막이 선택되면, 상기 적어도 하나의 제1 답변 자막을 화면 상에 표시하는 단계
    를 포함하고,
    상기 생성된 자막을 자막 테이블에 기록하는 단계는
    상기 전자 장치에서 상기 제1 영상 데이터가 재생되기 시작하면, 상기 제1 영상 데이터의 최초 재생 시점을 시작으로 하여 상기 제1 재생 시간 간격마다, 음성 인식을 수행하기 위한 음성 인식 이벤트를 발생시키는 단계;
    상기 음성 인식 이벤트가 발생되면, 상기 음성 인식 이벤트가 발생된 시점으로부터 상기 제1 재생 시간 동안에 상기 영상 스트리밍 서버로부터 스트리밍 방식으로 수신되는 영상 데이터를 결합함으로써, 부분 영상 데이터를 생성하는 단계; 및
    상기 부분 영상 데이터를 사전 구축된 음성 인식 모델에 입력으로 인가하여 음성 인식을 수행함으로써, 상기 부분 영상 데이터에 대한 자막을 생성한 후 생성된 자막을 상기 자막 테이블에 기록하는 단계
    를 포함하는 전자 장치의 동작 방법.
  7. 삭제
  8. 제6항에 있어서,
    상기 부분 영상 데이터에 대한 자막을 생성한 후 생성된 자막을 상기 자막 테이블에 기록하는 단계는
    상기 부분 영상 데이터에 대해, 사람의 음성에 대응되는 주파수 대역인 것으로 사전 설정된 제1 주파수 대역 이외의 주파수 대역의 소리 성분을 모두 제거한 후, 상기 제1 주파수 대역 이외의 주파수 대역의 소리 성분이 모두 제거된 부분 영상 데이터를 상기 음성 인식 모델에 입력으로 인가하여 음성 인식을 수행함으로써, 상기 부분 영상 데이터에 대한 자막을 생성하는 것을 특징으로 하는 전자 장치의 동작 방법.
  9. 제6항에 있어서,
    상기 적어도 하나의 제1 답변 자막을 선택하는 단계는
    사전 지정된 복수의 단어들이 저장되어 있는 사전 데이터베이스를 유지하는 단계;
    상기 제1 질의 문장에서 상기 복수의 단어들과 일치하는 단어가 존재하는지 여부를 확인하여, 상기 제1 질의 문장으로부터 상기 복수의 단어들과 일치하는 적어도 하나의 단어를 검색 키워드로 선택하는 단계; 및
    상기 적어도 하나의 단어가 검색 키워드로 선택되면, 상기 복수의 자막들 중에서, 상기 적어도 하나의 단어를 하나 이상 포함하고 있는 것으로 확인되는 자막을 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 상기 적어도 하나의 제1 답변 자막으로 선택하는 단계
    를 포함하는 전자 장치의 동작 방법.
  10. 제6항에 있어서,
    상기 제1 영상 데이터는 사전 설정된 기본 언어의 음성으로 더빙된 영상 데이터로서, 상기 생성된 자막을 자막 테이블에 기록하는 단계는 상기 전자 장치에서 상기 제1 영상 데이터가 재생되기 시작하면, 상기 제1 재생 시간 간격으로 음성 인식을 수행함으로써, 상기 기본 언어로 구성된 자막을 생성한 후 생성된 자막을 상기 자막 테이블에 기록하고,
    상기 복수의 자막들을 추출하는 단계는
    상기 전자 장치에서 상기 제1 영상 데이터가 재생되는 도중, 상기 사용자에 의해, 상기 제1 질의 문장이 입력되면서, 상기 답변 자막 표시 명령이 인가되면, 상기 자막 테이블로부터 상기 복수의 자막들을 추출하기 전에, 사전 구축된 언어 감지 엔진을 통해, 상기 제1 질의 문장의 언어를 감지하는 단계;
    상기 제1 질의 문장의 언어가, 상기 기본 언어와 상이한 제1 외국어인 것으로 감지되면, 상기 제1 질의 문장을 사전 구축된 번역 엔진을 통해, 상기 기본 언어로 번역하는 단계; 및
    상기 제1 질의 문장이 상기 기본 언어로 번역 완료되면, 상기 자막 테이블로부터, 상기 제1 재생 시점까지 상기 자막 테이블 상에 기록 완료된 상기 복수의 자막들을 추출하는 단계
    를 포함하며,
    상기 적어도 하나의 제1 답변 자막을 선택하는 단계는
    상기 복수의 자막들이 추출되면, 상기 복수의 자막들 중 상기 기본 언어로 번역된 상기 제1 질의 문장에 대응되는 답변 정보가 포함된 상기 적어도 하나의 제1 답변 자막을 선택하고,
    상기 적어도 하나의 제1 답변 자막을 화면 상에 표시하는 단계는
    상기 적어도 하나의 제1 답변 자막이 선택되면, 상기 적어도 하나의 제1 답변 자막을 상기 번역 엔진을 통해, 상기 제1 외국어로 번역한 후, 상기 제1 외국어로 번역된 상기 적어도 하나의 제1 답변 자막을 화면 상에 표시하는 것을 특징으로 하는 전자 장치의 동작 방법.
  11. 제6항, 제8항, 제9항 또는 제10항 중 어느 한 항의 방법을 컴퓨터와의 결합을 통해 실행시키기 위한 컴퓨터 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
  12. 제6항, 제8항, 제9항 또는 제10항 중 어느 한 항의 방법을 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램.
KR1020210059091A 2021-05-07 2021-05-07 영상이 재생되는 화면 상에 사용자의 질의 문장에 대한 답변 자막을 표시하는 전자 장치 및 그 동작 방법 KR102523816B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210059091A KR102523816B1 (ko) 2021-05-07 2021-05-07 영상이 재생되는 화면 상에 사용자의 질의 문장에 대한 답변 자막을 표시하는 전자 장치 및 그 동작 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210059091A KR102523816B1 (ko) 2021-05-07 2021-05-07 영상이 재생되는 화면 상에 사용자의 질의 문장에 대한 답변 자막을 표시하는 전자 장치 및 그 동작 방법

Publications (2)

Publication Number Publication Date
KR20220151844A KR20220151844A (ko) 2022-11-15
KR102523816B1 true KR102523816B1 (ko) 2023-05-15

Family

ID=84041717

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210059091A KR102523816B1 (ko) 2021-05-07 2021-05-07 영상이 재생되는 화면 상에 사용자의 질의 문장에 대한 답변 자막을 표시하는 전자 장치 및 그 동작 방법

Country Status (1)

Country Link
KR (1) KR102523816B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009130469A (ja) * 2007-11-20 2009-06-11 Casio Hitachi Mobile Communications Co Ltd 字幕付映像再生装置及びプログラム。
US20200336796A1 (en) * 2018-04-25 2020-10-22 Tencent Technology (Shenzhen) Company Limited Video stream processing method and apparatus, computer device, and storage medium

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102119724B1 (ko) * 2018-05-16 2020-06-05 주식회사 한글과컴퓨터 동영상에 대한 빠른 검색을 지원하는 단말 장치 및 그 동작 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009130469A (ja) * 2007-11-20 2009-06-11 Casio Hitachi Mobile Communications Co Ltd 字幕付映像再生装置及びプログラム。
US20200336796A1 (en) * 2018-04-25 2020-10-22 Tencent Technology (Shenzhen) Company Limited Video stream processing method and apparatus, computer device, and storage medium

Also Published As

Publication number Publication date
KR20220151844A (ko) 2022-11-15

Similar Documents

Publication Publication Date Title
JP6824332B2 (ja) 動画サービス提供方法およびこれを用いるサービスサーバ
KR102085908B1 (ko) 컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법
JP4920395B2 (ja) 動画要約自動作成装置、方法、及びコンピュータ・プログラム
CN101202864B (zh) 动画再现装置
JP2009181216A (ja) 電子機器および画像処理方法
JP4635891B2 (ja) 情報処理装置および方法、並びにプログラム
JP2008061120A (ja) 再生装置、検索方法、およびプログラム
JP2007150724A (ja) 映像視聴支援システムおよび方法
KR20070118038A (ko) 정보처리 장치 및 정보처리 방법과 컴퓨터·프로그램
JP4192703B2 (ja) コンテンツ処理装置、コンテンツ処理方法及びプログラム
KR20090089878A (ko) 개요 및 리포트를 이미 포함하는 시청각 도큐먼트의 새로운 개요를 생성하기 위한 방법 및 상기 방법을 구현할 수 있는 수신기
KR20060089922A (ko) 음성 인식을 이용한 데이터 추출 장치 및 방법
JP2006186426A (ja) 情報検索表示装置、情報検索表示方法および情報検索表示プログラム
KR102523816B1 (ko) 영상이 재생되는 화면 상에 사용자의 질의 문장에 대한 답변 자막을 표시하는 전자 장치 및 그 동작 방법
JP2006343941A (ja) コンテンツ検索・再生方法、装置、プログラム、及び記録媒体
KR20110080712A (ko) 이동통신 단말기의 음성 인식을 통한 동영상 검색 방법 및 그 시스템과 동영상 음성의 텍스트 변환 장치
KR102523817B1 (ko) 영상에서 등장하는 전문 용어에 대한 뜻풀이를 제공하는 전자 장치 및 그 동작 방법
KR102466734B1 (ko) 영상이 재생되는 화면에 전문 용어에 대한 참고 정보를 표시하는 전자 장치 및 그 동작 방법
JP2004289530A (ja) 記録再生装置
JP2008022292A (ja) 出演者情報検索システム、出演者情報取得装置、出演者情報検索装置、および、その方法ならびにプログラム
JPH11184867A (ja) 映像情報検索再生方法ならびに装置及び同方法がプログラムされ記録される記録媒体
KR102500735B1 (ko) 영상에 연관된 광고 정보를 표시하기 위한 영상 스트리밍 서비스 서버 및 그 동작 방법
KR102523813B1 (ko) 영상에 대한 키워드 기반 검색을 가능하게 하는 영상 스트리밍 서비스 서버 및 그 동작 방법
KR102523814B1 (ko) 음성 인식을 기반으로 영상이 재생되는 화면에 자막을 출력하는 전자 장치 및 그 동작 방법
KR102119724B1 (ko) 동영상에 대한 빠른 검색을 지원하는 단말 장치 및 그 동작 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right