KR20200072616A - 동영상 실시간 텍스트 추적 및 번역을 위한 시스템 및 방법 - Google Patents

동영상 실시간 텍스트 추적 및 번역을 위한 시스템 및 방법 Download PDF

Info

Publication number
KR20200072616A
KR20200072616A KR1020180159846A KR20180159846A KR20200072616A KR 20200072616 A KR20200072616 A KR 20200072616A KR 1020180159846 A KR1020180159846 A KR 1020180159846A KR 20180159846 A KR20180159846 A KR 20180159846A KR 20200072616 A KR20200072616 A KR 20200072616A
Authority
KR
South Korea
Prior art keywords
text
video
translation
module
change
Prior art date
Application number
KR1020180159846A
Other languages
English (en)
Inventor
김미경
Original Assignee
김미경
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김미경 filed Critical 김미경
Priority to KR1020180159846A priority Critical patent/KR20200072616A/ko
Publication of KR20200072616A publication Critical patent/KR20200072616A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • G06K9/00456
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • H04N21/2355Processing of additional data, e.g. scrambling of additional data or processing content descriptors involving reformatting operations of additional data, e.g. HTML pages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4888Data services, e.g. news ticker for displaying teletext characters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2628Alteration of picture size, shape, position or orientation, e.g. zooming, rotation, rolling, perspective, translation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing
    • G06K2209/01

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 사용자가 원하는 화면에 있는 분석 가능한 텍스트들을 추출하여 원하는 타입의 언어로 번역 및 제공하여 유용성을 높인 동영상 실시간 텍스트 추적 및 번역을 위한 시스템 및 방법에 관한 것으로, 텍스트를 포함하는 일반 영상을 재생하고, 텍스트 분석 서버에 의해 동영상 텍스트 인식 및 추출 그리고 지정된 언어로 번역된 텍스트를 원영상에 합성하여 디스플레이하는 영상 플레이어;상기 영상 플레이어에서 재생되는 원영상을 분석하여 텍스트를 추출하고 지정된 언어로 텍스트를 번역하여 실시간으로 영상 플레이어로 제공하여 지정된 언어로 번역된 텍스트가 영상에 표시되도록 하는 텍스트 분석 서버;를 포함하는 것이다.

Description

동영상 실시간 텍스트 추적 및 번역을 위한 시스템 및 방법{System and Method for Realtime Text Tracking and Translation in Video}
본 발명은 동영상 텍스트 추출에 관한 것으로, 구체적으로 사용자가 원하는 화면에 있는 분석 가능한 텍스트들을 추출하여 원하는 타입의 언어로 번역 및 제공하여 유용성을 높인 동영상 실시간 텍스트 추적 및 번역을 위한 시스템 및 방법에 관한 것이다.
패턴(Pattern)인식의 한 분야로 문자인식(Character Recognition)은 시각(Vision) 정보를 통하여 문자를 인식하고 의미를 이해(Understanding)하는 인간의 능력을 컴퓨터(Computer)로 실현하려는 것으로, 광학 문자 인식(Optical Character Recognition), 우편물 자동 분류, 문서인식, 도면인식 등의 분야에서 부분적으로 실용화가 이루어지고 있다.
또한, 최근에는 인공지능(Artificial Intelligence)의 최신 기법인 신경망(Neural Network), 퍼지(Fuzzy), 유전 알고리즘(Genetic Algorithm) 등의 응용과 자연어처리(Natural Language Processing), 심리학, 생리학, 인지과학(Cognitive Science) 등 관련 학문과의 접목에 의해 문자인식 기술은 새로운 단계에 접어들고 있다.
한편, 인터넷의 보급과 무선통신의 발달로 동영상을 이용한 온라인 교육이 활성화되고 있다. 이러한 온라인 교육의 활성화에 따라 공급되는 동영상의 숫자는 급속도로 증가하고 있다.
이에 따라 온라인 교육 서비스의 주 소비층으로부터 필요한 교육 컨텐츠를 쉽고 간편하게 찾을 수 있는 기술의 필요성이 대두되고 있으며, 교육 컨텐츠 간의 연관성을 분석하여 소비자들이 원하는 교육 컨텐츠를 효율적으로 이용할 수 있도록 도모하는 기술이 함께 요구되고 있다.
이를 해결하기 위하여 강의 동영상에서 문자인식 및 추출을 하여 동영상의 관리 및 검색을 위한 주석용 키워드를 자동으로 생성하는 방법들이 제안되고 있다.
이와 같이 교육 컨텐츠를 쉽고 간편하게 찾을 수 있는 주석용 키워드 추출에 관한 기술들은 제안되고 있지만, 동영상 강의를 통한 학습 과정에서 아주 중요한 의미를 갖는 영상 속의 텍스트들의 추출에 관한 기술들은 구체화되지 않고 있다.
따라서, 동영상 강의를 통한 학습시에 영상 속의 텍스트들을 수강자가 별도로 필기를 하여 요약을 하여야 하는 불편함이 있다.
강의 영상에 자막으로 제공되는 텍스트뿐만 아니라, 강의 영상 진행중에 강의자가 화이트보드 등에 수기로 필기를 하는 경우에서의 텍스트들은 중요한 의미를 갖는 것임에도 더더욱 인식 및 추출이 이루어지지 않고 있다.
동영상 강의를 통한 학습에서의 또 다른 문제는 외국어 문자 자막 및 강의자에 의한 필기가 이루어지는 경우에는 수강자가 이를 바로 이해하거나 요약하기가 어렵다.
일반적으로 동영상 텍스트의 정보를 알고 싶을 경우 텍스트를 인지하고 별도의 번역기를 활용하거나 사전을 검색하여 인지해야 한다.
종래 기술에서는 웹이나 동영상을 통해 빠르게 넘어가는 영상에서 필요한 텍스트 정보를 수집하기 위해서는 영상의 흐름이 끊어지거나 인위적으로 영상을 멈추어 가며 텍스트를 숙지하고 이를 번역하기 위한 작업을 수행해야 하는 문제가 있다.
종래 기술의 영상 번역 시스템의 경우 주 대상은 영상 내의 자막으로, 별도의 자막 파일을 가지고 있는 경우가 대부분이며 자막 파일의 번역을 수행하는 것으로, 영상 속의 텍스트에 대한 문자 인식 및 번역 서비스가 이루어지 않고 있다.
따라서, 영상을 제공하는 업체의 경우, 제3의 언어를 활용하여 서비스 영역을 넓히기 위해서는 별도의 시간 및 많은 비용을 감당하여 서비스를 위한 새로운 영상을 제작해야 하는 문제가 있다.
특히, 이와 같은 동영상에서의 텍스트 인식 및 추출에 관하여 현재 제안되고 있는 기술들은 연속되는 영상 프레임에서 텍스트가 인식되는 경우에는 무조건 추출을 하는 것에 의해 문자 인식 및 추출을 위한 연산량이 증가하여 비효율적이다.
따라서, 강의 영상에 자막으로 제공되는 텍스트뿐만 아니라, 강의 영상 진행중에 강의자가 화이트보드 등에 수기로 필기를 하는 경우에서의 텍스트들을 적은 연산량으로 추출하여 제공하고, 추출된 문자가 외국어인 경우에는 사용자가 원하는 타입의 언어로 번역하여 제공하는 새로운 문자 인식 및 추출, 번역에 관한 기술의 개발이 요구되고 있다.
대한민국 공개특허 제10-2010-0092256호 대한민국 공개특허 제10-2016-0113804호 대한민국 공개특허 제10-2017-0081350호
본 발명은 종래 기술의 동영상 텍스트 추출 기술의 문제점을 해결하기 위한 것으로, 사용자가 원하는 화면에 있는 분석 가능한 텍스트들을 추출하여 원하는 타입의 언어로 번역 및 제공하여 유용성을 높인 동영상 실시간 텍스트 추적 및 번역을 위한 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명은 사용자가 원하는 화면에 있는 분석 가능한 텍스트들을 추출하여 원하는 타입의 언어로 번역 및 제공하여 교육용 컨텐츠 시청 및 제작, 개인 방송 시스템의 번역 등에 유용하게 사용될 수 있는 동영상 실시간 텍스트 추적 및 번역을 위한 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명은 동영상 텍스트 인식 단계에서 현재 프레임과 이전 프레임을 비교하여 텍스트 영역에서의 변화가 있는 경우에만 텍스트 추출 및 번역을 수행하여 텍스트 추출을 위한 데이터 연산량을 줄일 수 있도록 한 동영상 실시간 텍스트 추적 및 번역을 위한 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명은 동영상 텍스트 인식 단계에서 현재 프레임과 이전 프레임을 비교하여 텍스트 영역에서의 변화가 있는 경우를 판단하기 위하여 현재 프레임의 전체 영역에서 특정 열(row)을 기준으로 텍스트 변화 판단 영역을 정하여 텍스트 변화를 검출하고 추출하는 것에 의해 데이터 연산량을 줄일 수 있도록 한 동영상 실시간 텍스트 추적 및 번역을 위한 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명은 강의자의 의류 등에 인쇄된 단어 등의 문자가 추출되는 오류를 막기 위하여 중복 단어가 설정된 기준 횟수만큼 인식되면 문장이 아닌 것으로 판단하여 추출하지 않도록 하여 필요한 텍스트만 추출되도록 한 동영상 실시간 텍스트 추적 및 번역을 위한 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명은 사용자에게는 편리한 텍스트 인식 및 번역 서비스를 제공하며, 제작자에게는 프로토타입의 3국 언어 영상을 빠르게 서비스할 수 있는 기반을 제공하여 영상 분석 시간과, 제작 시간을 효율적으로 줄일 수 있도록 한 동영상 실시간 텍스트 추적 및 번역을 위한 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명은 실시간으로 영상을 분석하여 사용자에게 영상 내 텍스트 정보에 대한 번역을 지원하여 영상 서비스 업체들은 제작한 영상에 존재하는 텍스트를 통해 전달하고자 하는 정보들을 빠르게 사용자가 원하는 언어로 변환하여 서비스를 제공할 수 있도록 한 동영상 실시간 텍스트 추적 및 번역을 위한 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명은 강의 영상에 자막으로 제공되는 텍스트뿐만 아니라, 강의 영상 진행중에 강의자가 화이트보드 등에 수기로 필기를 하는 경우에서의 텍스트들을 적은 연산량으로 추출하여 제공하고, 추출된 문자가 외국어인 경우에는 사용자가 원하는 타입의 언어로 번역하여 제공하는 동영상 실시간 텍스트 추적 및 번역을 위한 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 동영상 실시간 텍스트 추적 및 번역을 위한 시스템은 텍스트를 포함하는 일반 영상을 재생하고, 텍스트 분석 서버에 의해 동영상 텍스트 인식 및 추출 그리고 지정된 언어로 번역된 텍스트를 원영상에 합성하여 디스플레이하는 영상 플레이어;상기 영상 플레이어에서 재생되는 원영상을 분석하여 텍스트를 추출하고 지정된 언어로 텍스트를 번역하여 실시간으로 영상 플레이어로 제공하여 지정된 언어로 번역된 텍스트가 영상에 표시되도록 하는 텍스트 분석 서버;를 포함하는 것을 특징으로 한다.
여기서, 상기 영상 플레이어는, 텍스트를 포함하는 일반 영상의 재생 또는 텍스트 분석 서버에 의해 동영상 텍스트 인식 및 추출 그리고 지정된 언어로 번역된 텍스트를 원영상에 합성한 변환 영상을 선택하는 영상 선택 모듈과, 상기 영상 선택 모듈에 의해 선택된 일반 영상 또는 변환 영상을 재생하는 플레이어 모듈을 포함하는 것을 특징으로 한다.
그리고 변환 영상은 번역된 텍스트의 표시를 원영상의 텍스트 영역에 표시되도록 하거나, 그에 이웃하는 다른 영역에 별도로 표시하는 것을 특징으로 한다.
그리고 상기 영상 선택 모듈은, 변환 영상을 재생하는 시간을 설정된 일부 구간에서만 하고 다시 텍스트를 포함하는 일반 영상을 재생하여 텍스트 추출 프로세스 및 번역 프로세스가 진행될 수 있도록 하는 것을 특징으로 한다.
그리고 상기 텍스트 분석 서버는, 텍스트를 포함하는 일반 영상에서 텍스트들을 분석 및 추출하기 위하여 텍스트 수집을 하는 텍스트 수집 모듈과,상기 텍스트 수집 모듈을 통하여 수집된 텍스트를 분석하는 텍스트 분석 모듈과,상기 텍스트 분석 모듈에 의해 분석된 텍스트 추출 및 샘플링 특징점을 추출하는 텍스트 추출 모듈과,추출된 텍스트를 번역 모듈로 제공하는 추출 텍스트 제공 모듈을 갖는 텍스트 처리 모듈을 포함하는 것을 특징으로 한다.
그리고 상기 텍스트 수집 모듈은, 텍스트 추출을 위한 데이터 연산량을 줄이기 위하여, 동영상 텍스트 인식 단계에서 현재 프레임과 이전 프레임을 비교하여 텍스트 영역에서의 변화가 있는 경우에만 텍스트를 수집하는 것을 특징으로 한다.
그리고 상기 텍스트 수집 모듈은, 동영상 텍스트 인식 단계에서 현재 프레임과 이전 프레임을 비교하여 텍스트 영역에서의 변화가 있는 경우를 판단하기 위하여 현재 프레임의 전체 영역에서 특정 열(row)을 기준으로 텍스트 변화 판단 영역을 정하여 텍스트 변화를 검출하는 것을 특징으로 한다.
그리고 상기 텍스트 수집 모듈은, 중복 단어가 설정된 기준 횟수만큼 인식되면 문장이 아닌 것으로 판단하여 추출하지 않도록 하여 필요한 텍스트만 추출되도록 하는 것을 특징으로 한다.
그리고 상기 텍스트 분석 서버는, 추출된 텍스트를 입력받는 텍스트 입력 모듈과,상기 텍스트 입력 모듈을 통하여 입력받은 텍스트의 언어 판단 및 입력받은 텍스트를 지정된 언어로 번역하기 위한 언어를 선택하는 언어 선택 모듈과,상기 언어 선택 모듈에서 선택한 언어로 입력받은 텍스트를 변환하는 텍스트 변환 모듈과,상기 텍스트 변환 모듈에 의해 변환된 번역 텍스트를 영상 플레이어로 출력하는 번역 텍스트 출력부를 갖는 번역 모듈을 포함하는 것을 특징으로 한다.
다른 목적을 달성하기 위한 본 발명에 따른 동영상 실시간 텍스트 추적 및 번역을 위한 방법은 플레이어 모듈에서 텍스트를 포함하는 일반 영상을 재생하면, 현재 프레임과 이전 프레임을 비교하여 텍스트 영역에서의 변화를 검출하는 단계;변화가 검출되면 텍스트를 포함하는 일반 영상에서 텍스트들을 분석 및 추출하기 위하여 텍스트 수집을 하고, 변화가 없는 경우에는 텍스트가 있더라도 수집을 하지 않는 단계;수집된 텍스트를 분석하고, 분석된 텍스트 추출 및 샘플링 특징점을 추출하여 텍스트 추출을 하고, 추출된 텍스트를 번역 모듈로 제공하는 단계;번역 모듈에서 추출된 텍스트를 입력받고, 입력받은 텍스트의 언어 판단 및 입력받은 텍스트를 지정된 언어로 번역하기 위한 언어를 선택하는 단계;선택한 언어로 입력받은 텍스트를 변환하고 변환된 번역 텍스트를 영상 플레이어로 출력하는 단계;지정된 언어로 번역된 텍스트를 원영상에 합성한 변환 영상을 설정 구간 동안 재생하고, 다시 텍스트를 포함하는 일반 영상 재생하는 단계;를 포함하는 것을 특징으로 한다.
여기서, 텍스트 영역에서의 변화를 검출하는 단계에서, 현재 프레임의 전체 영역에서 특정 열(row)을 기준으로 텍스트 변화 판단 영역을 정하여 텍스트 변화를 검출하고, 텍스트 변화 판단 영역의 지정은 이전 프레임에서 텍스트가 가장 많은 열(row)을 기준으로 정하는 것을 특징으로 한다.
그리고 현재 프레임의 전체 영역에서 특정 열(row)을 기준으로 판단 영역을 정하여 텍스트 변화를 검출하는 단계에서 설정된 특정 열(row)의 좌측 다른 열 또는 우측 다른 열을 텍스트 변화 판단 영역으로 추가로 정하여 텍스트 변화 검출을 하는 것을 특징으로 한다.
그리고 현재 프레임의 전체 영역에서 특정 열(row)을 기준으로 판단 영역을 정하여 텍스트 변화를 검출하는 단계에서 설정된 특정 열(row)의 좌측 및 우측의 다른 열을 텍스트 변화 판단 영역으로 추가로 정하여 텍스트 변화 검출을 하는 것을 특징으로 한다.
그리고 연속되는 복수의 영상 프레임들을 하나의 단위로 하여 텍스트 변화 판단 영역이 되는 특정 열(row)의 위치를 단위 마다 변경하여 텍스트 변화 판단 영역으로 정하여 텍스트 변화 검출을 하는 것을 특징으로 한다.
그리고 특정 열(row)의 위치를 단위 마다 변경하는 것은, 이전 프레임에서 가장 많은 텍스트가 인식되는 특정 열(row)을 현재 프레임의 텍스트 변화 판단 영역으로 정하는 방식으로 일정 시간 동안 재생이 이루어져도 텍스트의 변화가 검출되지 않는 경우에 다른 영역에서 텍스트 변화가 있는지를 판단하기 위하여 실행되는 것을 특징으로 한다.
이상에서 설명한 바와 같은 본 발명에 따른 동영상 실시간 텍스트 추적 및 번역을 위한 시스템 및 방법은 다음과 같은 효과가 있다.
첫째, 사용자가 원하는 화면에 있는 분석 가능한 텍스트들을 추출하여 원하는 타입의 언어로 번역 및 제공하여 유용성을 높일 수 있다.
둘째, 사용자가 원하는 화면에 있는 분석 가능한 텍스트들을 추출하여 원하는 타입의 언어로 번역 및 제공하여 교육용 컨텐츠 시청 및 제작, 개인 방송 시스템의 번역 등에 유용하게 사용될 수 있도록 한다.
셋째, 동영상 텍스트 인식 단계에서 현재 프레임과 이전 프레임을 비교하여 텍스트 영역에서의 변화가 있는 경우에만 텍스트 추출 및 번역을 수행하여 텍스트 추출을 위한 데이터 연산량을 줄일 수 있다.
넷째, 동영상 텍스트 인식 단계에서 현재 프레임과 이전 프레임을 비교하여 텍스트 영역에서의 변화가 있는 경우를 판단하기 위하여 현재 프레임의 전체 영역에서 특정 열(row)을 기준으로 텍스트 변화 판단 영역을 정하여 텍스트 변화를 검출하고 추출하는 것에 의해 데이터 연산량을 줄일 수 있도록 한다.
다섯째, 강의자의 의류 등에 인쇄된 단어 등의 문자가 추출되는 오류를 막기 위하여 중복 단어가 설정된 기준 횟수만큼 인식되면 문장이 아닌 것으로 판단하여 추출하지 않도록 하여 필요한 텍스트만 추출되도록 한다.
여섯째, 사용자에게는 편리한 텍스트 인식 및 번역 서비스를 제공하며, 제작자에게는 프로토타입의 3국 언어 영상을 빠르게 서비스할 수 있는 기반을 제공하여 영상 분석 시간과, 제작 시간을 효율적으로 줄일 수 있다.
일곱째, 실시간으로 영상을 분석하여 사용자에게 영상 내 텍스트 정보에 대한 번역을 지원하여 영상 서비스 업체들은 제작한 영상에 존재하는 텍스트를 통해 전달하고자 하는 정보들을 빠르게 사용자가 원하는 언어로 변환하여 서비스를 제공할 수 있다.
여덟째, 강의 영상에 자막으로 제공되는 텍스트뿐만 아니라, 강의 영상 진행중에 강의자가 화이트보드 등에 수기로 필기를 하는 경우에서의 텍스트들을 적은 연산량으로 추출하여 제공하고, 추출된 문자가 외국어인 경우에는 사용자가 원하는 타입의 언어로 번역하여 제공할 수 있다.
도 1은 본 발명에 따른 동영상 실시간 텍스트 추적 및 번역을 위한 시스템의 전체 구성도
도 2는 본 발명에 따른 동영상 실시간 텍스트 추적 및 번역을 위한 시스템의 상세 구성도
도 3은 본 발명에 따른 동영상 실시간 텍스트 추적 및 번역을 위한 방법을 나타낸 플로우 차트
도 4a 내지 도 4c는 본 발명에 따른 동영상 실시간 텍스트 추적 단계에서의 텍스트 변화 판단 영역 설정 실시 예들을 나타낸 구성도
이하, 본 발명에 따른 동영상 실시간 텍스트 추적 및 번역을 위한 시스템 및 방법의 바람직한 실시 예에 관하여 상세히 설명하면 다음과 같다.
본 발명에 따른 동영상 실시간 텍스트 추적 및 번역을 위한 시스템 및 방법의 특징 및 이점들은 이하에서의 각 실시 예에 대한 상세한 설명을 통해 명백해질 것이다.
도 1은 본 발명에 따른 동영상 실시간 텍스트 추적 및 번역을 위한 시스템의 전체 구성도이다.
본 발명에 따른 동영상 실시간 텍스트 추적 및 번역을 위한 시스템 및 방법은 사용자가 원하는 화면에 있는 분석 가능한 텍스트들을 추출하여 원하는 타입의 언어로 번역 및 제공하여 유용성을 높일 수 있도록 한 것으로, 사용자가 원하는 화면에 있는 분석 가능한 텍스트들을 추출하여 원하는 타입의 언어로 번역 및 제공하여 교육용 컨텐츠 시청 및 제작, 개인 방송 시스템의 번역 등에 유용하게 사용될 수 있도록 한 것이다.
이하의 설명에서 텍스트는 영상 속에서 자막으로 표시되는 텍스트 또는 영상 속의 전자기기에서 투사되는 텍스트, 강의자가 직접 화이트보드 등에 필기하는 텍스트 등을 포함하고, 이와 같은 종류의 텍스트 이외에 다른 방식으로 영상에 표시되는 모든 텍스트들을 포함한다.
본 발명은 이를 위하여 영상내의 텍스트 검출 및 이진화 프로세스, 텍스트의 오류 및 왜곡의 보정, 텍스트 추출, 번역 언어에 대한 특징점 매칭을 위한 구성을 포함하고, 이를 지원하기 위한 브라우저 또는 응용프로그램을 포함한다.
본 발명에 따른 동영상 실시간 텍스트 추적 및 번역을 위한 시스템은 도 1에서와 같이, 텍스트를 포함하는 일반 영상을 재생하고, 텍스트 분석 서버(200)에 의해 동영상 텍스트 인식 및 추출 그리고 지정된 언어로 번역된 텍스트를 원영상에 합성하여 디스플레이하는 영상 플레이어(100)와, 영상 플레이어(100)에서 재생되는 원영상을 분석하여 텍스트를 추출하고 지정된 언어로 텍스트를 번역하여 실시간으로 영상 플레이어(100)로 제공하는 텍스트 분석 서버(200)를 포함한다.
이와 같은 구성을 갖는 본 발명에 따른 동영상 실시간 텍스트 추적 및 번역을 위한 시스템은 영상 플레이어 기능, 번역 내용 제공 기능, 프레임 단위의 영상 추출 기능, 영상 편집 기능을 포함하는 영상 인식 및 번역 제공 프로세스를 수행한다.
또한, 영상 플레이어로부터 추출된 영상 수집, 수집된 영상에서 텍스트 추출, 텍스트 인식, 스트로크 필터(stroke filter) 및 가우시안 분포 알고리즘 적용, 기하학적 구조 처리, 언어별 특징점 추출, 분할/인식/병합/처리 과정의 결합, 필기체(Cursive) 타입 텍스트 추출, 변형/왜곡/일그러짐/영상 침해 등의 비정규 텍스트 수집을 포함하는 텍스트 추출 프로세스를 수행한다.
또한, 언어별 번역 기능, 번역 내용의 의미 처리 기능, 번역 내용의 여러 타입의 GUI 표현을 포함하는 번역 프로세스를 수행한다.
본 발명에 따른 동영상 실시간 텍스트 추적 및 번역을 위한 시스템의 구성을 구체적으로 설명하면 다음과 같다.
도 2는 본 발명에 따른 동영상 실시간 텍스트 추적 및 번역을 위한 시스템의 상세 구성도이다.
영상 플레이어(100)는 텍스트를 포함하는 일반 영상의 재생 또는 텍스트 분석 서버(200)에 의해 동영상 텍스트 인식 및 추출 그리고 지정된 언어로 번역된 텍스트를 원영상에 합성한 변환 영상을 선택하는 영상 선택 모듈(10)과, 영상 선택 모듈(10)에 의해 선택된 일반 영상 또는 변환 영상을 재생하는 플레이어 모듈(11)을 포함한다.
여기서, 변환 영상은 번역된 텍스트의 표시를 원영상의 텍스트 영역에 표시되도록 하거나, 그에 이웃하는 영역에 별도로 표시할 수 있다.
또한, 영상 선택 모듈(10)은 변환 영상을 재생하는 시간을 설정된 일부 구간에서만 하고 다시 텍스트를 포함하는 일반 영상을 재생하여 텍스트 추출 프로세스 및 번역 프로세스가 진행될 수 있도록 한다.
그리고 텍스트 분석 서버(200)는 텍스트 처리 모듈(200a)과 번역 모듈(200b)을 포함한다.
텍스트 처리 모듈(200a)은 텍스트를 포함하는 일반 영상에서 텍스트들을 분석 및 추출하기 위하여 텍스트 수집을 하는 텍스트 수집 모듈(20)과, 텍스트 수집 모듈(20)을 통하여 수집된 텍스트를 분석하는 텍스트 분석 모듈(21)과, 텍스트 분석 모듈(21)에 의해 분석된 텍스트 추출 및 샘플링 특징점을 추출하는 텍스트 추출 모듈(22)과, 추출된 텍스트를 번역 모듈로 제공하는 추출 텍스트 제공 모듈(23)을 포함한다.
여기서, 텍스트 수집 모듈(20)은 텍스트 추출을 위한 데이터 연산량을 줄이기 위하여, 동영상 텍스트 인식 단계에서 현재 프레임과 이전 프레임을 비교하여 텍스트 영역에서의 변화가 있는 경우에만 텍스트를 수집한다.
또한, 텍스트 수집 모듈(20)은 동영상 텍스트 인식 단계에서 현재 프레임과 이전 프레임을 비교하여 텍스트 영역에서의 변화가 있는 경우를 판단하기 위하여 현재 프레임의 전체 영역에서 특정 열(row)을 기준으로 텍스트 변화 판단 영역을 정하여 텍스트 변화를 검출한다.
또한, 텍스트 수집 모듈(20)은 현재 프레임의 전체 영역에서 특정 열(row)을 기준으로 판단 영역을 정하여 텍스트 변화를 검출하는 단계에서 설정된 특정 열(row)의 좌측 다른 열 또는 우측 다른 열을 텍스트 변화 판단 영역으로 정하여 텍스트 변화 검출의 정확도를 높인다.
또한, 텍스트 수집 모듈(20)은 현재 프레임의 전체 영역에서 특정 열(row)을 기준으로 판단 영역을 정하여 텍스트 변화를 검출하는 단계에서 설정된 특정 열(row)의 좌측 및 우측의 다른 열을 텍스트 변화 판단 영역으로 정하여 텍스트 변화 검출의 정확도를 높일 수 있도록 한다.
또한, 텍스트 수집 모듈(20)은 연속되는 복수의 영상 프레임들을 하나의 단위로 하여 텍스트 변화 판단 영역이 되는 특정 열(row)의 위치를 단위 마다 변경하여 텍스트 변화 판단 영역으로 정하여 텍스트 변화 검출의 정확도를 높인다.
또한, 텍스트 수집 모듈(20)은 이전 프레임에서 가장 많은 텍스트가 인식되는 특정 열(row)을 현재 프레임의 텍스트 변화 판단 영역으로 정하여 텍스트 변화 검출의 효율성을 높일 수 있도록 한다.
특히, 텍스트 수집 모듈(20)은 강의자의 의류 등에 인쇄된 단어 등의 문자가 추출되는 오류를 막기 위하여 중복 단어가 설정된 기준 횟수만큼 인식되면 문장이 아닌 것으로 판단하여 추출하지 않도록 하여 필요한 텍스트만 추출되도록 한다.
그리고 번역 모듈(200b)은 추출된 텍스트를 입력받는 텍스트 입력 모듈(30)과, 텍스트 입력 모듈(30)을 통하여 입력받은 텍스트의 언어 판단 및 입력받은 텍스트를 지정된 언어로 번역하기 위한 언어를 선택하는 언어 선택 모듈(31)과, 언어 선택 모듈(31)에서 선택한 언어로 입력받은 텍스트를 변환하는 텍스트 변환 모듈(32)과, 텍스트 변환 모듈(32)에 의해 변환된 번역 텍스트를 영상 플레이어(100)로 출력하는 번역 텍스트 출력부(33)를 포함한다.
본 발명에 따른 동영상 실시간 텍스트 추적 및 번역을 위한 방법을 구체적으로 설명하면 다음과 같다.
도 3은 본 발명에 따른 동영상 실시간 텍스트 추적 및 번역을 위한 방법을 나타낸 플로우 차트이다.
먼저, 영상 플레이어(100)의 플레이어 모듈(11)에서 텍스트를 포함하는 일반 영상을 재생하면(S301), 동영상 텍스트 인식 단계에서 현재 프레임과 이전 프레임을 비교하여 텍스트 영역에서의 변화를 검출한다.(S302)
여기서, 텍스트 영역의 설정은 현재 프레임의 전체 영역에서 특정 열(row)을 기준으로 텍스트 변화 판단 영역을 정하여 텍스트 변화를 검출하고, 텍스트 변화 판단 영역의 지정은 이전 프레임에서 텍스트가 가장 많은 열(row)을 기준으로 정한다.
이어, 변화가 검출되면 텍스트를 포함하는 일반 영상에서 텍스트들을 분석 및 추출하기 위하여 텍스트 수집을 한다.(S303)
그리고 수집된 텍스트를 분석하고, 분석된 텍스트 추출 및 샘플링 특징점을 추출하여 텍스트 추출을 한다.(S304)
이어, 추출된 텍스트를 번역 모듈로 제공한다.(S305)
그리고 번역 모듈(200b)에서 추출된 텍스트를 입력받고, 입력받은 텍스트의 언어 판단 및 입력받은 텍스트를 지정된 언어로 번역하기 위한 언어를 선택한다.(S306)
이어, 선택한 언어로 입력받은 텍스트를 변환하고 변환된 번역 텍스트를 영상 플레이어로 출력한다.(S307)
그리고 지정된 언어로 번역된 텍스트를 원영상에 합성한 변환 영상을 재생하고(S308), 설정 구간 동안 변환 영상을 재생하고 다시 텍스트를 포함하는 일반 영상 재생한다.(S309)
본 발명에 따른 동영상 실시간 텍스트 추적 단계에서의 텍스트 변화 판단 영역 설정에 관하여 구체적으로 설명하면 다음과 같다.
도 4a 내지 도 4c는 본 발명에 따른 동영상 실시간 텍스트 추적 단계에서의 텍스트 변화 판단 영역 설정 실시 예들을 나타낸 구성도이다.
도 4a는 이전 프레임에서 화면에 표시되는 텍스트를 나타낸 것이다.
도 4a에서와 같이 텍스트가 표시되는 경우에는 도 4b의 (가)에서와 같이 이전 프레임에서 가장 많은 텍스트가 인식되는 특정 열(row)을 현재 프레임의 텍스트 변화 판단 영역으로 정한다.
그 다음 프레임에서 도 4c에서와 같이 텍스트가 (나)에서와 같이 추가되어 변화가 이루어지는 경우에는 도 4b에서 정해진 특정 열(row)을 기준으로 텍스트 변화 판단을 한다.
이와 같이 본 발명은 동영상 텍스트 인식 단계에서 현재 프레임과 이전 프레임을 비교하여 텍스트 영역에서의 변화가 있는 경우를 판단하기 위하여 현재 프레임의 전체 영역에서 특정 열(row)을 기준으로 텍스트 변화 판단 영역을 정하여 텍스트 변화를 검출한다.
또한, 현재 프레임의 전체 영역에서 특정 열(row)을 기준으로 판단 영역을 정하여 텍스트 변화를 검출하는 단계에서 설정된 특정 열(row)의 좌측 다른 열 또는 우측 다른 열을 텍스트 변화 판단 영역으로 추가로 정하여 텍스트 변화 검출의 정확도를 높인다.
또한, 현재 프레임의 전체 영역에서 특정 열(row)을 기준으로 판단 영역을 정하여 텍스트 변화를 검출하는 단계에서 설정된 특정 열(row)의 좌측 및 우측의 다른 열을 텍스트 변화 판단 영역으로 정하여 텍스트 변화 검출의 정확도를 높일 수 있도록 한다.
또한, 연속되는 복수의 영상 프레임들을 하나의 단위로 하여 텍스트 변화 판단 영역이 되는 특정 열(row)의 위치를 단위 마다 변경하여 텍스트 변화 판단 영역으로 정하여 텍스트 변화 검출의 정확도를 높인다.
이 경우는 이전 프레임에서 가장 많은 텍스트가 인식되는 특정 열(row)을 현재 프레임의 텍스트 변화 판단 영역으로 정하는 방식으로 일정 시간 동안 재생이 이루어져도 텍스트의 변화가 검출되지 않는 경우에 다른 영역에서 텍스트 변화가 있는지를 판단하기 위하여 실행될 수 있다.
그리고 강의자의 의류 등에 인쇄된 단어 등의 문자가 추출되는 오류를 막기 위하여 중복 단어가 설정된 기준 횟수만큼 인식되면 문장이 아닌 것으로 판단하여 추출하지 않도록 하여 필요한 텍스트만 추출되도록 한다.
이상에서 설명한 본 발명에 따른 동영상 실시간 텍스트 추적 및 번역을 위한 시스템 및 방법은 사용자에게는 편리한 텍스트 인식 및 번역 서비스를 제공하며, 제작자에게는 프로토타입의 3국 언어 영상을 빠르게 서비스할 수 있는 기반을 제공하여 영상 분석 시간과, 제작 시간을 효율적으로 줄일 수 있도록 한 것이다.
본 발명은 실시간으로 영상을 분석하여 사용자에게 영상 내 텍스트 정보에 대한 번역을 지원하여 영상 서비스 업체들은 제작한 영상에 존재하는 텍스트를 통해 전달하고자 하는 정보들을 빠르게 사용자가 원하는 언어로 변환하여 서비스를 제공할 수 있도록 한 것이다.
이상에서의 설명에서와 같이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명이 구현되어 있음을 이해할 수 있을 것이다.
그러므로 명시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 하고, 본 발명의 범위는 전술한 설명이 아니라 특허청구 범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
100. 영상 플레이어
200. 텍스트 분석 서버

Claims (15)

  1. 텍스트를 포함하는 일반 영상을 재생하고, 텍스트 분석 서버에 의해 동영상 텍스트 인식 및 추출 그리고 지정된 언어로 번역된 텍스트를 원영상에 합성하여 디스플레이하는 영상 플레이어;
    상기 영상 플레이어에서 재생되는 원영상을 분석하여 텍스트를 추출하고 지정된 언어로 텍스트를 번역하여 실시간으로 영상 플레이어로 제공하여 지정된 언어로 번역된 텍스트가 영상에 표시되도록 하는 텍스트 분석 서버;를 포함하는 것을 특징으로 하는 동영상 실시간 텍스트 추적 및 번역을 위한 시스템.
  2. 제 1 항에 있어서, 상기 영상 플레이어는,
    텍스트를 포함하는 일반 영상의 재생 또는 텍스트 분석 서버에 의해 동영상 텍스트 인식 및 추출 그리고 지정된 언어로 번역된 텍스트를 원영상에 합성한 변환 영상을 선택하는 영상 선택 모듈과,
    상기 영상 선택 모듈에 의해 선택된 일반 영상 또는 변환 영상을 재생하는 플레이어 모듈을 포함하는 것을 특징으로 하는 동영상 실시간 텍스트 추적 및 번역을 위한 시스템.
  3. 제 2 항에 있어서, 변환 영상은 번역된 텍스트의 표시를 원영상의 텍스트 영역에 표시되도록 하거나, 그에 이웃하는 다른 영역에 별도로 표시하는 것을 특징으로 하는 동영상 실시간 텍스트 추적 및 번역을 위한 시스템.
  4. 제 2 항에 있어서, 상기 영상 선택 모듈은,
    변환 영상을 재생하는 시간을 설정된 일부 구간에서만 하고 다시 텍스트를 포함하는 일반 영상을 재생하여 텍스트 추출 프로세스 및 번역 프로세스가 진행될 수 있도록 하는 것을 특징으로 하는 동영상 실시간 텍스트 추적 및 번역을 위한 시스템.
  5. 제 1 항에 있어서, 상기 텍스트 분석 서버는,
    텍스트를 포함하는 일반 영상에서 텍스트들을 분석 및 추출하기 위하여 텍스트 수집을 하는 텍스트 수집 모듈과,
    상기 텍스트 수집 모듈을 통하여 수집된 텍스트를 분석하는 텍스트 분석 모듈과,
    상기 텍스트 분석 모듈에 의해 분석된 텍스트 추출 및 샘플링 특징점을 추출하는 텍스트 추출 모듈과,
    추출된 텍스트를 번역 모듈로 제공하는 추출 텍스트 제공 모듈을 갖는 텍스트 처리 모듈을 포함하는 것을 특징으로 하는 동영상 실시간 텍스트 추적 및 번역을 위한 시스템.
  6. 제 5 항에 있어서, 상기 텍스트 수집 모듈은,
    텍스트 추출을 위한 데이터 연산량을 줄이기 위하여, 동영상 텍스트 인식 단계에서 현재 프레임과 이전 프레임을 비교하여 텍스트 영역에서의 변화가 있는 경우에만 텍스트를 수집하는 것을 특징으로 하는 동영상 실시간 텍스트 추적 및 번역을 위한 시스템.
  7. 제 5 항에 있어서, 상기 텍스트 수집 모듈은,
    동영상 텍스트 인식 단계에서 현재 프레임과 이전 프레임을 비교하여 텍스트 영역에서의 변화가 있는 경우를 판단하기 위하여 현재 프레임의 전체 영역에서 특정 열(row)을 기준으로 텍스트 변화 판단 영역을 정하여 텍스트 변화를 검출하는 것을 특징으로 하는 동영상 실시간 텍스트 추적 및 번역을 위한 시스템.
  8. 제 5 항에 있어서, 상기 텍스트 수집 모듈은,
    중복 단어가 설정된 기준 횟수만큼 인식되면 문장이 아닌 것으로 판단하여 추출하지 않도록 하여 필요한 텍스트만 추출되도록 하는 것을 특징으로 하는 동영상 실시간 텍스트 추적 및 번역을 위한 시스템.
  9. 제 1 항에 있어서, 상기 텍스트 분석 서버는,
    추출된 텍스트를 입력받는 텍스트 입력 모듈과,
    상기 텍스트 입력 모듈을 통하여 입력받은 텍스트의 언어 판단 및 입력받은 텍스트를 지정된 언어로 번역하기 위한 언어를 선택하는 언어 선택 모듈과,
    상기 언어 선택 모듈에서 선택한 언어로 입력받은 텍스트를 변환하는 텍스트 변환 모듈과,
    상기 텍스트 변환 모듈에 의해 변환된 번역 텍스트를 영상 플레이어로 출력하는 번역 텍스트 출력부를 갖는 번역 모듈을 포함하는 것을 특징으로 하는 동영상 실시간 텍스트 추적 및 번역을 위한 시스템.
  10. 플레이어 모듈에서 텍스트를 포함하는 일반 영상을 재생하면, 현재 프레임과 이전 프레임을 비교하여 텍스트 영역에서의 변화를 검출하는 단계;
    변화가 검출되면 텍스트를 포함하는 일반 영상에서 텍스트들을 분석 및 추출하기 위하여 텍스트 수집을 하고, 변화가 없는 경우에는 텍스트가 있더라도 수집을 하지 않는 단계;
    수집된 텍스트를 분석하고, 분석된 텍스트 추출 및 샘플링 특징점을 추출하여 텍스트 추출을 하고, 추출된 텍스트를 번역 모듈로 제공하는 단계;
    번역 모듈에서 추출된 텍스트를 입력받고, 입력받은 텍스트의 언어 판단 및 입력받은 텍스트를 지정된 언어로 번역하기 위한 언어를 선택하는 단계;
    선택한 언어로 입력받은 텍스트를 변환하고 변환된 번역 텍스트를 영상 플레이어로 출력하는 단계;
    지정된 언어로 번역된 텍스트를 원영상에 합성한 변환 영상을 설정 구간 동안 재생하고, 다시 텍스트를 포함하는 일반 영상 재생하는 단계;를 포함하는 것을 특징으로 하는 동영상 실시간 텍스트 추적 및 번역을 위한 방법.
  11. 제 10 항에 있어서, 텍스트 영역에서의 변화를 검출하는 단계에서,
    현재 프레임의 전체 영역에서 특정 열(row)을 기준으로 텍스트 변화 판단 영역을 정하여 텍스트 변화를 검출하고, 텍스트 변화 판단 영역의 지정은 이전 프레임에서 텍스트가 가장 많은 열(row)을 기준으로 정하는 것을 특징으로 하는 동영상 실시간 텍스트 추적 및 번역을 위한 방법.
  12. 제 11 항에 있어서, 현재 프레임의 전체 영역에서 특정 열(row)을 기준으로 판단 영역을 정하여 텍스트 변화를 검출하는 단계에서 설정된 특정 열(row)의 좌측 다른 열 또는 우측 다른 열을 텍스트 변화 판단 영역으로 추가로 정하여 텍스트 변화 검출을 하는 것을 특징으로 하는 동영상 실시간 텍스트 추적 및 번역을 위한 방법.
  13. 제 11 항에 있어서, 현재 프레임의 전체 영역에서 특정 열(row)을 기준으로 판단 영역을 정하여 텍스트 변화를 검출하는 단계에서 설정된 특정 열(row)의 좌측 및 우측의 다른 열을 텍스트 변화 판단 영역으로 추가로 정하여 텍스트 변화 검출을 하는 것을 특징으로 하는 동영상 실시간 텍스트 추적 및 번역을 위한 방법.
  14. 제 11 항에 있어서, 연속되는 복수의 영상 프레임들을 하나의 단위로 하여 텍스트 변화 판단 영역이 되는 특정 열(row)의 위치를 단위 마다 변경하여 텍스트 변화 판단 영역으로 정하여 텍스트 변화 검출을 하는 것을 특징으로 하는 동영상 실시간 텍스트 추적 및 번역을 위한 방법.
  15. 제 14 항에 있어서, 특정 열(row)의 위치를 단위 마다 변경하는 것은,
    이전 프레임에서 가장 많은 텍스트가 인식되는 특정 열(row)을 현재 프레임의 텍스트 변화 판단 영역으로 정하는 방식으로 일정 시간 동안 재생이 이루어져도 텍스트의 변화가 검출되지 않는 경우에 다른 영역에서 텍스트 변화가 있는지를 판단하기 위하여 실행되는 것을 특징으로 하는 동영상 실시간 텍스트 추적 및 번역을 위한 방법.
KR1020180159846A 2018-12-12 2018-12-12 동영상 실시간 텍스트 추적 및 번역을 위한 시스템 및 방법 KR20200072616A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180159846A KR20200072616A (ko) 2018-12-12 2018-12-12 동영상 실시간 텍스트 추적 및 번역을 위한 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180159846A KR20200072616A (ko) 2018-12-12 2018-12-12 동영상 실시간 텍스트 추적 및 번역을 위한 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20200072616A true KR20200072616A (ko) 2020-06-23

Family

ID=71137951

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180159846A KR20200072616A (ko) 2018-12-12 2018-12-12 동영상 실시간 텍스트 추적 및 번역을 위한 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR20200072616A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112711954A (zh) * 2020-12-31 2021-04-27 维沃软件技术有限公司 翻译方法、装置、电子设备和存储介质
WO2024085461A1 (ko) * 2022-10-18 2024-04-25 삼성전자주식회사 번역 서비스를 제공하기 위한 전자 장치 및 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100092256A (ko) 2009-02-12 2010-08-20 삼성전자주식회사 영상으로부터 텍스트를 인식하는 방법
KR20160113804A (ko) 2015-03-23 2016-10-04 법과학연구원 주식회사 영상의 텍스트 정보 인식 장치
KR20170081350A (ko) 2016-01-04 2017-07-12 한국전자통신연구원 이미지 텍스트에 대한 프레임 단위의 특징벡터 추출에 의한 문자인식 및 번역을 수행하는 문자통역 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100092256A (ko) 2009-02-12 2010-08-20 삼성전자주식회사 영상으로부터 텍스트를 인식하는 방법
KR20160113804A (ko) 2015-03-23 2016-10-04 법과학연구원 주식회사 영상의 텍스트 정보 인식 장치
KR20170081350A (ko) 2016-01-04 2017-07-12 한국전자통신연구원 이미지 텍스트에 대한 프레임 단위의 특징벡터 추출에 의한 문자인식 및 번역을 수행하는 문자통역 장치 및 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112711954A (zh) * 2020-12-31 2021-04-27 维沃软件技术有限公司 翻译方法、装置、电子设备和存储介质
CN112711954B (zh) * 2020-12-31 2024-03-22 维沃软件技术有限公司 翻译方法、装置、电子设备和存储介质
WO2024085461A1 (ko) * 2022-10-18 2024-04-25 삼성전자주식회사 번역 서비스를 제공하기 위한 전자 장치 및 방법

Similar Documents

Publication Publication Date Title
US20210056251A1 (en) Automatic Data Extraction and Conversion of Video/Images/Sound Information from a Board-Presented Lecture into an Editable Notetaking Resource
CN108986186B (zh) 文字转化视频的方法和系统
KR102018295B1 (ko) 구간 영상 검색 및 제공 장치, 방법 및 컴퓨터-판독가능 매체
Yang et al. Content based lecture video retrieval using speech and video text information
JP4088131B2 (ja) 同期コンテンツ情報生成プログラム、同期コンテンツ情報生成装置および同期コンテンツ情報生成方法
WO2021051024A1 (en) Editable notetaking resource with optional overlay
KR101160597B1 (ko) 의미 연관성에 기초한 콘텐츠 검색
Albanie et al. Bbc-oxford british sign language dataset
Duarte Cross-modal neural sign language translation
Sun et al. Student Class Behavior Dataset: a video dataset for recognizing, detecting, and captioning students’ behaviors in classroom scenes
Yang et al. In-classroom learning analytics based on student behavior, topic and teaching characteristic mining
Chatila et al. Integrated planning and execution control of autonomous robot actions
De Coster et al. Machine translation from signed to spoken languages: State of the art and challenges
KR102148021B1 (ko) 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법 및 그 장치
KR20200072616A (ko) 동영상 실시간 텍스트 추적 및 번역을 위한 시스템 및 방법
Hassani et al. LVTIA: A new method for keyphrase extraction from scientific video lectures
Knight et al. HeadTalk, HandTalk and the corpus: Towards a framework for multi-modal, multi-media corpus development
CN113096687B (zh) 音视频处理方法、装置、计算机设备及存储介质
Shen et al. Auslan-daily: Australian sign language translation for daily communication and news
Guo et al. Audio-visual fusion network based on conformer for multimodal emotion recognition
Palaskar et al. Transfer learning for multimodal dialog
Naert et al. Per channel automatic annotation of sign language motion capture data
Yang et al. Automated extraction of lecture outlines from lecture videos
Hernandez et al. Multimodal corpus analysis of autoblog 2020: lecture videos in machine learning
KR102320851B1 (ko) 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right