KR102292552B1 - Video synchronization system to improve viewing rights for the disabled - Google Patents

Video synchronization system to improve viewing rights for the disabled Download PDF

Info

Publication number
KR102292552B1
KR102292552B1 KR1020210027031A KR20210027031A KR102292552B1 KR 102292552 B1 KR102292552 B1 KR 102292552B1 KR 1020210027031 A KR1020210027031 A KR 1020210027031A KR 20210027031 A KR20210027031 A KR 20210027031A KR 102292552 B1 KR102292552 B1 KR 102292552B1
Authority
KR
South Korea
Prior art keywords
data
video
text
video content
content
Prior art date
Application number
KR1020210027031A
Other languages
Korean (ko)
Inventor
최연환
Original Assignee
주식회사 케이에스컨버전스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이에스컨버전스 filed Critical 주식회사 케이에스컨버전스
Priority to KR1020210027031A priority Critical patent/KR102292552B1/en
Application granted granted Critical
Publication of KR102292552B1 publication Critical patent/KR102292552B1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content

Abstract

The present invention relates to a video synchronization system for improving viewing rights for the disabled, which generates caption data by converting audio included in video content into text, and synchronizes the video content and the caption data using a timestamp generated together when the caption data is generated. The video synchronization system includes: a manager terminal which provides a video content; a stenographer terminal for generating stenography information for the video content; and a user terminal possessed by the disabled viewing the video content.

Description

장애인 시청권 향상을 위한 영상 동기화 시스템 {Video synchronization system to improve viewing rights for the disabled}{Video synchronization system to improve viewing rights for the disabled}

본 발명은 장애인 시청권 향상을 위한 영상 동기화 시스템에 관한 것으로, 더욱 상세하게는 동영상의 음성을 텍스트화여 표시하며, 텍스트 생성 시 함께 생성되는 타임스탬프를 이용하여 영상과 텍스트를 자동으로 동기화시키는 장애인 시청권 향상을 위한 영상 동기화 시스템에 관한 것이다.The present invention relates to a video synchronization system for improving the viewing rights of the disabled, and more particularly, to improve the viewing rights of the disabled, which displays the audio of a video as text, and automatically synchronizes the video and text using a timestamp that is generated together when text is created It relates to a video synchronization system for

현재 국내 영화관에서 상영하는 디지털 영상 콘텐츠의 경우 정부 차원의 장애인 영화 관람 환경 조성의 일환으로 장애인차별금지법 및 영비법 개정을 통한 장애인의 영화 관람 환경이 마련되었고, 한국 영화 상영은 일정 비율로 시청각 장애인을 위한 수화, 자막, 화면 해설 상영 의무화 및 수화, 자막, 화면 해설을 통한 시청각 장애인과 비장애인의 차별 및 장벽이 없도록 배리어 프리(Barrier-Free) 상영관 의무화 및 제반 운영지원을 하고 있다. 그러나 이러한 시책에도 불구하고 시청각 장애인의 경우 실제 영화관에 가서 일반인들과 같이 영화를 관람하기에는 현실적으로 곤란한 문제점이 있다.In the case of digital video content currently screened in domestic movie theaters, as part of the government-level creation of a movie viewing environment for the disabled, an environment for viewing movies for the disabled has been prepared through the revision of the Act on the Prevention of Discrimination against Persons with Disabilities and the Entrepreneurship Act. The screening of sign language, subtitles, and screen explanations is made mandatory, and barrier-free theaters are made mandatory and support is provided so that there are no barriers and discrimination between the visually and visually impaired and non-disabled people through sign language, subtitles, and screen commentary. However, despite these measures, there is a problem in that it is practically difficult for the hearing-impaired to go to a movie theater and watch a movie together with the general public.

최근에는 지상파 방송 등에서 시청각 장애인을 위한 공익적 차원에서 방영되는 디지털 영상 콘텐츠에 대해 화면해설이나 자막 방송을 제한적으로 실시하고 있다. 그러나 이러한 화면 해설이나 자막 방송을 위해서는 방영될 디지털 영상 콘텐츠에 화면 해설이나 자막을 디지털 워터 마킹으로 믹싱 삽입 등의 방법을 통해 제작하여야 하는데 이 경우 원본 손상(변형)에 따른 저작권 문제와 고비용(한국 영화 디지털 영상 콘텐츠의 경우 편당 1,500여만원, 외화 디지털 영상 콘텐츠의 경우 편당 2,000 여만원 정도 제작 비용 발생)의 문제로 인해 이를 상업적수준의 유료 서비스를 통한 비즈니스 모델로 시도하기에는 수익성이 확보되지 않아 실질적으로 시청각 장애인에게 다양한 디지털 영상 콘텐츠의 시청 접근성을 허용하지 못하고 있는 실정이다.Recently, screen commentary and closed captioning have been limited to digital video content aired in the public interest for the hearing and visual impaired, such as on terrestrial broadcasting. However, for such screen commentary or subtitle broadcasting, screen commentary or subtitles must be produced by mixing and inserting digital video content into digital video content to be aired. In this case, copyright problems and high costs (Korean movie In the case of digital video content, it costs about 15 million won per episode, and in the case of foreign currency digital video content, about 20 million won per episode), it is not profitable to try it as a business model through a commercial level paid service. It is a situation in which the viewing accessibility of various digital image contents is not allowed to the disabled.

한편, 하기 선행기술문헌의 특허문헌 제10-1052850호에 개시된 특허 발명인 "상용 디브이디 콘텐츠를 이용한 자막제공 서비스 시스템"은 상용 디브이디 콘텐츠의 자막 정보를 자막제공서버(120)로부터 사용자 단말기(100)로 네트워크(11)을 통해 다운받아 디브이디 콘텐츠의 영상/음성신호 재생시간과 동기화하여 디브이디 콘텐츠의 영상/음성신호와 동기화된 자막을 재생함으로써 어학 학습을 할 수 있는 기술이 제안되었다.On the other hand, the "subtitle providing service system using commercial DVD contents", a patent invention disclosed in Patent Document No. 10-1052850 of the following prior art document, transfers subtitle information of commercial DVD contents from the subtitle providing server 120 to the user terminal 100. A technique for language learning by downloading through the network 11 and playing subtitles synchronized with the video/audio signal of the DVD content in synchronization with the playback time of the video/audio signal of the DVD content has been proposed.

그러나 상기 종래 특허 발명은 사용자 단말기(130)가 현재 범용적으로 사용되는 휴대전화 기능이 기본적으로 내장되어 있으며 크기가 작아 상시 휴대 및 사용이 빈번하게 이루어지는 스마트폰이나 태블릿 PC 또는 패블릿 PC 등의 스마트 기기가 아닌 개인용 컴퓨터, 노트북, PDA 단말기 등의 휴대용 개인용 기기를 기반으로 하는 것으로 시각 또는 청각 장애인이 상시 휴대 및 사용하기에 불편한 문제점이 있었다. 뿐만 아니라, 영화관 스크린에 비해 상대적으로 매우 작은 CRT 모니터나 LCD 모니터 등으로 디스플레이부(210)가 구성되어 있으며, 디지털 영상 콘텐츠가 디브이디 콘텐츠로 한정이 되어 있을 뿐만 아니라 비록 영상/음성신호의 재생과 자막의 재생이 공간적으로 분리되어 있으나 사용자 단말기(130)에 구비된 하나의 디스플레이부(210)에 의해 재생이 되므로 청각 장애인이 상기 특허 발명에 제안된 시스템을 이용하여 디지털 영상 콘텐츠를 시청하기에 불편하고, 시각 장애인의 경우에는 디지털 영상 콘텐츠의 관람 자체가 불가능한 문제점이 있었다.However, in the prior patent invention, the user terminal 130 has a built-in mobile phone function that is currently universally used, and has a small size, so that a smart phone, a tablet PC, or a phablet PC, etc. As it is based on portable personal devices such as personal computers, notebook computers, and PDA terminals, there is a problem that it is inconvenient for the visually or hearing impaired to carry and use at all times. In addition, the display unit 210 is composed of a CRT monitor or LCD monitor, which is relatively small compared to the cinema screen, and not only digital video content is limited to DVD content, but also video/audio signal reproduction and subtitles. Although the reproduction of is spatially separated, it is reproduced by one display unit 210 provided in the user terminal 130, so it is inconvenient for the hearing impaired to watch digital video contents using the system proposed in the patent invention. However, in the case of the visually impaired, there was a problem that it was impossible to view digital image contents.

한편, 전술한 배경 기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.On the other hand, the above-mentioned background art is technical information that the inventor possessed for the derivation of the present invention or acquired in the process of derivation of the present invention, and it cannot be said that it is necessarily a known technique disclosed to the general public before the filing of the present invention. .

한국등록특허 제10-1052850호Korean Patent No. 10-1052850

본 발명의 일측면은 동영상의 음성을 텍스트화여 표시하며, 텍스트 생성 시 함께 생성되는 타임스탬프를 이용하여 영상과 텍스트를 자동으로 동기화시키는 장애인 시청권 향상을 위한 영상 동기화 시스템을 제공한다.An aspect of the present invention provides a video synchronization system for improving the viewing rights of the disabled, which displays the audio of a video as text, and automatically synchronizes the video and text using a timestamp generated together when text is generated.

본 발명의 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The technical problems of the present invention are not limited to the technical problems mentioned above, and other technical problems not mentioned will be clearly understood by those skilled in the art from the following description.

본 발명의 일 실시예에 따른 장애인 시청권 향상을 위한 영상 동기화 시스템은, 영상 콘텐츠에 포함된 음성을 텍스트화여 자막 데이터를 생성하며, 상기 자막데이터의 생성 시 함께 생성되는 타임스탬프를 이용하여 상기 영상 콘텐츠와 상기 자막 데이터를 동기화시킨다.A video synchronization system for improving viewing rights for the disabled according to an embodiment of the present invention generates caption data by converting audio included in video content into text, and uses a timestamp that is generated together when the caption data is generated. and the subtitle data are synchronized.

상기 장애인 시청권 향상을 위한 영상 동기화 시스템은,The video synchronization system for improving the viewing rights of the disabled,

영상 콘텐츠를 제공하는 관리자 단말기;a manager terminal that provides video content;

상기 영상 콘텐츠에 대한 속기정보를 생성하는 속기사 단말기; 및a stenographer terminal for generating stenography information for the video content; and

상기 영상 콘텐츠를 시청하는 장애인이 소지한 사용자 단말기를 포함하고,Including a user terminal possessed by a person with a disability viewing the video content,

상기 관리자 단말기는,The manager terminal,

상기 속기사 단말기로부터 수신되는 상기 속기정보에 기초하여 자막 데이터를 생성하되, 상기 자막 데이터를 구성하는 문자열의 한 단어 또는 한 줄 단위로 타임스탬프를 생성하여 자막 데이터에 결합하는 것을 특징으로 하고,and generating subtitle data based on the stenography information received from the stenographer terminal, generating a timestamp in units of one word or one line of a character string constituting the subtitle data, and combining them with the subtitle data,

상기 사용자 단말기는,The user terminal,

상기 자막 데이터가 결합된 상기 영상 콘텐츠를 출력하는 과정에서, 출력대기 중인 텍스트에 타임 스탬프가 존재하는 경우 텍스트를 디스플레이 할 때 확인한 타임정보와 영상 콘텐츠의 동영상의 타임정보를 비교하여, 영상의 타임정보가 텍스트의 타임정보와 상이한 것으로 확인되면, 텍스트의 타임정보에 맞추어 저장수단에 동영상을 초단위로 딜레이하여 디스플레이하여 영상 콘텐츠와 자막 데이터를 동기화하고,In the process of outputting the video content combined with the caption data, if there is a time stamp in the text waiting to be output, the time information of the video content is compared with the time information checked when the text is displayed with the time information of the video If it is confirmed that is different from the time information of the text, the video content is displayed by delaying the video on the storage means in seconds according to the time information of the text to synchronize the video content and the subtitle data,

동영상을 텍스트의 타임정보에 맞추어 출력한 이후에도 동영상과 텍스트가 동기화가 이루어지지 않은 것으로 판단되면, 동영상에 대한 디스플레이를 미리 설정된 기준 시간만큼 지연시켜 표시하는 것을 특징으로 한다.If it is determined that the video and the text are not synchronized even after the video is output according to the time information of the text, the video display is delayed by a preset reference time.

상기 사용자 단말기는,The user terminal is

상기 자막 데이터가 결합된 상기 영상 콘텐츠를 출력하는 과정에서, 출력대기 중인 텍스트에 타임 스탬프가 존재하는 경우 텍스트를 디스플레이 할 때 확인한 타임정보와 영상 콘텐츠의 동영상의 타임정보를 비교하여, 영상의 타임정보가 텍스트의 타임정보와 상이한 것으로 확인되면, 텍스트의 타임정보에 맞추어 저장수단에 동영상을 초단위로 딜레이하여 디스플레이하여 영상 콘텐츠와 자막 데이터를 동기화하고,In the process of outputting the video content combined with the caption data, if there is a time stamp in the text waiting to be output, the time information of the video content is compared with the time information checked when the text is displayed with the time information of the video If it is confirmed that is different from the time information of the text, the video content is displayed by delaying the video on the storage means in seconds according to the time information of the text to synchronize the video content and the subtitle data,

동영상을 텍스트의 타임정보에 맞추어 출력한 이후에도 동영상과 텍스트가 동기화가 이루어지지 않은 것으로 판단되면, 영상 콘텐츠를 구성하는 정지 이미지를 구성하는 객체를 검출하고, 자막 데이터를 단어별로 구분하여 검출된 객체와 대응되는 단어를 검색하여 검색된 단어가 표시되는 시점에 검출된 객체가 포함된 영상이 표시되도록 동기화를 수행하는 것을 특징으로 한다.Even after outputting the video according to the time information of the text, if it is determined that the video and the text are not synchronized, the object constituting the still image constituting the video content is detected, and the subtitle data is divided by word and the detected object is It is characterized in that the synchronization is performed so that an image including the detected object is displayed at the time the searched word is displayed by searching for a corresponding word.

상술한 본 발명의 일측면에 따르면, 소리를 인지하지 못하는 청각 장애인도 영상 데이터에 포함된 음성에 대한 자막을 제공받음으로써 영상 콘텐츠를 원활하게 시청할 수 있으며, 영상의 송출 시 영상과 자막을 실시간 동기화함으로써 시청자의 몰입도를 향상시킬 수 있다.According to one aspect of the present invention described above, even the deaf person who cannot recognize sound can smoothly watch video content by receiving captions for the audio included in video data, and synchronize video and captions in real time when video is transmitted. This can improve the audience's immersion.

도 1은 본 발명의 일 실시예에 따른 장애인 시청권 향상을 위한 영상 동기화 시스템의 개략적인 구성이 도시된 도면이다.
도 2는 도 1의 관리자 단말기의 구체적인 구성이 도시된 도면이다.
도 3 및 도 4는 도 1의 사용자 단말기의 구체적인 구성이 도시된 도면이다.
1 is a diagram showing a schematic configuration of an image synchronization system for improving the viewing right of the disabled according to an embodiment of the present invention.
FIG. 2 is a diagram illustrating a detailed configuration of the manager terminal of FIG. 1 .
3 and 4 are diagrams illustrating a detailed configuration of the user terminal of FIG. 1 .

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예와 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS [0010] DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS [0010] DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS [0023] Reference is made to the accompanying drawings, which show by way of illustration specific embodiments in which the present invention may be practiced. These embodiments are described in sufficient detail to enable those skilled in the art to practice the present invention. It should be understood that the various embodiments of the present invention are different but need not be mutually exclusive. For example, certain shapes, structures, and characteristics described herein with respect to one embodiment may be implemented in other embodiments without departing from the spirit and scope of the invention. In addition, it should be understood that the location or arrangement of individual components within each disclosed embodiment may be changed without departing from the spirit and scope of the present invention. Accordingly, the detailed description set forth below is not intended to be taken in a limiting sense, and the scope of the invention, if properly described, is limited only by the appended claims, along with all scope equivalents to those claimed. Like reference numerals in the drawings refer to the same or similar functions throughout the various aspects.

이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.Hereinafter, preferred embodiments of the present invention will be described in more detail with reference to the drawings.

도 1은 본 발명의 일 실시예에 따른 장애인 시청권 향상을 위한 영상 동기화 시스템의 개략적인 구성이 도시된 도면이다.1 is a view showing a schematic configuration of an image synchronization system for improving the viewing right of the disabled according to an embodiment of the present invention.

본 발명에 따른 장애인 시청권 향상을 위한 영상 동기화 시스템(1000)은 콘텐츠 관리자가 소지한 관리자 단말기(10), 속기사가 소지한 속기사 단말기(20) 및 장애인이 소지한 사용자 단말기(30)를 포함할 수 있다.The video synchronization system 1000 for improving viewing rights for the disabled according to the present invention may include a manager terminal 10 possessed by a content manager, a stenographer terminal 20 possessed by a stenographer, and a user terminal 30 possessed by a disabled person. have.

관리자 단말기(10)는 장애인에게 제공하고자 하는 영상 콘텐츠를 제작, 관리하는 콘텐츠 관리자가 소지한 단말로, 외부장치와 유선 또는 무선통신이 가능하고, 정보의 입력, 출력 및 처리가 가능한 전자장치로, 예컨대 스마트폰, PC, 태블릿 PC, 웨어러블 장치 등의 형태일 수 있다.The manager terminal 10 is a terminal possessed by a content manager who creates and manages video content to be provided to the disabled, and is an electronic device capable of wired or wireless communication with an external device and capable of input, output and processing of information, For example, it may be in the form of a smartphone, a PC, a tablet PC, a wearable device, or the like.

예컨대, 콘텐츠 관리자가 방송 컨텐츠를 장애인을 위한 컨텐츠 제작 시스템에 전달하고, 장애인을 위한 컨텐츠 제작 시스템은 방송 컨텐츠에 기초하여 방송 자막을 생성하거나, 자막 데이터가 포함된 컨텐츠를 생성하여 이를 셋톱박스에 전달한다. 셋톱박스는 전달받은 방송 패킷을 인코딩하여 시청자에게 출력한다.For example, the content manager delivers broadcast content to a content production system for the disabled, and the content production system for the disabled generates broadcast captions based on the broadcast content or generates content including caption data and delivers it to the set-top box. do. The set-top box encodes the received broadcast packet and outputs it to the viewer.

콘텐츠 관리자는 대표적인 예로 방송국이 있을 수 있으며, 방송국 외 컨텐츠를 제작하여 제공하는 사업자 또는 중간 분배자를 포함할 수도 있다. 콘텐츠 관리자는 오디오와 영상을 포함하는 컨텐츠를 장애인을 위한 컨텐츠 제작 시스템에 전달한다. 여기에서 콘텐츠 관리자가 전달하는 방송 데이터에는 일반적으로 청각장애인을 위한 자막이나, 시각장애인을 위한 자막 데이터가 포함되어 있지 않으며, 따라서, 속기사가 실시간으로 방송을 보면서 속기 입력을 통해 자막을 생성하거나, 화면해설원고를 타이핑하여 자막 데이터를 생성하는 것이 필요하다.The content manager may include a broadcasting station as a representative example, and may include a business operator or an intermediate distributor that produces and provides content other than the broadcasting station. The content manager delivers content including audio and video to the content production system for the disabled. Here, the broadcast data delivered by the content manager generally does not include caption data for the hearing impaired or caption data for the visually impaired. It is necessary to generate subtitle data by typing the commentary manuscript.

한편, 관리자 단말기(10)는 속기사로부터 입력되는 타이핑 정보를 기초로 자막 데이터를 생성하고, 생성된 자막 데이터를 영상 콘텐츠에 결합하여 사용자 단말(30)로 직접 전송하거나, 방송 시스템을 통해 전송될 수 있도록 한다.On the other hand, the manager terminal 10 generates caption data based on typing information input from the stenographer, combines the generated caption data with image content, and transmits it directly to the user terminal 30 or through a broadcasting system. let it be

이 과정에서, 관리자 단말기(10)는 자막 데이터의 한 단어 또는 한 줄 단위로 동기화용 타임스탬프를 생성하여 자막 데이터에 결합하고, 이렇게 입력되어 동영상과 결합된 텍스트(자막)에는 동기화용 타임스탬프가 별도의 보호수단에 의하여 보호되는 상태로 찍혀 있는 상황이 된다. 이 타임스탬프는 입력단계가 아닌 텍스트 분리하는 단계에서 생성될 수도 있다.In this process, the manager terminal 10 generates a timestamp for synchronization in units of one word or one line of the caption data and combines it with the caption data. It is a situation where it is stamped in a state protected by a separate means of protection. This timestamp may be generated in the text separation step rather than the input step.

도 2는 이러한 관리자 단말기(10)의 구체적인 구성이 도시된 도면이다.2 is a diagram illustrating a detailed configuration of the manager terminal 10 .

도시된 바와 같이, 관리자 단말기(10)는 영상 수신부(110), 음성인식부(120), 속기정보 수신부(130), 자막 생성부(140) 및 처리부(150)를 포함할 수 있다.As shown, the manager terminal 10 may include an image receiving unit 110 , a voice recognition unit 120 , a stenographic information receiving unit 130 , a subtitle generating unit 140 , and a processing unit 150 .

영상 수신부(110)는 콘텐츠 관리자로부터 방송 컨텐츠를 수신한다. 영상 수신부(110)는 방송 수신기 및 인코더를 포함할 수 있다. 영상 수신부(110)는 지상파, 케이블, 인터넷 중 적어도 하나를 통해 콘텐츠 관리자로부터 방송 컨텐츠를 수신할 수 있다.The image receiver 110 receives broadcast content from the content manager. The image receiver 110 may include a broadcast receiver and an encoder. The image receiver 110 may receive broadcast content from the content manager through at least one of a terrestrial wave, a cable, and the Internet.

영상 수신부(110)는 방송 컨텐츠를 음성 인식부(120)로 전달하여 음성인식을 수행하게 하거나, 방송 컨텐츠를 속기사가 볼 수 있도록 디코딩하여 디스플레이 장치에 전달할 수 있다. 또한, 영상 수신부(110)는 방송 컨텐츠를 처리부(150)로 전달할 수도 있다.The image receiver 110 may transmit the broadcast content to the voice recognition unit 120 to perform voice recognition, or decode the broadcast content so that a stenographer can see it and deliver it to the display device. Also, the image receiving unit 110 may transmit broadcast content to the processing unit 150 .

음성 인식부(120)는 콘텐츠 관리자로부터 전달받은 컨텐츠가 재생될 때, 음성을 자동 인식하여 문자로 변환한다. 음성 인식부(120)는 종래에 일반적으로 사용되는 음성 문자 변환 도구일 수 있으며, 구체적인 예로 구글 클라우드 스피치 API나 Amazon Transcirbe일 수 있다. 즉, 음성 인식부(120)는 컨텐츠에 포함된 음성을 기계번역하여 문자로 생성할 수 있다.When the content delivered from the content manager is played, the voice recognition unit 120 automatically recognizes the voice and converts it into text. The voice recognition unit 120 may be a conventionally used voice-to-text conversion tool, and specific examples may be Google Cloud Speech API or Amazon Transcirbe. That is, the voice recognition unit 120 may machine-translate the voice included in the content to generate text.

구체적으로, 본 발명의 일 실시 예에 따른 음성 인식부(120)는 수신부, 변환부 및 정확도 산출부를 포함할 수 있다.Specifically, the voice recognition unit 120 according to an embodiment of the present invention may include a receiving unit, a converting unit, and an accuracy calculating unit.

수신부는 컨텐츠로부터 음성 신호를 획득한다. 예를 들어 수신부는 마이크일 수 있다. 수신부는 컨텐츠로부터 전달되는 모든 음성 신호를 수집하고, 수집한 음성 신호를 디지털 신호로 변환하여 변환부로 전달할 수 있다.The receiver acquires a voice signal from the content. For example, the receiver may be a microphone. The receiver may collect all the voice signals transmitted from the content, convert the collected voice signals into digital signals, and transmit them to the converter.

또 다른 실시 예에서 수신부는 속기사 단말기(20)로부터 속기사의 음성을 수신할 수도 있다. 속기사가 특정 상황에서 속기키보드를 통한 속기 입력이 어려운 경우, 수신부는 속기사의 음성을 수신하여 문자로 변환할 수 있다. 단, 속기사의 음성을 문자로 변환한 데이터는 컨텐츠의 음성 신호를 문자로 변환한 것과 다르게 처리되어 처리부(150)로 전달될 수 있다. 처리부(150)는 속기사의 음성으로부터 변환되는 문자 데이터를 보완 속기 입력과 동일하게 취급하여 최종 자막 생성에 사용할 수 있다.In another embodiment, the receiver may receive the voice of the stenographer from the stenographer terminal 20 . When it is difficult for the stenographer to input stenography through the stenography keyboard in a specific situation, the receiver may receive the voice of the stenographer and convert it into text. However, the data obtained by converting the voice of the stenographer into text may be processed differently from the data obtained by converting the voice signal of the content into text and transmitted to the processing unit 150 . The processing unit 150 may treat the text data converted from the voice of the stenographer in the same way as the supplementary stenographic input and use it to generate the final subtitle.

변환부는 수신부로부터 전달받은 음성 신호를 문자로 변환한다. 구체적으로 변환부는 딥러닝을 통한 자동 음성 인식을 위한 기계 학습 애플리케이션일 수 있다. 변환부는 WAV 및 MP3와 같은 일반적인 형식으로 저장된 오디오 파일을 트랜스크립션하고 단어마다 타임스탬프를 추가할 수 있다.The converter converts the voice signal received from the receiver into text. Specifically, the conversion unit may be a machine learning application for automatic speech recognition through deep learning. The converter can transcribe audio files stored in common formats such as WAV and MP3 and add timestamps for each word.

정확도 산출부는 자동 음성 인식 간에 음성 인식의 정확도를 산출할 수 있다. 구체적으로, 정확도 산출부는 음성 신호에서 사람의 목소리(육성)와 노이즈를 구별할 수 있으며, 사람의 목소리 크기, 사람의 목소리와 노이즈간 비율 또는 음성 인식 결과에 기초하여 정확도를 산출할 수 있다.The accuracy calculator may calculate the accuracy of voice recognition between automatic voice recognition. Specifically, the accuracy calculator may distinguish a human voice (nurture) from noise in the voice signal, and may calculate the accuracy based on a human voice volume, a ratio between a human voice and noise, or a voice recognition result.

일 실시 예에서, 정확도 산출부는 음성 신호 중에서 사람의 목소리가 작으면 정확도를 낮은 것으로 볼 수 있으며, 사람의 목소리가 크면 정확도가 높을 것으로 볼 수 있다. 다시 말해서 정확도 산출부는 사람의 목소리 크기에 비례하여 정확도를 산출할 수 있다. 예를 들어, 컨텐츠 속 화자가 마이크에서 떨어져 발언하거나 말소리가 상대적으로 작은 경우가 있을 수 있다. 사람의 목소리가 크고 작은지 여부를 판단하는 기준은 일반적인 컨텐츠에서의 사람 목소리 크기가 될 수 있으며, 구체적인 값은 기계학습을 통해 얻을 수도 있다.In an embodiment, the accuracy calculator may view the accuracy as low when the human voice is low among the voice signals, and may view the accuracy as high when the human voice is large. In other words, the accuracy calculator may calculate the accuracy in proportion to the human voice. For example, there may be a case in which the speaker in the content speaks away from the microphone or the voice is relatively low. A criterion for judging whether a human voice is large or small may be the human voice volume in general content, and a specific value may be obtained through machine learning.

또 다른 실시 예에서, 정확도 산출부는 음성 신호 중에서 사람 목소리와 노이즈간 비율에서 노이즈 비율이 높을수록 정확도가 낮은 것으로 볼 수 있다. 다시 말해서, 정확도 산출부는 노이즈 비율과 반비례하여 정확도를 산출할 수 있다. 예를 들어 컨텐츠 속에서 장내가 소란스럽거나 비음성적인 소리가 중심이 되는 경우가 있을 수 있다.In another embodiment, the accuracy calculator may view that the higher the noise ratio in the ratio between the human voice and the noise in the voice signal, the lower the accuracy. In other words, the accuracy calculator may calculate the accuracy in inverse proportion to the noise ratio. For example, there may be a case where the intestine is noisy or the non-voice sound is the center in the content.

또 다른 실시 예에서, 정확도 산출부는 인식 결과에 기초하여 정확도를 산출할 수 있다. 정확도 산출부는 음성을 인식하여 문자로 변환한 결과가 표준어 표기에 맞는지 여부를 판단하여 정확도를 산출할 수 있다. 예를 들어 정확도 산출부의 변환 결과가 맞춤법에 맞지 않는 경우가 있을 수 있으며, 컨텐츠 속 화자가 방언을 구사하는 경우가 있을 수 있다.In another embodiment, the accuracy calculator may calculate the accuracy based on the recognition result. The accuracy calculation unit may calculate the accuracy by determining whether a result of recognizing a voice and converting it into a text conforms to the standard language notation. For example, there may be cases where the conversion result of the accuracy calculator does not match the spelling, and there may be cases where the speaker in the content speaks a dialect.

정확도 산출부는 음성 인식 결과가 특정 값 이하인 경우 해당 단어 또는 구간의 교정용 타임스탬프를 생성할 수 있다. 생성된 교정용 타임스탬프는 처리부(150)로 전달될 수 있다.The accuracy calculator may generate a timestamp for correction of a corresponding word or section when the voice recognition result is less than or equal to a specific value. The generated calibration timestamp may be transmitted to the processing unit 150 .

속기정보 수신부(130)는 속기사 단말기(20)로부터 속기입력을 수신하여 획득한다. The stenography information receiving unit 130 receives and obtains a stenography input from the stenographer terminal 20 .

한편, 속기정보 수신부(130)는 속기사 단말기(20)로 알림 신호를 전달할 수 있다. 여기에서 속기사에게 표시되는 알림은 음성 인식부(120)에서 인식 정확도가 일정 값 이하임을 알리는 것일 수 있다. 음성 인식 정확도가 일정 값 이하인 경우 음성-문자 변환의 결과가 정확하지 않을 확률이 높은 바, 이때 속기사가 직접 자막을 입력하여 자막 데이터를 생성하고, 생성된 자막 데이터를 속기사 단말기(20)를 통해 수신함으로써 자동 음성 인식의 결과를 보정할 수 있다. On the other hand, the stenography information receiver 130 may transmit a notification signal to the stenographer terminal 20 . Here, the notification displayed to the stenographer may indicate that the voice recognition unit 120 recognizes that the recognition accuracy is less than or equal to a predetermined value. When the speech recognition accuracy is less than a certain value, there is a high probability that the result of the speech-text conversion is not accurate. At this time, the stenographer directly inputs the caption to generate caption data, and the generated caption data is received through the stenographer terminal 20 . By doing so, the result of automatic speech recognition can be corrected.

처리부(150)는 음성 인식부(120) 및 속기정보 수신부(130)로부터 전달받은 문자를 통합하여 최종 자막을 생성한다. 구체적으로 처리부(150)는 음성 인식부(120)로부터 전달받은 음성-문자 변환 데이터와 속기정보 수신부(130)로부터 전달받은 속기입력 데이터를 통합하여 최종 자막을 생성한다.The processing unit 150 generates a final caption by integrating the text received from the voice recognition unit 120 and the stenographic information receiving unit 130 . Specifically, the processing unit 150 generates the final caption by integrating the speech-text conversion data received from the voice recognition unit 120 and the stenography input data received from the stenography information receiving unit 130 .

일 실시 예에서, 처리부(150)는 음성 인식부(120)로부터 전달받은 음성 문자 변환 데이터를 기초로 하고, 음성 문자 변환 데이터의 일부를 속기정보 수신부(130)로부터 전달받은 속기입력 데이터로 보완하여 최종 자막을 생성할 수 있다. 상술한 바와 같이, 특정의 상황에서 음성 인식부(120)의 인식 정확도가 낮아 문자 변환 결과가 부정확할 수 있으며, 이 경우 부정확한 문자 변환 결과를 속기사의 직접 입력으로 보완하여 최종 자막을 생성할 수 있다.In one embodiment, the processing unit 150 is based on the voice text conversion data received from the voice recognition unit 120, and supplements a part of the voice text conversion data with the stenography input data received from the stenography information receiving unit 130. You can create final subtitles. As described above, the text conversion result may be inaccurate due to the low recognition accuracy of the voice recognition unit 120 under certain circumstances. have.

처리부(150)는 음성 인식부(120)로부터 정확도가 일정 값 이하인 보완 대상 단어 또는 보완 대상 구간(시점)에 대한 교정용 타임스탬프 정보를 획득할 수 있다. 그리고 처리부(150)는 보완 대상 단어 또는 구간의 교정용 타임스탬프와 속기입력 시작 시간을 비교하여 속기입력 데이터와 음성 문자 변환 데이터를 동기화하여 최종 자막을 생성할 수 있다.The processing unit 150 may obtain, from the voice recognition unit 120 , the correction timestamp information for the complementation target word or the complementation target section (time point) whose accuracy is less than or equal to a predetermined value. In addition, the processing unit 150 may generate a final caption by synchronizing the stenographic input data and the voice-to-text conversion data by comparing the correction timestamp of the complementary word or section with the stenographic input start time.

구체적인 실시 예에서, 처리부(150)는 보완 대상 단어 또는 구간의 교정용 타임스탬프와 보완 속기입력이 시작된 시간을 비교하고, 그 차이가 가장 작은 보완 대상 단어 또는 구간과 보완 속기입력을 매칭하여 최종 자막을 생성한다.In a specific embodiment, the processing unit 150 compares the correction timestamp of the complementation target word or section with the start time of the supplementary shorthand input, and matches the supplementary shorthand input with the complementary shorthand input with the smallest difference to obtain the final subtitle create

또 다른 실시 예에서, 처리부(150)는 하나 이상의 보완 대상 단어 또는 구간의 시간 순서와 하나 이상의 보완 속기 입력의 시간 순서만을 비교 매칭하여 최종 자막을 생성한다. 보완 대상 단어 또는 구간의 수와 보완 속기 입력의 수가 동일하기 때문에, 각 순서만을 비교하여 순서대로 보완 대상 단어 또는 구간을 보완 속기입력으로 대신하여 최종 자막이 생성될 수 있다.In another embodiment, the processing unit 150 generates a final caption by comparing and matching only the temporal sequence of one or more complementary words or sections and the temporal sequence of one or more supplementary shorthand inputs. Since the number of supplementary words or sections and the number of supplementary shorthand inputs are the same, only each order is compared, and a final subtitle can be generated by sequentially replacing the supplementary target word or section with supplementary shorthand input.

이 과정에서, 처리부(150)는 상술한 바와 같이 자막 데이터의 한 단어 또는 한 줄 단위로 동기화용 타임스탬프를 생성하여 자막 데이터에 결합하고, 이렇게 입력되어 동영상과 결합된 텍스트(자막)에는 동기화용 타임스탬프가 별도의 보호수단에 의하여 보호되는 상태로 찍혀 있는 상황이 된다. 이 동기화용 타임스탬프는 입력단계가 아닌 텍스트 분리하는 단계에서 생성될 수도 있다.In this process, the processing unit 150 generates a timestamp for synchronization in units of one word or one line of the subtitle data as described above and combines it with the subtitle data, and the inputted text (subtitle) combined with the moving picture is for synchronization. It is a situation where the timestamp is stamped in a protected state by a separate protection means. This synchronization timestamp may be generated in the text separation step instead of the input step.

속기사 단말기(20)는 속기사가 소지한 전자장치로, 외부장치와 유선 또는 무선통신이 가능하고, 정보의 입력, 출력 및 처리가 가능한 전자장치로, 예컨대 스마트폰, PC, 태블릿 PC, 스마트 TV, 웨어러블 장치 등의 형태일 수 있다.The stenographer terminal 20 is an electronic device possessed by a stenographer, and is capable of wired or wireless communication with an external device, and is an electronic device capable of input, output and processing of information, for example, a smartphone, PC, tablet PC, smart TV, It may be in the form of a wearable device or the like.

속기사 단말기(20)는 관리자 단말기(10)로부터 기계번역된 문자 데이터와, 문자 데이터에서 음성 인식 결과가 특정 값 이하인 경우 해당 단어 또는 구간을 나타내는 교정용 타임스탬프를 함께 수신할 수 있다.The stenographer terminal 20 may receive the machine-translated text data from the manager terminal 10 and a proofreading timestamp indicating the corresponding word or section when the voice recognition result in the text data is less than or equal to a specific value.

따라서, 속기사는 속기사 단말기(20)를 이용하여 교정용 타임스탬프가 표시된 구간에 대한 속기정보를 생성하여 관리자 단말기(10)로 전송함으로써, 관리자 단말기(10)가 기계 번역된 문자와 속기사로부터 입력된 속기 정보를 취합하여 최종적인 자막 데이터를 생성할 수 있도록 한다.Therefore, the stenographer uses the stenographer terminal 20 to generate stenographic information for the section in which the time stamp for proofreading is displayed and transmits it to the manager terminal 10, so that the manager terminal 10 is input from the machine-translated characters and the stenographer. By collecting the shorthand information, it is possible to generate the final subtitle data.

사용자 단말기(30)는 자막 데이터가 결합된 영상 콘텐츠를 수신하여 영상 콘텐츠의 재생 시 자막 데이터를 함께 표시하여 청각 장애인이 영상 콘텐츠를 감상할 수 있도록 하는 장치로, 외부장치와 유선 또는 무선통신이 가능하고, 정보의 입력, 출력 및 처리가 가능한 전자장치로, 예컨대 스마트폰, PC, 태블릿 PC, 스마트 TV, 웨어러블 장치 등의 형태일 수 있다.The user terminal 30 is a device that receives video content combined with caption data and displays the caption data together when the video content is reproduced so that the hearing impaired can enjoy video content. Wired or wireless communication with an external device is possible. and, an electronic device capable of inputting, outputting, and processing information, for example, may be in the form of a smartphone, PC, tablet PC, smart TV, wearable device, or the like.

사용자 단말기(30)는 관리자 단말기로(10)로부터 방송 콘텐츠 및 자막 데이터를 자막 데이터를 수신하고, 자막 데이터와 방송 컨텐츠간 동기화를 수행한다. 더하여, 사용자 단말기(30)는 방송 컨텐츠와 자막 데이터를 하나의 방송 데이터로 인코딩할 수도 있다. The user terminal 30 receives caption data for broadcast content and caption data from the manager terminal 10 and synchronizes the caption data with the broadcast content. In addition, the user terminal 30 may encode broadcast content and caption data into one broadcast data.

도 3은 본 발명의 일 실시 예에 따른 사용자 단말기(30)의 구성을 나타내는 블록도이다.3 is a block diagram showing the configuration of the user terminal 30 according to an embodiment of the present invention.

도 3에 도시되어 있는 바와 같이, 본 발명의 일 실시 예에 따른 사용자 단말기(30)은 객체 감지부(210) 및 동기화부(220)을 포함할 수 있다.As shown in FIG. 3 , the user terminal 30 according to an embodiment of the present invention may include an object detection unit 210 and a synchronization unit 220 .

객체 감지부(210)는 관리자 단말기(10)의 영상 수신부(110)로부터 획득한 방송 컨텐츠에서 이미지 객체를 인식한다. 구체적으로 객체 감지부(210)는 방송 컨텐츠의 비디오 이미지로부터 객체를 인식한다. 여기에서 객체 감지부(210)는 일반적으로 사용되는 이미지 객체 인식 도구일 수 있다. 예를 들어 객체 감지부(210)는 클라우드 비전 API와 같은 애플리케이션일 수 있다.The object detecting unit 210 recognizes an image object in the broadcast content obtained from the image receiving unit 110 of the manager terminal 10 . Specifically, the object detecting unit 210 recognizes an object from a video image of broadcast content. Here, the object detecting unit 210 may be a generally used image object recognition tool. For example, the object detection unit 210 may be an application such as a cloud vision API.

객체 인식이란 이미지 또는 비디오 상의 객체를 식별하는 컴퓨터 비전 기술로서, 딥러닝과 머신 러닝 알고리즘을 통해 수행되는 것일 수 있다. 객체 인식을 통해 이미지에 포함된 객체를 인식할 수 있다Object recognition is a computer vision technology that identifies an object on an image or video, and may be performed through deep learning and machine learning algorithms. Object recognition can recognize objects included in images

예를 들어, 객체 감지부(210)는 특정의 이미지 프레임에서 파란 하늘을 추출하여 인식하거나, 특정의 이미지 프레임에서 추출된 객체 중에서 사람으로 인식되는 객체가 없는 경우 해당 이미지에는 사람이 등장하지 않는 것으로 인식할 수 있다.For example, the object detection unit 210 extracts and recognizes a blue sky from a specific image frame, or when there is no object recognized as a person among the objects extracted from a specific image frame, it is assumed that a person does not appear in the image. can recognize

동기화부(220)는 자막 데이터와 방송 컨텐츠를 동기화한다. The synchronization unit 220 synchronizes subtitle data and broadcast content.

도 4는 동기화부(220)의 구체적인 구성이 도시된 도면으로, 동기화부(220)는 복호화부(221), 텍스트 관리부(222) 및 영상 및 음성 관리부(223)를 포함한다.FIG. 4 is a diagram illustrating a detailed configuration of the synchronization unit 220 . The synchronization unit 220 includes a decryption unit 221 , a text management unit 222 , and an image and audio management unit 223 .

복호화부(221)는 변조 및 압축된 영상 콘텐츠 및 자막 데이터를 복호화하고 압축을 해제한다. 영상 및 음성과 텍스트는 전송되는 과정에서 손실과 원활한 전송을 위하여 자체적인 변조 및 압축을 거쳐서 전송되며 이 변조와 압축된 파일을 출력할 때 변조나 압축을 풀고 저장된 파일들은 제어수단으로 이동하여 최종 출력을 대기한다.The decoding unit 221 decodes and decompresses the modulated and compressed image content and subtitle data. Video, audio and text are transmitted through their own modulation and compression for loss and smooth transmission in the process of transmission. wait for

텍스트 관리부(222)는 자막 데이터에 포함된 동기화용 타임스탬프를 확인한다. 출력대기 중인 텍스트에는 텍스트 생성시에 찍힌 동기화용 타임스탬프가 있으면 동영상을 텍스트의 타임정보에 맞추어 출력하고, 동기화용 타임스탬프가 없으면 수신수단에서 분리수단으로 이동할 때 자동으로 타임스탬프가 찍힌 것을 출력할 때 타임 정보를 확인한다.The text management unit 222 checks the synchronization timestamp included in the caption data. If the text waiting to be output has a timestamp for synchronization taken at the time of text creation, the video is output according to the time information of the text. When checking the time information.

영상 및 음성 관리부(223)는 동영상을 수신수단을 통하여 수신하고 텍스트와 분리할 때 동영상에는 1초마다 찍힌 타임 정보를 확인한다.When the video and audio management unit 223 receives the video through the receiving means and separates it from the text, the video and audio management unit 223 checks time information taken every second in the video.

이후, 동기화부(220)는 텍스트(자막 데이터)의 타임정보와 동영상(영상 콘텐츠)의 타임정보를 비교하여 동영상의 타임정보가 텍스트의 타임정보와 다를시 텍스트의 타임정보에 맞추어 저장수단에 잠시 저장된 동영상을 초단위로 딜레이하여 디스플레이할 수 있다.Thereafter, the synchronization unit 220 compares the time information of the text (subtitle data) with the time information of the video (video content), and when the time information of the video is different from the time information of the text, it is temporarily stored in the storage means according to the time information of the text. The stored video can be displayed with a delay in seconds.

이 과정에서, 동기화부(220)는 동영상을 텍스트의 타임정보에 맞추어 출력하였을 때에도 동영상과 텍스트가 동기화가 안될 때는 동영상에 대한 디스플레이를 초단위로 딜레이 시켜서 내보낼 수 있도록 제어할 수 있다.In this process, even when the video is output according to the time information of the text, when the video and the text are not synchronized, the synchronization unit 220 may delay the display of the video by seconds and control it to be exported.

몇몇 다른 실시예에서, 동기화부(220)는 자막 데이터의 키워드와 객체 감지부(220)에서 인식된 이미지 객체를 비교하여 동기화를 수행할 수 있다.In some other embodiments, the synchronization unit 220 may perform synchronization by comparing the keyword of the caption data with the image object recognized by the object detection unit 220 .

일 실시 예에서, 동기화부(230)는 자막 데이터로부터 키워드를 추출할 수 있다. 동기화부(230)가 자막 데이터로부터 키워드를 추출하는 방법은 일반적으로 널리 알려진 키워드 추출 방법에 의한다. 구체적인 예를 들면 동기화부(230)는 빅데이터 또는 AI 기반의 키워드 추출 도구를 포함할 수 있다.In an embodiment, the synchronizer 230 may extract a keyword from the caption data. A method for the synchronization unit 230 to extract a keyword from the caption data is generally based on a well-known keyword extraction method. As a specific example, the synchronization unit 230 may include a keyword extraction tool based on big data or AI.

또 다른 실시 예에서, 동기화부(230)는 특성의 화면해설 부분에 대한 키워드를 획득할 수 있다. 예를 들어, 속기사가 특정의 단어를 입력하기 전 특정의 키를 입력하여 해당 단어가 키워드임을 표시할 수 있다.In another embodiment, the synchronization unit 230 may obtain a keyword for the screen commentary part of the characteristic. For example, the stenographer may input a specific key before entering a specific word to indicate that the corresponding word is a keyword.

또 다른 예를 들어 속기사가 약어 입력을 사용하여 입력한 단어의 경우 해당 단어가 키워드로 처리되어 동기화부(230)에 전달될 수 있다. 여기에서 약어 입력이란, 속기사가 특정의 단어를 모두 입력하는 것이 아닌 특정의 자음의 조합만을 입력하여도 기 저장된 단어가 입력되도록 약속된 입력을 말한다. 약어 입력을 통해 입력되는 단어는 일반적으로 많이 사용되는 단어로서, 키워드로 사용될 여지가 높을 수 있다.For another example, in the case of a word input by a stenographer using an abbreviation input, the corresponding word may be processed as a keyword and transmitted to the synchronization unit 230 . Here, the abbreviation input refers to an input in which a pre-stored word is input even when the stenographer inputs only a specific combination of consonants rather than all specific words. A word input through an abbreviation input is a commonly used word, and may be highly likely to be used as a keyword.

동기화부(230)는 자막 데이터의 기초가 되는 원고의 생성 시간과 영상에서의 이미지 프레임 타임라인을 비교하여 그 차이가 특정 시간 이하인 것을 선정하고, 선정된 이미지 프레임에서 인식된 객체와 화면해설 음원의 키워드를 비교하여 동기화를 수행할 수 있다.The synchronization unit 230 compares the creation time of the manuscript, which is the basis of the subtitle data, and the image frame timeline in the video, and selects the one with a difference of less than or equal to a specific time, and selects the object recognized in the selected image frame and the screen commentary sound source. Synchronization can be performed by comparing keywords.

더하여 동기화부(230)는 방송 컨텐츠와 동기화된 자막 데이터를 통합하여 새로운 방송 컨텐츠를 생성할 수 있다. 이때, 동기화부(230)는 방송 컨텐츠의 오디오와 겹치지 않도록 자막 데이터의 동기화 정도를 조정할 수도 있다.In addition, the synchronization unit 230 may generate new broadcast content by integrating the caption data synchronized with the broadcast content. In this case, the synchronization unit 230 may adjust the synchronization degree of the subtitle data so as not to overlap with the audio of the broadcast content.

결과적으로, 본 발명의 일 실시 예에 따른 시각 청각 장애인을 위한 컨텐츠 제작 시스템은 방송 컨텐츠를 보면서 입력하는 속기 입력의 특성상 발생할 수 밖에 없는 방송 컨텐츠와 자막 데이터의 비동기를 해결할 수 있다.As a result, the content production system for the visually and hearing impaired according to an embodiment of the present invention can solve the asynchronization of the broadcast content and subtitle data, which inevitably occurs due to the nature of the shorthand input input while viewing the broadcast content.

본 발명의 일 실시 예에 따른 시각 청각 장애인을 위한 관리자 단말기(100)은 출력부(미도시)를 더 포함할 수 있다. 출력부는 생성된 통합 자막, 자막 데이터 또는 자막 데이터가 동기화된 시각 장애인용 방송 컨텐츠를 출력할 수 있다. 출력부는 통합 자막과 자막 데이터를 각각 별도로 태깅하고 패키타이징하여 출력할 수 있다. 셋톱박스는 사용자의 설정에 따라 통합 자막을 출력하거나, 자막 데이터를 출력하거나, 두 가지를 한 번에 출력할 수 있다.The manager terminal 100 for the visually impaired according to an embodiment of the present invention may further include an output unit (not shown). The output unit may output the generated integrated subtitle, subtitle data, or broadcast content for the visually impaired in which the subtitle data is synchronized. The output unit may separately tag and package the integrated subtitle and the subtitle data to output them. The set-top box may output integrated subtitles, output subtitle data, or both at once according to a user's settings.

몇몇 다른 실시예에서, 관리자 단말기(10)은 수집 대상 데이터 소스 모듈, 수집 대상 키워드 및 수집 대상 기간 중 적어도 어느 하나의 수집 기준을 설정하는 수집 관리 모듈; 수집 관리 모듈로부터 설정 받은 데이터 수집 기준에 따라 해당 데이터 소스 모듈로부터 빅데이터를 수집하여 데이터베이스 모듈에 저장하는 데이터 수집 모듈; 데이터베이스 모듈에 저장된 빅데이터의 형태소를 분석하여 형태소 별로 구분하고 형태소 분석 데이터를 생성하는 형태소 분석 모듈; 및 형태소 분석 데이터를 분산 병렬 처리 기반의 통계분석 알고리즘으로 처리하여 통계값을 산출하고 통계값에 따라 위크시그널을 출력하는 데이터 분석 모듈;을 포함하는 빅데이터 분석 기반의 위크시그널 도출 시스템(설명의 편의상 도면에는 도시하지 않음)을 이용하여 수신된 자막 데이터 중 법률 또는 약관에 저촉되는 불법 자막 데이터를 추출할 수 있다.In some other embodiments, the manager terminal 10 may include: a collection management module for setting a collection criterion of at least one of a collection target data source module, a collection target keyword, and a collection target period; a data collection module for collecting big data from the corresponding data source module according to the data collection standard set by the collection management module and storing it in the database module; a morpheme analysis module for analyzing morphemes of big data stored in the database module, classifying them by morpheme, and generating morpheme analysis data; and a data analysis module for calculating statistical values by processing morpheme analysis data with a distributed parallel processing-based statistical analysis algorithm and outputting a weak signal according to the statistical value; a big data analysis-based weak signal derivation system (for convenience of explanation) It is possible to extract illegal subtitle data that violates laws or terms and conditions from among the received subtitle data by using (not shown in the drawing).

여기서, 관리자 단말기(10)는, 수신된 자막 데이터를 의미를 갖는 형태소별로 구분한 형태소 분석 데이터를 생성하고, 상기 형태소 분석 데이터를 저장하는 분산 파일 시스템; 상기 분산 파일 시스템에 존재하는 형태소 분석 데이터를 SQL(structured query language)을 기반으로 처리할 수 있도록 가상화 데이터베이스 인터페이스를 제공하는 데이터 처리부; 및 상기 데이터 처리부가 제공하는 가상화 데이터베이스 인터페이스를 통해 통계분석 알고리즘을 실행하여, 상기 형태소 분석 데이터로부터 연도별 출현빈도수(instance frequencies), 연도별 단어-단어 간 동시 출연 건수, 연도별 출현빈도수 및 연도별 단어-단어 간 동시 출현 건수로부터 가공된 값들 중 적어도 하나 이상을 산출하는 통계 분석부를 포함할 수 있다.Here, the manager terminal 10 includes: a distributed file system for generating morpheme analysis data by dividing the received caption data for each morpheme having a meaning and storing the morpheme analysis data; a data processing unit providing a virtualized database interface to process morphological analysis data existing in the distributed file system based on SQL (structured query language); And by executing a statistical analysis algorithm through the virtualized database interface provided by the data processing unit, from the morpheme analysis data, the number of occurrence frequencies by year (instance frequencies) by year, the number of simultaneous appearances between words by year, the number of appearances by year and by year The word-to-words may include a statistical analysis unit for calculating at least one or more of the processed values from the number of simultaneous appearances.

그리고, 상기 통계 분석부는, 상기 통계 분석부는 상기 연도별 출현건수(instance frequencies) 및 단어-단어간 동시 발생건수에 기초하여 단어 별 발생건수 증가율을 산출할 수 있다.In addition, the statistical analysis unit, the statistical analysis unit may calculate an increase rate of the number of occurrences per word based on the number of occurrences per year (instance frequencies) and the number of simultaneous occurrences between words.

또한, 상기 통계 분석부는, 상기 연도별 출현건수(instance frequencies)를 연도별 문서수로 나누어 문서당 상기 단어들의 연도별 출현 빈도수를 표준화하여 상기 단어들에 대한 표준화된 단어 별 출현 빈도수 증가율을 산 출할 수 있다.In addition, the statistical analysis unit divides the number of occurrences per year (instance frequencies) by the number of documents per year to standardize the number of appearances per year of the words per document to calculate a standardized increase rate of the frequency of appearance per word for the words. can

또한, 상기 통계 분석부는, 상기 단어-단어간 동시발생건수 매트릭스를 이용하여 단어 별 연결 정도 중심성 증가율을 산출하고, 상기 표준화된 단어 별 출현 빈도수 증가율 및 상기 연결 정도 중심성 증가율이 상위 일정 부분 이상인 단어 또는 하위 일정 부분 이하인 단어를 위크시그널로 도출할 수 있다.In addition, the statistical analysis unit calculates the increase rate of the degree of connection degree centrality for each word by using the word-to-word co-occurrence matrix, and the standardized increase rate of the frequency of appearance for each word and the increase rate of the degree of centrality of the connection degree are higher than a certain portion of the word or A word that is less than a certain lower part can be derived as a weak signal.

한편, 상기 데이터 수집 모듈은, 이미지, 동영상, 음성, 센서, GPS, GIS, M2M 데이터 중 적어도 어느 하나의 비정형 데이터를 포함하는 빅데이터를 수집할 수 있다.Meanwhile, the data collection module may collect big data including unstructured data of at least any one of image, video, voice, sensor, GPS, GIS, and M2M data.

이에 따라, 관리자 단말기(100)는, 상술한 바와 같은 구성을 포함하는 위크시그널 도출 시스템을 통한 빅데이터 분석을 통해 방송 송출에 적합하지 않은 자막 데이터를 검출함으로써 자막 데이터의 신뢰도를 향상시킬 수 있다.Accordingly, the manager terminal 100 can improve the reliability of caption data by detecting caption data that is not suitable for broadcast transmission through big data analysis through the weak signal derivation system including the above-described configuration.

이상의 실시예들에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field programmable gate array) 또는 ASIC 와 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램특허 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다.The term '~ unit' used in the above embodiments means software or hardware components such as field programmable gate array (FPGA) or ASIC, and '~ unit' performs certain roles. However, '-part' is not limited to software or hardware. The '~ unit' may be configured to reside on an addressable storage medium or may be configured to refresh one or more processors. Thus, as an example, '~' denotes components such as software components, object-oriented software components, class components, and task components, and processes, functions, properties, and procedures. , subroutines, segments of program patent code, drivers, firmware, microcode, circuitry, data, databases, data structures, tables, arrays, and variables.

구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로부터 분리될 수 있다.Functions provided in components and '~ units' may be combined into a smaller number of components and '~ units' or separated from additional components and '~ units'.

뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU 들을 재생시키도록 구현될 수도 있다.In addition, components and '~ units' may be implemented to play one or more CPUs in a device or secure multimedia card.

이와 같은, 비대면 녹취록 자동 생성 방법을 제공하는 기술은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.The technology for providing such a method for automatically generating non-face-to-face transcripts may be implemented as an application or implemented in the form of program instructions that may be executed through various computer components and recorded in a computer-readable recording medium. The computer-readable recording medium may include program instructions, data files, data structures, etc. alone or in combination.

상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.The program instructions recorded on the computer-readable recording medium are specially designed and configured for the present invention, and may be known and available to those skilled in the computer software field.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD 와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.Examples of the computer-readable recording medium include a hard disk, a magnetic medium such as a floppy disk and a magnetic tape, an optical recording medium such as a CD-ROM and DVD, and a magneto-optical medium such as a floppy disk. media), and hardware devices specially configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.Examples of program instructions include not only machine language codes such as those generated by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like. The hardware device may be configured to operate as one or more software modules to perform processing according to the present invention, and vice versa.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.Although the above has been described with reference to the embodiments, those skilled in the art will understand that various modifications and changes can be made to the present invention without departing from the spirit and scope of the present invention as set forth in the following claims. will be able

10: 관리자 단말기
20: 속기사 단말기
30: 사용자 단말기
10: Administrator terminal
20: stenographer terminal
30: user terminal

Claims (3)

영상 콘텐츠에 포함된 음성을 텍스트화여 자막 데이터를 생성하며, 상기 자막데이터의 생성 시 함께 생성되는 타임스탬프를 이용하여 상기 영상 콘텐츠와 상기 자막 데이터를 동기화시키는, 장애인 시청권 향상을 위한 영상 동기화 시스템에 있어서,
상기 장애인 시청권 향상을 위한 영상 동기화 시스템은,
영상 콘텐츠를 제공하는 관리자 단말기;
상기 영상 콘텐츠에 대한 속기정보를 생성하는 속기사 단말기; 및
상기 영상 콘텐츠를 시청하는 장애인이 소지한 사용자 단말기를 포함하고,
상기 관리자 단말기는,
상기 속기사 단말기로부터 수신되는 상기 속기정보에 기초하여 자막 데이터를 생성하되, 상기 자막 데이터를 구성하는 문자열의 한 단어 또는 한 줄 단위로 타임스탬프를 생성하여 자막 데이터에 결합하는 것을 특징으로 하고,
상기 사용자 단말기는,
상기 자막 데이터가 결합된 상기 영상 콘텐츠를 출력하는 과정에서, 출력대기 중인 텍스트에 타임 스탬프가 존재하는 경우 텍스트를 디스플레이 할 때 확인한 타임정보와 영상 콘텐츠의 동영상의 타임정보를 비교하여, 영상의 타임정보가 텍스트의 타임정보와 상이한 것으로 확인되면, 텍스트의 타임정보에 맞추어 저장수단에 동영상을 초단위로 딜레이하여 디스플레이하여 영상 콘텐츠와 자막 데이터를 동기화하고,
동영상을 텍스트의 타임정보에 맞추어 출력한 이후에도 동영상과 텍스트가 동기화가 이루어지지 않은 것으로 판단되면, 동영상에 대한 디스플레이를 미리 설정된 기준 시간만큼 지연시켜 표시하는 것을 특징으로 하고,
상기 관리자 단말기는,
수집 대상 데이터 소스 모듈, 수집 대상 키워드 및 수집 대상 기간 중 적어도 어느 하나의 수집 기준을 설정하는 수집 관리 모듈; 수집 관리 모듈로부터 설정 받은 데이터 수집 기준에 따라 해당 데이터 소스 모듈로부터 빅데이터를 수집하여 데이터베이스 모듈에 저장하는 데이터 수집 모듈; 데이터베이스 모듈에 저장된 빅데이터의 형태소를 분석하여 형태소 별로 구분하고 형태소 분석 데이터를 생성하는 형태소 분석 모듈; 및 형태소 분석 데이터를 분산 병렬 처리 기반의 통계분석 알고리즘으로 처리하여 통계값을 산출하고 통계값에 따라 위크시그널을 출력하는 데이터 분석 모듈;을 포함하는 빅데이터 분석 기반의 위크시그널 도출 시스템을 이용하여 수신된 자막 데이터 중 법률 또는 약관에 저촉되는 불법 자막 데이터를 추출하는 것을 특징으로 하는, 장애인 시청권 향상을 위한 영상 동기화 시스템.
In a video synchronization system for improving viewing rights for persons with disabilities, generating caption data by converting audio included in video content into text, and synchronizing the video content and the caption data using a timestamp generated together when the caption data is generated ,
The video synchronization system for improving the viewing rights of the disabled,
a manager terminal that provides video content;
a stenographer terminal for generating stenography information for the video content; and
Including a user terminal possessed by a person with a disability viewing the video content,
The manager terminal,
and generating subtitle data based on the stenography information received from the stenographer terminal, generating a timestamp in units of one word or one line of a character string constituting the subtitle data, and combining it with the subtitle data,
The user terminal,
In the process of outputting the video content combined with the subtitle data, if there is a time stamp in the text waiting to be output, the time information of the video is compared with the time information checked when the text is displayed with the time information of the video of the video content. If it is confirmed that is different from the time information of the text, the video content is displayed by delaying the video on the storage means in seconds according to the time information of the text to synchronize the video content and the subtitle data,
If it is determined that the video and the text are not synchronized even after the video is output in accordance with the time information of the text, the video display is delayed by a preset reference time to be displayed,
The manager terminal,
a collection management module for setting at least one of a collection target data source module, a collection target keyword, and a collection target period; a data collection module for collecting big data from the corresponding data source module according to the data collection criteria set by the collection management module and storing it in the database module; a morpheme analysis module that analyzes morphemes of big data stored in the database module, classifies them by morpheme, and generates morpheme analysis data; and a data analysis module that processes morpheme analysis data with a distributed parallel processing-based statistical analysis algorithm to calculate statistical values and outputs a weak signal according to the statistical value; received using a big data analysis-based weak signal derivation system including A video synchronization system for improving viewing rights for persons with disabilities, characterized in that it extracts illegal subtitle data that conflicts with laws or terms and conditions from among the subtitle data.
삭제delete 삭제delete
KR1020210027031A 2021-02-27 2021-02-27 Video synchronization system to improve viewing rights for the disabled KR102292552B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210027031A KR102292552B1 (en) 2021-02-27 2021-02-27 Video synchronization system to improve viewing rights for the disabled

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210027031A KR102292552B1 (en) 2021-02-27 2021-02-27 Video synchronization system to improve viewing rights for the disabled

Publications (1)

Publication Number Publication Date
KR102292552B1 true KR102292552B1 (en) 2021-08-24

Family

ID=77506993

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210027031A KR102292552B1 (en) 2021-02-27 2021-02-27 Video synchronization system to improve viewing rights for the disabled

Country Status (1)

Country Link
KR (1) KR102292552B1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101052850B1 (en) 2009-03-19 2011-07-29 (주)씨엠씨하이테크 Subtitle providing system using commercial DVD contents
KR101478918B1 (en) * 2013-08-16 2014-12-31 한국방송공사 Apparatus and method for correcting caption subtitle
KR102160117B1 (en) * 2019-04-24 2020-09-25 주식회사 한국스테노 a real-time broadcast content generating system for disabled

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101052850B1 (en) 2009-03-19 2011-07-29 (주)씨엠씨하이테크 Subtitle providing system using commercial DVD contents
KR101478918B1 (en) * 2013-08-16 2014-12-31 한국방송공사 Apparatus and method for correcting caption subtitle
KR102160117B1 (en) * 2019-04-24 2020-09-25 주식회사 한국스테노 a real-time broadcast content generating system for disabled

Similar Documents

Publication Publication Date Title
US11463779B2 (en) Video stream processing method and apparatus, computer device, and storage medium
US8869222B2 (en) Second screen content
CN105516651B (en) Method and apparatus for providing a composite digest in an image forming apparatus
KR101899588B1 (en) System for automatically generating a sign language animation data, broadcasting system using the same and broadcasting method
KR101990023B1 (en) Method for chunk-unit separation rule and display automated key word to develop foreign language studying, and system thereof
US8768703B2 (en) Methods and apparatus to present a video program to a visually impaired person
CN105009570B (en) Descriptive concealed illustrate data by parsing and customize the display to information
US20140372100A1 (en) Translation system comprising display apparatus and server and display apparatus controlling method
WO2019037615A1 (en) Video processing method and device, and device for video processing
KR20040039432A (en) Multi-lingual transcription system
JP2003333445A (en) Caption extractor
WO2014155377A1 (en) Method and system for automatically adding subtitles to streaming media content
US20110274406A1 (en) Information processing method, information processing device, scene metadata extraction device, loss recovery information generation device, and programs
US10176254B2 (en) Systems, methods, and media for identifying content
US20190379931A1 (en) Media Content Identification on Mobile Devices
US20130151251A1 (en) Automatic dialog replacement by real-time analytic processing
CN114022668B (en) Method, device, equipment and medium for aligning text with voice
JP5202217B2 (en) Broadcast receiving apparatus and program for extracting current keywords from broadcast contents
KR102292552B1 (en) Video synchronization system to improve viewing rights for the disabled
KR101618777B1 (en) A server and method for extracting text after uploading a file to synchronize between video and audio
KR20210068790A (en) Sign language interpretation system
KR102160117B1 (en) a real-time broadcast content generating system for disabled
KR101609755B1 (en) The cimema screenings digital video content easy seeing or hearing system and method for visually or hearing impaired person using smart devices
KR20230077821A (en) Streaming Video Search System and Method based on Artificial Intelligence Technology
KR20140077730A (en) Method of displaying caption based on user preference, and apparatus for perfoming the same

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant