KR20180036197A - Method and system for recognition of the scene based on length of script - Google Patents

Method and system for recognition of the scene based on length of script Download PDF

Info

Publication number
KR20180036197A
KR20180036197A KR1020160126479A KR20160126479A KR20180036197A KR 20180036197 A KR20180036197 A KR 20180036197A KR 1020160126479 A KR1020160126479 A KR 1020160126479A KR 20160126479 A KR20160126479 A KR 20160126479A KR 20180036197 A KR20180036197 A KR 20180036197A
Authority
KR
South Korea
Prior art keywords
information
script
content
image
length
Prior art date
Application number
KR1020160126479A
Other languages
Korean (ko)
Inventor
양진홍
박효진
Original Assignee
양진홍
박효진
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 양진홍, 박효진 filed Critical 양진홍
Priority to KR1020160126479A priority Critical patent/KR20180036197A/en
Publication of KR20180036197A publication Critical patent/KR20180036197A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • G06F17/3082
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • G06F17/30793

Abstract

Disclosed are a method and a system for recognizing a script length-based screen. According to an embodiment of the present invention, the method for recognizing a script length-based screen can differently extract a frame according to the script length. More specifically, a screen can be extracted according to a change of a speaker since crossing and close-up of people frequently occur in the corresponding scene if script content is a dialogue such as drama genre or interactive content. At this time, syntactic judgment of the dialogue can additionally use change information of a user based on a voice pattern corresponding to sentence information on script information. Also, in readability-based case, a main scene can be extracted based on the number of words of the script for each resolution, if an amount of the script is short based on the resolution of a terminal in which an extracted image is played.

Description

스크립트 길이 기반의 장면 인식 방법 및 시스템{METHOD AND SYSTEM FOR RECOGNITION OF THE SCENE BASED ON LENGTH OF SCRIPT}[0001] METHOD AND SYSTEM FOR RECOGNITION OF THE SCENE BASED ON LENGTH OF SCRIPT [0002]

아래의 설명은 콘텐츠 제공 기술에 관한 것으로, 스크립트 길이에 기반하여 장면을 인식하는 방법 및 시스템에 관한 것이다.
The following description relates to a content providing technique, and relates to a method and system for recognizing a scene based on a script length.

모바일 단말에서 동영상 콘텐트의 소비가 크게 늘고 있지만 여전히 데이터에 대한 비용이나 소비에 필요한 시간 등의 문제로 인해 동영상 콘텐트를 꺼려하는 경우가 많다. 예를 들면, 사용자 단말에 데이터가 부족한 경우, 동영상 초기 로딩 시간을 싫어하는 경우, 이어폰의 사용자 어려운 경우, 동영상을 충분히 재생할 시간이 없는 경우, 전체 화면 재생에 따른 제어권 박탈을 싫어하는 경우 등에 따라 동영상 콘텐트의 재생을 꺼려한다. Although the consumption of video content on the mobile terminal is greatly increased, there are still many cases in which the user reluctantly relies on the video content due to the cost of data or the time required for consumption. For example, when there is insufficient data in the user terminal, when the user of the earphone is difficult, when the user does not have sufficient time to reproduce the moving picture, when he / she does not want to remove the control due to the full screen reproduction, I am reluctant to play.

이로 인해 도 1과 같이 사용자들이 직접 동영상을 스틸컷 형태로 추출하여 줄거리와 함께 새로운 형태의 콘텐트로 제작하는 경우가 많다. 하지만 이러한 경우 사용자가 직접 수작업으로 콘텐트를 생성 하기 때문에 시간과 노력이 많이 소요된다. 또한 개개인이 따로 제작하기 때문에 콘텐트 원 저작자의 의도가 반영되기 어렵다는 문제점이 있다.
As a result, as shown in FIG. 1, there are many cases where a user directly extracts a moving picture as a still-cut form and creates a new type of content together with a plot. However, in this case, it takes time and effort because the user manually generates the content by hand. In addition, there is a problem that it is difficult to reflect the intention of the original content creator because individual productions are made separately.

본 발명이 해결하고자 하는 과제는 스크립트 길이 기반의 장면을 인식하는 방법 및 시스템을 제공하는 것이다.
SUMMARY OF THE INVENTION The present invention provides a method and system for recognizing a scene based on a script length.

일 실시예에 따르면, 장면 인식 방법은, 스크립트의 정보에 기초하여 장면을 인식하는 단계; 및 상기 장면이 인식됨에 따라 상기 스크립트의 길이에 기초하여 프레임을 추출하는 단계를 포함하고, 상기 장면이 인식됨에 따라 상기 스크립트의 길이에 기초하여 프레임을 추출하는 단계는, 상기 추출된 프레임에 대하여 상기 스크립트의 길이에 따라 각각의 프레임을 추출하는 기준을 다르게 적용할 수 있다. According to one embodiment, a scene recognition method includes: recognizing a scene based on information of a script; And extracting a frame based on the length of the script as the scene is recognized, wherein the step of extracting a frame based on the length of the script as the scene is recognized comprises the steps of: Depending on the length of the script, the criteria for extracting each frame can be applied differently.

일측에 따르면, 상기 장면 인식 방법은, 상기 스크립트의 길이에 기초하여 대화체의 구문 여부를 판단하고, 상기 스크립트의 내용이 대화체에 해당될 경우, 화자의 변화에 따라 프레임을 추출할 수 있다. According to one aspect of the present invention, the scene recognition method may determine whether or not a dialogue is syntactic based on the length of the script, and when the content of the script corresponds to a dialogue, a frame may be extracted according to a change of a speaker.

또 다른 일측에 따르면, 상기 장면 인식 방법은, 상기 스크립트의 길이가 기설정된 길이 이하일 경우, 상기 추출된 프레임이 재생되는 기기의 해상도별 스크립트의 단어수를 기준으로 프레임을 추출할 수 있다.
According to another aspect of the present invention, when the length of the script is less than a predetermined length, the scene recognition method can extract a frame based on the number of words of a script for each resolution of a device in which the extracted frame is reproduced.

일 실시예에 따른 멀티미디어 파일 구성 시스템은 동영상을 추가적인 노력이나 시간의 소비 없이 정확한 형태의 이미지 콘텐트를 추출하는 것이 가능하도록 제공할 수 있다. The multimedia file composition system according to an embodiment can provide a moving picture so that it can extract image contents of an accurate form without any additional effort or time consuming.

일 실시예에 따른 멀티미디어 파일 구성 시스템은 동영상 전체를 이미지 형태의 콘텐트로 제공할 수 있고, 제작자의 의도가 반영된 이미지 형태의 콘텐트를 제공할 수 있다. 또한, 동영상 대비 트래픽 및 프로세싱 비용이 감소하기 때문에 저비용으로 서비스를 제공하는 것이 가능하다.
The multimedia file organizing system according to an exemplary embodiment can provide the entire moving image as content in the form of an image, and can provide content in the form of an image reflecting the intention of the producer. In addition, because traffic and processing costs are reduced compared to video, it is possible to provide services at low cost.

도 1은 동영상 콘텐트를 이미지로 변환해서 소비하는 경우의 예시를 나타내는 도면이다.
도 2는 일 실시예에 따른 멀티미디어 파일 구성 시스템의 네트워크 환경을 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 멀티미디어 파일 구성 시스템의 구성을 설명하기 위한 블록도이다.
도 4는 일 실시예에 따른 맞춤형 콘텐트 서비스의 예를 나타낸 도면이다.
도 5는 일 실시예에 따른 동영상 파일 포맷의 구성을 설명하기 위한 도면이다.
도 6은 일 실시예에 있어서, 주요 장면에 대한 시간 정보, 디스크립션 정보, 광고 정보 및 리퍼러 정보를 포함하는 경우를 설명하기 위한 도면이다.
도 7은 일 실시예에 있어서, 주요 장면에 대한 시간 정보, 디스크립션 정보, 광고 정보, 리퍼러 정보 및 이미지 정보를 포함하는 경우를 설명하기 위한 도면이다.
도 8 및 9는 일 실시예에 있어서, 주요 장면에 대한 시간 정보, 디스크립션 정보, 광고 정보, 리퍼러 정보 및 요약 레벨을 포함하는 경우를 설명하기 위한 도면이다.
도 10은 일 실시예에 있어서, 메타 정보의 형태를 설명하기 위한 도면이다.
도 11은 일 실시예에 따른 멀티미디어 파일 구성 시스템의 멀티미디어 파일 구성 방법을 설명하기 위한 흐름도이다.
1 is a diagram showing an example of a case where video content is converted into an image and consumed.
2 is a view for explaining a network environment of a multimedia file configuration system according to an embodiment.
3 is a block diagram illustrating a configuration of a multimedia file configuration system according to an embodiment.
4 is a diagram illustrating an example of a customized content service according to an embodiment.
5 is a diagram for explaining a configuration of a moving picture file format according to an embodiment.
FIG. 6 is a view for explaining a case in which time information, description information, advertisement information and referrer information for a main scene are included in one embodiment.
FIG. 7 is a view for explaining a case in which time information, description information, advertisement information, referrer information, and image information for a main scene are included in one embodiment.
8 and 9 are views for explaining a case in which time information, description information, advertisement information, referrer information, and summary level for a main scene are included in one embodiment.
10 is a diagram for explaining a form of meta information in an embodiment.
11 is a flowchart illustrating a method of configuring a multimedia file in a multimedia file configuration system according to an embodiment.

이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.
Hereinafter, embodiments will be described in detail with reference to the accompanying drawings.

도 2는 일 실시예에 따른 멀티미디어 파일 구성 시스템의 네트워크 환경을 설명하기 위한 도면이다.2 is a view for explaining a network environment of a multimedia file configuration system according to an embodiment.

스틸컷 이미지 정보를 포함한 동영상 콘텐트 서비스 제공 환경에서, 멀티미디어 파일 구성 시스템은 사용자의 요구 사항 또는 환경에 따라 동영상 또는 이미지 형태의 콘텐트를 제공할 수 있다. In a video content service providing environment including still cut image information, a multimedia file composition system can provide moving image or image type content according to a user's requirement or environment.

스크립트 길이 기반의 장면을 인식하는 방법을 설명하기 위한 것으로, 예를 들면, 대화체의 경우, 가독성 기반의 경우 각각 다르게 장면을 추출할 수 있다. For example, in the case of a dialogue, scenes can be extracted differently in the case of readability based on the script length.

스크립트의 내용이 대화체의 경우, 해당 장면의 인물의 교차, 클로우즈 업 등이 빈번하게 발생할 수 있다. 이에 따라 대화체의 스크립트의 내용에 대해서는 화자의 변화에 따라 프레임을 추출할 수 있다. 이때, 대화체의 구문 판단은 스크립트 정보 상의 문장 정보에 해당하는 음성의 패턴을 기반으로 사용자 변화 정보 등을 추가적인 정보로 이용할 수 있다. 예를 들면, 목소리의 대역을 기반으로 화자를 판단할 수 있다. In the case where the contents of the script is a dialogue, crossing and close-up of the person in the scene may occur frequently. As a result, the content of the dialogue script can be extracted in accordance with the change of the speaker. At this time, it is possible to use the user change information or the like as additional information based on the pattern of the voice corresponding to the sentence information on the script information. For example, the speaker can be judged based on the band of the voice.

가독성 기반의 경우, 추출한 이미지가 재생되는 단말의 해상도를 기준으로 스크립트의 양이 짧을 수 있다. 예를 들면, 단말의 화면이 짧아 스크립트가 출력되는 길이가 짧은 경우, 해상도별 적절한 스크립트의 단어수를 기준으로 프레임을 추출할 수 있다. In the case of readability based, the amount of script may be short based on the resolution of the terminal from which the extracted image is reproduced. For example, when the screen of the terminal is short and the length of the output of the script is short, the frame can be extracted based on the number of words of the script suitable for each resolution.

콘텐트 서버(Content Server)(200)는 사용자 단말(210), OTT(Over The Top) 또는 Web Enabled Devices(211)에 캡션이 부가된 동영상 또는 이미지 형태의 콘텐트를 제공할 수 있다. 콘텐트 서버(Content Server)(200)는 실시간으로 스트리밍되는 동영상에 대하여 이미지 형태의 콘텐트로 제공할 수 있다. The content server 200 may provide a moving image or an image in which caption is added to the user terminal 210, the OTT (Over The Top), or the Web Enabled Devices 211. The content server 200 may provide the content to be streamed in real time as image-type content.

통계 서버(Statistics Server)(201) 및/또는 광고 서버(Ad.Server)(202)에서 제공하는 통계 정보 또는 광고 정보를 동영상 또는 이미지 형태의 콘텐트에 부가하여 제공될 수 있다. 예를 들면, 리퍼러 정보를 통해 사용자가 소비한 이미지에 대한 통계 정보를 통계 서버(201)를 통해 수집할 수 있고, 링크 정보를 통해 광고나 추가 정보를 광고 서버(202) 또는 별도의 서버를 통하여 사용자 단말, OTT(Over The Top) 또는 Web Enabled Devices(211) 등에 제공할 수 있다. 또한 동영상 또는 이미지의 메타 정보 중 주요 장면에 대한 디스크립션 정보 또는 광고 정보를 이용해 광고 서버(202)로부터 키워드 기반 광고 매칭 기능을 제공할 수 있다. 이때, 콘텐트 서버(200)는 동영상을 이미지 형태의 콘텐트로 변환하는 과정에서 소요되는 처리 시간을 예측하여 이미지 광고를 제공할 수도 있다. May be provided by adding statistical information or advertisement information provided by a statistics server 201 and / or an ad server 202 to moving image or image type content. For example, statistical information on an image consumed by a user can be collected through the statistical server 201 through the referrer information, and the advertisement or additional information can be transmitted through the advertisement server 202 or a separate server A user terminal, OTT (Over The Top), Web Enabled Devices 211, and the like. In addition, the advertisement server 202 may provide a keyword-based advertisement matching function using description information or advertisement information of a main scene among meta information of a moving image or an image. At this time, the content server 200 may provide the image advertisement by predicting the processing time required for converting the moving image into the image type content.

사용자 단말(210)은 PC, 노트북, 스마트폰(smart phone), 태블릿(tablet), 웨어러블 컴퓨터(wearable computer) 등으로, 콘텐츠 제공 시스템과 관련된 웹/모바일 사이트의 접속 또는 서비스 전용 어플리케이션의 설치 및 실행이 가능한 모든 단말 장치를 의미할 수 있다. 이때, 사용자 단말(210)은 웹/모바일 사이트 또는 전용 어플리케이션의 제어 하에 서비스 화면 구성, 데이터 입력, 데이터 송수신, 데이터 저장 등 서비스 전반의 동작을 수행할 수 있다.The user terminal 210 may be a personal computer (PC), a notebook computer, a smart phone, a tablet, a wearable computer, or the like, May refer to all possible terminal devices. At this time, the user terminal 210 can perform the service-wide operation such as service screen configuration, data input, data transmission / reception, and data storage under the control of the web / mobile site or the dedicated application.

멀티미디어 파일 구성 시스템에 포함된 프로세서는 생성부, 부가부, 변환부 및 제공부를 포함할 수 있다. 이러한 프로세서 및 프로세서의 구성요소들은 멀티미디어 파일 구성 시스템을 제어할 수 있다. 이때, 프로세서 및 프로세서의 구성요소들은 메모리가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. 여기서, 프로세서의 구성요소들은 멀티미디어 파일 구성 시스템에 저장된 프로그램 코드가 제공하는 제어 명령에 따라 프로세서에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. The processor included in the multimedia file configuration system may include a generating unit, an adding unit, a converting unit, and a providing unit. These processor and processor components can control the multimedia file configuration system. At this time, the processor and the components of the processor may be implemented to execute instructions according to code of the operating system and code of at least one program that the memory includes. Here, the components of the processor may be representations of different functions performed by the processor in accordance with control commands provided by the program code stored in the multimedia file composition system.

생성부는 동영상 파일 포맷에 메타 정보 영역을 생성할 수 있다.The generator may generate a meta information area in the video file format.

부가부는 동영상 파일 포맷의 메타 정보 영역에 동영상의 특정 장면과 관련하여 적어도 하나 이상의 부가 정보를 부가할 수 있다. 예를 들면, 메타 정보 영역에 저장된 동영상에서 오디오 마이닝을 기반으로 특정 이팩트(Effect)가 삽입된 구간과 관련된 스틸컷 이미지를 추출하여 메타 정보 영역에 저장할 수 있다. 변환부는 메타 정보 영역에 포함된 메타 정보를 이용하여 스틸컷 이미지를 추출할 수 있다. The appending unit may add at least one or more additional information with respect to a specific scene of the moving picture in the meta information area of the moving picture file format. For example, it is possible to extract a still-cut image related to a section in which a specific effect is inserted based on audio mining from a moving image stored in the meta information area, and store the extracted still-cut image in the meta information area. The converting unit may extract the still-cut image using the meta information included in the meta information area.

변환부는 메타 정보 영역에 부가 정보를 부가함에 따라 부가 정보가 포함된 콘텐트로 변환할 수 있다. 변환부는 특정 장면에 대한 시간 정보, 디스크립션 정보, 광고 정보 및 리퍼러 정보를 포함하는 경우, 스틸컷 이미지를 추출할 시간 및 스틸컷 이미지에 기입할 텍스트 정보를 추출하여 자동으로 이미지 형태의 콘텐트로 변환할 수 있다. The converting unit may convert the content into the content including the additional information as the additional information is added to the meta information area. If the time information, the description information, the advertisement information, and the referer information for a specific scene are included, the converting unit extracts the time to extract the still-cut image and the text information to be written in the still-cut image and automatically converts the extracted text information into image- .

변환부는 특정 장면에 대한 시간 정보, 디스크립션 정보, 광고 정보, 리퍼러 정보 및 이미지 정보를 포함하는 경우, 스틸컷 이미지를 나열하여 이미지 형태의 콘텐트로 변환할 수 있다. When the conversion unit includes time information, description information, advertisement information, referrer information, and image information for a specific scene, the still-cut image may be listed and converted into image-type content.

변환부는 특정 장면에 대한 시간 정보, 디스크립션 정보, 광고 정보, 리퍼러 정보 및 요약 레벨을 포함하는 경우, 이미지 형태의 콘텐트에 대한 공개 범위가 설정됨을 수신할 수 있다. 제공부는 요약 레벨의 값에 따라 이미지 형태의 콘텐트를 선택적으로 노출할 수 있다. The converting unit may receive the setting of the open range for the content in the image format when the converting unit includes time information, description information, advertisement information, referrer information, and summary level for a specific scene. The providing unit may selectively expose the content in the image format according to the value of the summary level.

변환부는 특정 장면에 대한 시간 정보, 디스크립션 정보, 광고 정보, 리퍼러 정보 및 요약 레벨을 포함하는 경우, 프레임 타입을 지정하여 콘텐트 제공자의 의도에 기초하여 콘텐트를 변환할 수 있다. When the conversion unit includes time information, description information, advertisement information, referrer information, and summary level for a specific scene, a frame type can be specified to convert the content based on the intention of the content provider.

제공부는 콘텐트가 제작된 타입에 기초하여 콘텐트를 소비하도록 제공할 수 있다. The providing unit may provide the content to consume the content based on the produced type.

도 3은 일 실시예에 따른 멀티미디어 파일 구성 시스템의 구성을 설명하기 위한 블록도이다.3 is a block diagram illustrating a configuration of a multimedia file configuration system according to an embodiment.

멀티 미디어 파일 구성 시스템은 콘텐트 서버(300)에 의하여 동작될 수 있다. The multimedia file organizing system may be operated by the content server 300.

콘텐트 서버(300)는 스토리지(Storage) 또는 데이터베이스(301, 302, 303), 스트리머(Streamer)(310), V2I 엔진(Engine)(320), WAS(330) 및 통계(Statistics) 데이터베이스(340)를 포함할 수 있다. The content server 300 includes storage or databases 301, 302 and 303, a streamer 310, a V2I engine 320, a WAS 330 and a statistics database 340 ).

스트리머(Streamer)(310)는 사용자의 요청에 따라 미디어(예를 들면, 동영상)을 스트리밍 하는 기능을 제공할 수 있다. 스트리머(310)는 MPEG-DASH, HLS(HTTP Live Streaming), Progressive Download, MMT(MPEG Media Transport), RTP(Real-time Transport Protocol) 기반의 동영상 스트리밍을 지원할 수 있다. The streamer 310 may provide a function of streaming media (e.g., video) in response to a user's request. The streamer 310 can support moving picture streaming based on MPEG-DASH, HLS (HTTP Live Streaming), Progressive Download, MMT (MPEG Media Transport), and RTP (Real-time Transport Protocol).

스토리지 또는 데이터베이스(301, 302, 303)는 원본 콘텐트(Original Content), 메타 데이터(Metadata), 변환된 콘텐트(Converted Content)가 각각의 스토리지 또는 데이터베이스에 저장될 수 있다. 예를 들면, 원본 콘텐트를 저장하고 있는 스토리지 또는 데이터베이스(301), 메타 데이터를 저장하고 있는 스토리지 또는 데이터베이스(302), 변환된 콘텐트를 저장하고 있는 스토리지 또는 데이터베이스(303)가 각각 존재할 수 있다.The storage or databases 301, 302, and 303 may store original content, metadata, and converted content in respective storages or databases. For example, there may be a storage or database 301 storing the original content, a storage or database 302 storing the metadata, a storage storing the converted content, or a database 303, respectively.

V2I 엔진(Video to Image Engine)(320)은 Subtitle & Meta Script Analyzer(321) 및 FFmpeg(322)를 포함할 수 있다. Subtitle & Meta Script Analyzer(321)는 메타데이터가 저장되어 있는 스토리지 또는 데이터베이스(302) 및 원본 콘텐트가 저장되어 있는 스토리지 또는 데이터베이스(301) 상에서 자막(Subtitle) 및 메타 스크립트(Meta Script)에 대한 정보를 읽어들여 상기 정보에 기초하여 콘텐트 생성 기능을 제공할 수 있다. 예를 들면, Subtitle & Meta Script Analyzer(321)는 메타 정보를 이용하여 콘텐트를 구성할 수 있다. The V2I engine (Video to Image Engine) 320 may include a Subtitle & Meta Script Analyzer 321 and a FFmpeg 322. Subtitle & Meta Script Analyzer 321 stores information about subtitle and meta-script on the storage or database 302 where metadata is stored and on the storage or database 301 where original content is stored And provide a content generation function based on the information. For example, the Subtitle & Meta Script Analyzer 321 can construct the content using meta information.

FFmpeg(322)는 동영상에서 이미지를 추출 및 자막 오버레이(Overlay) 기능을 수행하는 오픈 소스 소프트웨어 모듈일 수 있다. 이때, 원본 콘텐트에서 추출하는 정보는 시스템의 설정에 따라 변환된 콘텐트 스토리지 또는 데이터베이스에 저장되어 재사용될 수 있다. FFmpeg 322 may be an open source software module that extracts images from a movie and performs a subtitle overlay function. At this time, the information extracted from the original content can be stored and reused in the converted content storage or database according to the setting of the system.

WAS(330)은Content Player(331), Request Handler(332) 및 Statistics(333) 모듈을 포함할 수 있다. The WAS 330 may include a Content Player 331, a Request Handler 332, and a Statistics 333 module.

Content Player(331)는 HTML 5 기반의 Content Player로 비디오 또는 맞춤형 이미지 형태의 콘텐트 소비를 선택할 수 있는 기능을 제공할 수 있다. 이때, MPEG DASH 기반의 플레이어와의 호환을 위해 별도의 스크립트를 통해 플레이어 상에 비디오 또는 이미지를 재생하는 기능을 노출할 수 있다. The content player 331 can provide a function of selecting content consumption in the form of video or custom image with an HTML 5 based content player. At this time, for the compatibility with the player based on the MPEG DASH, a function of playing a video or an image on the player through a separate script can be exposed.

Request Handler(332)는 사용자의 콘텐트 소비 형태의 선택에 응답하여 단말의 환경 정보(예를 들면, 단말에 이어폰의 연결 여부, 네트워크의 대역폭의 제약, 사용자의 Pre-setting)에 기초하여 콘텐트 재생과 관련된 요청을 분기하여 스트리머(310)을 통해 비디오 스트리밍을 제공할 것인지, V2I 엔진(320)을 통해 이미지 기반의 콘텐트를 제공할 것인지를 결정할 수 있다. The request handler 332 responds to the selection of the content consumption mode of the user to reproduce the content based on the environment information of the terminal (for example, whether the earphone is connected to the terminal, the bandwidth limitation of the network, It may branch the associated request to determine whether to provide video streaming via streamer 310 or to provide image-based content via V2I engine 320. [

Statistics 모듈(333)은 사용자의 콘텐트 소비에 따른 통계 정보를 생성하기 위한 모듈로서, 개별 콘텐트 소비시 발생하는 광고 요청과 관련된 정보도 함께 기록할 수 있다. 별도의 광고, 통계로 연결되는 경우(예를 들면, 리퍼러 정보, 링크 메타데이터 이용시) 콘텐트 서버측에서는 해당 연결 요청에 대한 기록을 남길 수 있다. The statistics module 333 is a module for generating statistical information according to user's content consumption, and can also record information related to an advertisement request generated when individual contents are consumed. In the case of connecting to separate advertisements and statistics (for example, when using referrer information and link metadata), the content server side can leave a record of the connection request.

통계 데이터베이스(Statistics Database)(340)는 사용자의 콘텐트 소비 정보, 리퍼러 정보, 링크 정보 등의 요청에 따른 기록을 저장하는 역할을 담당할 수 있다. 이때, 통계 데이터베이스(340) 이외에 별도로 Ad.broker 모듈의 연결이 가능하다. The statistics database 340 may store a record according to a request of a user for content consumption information, referrer information, link information, and the like. At this time, besides the statistical database 340, Ad.broker module can be connected separately.

도 5는 일 실시예에 따른 동영상 파일 포맷의 구성을 설명하기 위한 도면이다. 5 is a diagram for explaining a configuration of a moving picture file format according to an embodiment.

종래의 동영상 파일 포맷은 헤더(Header)(510) 및 데이터 영역(520)으로 구성되어 있다. 본 발명은 동영상 파일 포맷에 메타 정보 영역(530)을 부가한 동영상 파일 구조를 제공할 수 있다. The conventional moving image file format is composed of a header 510 and a data area 520. The present invention can provide a moving picture file structure in which a meta information area 530 is added to a moving picture file format.

이에 따라 동영상 파일 포맷에 헤더(Header)(510), 데이터 영역(520) 및 메타 정보 영역(530)으로 구성될 수 있다. Accordingly, the video file format may include a header 510, a data area 520, and a meta information area 530.

동영상 파일 포맷에 특정 장면에 대한 시간 정보, 디스크립션 정보, 광고 정보 및 리퍼러 정보 등을 추가할 수 있으며, 스틸컷 이미지 정보를 추가할 수도 있다. Time information, description information, advertisement information, referrer information, and the like for a specific scene can be added to the moving picture file format, and the still-cut image information can be added.

메타 데이터 영역이 부가된 동영상 파일 포맷은 일반 동영상 콘텐트처럼 재생될 수 있으며, 추가된 정보는 사용자에게 노출되지 않는다. 콘텐트 제공자 또는 제작자가 의도를 반영하여 복수의 형태로 소비할 수 있는 콘텐트를 제작할 경우, 메타 정보 영역을 추가하여 작성할 수 있다. The video file format to which the metadata area is added can be reproduced like normal video content, and the added information is not exposed to the user. When a content provider or a producer can produce content that can be consumed in a plurality of formats by reflecting the intention, a meta information area can be added and created.

도 10을 참고하면, 메타 정보의 형태를 설명하기 위한 도면이다. 메타 정보의 형태는 HTML Tag 형태 또는 JSON 형태로 표현될 수 있으며, HTML Tag 형태 또는 JSON는 서로 변환 가능하다. Referring to FIG. 10, this is a diagram for explaining a form of meta information. The type of meta information can be expressed in HTML Tag form or JSON form, and HTML Tag form or JSON can be mutually converted.

메타 정보는 리퍼러 정보 및 링크 정보를 통해 사용자에게 추가적인 정보를 제공하거나 사용자가 관심있는 장면이나 포인트를 통계할 수 있다. The meta information may provide additional information to the user through the referrer information and the link information, or may allow the user to view the scene or point of interest.

메타 정보 영역은 메타 정보의 프레임 타입을 싱글(Single), 쿼드(Quad) 또는 기 정의된 타입의 넘버가 입력됨에 응답하여 입력된 타입으로 구성될 수 있다. The meta information area may be composed of a single type, a quad, or a type entered in response to the input of a number of a predefined type.

도 6은 일 실시예에 있어서, 주요 장면에 대한 시간 정보, 디스크립션 정보, 광고 정보 및 리퍼러 정보를 포함하는 경우를 설명하기 위한 도면이다. FIG. 6 is a view for explaining a case in which time information, description information, advertisement information and referrer information for a main scene are included in one embodiment.

멀티미디어 파일 구성 시스템은 스크립트 길이 기반의 장면을 인식할 수 있다. 멀티미디어 파일 구성 시스템은 스크립트의 길이, 예를 들면, 대화체의 경우, 가독성 기반의 경우 각각 다르게 장면을 추출할 수 있다. The multimedia file organizing system can recognize scenes based on script length. The multimedia file composition system can extract scenes differently for script length, for example, dialogue type, and readability type.

멀티미디어 파일 구성 시스템은 스크립트의 내용이 대화체의 경우, 해당 장면의 인물의 교차, 클로우즈 업 등이 빈번하게 발생할 수 있다. 이에 따라 멀티미디어 파일 구성 시스템은 대화체의 스크립트의 내용에 대해서는 화자의 변화에 따라 프레임을 추출할 수 있다. 이때, 대화체의 구문 판단은 스크립트 정보 상의 문장 정보에 해당하는 음성의 패턴을 기반으로 사용자 변화 정보 등을 추가적인 정보로 이용할 수 있다. 예를 들면, 목소리의 대역을 기반으로 화자를 판단할 수 있다. In the multimedia file organizing system, when the contents of the script is a dialogue, crossing and close-up of a person in the scene may occur frequently. Accordingly, the multimedia file composition system can extract the frame of the dialogue script contents according to the change of the speaker. At this time, it is possible to use the user change information or the like as additional information based on the pattern of the voice corresponding to the sentence information on the script information. For example, the speaker can be judged based on the band of the voice.

멀티미디어 파일 구성 시스템은 가독성 기반의 경우, 추출한 이미지가 재생되는 단말의 해상도를 기준으로 스크립트의 양이 짧을 수 있다. 예를 들면, 단말의 화면이 짧아 스크립트가 출력되는 길이가 짧은 경우, 멀티미디어 파일 구성 시스템은 해상도별 적절한 스크립트의 단어수를 기준으로 프레임을 추출할 수 있다. In the case of the multimedia file configuration system, the amount of the script may be short based on the resolution of the terminal from which the extracted image is reproduced. For example, if the screen of the terminal is short and the length of the output of the script is short, the multimedia file composition system can extract the frame based on the number of words of the script appropriate for each resolution.

멀티미디어 파일 구성 시스템은 특정 장면에 대한 시간 정보, 디스크립션 정보, 광고 정보 및 리퍼러 정보를 포함하는 경우, 콘텐트를 서비스하는 플랫폼이나 시스템에서 메타 정보에 기반하여 스틸컷 이미지를 추출할 시간 및 스틸컷 이미지에 기입할 텍스트 정보를 추출하여 자동으로 이미지 형태의 콘텐트로 변환할 수 있다. When the multimedia file configuration system includes time information, description information, advertisement information, and referrer information for a specific scene, the time and the time for extracting the still-cut image based on the meta information in the platform or the system servicing the content It is possible to extract the text information to be written and automatically convert the text information into image-type content.

도 7은 일 실시예에 있어서, 주요 장면에 대한 시간 정보, 디스크립션 정보, 광고 정보, 리퍼러 정보 및 이미지 정보를 포함하는 경우를 설명하기 위한 도면이다.FIG. 7 is a view for explaining a case in which time information, description information, advertisement information, referrer information, and image information for a main scene are included in one embodiment.

멀티미디어 파일 구성 시스템은 특정 장면에 대한 시간 정보, 디스크립션 정보, 광고 정보, 리퍼러 정보 및 이미지 정보를 포함하는 경우, 콘텐트를 서비스하는 플랫폼이나 시스템에서 메타 정보에 기반하여 스틸컷 이미지를 나열하여 이미지 형태의 콘텐트로 변환할 수 있다. When the multimedia file configuration system includes time information, description information, advertisement information, referrer information, and image information for a specific scene, the still-cut image is listed based on the meta information in the platform or the system that provides the content, Can be converted into content.

도 8 및 9는 일 실시예에 있어서, 주요 장면에 대한 시간 정보, 디스크립션 정보, 광고 정보, 리퍼러 정보 및 요약 레벨을 포함하는 경우를 설명하기 위한 도면이다.8 and 9 are views for explaining a case in which time information, description information, advertisement information, referrer information, and summary level for a main scene are included in one embodiment.

도 8을 참고하면, 멀티미디어 파일 구성 시스템은 특정 장면에 대한 시간 정보, 디스크립션 정보, 광고 정보, 리퍼러 정보 및 요약 레벨을 포함하는 경우, 이미지 형태의 콘텐트에 대한 공가 범위가 설정됨을 수신할 수 있다. 예를 들면, 사용자로부터 콘텐트를 이미지로 구성함에 있어서, 전체 이미지를 모두 보여줄 것인지, 일부의 중요 이미지만을 요약하여 보여줄 것인지를 선택할 수 있다. Referring to FIG. 8, when the multimedia file configuration system includes time information, description information, advertisement information, referrer information, and summary level for a specific scene, it is possible to receive that an annexed range is set for content in image form. For example, in configuring the content as an image from a user, it is possible to select whether to display the entire image or only a part of important images in a summary format.

멀티미디어 파일 구성 시스템은 요약 레벨(summary_level)에 기초하여 이미지 형태의 콘텐트를 선택적으로 노출할 수 있다. 예를 들면, 요약 레벨은 1 내지 10까지의 범위로 구성될 수 있으며, 요약 레벨값이 높아질수록 이미지의 수가 적어질 수 있다. The multimedia file organizing system may selectively expose the content of the image type based on the summary level (summary_level). For example, the summary level can be comprised in the range of 1 to 10, and the higher the summary level value, the fewer the number of images can be.

도 9를 참고하면, 멀티미디어 파일 구성 시스템은 특정 장면에 대한 시간 정보, 디스크립션 정보, 광고 정보, 리퍼러 정보 및 요약 레벨을 포함하는 경우, 이미지 프레임의 타입을 지정하여 콘텐트 제공자의 의도에 기초하여 콘텐트를 변환할 수 있다. 멀티미디어 파일 구성 시스템은 콘텐트 제공자가 원하는 방식대로 다양하고 섬세하게 표현할 수 있도록 제공할 수 있다. 예를 들면, 콘텐트 제공자가 이미지 프레임을 복수의 분할로 나누어 하나의 이미지로 제작할 수 있고, 테두리를 형성하여 제작할 수도 있다. Referring to FIG. 9, when the multimedia file configuration system includes time information, description information, advertisement information, referrer information, and summary level for a specific scene, the multimedia file configuration system specifies a type of the image frame to display the content based on the intention of the content provider Can be converted. The multimedia file composition system can provide various and delicate expressions in a manner desired by the content provider. For example, a content provider may divide an image frame into a plurality of divisions to produce one image, or may form a frame.

도 4를 참고하면, 맞춤형 콘텐트 서비스의 예를 나타낸 것으로, 사용자는 콘텐트 타입에 기초하여 콘텐트를 소비할 수 있다. 예를 들면, 사용자는 동영상 또는 이미지 형태의 콘텐트를 소비할 수 있다. 사용자는 이미지를 스와이프 또는 스크롤함으로써 이미지 형태의 콘텐트를 볼 수 있다. Referring to FIG. 4, there is shown an example of a customized content service in which a user can consume content based on a content type. For example, a user may consume content in the form of a movie or image. The user can view the content in image form by swiping or scrolling the image.

멀티미디어 파일 구성 시스템은 동영상에서 제공되던 추가 콘텐트(예를 들면, 광고)를 이미지 형태의 콘텐트 환경에서도 제공할 수 있다. 예를 들면, 멀티디미어 파일 구성 시스템은 동영상을 재생하기 전에 프리로딩 광고, 중간 삽입 광고 및 팝업 콘텐트 등을 이미지 형태의 콘텐트를 제공할 때에도 제공할 수 있다. The multimedia file organizing system may also provide additional content (e.g., advertisements) provided in the video in an image-like content environment. For example, a multi-demime file organization system may provide preloading advertisements, intermediate interstitials, and pop-up content, etc., in the form of images in the form of images before reproducing the moving pictures.

도 11은 일 실시예에 따른 멀티미디어 파일 구성 시스템의 멀티미디어 파일 구성 방법을 설명하기 위한 흐름도이다. 11 is a flowchart illustrating a method of configuring a multimedia file in a multimedia file configuration system according to an embodiment.

사용자는 사용자가 소비할 콘텐트 타입을 결정할 수 있다. 멀티미디어 파일 구성 시스템은 사용자로부터 소비하고자 하는 콘텐트 타입이 결정됨을 수신할 수 있다(1110). 멀티미디어 파일 구성 시스템은 사용자로부터 선택된 콘텐트 타입을 판단할 수 있다. The user can determine the type of content the user will consume. The multimedia file organizing system may receive (1110) that a content type to be consumed by the user is determined. The multimedia file organizing system can determine the content type selected from the user.

멀티미디어 파일 구성 시스템은 사용자로부터 콘텐트 타입으로 동영상이 결정됨에 따라 동영상 데이터를 스트리밍할 수 있다(1111). 사용자는 동영상 형태로 콘텐트를 소비할 수 있다(1112).The multimedia file organizing system may stream the moving picture data as the moving picture is determined from the user as the content type (1111). The user may consume the content in the form of a video (1112).

멀티미디어 파일 구성 시스템은 사용자로부터 콘텐트 타입으로 이미지가 결정됨에 따라 맞춤형 콘텐트 제공을 위한 메타 정보가 포함되었는지 여부를 판단할 수 있다(1120). 이때, 메타 정보가 포함되어 있는 경우, 멀티미디어 파일 구성 시스템은 콘텐트에 포함된 메타 정보를 분석할 수 있다(1121). The multimedia file organizing system may determine whether the meta information for providing the customized content is included as the image is determined as a content type from the user (1120). At this time, if the meta information is included, the multimedia file organizing system can analyze the meta information included in the content (1121).

콘텐트에 메타 정보가 포함되어 있지 않은 경우, 멀티미디어 파일 구성 시스템은 콘텐트에 포함된 자막 정보 또는 프레임 정보 중 어느 하나의 정보를 추출할 수 있다(1130). 멀티미디어 파일 구성 시스템은 콘텐트에 포함된 자막 정보 또는 프레임 정보 이외의 정보들을 추출할 수도 있다. If the content does not include meta information, the multimedia file organizing system may extract any one of the caption information and the frame information included in the content (1130). The multimedia file organizing system may extract information other than the caption information or the frame information included in the content.

멀티미디어 파일 구성 시스템은 스크립트 길이 기반의 장면을 인식할 수 있다. 멀티미디어 파일 구성 시스템은 예를 들면, 대화체의 경우, 가독성 기반의 경우 각각 다르게 장면을 추출할 수 있다. The multimedia file organizing system can recognize scenes based on script length. For example, in the case of a dialogue, the multimedia file composition system can extract scenes differently in the case of readability.

스크립트의 내용이 대화체의 경우, 해당 장면의 인물의 교차, 클로우즈 업 등이 빈번하게 발생할 수 있다. 멀티미디어 파일 구성 시스템은 대화체의 스크립트의 내용에 대해서는 화자의 변화에 따라 프레임을 추출할 수 있다. 이때, 대화체의 구문 판단은 스크립트 정보 상의 문장 정보에 해당하는 음성의 패턴을 기반으로 사용자 변화 정보 등을 추가적인 정보로 이용할 수 있다. 예를 들면, 목소리의 대역을 기반으로 화자를 판단할 수 있다. In the case where the contents of the script is a dialogue, crossing and close-up of the person in the scene may occur frequently. The multimedia file organizing system can extract frames according to the speaker's change in the content of the dialogue script. At this time, it is possible to use the user change information or the like as additional information based on the pattern of the voice corresponding to the sentence information on the script information. For example, the speaker can be judged based on the band of the voice.

가독성 기반의 경우, 추출한 이미지가 재생되는 단말의 해상도를 기준으로 스크립트의 양이 짧을 수 있다. 예를 들면, 단말의 화면이 짧아 스크립트가 출력되는 길이가 짧은 경우, 멀티미디어 파일 구성 시스템은 해상도별 적절한 스크립트의 단어수를 기준으로 프레임을 추출할 수 있다. In the case of readability based, the amount of script may be short based on the resolution of the terminal from which the extracted image is reproduced. For example, if the screen of the terminal is short and the length of the output of the script is short, the multimedia file composition system can extract the frame based on the number of words of the script appropriate for each resolution.

멀티미디어 파일 구성 시스템은 콘텐트로부터 메타 정보가 포함된 이미지를 추출할 수 있다(1122). 멀티미디어 파일 구성 시스템은 콘텐트로부터 메타 정보가 포함된 이미지를 추출할 수 있고, 콘텐트에 포함된 자막 정보 및 프레임 정보를 포함하고 있는 이미지를 추출할 수 있다. The multimedia file organizing system may extract the image including the meta information from the content (1122). The multimedia file composition system can extract an image including meta information from the content, and extract an image including the caption information and the frame information included in the content.

멀티미디어 파일 구성 시스템은 추출된 이미지를 사용자의 콘텐트 플레이어에서 바로 재생하거나 웹 페이지로 구성할 수 있다(1123). 멀티미디어 파일 구성 시스템은 이미지를 재생하거나 웹 페이지로 구성하여 사용자가 이미지 형태로 소비하도록 제공할 수 있다. 사용자는 이미지 형태로 콘텐트를 소비하게 된다(1124). The multimedia file composition system can reproduce the extracted image directly from the user's content player or configure it as a web page (1123). The multimedia file composition system can reproduce an image or configure it as a web page so that the user consumes it in an image form. The user consumes the content in image form (1124).

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The apparatus described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components. For example, the apparatus and components described in the embodiments may be implemented within a computer system, such as, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA) , A programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the operating system. The processing device may also access, store, manipulate, process, and generate data in response to execution of the software. For ease of understanding, the processing apparatus may be described as being used singly, but those skilled in the art will recognize that the processing apparatus may have a plurality of processing elements and / As shown in FIG. For example, the processing unit may comprise a plurality of processors or one processor and one controller. Other processing configurations are also possible, such as a parallel processor.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instructions, or a combination of one or more of the foregoing, and may be configured to configure the processing device to operate as desired or to process it collectively or collectively Device can be commanded. The software and / or data may be in the form of any type of machine, component, physical device, virtual equipment, computer storage media, or device , Or may be permanently or temporarily embodied in a transmitted signal wave. The software may be distributed over a networked computer system and stored or executed in a distributed manner. The software and data may be stored on one or more computer readable recording media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to an embodiment may be implemented in the form of a program command that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions to be recorded on the medium may be those specially designed and configured for the embodiments or may be available to those skilled in the art of computer software. Examples of computer-readable media include magnetic media such as hard disks, floppy disks, and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments. For example, it is to be understood that the techniques described may be performed in a different order than the described methods, and / or that components of the described systems, structures, devices, circuits, Lt; / RTI > or equivalents, even if it is replaced or replaced.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are also within the scope of the following claims.

Claims (3)

장면 인식 방법에 있어서,
스크립트의 정보에 기초하여 장면을 인식하는 단계; 및
상기 장면이 인식됨에 따라 상기 스크립트의 길이에 기초하여 프레임을 추출하는 단계
를 포함하고,
상기 장면이 인식됨에 따라 상기 스크립트의 길이에 기초하여 프레임을 추출하는 단계는,
상기 추출된 프레임에 대하여 상기 스크립트의 길이에 따라 각각의 프레임을 추출하는 기준을 다르게 적용하는
장면 인식 방법.
In the scene recognition method,
Recognizing a scene based on information of a script; And
Extracting a frame based on the length of the script as the scene is recognized
Lt; / RTI >
Wherein the step of extracting a frame based on the length of the script as the scene is recognized comprises:
A criterion for extracting each frame is differently applied to the extracted frame according to the length of the script
A scene recognition method.
제1항에 있어서,
상기 스크립트의 길이에 기초하여 대화체의 구문 여부를 판단하고, 상기 스크립트의 내용이 대화체에 해당될 경우, 화자의 변화에 따라 프레임을 추출하는
장면 인식 방법.
The method according to claim 1,
Determines whether or not the syntax of the dialogue is based on the length of the script, and when the contents of the script correspond to a dialogue, extracts a frame according to the change of the speaker
A scene recognition method.
제1항에 있어서,
상기 스크립트의 길이가 기설정된 길이 이하일 경우, 상기 추출된 프레임이 재생되는 기기의 해상도별 스크립트의 단어수를 기준으로 프레임을 추출하는
장면 인식 방법.

The method according to claim 1,
If the length of the script is equal to or shorter than a predetermined length, a frame is extracted based on the number of words of the script for each resolution of the apparatus in which the extracted frame is reproduced
A scene recognition method.

KR1020160126479A 2016-09-30 2016-09-30 Method and system for recognition of the scene based on length of script KR20180036197A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160126479A KR20180036197A (en) 2016-09-30 2016-09-30 Method and system for recognition of the scene based on length of script

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160126479A KR20180036197A (en) 2016-09-30 2016-09-30 Method and system for recognition of the scene based on length of script

Publications (1)

Publication Number Publication Date
KR20180036197A true KR20180036197A (en) 2018-04-09

Family

ID=61978191

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160126479A KR20180036197A (en) 2016-09-30 2016-09-30 Method and system for recognition of the scene based on length of script

Country Status (1)

Country Link
KR (1) KR20180036197A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022139047A1 (en) * 2020-12-22 2022-06-30 한국과학기술원 Method and apparatus for automated frame analysis of dialog

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022139047A1 (en) * 2020-12-22 2022-06-30 한국과학기술원 Method and apparatus for automated frame analysis of dialog

Similar Documents

Publication Publication Date Title
CA3100788A1 (en) Video processing for embedded information card localization and content extraction
US8265457B2 (en) Proxy editing and rendering for various delivery outlets
KR101524379B1 (en) System and method for the caption replacement of the released video for the interactive service
US9564177B1 (en) Intelligent video navigation techniques
KR102246305B1 (en) Augmented media service providing method, apparatus thereof, and system thereof
TW202002611A (en) Video subtitle display method and apparatus
KR101770094B1 (en) Method and system for providing video content based on image
US10721519B2 (en) Automatic generation of network pages from extracted media content
KR101823767B1 (en) Multi-media file structure and system including meta information for providing user request and environment customize contents
US20060010366A1 (en) Multimedia content generator
US9558784B1 (en) Intelligent video navigation techniques
KR20150112113A (en) Method for managing online lecture contents based on event processing
KR20180036197A (en) Method and system for recognition of the scene based on length of script
KR101916874B1 (en) Apparatus, method for auto generating a title of video contents, and computer readable recording medium
KR20180036190A (en) Method and system for recognition of the scene based on keyword
JP2016072858A (en) Media data generation method, media data reproduction method, media data generation device, media data reproduction device, computer readable recording medium and program
EP3531707A1 (en) Audio content playback control
Bauer et al. Improving access to online lecture videos
KR101805349B1 (en) Method and apparatus for providing edited contents
US9084011B2 (en) Method for advertising based on audio/video content and method for creating an audio/video playback application
JP6602423B6 (en) Content providing server, content providing terminal, and content providing method
US20160127807A1 (en) Dynamically determined audiovisual content guidebook
US10972809B1 (en) Video transformation service
US10972762B2 (en) Systems and methods for modifying date-related references of a media asset to reflect absolute dates
Guedes et al. Future Vision of Interactive and Intelligent TV Systems using Edge AI