KR20220055648A - 영상 각본 생성 방법 및 장치 - Google Patents

영상 각본 생성 방법 및 장치 Download PDF

Info

Publication number
KR20220055648A
KR20220055648A KR1020200139963A KR20200139963A KR20220055648A KR 20220055648 A KR20220055648 A KR 20220055648A KR 1020200139963 A KR1020200139963 A KR 1020200139963A KR 20200139963 A KR20200139963 A KR 20200139963A KR 20220055648 A KR20220055648 A KR 20220055648A
Authority
KR
South Korea
Prior art keywords
information
script
image
video
scene
Prior art date
Application number
KR1020200139963A
Other languages
English (en)
Inventor
곽창욱
김상권
김선중
손정우
이호재
한민호
함경준
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020200139963A priority Critical patent/KR20220055648A/ko
Publication of KR20220055648A publication Critical patent/KR20220055648A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4888Data services, e.g. news ticker for displaying teletext characters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

영상 각본 생성 장치는 수신된 영상을 장면 단위의 영상들로 분할하고, 각 장면 단위의 영상을 분석하여 해당 영상에 나타난 정보들을 추출한 후, 상기 각 장면 단위로 추출된 정보들을 이용하여 텍스트로 이루어진 상기 각 장면 단위의 영상 각본을 생성한다.

Description

영상 각본 생성 방법 및 장치{METHOD AND APPARATUS FOR GENERATING VIDEO SCRIPT}
본 발명은 영상 각본 생성 방법 및 장치에 관한 것으로, 보다 상세하게는 영상을 분석하여 영상을 각본 형식의 텍스트로 구조화할 수 있는 영상 각본 생성 방법 및 장치에 관한 것이다.
최근 영상 검색 플랫폼의 대중화와 시장에서의 영향력 확대로 인해 다양한 종류의 영상메타데이터 생성이 이루어지고 있다. 메타데이터는 검색의 기반이 되는 요소로써, 입력된 질의에 대해 생성된 메타데이터와 영상으로부터 생성된 영상메타데이터를 비교하여 영상이 검색된다.
일반적인 검색 엔진에서 질의는 키워드 기반으로 입력되기 때문에, 영상의 정보를 텍스트로 표현하여 인덱싱하는 것이 필요하다.
현재 대부분의 영상 검색 엔진에서는 해시태그나 영상 제목을 인덱싱하고 있다. 이러한 영상의 텍스트 정보들은 사람이 직접 수동으로 태깅하고 있으며, 따라서, 그에 소요되는 시간과 비용이 크다. 뿐만 아니라, 비용적 한계로 인해 생성되는 정보들의 종류가 단편적이고, 한정적일 수 밖에 없다.
본 발명이 해결하려는 과제는 영상에 나타난 다양한 정보들을 효과적으로 표현하기 위하여 영상의 내용을 각본 형식의 텍스트로 생성할 수 있는 영상 각본 생성 방법 및 장치를 제공하는 것이다.
본 발명의 한 실시 예에 따르면, 영상 각본 생성 장치에서 영상 각본을 생성하는 방법이 제공된다. 영상 각본 생성 방법은 영상을 수신하는 단계, 수신된 영상을 장면 단위의 영상들로 분할하는 단계, 각 장면 단위의 영상을 분석하여 해당 영상에 나타난 정보들을 추출하는 단계, 그리고 상기 각 장면 단위로 추출된 정보들을 이용하여 텍스트로 이루어진 상기 각 장면 단위의 영상 각본을 생성하는 단계를 포함한다.
상기 추출하는 단계는 장소 정보, 시간 정보, 지문 정보 및 대사 정보 중 적어도 하나를 추출하는 단계를 포함하고, 상기 생성하는 단계는 상기 장소 정보 및 시간 정보를 기반으로 상기 영상 각본의 각본 헤더 정보를 태깅하는 단계, 상기 지문 정보를 이용하여 상기 영상 각본의 각본 지문 정보를 태깅하는 단계, 그리고 상기 대사 정보에 이용하여 상기 영상 각본의 각본 대사 정보를 태깅하는 단계를 포함할 수 있다.
상기 각본 헤더 정보는 해당 장면 영상의 번호를 포함할 수 있다.
상기 적어도 하나를 추출하는 단계는 각각의 학습된 모델을 이용하여 상기 각 장면 영상에 대해 프레임 단위로 상기 장소 정보, 상기 시간 정보, 행위 정보 및 객체 정보를 인식하는 단계, 그리고 상기 각각의 학습된 모델을 이용하여 인식된 상기 장소 정보, 상기 시간 정보, 상기 행위 정보 및 상기 객체 정보를 이용하여 상기 각 장면 영상에서의 지문 정보를 생성하는 단계를 포함할 수 있다.
상기 적어도 하나를 추출하는 단계는 상기 각 장면 영상에 대한 음성신호를 추출하는 단계, 그리고 학습된 모델을 이용하여 상기 음성신호로부터 상기 대사 정보를 생성하는 단계를 포함할 수 있다.
상기 생성하는 단계는 상기 추출된 정보들을 각각 상기 영상 각본 내 대응하는 정보 필드에 삽입하는 단계를 포함할 수 있다.
상기 정보는 적어도 지문 정보 및 대사 정보를 포함할 수 있다.
본 발명의 다른 한 실시 예에 따르면, 영상으로부터 영상 각본을 생성하는 영상 각본 생성 장치가 제공된다. 영상 각본 생성 장치는 상기 영상을 장면 단위의 영상으로 분할하는 영상 장면 분할기, 상기 장면 단위의 영상으로부터 장소 정보, 시간 정보, 지문 정보 및 대사 정보 중 적어도 하나를 인식하는 영상 정보 인식기, 그리고 상기 장소 정보, 시간 정보, 지문 정보 및 대사 정보 중 적어도 하나를 이용하여 텍스트로 이루어진 상기 장면 단위의 영상 각본을 생성하는 각본 생성기를 포함하다.
상기 각본 생성기는 상기 장소 정보 및 시간 정보를 기반으로 각본 헤더 정보를 생성하는 각본 헤더 정보 생성부, 상기 지문 정보를 이용하여 각본 지문 정보를 생성하는 각본 지문 정보 생성부, 상기 대사 정보에 이용하여 각본 대사 정보를 생성하는 각본 대사 정보 생성부, 그리고 상기 상기 각본 헤더 정보, 상기 각본 지문 정보 및 상기 각본 대사 정보로 이루어진 영상 각본을 출력하는 각본 출력부를 포함할 수 있다.
상기 각본 헤더 정보 생성부는 해당 장면 영상의 번호를 각본 헤더 정보에 추가할 수 있다.
상기 영상 정보 인식기는 장면 영상으로부터 적어도 하나의 프레임을 추출하는 프레임 추출부, 프레임별 영상으로부터 장소, 시간, 행위 및 객체 중 적어도 하나를 인식하는 적어도 하나의 정보 인식 모델, 그리고 상기 적어도 하나의 정보 인식 모델에 의해 프레임별 인식된 정보들을 이용하여 해당 장면 영상에 대한 지문 정보를 생성하여 출력하는 지문 생성 모델을 포함할 수 있다.
상기 영상 정보 인식기는 상기 장면 영상으로부터 음성신호를 추출하는 음성 추출부, 그리고 상기 음성신호로부터 해당 장면영상에 대한 대사 정보를 생성하여 출력하는 대사 생성 모델을 더 포함할 수 있다.
상기 영상 각본 생성 장치는 상기 장면 단위의 영상으로부터 생성된 영상 각본을 저장하는 각본 저장소, 그리고 상기 장면 단위의 영상을 저장하는 장면 영상 저장소를 더 포함할 수 있다.
본 발명의 실시 예에 의하면, 영상을 분석하여 영상에 포함된 정보를 구조화된 영상 각본 형식의 텍스트로 생성함으로써, 영상에 나타난 다양한 정보를 효과적으로 표현할 수 있어, 영상 메타데이터 생성에 도움을 줄 수 있다. 특히, 영상의 내용을 텍스트로 표현하기 때문에, 영상 검색 및 분석 서비스에서 다양하게 활용될 것으로 보이며, 자동화에 따른 비용 감소 및 성능 향상이 기대된다.
도 1은 본 발명의 실시 예에 따른 영상 각본 생성 장치를 나타낸 도면이다.
도 2는 도 1에 도시된 영상 정보 인식기의 상세 구조를 나타낸 도면이다.
도 3은 도 2에 도시된 정보 인식 모델의 출력 값의 일 예를 나타낸 도면이다.
도 4는 도 1에 도시된 각본 생성기의 상세 구조를 나타낸 도면이다.
도 5는 본 발명의 실시 예에 따른 분할된 장면 영상의 일 예를 나타낸 도면이다.
도 6은 도 6에 도시된 장면 영상으로부터 생성된 영상 각본의 일 예를 나타낸 도면이다.
도 7은 본 발명의 실시 예에 따른 영상 각본 생성 방법을 나타낸 흐름도이다.
도 8은 본 발명의 다른 실시 예에 따른 영상 각본 생성 장치를 나타낸 도면이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 및 청구범위 전체에서, 어떤 부분이 어떤 구성 요소를 ""포함""한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
이제 본 발명의 실시 예에 따른 영상 각본 생성 방법 및 장치에 대하여 도면을 참고로 하여 상세하게 설명한다.
도 1은 본 발명의 실시 예에 따른 영상 각본 생성 장치를 나타낸 도면이다.
도 1을 참고하면, 영상 각본 생성 장치(100)는 영상 장면 분할기(110), 영상 정보 인식기(120), 각본 생성기(130), 장면 영상 저장소(140) 및 각본 저장소(150)를 포함한다.
영상 장면 분할기(110)는 영상을 입력 받는다. 영상 장면 분할기(110)는 입력된 영상에 대해 의미적 단위를 가진 장면으로 분할한다. 연속 프레임으로 구성된 영상에 대한 분할은 예를 들면 시간적인 분할 방식이 사용될 수 있다. 시간적 분할은 동일한 내용을 표현하는 몇 초 단위의 영상인 샷(shot)을 추출하고, 두 개 이상의 독립된 샷을 순서적으로 병합하여 분할하는 것을 말한다. 영상을 장면 단위로 분할하는 방법은 다양한 방법이 사용될 수 있다.
영상 정보 인식기(120)는 분할된 장면 영상으로부터 객체, 행위, 장소, 시간, 지문, 대사 정보 중 적어도 하나를 추출한다.
각본 생성기(130)는 영상 정보 인식기(120)에서 인식된 정보들을 입력으로 수신하여, 규칙 기반으로 텍스트로 이루어진 영상 각본을 생성한다. 각본 생성기(130)는 인식된 정보들을 태깅(tagging)하여 영상 각본을 생성한다. 영상 각본은 여러 구조화된 정보 필드들로 구성될 수 있다. 인식된 정보들은 태깅을 통해 각각 대응하는 구조화된 정보 필드들에 삽입되어, 각 장면 영상에 대한 영상 각본이 생성될 수 있다.
장면 영상 저장소(140)에는 영상 장면 분할기(110)에 의해 분할된 장면 영상들이 저장된다.
각본 저장소(150)에는 분할된 장면 영상 각각에 대응하여 각본 생성기(130)에 의해 생성된 영상 각본이 저장된다.
일반적으로 각본은 영상이 제작되기 전에 작가에 의해 작성되며, 각본에는 장소, 시간, 등장인물(객체), 지문, 대사 등의 전반적인 정보가 기술되어 있다. 영상 제작 산업 현장에서는 각본을 미리 작성하고, 작성된 각본을 기반으로 영상이 제작된다. 이는 각본 형식이 영상을 효과적으로 텍스트화하여 구성할 수 있다는 것을 의미한다. 본 발명의 실시 예에 따른 영상 각본 생성 장치(100)는 영상 내의 복합적인 내용들을 구조화하여 영상 각본으로 생성함으로써, 영상에 나타난 다양한 정보들을 효과적으로 표현할 수 있다.
도 2는 도 1에 도시된 영상 정보 인식기의 상세 구조를 나타낸 도면이고, 도 3은 도 2에 도시된 정보 인식 모델의 출력 값의 일 예를 나타낸 도면이다.
도 2를 참고하면, 영상 정보 인식기(120)는 프레임 추출부(121), 음성신호 추출부(122) 및 복수의 정보 인식 모델(123, 124, 125, 126), 지문 생성 모델(127) 및 대상 생성 모델(128)을 포함할 수 있다.
프레임 추출부(121)는 영상 장면 분할기(110)로부터 분할된 장면 영상을 샘플링하여 적어도 하나의 프레임을 추출한다. 추출된 프레임들은 복수의 정보 인식 모델(123, 124, 125, 126)로 입력된다.
음성신호 추출부(122)는 대사 정보 생성을 위해 영상 장면 분할기(110)로부터 분할된 장면 영상에서 음성신호를 추출한다. 음성신호 추출부(122)는 음성신호를 디지털 신호로 변환하여 출력한다. 디지털 신호로 변환된 음성신호는 대상 생성 모델(128)로 입력된다.
복수의 정보 인식 모델(123, 124, 125, 126)은 각각 프레임별로 인식하고자 하는 정보를 출력한다. 예를 들어, 영상 정보 인식기(120)에서 장소, 시간 및 지문 정보를 인식하고자 하는 경우, 복수의 정보 인식 모델(123, 124, 125, 126)은 각각 장소, 시간, 행위 및 객체를 인식하기 위한 모델일 수 있다. 아래에서는 복수의 정보 인식 모델(123, 124, 125, 126)이 각각 장소, 시간, 행위 및 객체를 인식하기 위한 모델인 것으로 설명한다.
즉, 장소 인식 모델(123)은 프레임 단위로 장소를 인식하여 출력하고, 시간 인식 모델(124)은 프레임 단위로 시간을 인식하여 출력한다. 행위 인식 모델(125)은 프레임 단위로 행위를 인식하여 출력하고, 객체 인식 모델(126)은 프레임 단위로 객체를 인식하여 출력한다. 장소 인식 모델(123), 시간 인식 모델(124), 행위 인식 모델(125) 및 객체 인식 모델(126)로부터 각각 출력되는 장소, 시간, 행위 및 객체는 지문 생성 모델(127)의 입력으로 사용된다.
이러한 정보 인식 모델들(123, 124, 125, 126)은 각각 딥러닝 기반의 분류 모델을 학습하여 생성될 수 있다. 정보 인식 모델(123, 124, 125, 126)은 각각 딥러닝 기반 분류 모델이 출력한 클래스의 확률 벡터에서 최대값을 가진 클래스를 출력한다. 예를 들어, 장소 인식 모델(123)에서 인식된 장소의 확률 벡터는 도 3과 같이 구성될 수 있으며, 장소 인식 모델(123)은 출력으로 이 중에서 최대값인 ''지구대''를 선택하여 출력한다.
지문 생성 모델(127)은 장소 인식 모델(123), 시간 인식 모델(124), 행위 인식 모델(125) 및 객체 인식 모델(126)로부터 출력 값을 입력 받고, 입력 받은 정보들을 이용하여 장면 영상 전체의 맥락을 설명하는 지문을 생성하여 출력한다. 지문 생성 모델(127)은 RNN(Recurrent Neural Network) 기반의 언어 모델을 학습하여 생성될 수 있다. 지문 생성 모델(127)은 영상의 장소, 시간, 행위, 객체 사이의 관계를 추론하여 영상에서 객체의 행위와 같이 영상의 내용을 설명하는 지문을 생성하여 출력한다. 도 2에서는 장소, 시간, 행위 및 객체가 지문 생성 모델(127)의 입력 정보를 사용하였지만, 지문 생성을 위해 이와 다른 정보들이 입력될 수 있으며, 입력 정보 인식을 위한 다른 정보 인식 모델이 사용될 수도 있다.
대사 생성 모델(128)은 음성신호 추출부(122)로부터 입력되는 음성신호로부터 대사를 생성하여 출력한다. 대사는 문장으로 이루어질 수 있다. 대사 생성 모델(128) 또한 학습 기반으로 생성될 수 있다.
도 4는 도 1에 도시된 각본 생성기의 상세 구조를 나타낸 도면이다.
도 4를 참고하면, 각본 생성기(130)는 각본 헤더 정보 생성부(132), 각본 지문 정보 생성부(134), 각본 대사 정보 생성부(136) 및 각본 출력부(138)를 포함한다.
각본 헤더 정보 생성부(132)는 영상 정보 인식기(120)로부터 장소와 시간 정보를 수신하며, 장소와 시간을 기반으로 각본 헤더 정보를 태깅한다.
각본 지문 정보 생성부(134)는 영상 정보 인식기(120)로부터 지문 정보를 수신하며, 지문 정보를 이용하여 각본 지문 정보를 태깅한다.
각본 대사 정보 생성부(136)는 영상 정보 인식기(120)로부터 대사 정보를 수신하며, 영상에 나타난 대사 정보를 이용하여 각본 대상 정보를 태깅한다.
각본 출력부(138)는 각본 헤더 정보 생성부(132), 각본 지문 정보 생성부(134) 및 각본 대사 정보 생성부(136)에 의해 각각 생성된 각본 헤더 정보, 각본 지문 정보 및 각본 대사 정보로부터 완성된 영상 각본을 출력한다. 각본 출력부(138)는 분할된 장면 영상 각각에 대응하는 영상 각본을 각본 저장소(150)에 저장한다.
도 5는 본 발명의 실시 예에 따른 분할된 장면 영상의 일 예를 나타낸 도면이고, 도 6은 도 6에 도시된 장면 영상으로부터 생성된 영상 각본의 일 예를 나타낸 도면이다.
본 발명의 실시 예에 따르면, 도 5에 도시된 장면 영상(Scene-19)으로부터 생성된 영상 각본은 도 6과 같은 형식을 갖는다.
도 6을 보면, 영상 각본은 각본 헤더 정보 생성부(132), 각본 지문 정보 생성부(134) 및 각본 대사 정보 생성부(136)에 의해 각각 생성된 각본 헤더 정보, 각본 지문 정보 및 각본 대사 정보를 포함한다.
영상 각본에서 #숫자(#19)는 분할된 장면 영상의 번호를 나타낸다. 영상에서 인식된 장소와 시간 정보는 장면 영상의 번호를 함께 한 줄로 장면 헤더 정보로 생성된다. 각본 지문 정보는 지문 정보를 이용하여 괄호 안에 기술되며, 각본 대사 정보는 별도의 식별자 없이 대사 정보를 이용하여 기술된다. 이렇게 생성된 영상 각본은 각본 저장소(150)에 저장되고, 그에 매칭되는 장면 영상(#19)은 장면 영상 저장소(140)에 저장된다.
도 7은 본 발명의 실시 예에 따른 영상 각본 생성 방법을 나타낸 흐름도이다.
도 7을 참고하면, 영상 각본 생성 장치(100)는 영상을 수신하면(S710), 영상 장면 분할기(110)를 통해 의미적 단위를 가진 장면 영상으로 분할한다(S720).
영상 각본 생성 장치(100)는 인식할 특징 항목을 구분한다(S730).
영상 각본 생성 장치(100)는 지문 정보 인식을 위해 분할된 장면 영상에 대해 영상 정보 인식기(120)를 통해 복수의 프레임을 추출하고(S740), 프레임 단위로 각 프레임으로부터 지문 정보 인식을 위해 필요한 정보들을 인식한다. 예를 들어, 영상 각본 생성 장치(100)는 각 프레임으로부터 객체 정보, 행위 정보, 장소 정보 및 시간 정보를 인식할 수 있다(S752, S754, S756, S758).
영상 각본 생성 장치(100)는 영상 정보 인식기(120)를 통해 프레임별 인식된 객체 정보, 행위 정보, 장소 정보 및 시간 정보를 이용하여 장면 영상에 대한 지문 정보를 인식한다(S760).
또한 영상 각본 생성 장치(100)는 대사 정보 인식을 위해 영상 정보 인식기(120)를 통해 분할된 장면 영상으로부터 음성신호를 추출하고(S770), 영상 정보 인식기(120)를 통해 추출된 음성신호를 이용하여 장면에 대한 대사 정보를 인식한다(S780).
영상 정보 인식기(120)에 의해 최종적으로 인식된 장소 정보, 시간 정보, 지문 정보 및 대상 정보가 각본 생성기(130)로 출력된다.
영상 각본 생성 장치(100)는 각본 생성기(130)를 통해 장소 정보, 시간 정보, 지문 정보 및 대사 정보를 이용하여 해당 장면에 대한 영상 각본을 생성한다(S790).
도 8은 본 발명의 다른 실시 예에 따른 영상 각본 생성 장치를 나타낸 도면이다.
도 8을 참고하면, 영상 각본 생성 장치(800)는 프로세서(810), 메모리(820), 저장 장치(830) 및 입출력(input/output, I/O) 인터페이스(840)를 포함한다.
프로세서(810)는 중앙 처리 유닛(central processing unit, CPU)이나 기타 칩셋, 마이크로프로세서 등으로 구현될 수 있다.
메모리(820)는 동적 랜덤 액세스 메모리(dynamic random access memory, DRAM), 램버스 DRAM(rambus DRAM, RDRAM), 동기식 DRAM(synchronous DRAM, SDRAM), 정적 RAM(static RAM, SRAM) 등의 RAM과 같은 매체로 구현될 수 있다.
저장 장치(830)는 하드 디스크(hard disk), CD-ROM(compact disk read only memory), CD-RW(CD rewritable), DVD-ROM(digital video disk ROM), DVD-RAM, DVD-RW 디스크, 블루레이(blu-ray) 디스크 등의 광학 디스크, 플래시 메모리, 다양한 형태의 RAM과 같은 영구 또는 휘발성 저장 장치로 구현될 수 있다.
I/O 인터페이스(840)는 프로세서(810) 및/또는 메모리(820)가 저장 장치(830)에 접근할 수 있도록 한다.
프로세서(810)는 도 1 내지 도 7을 참고하여 설명한 영상 각본 생성 기능을 수행할 수 있으며, 영상 장면 분할기(110), 영상 정보 인식기(120) 및 각본 생성기(130)의 적어도 일부 기능을 구현하기 위한 프로그램 명령을 메모리(820)에 로드시켜, 도 1 내지 도 7을 참고하여 설명한 동작이 수행되도록 제어할 수 있다. 그리고 이러한 프로그램 명령은 저장 장치(830)에 저장되어 있을 수 있으며, 또는 네트워크로 연결되어 있는 다른 시스템에 저장되어 있을 수 있다. 또한 메모리(820) 또는 저장 장치(830)는 장면 영상 저장소(140) 및 각본 저장소(150)를 포함할 수 있다.
이상에서 본 발명의 실시 예에 대하여 상세하게 설명하였지만 본 발명의 권리 범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리 범위에 속하는 것이다.

Claims (13)

  1. 영상 각본 생성 장치에서 영상 각본을 생성하는 방법에서,
    영상을 수신하는 단계,
    수신된 영상을 장면 단위의 영상들로 분할하는 단계,
    각 장면 단위의 영상을 분석하여 해당 영상에 나타난 정보들을 추출하는 단계, 그리고
    상기 각 장면 단위로 추출된 정보들을 이용하여 텍스트로 이루어진 상기 각 장면 단위의 영상 각본을 생성하는 단계
    를 포함하는 영상 각본 생성 방법.
  2. 제1항에서,
    상기 추출하는 단계는 장소 정보, 시간 정보, 지문 정보 및 대사 정보 중 적어도 하나를 추출하는 단계를 포함하고,
    상기 생성하는 단계는
    상기 장소 정보 및 시간 정보를 기반으로 상기 영상 각본의 각본 헤더 정보를 태깅하는 단계,
    상기 지문 정보를 이용하여 상기 영상 각본의 각본 지문 정보를 태깅하는 단계, 그리고
    상기 대사 정보에 이용하여 상기 영상 각본의 각본 대사 정보를 태깅하는 단계를 포함하는 영상 각본 생성 방법.
  3. 제2항에서,
    상기 각본 헤더 정보는 해당 장면 영상의 번호를 포함하는 영상 각본 생성 방법.
  4. 제2항에서,
    상기 적어도 하나를 추출하는 단계는
    각각의 학습된 모델을 이용하여 상기 각 장면 영상에 대해 프레임 단위로 상기 장소 정보, 상기 시간 정보, 행위 정보 및 객체 정보를 인식하는 단계, 그리고
    상기 각각의 학습된 모델을 이용하여 인식된 상기 장소 정보, 상기 시간 정보, 상기 행위 정보 및 상기 객체 정보를 이용하여 상기 각 장면 영상에서의 지문 정보를 생성하는 단계를 포함하는 영상 각본 생성 방법.
  5. 제2항에서,
    상기 적어도 하나를 추출하는 단계는
    상기 각 장면 영상에 대한 음성신호를 추출하는 단계, 그리고
    학습된 모델을 이용하여 상기 음성신호로부터 상기 대사 정보를 생성하는 단계를 포함하는 영상 각본 생성 방법.
  6. 제1항에서,
    상기 생성하는 단계는 상기 추출된 정보들을 각각 상기 영상 각본 내 대응하는 정보 필드에 삽입하는 단계를 포함하는 영상 각본 생성 방법.
  7. 제1항에서,
    상기 정보는 적어도 지문 정보 및 대사 정보를 포함하는 영상 각본 생성 방법.
  8. 영상으로부터 영상 각본을 생성하는 영상 각본 생성 장치에서,
    상기 영상을 장면 단위의 영상으로 분할하는 영상 장면 분할기,
    상기 장면 단위의 영상으로부터 장소 정보, 시간 정보, 지문 정보 및 대사 정보 중 적어도 하나를 인식하는 영상 정보 인식기, 그리고
    상기 장소 정보, 시간 정보, 지문 정보 및 대사 정보 중 적어도 하나를 이용하여 텍스트로 이루어진 상기 장면 단위의 영상 각본을 생성하는 각본 생성기
    를 포함하는 영상 각본 생성 장치.
  9. 제8항에서,
    상기 각본 생성기는
    상기 장소 정보 및 시간 정보를 기반으로 각본 헤더 정보를 생성하는 각본 헤더 정보 생성부,
    상기 지문 정보를 이용하여 각본 지문 정보를 생성하는 각본 지문 정보 생성부,
    상기 대사 정보에 이용하여 각본 대사 정보를 생성하는 각본 대사 정보 생성부, 그리고
    상기 상기 각본 헤더 정보, 상기 각본 지문 정보 및 상기 각본 대사 정보로 이루어진 영상 각본을 출력하는 각본 출력부를 포함하는 영상 각본 생성 장치.
  10. 제9항에서,
    상기 각본 헤더 정보 생성부는 해당 장면 영상의 번호를 각본 헤더 정보에 추가하는 영상 각본 생성 장치.
  11. 제8항에서,
    상기 영상 정보 인식기는
    장면 영상으로부터 적어도 하나의 프레임을 추출하는 프레임 추출부,
    프레임별 영상으로부터 장소, 시간, 행위 및 객체 중 적어도 하나를 인식하는 적어도 하나의 정보 인식 모델, 그리고
    상기 적어도 하나의 정보 인식 모델에 의해 프레임별 인식된 정보들을 이용하여 해당 장면 영상에 대한 지문 정보를 생성하여 출력하는 지문 생성 모델
    을 포함하는 영상 각본 생성 장치.
  12. 제11항에서,
    상기 영상 정보 인식기는
    상기 장면 영상으로부터 음성신호를 추출하는 음성 추출부, 그리고
    상기 음성신호로부터 해당 장면영상에 대한 대사 정보를 생성하여 출력하는 대사 생성 모델을 더 포함하는 영상 각본 생성 장치.
  13. 제8항에서,
    상기 장면 단위의 영상으로부터 생성된 영상 각본을 저장하는 각본 저장소, 그리고
    상기 장면 단위의 영상을 저장하는 장면 영상 저장소
    를 더 포함하는 영상 각본 생성 장치.
KR1020200139963A 2020-10-27 2020-10-27 영상 각본 생성 방법 및 장치 KR20220055648A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200139963A KR20220055648A (ko) 2020-10-27 2020-10-27 영상 각본 생성 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200139963A KR20220055648A (ko) 2020-10-27 2020-10-27 영상 각본 생성 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20220055648A true KR20220055648A (ko) 2022-05-04

Family

ID=81584207

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200139963A KR20220055648A (ko) 2020-10-27 2020-10-27 영상 각본 생성 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20220055648A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102541008B1 (ko) * 2022-06-20 2023-06-13 김두현 화면해설 컨텐츠를 제작하는 방법 및 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102541008B1 (ko) * 2022-06-20 2023-06-13 김두현 화면해설 컨텐츠를 제작하는 방법 및 장치

Similar Documents

Publication Publication Date Title
US10262239B2 (en) Video content contextual classification
Harwath et al. Jointly discovering visual objects and spoken words from raw sensory input
KR101994592B1 (ko) 비디오 콘텐츠의 메타데이터 자동 생성 방법 및 시스템
KR100828166B1 (ko) 동영상의 음성 인식과 자막 인식을 통한 메타데이터 추출방법, 메타데이터를 이용한 동영상 탐색 방법 및 이를기록한 기록매체
US10108709B1 (en) Systems and methods for queryable graph representations of videos
KR102376201B1 (ko) 멀티미디어 지식 베이스 구축 시스템 및 방법
Natarajan et al. BBN VISER TRECVID 2011 Multimedia Event Detection System.
CN114342353A (zh) 用于视频分割的方法和系统
US20210124976A1 (en) Apparatus and method for calculating similarity of images
Jha et al. Word spotting in silent lip videos
Radha Video retrieval using speech and text in video
Somandepalli et al. Unsupervised discovery of character dictionaries in animation movies
Tang et al. Autohighlight: Automatic highlights detection and segmentation in soccer matches
JP2018169697A (ja) 映像データ処理装置、映像データ処理方法、及びコンピュータプログラム
KR20220055648A (ko) 영상 각본 생성 방법 및 장치
Ciaparrone et al. A comparison of deep learning models for end-to-end face-based video retrieval in unconstrained videos
KR20080046490A (ko) 몽타주 얼굴 영상을 이용한 얼굴 인식 방법 및 그 장치
Ramnath et al. Worldly wise (WoW)-cross-lingual knowledge fusion for fact-based visual spoken-question answering
Stein et al. From raw data to semantically enriched hyperlinking: Recent advances in the LinkedTV analysis workflow
Tapu et al. TV news retrieval based on story segmentation and concept association
Younessian et al. Telefonica Research at TRECVID 2010 Content-Based Copy Detection.
Diou et al. Vitalas at trecvid-2008
KR20200063316A (ko) 각본 기반의 영상 검색 장치 및 방법
KR20200071826A (ko) 영상에서의 감정 인식 방법 및 장치
CN117851640B (zh) 基于复合特征的视频数据处理方法、装置、设备和介质