KR20220001658A - 영상 편집 방법 - Google Patents

영상 편집 방법 Download PDF

Info

Publication number
KR20220001658A
KR20220001658A KR1020200079918A KR20200079918A KR20220001658A KR 20220001658 A KR20220001658 A KR 20220001658A KR 1020200079918 A KR1020200079918 A KR 1020200079918A KR 20200079918 A KR20200079918 A KR 20200079918A KR 20220001658 A KR20220001658 A KR 20220001658A
Authority
KR
South Korea
Prior art keywords
person
image
voice
original video
original
Prior art date
Application number
KR1020200079918A
Other languages
English (en)
Inventor
최규석
Original Assignee
주식회사 미디어클
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 미디어클 filed Critical 주식회사 미디어클
Priority to KR1020200079918A priority Critical patent/KR20220001658A/ko
Publication of KR20220001658A publication Critical patent/KR20220001658A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • G06K9/00624
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

본 발명은 (a) 원본 동영상의 편집 인터페이스를 표시하는 인터페이스 표시 단계; (b) 상기 원본 동영상을 N개로 분할하여(여기서 N은 1보다 큰 자연수) N개의 1차 분할 영상을 생성하는 영상 분할 단계; (c) 분할된 상기 N개의 1차 분할 영상가운데 적어도 하나를 스캔하여 상기 원본 동영상에 등장하는 인물을 인식하는 인물 인식 단계; 및 (e) 상기 원본 동영상에서 상기 인물이 등장하는 구간을 상기 인터페이스부에 제공하는 등장위치 표시 단계를 포함하는 영상 편집 방법을 제공한다.

Description

영상 편집 방법{Method for movie editting}
본 발명은 영상 편집 방법에 관한 것으로서, 구체적으로는 원본 영상을 스캔하여 원본 영상에 포함된 인물을 추출하여 신속하게 영상 편집을 수행할 수 있도록 하는 방법에 관한 것이다.
예능 프로그램의 촬영등과 같이, 하나의 인물 또는 인물 그룹을 다수의 카메라로 촬영하는 경우가 있다. 사용되는 카메라의 수와 동일한 수의 원본 동영상이 생성된다. 예를 들어 10대의 카메라를 사용한 경우 1시간의 촬영만 수행해도 10시간 분량의 원본 동영상이 생성된다.
편집자가 다수의 원본 동영상을 모두 확인하는 데에는 어려움이 발생하므로, 신속하게 편입에 필요한 부분만을 찾을 수 있는 영상 편집 장치가 요구되고 있는 상황이다.
특허문헌 1 : 대한민국 공개특허 제10-2014-0011112호 공개일자 2014년01월28일 특허문헌 2 : 대한민국 등록특허 제10-1352713호 공고일자 2014년01월17일
본 발명은 원본 영상을 스캔하여 원본 영상에 포함된 인물을 추출하여 신속하게 영상 편집을 수행할 수 있도록 하는 방법의 제공을 목적으로 한다.
상기한 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 영상 편집 방법은, (a) 원본 동영상의 편집 인터페이스를 표시하는 인터페이스 표시 단계; (b) 상기 원본 동영상을 N개로 분할하여(여기서 N은 1보다 큰 자연수) N개의 1차 분할 영상을 생성하는 영상 분할 단계; (c) 분할된 상기 N개의 1차 분할 영상가운데 적어도 하나를 스캔하여 상기 원본 동영상에 등장하는 인물을 인식하는 인물 인식 단계; 및 (e) 상기 원본 동영상에서 상기 인물이 등장하는 구간을 상기 편집 인터페이에 제공하는 등장위치 표시 단계를 포함한다.
이때, N 개의 상기 1차 분할 영상은, 분할 스케일을 지정받아 수행되는 것으로서, 각각 상기 원본 영상의 해상도를 스케일 다운한 영상인 것이 바람직하다.
한편, 상기 (c) 단계는, 상기 원본 동영상에 등장하는 제1 인물과 제2 인물을 구분하여 인식하고, 상기 (e) 단계는, 상기 제1 인물 및 상기 제2 인물의 등장 시작 지점과 종료 지점을 시각적으로 표시하는 것이 바람직하다.
또한, 상기 (c) 단계 이후, (d) 상기 제1 인물 및 상기 제2 인물이 등장하는 구간의 사운드 트랙에서 음석 인식을 수행하여, 음성이 검출될 경우 검출된 음성을 상기 제1 인물 및 상기 제2 인물과 매치하는 음성 인식 단계를 더 포함하고, 상기 (e) 단계는, 상기 제1 인물의 음성 및 상기 제2 인물의 음성의 시작 지점과 종료 지점을 시각적으로 표시할 수 있다.
본 발명에 따른 영상 편집 방법에 의하면 원본 영상을 스캔하여 원본 영상에 포함된 인물을 추출하여 신속하게 영상 편집을 수행할 수 있다.
도 1은 본 발명에 따른 영상 편집 방법을 설명하는 순서도이다.
도 2은 본 발명의 일 실시예에 따른 영상 편집 장치의 블록도이다.
도 3은 본 발명의 일 실시예에 따른 편집 인터페이스이다.
도 4는 인물 인식이 수행된 편집 인터페이스의 일 예이다.
도 5는 음성 인식이 더 수행된 편집 인터페이스의 일 예이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 이때, 첨부된 도면에서 동일한 구성 요소는 가능한 동일한 부호로 나타내고 있음에 유의한다. 또한, 본 발명의 요지를 흐리게 할 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략할 것이다. 마찬가지 이유로 첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 개략적으로 도시되었다.
도 1은 본 발명에 따른 영상 편집 방법을 설명하는 순서도이다. 도 1은 도 2 내지 도 5에서 설명된 영상 편집 장치(1000)를 시계열적으로 구현한 경우에도 본 실시예에 해당하므로 인터페이스부(100), 영상 분할부(200), 인물 인식부(300), 등장위치 표시부(400) 및 음성 인식부(500)에 대해서 설명된 부분은 본 실시예에서도 그대로 적용된다.
일 실시예에 따른 영상 편집 방법은 인터페이스 표시 단계(S100), 영상 분할 단계(S200), 인물 인식 단계(S300), 음성 인식 단계(S400) 및 등장위치 표시 단계(S500)를 포함한다.
일 실시예에 따른 영상 편집 방법에 의하면, 미디어 스토리지(미도시)로부터 편집 대상인 원본 영상을 호출하여 편집을 수행한다.
여기서 원본 영상은 촬영 디바이스(일 예로, 영상 제작용 전문 카메라)로부터 획득된 영상일 수도 있으며, 촬영된 영상에서 소정의 편집 또는 영상 처리가 수행된 영상일 수도 있고, CCTV로부터 수신되는 영상일 수도 있다. 또는 송출된 방송을 녹화한 영상일 수 도 있다.
즉, 본 발명에서 '원본 영상'은 특정 포맷의 영상으로 제한 되는 것은 아니다.
일 예로, 본 발명에 따른 영상 편집 방법은 개인용PC, 스마트폰 또는 태블릿 PC와 같은 단일 단말에서 수행될 수 있으며, 미디어 스토리지는 네트워크로 연결되는 형태로 구현될 수 있다.
영상 편집 방법에 의하면, 단말은 미디어 스토리지에 접속하여 원본 영상의 적어도 일부 구간을 수신하여 편집을 수행한다.
S100 단계에서, 인터페이스부(100)는 단말의 디스플레이 화면에 원본 동영상의 편집 인터페이스를 표시한다. 도 3은 본 발명의 일 실시예에 따른 편집 인터페이스이다. 도 3에 표시된 인터페이스는 편의의 설명을 위해 모식적으로 도시된 것으로서 도시된 형태로 본 발명이 한정되는 것은 아니다.
인터페이스부(100)는 영상 재생창(110), 위치 표시바(120), 분할 영상 표시창(130) 및 클립 테이블(140)을 포함한다.
영상 재생창(110)은 원본 영상, 또는 선택된 분할 영상의 재생(Play)중인 화면을 표시한다.
위치 표시바(120)는 영상 재생창(110)에서 재생되는 영상의 재생되고 있는 시간 위치가 전체 영상에서 어느 부분에 위치하는지를 시각적으로 알 수 있도록 표시한다.
분할 영상 표시창(130)은 편집 구간 선택의 편의를 위해 원본 영상을 정해진 기준으로 분할하여 표시된 창이다.
본 발명에 따른 영상 표시 방법은 본 발명의 발명자가 앞서 발명한 대한민국 등록특허 제10-2078479호에 개시된 편집 수행 단말(200) 및 편집 인터페이스(250)의 특징을 포함도록 실시될 수 있다.
S200 단계에서, 영상 분할부(200)는 원본 동영상을 N개로 분할하여(이때, N은 1보다 큰 자연수) N개의 1차 분할 영상을 생성한다. 영상 분할부(200)는 스케일 다운된 N 개의 1차 분할 영상을 생성한다.
영상 분할부(200)는 N 개의 1차 분할 영상을 각각 대표하는 이미지인 N 개의 1차 미리 보기 이미지를 생성한다.
영상 분할부(200)는 N 개의 1차 분할 영상 가운데 어느 하나가 선택되었을 경우, 선택된 1차 분할 영상에 대응되는 N' 개의 2차 분할 영상을 각각 대표하는 이미지인 N' 개의 2차 미리 보기 이미지를 함께 생성한다.
이때, 영상 분할부(200)는, N 개의 1차 분할 영상 가운데 어느 하나가 선택되었을 경우, 선택된 1차 분할 영상에 대응되는 N' 개의 2차 분할 영상을 생성한다.
영상 분할부(200)는 미디어 스토리지에 접속하여 원본 영상의 적어도 일부 구간을 수신하고, 수신된 원본 영상을 N 개로 분할(여기서 N은 1보다 큰 자연수)하여 N 개의 1차 분할 영상을 생성하고, 1차 분할 영상을 N' 개로 분할하여(여기서 N'은 1보다 큰 자연수) N'개의 2차 분할 영상을 생성하고, 2차 분할 영상을 N'' 개로 분할하여(여기서 N''은 1보다 큰 자연수) N''개의 3차 분할 영상을 생성한다.
여기서, '분할'은 원본 영상을 소정의 기준에 의해 여러 개로 쪼개는 것을 의미한다. 이때 '분할'의 기준은 분할된 각 영상의 '재생 시간'이 동일하도록 하는 시간균등 분할일 수 있으나, 본 발명에서 분할의 기준은 이에 한정되지는 않는다.
분할 기준의 다른 예로서, 원본 영상에서 장면이 전환되는 지점을 '분할'의 기준으로 정할 수도 있으며, 원본 영상에서 음성이 전환되는 지점을 '분할' 기준으로 정할수도 있다.
이때, 편집 대상으로 하는 영상이 고해상도 영상(4K 또는 8K 해상도)인 경우 원본 영상을 직접 N개로 분할한다면 하드웨어 성능에 따라 분할에 시간이 소요될 수 있다.
따라서, S200 단계 전에 고해상도 원본 영상을 스케일 다운하여 스케일 다운된 원본 영상을 생성하고 스케일 다운된 원본 영상을 분할하는 방식으로 S200 단계를 신속하게 수행할 수 있다.
또는, 고해상도 원본 영상을 호출할 때 N개의 1차 분할 영상을 스케일 다운과 동시에 형성할 수도 있다.
본 발명에서 '스케일 다운'은 원본 영상의 해상도를 낮추는 것을 뜻한다. 일 실시예로, 스케일 다운을 통해 4K 또는 그 이상의 해상도의 영상을 640x480 또는 320x240 해상도로 낮출 수 있다. 640x480 또는 320x240 해상도로 스케일 다운된 1차 분할 영상은 그 크기(파일 크기)가 원본 영상에 비해 매우 작으므로 하드웨어 자원을 적게 소비하므로 영상 분할부(200)에서 신속하게 처리될 수 있다.
제시된 원본 해상도 및 스케일 다운된 해상도는 이해를 돕기위한 하나의 예일 뿐이며, 편집하고자 하는 원본 영상의 해상도 및 종류는 제한되지 않으며, 실시형태에 따라 스케일 다운 해상도 또한 자유롭게 변경될 수 있다.
S200 단계에서, 영상 분할부(200), 분할 영상 표시창(130) 및 클립 테이블(140)은 제10-2078479호의 분할영상 표시부(251) 및 클립 테이블(253)과 동일한 것이므로 간결한 설명을 위해 중복되는 설명은 생략하기로 한다.
S300 단계에서, 인물 인식부(300)는 분할된 N개의 1차 분할 영상 가운데 적어도 하나를 스캔하여 원본 동영상에 등장하는 인물을 인식한다. 또는 인물 인식부(300)는 원본 동영상 자체를 스캔하여 원본 동영상에 등장하는 인물을 인식한다. 여기서 인물의 인식은 공지된 '안면 인식 알고리즘'을 사용하여 수행될 수 있다. 인물 인식부(300)에서 사용되는 인식 알고리즘은 특정 알고리즘에 한정되는 것은 아니며, 인식율이 우수한 알고리즘은 어느것이던 적용될 수 있다.
인물 인식부(300)는 원본 동영상에 등장하는 제1 인물(P1)과 제2 인물(P2)을 구분하여 인식한다. 즉, 인물 인식부(300)는 인물의 특징에 기반하여 등장 인문별로 구분하여 인식한다.
도 4는 인물 인식이 수행된 편집 인터페이스의 일 예이다.
인터페이스부(100)는 인식 인물 표시창(150)을 더 포함하는 형태로 실시될 수 있다. 인물 인식부(300)의 스캔 결과 원본 동영상에 등장하는 인물이 예를 들어 2인 경우 인식 인물 표시창(150)에 각 인물을 대표하는 썸네일이 표시된다.
설명의 편의를 위해 제1 인물(P1)과 제2 인물(P2)로 구분하여 설명한다.
인식 인물 표시창(150)에 표시되는 제1 인물(P1)과 제2 인물(P2)의 썸네일은 색상으로 구분되도록 표시되는 것이 바람직하다.
S400 단계에서, 등장위치 표시부(400)는 원본 동영상에서 인물(P1, P2)이 등장하는 구간을 인터페이스부(100)에 제공한다. 이어서, S500 단계에서 등장위치 표시부(400)는 제1 인물(P1) 및 제2 인물(P2)의 등장 시작 지점과 종료 지점을 시각적으로 표시하도록 인터페이스부(100)에 제공한다.
위치 표시바(120)에는 제1 인물(P1) 및 제2 인물(P2)의 등장 시작 지점과 종료 지점을 시각적으로 표시된다. 예를 들어 도시된 바와 같이 위치 표시바(120)가 등장 인물의 수에 맞추어 2단으로 나누어 지고 각 표시바에 제1 인물(P1) 및 제2 인물(P2)의 등장 시작 지점부터 종료 지점까지를 표시하는 색상이 오버레이되어 표시된다. 이때 표시되는 색상은 인식 인물 표시창(150)에 표시되는 제1 인물(P1)과 제2 인물(P2)의 썸네일 색상과 동일한 색상으로 표시되는 것이 바람직하다.
분할 영상 표시창(130)에는 제1 인물(P1) 또는 제2 인물(P2)이 등장하는 분할 영상이 인식 인물 표시창(150)에 표시되는 제1 인물(P1)과 제2 인물(P2)의 썸네일 색상과 동일한 색상으로 표시된다. 사용자는 색상을 기준으로 하여 원하고자 하는 편집 지점을 쉽게 선택할 수 있다.
S400 단계에서 음성 인식부(500)는 원본 동영상의 제1 인물(P1) 및 제2 인물(P2)이 등장하는 구간의 사운드 트랙에서 음석 인식을 수행한다. 음성이 검출될 경우 검출된 음성을 각각 제1 인물(P1) 및 제2 인물(P2)과 매치한다.
구체적으로, 음성 인식부(500)는 분할된 N개의 1차 분할 영상 가운데 적어도 하나를 스캔하여 원본 동영상에 등장하는 인물을 인식한다. 또는 음성 인식부(500)는 원본 동영상의 사운트 트랙을 스캔하여 원본 동영상에 등장하는 인물의 음성을 인식한다. 여기서 인물의 음성 인식은 공지된 '음성 인식 알고리즘'을 사용하여 수행될 수 있다. 음성 인식부(500)에서 사용되는 인식 알고리즘은 특정 알고리즘에 한정되는 것은 아니며, 음성 인식율이 우수한 알고리즘은 어느 것이던 적용될 수 있다.
예를 들어, 도 3에서 음성 인식부(500)는 제1 인물(P1)이 등장하는 구간의 사운드 트랙에서 음성 인식을 수행하고, 음성이 식별되면 해당 음성을 제1 인물(P1)의 음성으로 매치한다. 또한 제2 인물(P2)이 등장하는 구간의 사운드 트랙에서 음성 인식을 수행하고, 음성이 식별되면 해당 음성을 제2 인물(P1)의 음성으로 매치한다.
이어서, S500 단계에서 등장위치 표시부(400)는 제1 인물(P1)의 음성 및 제2 인물(P2)의 음성의 시작 지점과 종료 지점을 시각적으로 표시한다.
도 5는 음성 인식이 더 수행된 편집 인터페이스의 일 예이다.
도 5와 같이 등장위치 표시부(400)는 위치 표시바(120)에 제1 인물(P1)의 음성 및 제2 인물(P2)의 음성의 시작 지점과 종료 지점을 시각적으로 표시한다. 도 4에서는 위치 표시바(120)가 등장 인물의 수에 맞추어 2 단(120a, 120b)으로 분리되고, 각 단은 인물의 등장 지점을 나타내는 부분과, 인물의 음성 등장 지점을 나타내는 부분을 구분될 수 있다.
본 발명의 다른 실시형태에 따르면 음성 인식부(500)는 원본 동영상의 사운드 트랙 전체에서 음성 인식을 수행하여 제1 인물(P1) 또는 제2 인물(P2)이 등장하지 않는 부분에서도 음성 인식이 수행되면 인식된 음성이 어떤 인물인지를 비교하여 이를 위치 표시바(120)에 표시할 수 있다. 식별부호 'S'로 표시한 부분은 음성만이 제1 인물(P1)의 음성만이 등장한 부분을 설명한다.
이때, 음성은 도 4와 같이 음성 파형을 간략화하여 표시될 수 있다. 다만 이는 모식적인 표시이므로 본 발명은 도시된 예에 한정되는 것은 아니며 실시자에 따라서 음성의 등장 위치 표시는 다양한 표시 방법중에서 선택될 수 있다.
사용자는 음성 유무를 시각적으로 판단할 수 있으므로, 원본 동영상을 모두 재생하지 않고서도 원하고자 하는 편집 지점을 쉽게 선택할 수 있다.
도 2은 본 발명의 일 실시예에 따른 영상 편집 장치의 블록도이다.
도 2을 참조하면, 본 발명에 따른 영상 편집 장치(1000)는 원본 영상을 스캔하여 원본 영상에 포함된 인물을 추출하여 신속하게 영상 편집을 수행할 수 있도록 하는 장치에 관한 것으로서, 인터페이스부(100), 영상 분할부(200), 인물 인식부(300), 등장위치 표시부(400) 및 음성 인식부(500)를 포함한다.
영상 편집 장치(1000)는 미디어 스토리지(미도시)로부터 편집 대상인 원본 영상을 호출하여 편집을 수행한다.
여기서 원본 영상은 촬영 디바이스(일 예로, 영상 제작용 전문 카메라)로부터 획득된 영상일 수도 있으며, 촬영된 영상에서 소정의 편집 또는 영상 처리가 수행된 영상일 수도 있고, CCTV로부터 수신되는 영상일 수도 있다. 또는 송출된 방송을 녹화한 영상일 수 도 있다.
즉, 본 발명에서 '원본 영상'은 특정 포맷의 영상으로 제한 되는 것은 아니다.
일 예로, 본 발명에 따른 영상 편집 장치(1000)는 개인용PC, 스마트폰 또는 태블릿 PC와 같은 단일 단말로 구현고, 미디어 스토리지는 네트워크로 연결되는 형태로 구현될 수 있다.
영상 편집 장치(1000)는 미디어 스토리지에 접속하여 원본 영상의 적어도 일부 구간을 수신하여 편집을 수행한다. 실시 형태에 따라서는 영상 편집 장치(1000)가 '원본 영상'을 직접 보관하는 형태로 실시될 수도 있다.
인터페이스부(100)는 원본 동영상의 편집 인터페이스를 표시한다. 도 2는 본 발명의 일 실시예에 따른 편집 인터페이스이다. 도 2에 표시된 인터페이스는 편의의 설명을 위해 모식적으로 도시된 것으로서 도시된 형태로 본 발명이 한정되는 것은 아니다.
인터페이스부(100)는 영상 재생창(110), 위치 표시바(120), 분할 영상 표시창(130) 및 클립 테이블(140)을 포함한다.
영상 재생창(110)은 원본 영상, 또는 선택된 분할 영상의 재생(Play)중인 화면을 표시한다.
위치 표시바(120)는 영상 재생창(110)에서 재생되는 영상의 재생되고 있는 시간 위치가 전체 영상에서 어느 부분에 위치하는지를 시각적으로 알 수 있도록 표시한다.
분할 영상 표시창(130)은 편집 구간 선택의 편의를 위해 원본 영상을 정해진 기준으로 분할하여 표시된 창이다.
인터페이스부(100) 및 영상 분할부(200)는 본 발명의 발명자가 앞서 발명한 대한민국 등록특허 제10-2078479호에 개시된 편집 수행 단말(200) 및 편집 인터페이스(250)의 특징을 포함도록 실시될 수 있다.
영상 분할부(200)는 원본 동영상을 N개로 분할하여(이때, N은 1보다 큰 자연수) N개의 1차 분할 영상을 생성한다. 영상 분할부(200)는 스케일 다운된 N 개의 1차 분할 영상을 생성한다.
영상 분할부(200)는 N 개의 1차 분할 영상을 각각 대표하는 이미지인 N 개의 1차 미리 보기 이미지를 생성한다.
영상 분할부(200)는 N 개의 1차 분할 영상 가운데 어느 하나가 선택되었을 경우, 선택된 1차 분할 영상에 대응되는 N' 개의 2차 분할 영상을 각각 대표하는 이미지인 N' 개의 2차 미리 보기 이미지를 함께 생성한다.
이때, 영상 분할부(200)는, N 개의 1차 분할 영상 가운데 어느 하나가 선택되었을 경우, 선택된 1차 분할 영상에 대응되는 N' 개의 2차 분할 영상을 생성한다.
영상 분할부(200)는 미디어 스토리지에 접속하여 원본 영상의 적어도 일부 구간을 수신하고, 수신된 원본 영상을 N 개로 분할(여기서 N은 1보다 큰 자연수)하여 N 개의 1차 분할 영상을 생성하고, 1차 분할 영상을 N' 개로 분할하여(여기서 N'은 1보다 큰 자연수) N'개의 2차 분할 영상을 생성하고, 2차 분할 영상을 N'' 개로 분할하여(여기서 N''은 1보다 큰 자연수) N''개의 3차 분할 영상을 생성한다.
여기서, '분할'은 원본 영상을 소정의 기준에 의해 여러 개로 쪼개는 것을 의미한다. 이때 '분할'의 기준은 분할된 각 영상의 '재생 시간'이 동일하도록 하는 시간균등 분할일 수 있으나, 본 발명에서 분할의 기준은 이에 한정되지는 않는다.
분할 기준의 다른 예로서, 원본 영상에서 장면이 전환되는 지점을 '분할'의 기준으로 정할 수도 있으며, 원본 영상에서 음성이 전환되는 지점을 '분할' 기준으로 정할수도 있다.
이때, 편집 대상으로 하는 영상이 고해상도 영상(4K 또는 8K 해상도)인 경우 원본 영상을 직접 N개로 분할한다면 하드웨어 성능에 따라 분할에 시간이 소요될 수 있다.
따라서, (a) 단계 전에 고해상도 원본 영상을 스케일 다운하여 스케일 다운된 원본 영상을 생성하고(step (0)) 스케일 다운된 원본 영상을 분할하는 방식으로 step (a)를 신속하게 수행할 수 있다.
또는, 고해상도 원본 영상을 호출할 때 N개의 1차 분할 영상을 스케일 다운과 동시에 형성할 수도 있다.
본 발명에서 '스케일 다운'은 원본 영상의 해상도를 낮추는 것을 뜻한다. 일 실시예로, 스케일 다운을 통해 4K 또는 그 이상의 해상도의 영상을 640x480 또는 320x240 해상도로 낮출 수 있다. 640x480 또는 320x240 해상도로 스케일 다운된 1차 분할 영상은 그 크기(파일 크기)가 원본 영상에 비해 매우 작으므로 하드웨어 자원을 적게 소비하므로 영상 분할부(200)에서 신속하게 처리될 수 있다.
제시된 원본 해상도 및 스케일 다운된 해상도는 이해를 돕기위한 하나의 예일 뿐이며, 편집하고자 하는 원본 영상의 해상도 및 종류는 제한되지 않으며, 실시형태에 따라 스케일 다운 해상도 또한 자유롭게 변경될 수 있다.
영상 분할부(200), 분할 영상 표시창(130) 및 클립 테이블(140)은 제10-2078479호의 분할영상 표시부(251) 및 클립 테이블(253)과 동일한 것이므로 간결한 설명을 위해 중복되는 설명은 생략하기로 한다.
인물 인식부(300)는 분할된 N개의 1차 분할 영상 가운데 적어도 하나를 스캔하여 원본 동영상에 등장하는 인물을 인식한다. 또는 인물 인식부(300)는 원본 동영상 자체를 스캔하여 원본 동영상에 등장하는 인물을 인식한다. 여기서 인물의 인식은 공지된 '안면 인식 알고리즘'을 사용하여 수행될 수 있다. 인물 인식부(300)에서 사용되는 인식 알고리즘은 특정 알고리즘에 한정되는 것은 아니며, 인식율이 우수한 알고리즘은 어느것이던 적용될 수 있다.
인물 인식부(300)는 원본 동영상에 등장하는 제1 인물(P1)과 제2 인물(P2)을 구분하여 인식한다. 즉, 인물 인식부(300)는 인물의 특징에 기반하여 등장 인문별로 구분하여 인식한다.
도 4는 인물 인식이 수행된 편집 인터페이스의 일 예이다.
인터페이스부(100)는 인식 인물 표시창(150)을 더 포함하는 형태로 실시될 수 있다. 인물 인식부(300)의 스캔 결과 원본 동영상에 등장하는 인물이 예를 들어 2인 경우 인식 인물 표시창(150)에 각 인물을 대표하는 썸네일이 표시된다.
설명의 편의를 위해 제1 인물(P1)과 제2 인물(P2)로 구분하여 설명한다.
인식 인물 표시창(150)에 표시되는 제1 인물(P1)과 제2 인물(P2)의 썸네일은 색상으로 구분되도록 표시되는 것이 바람직하다.
등장위치 표시부(400)는 원본 동영상에서 인물(P1, P2)이 등장하는 구간을 인터페이스부(100)에 제공한다. 이때, 등장위치 표시부(400)는 제1 인물(P1) 및 제2 인물(P2)의 등장 시작 지점과 종료 지점을 시각적으로 표시하도록 인터페이스부(100)에 제공한다.
위치 표시바(120)에는 제1 인물(P1) 및 제2 인물(P2)의 등장 시작 지점과 종료 지점을 시각적으로 표시된다. 예를 들어 도시된 바와 같이 위치 표시바(120)가 등장 인물의 수에 맞추어 2단으로 나누어 지고 각 표시바에 제1 인물(P1) 및 제2 인물(P2)의 등장 시작 지점부터 종료 지점까지를 표시하는 색상이 오버레이되어 표시된다. 이때 표시되는 색상은 인식 인물 표시창(150)에 표시되는 제1 인물(P1)과 제2 인물(P2)의 썸네일 색상과 동일한 색상으로 표시되는 것이 바람직하다.
분할 영상 표시창(130)에는 제1 인물(P1) 또는 제2 인물(P2)이 등장하는 분할 영상이 인식 인물 표시창(150)에 표시되는 제1 인물(P1)과 제2 인물(P2)의 썸네일 색상과 동일한 색상으로 표시된다. 사용자는 색상을 기준으로 하여 원하고자 하는 편집 지점을 쉽게 선택할 수 있다.
음성 인식부(500)는 원본 동영상의 제1 인물(P1) 및 제2 인물(P2)이 등장하는 구간의 사운드 트랙에서 음석 인식을 수행한다. 음성이 검출될 경우 검출된 음성을 각각 제1 인물(P1) 및 제2 인물(P2)과 매치한다.
구체적으로, 음성 인식부(500)는 분할된 N개의 1차 분할 영상 가운데 적어도 하나를 스캔하여 원본 동영상에 등장하는 인물을 인식한다. 또는 음성 인식부(500)는 원본 동영상의 사운트 트랙을 스캔하여 원본 동영상에 등장하는 인물의 음성을 인식한다. 여기서 인물의 음성 인식은 공지된 '음성 인식 알고리즘'을 사용하여 수행될 수 있다. 음성 인식부(500)에서 사용되는 인식 알고리즘은 특정 알고리즘에 한정되는 것은 아니며, 음성 인식율이 우수한 알고리즘은 어느 것이던 적용될 수 있다.
예를 들어, 도 3에서 음성 인식부(500)는 제1 인물(P1)이 등장하는 구간의 사운드 트랙에서 음성 인식을 수행하고, 음성이 식별되면 해당 음성을 제1 인물(P1)의 음성으로 매치한다. 또한 제2 인물(P2)이 등장하는 구간의 사운드 트랙에서 음성 인식을 수행하고, 음성이 식별되면 해당 음성을 제2 인물(P1)의 음성으로 매치한다.
이어서, 등장위치 표시부(400)는 제1 인물(P1)의 음성 및 제2 인물(P2)의 음성의 시작 지점과 종료 지점을 시각적으로 표시한다.
도 5는 음성 인식이 더 수행된 편집 인터페이스의 일 예이다.
도 5와 같이 등장위치 표시부(400)는 위치 표시바(120)에 제1 인물(P1)의 음성 및 제2 인물(P2)의 음성의 시작 지점과 종료 지점을 시각적으로 표시한다. 도 4에서는 위치 표시바(120)가 등장 인물의 수에 맞추어 2 단(120a, 120b)으로 분리되고, 각 단은 인물의 등장 지점을 나타내는 부분과, 인물의 음성 등장 지점을 나타내는 부분을 구분될 수 있다.
본 발명의 다른 실시형태에 따르면 음성 인식부(500)는 원본 동영상의 사운드 트랙 전체에서 음성 인식을 수행하여 제1 인물(P1) 또는 제2 인물(P2)이 등장하지 않는 부분에서도 음성 인식이 수행되면 인식된 음성이 어떤 인물인지를 비교하여 이를 위치 표시바(120)에 표시할 수 있다. 식별부호 'S'로 표시한 부분은 음성만이 제1 인물(P1)의 음성만이 등장한 부분을 설명한다.
이때, 음성은 도 4와 같이 음성 파형을 간략화하여 표시될 수 있다. 다만 이는 모식적인 표시이므로 본 발명은 도시된 예에 한정되는 것은 아니며 실시자에 따라서 음성의 등장 위치 표시는 다양한 표시 방법중에서 선택될 수 있다.
사용자는 음성 유무를 시각적으로 판단할 수 있으므로, 원본 동영상을 모두 재생하지 않고서도 원하고자 하는 편집 지점을 쉽게 선택할 수 있다.
본 명세서와 도면에 개시된 본 발명의 실시예들은 본 발명의 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.
1000 : 영상 편집 장치
100 : 영상 분할부
200 : 인물 인식부
300 : 등장위치 표시부
400 : 음성 인식부

Claims (4)

  1. (a) 원본 동영상의 편집 인터페이스를 표시하는 인터페이스 표시 단계;
    (b) 상기 원본 동영상을 N개로 분할하여(여기서 N은 1보다 큰 자연수) N개의 1차 분할 영상을 생성하는 영상 분할 단계;
    (c) 분할된 상기 N개의 1차 분할 영상가운데 적어도 하나를 스캔하여 상기 원본 동영상에 등장하는 인물을 인식하는 인물 인식 단계; 및
    (e) 상기 원본 동영상에서 상기 인물이 등장하는 구간을 상기 편집 인터페이에 제공하는 등장위치 표시 단계를 포함하는 영상 편집 방법.
  2. 청구항 1에 있어서,
    N 개의 상기 1차 분할 영상은,
    분할 스케일을 지정받아 수행되는 것으로서,
    각각 상기 원본 영상의 해상도를 스케일 다운한 영상인 것을 특징으로 하는 영상 편집 방법.
  3. 청구항 1에 있어서,
    상기 (c) 단계는,
    상기 원본 동영상에 등장하는 제1 인물과 제2 인물을 구분하여 인식하고,
    상기 (e) 단계는,
    상기 제1 인물 및 상기 제2 인물의 등장 시작 지점과 종료 지점을 시각적으로 표시하는 것을 특징으로 하는 영상 편집 방법.
  4. 청구항 3에 있어서,
    상기 (c) 단계 이후,
    (d) 상기 제1 인물 및 상기 제2 인물이 등장하는 구간의 사운드 트랙에서 음석 인식을 수행하여, 음성이 검출될 경우 검출된 음성을 상기 제1 인물 및 상기 제2 인물과 매치하는 음성 인식 단계를 더 포함하고,
    상기 (e) 단계는,
    상기 제1 인물의 음성 및 상기 제2 인물의 음성의 시작 지점과 종료 지점을 시각적으로 표시하는 것을 특징으로 하는 영상 편집 방법.
KR1020200079918A 2020-06-30 2020-06-30 영상 편집 방법 KR20220001658A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200079918A KR20220001658A (ko) 2020-06-30 2020-06-30 영상 편집 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200079918A KR20220001658A (ko) 2020-06-30 2020-06-30 영상 편집 방법

Publications (1)

Publication Number Publication Date
KR20220001658A true KR20220001658A (ko) 2022-01-06

Family

ID=79347851

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200079918A KR20220001658A (ko) 2020-06-30 2020-06-30 영상 편집 방법

Country Status (1)

Country Link
KR (1) KR20220001658A (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101352713B1 (ko) 2013-08-09 2014-01-17 넥스트리밍(주) 동영상 편집을 위한 사용자 인터페이스의 제공장치, 그 제공방법 및 기록매체
KR20140011112A (ko) 2012-07-17 2014-01-28 엘지전자 주식회사 동영상 편집 단말기 및 그 제어방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140011112A (ko) 2012-07-17 2014-01-28 엘지전자 주식회사 동영상 편집 단말기 및 그 제어방법
KR101352713B1 (ko) 2013-08-09 2014-01-17 넥스트리밍(주) 동영상 편집을 위한 사용자 인터페이스의 제공장치, 그 제공방법 및 기록매체

Similar Documents

Publication Publication Date Title
JP3793142B2 (ja) 動画像加工方法及び装置
KR100656661B1 (ko) 미디어 편집방법 및 장치
US11317139B2 (en) Control method and apparatus
US9672411B2 (en) Information processing apparatus and method, and program
US8416332B2 (en) Information processing apparatus, information processing method, and program
JP4990994B2 (ja) ショートフィルム生成装置、ショートフィルム生成方法、プログラムおよび記録媒体
US7808555B2 (en) Image display method and image display apparatus with zoom-in to face area of still image
JP2009076970A (ja) 要約コンテンツ生成装置およびコンピュータプログラム
JP4519531B2 (ja) 画像表示装置、画像表示方法およびプログラム
CN103024607B (zh) 用于显示摘要视频的方法和设备
JP2004056286A (ja) 画像表示方法
JP2016189158A (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP2007101945A (ja) 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
JP2002176613A (ja) 動画像編集装置、動画像編集方法および記録媒体
JP2007066018A (ja) 情報処理方法及び情報処理装置
JP3757565B2 (ja) 音声認識画像処理装置
JP2003298981A (ja) 要約画像作成装置、要約画像作成方法、要約画像作成プログラム、及び要約画像作成プログラムを記憶したコンピュータ読取可能な記憶媒体
US20070211961A1 (en) Image processing apparatus, method, and program
JP2007228453A (ja) 撮像装置、再生装置、プログラム、および記憶媒体
KR20220001658A (ko) 영상 편집 방법
KR100775187B1 (ko) 썸네일 재생 방법 및 이를 이용한 단말기
KR20220001657A (ko) 영상 편집 장치
JP2006101076A (ja) 動画編集方法、動画編集装置及びプログラム
JPH10294896A (ja) 字幕情報付きディジタル情報処理方法及び装置
JPH113346A (ja) 動画像ファイル管理装置

Legal Events

Date Code Title Description
E601 Decision to refuse application