KR20220004260A - 음성 인덱싱을 이용한 비디오 가공 방법 및 장치 - Google Patents

음성 인덱싱을 이용한 비디오 가공 방법 및 장치 Download PDF

Info

Publication number
KR20220004260A
KR20220004260A KR1020200081858A KR20200081858A KR20220004260A KR 20220004260 A KR20220004260 A KR 20220004260A KR 1020200081858 A KR1020200081858 A KR 1020200081858A KR 20200081858 A KR20200081858 A KR 20200081858A KR 20220004260 A KR20220004260 A KR 20220004260A
Authority
KR
South Korea
Prior art keywords
video
keyword
indexing
playback
voice
Prior art date
Application number
KR1020200081858A
Other languages
English (en)
Other versions
KR102384263B1 (ko
Inventor
김영주
최선영
Original Assignee
주식회사 아이앤지솔루션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 아이앤지솔루션 filed Critical 주식회사 아이앤지솔루션
Priority to KR1020200081858A priority Critical patent/KR102384263B1/ko
Publication of KR20220004260A publication Critical patent/KR20220004260A/ko
Application granted granted Critical
Publication of KR102384263B1 publication Critical patent/KR102384263B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7343Query language or query format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

음성 인덱싱을 이용한 비디오 가공 방법 및 장치가 개시된다. 본 발명의 일측면에 따른 음성 인덱싱을 이용한 비디오 가공 방법은, 대상 비디오의 오디오에 대한 음성 인식에 따른 비디오텍스트를 획득하는 단계; 비디오텍스트에서 미리 설정된 기준에 따른 하나 이상의 핵심키워드를 추출하는 단계; 핵심키워드의 재생시점을 확인하는 단계; 및 핵심키워드를 이용한 재생구간 설정을 위해, 핵심키워드와 상기 재생시점을 인덱싱 정보로서 저장하는 단계를 포함한다.

Description

음성 인덱싱을 이용한 비디오 가공 방법 및 장치{Method and system for remote medical service using artificial intelligence}
본 발명은 비디오 가공에 관한 것으로, 내용 탐색의 편의를 위한 음성 인덱싱을 이용한 비디오 가공 방법 및 장치에 관한 것이다.
근래에는 다양한 멀티미디어 중에서도 동영상 즉 비디오에 대한 이용이 높아지고 있다. 유투브 등의 비디오 중개 플랫폼을 통해 많은 수의 비디오가 유통되고 있으며, 최근에는 온라인 강의를 제작하고 시청하는 이용자들이 급격히 늘고 있어, 앞으로도 비디오의 이용률은 더욱 높아질 것으로 예상된다.
뿐만 아니라 CCTV 및 다양한 디바이스에서도 수많은 영상 콘텐츠가 생성되고, 이렇게 생성된 영상 콘텐츠를 상황실로 전송하는 이슈도 많아지고 있는 상황이다.
이로 인해, 많은 수의 비디오들 중 유저가 원하는 내용을 담은 비디오를 검색하는 검색 기술도 중요한 이슈가 되고 있다. 그러나 종래의 검색기술은 대부분 비디오 자체의 검색이다. 즉, 많은 수의 비디오들 중 원하는 비디오를 선별하는 검색인데, 검색된 결과의 비디오에 대해 유저가 원하는 내용인지를 보다 정확히 확인하기 위해서는 일일이 내용을 시청해야 하는 불편이 있었다. 긴 재생시간을 갖는 비디오의 경우에는 더욱 확인이 번거롭고 시간이 오래 걸리는 불편이 발생한다.
또한, 모바일 기기의 보급 확대로 비디오 콘텐츠 가공에 대한 수요가 늘어나고 있으며, 스마트폰 등의 모바일 기기를 활용한 실시간 영상 중계 기술이 제공되면서 내용 탐색의 편의를 제공할 필요가 있게 되었다.
대한민국 공개특허 제10-2004-0071369 (공개일자 2004년08월12일) 디지털 영상자료 검색 시스템
따라서, 본 발명은 상술한 문제를 해결하기 위한 것으로, 하나의 비디오 내에서 원하는 내용을 보다 쉽게 탐색하여 해당 구간을 재생시킬 수 있는 음성 인덱싱을 이용한 비디오 가공 방법 및 장치를 제공하기 위한 것이다.
본 발명의 다른 목적들은 이하에 서술되는 바람직한 실시예를 통하여 보다 명확해질 것이다.
본 발명의 일 측면에 따르면, 대상 비디오의 오디오에 대한 음성 인식에 따른 비디오텍스트를 획득하는 단계; 상기 비디오텍스트에서 미리 설정된 기준에 따른 하나 이상의 핵심키워드를 추출하는 단계; 상기 핵심키워드의 재생시점을 확인하는 단계; 및 상기 핵심키워드를 이용한 재생구간 설정을 위해, 상기 핵심키워드와 상기 재생시점을 인덱싱 정보로서 저장하는 단계를 포함하는, 음성 인덱싱을 이용한 비디오 가공 방법 및 그 방법을 실행하는 프로그램이 기록된 기록매체가 제공된다.
여기서, 상기 대상 비디오에 대한 키워드 검색 인터페이스를 제공하는 단계; 및 상기 키워드 검색 인터페이스를 통해 상기 핵심키워드가 입력되는 경우, 상기 핵심키워드의 재생시점을 표시하는 단계를 더 포함할 수 있다.
또한, 상기 핵심키워드를 이용한 상기 대상 비디오에 대한 부분 재생이 완료되면, 재생된 구간만을 이용한 부분 비디오를 생성하는 단계를 더 포함할 수 있다.
또한, 상기 비디오텍스트에서 임계횟수 이상 반복되는 키워드를 상기 핵심키워드로서 설정할 수 있으며, 상기 임계횟수는 상기 대상 비디오의 총 재생시간 및 추출되는 핵심키워드의 개수에 따라 가변적으로 설정될 수 있다.
또한, 상기 핵심키워드의 재생구간이 복수개인 경우, 상기 대상 비디오의 재생 화면을 상기 핵심키워드의 재생구간의 개수에 따라 분할하고, 분할화면에 핵심키워드에 상응하는 각 재생구간에 따른 영상을 각각 표시할 수 있다.
또한, 상기 핵심키워드가 복수개인 경우, 상기 대상 비디오의 재생 화면을 상기 핵심키워드의 개수에 따라 분할하고, 분할화면에 각 핵심키워드에 상응하는 재생구간에 따른 영상을 각각 표시할 수 있다.
본 발명의 다른 측면에 따르면, 대상 비디오의 오디오에 대한 음성 인식에 따른 비디오텍스트를 획득하는 음성인식부; 상기 비디오텍스트에서 미리 설정된 기준에 따른 하나 이상의 핵심키워드를 추출하고, 상기 핵심키워드의 재생시점을 확인하여 인덱싱 정보를 생성하는 인덱싱부; 및 상기 핵심키워드를 이용한 재생구간 설정을 위해, 상기 인덱싱정보를 상기 대상 비디오에 적용하는 비디오가공부를 포함하는, 음성 인덱싱을 이용한 비디오 가공 장치가 제공된다.
여기서, 통신망을 통해 상기 대상 비디오에 접근하는 사용자 단말과 통신하기 위한 통신부; 및 상기 대상 비디오에 대한 키워드 검색 인터페이스를 상기 사용자 단말에게 제공하는 인터페이스부를 더 포함하되, 상기 인터페이스부는 상기 키워드 검색 인터페이스를 통해 상기 핵심키워드가 입력되는 경우, 상기 핵심키워드의 재생시점을 표시할 수 있다.
또한, 상기 비디오가공부는 상기 핵심키워드를 이용한 상기 대상 비디오에 대한 부분 재생이 완료되면, 재생된 구간만을 이용한 부분 비디오를 생성할 수 있다.
또한, 상기 인터페이스부는 상기 핵심키워드가 복수개인 경우, 상기 대상 비디오의 재생 화면을 상기 핵심키워드의 개수에 따라 분할하고, 분할화면에 각 핵심키워드에 상응하는 재생구간에 따른 영상을 각각 표시할 수 있다.
본 발명에 따르면, 음성을 기반으로 하는 인덱싱을 이용하여 비디오 내에서 원하는 내용을 보다 쉽게 탐색하여 재생시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 음성 인덱싱을 이용한 비디오 가공 장치의 구성을 도시한 블록도.
도 2는 본 발명의 일 실시예에 따른 음성 인덱싱을 이용한 비디오 가공 과정을 도시한 흐름도.
도 3은 본 발명의 일 실시예에 따른 키워드 검색 인터페이스를 제공하는 사용자 인터페이스 화면을 도시한 예시도.
도 4는 본 발명의 일 실시예에 따른 핵심키워드를 이용한 부분 비디오 생성 과정을 도시한 흐름도.
도 5 및 도 6은 본 발명의 각 실시예에 따른 핵심키워드 인덱싱을 이용한 다중 영상을 제공하는 사용자 인터페이스 화면을 도시한 예시도들,
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 후술될 제1 임계값, 제2 임계값 등의 용어는 실질적으로는 각각 상이하거나 일부는 동일한 값인 임계값들로 미리 지정될 수 있으나, 임계값이라는 동일한 단어로 표현될 때 혼동의 여지가 있으므로 구분의 편의상 제1, 제2 등의 용어를 병기하기로 한다.
본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 각 도면을 참조하여 설명하는 실시예의 구성 요소가 해당 실시예에만 제한적으로 적용되는 것은 아니며, 본 발명의 기술적 사상이 유지되는 범위 내에서 다른 실시예에 포함되도록 구현될 수 있으며, 또한 별도의 설명이 생략될지라도 복수의 실시예가 통합된 하나의 실시예로 다시 구현될 수도 있음은 당연하다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일하거나 관련된 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도 1은 본 발명의 일 실시예에 따른 음성 인덱싱을 이용한 비디오 가공 장치의 구성을 도시한 블록도이고, 도 2는 본 발명의 일 실시예에 따른 음성 인덱싱을 이용한 비디오 가공 과정을 도시한 흐름도이다.
도 1을 참조하면, 본 실시예에 따른 비디오 가공 장치는 통신부(10), 저장부(20) 및 제어부(30)를 포함하되, 제어부(30)는 그 기능에 따라 음성인식부(31), 인덱신부(32), 비디오가공부(33) 및 인터페이스부(34)를 포함한다.
통신부(10)는 통신망을 통해 사용자 단말과 통신하기 위한 통신수단이며, 이는 당업자에게는 자명할 것이므로 더욱 상세한 설명은 생략한다.
저장부(20)에는 비디오 파일에 대해 내용 기반 재생구간 키워드 검색 서비스를 제공하기 위한 관련 정보들이 저장된다. 서비스하고자 하는 비디오 파일들도 저장부(20)에 저장될 수 있으며, 또는 별도로 내부 또는 외부에서 관리되는 비디오DB(미도시)를 구비하여 비디오 파일을 관리할 수도 있다.
제어부(30)는 관리하는 비디오 파일들에 대해, 내용 기반 재생구간 키워드 검색 기능을 제공한다. 이를 위해, 제어부는 대상 비디오에 대해 키워드를 이용한 재생구간 검색을 위한 인덱싱을 수행한다.
음성인식부(31)는 대상 비디오의 오디오에 대한 음성 인식에 따른 비디오텍스트를 획득한다.
음성인식부(31)는 비디오를 구성하는 이미지와 오디오 중에서 오디오의 음성을 인식하고, 이를 텍스트(이하 비디오텍스트라 칭함)화한다. 음성인식 기술은 네비게이션, 통역뿐 아니라 최근 인공지능 분야 등에서 다양하게 이용되고 있으므로 당업자에게는 자명할 것이다.
인덱싱부(32)는 비디오텍스트에서 미리 설정된 기준에 따른 하나 이상의 핵심키워드를 추출하고, 핵심키워드의 재생시점을 확인하여 인덱싱 정보를 생성한다.
예를 들어, 대상 비디오가 [수학 강의]에 대한 것으로, 강사의 음성 중에서 인식된 키워드들 중에서 [삼각함수]라는 키워드가 핵심키워드라 인식된 경우, 핵심키워드가 출력되는 재생시점에 대한 정보로서 일례로 3번의 재생시점이 확인되면 [삼각함수 - 03:24/07:30/12:05]라는 인덱싱 정보가 생성된다.
비디오가공부(33)는 핵심키워드를 이용한 재생구간 설정을 위해 인덱싱정보를 대상 비디오에 적용한다. 예를 들어, 대상 비디오의 헤더정보로 인덱싱 정보를 삽입할 수 있으며, 물론 이에 한정되는 것은 아니며, 차후 인덱싱 정보를 참조하여 유저가 대상 비디오에 대해 핵심키워드를 이용한 구간탐색을 수행하도록 하는 모든 가공방식이 이용될 수 있다.
인터페이스부(34)는 인덱싱된 비디오에 대한 서비스를 요청한 사용자단말로 제공되는 비디오 재생 및 키워드 검색 기능을 제공하기 위한 사용자 인터페이스를 제공한다. 사용자 인터페이스는 추후 관련 도면(도 3, 도 5 내지 도 6)을 참조하여 상세히 설명하기로 한다.
처리 과정을 도시한 도 2를 참조하면, 대상 비디오의 오디오에 대한 음성 인식에 따른 비디오텍스트를 획득한다(S210). 음성 인식 기술을 이용하여 오디오 내의 음성 정보를 인식하여 텍스트화하는 방식에 대한 중복되는 설명은 생략한다.
여기서, 대상 비디오는 접속한 사용자단말(미도시)로부터 실시간 스트리밍 또는 다운로딩 방식으로 요청된 비디오 파일일 수 있다. 또는 관리하는 모든 비디오 파일을 대상으로 유저에게 서비스되기 이전에 모두 인덱싱 처리를 수행할 수도 있다.
대상 비디오로부터 획득된 비디오텍스트에서 미리 설정된 기준에 따른 하나 이상의 핵심키워드를 추출한다(S220).
일례에 따르면 핵심키워드는 미리 등록된 키워드리스트를 참조하여 선택할 수 있다. 또는, 비디오텍스트에서 임계횟수 이상 존재하는 키워드를 핵심키워드로서 선정할 수도 있다. 두가지 방식을 이용한 일례에 따르면, 임계횟수(예를 들어, 3회 등) 이상 존재하는 키워드를 1차 대상으로 선정하고, 1차 대상으로 선정된 키워드들 중 미리 등록된 키워드리스트에 존재하는 것을 핵심키워드로 최종 선정한다.
그리고, 비디오텍스트에서 임계횟수 이상 반복되는 키워드를 상기 핵심키워드로서 설정함에 있어, 임계횟수는 대상 비디오의 총 재생시간 및 추출되는 핵심키워드의 개수에 따라 가변적으로 설정될 수 있다. 예를 들어, 재생시간이 길수록 또한 추출되는 핵심키워드의 개수가 많을수록 임계횟수는 크게 설정된다.
추출된 핵심키워드에 대해 재생시점을 확인하여 인덱싱 정보를 생성하고(S230), 생성된 인덱싱 정보가 적용되도록 대상 비디오를 가공한다(S240).
차후, 대상 비디오에 대한 키워드 검색 인터페이스를 유저에게 제공하고, 키워드 검색 인터페이스를 통해 핵심키워드가 입력되는 경우 핵심키워드의 재생시점을 표시함으로써 유저가 쉽게 원하는 구간만을 시청하도록 할 수 있다.
도 3은 본 발명의 일 실시예에 따른 키워드 검색 인터페이스를 제공하는 사용자 인터페이스 화면을 도시한 예시도이다.
오디오 기반 키워드 검색이 가능하도록 가공된 대상 비디오를 시청하는 사용자단말에 표시되는 사용자 인터페이스 화면을 도시된 도 3을 참조하면, 키워드 검색 인터페이스(320)를 포함한다.
도면과 같이 [삼각함수]라는 검색어가 입력되면, 삼각함수가 핵심키워드로 설정되어 있으므로, 비디오 재생 화면(310)에서 표시되는 재생구간정보에 핵심키워드에 대응된 재생시점에 대한 정보(330)가 표시된다.
따라서, 유저는 동영상을 시청함에 있어, 전체 재생구간 중에서 원하는 구간에 대해 빠른 탐색이 가능하게 된다.
도 4는 본 발명의 일 실시예에 따른 핵심키워드를 이용한 부분 비디오 생성 과정을 도시한 흐름도이다.
도 4를 참조하면, 핵심키워드를 이용한 대상 비디오에 대한 부분 재생이 완료됨을 인식한다(S410). 즉 본 실시예에 따른 비디오 가공 장치는 유저에게 제공한 대상 비디오에 대해, 유저가 전체 재생이 아닌 핵심키워드를 이용한 부분재생을 수행함을 인식하는 것이다.
그러면, 재생된 일부에 대한 부분 비디오의 생성 여부를 판단한다(S420). 일례에 따르면 유저에게 부분 비디오 생성 여부를 문의하는 방식이 이용될 수 있다. 다른 일례에 따르면 유저마다 달리 적용하는 것인데, 일례로 유저가 미리 등록된 프리미엄 회원인 경우에만 부분 비디오의 생성 프로세스를 진행한다.
부분 비디오 생성의 필요가 없는 경우, 해당 유저로의 대상 비디오에 대한 비디오 서비스를 종료한다(S430).
부분 비디오의 생성이 필요한 경우, 재생된 구간만을 추출하여 합쳐진 부분 비디오를 생성하고(S440), 해당 유저에 대응되도록 저장(또는 유저에게 다운로드 방식으로 제공)한다(S450). 따라서, 유저는 차후 다시 핵심키워드 구간을 일일이 탐색할 필요없이 시청한 구간만으로 구성된 편집본 비디오를 바로 시청할 수 있게 된다.
도 5 및 도 6은 본 발명의 각 실시예에 따른 핵심키워드 인덱싱을 이용한 다중 영상을 제공하는 사용자 인터페이스 화면을 도시한 예시도들이다.
먼저 일례에 따른 도 5를 참조하면, 핵심키워드의 재생구간이 복수개인 경우, 대상 비디오의 재생 화면을 핵심키워드의 재생구간의 개수에 따라 분할하고, 분할화면에 핵심키워드에 상응하는 각 재생구간에 따른 영상을 각각 표시한다.
즉 본 도면에서는 핵심키워드인 [삼각함수]라는 음성이 나오는 재생구간이 총 4개이며, 각 재생구간을 4개의 분할화면(500-1, 500-2, 500-3, 500-4)에 각각 표시하는 것이다. 따라서, 유저는 하나의 화면을 통해 하나의 비디오에 대해 4개의 재생구간을 동시에 시청할 수 있으며, 필요시 원하는 어느 하나를 선택하여 큰화면으로 시청할 수 있다. 이때, 오디오에 대해서는 분할화면 중 어느 하나를 대표화면으로서 선정하여 해당 재생구간에 대한 오디오만을 출력할 수도 있다.
다른 실시예에 따른 도 6을 참조하면, 대상 비디오의 재생 화면을 핵심키워드의 개수(본 실시예는 4개)에 따라 분할하고, 각 분할화면(600-1, 600-2, 600-3, 600-4)에 각각의 핵심키워드에 상응하는 재생구간에 따른 영상을 각각 표시할 수도 있다.
즉, 유저가 키워드 검색을 수행하기 이전에, 대상 비디오에 설정된 핵심키워드들에 대한 정보와 함게 관련 영상을 미리 보여주는 것이다. 이에 따르면, 유저는 해당 비디오의 핵심키워드가 무엇이며, 어떤 내용인지를 직관적으로 쉽게 알 수 있게 된다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
10 : 통신부
20 : 저장부
30 : 제어부

Claims (12)

  1. 대상 비디오의 오디오에 대한 음성 인식에 따른 비디오텍스트를 획득하는 단계;
    상기 비디오텍스트에서 미리 설정된 기준에 따른 하나 이상의 핵심키워드를 추출하는 단계;
    상기 핵심키워드의 재생시점을 확인하는 단계; 및
    상기 핵심키워드를 이용한 재생구간 설정을 위해, 상기 핵심키워드와 상기 재생시점을 인덱싱 정보로서 저장하는 단계를 포함하는, 음성 인덱싱을 이용한 비디오 가공 방법.
  2. 청구항 1에 있어서,
    상기 대상 비디오에 대한 키워드 검색 인터페이스를 제공하는 단계; 및
    상기 키워드 검색 인터페이스를 통해 상기 핵심키워드가 입력되는 경우, 상기 핵심키워드의 재생시점을 표시하는 단계를 더 포함하는, 음성 인덱싱을 이용한 비디오 가공 방법.
  3. 청구항 2에 있어서,
    상기 핵심키워드를 이용한 상기 대상 비디오에 대한 부분 재생이 완료되면, 재생된 구간만을 이용한 부분 비디오를 생성하는 단계를 더 포함하는, 음성 인덱싱을 이용한 비디오 가공 방법.
  4. 청구항 3에 있어서,
    상기 비디오텍스트에서 임계횟수 이상 반복되는 키워드를 상기 핵심키워드로서 설정하는, 음성 인덱싱을 이용한 비디오 가공 방법.
  5. 청구항 4에 있어서,
    상기 임계횟수는 상기 대상 비디오의 총 재생시간 및 추출되는 핵심키워드의 개수에 따라 가변적으로 설정되는, 음성 인덱싱을 이용한 비디오 가공 방법.
  6. 청구항 1에 있어서,
    상기 핵심키워드의 재생구간이 복수개인 경우,
    상기 대상 비디오의 재생 화면을 상기 핵심키워드의 재생구간의 개수에 따라 분할하고, 분할화면에 핵심키워드에 상응하는 각 재생구간에 따른 영상을 각각 표시하는, 음성 인덱싱을 이용한 비디오 가공 방법.
  7. 청구항 1에 있어서,
    상기 핵심키워드가 복수개인 경우,
    상기 대상 비디오의 재생 화면을 상기 핵심키워드의 개수에 따라 분할하고, 분할화면에 각 핵심키워드에 상응하는 재생구간에 따른 영상을 각각 표시하는, 음성 인덱싱을 이용한 비디오 가공 방법.
  8. 제 1항 내지 제 7항 중 어느 한 항의 방법을 수행하기 위한 컴퓨터에 의해 실행되는 애플리케이션이나 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체.
  9. 대상 비디오의 오디오에 대한 음성 인식에 따른 비디오텍스트를 획득하는 음성인식부;
    상기 비디오텍스트에서 미리 설정된 기준에 따른 하나 이상의 핵심키워드를 추출하고, 상기 핵심키워드의 재생시점을 확인하여 인덱싱 정보를 생성하는 인덱싱부; 및
    상기 핵심키워드를 이용한 재생구간 설정을 위해, 상기 인덱싱정보를 상기 대상 비디오에 적용하는 비디오가공부를 포함하는, 음성 인덱싱을 이용한 비디오 가공 장치.
  10. 청구항 9에 있어서,
    통신망을 통해 상기 대상 비디오에 접근하는 사용자 단말과 통신하기 위한 통신부; 및
    상기 대상 비디오에 대한 키워드 검색 인터페이스를 상기 사용자 단말에게 제공하는 인터페이스부를 더 포함하되,
    상기 인터페이스부는 상기 키워드 검색 인터페이스를 통해 상기 핵심키워드가 입력되는 경우, 상기 핵심키워드의 재생시점을 표시하는, 음성 인덱싱을 이용한 비디오 가공 장치.
  11. 청구항 10에 있어서,
    상기 비디오가공부는 상기 핵심키워드를 이용한 상기 대상 비디오에 대한 부분 재생이 완료되면, 재생된 구간만을 이용한 부분 비디오를 생성하는, 음성 인덱싱을 이용한 비디오 가공 장치.
  12. 청구항 10에 있어서,
    상기 인터페이스부는 상기 핵심키워드가 복수개인 경우,
    상기 대상 비디오의 재생 화면을 상기 핵심키워드의 개수에 따라 분할하고, 분할화면에 각 핵심키워드에 상응하는 재생구간에 따른 영상을 각각 표시하는, 음성 인덱싱을 이용한 비디오 가공 장치.
KR1020200081858A 2020-07-03 2020-07-03 음성 인덱싱을 이용한 비디오 가공 방법 및 장치 KR102384263B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200081858A KR102384263B1 (ko) 2020-07-03 2020-07-03 음성 인덱싱을 이용한 비디오 가공 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200081858A KR102384263B1 (ko) 2020-07-03 2020-07-03 음성 인덱싱을 이용한 비디오 가공 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20220004260A true KR20220004260A (ko) 2022-01-11
KR102384263B1 KR102384263B1 (ko) 2022-04-08

Family

ID=79355873

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200081858A KR102384263B1 (ko) 2020-07-03 2020-07-03 음성 인덱싱을 이용한 비디오 가공 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102384263B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040071369A (ko) 2003-02-05 2004-08-12 (주)에어스파이더 디지탈 영상자료 검색 시스템
US20180308524A1 (en) * 2015-09-07 2018-10-25 Bigvu Inc. System and method for preparing and capturing a video file embedded with an image file

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040071369A (ko) 2003-02-05 2004-08-12 (주)에어스파이더 디지탈 영상자료 검색 시스템
US20180308524A1 (en) * 2015-09-07 2018-10-25 Bigvu Inc. System and method for preparing and capturing a video file embedded with an image file

Also Published As

Publication number Publication date
KR102384263B1 (ko) 2022-04-08

Similar Documents

Publication Publication Date Title
US11200243B2 (en) Approximate template matching for natural language queries
US10827215B2 (en) Systems and methods for producing processed media content
CN110663079A (zh) 基于语音纠正使用自动语音识别生成的输入的方法和系统
CN103984772A (zh) 文本检索字幕库生成方法和装置、视频检索方法和装置
US9525896B2 (en) Automatic summarizing of media content
WO2011155350A1 (ja) コンテンツ再生装置、コンテンツ再生装置の制御方法、制御プログラム、及び記録媒体
CN111885416B (zh) 一种音视频的修正方法、装置、介质及计算设备
CN114117120A (zh) 基于内容分析的视频文件智能索引生成系统及方法
US20150111189A1 (en) System and method for browsing multimedia file
WO2019146466A1 (ja) 情報処理装置、動画検索方法、生成方法及びプログラム
US20040024780A1 (en) Method, system and program product for generating a content-based table of contents
KR101198091B1 (ko) 학습 콘텐츠 서비스 제공 방법 및 시스템
KR102384263B1 (ko) 음성 인덱싱을 이용한 비디오 가공 방법 및 장치
CN113891108A (zh) 字幕优化方法、装置、电子设备和存储介质
JP4654438B2 (ja) 教育用コンテンツ生成装置
KR102468214B1 (ko) 사용자의 발화를 기반으로 컨텐츠를 제공하는 장치 및 시스템
US11182417B1 (en) Method and system for facilitating conversion of content based on user preferences
CN114341866A (zh) 同声传译方法、装置、服务器和存储介质
JP2002304420A (ja) 視聴覚コンテンツ配信システム
WO2019069997A1 (ja) 情報処理装置、画面出力方法及びプログラム
JP2019144817A (ja) 映像出力装置、映像出力方法および映像出力プログラム
CN109977239B (zh) 一种信息处理方法和电子设备
US11736773B2 (en) Interactive pronunciation learning system
KR102487589B1 (ko) 음성인식서버, 번역서버와 집단지성을 이용한 동영상의 자막 제공 방법 및 그를 이용한 시스템
JP6640130B2 (ja) 順応性のあるクラウド編集とマルチメディア検索

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant