KR101783872B1 - 동영상 검색 시스템 및 방법 - Google Patents

동영상 검색 시스템 및 방법 Download PDF

Info

Publication number
KR101783872B1
KR101783872B1 KR1020160053060A KR20160053060A KR101783872B1 KR 101783872 B1 KR101783872 B1 KR 101783872B1 KR 1020160053060 A KR1020160053060 A KR 1020160053060A KR 20160053060 A KR20160053060 A KR 20160053060A KR 101783872 B1 KR101783872 B1 KR 101783872B1
Authority
KR
South Korea
Prior art keywords
search
moving picture
moving image
unit
file
Prior art date
Application number
KR1020160053060A
Other languages
English (en)
Inventor
양영진
정진
Original Assignee
(주) 아인스에스엔씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주) 아인스에스엔씨 filed Critical (주) 아인스에스엔씨
Priority to KR1020160053060A priority Critical patent/KR101783872B1/ko
Application granted granted Critical
Publication of KR101783872B1 publication Critical patent/KR101783872B1/ko

Links

Images

Classifications

    • G06F17/30026
    • G06F17/24
    • G06F17/30038
    • G06F17/3005
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

본 발명은 시간획득 수기기록 텍스트파일 또는 시간획득 대본기록 텍스트파일을 이용하는 동영상 검색 시스템 및 이를 이용한 동영상 검색방법에 관한 것으로, 사람에 의하여 기록되고 시간정보가 포함된 텍스트파일(시간획득 수기기록 텍스트파일(220)) 또는 동영상 오디오 데이터의 대본(예를 들어 연설대본)에 시간정보가 포함된 텍스트파일(시간획득 대본기록 텍스트파일(230))을 이용하는 동영상 검색 방법에 관한 것으로서, 기존의 음성인식엔진에 의해 변환되고 시간정보가 포함된 텍스트파일(시간획득 음성인식기록 텍스트파일(240))을 보완하는 것이다.
시간획득 음성인식기록 텍스트파일(240)을 이용하여 동영상 검색을 하는 경우, 화자의 부정확한 단어 사용 또는 작은 목소리 등의 원인에 의해 원하는 검색 결과를 얻지 못하는 경우가 있다.
이에 반해 사람에 의해 작성된 기록은 화자가 설령 부정확한 단어를 사용한다고 하더라도 그것을 인식하고 올바른 단어로 수정된 것이다.
이렇게 시간획득 수기기록 텍스트파일(220) 또는 시간획득 대본기록 텍스트파일(230)을 동영상 조회에 사용하면 시간획득 음성인식기록 텍스트파일(240)만을 사용할 때 보다 동영상 조회 정확도를 높일 수 있다.

Description

동영상 검색 시스템 및 방법{Video Search System and Method thereof}
본 발명은 동영상의 검색 방법에 관한 것이며, 더욱 상세히는 동영상의 오디오 데이터가 수기에 의해 기록된 자료 또는 연설대본등을 이용하여 동영상을 검색하는 시스템 및 이를 이용한 동영상 검색 방법에 관한 것이다.
본 발명을 설명함에 있어 다음과 같이 용어를 정의한다.
시간획득 수기기록 텍스트파일(220)은 동영상의 오디오 데이터가 사람에 의하여 수기로 기록된 후, 상기 오디오 데이터가 동영상에서 재생되는 시간정보가 포함된 텍스트파일을 말한다.
시간획득 대본기록 텍스트파일(230)은 연설등의 대본에, 상기 연설 동영상의 오디오 데이터가 동영상에서 재생되는 시간정보가 포함된 텍스트파일을 말한다.
시간획득 음성인식기록 텍스트파일(240)은 동영상의 오디오 데이터가 음성인식엔진에 의해 변환된 후, 상기 오디오 데이터가 동영상에서 재생되는 시간정보가 포함된 텍스트파일을 말한다.
동영상 기술의 발달에 따라 동영상 촬영을 언제 어디서나 할 수 있는 시대가 되었다. 그리하여 개인이나 회사는 방대한 양의 동영상 데이터를 보유하게 되었다.
그리고 동영상 데이터가 증가함에 따라 많은 양의 동영상 데이터 중 원하는 동영상을 효과적으로 검색하는 방법이 필요하게 되었다.
이에 대한 가장 간단한 방법은 파일이름을 이용하는 것이다. 카메라에 의해 촬영된 동영상은 파일로 저장시 일반적으로 촬영날짜, 촬영장소, 촬영대상 등을 이용하여 파일이름을 생성하게 된다. 예를 들어 주주총회_20160303.mp4, 연설_20160303.mp4와 같은 방식이다. 그리고 이렇게 생성된 동영상 파일 이름을 이용해서 원하는 동영상을 찾고 그 동영상을 재생한다.
이보다 진보한 방법은 동영상의 오디오 데이터를 검색하여 원하는 동영상을 검색하는 것인데 이는 음성인식엔진을 이용한 것이다.
음성인식 과정을 도 1을 참조하여 설명한다. 음성인식 과정은 크게 전처리부와 인식부로 구분되며, 전처리부에서는 사용자가 발성한 음성으로부터 인식 대상이 되는 구간을 찾아 잡음 성분을 제거하며, 인식부에서는 인식 과정을 위한 특징을 추출하고, 입력된 음성을 음성 데이터베이스와의 비교를 통해 가장 가능성 있는 단어를 인식결과로 출력하게 되며, 단순 명령어가 아닌 문장을 인식할 때는 언어모델을 이용해 비교 단어를 제한하여 인식 성능을 높인다.
이러한 음성인식기술을 이용하여, 영상 데이터와 오디오 데이터로 이루어진 동영상 파일 중 오디오 데이터를 텍스트 파일로 변환하고, 그 텍스트 파일에 시간정보를 추가한다. 이렇게 변환된 텍스트 파일에서 동영상 이용자는 원하는 검색단어를 검색하고 그 검색단어가 존재하는 동영상 부분을 찾는다.
상기 텍스트는 여러 개의 구간으로 나누어져 있고 각 구간은 시간정보를 포함하는데, 시간정보란 일반적으로 동영상의 각 구간이 재생되기 시작하는 시간, 재생이 종료되는 시간을 의미한다.
즉 이와 같은 원리와 과정에 의해 동영상의 오디오 데이터가 음성인식엔진에 의해 텍스트 파일로 생성되고 상기 텍스트 파일을 검색하여 원하는 검색어가 존재하는 동영상의 이름과 시간정보를 이용하여 동영상을 재생하는 것이다.
이러한 동영상 검색 방법은 다음과 같은 종래의 기술에서 소개되어 있다.
1. 대한민국 공개번호 10-2008-0112975 (스크립트 정보 기반 동영상 검색을 위한 데이터베이스 구축방법, 데이터베이스 구축 시스템, 데이터베이스 구축용 컴퓨터 프로그램이 기록된 기록매체 및 이를 이용한 동영상검색 방법)
2. 대한민국 공개번호 10-2011-0080712(이동통신 단말기의 음성 인식을 통한 동영상 검색 방법 및 그 시스템과 동영상 음성의 텍스트 변환 장치)
그러나, 동영상 파일의 오디오 데이터가 음성인식엔진에 의해 변환되고 시간정보가 추가된 텍스트파일(시간획득 음성인식기록 텍스트파일)은 다음과 같은 이유로 정확도가 떨어지는 문제점을 가지고 있으며, 그로 인해 이를 이용한 동영상 검색 역시 정확도가 떨어지는 문제점을 가지고 있다.
오디오 데이터가 음성인식엔진에 의해 변환된 텍스트 자료를 이용하여 동영상 조회시 정확도가 떨어지는 이유는 크게 음성에 섞인 잡음, 화자(話者), 음성인식엔진 세 가지이다.
첫째, 오디오 데이터에 섞인 잡음이다. 소음이 심할 경우 음성인식엔진은 변환해야할 오디오 데이터를 파악하기가 어렵다.
둘째, 화자가 올바르지 않은 단어를 사용하는 경우이다. 음성인식엔진은 그 올바르지 않은 단어를 수정 없이 기록할 확률이 높고, 이렇게 생성된 자료에 의해 동영상을 검색하면 검색자가 원하는 단어는 조회가 되지 않는다. 또한 화자가 사용한 단어는 정확하더라도 부정확하게 발음한 경우이다. 음의 높이가 작다거나, 감정이 섞인 음성들이 여기에 해당한다.
세째, 음성인식엔진에 의한 것으로서, 화자가 비정형화된 문장을 사용하는 경우 음성인식엔진은 기존 음성모델DB에서 찾지 못해 오류를 범한다.
KR 10-2008-0112975 A KR 10-2011-0080712 A
본 발명은 상기한 바와 같은 종래의 문제점을 해결하기 위한 것으로, 본 발명의 목적은 시간획득 음성인식기록 텍스트파일(240)외에 동영상이 촬영되는 순간에 사람에 의해 기록되거나 혹은 동영상이 촬영된 후 사람에 의해 기록된 텍스트에 시간정보를 추가하여 작성한 텍스트(시간획득 수기기록 텍스트파일(220)) 또는 동영상 파일의 대본(예를 들어 연설의 대본)에 시간정보를 추가하여 작성한 텍스트파일(시간획득 대본기록 텍스트파일(230))를 이용하여 보다 정확한 동영상 검색 시스템 및 그 방법을 제공하는 것이다.
상기와 같은 본 발명의 목적을 달성하기 위하여, 본 발명에 따른 동영상 검색 시스템 및 검색방법은, 동영상 검색 시스템에 있어서, 상기 동영상 검색 시스템은 동영상 검색수단, 동영상 검색 DB, 동영상 재생수단을 구비하고, 상기 동영상 검색수단은 검색어가 입력되는 검색입력부, 상기 검색입력부에 입력된 검색어를 동영상 검색 DB에서 검색하는 검색처리부, 검색결과가 표시되는 검색결과표시부를 구비하고, 상기 동영상 검색 DB는 동영상 파일을 구비하며, 상기 동영상 파일의 오디오 데이터가 수기에 의해 기록되며, 구간별로 시간정보가 추가된 시간획득 수기기록 텍스트파일 또는 동영상 파일의 오디오 데이터의 대본에 구간별로 시간정보가 추가된 시간획득 대본기록 텍스트파일중 적어도 어느 하나를 구비하고, 상기 동영상 재생수단은 동영상 이용자에 의해 선택된 동영상 파일을 재생하는 동영상재생부를 구비하는 것을 특징으로 한다.
본 발명에 따른 동영상 검색시스템 및 검색방법에 있어서, 상기 동영상 파일은 동영상의 오디오 데이터가 음성인식엔진에 의해 텍스트로 기록되어 있으며, 구간별로 시간정보를 포함하고 있는 시간획득 음성인식기록 텍스트파일을 구비하는 것을 특징으로 한다.
본 발명에 따른 동영상 검색시스템 및 검색방법에 있어서, 검색입력부는 텍스트 기반이거나 음성인식 기반인 것을 특징으로 한다.
본 발명에 따른 동영상 검색시스템 및 검색방법에 있어서, 상기 시간정보는 상기 구간의 동영상 재생이 시작되는 시점과 종료되는 시점을 포함하는 것을 특징으로 한다.
본 발명에 따른 동영상 검색시스템 및 검색방법에 있어서, 동영상 이용자는 검색결과표시부에 자막여부를 설정하고, 자막표시부는 자막을 표시하는 것을 특징으로 한다.
본 발명에 따른 동영상 검색시스템 및 검색방법에 있어서, 상기 동영상 재생장치의 검색결과표시부에 표시된 결과를 선택하거나 동영상 재생화면에서 버튼을 클릭하여 해당 시간획득 수기기록 텍스트파일을 문서편집기로 불러내어 수정하고 저장하는 것을 특징으로 한다.
본 발명에 따른 동영상 검색시스템 및 검색방법에 있어서, 동영상 이용자가 찾고자 하는 동영상을 위해 검색기능을 구비한 동영상 검색수단의 검색입력부에 검색어를 입력하는 제 1단계; 검색어 검색을 요청받은 검색처리부는, 동영상 검색 DB의 동영상 파일별로 동영상의 오디오 데이터가 수기로 기록되어 있으며, 구간별로 시간정보를 포함하고 있는 시간획득 수기기록 텍스트파일 또는 오디오 데이터의 대본에 구간별로 시간정보가 추가된 시간획득 대본기록 텍스트파일중 적어도 어느 하나에서 검색어를 검색하는 제 2단계; 상기 검색어를 찾은 검색처리부는 검색어가 존재하는 구간의 시간정보와 동영상 정보를 동영상 검색수단의 검색결과표시부에 표시하는 제 3단계; 상기 동영상 이용자가 동영상 검색수단의 검색결과표시부에 표시된 결과중 한 개를 선택하는 제 4단계; 동영상 재생수단은 제 4단계에서 선택된 동영상의 정보와 시간정보를 이용하여 동영상 재생부에 재생하는 제 5단계; 로 이루어진 것을 특징으로 한다.
본 발명에 따른 동영상 검색시스템 및 검색방법에 있어서, 상기 제 2단계는 동영상 검색 DB의 각각의 동영상 파일별로 동영상의 오디오 데이터가 음성인식엔진에 의해 텍스트로 기록되어 있으며, 구간별로 시간정보를 포함하고 있는 시간획득 음성인식기록 텍스트파일에서 검색어를 검색하며, 상기 제 3단계는 상기 검색어를 찾은 동영상 검색수단은 시간획득 음성인식기록 텍스트파일의 내용중 검색어가 존재하는 구간의 시간정보와 동영상 파일 정보를 동영상 검색수단의 검색결과표시부에 표시하는 것을 특징으로 한다.
본 발명에 따른 동영상 검색시스템 및 검색방법에 있어서, 상기 제 1단계에서는 검색기능을 구비한 동영상 검색수단의 검색입력부에 검색어를 입력하는 방법은 텍스트 기반이거나 음성인식 기반인 것을 특징으로 한다.
본 발명에 따른 동영상 검색시스템 및 검색방법에 있어서, 상기 제 2단계에서의 시간정보는 상기 구간의 동영상 재생이 시작되는 시점과 종료되는 시점인 것을 특징으로 한다.
본 발명에 따른 동영상 검색시스템 및 검색방법에 있어서, 상기 제 5단계에서는 동영상 재생수단은 제 4단계에서 선택된 동영상의 정보와 시간정보를 이용하여 동영상재생부에 재생하면서 자막표시부에 자막을 표시하는 것을 특징으로 한다.
본 발명에 따른 동영상 검색시스템 및 검색방법에 있어서, 상기 제 4단계에서 동영상 재생장치의 검색결과표시부에 표시된 결과를 선택하거나 동영상 재생화면에서 버튼을 클릭하여 해당 시간획득 수기기록 텍스트파일을 문서편집기로 불러내어 수정하고 저장하는 것을 특징으로 한다.
본 발명에 따르면, 시간획득 수기기록 텍스트파일(220) (또는 시간획득 대본기록 텍스트파일(230))을 이용하여 동영상의 음성을 검색함으로써, 시간획득 음성인식기록 텍스트파일(240)를 이용하여 동영상의 음성을 검색할 때 발생하는 문제점, 예를 들어 주위의 잡음에 의한 부정확한 음성 변환, 화자의 올바르지 못한 단어 사용, 비정형화된 문장에 대한 음성인식엔진의 낮은 인식도 등의 문제점 등을 보완할 수 있다.
또한, 시간획득 음성인식기록 텍스트파일(240)과 시간획득 수기기록 텍스트파일(220)(또는 시간획득 대본기록 텍스트파일(230))을 병행해서 사용한다면, 시간획득 수기기록 텍스트파일(220)이 시간획득 음성인식기록 텍스트파일(240)을 보완하듯이, 시간획득 음성인식기록 텍스트파일(240)이 시간획득 수기기록 텍스트파일(220)(또는 시간획득 대본기록 텍스트파일(230))을 보완하는 것도 가능하다. 시간획득 수기기록 텍스트파일(220)은 화자(話者)의 음성중 중요하지 않다고 판단되는 부분 또는 단순 실수에 의해 대화나 연설의 일부가 누락 될 수 있기 때문이다.
이러한 장점으로 인해 동영상의 검색에 있어서 사용자 생산성 및 편의성이 제고된다.
도 1은 종래의 음성인식 과정을 보여주는 도면이다.
도 2는 본 발명에 따른 동영상 검색방법을 수행하는 시스템의 구성을 보여주는 도면이다.
도 3은 본 발명에 따라 시간정보가 추가된 텍스트파일을 보여주는 도면이다.
도 4는 본 발명에 따른 도 3의 텍스트를 SMI 파일로 변환한 것을 보여주는 도면이다.
도 5는 본 발명에 따른 동영상 검색방법의 실시 과정을 나타낸 플로차트를 보여주는 도면이다.
도 6은 본 발명에 따라 '카드뮴'이라는 검색어 검색결과를 검색결과표시부에 보여주는 도면이다.
도 7은 본 발명에 따라 '납'이라는 검색어가 시간획득 음성인식기록 텍스트파일에만 존재하는 조회 결과를 보여주는 도면이다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 더욱 상세하게 설명한다.
도 2는 본 발명에 따른 동영상 검색방법을 수행하는 시스템의 구성을 보여주는 도면이다.
상기 동영상 검색 시스템은 동영상 검색수단(100), 동영상 검색 DB(200) 및 동영상 재생수단(300)으로 구성되어 있다.
상기 동영상 검색수단(100)은 검색입력부(110), 검색처리부(120), 검색결과표시부(130)로 구성되어 있다.
동영상 이용자는 찾고자 하는 동영상을 위해 검색입력부(110)에 검색어를 입력하고 검색처리부(120)는 상기 검색입력부(110)에 입력된 검색어를 동영상 검색DB(200)에서 검색하고 그 결과를 검색결과표시부(130)에 보여준다. 그리고 동영상 재생수단(300)은 검색결과표시부(130)에 표시된 조회 결과중 동영상 이용자에 의해 선택된 동영상 파일을 동영상 재생부(310)에 재생하며 필요한 경우 자막을 자막표시부(320)에 보여준다. 검색어 입력방법은 텍스트 기반이거나 음성인식 기반인 것으로 할 수 있다.
동영상 검색 DB(200)는 동영상 파일(210), 시간획득 수기기록 텍스트파일(220), 시간획득 대본기록 텍스트파일(230), 시간획득 음성인식기록 텍스트파일(240)로 구성되어 있다.
본 발명에서 시간획득 음성인식기록 텍스트파일(240)은 선택적이다. 이는 뒷부분에서 자세히 설명한다.
먼저 상기 시간획득 음성인식기록 텍스트파일(240)을 도 3을 참조하여 예시한다. 도 3에서 보여주는 시간정보는 동영상이 재생되는 시작시간과 종료시간을 의미한다. 즉 0분 1초 ~ 0분 7초 사이에 '환경 오염 방지법 수정안에 대한 회의를 시작합니다'라는 발언이 있으며, 05분 10초 ~ 05분 15초 사이에 '이제부터 카드뮴등의 배출량을 제한해야 합니다.'라는 발언이 있으며, 15분 0초 ~ 15분 20초 사이에는 '우리가 조상으로부터 물려받은 깨끗한 지구는 우리 후손에게 깨끗하게 물려주어야 할 의무가 있습니다.'라는 발언이 있으며, 30분 0초 ~ 30분 5초 사이에는 '이상으로 본 회의를 마치겠습니다'라는 발언이 있음을 보여준다.
한편, 시간획득 수기기록 텍스트파일(220)은 회의 내용 등이 기계가 아닌 속기사 등의 사람에 의하여 직접 작성된 기록에 구간별 시간정보가 추가된 것을 말하는 것이고 시간획득 대본기록 텍스트파일(230)은 연설, 연기등의 대본에 구간별 시간정보가 추가된 것을 말하는 것이다.
시간획득 수기기록 텍스트파일(220)(또는 시간획득 대본기록 텍스트파일(230))의 형태는 앞서 언급한 시간획득 음성인식기록 텍스트파일(240)과 동일하다.
시간획득 수기기록 텍스트파일(220)과 시간획득 대본기록 텍스트파일(230)의 공통점은 시간획득 음성인식기록 텍스트파일(240)과 달리 기계를 사용하지 않는다는 점이며, 차이점은 시간획득 수기기록 텍스트파일(220)은 음성이 발화되는 시점 혹은 그 후에 생성되고 시간획득 대본기록 텍스트파일(230)의 대본은 음성이 발화되는 시점 전에 생성된다는 것이다.
한편, 수기기록 혹은 대본에 구간별 시간정보를 추가하는 것은 다음과 같은 방법에 의해 이루어 질 수 있다
첫째 방법은 다음과 같다. 우선 위에서 언급된 종래 기술에 의해 동영상 파일 중 오디오 데이터를 음성인식엔진에 의해 시간정보가 추가된 텍스트 파일(시간획득 음성인식기록 텍스트파일(240))을 생성한다. 상기 시간획득 음성인식기록 텍스트파일(240)과 사람에 의하여 직접 작성된 텍스트(또는 대본)를 비교하여 시간 동기화한다. 즉 여기에서는 텍스트와 텍스트를 비교하는 것이다.
둘째 방법은 수기기록 혹은 대본을 동영상 파일 중 오디오 데이터와 직접 비교하며 시간 동기화한다. 시간 동기화의 하나의 실시예는 다음과 같은 단계로 이루어질 수 있다.
1단계 : 오디오 데이터의 발화 시간 정보를 추출한다.
2단계 : 텍스트 데이터를 문장 단위로 구분한다.
3단계 : 상기 구분된 텍스트 데이터에 기초하여 상기 오디오 데이터로부터 상기 오디오 데이터의 포즈(Pause) 시간 정보를 추출한다.
4단계 : 상기 구분된 텍스트 데이터에 포함되는 음소를 추출하여 상기 텍스트 데이터의 발화 구간 비율을 계산한다.
5단계 : 상기 추출된 오디오 데이터의 상기 발화 시간 정보, 상기 포즈 시간 정보 및 상기 텍스트 데이터의 상기 발화구간 비율에 기초하여 상기 텍스트 데이터를 상기 오디오 데이터를 매핑한다.
한편 동영상 재생수단(300)은 동영상재생부(310), 자막표시부(320)로 구성된다.
동영상재생부(310)는 원하는 검색어를 검색한 후 검색어가 존재하는 구간을 재생하기 위해 필요한 부분이며, 선택적으로 자막이 필요한 경우를 위하여 자막표시부(320)를 구비한다.
상기와 같이 구성되는 동영상 검색 및 재생 시스템이 수행되는 과정을 다음과 같이 상세히 설명한다.
예로 들어 임의의 회의 발언 내용을 이용하여 본 발명을 설명한다. 안건은 폐휴대폰을 매립, 소각할 경우 카드뮴, 납 등 중금속이 토지에 배출되어 환경오염을 유발하므로 폐휴대폰의 처리에 대한 절차를 마련하자는 것이다.
위원들은 상기 안건에 대한 자기의 의견을 발표하고 속기사들은 그 의견을 속기하며 기록으로 남긴다. 이러한 기록에 추가로 시간정보를 포함시킨다. 이것이 동영상 검색 DB(200)에 있는 시간획득 수기기록 텍스트파일(220)이다.
이러한 시간획득 수기기록 텍스트파일(220)은 발언하는 위원, 발언하는 날짜, 발언하는 장소등에 따라 많은 양이 될 것이며 이것이 동영상 검색 DB(200)를 구성하게 된다.
도 5는 본 발명의 실시 과정을 나타낸 플로차트를 보여주는 도면이다.
먼저 동영상 이용자가 찾고자 하는 동영상을 위해 동영상 검색수단(100)의 검색입력부(110)에 검색어를 입력한다(S10). 동영상 이용자는 동영상 검색수단(100)의 검색입력부(110)에 '카드뮴'이라고 입력한다.
검색어 검색을 요청받은 동영상 검색수단(100)의 검색처리부(120)는 동영상 검색 DB(200)의 시간획득 수기기록 텍스트파일(220)에서 검색어를 검색한다(S20).
이때 화자(위원)가 '카드뮴'이라는 단어에 대해서 '카드뭄' 또는 '캬드뮴' 이라고 올바르지 못한 단어를 사용했거나 또는 '카드뮴'이라고 올바르게 발음했지만 음성의 크기가 작은 경우에, 수학적 확률이 매우 높은 음성인식엔진에 의한 시간획득 음성인식기록 텍스트파일(240)에는 '카드뮴'이라고 기록되어 있겠지만 그렇지 않은 경우는 '카드몬'이라고 되어 있거나 또는 '카드뮴'과는 전혀 관계없는 단어(예를 들어 '편의점', 'kalender')를 가지고 있을 것이다.
하지만 이렇게 화자가 올바르지 못한 단어를 사용하거나 음성의 크기가 작은 경우에도 속기사는 '카드몬' 또는 '편의점'이라고 기록하지 않고 '카드뮴'이라고 정확하게 기록했을 것이다.
이렇게 정확하게 기록되어 있는 시간획득 수기기록 텍스트파일(220)에서 동영상 검색수단(100)은 '카드뮴'이라는 검색어를 찾는다. 그리고 그 결과를 동영상 검색수단(100)의 검색결과표시부(130)에 표시한다(S30). (도 6 참조)
표시하는 정보는 동영상 파일 이름, 검색어가 존재하는 구간의 시간정보, 검색어가 존재하는 구간의 텍스트가 바람직하다.
도 6을 참조하면 '카드뮴'이라는 검색어가 존재하는 동영상의 파일 이름은 '환경오염방지_홍길동_20160301.mp4' 이며 '카드뮴'이라는 검색어가 존재하는 구간의 동영상 재생 시작시간은 5분 10초, 종료시간은 5분 15초이다. 또한 '카드뮴'이라는 검색어는 시간획득 음성인식기록 텍스트파일(240)에는 존재하지 않으며 시간획득 수기기록 텍스트파일(220)에는 존재하며 그 검색어는 빨간색으로 표시되어 있다.
즉 시간획득 수기기록 텍스트파일(220)을 이용하여 동영상 파일을 조회한다면 시간획득 음성인식기록 텍스트파일(240)을 이용할 때보다 검색 정확도를 높일 수 있는 것이다.
본 발명의 다른 실시예는 연설대본을 이용하는 것이다. 일반적으로 연설자는 연설대본을 이용하여 연설을 한다. 이 때 사용된 연설대본에 구간별 시간정보를 추가한 시간획득 대본기록 텍스트파일(230)을 이용하여 본 발명의 동영상 검색을 한다면 시간획득 음성인식기록 텍스트파일(240)을 이용할 때보다 검색 정확도를 높일 수 있는 것이다.
상기 실시예에서는 시간획득 수기기록 텍스트파일(220) (또는 시간획득 대본기록 텍스트파일(230))을 이용하여 동영상을 검색했다. 여기에 시간획득 음성인식기록 텍스트파일(240)을 병행하여 동영상을 검색한다면 더 좋은 효과를 볼 수 있다. 이는 후술한다.
다음 단계에서는 동영상 이용자는 동영상 검색수단(100)의 검색결과표시부(130)에 표시된 결과중 한 개를 선택한다(S40).
도 6에서 보여주는 실시 예는 검색결과가 한 개의 동영상 파일이며 그 파일에는 한 개의 구간만 존재하지만, 경우에 따라서는 하나의 동영상 파일에 여러 개의 구간이 존재하거나, 여러 개의 동영상 파일에 검색어가 존재할 수 있다. 이렇게 검색된 복수의 결과중 동영상 이용자는 재생하고자 하는 검색결과 한 개를 선택한다.
이때 동영상 이용자는 동영상 재생시 자막표시 여부를 선택할 수 있다. 도 6은 시간획득 수기기록 텍스트파일(220)(또는 시간획득 대본기록 텍스트파일(230))의 자막을 동영상 재생시 표시하도록 설정함을 보여준다.
다음 단계에서는 동영상 재생수단(300)이 동영상 이용자에 의해 선택된 검색결과를 동영상 재생부(310)에 재생한다(S50).
검색어 '카드뮴'이 존재하는 동영상(환경오염방지_홍길동_20160301.mp4)과 검색어가 존재하는 구간의 시간정보(05:10 ~ 05:15)를 구해 동영상이 05분 10초에서 재생하도록 한다. 물론 필요하다면 05분 10초에서 뒤로가기(REW), 앞으로가기(FF)를 할 수 있다.
앞 단계에서 자막을 선택하지 않을 수 있으나 자막을 보여주는 것이 더 바람직하며, 자막을 표시할 때 검색어에 해당하는 '카드뮴'은 빨간색등으로 표시하는 것이 바람직하다.
도 4는 상기 시간획득 수기기록 텍스트파일(220)(또는 시간획득 대본기록 텍스트파일(230)) 및 시간획득 음성인식기록 텍스트파일(240)이 SMI 파일로 변환된 것을 보여준다. 이것은 도 3의 텍스트와 달리 동영상 재생에 필요한 규격을 갖추고 있는 마크업(Markup) 언어이므로 자막에 대한 시간정보 외에도 다양한 정보를 추가할 수 있다.
이제는 시간획득 수기기록 텍스트파일(220)(또는 시간획득 대본기록 텍스트파일(230))과 시간획득 음성인식기록 텍스트파일(240)을 병행하여 사용할 때의 장점을 기술한다.
화자(위원)가 발언도중 '카드뮴'에 대한 정확한 단어가 생각나지 않아 '뭐더라? 아 그렇지'라는 표현(일종의 애드립)을 사용한 경우, 시간획득 음성인식기록 텍스트파일(240)은 그 표현을 포함하고 있지만 속기사는 필요없는 부분이라 판단하여 기록에서 제외하거나 혹은 화자의 약한 발음에 의해 듣지 못해 기록에서 제외될 수 있다.
혹은 화자가 '카드뮴,납 등의'라고 발언한 것에 대해 '납'이라는 단어가 아주 약하게 발음되거나 혹은 속기사의 단순 실수에 의해 '납'이라는 단어가 누락되는 경우도 있다.
이처럼 속기사에 의한 기록은 음성인식엔진에 의한 기록보다는 대부분 정확하다는 장점을 가지고 있지만, 때로는 위의 경우처럼 음성인식엔진에 의한 기록중 일부가 누락되는 단점이 있다.
도 7은 '납'이라는 검색어 입력에 대한 조회 결과를 보여주는 도면이며, 검색어가 시간획득 음성인식기록 텍스트파일(240)에는 존재하지만 시간획득 수기기록 텍스트파일(220)(또는 시간획득 대본기록 텍스트파일(230))에는 존재하지 않는 경우이다.
또한 본 발명은 사람에 의한 기록을 검색한 후 수정이 필요하다고 판단되는 문구에 대해 수정을 할 수 있다.
위에서 언급한 실시 예처럼 동영상 이용자가 '납'이라는 검색어를 사용하여 검색한 결과 '납'이라는 단어는 시간획득 음성인식기록 텍스트파일(240)에만 존재하고, 시간획득 수기기록텍스트(220)에는 존재하지 않으며, '납'이라는 단어가 발언중에 포함되어 있다는 것이 맞다고 판단될 때 동영상 이용자는 시간획득 수기기록 텍스트파일(220)을 수정할 수 있다.
수정할 수 있는 시점은 검색어 조회결과(도 7)에서 시간획득 수기기록 텍스트파일(220)과 시간획득 음성인식기록 텍스트파일(240)이 다르다는 것을 인식한 시점에 수정버튼(미도시)을 선택하고 해당 기록을 문서편집기로 읽어서 수정하거나 혹은 해당 동영상을 재생중이거나, 재생이 마무리 된 시점에 동영상 화면에 있는 버튼(미도시)을 클릭하여 해당 기록을 문서편집기로 읽어서 수정하는 것이다.
이상에서 설명한 본 발명에 따른 동영상 검색 시스템 및 이를 이용한 동영상 검색방법은 상기한 실시 예에 한정되지 않고, 이하의 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 본 발명이 속하는 분야에서 통상의 지식을 가진자라면 누구든지 다양하게 변경하여 실시할 수 있는 범위까지 그 기술적 정신이 있다.
100 : 동영상 검색수단 110 : 검색입력부
120 : 검색처리부 130 : 검색결과표시부
200 : 동영상 검색 DB 210 : 동영상 파일
220 : 시간획득 수기기록 텍스트파일
230 : 시간획득 대본기록 텍스트파일
240 : 시간획득 음성인식기록 텍스트파일
300 : 동영상 재생수단
310 : 동영상재생부 320 : 자막표시부

Claims (12)

  1. 동영상 검색 시스템에 있어서,
    상기 동영상 검색 시스템은 동영상 검색수단(100), 동영상 검색 DB(200), 동영상 재생수단(300)을 구비하고,
    상기 동영상 검색수단(100)은 검색어가 입력되는 검색입력부(110), 상기 검색입력부(110)에 입력된 검색어를 동영상 검색 DB(200)에서 검색하는 검색처리부(120), 검색결과가 표시되는 검색결과표시부(130)를 구비하고,
    상기 동영상 검색 DB(200)는
    동영상 파일(210)을 구비하며,
    상기 동영상 파일(210)의 오디오 데이터가 수기에 의해 기록되며, 구간별로 시간정보가 추가된 시간획득 수기기록 텍스트파일(220)을 구비하고,
    상기 동영상 파일(210)의 오디오 데이터가 음성인식엔진에 의해 텍스트로 기록되며, 구간별로 시간정보를 포함하고 있는 시간획득 음성인식기록 텍스트파일(240)을 더 구비하되,
    상기 시간정보는 상기 구간의 동영상 재생이 시작되는 시점과 종료되는 시점을 포함하며,
    상기 동영상 재생수단(300)은 동영상 이용자에 의해 선택된 동영상 파일을 재생하는 동영상재생부(310)를 구비하며,
    상기 검색입력부(110)에 검색어가 입력되면, 상기 검색처리부(120)는 상기 검색어를 시간획득 수기기록 텍스트파일(220) 및 시간획득 음성인식기록 텍스트파일(240)을 모두 검색하여, 상기 검색결과표시부(130)에 상기 검색어가 속하는 구간의 텍스트를 표시하는 것을 특징으로 하는 동영상 검색 시스템.
  2. 동영상 검색 시스템에 있어서,
    상기 동영상 검색 시스템은 동영상 검색수단(100), 동영상 검색 DB(200), 동영상 재생수단(300)을 구비하고,
    상기 동영상 검색수단(100)은 검색어가 입력되는 검색입력부(110), 상기 검색입력부(110)에 입력된 검색어를 동영상 검색 DB(200)에서 검색하는 검색처리부(120), 검색결과가 표시되는 검색결과표시부(130)를 구비하고,
    상기 동영상 검색 DB(200)는
    동영상 파일(210)을 구비하며,
    상기 동영상 파일(210)의 오디오 데이터의 대본에 구간별로 시간정보가 추가된 시간획득 대본기록 텍스트파일(230)을 구비하고,
    상기 동영상 파일(210)의 오디오 데이터가 음성인식엔진에 의해 텍스트로 기록되며, 구간별로 시간정보를 포함하고 있는 시간획득 음성인식기록 텍스트파일(240)을 더 구비하되,
    상기 시간정보는 상기 구간의 동영상 재생이 시작되는 시점과 종료되는 시점을 포함하며,
    상기 동영상 재생수단(300)은 동영상 이용자에 의해 선택된 동영상 파일을 재생하는 동영상재생부(310)를 구비하며,
    상기 검색입력부(110)에 검색어가 입력되면, 상기 검색처리부(120)는 상기 검색어를 시간획득 대본기록 텍스트파일(230) 및 시간획득 음성인식기록 텍스트파일(240)을 모두 검색하여, 상기 검색결과표시부(130)에 상기 검색어가 속하는 구간의 텍스트를 표시하는 것을 특징으로 하는 동영상 검색 시스템.
  3. 제 1항 또는 제 2항에 있어서, 상기 검색입력부(110)는 텍스트 기반이거나 음성인식 기반인 것을 특징으로 하는 동영상 검색 시스템.
  4. 삭제
  5. 제 1항 또는 제 2항에 있어서, 상기 검색결과표시부(130)는 자막표시여부를 설정하고, 자막표시부(320)는 자막을 표시하는 것을 특징으로 하는 동영상 검색 시스템.
  6. 제 1항 또는 제 2항에 있어서, 상기 동영상 검색수단(100)의 검색결과표시부(130)에는 표시된 결과를 선택하거나 동영상 재생화면에서 버튼을 클릭하여 해당 시간획득 수기기록 텍스트파일(220) 또는 시간획득 대본기록 텍스트파일(230)을 문서편집기로 불러내어 수정하고 저장하는 것을 특징으로 하는 동영상 검색 시스템.
  7. 동영상 이용자가 찾고자 하는 동영상을 위해 검색기능을 구비한 동영상 검색수단(100)의 검색입력부(110)에 검색어를 입력하는 제 1단계;
    검색어 검색을 요청받은 검색처리부(120)는,
    동영상 검색 DB(200)의 동영상 파일(210)의 오디오 데이터가 수기로 기록되어 있으며, 구간별로 시작 시점과 종료 시점으로 구성된 시간정보를 포함하고 있는 시간획득 수기기록 텍스트파일(220)과,
    상기 동영상 파일(210)의 오디오 데이터가 음성인식엔진에 의해 텍스트로 기록되며, 구간별로 시작 시점과 종료 시점으로 구성된 시간정보를 포함하고 있는 시간획득 음성인식기록 텍스트파일(240) 모두에서 검색어를 검색하는 제 2단계;
    상기 검색어를 찾은 검색처리부(120)는 검색어가 존재하는 구간의 텍스트를 동영상 검색수단(100)의 검색결과표시부(130)에 표시하는 제 3단계;
    상기 동영상 이용자가 동영상 검색수단(100)의 검색결과표시부(130)에 표시된 결과중 한 개를 선택하는 제 4단계;
    동영상 재생수단(300)은 제 4단계에서 선택된 동영상의 정보와 시간정보를 이용하여 동영상 재생부(310)에 재생하는 제 5단계;
    로 이루어진 것을 특징으로 하는 동영상 검색 방법.
  8. 동영상 이용자가 찾고자 하는 동영상을 위해 검색기능을 구비한 동영상 검색수단(100)의 검색입력부(110)에 검색어를 입력하는 제 1단계;
    검색어 검색을 요청받은 검색처리부(120)는,
    동영상 검색 DB(200)의 동영상 파일(210)의 오디오 데이터의 대본에 구간별로 시작 시점과 종료 시점으로 구성된 시간정보가 추가된 시간획득 대본기록 텍스트파일(230)과
    상기 동영상 파일(210)의 오디오 데이터가 음성인식엔진에 의해 텍스트로 기록되며, 구간별로 시작 시점과 종료 시점으로 구성된 시간정보를 포함하고 있는 시간획득 음성인식기록 텍스트파일(240) 모두에서 검색어를 검색하는 제 2단계;
    상기 검색어를 찾은 검색처리부(120)는 검색어가 존재하는 구간의 텍스트를 동영상 검색수단(100)의 검색결과표시부(130)에 표시하는 제 3단계;
    상기 동영상 이용자가 동영상 검색수단(100)의 검색결과표시부(130)에 표시된 결과중 한 개를 선택하는 제 4단계;
    동영상 재생수단(300)은 제 4단계에서 선택된 동영상의 정보와 시간정보를 이용하여 동영상 재생부(310)에 재생하는 제 5단계;
    로 이루어진 것을 특징으로 하는 동영상 검색 방법.
  9. 제 7항 또는 제 8항에 있어서, 상기 제 1단계에서는 검색기능을 구비한 동영상 검색수단(100)의 검색입력부(110)에 검색어를 입력하는 방법은 텍스트 기반이거나 음성인식 기반인 것을 특징으로 하는 동영상 검색 방법.
  10. 삭제
  11. 제 7항 또는 제 8항에 있어서, 상기 제 5단계에서 동영상 재생수단(300)은 제 4단계에서 선택된 동영상의 정보와 시간정보를 이용하여 동영상재생부(310)에 재생하면서 자막표시부(320)에 자막을 표시하는 것을 특징으로 하는 동영상 검색 방법.
  12. 제 7항 또는 제 8항에 있어서, 상기 제 4단계에서 동영상 검색수단(100)의 검색결과표시부(130)에 표시된 결과를 선택하거나 동영상 재생화면에서 버튼을 클릭하여 해당 시간획득 수기기록 텍스트파일(220) 또는 시간획득 대본기록 텍스트파일(230)을 문서편집기로 불러내어 수정하고 저장하는 것을 특징으로 하는 동영상 검색 방법.
KR1020160053060A 2016-04-29 2016-04-29 동영상 검색 시스템 및 방법 KR101783872B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160053060A KR101783872B1 (ko) 2016-04-29 2016-04-29 동영상 검색 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160053060A KR101783872B1 (ko) 2016-04-29 2016-04-29 동영상 검색 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR101783872B1 true KR101783872B1 (ko) 2017-10-10

Family

ID=60190088

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160053060A KR101783872B1 (ko) 2016-04-29 2016-04-29 동영상 검색 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR101783872B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190106865A (ko) 2019-08-27 2019-09-18 엘지전자 주식회사 동영상 검색방법 및 동영상 검색 단말기
KR20220055372A (ko) 2020-10-26 2022-05-03 주식회사 유니크유엑스 시간 속성 마크업 언어를 이용한 마이크로 러닝 시스템 및 이를 이용한 학습 컨텐츠 관리 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100828166B1 (ko) * 2007-06-12 2008-05-08 고려대학교 산학협력단 동영상의 음성 인식과 자막 인식을 통한 메타데이터 추출방법, 메타데이터를 이용한 동영상 탐색 방법 및 이를기록한 기록매체

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100828166B1 (ko) * 2007-06-12 2008-05-08 고려대학교 산학협력단 동영상의 음성 인식과 자막 인식을 통한 메타데이터 추출방법, 메타데이터를 이용한 동영상 탐색 방법 및 이를기록한 기록매체

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"네이버 내PC 검색", 네이버 블로그 게시물, (2009.03.29.), http://llit.kr/90044730243*

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190106865A (ko) 2019-08-27 2019-09-18 엘지전자 주식회사 동영상 검색방법 및 동영상 검색 단말기
US11709890B2 (en) 2019-08-27 2023-07-25 Lg Electronics Inc. Method for searching video and equipment with video search function
KR20220055372A (ko) 2020-10-26 2022-05-03 주식회사 유니크유엑스 시간 속성 마크업 언어를 이용한 마이크로 러닝 시스템 및 이를 이용한 학습 컨텐츠 관리 방법

Similar Documents

Publication Publication Date Title
US9066049B2 (en) Method and apparatus for processing scripts
US8966360B2 (en) Transcript editor
JP4466564B2 (ja) 文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム
US20100299131A1 (en) Transcript alignment
US7046914B2 (en) Automatic content analysis and representation of multimedia presentations
CN107968959B (zh) 一种教学视频的知识点分割方法
EP1692629B1 (en) System & method for integrative analysis of intrinsic and extrinsic audio-visual data
US20200126583A1 (en) Discovering highlights in transcribed source material for rapid multimedia production
US20200126559A1 (en) Creating multi-media from transcript-aligned media recordings
CN110781328A (zh) 基于语音识别的视频生成方法、系统、装置和存储介质
Haubold et al. Augmented segmentation and visualization for presentation videos
Bouamrane et al. Meeting browsing: State-of-the-art review
Wilcox et al. Annotation and segmentation for multimedia indexing and retrieval
KR101783872B1 (ko) 동영상 검색 시스템 및 방법
CN116708055B (zh) 智能多媒体视听图像处理方法、系统及存储介质
Haubold et al. Vast mm: multimedia browser for presentation video
CN100538696C (zh) 用于本征与非本征视听数据的综合分析的系统和方法
US11689380B2 (en) Method and device for viewing conference
JP2006195900A (ja) マルチメディアコンテンツ生成装置及び方法
EP3910626A1 (en) Presentation control
Rajarathinam et al. Analysis on video retrieval using speech and text for content-based information
Owen et al. Cross-modal information retrieval
Friedland et al. Narrative theme navigation for sitcoms supported by fan-generated scripts
GB2349764A (en) 2-D Moving image database
CN117278699A (zh) 视频生成方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
GRNT Written decision to grant