KR20230092161A - Presentation video summary method and summary device for performing the same - Google Patents

Presentation video summary method and summary device for performing the same Download PDF

Info

Publication number
KR20230092161A
KR20230092161A KR1020210181285A KR20210181285A KR20230092161A KR 20230092161 A KR20230092161 A KR 20230092161A KR 1020210181285 A KR1020210181285 A KR 1020210181285A KR 20210181285 A KR20210181285 A KR 20210181285A KR 20230092161 A KR20230092161 A KR 20230092161A
Authority
KR
South Korea
Prior art keywords
text
extracted
presentation video
frame
extracting
Prior art date
Application number
KR1020210181285A
Other languages
Korean (ko)
Inventor
권혁윤
정원렬
홍승규
Original Assignee
서울과학기술대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울과학기술대학교 산학협력단 filed Critical 서울과학기술대학교 산학협력단
Priority to KR1020210181285A priority Critical patent/KR20230092161A/en
Publication of KR20230092161A publication Critical patent/KR20230092161A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 발표 동영상 요약장치에서 수행되는 발표 동영상 요약방법에 관한 것으로, 발표 동영상을 수신하는 단계; 발표 동영상으로부터 프레임을 추출하는 단계; 추출된 프레임 내에서 객체를 추출하고, 추출된 프레임 내에서 추출된 객체의 영역을 마스킹하는 단계; 일부 영역이 마스킹된 프레임 내의 문자를 판독하여 제1 텍스트를 추출하는 단계; 추출된 제1 텍스트를 군집화하는 단계; 및 군집화된 데이터에 기초하여 상기 발표 동영상을 문서화하는 단계를 포함한다. 이에 의해 발표 동영상 내용을 하나의 문서로 만들어 동영상 관리에 효율적인 문서를 생성할 수 있는 것은 물론, 학습자의 학습속도를 향상시킬 수 있다.The present invention relates to a method for summarizing a presentation video performed by a presentation video summary device, comprising the steps of receiving a presentation video; Extracting frames from the presentation video; extracting an object within the extracted frame and masking a region of the extracted object within the extracted frame; extracting first text by reading characters in a frame in which a partial area is masked; clustering the extracted first text; and documenting the presentation video based on the clustered data. Accordingly, it is possible to create a document effective for video management by making the contents of the presentation video into a single document, and to improve the learner's learning speed.

Description

발표 동영상 요약방법 및 이를 수행하는 요약장치{PRESENTATION VIDEO SUMMARY METHOD AND SUMMARY DEVICE FOR PERFORMING THE SAME}Presentation video summary method and summary device that performs it {PRESENTATION VIDEO SUMMARY METHOD AND SUMMARY DEVICE FOR PERFORMING THE SAME}

본 발명은 발표 동영상 요약방법 및 이를 수행하는 요약장치 에 관한 것으로 보다 상세하게는 발표 동영상을 요약하여 문서화할 수 있는 발표 동영상 요약방법 및 이를 수행하는 요약장치 에 관한 것이다.The present invention relates to a presentation video summary method and a summary device performing the same, and more particularly, to a presentation video summary method capable of summarizing and documenting a presentation video and a summary device performing the same.

딥러닝은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화를 시도하는 기계학습의 한 분야로서 심층 신경망(Deep Neural Network, DNN), 합성곱 신경망(Convolutional Neural Network, CNN), 순환 신경망(Recurrent Neural Network, RNN), 제한 볼츠만 머신(Restricted Boltzmann Machine, RBM), 심층 신뢰 신경망(Deep Belief Network, DBN), 심층 Q-네트워크(Deep Q-Networks) 등 주어진 데이터 집합에 적합하게 적용할 수 있는 다양한 알고리즘이 존재하며, 영상 인식, 자연어 처리, 자동 음성 인식 등 다양한 응용 분야에 활용되고 있다.Deep learning is a field of machine learning that attempts a high level of abstraction through a combination of several nonlinear transform methods. Network, RNN), Restricted Boltzmann Machine (RBM), Deep Belief Network (DBN), and Deep Q-Networks. It exists and is used in various application fields such as image recognition, natural language processing, and automatic voice recognition.

한편, 기술의 발전과 함께 전염병 대유행에 따라 폭발적으로 비대면 학습과 비디오 강의가 증가하고 있어 효율적인 동영상 관리의 필요성은 물론 학습자들이 빠른 속도로 학습할 수 있는 방법론의 개발이 필요하다. 자료 요약과 관련하여서는 논문 내 그림자료를 추출하는 연구는 다수 수행되고 있으나, 이는 동적으로 변하는 동영상 강의에는 적합하지 않다는 한계점이 존재한다. On the other hand, as non-face-to-face learning and video lectures are explosively increasing in accordance with the epidemic pandemic along with the development of technology, it is necessary to develop a methodology that enables learners to learn quickly as well as the need for efficient video management. Regarding data summary, many studies on extracting picture data from papers have been conducted, but there is a limitation that this is not suitable for dynamically changing video lectures.

한국공개특허공보 제10-2011-0121964호Korean Patent Publication No. 10-2011-0121964

본 발명은 상기와 같은 문제를 해결하기 위해 안출된 것으로, 본 발명의 목적은 발표 동영상 내용을 하나의 문서로 만들어 동영상 관리에 효율적인 문서를 생성할 수 있는 것은 물론, 학습자의 학습속도를 향상시킬 수 있도록 발표영상을 요약하는 발표 동영상 요약방법 및 이를 수행하는 요약장치를 제공하는 것이다.The present invention has been made to solve the above problems, and an object of the present invention is to create a document effective for video management by making the contents of a video presentation into one document, as well as to improve the learning speed of learners. It is to provide a presentation video summary method for summarizing the presentation video and a summary device that performs the same.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 발표 동영상 요약장치에서 수행되는 발표 동영상 요약방법은, 발표 동영상을 수신하는 단계; 상기 발표 동영상으로부터 프레임을 추출하는 단계; 추출된 프레임 내에서 객체를 추출하고, 상기 추출된 프레임 내에서 추출된 객체의 영역을 마스킹하는 단계; 일부 영역이 마스킹된 프레임 내의 문자를 판독하여 제1 텍스트를 추출하는 단계; 추출된 제1 텍스트를 군집화하는 단계; 및 군집화된 데이터에 기초하여 상기 발표 동영상을 문서화하는 단계를 포함한다. A presentation video summary method performed by a presentation video summary apparatus according to an embodiment of the present invention for achieving the above object includes receiving a presentation video; extracting frames from the presentation video; extracting an object within the extracted frame, and masking a region of the extracted object within the extracted frame; extracting first text by reading characters in a frame in which a partial area is masked; clustering the extracted first text; and documenting the presentation video based on the clustered data.

여기서 상기 발표 동영상에 포함된 음성으로부터 제2 텍스트를 추출하는 단계; 추출된 제2 텍스트를 기설정된 함수를 통해 일정 비율로 요약하여 요약본을 생성하는 단계; 및 상기 추출된 제1 텍스트와 상기 제2 텍스트에 기초하여 키워드를 추출하는 단계를 더 포함할 수 있다. extracting second text from the audio included in the presentation video; generating a summary by summarizing the extracted second text at a predetermined ratio through a preset function; and extracting a keyword based on the extracted first text and the extracted second text.

그리고 상기 마스킹하는 단계에서는, 상기 프레임 내에서 복수의 객체가 추출되고 각 객체의 영역이 서로 중첩되면, 각 객체의 영역을 병합하여 하나의 이미지로 통합하고, 상기 추출된 프레임 내에서 병합된 이미지를 마스킹하며, 상기 문서화하는 단계에서는, 상기 군집화된 데이터, 상기 병합된 이미지, 상기 요약본 및 상기 키워드에 기초하여 상기 발표 동영상을 문서화할 수 있다. In the masking step, when a plurality of objects are extracted from the frame and the areas of each object overlap each other, the areas of each object are merged into one image, and the merged image in the extracted frame In the step of masking and documenting, the presentation video may be documented based on the clustered data, the merged image, the summary, and the keyword.

또한 상기 제1 텍스트를 추출하는 단계에서는, 상기 제1 텍스트와 함께 상기 마스킹된 프레임 내에서의 상기 제1 텍스트의 위치정보를 함께 추출하고, 상기 군집화하는 단계에서는, 추출된 위치정보에 기초해 상기 추출된 제1 텍스트를 군집화할 수 있다. In addition, in the step of extracting the first text, location information of the first text in the masked frame is extracted together with the first text, and in the step of clustering, based on the extracted location information, The extracted first text may be clustered.

한편 상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 발표 동영상 요약장치는, 수신된 발표 동영상으로부터 프레임을 추출하고, 추출된 프레임 내에서 객체를 추출하여 상기 추출된 프레임 내에서 추출된 객체의 영역을 마스킹하며, 일부 영역이 마스킹된 프레임 내의 문자를 판독하여 제1 텍스트를 추출하고, 추출된 제1 텍스트를 군집화하는 이미지부; 상기 수신된 발표 동영상에 포함된 음성으로부터 제2 텍스트를 추출하고, 추출된 제2 텍스트를 기설정된 함수를 통해 일정 비율로 요약하여 요약본을 생성하며, 상기 추출된 제1 텍스트와 상기 제2 텍스트에 기초하여 키워드를 추출하는 음성부; 및 군집화된 데이터, 상기 요약본 및 상기 키워드에 기초하여 상기 발표 동영상을 문서화하는 결합부를 포함한다. On the other hand, the presentation video summary device according to an embodiment of the present invention for achieving the above object extracts a frame from the received presentation video, extracts an object within the extracted frame, and extracts the object extracted from the extracted frame. an image unit that masks an area, reads characters in a frame in which a partial area is masked, extracts first text, and clusters the extracted first text; Second text is extracted from the voice included in the received presentation video, and a summary is generated by summarizing the extracted second text at a predetermined ratio through a preset function, and the extracted first text and the second text are summarized. a voice unit for extracting keywords based on; and a combiner for documenting the presentation video based on the clustered data, the summary, and the keywords.

상술한 본 발명의 일측면에 따르면, 발표 동영상 요약방법 및 이를 수행하는 요약장치를 제공함으로써, 발표 동영상 내용을 하나의 문서로 만들어 동영상 관리에 효율적인 문서를 생성할 수 있는 것은 물론, 학습자의 학습속도를 향상시킬 수 있다.According to one aspect of the present invention described above, by providing a method for summarizing a presentation video and a summary device that performs the same, it is possible to create a document that is efficient in video management by making the contents of a presentation video into a single document, as well as to speed up learners' learning can improve

도 1은 본 발명의 일 실시예에 따른 발표 동영상 요약장치의 구성을 설명하기 위한 블록도,
도 2는 본 발명의 일 실시예에 따른 발표 동영상 요약장치의 프레임워크를 설명하기 위한 도면,
도 3은 본 발명의 일 실시예에 따른 이미지부의 구성을 설명하기 위한 블록도,
도 4는 본 발명의 일 실시예에 따른 이미지부에서 객체를 추출하는 모습을 설명하기 위한 도면,
도 5는 본 발명의 일 실시예에 따른 이미지부에서 객체를 추출하기 위한 의사코드를 설명하기 위한 도면
도 6은 본 발명의 일 실시예에 따른 음성부의 구성을 설명하기 위한 블록도,
도 7은 본 발명의 일 실시예에 따른 발표 동영상 요약장치에서 출력된 발표 동영상이 문서화된 최종 결과물을 설명하기 위한 도면,
도 8은 본 발명의 일 실시예에 따른 발표 동영상 요약장치에서 수행되는 발표 동영상 요약방법을 설명하기 위한 흐름도, 그리고
도 9 내지 도 12는 본 발명의 일 실시예에 따른 발표 동영상 요약방법의 성능평가 실험결과를 설명하기 위한 도면이다.
1 is a block diagram for explaining the configuration of a presentation video summary device according to an embodiment of the present invention;
2 is a diagram for explaining a framework of a presentation video summary device according to an embodiment of the present invention;
3 is a block diagram for explaining the configuration of an image unit according to an embodiment of the present invention;
4 is a view for explaining how an object is extracted from an image unit according to an embodiment of the present invention;
5 is a diagram for explaining pseudocode for extracting an object from an image unit according to an embodiment of the present invention;
6 is a block diagram for explaining the configuration of an audio unit according to an embodiment of the present invention;
7 is a diagram for explaining a final result in which a presentation video output from a presentation video summary device according to an embodiment of the present invention is documented;
8 is a flowchart for explaining a presentation video summary method performed in a presentation video summary device according to an embodiment of the present invention, and
9 to 12 are views for explaining experimental results of performance evaluation of a method for summarizing a presentation video according to an embodiment of the present invention.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예와 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The detailed description of the present invention which follows refers to the accompanying drawings which illustrate, by way of illustration, specific embodiments in which the present invention may be practiced. These embodiments are described in sufficient detail to enable one skilled in the art to practice the present invention. It should be understood that the various embodiments of the present invention are different from each other but are not necessarily mutually exclusive. For example, specific shapes, structures, and characteristics described herein may be implemented in another embodiment without departing from the spirit and scope of the invention in connection with one embodiment. Additionally, it should be understood that the location or arrangement of individual components within each disclosed embodiment may be changed without departing from the spirit and scope of the invention. Accordingly, the detailed description set forth below is not to be taken in a limiting sense, and the scope of the present invention, if properly described, is limited only by the appended claims, along with all equivalents as claimed by those claims. Like reference numbers in the drawings indicate the same or similar function throughout the various aspects.

본 발명에 따른 구성요소들은 물리적인 구분이 아니라 기능적인 구분에 의해서 정의되는 구성요소들로서 각각이 수행하는 기능들에 의해서 정의될 수 있다. 각각의 구성요소들은 하드웨어 또는 각각의 기능을 수행하는 프로그램 코드 및 프로세싱 유닛으로 구현될 수 있을 것이며, 두 개 이상의 구성요소의 기능이 하나의 구성요소에 포함되어 구현될 수도 있을 것이다. 따라서 이하의 실시예에서 구성요소에 부여되는 명칭은 각각의 구성요소를 물리적으로 구분하기 위한 것이 아니라 각각의 구성요소가 수행되는 대표적인 기능을 암시하기 위해서 부여된 것이며, 구성요소의 명칭에 의해서 본 발명의 기술적 사상이 한정되지 않는 것임에 유의하여야 한다.Components according to the present invention are components defined not by physical division but by functional division, and may be defined by the functions each performs. Each of the components may be implemented as hardware or program codes and processing units that perform respective functions, and the functions of two or more components may be implemented by being included in one component. Therefore, the names given to the components in the following embodiments are not to physically distinguish each component, but to imply the representative function performed by each component, and the names of the components indicate the present invention. It should be noted that the technical idea of is not limited.

이하에서는 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.Hereinafter, preferred embodiments of the present invention will be described in more detail with reference to the drawings.

도 1은 본 발명의 일 실시예에 따른 발표 동영상 요약장치(100)의 구성을 설명하기 위한 블록도, 그리고 도 2는 본 발명의 일 실시예에 따른 발표 동영상 요약장치의 프레임워크를 설명하기 위한 도면이다. 본 발명의 발표 동영상 요약장치(100)는 파워 포인트(Power Point)와 같은 학습 또는 발표를 위한 발표자료를 포함하는 동영상의 내용을 하나의 문서로 만듦으로써 교육의 효율을 향상시키기 위해 입력부(110), 통신부(120), 저장부(130), 제어부(140) 및 출력부(150)를 포함할 수 있다. 1 is a block diagram for explaining the configuration of a presentation video summary apparatus 100 according to an embodiment of the present invention, and FIG. 2 is a block diagram for explaining a framework of a presentation video summary apparatus according to an embodiment of the present invention. it is a drawing The presentation video summary device 100 of the present invention is an input unit 110 to improve the efficiency of education by making the contents of a video including presentation materials for learning or presentation such as Power Point into one document. , It may include a communication unit 120, a storage unit 130, a control unit 140 and an output unit 150.

입력부(110)는 사용자 명령을 입력 받기 위한 입력 수단으로 요약이 필요한 발표 동영상을 입력받을 수 있고, 출력부(150)는 발표 동영상의 문서화에 대한 과정 및 결과를 표시하기 위한 것으로 디스플레이를 포함할 수 있다. The input unit 110 is an input means for receiving a user command and may receive a presentation video requiring a summary, and the output unit 150 may include a display for displaying the process and results of documenting the presentation video. there is.

통신부(120)는 네트워크를 통해 외부와 각종 정보를 송수신하기 위해 마련되는 것으로, 송수신되는 정보를 제어부(140)로 전달하거나 저장부(130)에 저장되도록 할 수 있다. 그리고 통신부(120)는 외부 기기 또는 외부 네트워크로부터 필요한 정보를 송수신하기 위해 마련되는 것으로 이를 통해 학습 데이터나 문서화를 위한 발표 동영상을 입력 받을 수 있다. The communication unit 120 is provided to transmit and receive various types of information to and from the outside through a network, and transmits and receives transmitted and received information to the control unit 140 or can be stored in the storage unit 130 . In addition, the communication unit 120 is provided to transmit and receive necessary information from an external device or external network, and through this, learning data or a presentation video for documentation can be input.

저장부(130)는 발표 동영상 요약방법을 수행하기 위한 프로그램이 기록되고, 제어부(140)가 동작함에 있어 필요한 저장공간을 제공하여 제어부(140)가 처리하는 데이터를 일시적 또는 영구적으로 저장하며, 휘발성 저장매체 또는 비휘발성 저장매체를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다. 또한 저장부(130)는 발표 동영상 요약방법을 수행하면서 누적되는 데이터를 저장할 수 있다. The storage unit 130 stores a program for performing the presentation video summary method, provides a storage space necessary for the controller 140 to operate, temporarily or permanently stores data processed by the controller 140, and volatile It may include a storage medium or a non-volatile storage medium, but the scope of the present invention is not limited thereto. In addition, the storage unit 130 may store data accumulated while performing the presentation video summary method.

한편 제어부(140)는 발표 동영상에 포함된 프레임 및 음성으로부터 텍스트, 객체(표, 그래프, 그림 등)를 추출하고, 추출된 정보를 병합하여 발표 동영상의 내용이 요약된 문서를 생성하기 위해 마련될 수 있다. 특히 본 발명에 따른 제어부(140)는 발표 동영상에 포함되는 발표 자료 내의 그림, 텍스트 등의 구조인 위치정보를 추출하여 최종적으로 생성되는 문서화에 해당 구조를 반영하여 요약 내용을 목차화 할 수 있다. 이를 위해 제어부(140)는 이미지부(141), 음성부(143) 및 결합부(145)를 포함하여 마련될 수 있다. Meanwhile, the controller 140 extracts text and objects (tables, graphs, pictures, etc.) from frames and voices included in the presentation video, and merges the extracted information to generate a document summarizing the contents of the announcement video. can In particular, the control unit 140 according to the present invention extracts location information, which is a structure such as pictures and texts, in presentation materials included in a presentation video, and reflects the corresponding structure in the finally generated document to list summary contents. To this end, the control unit 140 may include an image unit 141, an audio unit 143, and a coupling unit 145.

도 2에 도시된 바와 같이 이미지부(141)는 입력 또는 수신된 발표 동영상으로부터 프레임을 추출하고, 추출된 프레임 내에서 객체를 추출하여 추출된 프레임 내에서 추출된 객체의 영역을 마스킹하며, 일부 영역이 마스킹된 프레임 내의 문자를 판독하여 제1 텍스트를 추출하고, 추출된 제1 텍스트를 군집화할 수 있다. As shown in FIG. 2, the image unit 141 extracts a frame from an input or received presentation video, extracts an object within the extracted frame, masks an area of the extracted object within the extracted frame, and partially Characters within the masked frame may be read to extract first text, and the extracted first text may be clustered.

음성부(143)는 입력 또는 수신된 발표 동영상에 포함된 음성으로부터 제2 텍스트를 추출하고, 추출된 제2 텍스트를 기설정된 함수를 통해 일정 비율로 요약하여 요약본을 생성하며, 추출된 제1 텍스트와 상기 제2 텍스트에 기초하여 키워드를 추출할 수 있다. The audio unit 143 extracts second text from the audio included in the input or received presentation video, summarizes the extracted second text at a predetermined ratio through a preset function to generate a summary, and generates a summary of the extracted first text. And keywords can be extracted based on the second text.

결합부(145)는 이미지부(141) 및 음성부(143)로부터 생성 또는 추출된 군집화된 데이터, 추출된 객체, 요약본 및 키워드를 결합하여 발표 동영상을 하나의 문서로 문서화할 수 있다. The combination unit 145 may combine the clustered data generated or extracted from the image unit 141 and the audio unit 143, the extracted object, summary, and keywords to document the presentation video as a single document.

한편, 도 3은 본 발명의 일 실시예에 따른 이미지부(141)의 구성을 설명하기 위한 블록도, 도 4는 본 발명의 일 실시예에 따른 이미지부(141)에서 객체를 추출하는 모습을 설명하기 위한 도면, 그리고 도 5는 본 발명의 일 실시예에 따른 이미지부(141)에서 객체를 추출하기 위한 의사코드를 설명하기 위한 도면이다.On the other hand, Figure 3 is a block diagram for explaining the configuration of the image unit 141 according to an embodiment of the present invention, Figure 4 is a state of extracting an object from the image unit 141 according to an embodiment of the present invention A drawing for explanation, and FIG. 5 is a diagram for explaining pseudo code for extracting an object from the image unit 141 according to an embodiment of the present invention.

이미지부(141)는 통신부(120)를 통해 수신되거나 입력부(110)를 통해 입력되는 발표 동영상 내에 포함된 프레임으로부터 제1 텍스트를 추출하고 추출된 제1 텍스트를 군집화하기 위해 마련되는 것으로, 도 3에 도시된 바와 같이 프레임 추출부(1411), 객체 추출부(1413), 텍스트 판독부(1415) 및 군집화부(1417)를 포함할 수 있다. The image unit 141 is provided to extract first text from a frame included in a presentation video received through the communication unit 120 or input through the input unit 110 and to cluster the extracted first text, FIG. 3 As shown in , it may include a frame extraction unit 1411, an object extraction unit 1413, a text reading unit 1415, and a clustering unit 1417.

프레임 추출부(1411)는 입력된 발표 동영상으로부터 각 프레임을 추출하기 위해 마련될 수 있다. 프레임 추출부(1411)가 프레임을 추출하는 과정은 다음과 같을 수 있다. 먼저 프레임 추출부(1411)는 동영상의 첫 프레임을 그림파일 형식인 PNG 형식으로 저장하고, 저장된 첫 프레임은 다음 프레임 선정을 위한 비교 프레임으로 설정한다. 이후 프레임 추출부(1411)는 동영상에서 비교 프레임과 1초 간격을 이루는 프레임을 현재 프레임으로 선정한다. 그리고나서 프레임 추출부(1411)는 현재 프레임과 비교 프레임, 즉 이전 프레임과의 구조적 유사도 지수인 SSIM을 하기의 수학식 1에 기초하여 계산할 수 있다. The frame extractor 1411 may be provided to extract each frame from the input presentation video. A process of extracting a frame by the frame extractor 1411 may be as follows. First, the frame extraction unit 1411 stores the first frame of a video in a PNG format, which is a picture file format, and sets the stored first frame as a comparison frame for selecting the next frame. After that, the frame extraction unit 1411 selects a frame that is 1 second apart from the comparison frame in the video as the current frame. Then, the frame extraction unit 1411 may calculate SSIM, which is a structural similarity index between the current frame and the comparison frame, that is, the previous frame, based on Equation 1 below.

[수학식 1][Equation 1]

Figure pat00001
Figure pat00001

여기서

Figure pat00002
는 비교 프레임과 현재 프레임인 이미지 x, y의 국소 평균,
Figure pat00003
,
Figure pat00004
는 표준편차,
Figure pat00005
는 교차 공분산, 그리고
Figure pat00006
는 국소 평균 또는 표준편차가 0에 가까운 이미지에 의한 불안정성 방지를 위한 정규화 상수이다. (0이 아닌 작은 값)here
Figure pat00002
is the local average of the comparison frame and the image x, y that is the current frame,
Figure pat00003
,
Figure pat00004
is the standard deviation,
Figure pat00005
is the cross-covariance, and
Figure pat00006
is a normalization constant for preventing instability caused by an image having a local average or standard deviation close to zero. (small non-zero value)

이상의 수학식 1을 통해 계산된 유사도 지수가 사용자에 의해 사전에 설정된 특정 임계값보다 낮으면 현재 프레임이 비교 프레임과는 다른 새로운 발표자료로 판단하여 그림 파일형식(예를 들어 PNG형식)으로 저장하고 이를 다시 비교 프레임으로 선정할 수 있다. If the similarity index calculated through Equation 1 is lower than a specific threshold set in advance by the user, the current frame is determined as a new presentation material different from the comparison frame and saved in a picture file format (for example, PNG format) This may be selected as a comparison frame again.

프레임 추출부(1411)는 이상의 과정을 동영상이 종료될 때까지 반복 수행하여 서로 다른 발표자료인 프레임들을 추출할 수 있게 된다. The frame extraction unit 1411 can extract frames that are different presentation materials by repeatedly performing the above process until the video ends.

한편 객체 추출부(1413)는 프레임 추출부(1411)에서 추출된 프레임들을 전달받아 각각의 추출된 프레임 내에서 객체를 추출하고, 추출된 프레임 내에서 추출된 객체의 영역을 마스킹할 수 있으며, 영역 병합부(14131)를 포함할 수 있다. Meanwhile, the object extractor 1413 may receive the frames extracted from the frame extractor 1411, extract an object from each extracted frame, mask an area of the object extracted from the extracted frame, and A merger 14131 may be included.

이러한 객체 추출부(1413)는 추출된 프레임, 즉 발표자료 내의 그림자료 및 공식들을 검출하기 위해 객체 검출 알고리즘 중 하나인 MASK-RCNN을 이미지 영역 인식모델로 사용할 수 있다. The object extraction unit 1413 may use MASK-RCNN, one of object detection algorithms, as an image region recognition model to detect picture data and formulas in the extracted frames, that is, presentation materials.

그리고 객체 추출부(1413)는 추출된 프레임 내에 객체 영역을 'Figure', 'Formula'로 라벨링하여 MASK-RCNN 모델로 학습할 수 있으며, 보다 구체적으로 표, 그래프, 그림은 'Figure'로 라벨링하고, 공식은 'Formula'로 라벨링할 수 있다. In addition, the object extractor 1413 can learn with the MASK-RCNN model by labeling the object area in the extracted frame as 'Figure' and 'Formula', and more specifically, labels tables, graphs, and figures as 'Figure', , the formula can be labeled as 'Formula'.

종래의 MASK-RCNN의 경우에는 하나의 그림자료를 여러 개로 인식하는 한계가 있다. 보다 구체적으로 도 5를 예로 들면 기존의 MASK-RCNN은 전체 객체 중 공백이나 객체에 대한 캡션으로 인해 객체의 일부 영역을 여러 개로 쪼개어 인식한다는 문제가 있다. In the case of the conventional MASK-RCNN, there is a limit to recognizing one picture data as multiple. More specifically, taking FIG. 5 as an example, the existing MASK-RCNN has a problem of recognizing a partial region of an object by dividing it into several parts due to a blank or a caption for the object among the entire object.

이에 본 실시예에 따른 객체 추출부(1413)는 영역 병합부(14131)를 포함하도록 마련하여 상술한 바와 같이 검출된 객체의 영역별 교집합을 계산하여 만약 교집합 영역, 즉 중첩되는 영역이 있다면 해당 영역들을 포함하는 하나의 확장된 영역으로 병합하도록 하여 하나의 이미지로 통합하여 종래의 문제를 해결할 수 있다. Accordingly, the object extraction unit 1413 according to the present embodiment is provided to include a region merging unit 14131 to calculate the intersection of each region of the detected object as described above, and if there is an intersection region, that is, an overlapping region, the corresponding region It is possible to solve the conventional problem by merging the images into one extended area including the images and integrating them into one image.

이러한 영역 병합부(14131)는 프레임 내에서 복수의 객체가 추출되고 각 객체의 영역이 서로 중첩되면, 각 객체의 영역을 병합하여 하나의 이미지로 통합할 수 있고 객체 추출부(1413)는 영역 병합부(14131)에서 통합된 이미지를 추출된 프레임 내에서 마스킹처리할 수 있다. When a plurality of objects are extracted from the frame and the regions of each object overlap each other, the region merging unit 14131 merges the regions of each object and integrates them into a single image, and the object extraction unit 1413 merges the regions. In unit 14131, the integrated image may be masked within the extracted frame.

구체적으로 도 3에 도시된 바와 같이 추출된 프레임 내에서 복수의 객체(o1, o2, o3, o4, o5)가 추출되고, 각 객체의 영역이 도면에서와 같이 중첩되면 객체 추출부(1413)는 영역 병합부(14131)를 통해 영역이 서로 중첩되는 복수의 객체(o1, o2, o3, o4, o5)들을 병합하여 하나의 이미지(o)로 통합할 수 있다. 그리고 나서 객체 추출부(1413)는 통합된 하나의 이미지(o)에서 그림자료를 추출하고, 추출된 영역은 흰 박스(Box)로 대체하는 마스킹을 수행할 수 있다. Specifically, as shown in FIG. 3, when a plurality of objects o1, o2, o3, o4, and o5 are extracted from the extracted frame, and the areas of each object overlap as shown in the drawing, the object extraction unit 1413 Through the region merging unit 14131, a plurality of objects o1, o2, o3, o4, and o5 having overlapping regions may be merged into one image o. Then, the object extraction unit 1413 may perform masking by extracting picture data from one integrated image o and replacing the extracted area with a white box.

따라서 영역 병합부(14131)를 포함하는 객체 추출부(1413)는 도 5에서와 같은 병합함수의 의사코드에 기초하여 중첩되는 객체 영역들을 병합할 수 있다. 본 실시예에 따른 병합함수는 먼저 MASK-RCNN 모델을 통해 인식된 'Figure'와 'Formula' 영역을 입력 값을 받고, 인식된 영역들 간의 교집합 여부를 판단할 수 있다. 이 때 병합하는 방식은 영역들의 좌표 중 왼쪽 최상단에 위치하는 좌표와 오른쪽 최하단에 위치하는 좌표를 기준으로 박스(Box)를 그린다. 이상의 과정을 교집합이 발생하는 영역이 더 이상 존재하지 않을 때까지 반복할 수 있다. 그리고 최종적으로 통합된 하나의 이미지(o) 영역은 제1 텍스트를 추출하기 위하여 흰 박스로 대체하여 마스킹할 수 있다. Accordingly, the object extraction unit 1413 including the area merging unit 14131 may merge the overlapping object areas based on the pseudo code of the merging function as shown in FIG. 5 . The merge function according to the present embodiment first receives input values of 'Figure' and 'Formula' regions recognized through the MASK-RCNN model, and may determine whether the recognized regions intersect. At this time, the merging method draws a box based on the coordinates located at the top left and the bottom right among the coordinates of the regions. The above process may be repeated until the region where the intersection occurs no longer exists. And finally, one image (o) region integrated may be masked by replacing it with a white box in order to extract the first text.

한편 문자 판독부()는 영역 병합부(14131)에 의해 일부 영역, 즉 통합된 하나의 이미지(o) 영역이 마스킹된 프레임 내의 문자를 판독하여 제1 텍스트를 추출할 수 있다. 이러한 문자 판독부()는 Google Tesseract 엔진 기반의 Python 라이브러리 pytesseract를 사용하여 OCR을 적용하여 제1 텍스트를 추출할 수 있다. 이를 통해 텍스트 판독부(1415)는 일부 영역이 마스킹된 상태의 프레임을 입력받으면 이미지 내의 텍스트 OCT 데이터를 데이터프레임 형식으로 저장하여 텍스트를 추출할 수 있다. 그리고 나서 텍스트 판독부(1415)는 단어(word)단위로 추출된 텍스트의 데이터를 집계함수를 이용하여 줄(line) 단위로 재구성하여 제1 텍스트를 추출할 수 있다. Meanwhile, the character reading unit 14131 may extract first text by reading characters in a frame in which some areas, that is, a combined image o area are masked by the area merging unit 14131 . The character reading unit ) may extract the first text by applying OCR using pytesseract, a Python library based on the Google Tesseract engine. Through this, the text reading unit 1415 may extract text by storing text OCT data in the image in a data frame format when receiving a frame in which a partial area is masked. Then, the text reading unit 1415 may extract first text by reconstructing text data extracted in word units in line units using an aggregation function.

그리고 프레임()내에 포함되는 텍스트가 배치되는 위치는 중요도 등에 따라 서로 다를 수 있다. 이에 따라 텍스트 판독부(1415)는 제1 텍스트의 추출과 함께 제1 텍스트의 위치정보를 함께 추출할 수 있다. 보다 구체적으로 파워포인트(PPT, PowerPoint)와 같은 발표자료를 예로 들어 하나의 슬라이드의 레이아웃, 즉 텍스트 배치를 보면 최상단에는 제목이 배치되고, 제목의 하단에는 들여쓰기 등을 통해 제목에 대한 상세내용이나 목차등이 배치되게 된다. 따라서 텍스트 판독부(1415)는 이러한 정보에 기초하여 제1 텍스트의 위치정보를 함께 추출할 수 있다. Positions where the texts included in the frame ( ) are arranged may be different depending on importance. Accordingly, the text reading unit 1415 may extract location information of the first text together with extraction of the first text. More specifically, taking presentation materials such as PowerPoint (PPT, PowerPoint) as an example, if you look at the layout of one slide, that is, the text arrangement, the title is placed at the top, and the details or details of the title are placed at the bottom of the title through indentation, etc. A table of contents will be placed. Accordingly, the text reading unit 1415 may also extract location information of the first text based on this information.

한편 군집화부(1417)는 군집화부(1417)는 텍스트 판독부(1415)에서 추출된 제1 텍스트를 군집화(Hierarchy clustering)하기 위해 마련되는 것으로, 텍스트 판독부(1415)에서 추출된 위치정보에 기초해 추출된 제1 텍스트를 군집화할 수 있다. Meanwhile, the clustering unit 1417 is provided to perform Hierarchy clustering on the first text extracted from the text reading unit 1415, based on location information extracted from the text reading unit 1415. The extracted first text may be clustered.

이러한 군집화부(1417)는 텍스트 판독부(1415)에서 추출한 데이터프레임에 Python 라이브러리 scikit-learn의 Agglomerative Clustering을 적용하여 문서의 목차에 따른 계층을 회복할 수 있다. 구체적으로 군집화부(1417)는 슬라이드, 즉 프레임 내의 군집의 개수를 1~5개 이내로 선정하고, Agglomerative Clustering을 사용하여 제1 텍스트의 군집을 결정한 후, 각 군집 개수별 silhouette score를 계산하여 점수가 가장 높은 군집 개수를 선택하는 과정을 수행할 수 있고 이러한 군집화부(1417)를 통해 결합부(145)는 최종적으로 생성되는 문서에서 텍스트들을 목차화하여 문서화할 수 있다. The clustering unit 1417 can restore the hierarchy according to the table of contents of the document by applying Agglomerative Clustering of the Python library scikit-learn to the data frame extracted by the text reading unit 1415. Specifically, the clustering unit 1417 selects the number of clusters in the slide, that is, within 1 to 5, determines the clusters of the first text using Agglomerative Clustering, and then calculates a silhouette score for each cluster to obtain a score. A process of selecting the highest number of clusters may be performed, and through such a clustering unit 1417, the combination unit 145 may catalog texts in a finally created document and document them.

이상의 프레임 추출부(1411), 객체 추출부(1413), 텍스트 판독부(1415) 및 군집화부(1417)를 포함하는 이미지부(141)에서 추출, 선택 및 생성된 데이터들은 결합부(145)로 전달될 수 있다. The data extracted, selected, and generated in the image unit 141 including the frame extractor 1411, the object extractor 1413, the text reader 1415, and the clustering unit 1417 are sent to the combiner 145. can be conveyed

한편 도 6은 본 발명의 일 실시예에 따른 음성부(143)의 구성을 설명하기 위한 블록도이다. 음성부(143)는 통신부(120)를 통해 수신되거나 입력부(110)를 통해 입력되는 발표 동영상 내에 포함된 음성을 인식하고 인식한 음성으로부터 제2 텍스트를 추출하고, 추출되는 제2 텍스트에 기초하여 요약본을 생성하거나 키워드를 추출하기 위해 마련되는 것으로, 텍스트 추출부(1431) 및 분석부(1433)를 포함할 수 있다. Meanwhile, FIG. 6 is a block diagram for explaining the configuration of the audio unit 143 according to an embodiment of the present invention. The voice unit 143 recognizes a voice included in a presentation video received through the communication unit 120 or inputted through the input unit 110, extracts second text from the recognized voice, and based on the extracted second text It is provided for generating a summary or extracting keywords, and may include a text extraction unit 1431 and an analysis unit 1433.

텍스트 추출부(1431)는 발표 동영상에 포함된 음성을 인식하여 인식된 음성으로부터 제2 텍스트를 추출하기 위해 마련될 수 있다. 본 실시예에서의 텍스트 추출부(1431)는 종래의 동영상의 음성, 즉 오디오(Audio)파일에서 텍스트를 추출할 수 있는 STT(Speech To Text)로써 Amazon에서 제공하는 Amazon Transcribe과 같은 소프트웨어를 활용할 수 있다. The text extraction unit 1431 may be provided to recognize voice included in the presentation video and extract second text from the recognized voice. The text extractor 1431 in this embodiment is a STT (Speech To Text) capable of extracting text from a conventional video, that is, an audio file, and can utilize software such as Amazon Transcribe provided by Amazon. there is.

한편 분석부(1433)는 텍스트 추출부(1431)에서 추출된 제2 텍스트를 기설정된 함수를 통해 일정 비율로 요약하여 요약본을 생성할 수 있다. 분석부(1433)는 요약을 위해 TF-IDF를 이용한 TextRank 알고리즘을 사용할 수 있고, 해당 알고리즘 적용을 위해 Python 라이브러리 gensim을 사용할 수 있다. 그리고 분석부(1433)는 기설정된 함수인 gensim에서 제공하는 함수를 통해 전체 글을 70%의 비율로 요약하여 요약본을 생성할 수 있다. Meanwhile, the analysis unit 1433 may generate a summary by summarizing the second text extracted by the text extraction unit 1431 at a predetermined ratio through a preset function. The analysis unit 1433 may use the TextRank algorithm using TF-IDF for summarization, and may use the Python library gensim to apply the corresponding algorithm. In addition, the analysis unit 1433 may generate a summary by summarizing the entire article at a rate of 70% through a function provided by gensim, which is a preset function.

그리고 분석부(1433)는 이미지부(141)에서 추출된 제1 텍스트와 텍스트 추출부(1431)에서 제2 텍스트에 기초하여 키워드를 추출할 수 있다. 구체적으로 이미지부(141)의 텍스트 판독부(1415)에서 추출된 제1 텍스트와 텍스트 추출부(1431)에서 추출된 제2 텍스트로부터 일정 개수의 키워드를 추출할 수 있다. 본 실시예에 따른 분석부(1433)는 총 50개의 키워드를 추출하는 것으로 설정하였으나, 이에 한정되는 것은 아니며 얼마든지 변경가능할 것이다. 분석부(1433)는 키워드를 추출하기 위해 먼저 제1 텍스트와 제2 텍스트를 병합하여 하나의 텍스트 파일을 만들고, 이를 입력값으로 설정하여 TextRank 알고리즘을 적용하여 50개의 키워드를 추출할 수 있다. 여기서 약 50개의 키워드를 추출하는 이유는 복합어 등 여러 단어를 조합하여 의미있는 단어를 만드는 경우고 있기 때문이다. The analysis unit 1433 may extract keywords based on the first text extracted from the image unit 141 and the second text from the text extraction unit 1431 . Specifically, a predetermined number of keywords may be extracted from the first text extracted by the text reader 1415 of the image unit 141 and the second text extracted by the text extractor 1431 . The analysis unit 1433 according to this embodiment is set to extract a total of 50 keywords, but is not limited thereto and can be changed as much as possible. To extract keywords, the analyzer 1433 first merges the first text and the second text to create one text file, sets this as an input value, and extracts 50 keywords by applying a TextRank algorithm. The reason why about 50 keywords are extracted here is that a meaningful word is created by combining several words such as compound words.

본 발명에서 분석부(1433)는 상술한 바와 같이 제2 텍스트만으로부터 키워드를 추출하지 않고 제1 텍스트와 제2 텍스트를 병합하여 키워드를 추출한다. 이는 제2 텍스트만을 사용하여 키워드를 추출하는 경우에는 키워드로 중간중간 말을 채우는 filler word 등이 추출되는 빈도가 제1 텍스트와 제2 텍스트를 병합하는 경우보다 더 많다는 문제를 확인하였기 때문이다. 따라서 이러한 filler word가 키워드로 추출되는 것을 방지하기 위하여 본 발명의 분석부(1433)는 제1 텍스트와 제2 텍스트를 병합한 후 이로부터 키워드를 추출하게 된다. In the present invention, the analyzer 1433 extracts keywords by merging the first text and the second text instead of extracting the keywords only from the second text as described above. This is because it has been confirmed that when keywords are extracted using only the second text, the frequency of extracting filler words, which fill in the middle words with keywords, is higher than when the first text and the second text are merged. Therefore, in order to prevent such a filler word from being extracted as a keyword, the analysis unit 1433 of the present invention merges the first text and the second text and extracts a keyword therefrom.

한편 도 7은 본 발명의 일 실시예에 따른 발표 동영상 요약장치(100)에서 출력된 발표 동영상이 문서화된 최종 결과물을 설명하기 위한 도면이다. 결합부(145)는 상술한 바와 같이 이미지부(141) 및 음성부(143)로부터 생성 또는 추출된 군집화된 데이터, 추출된 객체, 요약본 및 키워드를 결합하여 발표 동영상을 하나의 문서로 문서화할 수 있다.Meanwhile, FIG. 7 is a diagram for explaining the final result in which the presentation video output from the presentation video summary device 100 according to an embodiment of the present invention is documented. As described above, the combining unit 145 may document the presentation video as a single document by combining the clustered data generated or extracted from the image unit 141 and the audio unit 143, the extracted object, summary, and keywords. there is.

도 7은 본 발명의 결합부(145)에서 최종적으로 생성된 실제 결과물을 도시한 도면으로써, 결합부(145)는 한장의 문서 내에 발표자료인 프레임에 대한 텍스트는 슬라이드 콘텐츠(slid contents)로써 왼쪽에 배치하고, 발표 동영상 내 음성으로부터 추출한 텍스트는 스피치 콘텐츠(speech contnts)로써 오른쪽에 배치되도록 할 수 있다. 물론 이러한 배치에 꼭 한정되는 것은 아니며 사용자의 가독성을 고려하여 배치는 설정에 의해 얼마든지 변경가능할 것이다. 7 is a diagram showing an actual result finally generated by the combining unit 145 of the present invention. In the combining unit 145, the text for a frame, which is a presentation material in a document, is displayed on the left as slide contents. , and the text extracted from the voice in the presentation video can be placed on the right side as speech content. Of course, it is not necessarily limited to this arrangement, and the arrangement may be changed as much as possible by setting in consideration of user's readability.

결합부(145)는 문서를 생성할 때 텍스트 판독부(1415)에서 추출된 제1 텍스트를 슬라이드 콘텐츠 내에 배치하되, 군집화부(1417)를 통해 군집화한 것을 기반으로 도시된 바와 같이 목차화하여 텍스트를 배치할 수 있다. When generating a document, the combiner 145 arranges the first text extracted by the text reader 1415 within the slide content, and lists the text as shown based on the clustering through the clustering unit 1417. can be placed.

그리고 결합부(145)는 분석부(1433)에서 생성한 요약본을 스피치 콘텐츠 내에 배치되도록 하되, 슬라이드 콘텐츠() 내에 위치하는 텍스트 중 분석부(1433)에서 추출된 키워드와 동일한 텍스트는 굵기를 달리하여 강조하여 표시할 수 있다. In addition, the combiner 145 arranges the summary generated by the analyzer 1433 within the speech content, but the same text as the keyword extracted from the analyzer 1433 among the texts located in the slide content ( ) has a different thickness. can be highlighted.

또한 결합부(145)는 객체 추출부(1413)에서 추출된 객체(그래프, 그림, 공식 등)를 참고자료로 스피치 콘텐츠 내에 삽입되어 배치할 수 있다. 그리고 결합부(145)는 추출된 객체는 각 슬라이드 제목 아래에 참조링크를 생성 및 배치하여 사용자가 문서 내에서 이동할 수 있도록 할 수 있다. In addition, the coupling unit 145 may insert and place the objects (graphs, pictures, formulas, etc.) extracted by the object extraction unit 1413 into the speech content as reference data. Also, the coupling unit 145 may generate and place a reference link under each slide title for the extracted object so that the user can move within the document.

이를 통해 본 발명의 발표 동영상 요약장치(100)는 동영상 강의의 참고자료를 생성하여 교육의 효율을 향상시킬 수 있고, 동영상 내용을 하나의 문서로 만듦으로써 동영상 관리에 효율적인 문서를 생성할 수 있게 된다. 특히 폭발적으로 증가하는 비대면 학습 및 비디오 강의를 하나의 문서로 문서화할 수 있으므로 학습자들의 학습 속도를 향상시킬 수 있게 된다. Through this, the presentation video summary device 100 of the present invention can improve the efficiency of education by generating reference materials for video lectures, and can create a document effective for video management by making the contents of the video into a single document. . In particular, since non-face-to-face learning and video lectures, which are explosively increasing, can be documented as a single document, it will be possible to improve the learning speed of learners.

한편 도 8은 본 발명의 일 실시예에 따른 발표 동영상 요약장치(100)에서 수행되는 발표 동영상 요약방법을 설명하기 위한 흐름도이다. Meanwhile, FIG. 8 is a flowchart illustrating a method for summarizing a presentation video performed by the apparatus 100 for summarizing a presentation video according to an embodiment of the present invention.

본 실시예에 따른 발표 동영상 요약방법은, 도 1 및 도 2의 발표 동영상 요약장치(100)와 실질적으로 동일한 구성에서 진행될 수 있고, 따라서 반복되는 설명은 생략한다. 또한 본 실시예에 따른 발표 동영상 요약방법은 발표 동영상 요약을 수행하기 위한 소프트웨어(어플리케이션)에 의해 실행될 수 있다. The presentation video summary method according to the present embodiment may be performed in substantially the same configuration as the presentation video summary device 100 of FIGS. 1 and 2, and therefore, repeated description is omitted. In addition, the presentation video summary method according to this embodiment may be executed by software (application) for performing a presentation video summary.

먼저 발표 동영상 요약장치(100)는 발표 동영상을 수신하는 단계(S110)를 수행한다. 발표 동영상은 외부장치 또는 외부네트워크로부터 수신하거나 사용자에 의해 직접 입력받을 수 있다. First, the presentation video summary device 100 performs a step (S110) of receiving a presentation video. The presentation video may be received from an external device or an external network, or may be directly input by the user.

이후 발표 동영상으로부터 프레임을 추출하는 단계(S120)를 수행할 수 있다. 이는 상술한 바와 같이 1초 간격으로 하나의 프레임을 추출하고, 이전 프레임과의 구조적 유사도 지수인 SSIM을 계산하여 사전에 설정된 특정 임계값보다 낮으면 현재 프레임이 비교 프레임인 이전 프레임과는 다른 새로운 발표자료인 것으로 판단하여 현재 프레임을 그림 파일형식으로 저장할 수 있으며, 이후 그림 파일형식으로 저장된 현재 프레임은 다시 비교 프레임으로 선정하고 1초 후에 추출된 프레임을 현재 프레임으로 선정하여 이상의 과정을 동영상이 종료될 때까지 반복수행할 수 있다. 만약, 계산된 유사도 지수가 임계값보다 높으면 해당 프레임은 동일한 발표자료로 판단하여 그림 파일형식으로 저장하지 않는다. Thereafter, a step of extracting a frame from the presentation video (S120) may be performed. As described above, one frame is extracted at an interval of 1 second, and SSIM, a structural similarity index with the previous frame, is calculated. After determining that it is data, the current frame can be saved in a picture file format. After that, the current frame saved in a picture file format is selected as a comparison frame again, and the frame extracted after 1 second is selected as the current frame, and the above process is completed when the video is finished. It can be repeated until If the calculated similarity index is higher than the threshold value, the corresponding frame is judged as the same presentation material and is not saved in a picture file format.

그리고나서 추출된 프레임 내에서 객체를 추출하고, 추출된 프레임 내에서 추출된 객체의 영역을 마스킹하는 단계(S130)를 수행할 수 있다. 여기서 추출된 프레임은 그림 파일형식으로 저장된 프레임을 의미할 수 있다. Then, a step of extracting an object within the extracted frame and masking a region of the extracted object within the extracted frame (S130) may be performed. Here, the extracted frame may mean a frame stored in a picture file format.

또한 마스킹하는 단계(S130)에서는 프레임 내에서 복수의 객체가 추출되고 각 객체의 영역이 서로 중첩되면, 각 객체의 영역을 병합하여 하나의 이미지로 통합하고, 추출된 프레임 내에서 병합된 이미지를 마스킹할 수 있다. In addition, in the masking step (S130), when a plurality of objects are extracted from the frame and the regions of each object overlap each other, the regions of each object are merged and integrated into one image, and the merged image is masked in the extracted frame can do.

구체적으로 추출된 프레임 내에서 그림, 그래프, 공식 등과 같은 객체를 추출하되, 각각의 객체 영역이 서로 중첩되면 중첩되는 객체 영역을 하나의 영역으로 병합하여 하나의 이미지, 즉 하나의 객체로 통합하는 것이다. 이는 하나의 객체임에도 불구하고 그림에 포함된 여백이나 텍스트들에 의해 서로 다른 객체로 판단하는 문제를 해결하기 위함이다. Specifically, objects such as pictures, graphs, formulas, etc. are extracted from the extracted frame, but when each object area overlaps with each other, the overlapping object areas are merged into one area to integrate into one image, that is, one object. . This is to solve the problem of judging different objects by blank spaces or texts included in a picture even though they are one object.

이후 일부 영역이 마스킹된 프레임 내의 문자를 판독하여 제1 텍스트를 추출하는 단계(S140)를 수행한다. 제1 텍스트를 추출하는 단계(S140)에서는, 제1 텍스트와 함께 마스킹된 프레임 내에서의 제1 텍스트의 위치정보를 함께 추출할 수 있다. Thereafter, a step of extracting first text by reading characters in a frame in which a partial region is masked (S140) is performed. In the step of extracting the first text ( S140 ), location information of the first text within the masked frame may be extracted together with the first text.

그리고 추출된 제1 텍스트를 군집화하는 단계(S1)를 수행할 수 있다. 군집화하는 단계(S150)에서는, 추출된 위치정보에 기초해 추출된 제1 텍스트를 군집화할 수 있다. Then, a step (S1) of clustering the extracted first text may be performed. In the clustering step ( S150 ), the extracted first text may be clustered based on the extracted location information.

그리고나서 군집화된 데이터에 기초하여 발표 동영상을 문서화하는 단계(S160)를 수행할 수 있다. Then, a step of documenting the presentation video based on the clustered data (S160) may be performed.

또한 발표 동영상 요약방법은, 문서화하는 단계(S160) 이전에 수행되는 단계로 발표 동영상에 포함된 음성으로부터 제2 텍스트를 추출하는 단계, 추출된 제2 텍스트를 기설정된 함수를 통해 일정 비율로 요약하여 요약본을 생성하는 단계 및 추출된 제1 텍스트와 상기 제2 텍스트에 기초하여 키워드를 추출하는 단계를 더 포함할 수 있다. In addition, the presentation video summary method is a step performed before the documenting step (S160), and extracts second text from the audio included in the announcement video, and summarizes the extracted second text at a certain ratio through a preset function. The method may further include generating a summary and extracting keywords based on the extracted first text and the second text.

여기서 발표 동영상에 포함된 음성으로부터 제2 텍스트를 추출하는 단계는 발표 동영상에 포함된 음성을 인식하여 인식된 음성으로부터 제2 텍스트를 추출하는 단계일 수 있다. Here, the step of extracting the second text from the voice included in the announcement video may be a step of recognizing the voice included in the announcement video and extracting the second text from the recognized voice.

그리고 추출된 제2 텍스트를 기설정된 함수를 통해 일정 비율로 요약하여 요약본을 생성하는 단계에서는 제2 텍스트의 전체 글을 70%의 비율로 요약하여 요약본을 생성할 수 있다. Further, in the step of generating a summary by summarizing the extracted second text at a predetermined ratio through a preset function, the summary may be generated by summarizing the entire text of the second text at a ratio of 70%.

한편 추출된 제1 텍스트와 상기 제2 텍스트에 기초하여 키워드를 추출하는 단계에서는 제1 텍스트와 제2 텍스트를 병합하여 하나의 텍스트 파일을 만들고, 이를 입력값으로 설정하여 TextRank 알고리즘을 적용하여 약 50여개의 키워드를 추출할 수 있다. Meanwhile, in the step of extracting a keyword based on the extracted first text and the second text, a text file is created by merging the first text and the second text, and a TextRank algorithm is applied by setting this as an input value to obtain about 50 keywords. Several keywords can be extracted.

따라서 문서화하는 단계(S160)에서는, 상술한 군집화된 데이터는 물론 병합된 이미지, 요약본 및 키워드에 기초하여 발표 동영상을 문서화할 수 있다. Therefore, in the documenting step (S160), the presentation video may be documented based on the above-described clustered data as well as merged images, summaries, and keywords.

한편 도 9 내지 도 12는 본 발명의 일 실시예에 따른 발표 동영상 요약방법의 성능평가 실험결과를 설명하기 위한 도면이다. 이하에서는 본 실시예에 따른 요약장치(100)에서 수행되는 발표자료에서 이미지 영역의 추출성능과 발표자료에서의 텍스트 추출 성능에 대한 평가를 수행한 실험결과를 설명하기로 한다. 그리고 실험을 위해 사용한 발표자료 및 라벨링 결과의 개수가 제한적인 점을 고려하여 전이학습(Transfer Learning)을 채택하였고, 전이학습을 위하여 MASK-RCNN에서 기본으로 제공하는 "MASK-RCNN-coco.h5"를 사전학습 모델로 사용하였다. 학습을 위한 파라미터로 배치(batch) 1, 에폭(epoch) 100, 학습율(learning rate) 0.001로 지정하였고, 실험을 위하여 Ubuntu 18.04 운영체제가 설치된 AWS p2.xlarge instance 환경을 채택하였다. 구현을 위해 Python 3.8.5, TensorFlow 2.2.0, Keras 2.3.1, Cuda 10.1을 활용하였다.Meanwhile, FIGS. 9 to 12 are views for explaining experimental results of performance evaluation of the presentation video summary method according to an embodiment of the present invention. Hereinafter, experimental results obtained by evaluating performance of extracting an image region from presentation data and text extraction performance from presentation data performed by the summary device 100 according to the present embodiment will be described. In addition, considering the limited number of presentation materials and labeling results used for the experiment, transfer learning was adopted, and "MASK-RCNN-coco.h5" provided by default in MASK-RCNN for transfer learning. was used as a pre-learning model. Batch 1, epoch 100, and learning rate 0.001 were specified as parameters for learning, and an AWS p2.xlarge instance environment with Ubuntu 18.04 operating system installed was adopted for the experiment. For implementation, Python 3.8.5, TensorFlow 2.2.0, Keras 2.3.1, and Cuda 10.1 were used.

이미지 영역 추출 성능을 평가하기 위한 평가지표로 Recall, Precision을 사용하였다. 그리고 종래의 전이학습 모델 결과, 전이학습 모델 결과에 본 발명의 영역 병합부(14131)의 구성을 추가한 결과를 비교하였다. Recall and Precision were used as evaluation indexes to evaluate image area extraction performance. In addition, the result of adding the configuration of the region merging unit 14131 of the present invention to the result of the conventional transfer learning model and the result of the transfer learning model were compared.

한편 텍스트 추출 성능을 평가하기 위해 발표영상으로부터 추출된 텍스트 데이터를 TXT파일로 저장하고, 각 TXT 파일을 TF-IDF기반으로 벡터화한 후, 평가지표로 cosine similarity, Euclidean distance, jaro winkler similarity, levenshtein distance를 사용하여 실제 텍스트와의 유사도를 측정하였다. 또한 본 발명의 성능을 평가하기 위해 1) 단순히 OCR을 적용한 결과, 2) 전이학습 모델에 따라 객체 영역을 마스킹한 후 OCR을 적용한 결과, 그리고 3) 전이학습 모델에 따라 객체를 추출하고 병합된 객체 영역을 마스킹한 후 OCR을 적용한 결과를 비교하였다. Meanwhile, in order to evaluate the text extraction performance, the text data extracted from the presentation video was saved as a TXT file, and each TXT file was vectorized based on TF-IDF, and then cosine similarity, Euclidean distance, jaro winkler similarity, and levenshtein distance were used as evaluation indicators. was used to measure the similarity with the actual text. In addition, to evaluate the performance of the present invention, 1) the result of simply applying OCR, 2) the result of applying OCR after masking the object area according to the transfer learning model, and 3) the object extracted and merged according to the transfer learning model After masking the region, the results of applying OCR were compared.

그리고 음성으로부터 텍스트를 추출하는 STT 성능 측정평가지표는 상술한 텍스트 성능 측정 평가지표와 동일하고, 적용 결과를 실제 대본과 비교하였고, 요약본 생성, 키워드 추출 및 문서화는 정성적으로 평가를 진행하였다. In addition, the STT performance measurement evaluation index for extracting text from speech is the same as the above-mentioned text performance measurement evaluation index, and the application result was compared with the actual script, and the summary creation, keyword extraction, and documentation were qualitatively evaluated.

실험을 위한 데이터셋으로 발표자료에서의 객체인식을 위해 발표자료 데이터 셋을 직접 수집하였고, 유튜브에 공개된 논문 리뷰 PPT 발표 동영상을 위주로 추출하였으며, 총 71편의 발표 영상을 추출하였다. 대부분의 발표 자료는 그림, 공식, 표 등의 이미지 영역과 함께 텍스트로 구성되어 있었으며, 이를 통해 추출한 발표자료 이미지는 총 1,123장이다. 이 중 Train 데이터는 831장, Validation 데이터는 192장, Test 데이터는 100장을 사용하였다. 객체 인식 모델을 위하여 각 이미지들은 크게 두 가지 유형으로 구분하여 그림자료들을 "Figure", 공식들을 "Formula"로 라벨링 하였다. Train 데이터의 라벨링 객체는 "Figure" 1,179개 "Formula 537개, Validation 데이터는 "Figure" 414개, "Formula" 187개의 객체로 구성되어 있다. 또한, Test 데이터에서 Figure" 114개, "Formula" 18개이다.As a data set for the experiment, the presentation data set was directly collected for object recognition in the presentation data, and thesis review PPT presentation videos released on YouTube were mainly extracted, and a total of 71 presentation videos were extracted. Most of the presentation materials consisted of text along with image areas such as figures, formulas, and tables, and a total of 1,123 presentation material images were extracted through this. Among them, 831 sheets of train data, 192 sheets of validation data, and 100 sheets of test data were used. For the object recognition model, each image was largely classified into two types, and pictorial materials were labeled as "Figure" and formulas as "Formula". The labeling object of Train data consists of 1,179 "Figure" and 537 "Formula" objects, and the Validation data consists of 414 "Figure" and 187 "Formula" objects. Also, in the test data, 114 Figure" and 18 "Formula" objects. It is a dog.

STT 성능 평가를 위한 Test 데이터는 5개의 영상으로 총 71분 6초의 발화 내용을 사용하였다. The test data for the evaluation of STT performance consisted of 5 images, and a total of 71 minutes and 6 seconds of speech was used.

도 9는 MASK-RCNN의 사전학습모델에 따라 전이학습한 loss graph를 보여준다. 해당 결과에 따르면, loss 가 약 0.7 부근에서 수렴하는 것을 확인할 수 있다. 본 실험에서는 과적합(overfitting)이 발생하기 전 모델 중 loss가 가장 적은 Epoch인 95를 사용하였다 (Training loss: 0.727083, Validation loss: 0.323328).9 shows a loss graph obtained by transfer learning according to the MASK-RCNN pre-learning model. According to the result, it can be confirmed that the loss converges around 0.7. In this experiment, epoch 95 with the least loss among the models before overfitting occurred was used (Training loss: 0.727083, Validation loss: 0.323328).

그리고 아래의 [표 1]은 Mask-RCNN 전이학습의 객체 영역 합병을 위한 합병함수 적용 전/후의 평가 결과로 합병함수를 적용한 것이 본 발명이다. 합병 적용 후 recall과 precision의 큰 차이는 발생하지 않지만, 두 경우 모두 높은 정확도로 이미지 영역을 식별함을 알 수 있다. 또한, recall mean은 증가하였고 (약 0.008 증가), precision mean은 감소한 것(약 0.01 감소)을 확인할 수 있다. Recall의 향상은 텍스트 추출 결과의 성능 향상으로 연결되는데 이에 대해서는 후술하기로 한다. And [Table 1] below is the present invention in which the merge function is applied as an evaluation result before/after application of the merge function for merging object domains of Mask-RCNN transfer learning. Although there is no significant difference between recall and precision after merging is applied, it can be seen that the image area is identified with high accuracy in both cases. In addition, it can be seen that the recall mean increased (approximately 0.008 increase) and the precision mean decreased (approximately 0.01 decrease). Recall improvement leads to performance improvement of text extraction results, which will be described later.

[표 1][Table 1]

Figure pat00007
Figure pat00007

그리고 MASK-RCNN과 합병함수 적용에 따른 텍스트 추출성능을 평가한다. 도 10은 본 발명의 프레임워크의 실제 사용 예시로, 전체 과정은 다음과 같다. 먼저 도 10 (a)의 원본 이미지, 즉 추출된 프레임을 MASK-RCNN 모델의 입력으로 넣고 도 10 (b)에서와 같이 프레임 내의 그림, 수식, 표 등과 같은 객체를 추출한다. 그리고 나서 추출된 객체를 제거, 즉 마스킹하면 도 10 (c)에 도시된 바와 같이 일부 영역이 마스킹된 프레임을 생성한다. 생성된 일부 영역이 마스킹된 프레임에 OCR을 적용하여 도 10 (d)에서와 같은 결과 텍스트를 추출할 수 있다. And the text extraction performance according to the application of MASK-RCNN and merger function is evaluated. 10 is an example of actual use of the framework of the present invention, and the entire process is as follows. First, the original image of FIG. 10 (a), that is, the extracted frame, is input to the MASK-RCNN model, and objects such as pictures, equations, and tables in the frame are extracted as shown in FIG. 10 (b). Then, if the extracted object is removed, that is, masked, a frame in which a partial area is masked is generated as shown in FIG. 10 (c). By applying OCR to a frame in which a part of the created region is masked, the resulting text as shown in FIG. 10 (d) can be extracted.

1) 단순히 OCR을 적용하는 경우에는 입력으로 도 10 (a)의 추출된 프레임을 사용하였고, 2) 전이학습 모델에 따라 객체 영역을 마스킹한 후 OCR을 적용하는 경우와 3) 전이학습 모델에 따라 객체를 추출하고 병합된 객체 영역을 마스킹한 후 OCR을 적용하는 경우에는 입력으로 도 10 (c)의 일부 영역이 마스킹된 프레임을 사용하였다. 1) In the case of simply applying OCR, the extracted frame of FIG. 10 (a) was used as an input, 2) in the case of applying OCR after masking the object area according to the transfer learning model, and 3) in the case of applying OCR according to the transfer learning model In the case of applying OCR after extracting an object and masking the merged object region, a frame in which a partial region of FIG. 10 (c) is masked is used as an input.

하기의 표 2는 상술한 4가지의 텍스트 유사도 알고리즘에 대한 결과로, 모든 값은 평균값이며 소수점 네 자리에서 반올림하였다. Euclidean Distance와 Levenshtein Distance는 지표가 낮을수록 유사도가 높음을 의미하며 Cosine Similarity와 Jaro-Winkler Similarity는 지표가 높을수록 유사도가 높음을 의미한다. Cosine Similarity와 Euclidean Distance의 경우 추출된 텍스트를 TF-IDF기반으로 벡터화하여 유사도를 측정하였고, Jaro-Winkler Similarity와 Levenshtein Distance는 추출된 텍스트 자체를 사용하여 유사도를 측정하였다. Table 2 below shows the results of the four text similarity algorithms described above. All values are average values and rounded to four decimal places. For Euclidean Distance and Levenshtein Distance, the lower the index, the higher the similarity, and the higher the index, the higher the similarity for the Cosine Similarity and Jaro-Winkler Similarity. In the case of Cosine Similarity and Euclidean Distance, the extracted text was vectorized based on TF-IDF to measure the similarity, and the Jaro-Winkler Similarity and Levenshtein Distance measured the similarity using the extracted text itself.

성능 평가 결과, 4가지 지표 모두에서 Mask-RCNN을 적용한 경우가 단순 OCR 적용한 경우에 비해 텍스트 추출 성능을 크게 향상시킴을 확인했으며, 본 발명에서와 같이 합병 함수 적용 후 성능은 더욱 상승하였음을 확인했다.As a result of performance evaluation, it was confirmed that the case where Mask-RCNN was applied in all four indicators significantly improved the text extraction performance compared to the case where simple OCR was applied, and the performance was further improved after applying the merge function as in the present invention. .

[표 2][Table 2]

Figure pat00008
Figure pat00008

이하에서는 [표 1]의 합병 함수 적용으로 인한 객체 영역 추출의 Precision, Recall 성능 변화와 [표 2]의 텍스트 추출 성능의 관계를 설명한다. [표 1]에서 합병 함수 적용 이후 약간의 Recall 상승과 약간의 Precision 하락이 관찰된다. 한편, 텍스트 추출 성능 평가 결과에서 합병 함수를 적용하였을 때 모든 지표에서 뚜렷한 성능 향상이 관찰된다. 이는 합병으로 인한 이미지 영역에 대한 Recall의 상승은 텍스트 추출 성능 향상에 긍정적인 영향을 미치지만, Precision의 하락은 텍스트 추출 성능 저하에 영향을 미치지 않았음을 보여준다.The following describes the relationship between the change in precision and recall performance of object area extraction due to the application of the merge function in [Table 1] and the text extraction performance in [Table 2]. In [Table 1], a slight increase in recall and a slight decrease in precision are observed after applying the merge function. On the other hand, when the merge function is applied in the text extraction performance evaluation results, a clear performance improvement is observed in all indicators. This shows that the increase in recall for the image area due to merging had a positive effect on the improvement of text extraction performance, but the decrease in precision did not affect the decrease in text extraction performance.

구체적으로, 합병 적용 이후 Recall이 상승하는 이유는 합병 적용 전 누락된 이미지 영역을 합병 적용을 통하여 추출할 수 있었기 때문이다. 이때, 누락된 이미지 영역에 포함된 텍스트가 합병 적용 이후 제거됨으로써 텍스트 추출 성능의 향상으로 이어진다. 그리고 합병 적용 이후 Precision이 하락하는 이유는 두 영역을 포괄하는 큰 하나의 사각형으로 이미지 영역을 식별하는 합병 함수의 특성상, True Positive에 포함되지 않는 텍스트 또는 배경이 포함될 수 있기 때문이다. [표 2]의 실험 결과에서 텍스트 추출 정확도가 크게 상승한 결과에 따라, Precision의 하락은 추출이 필요한 텍스트의 제거가 아닌 배경이 포함된 결과로 확인할 수 있다. 이는 합병 함수를 불필요한 배경은 포함되지 않도록 개선하여 이미지 영역 인식의 정확도 향상을 시도해 볼 수 있으나, 본 실험에서는 이미지 영역 인식의 정확도 향상이 아닌 텍스트 추출 성능의 정확도 향상을 목표로 하기 때문에 다루지 않는다.Specifically, the reason why recall increases after merging is applied is that the missing image area before merging was extracted through merging. At this time, the text included in the missing image area is removed after applying the merger, leading to improvement in text extraction performance. And the reason why the precision decreases after merging is applied is that text or backgrounds that are not included in true positives may be included due to the nature of the merging function that identifies an image area as a single large rectangle covering two areas. According to the result of the text extraction accuracy greatly increased in the experimental results of [Table 2], the decrease in precision can be confirmed as the result of including the background rather than the removal of the text that needs to be extracted. This can be attempted to improve the accuracy of image area recognition by improving the merge function so that unnecessary backgrounds are not included.

한편 STT 텍스트 추출 성능 평가로 AWS Transcribe의 텍스트 추출 성능을 평가결과이다. [표 3]은 상술한 4가지 텍스트 유사도 알고리즘에 대한 결과이다. Meanwhile, the text extraction performance of AWS Transcribe is evaluated through the STT text extraction performance evaluation. [Table 3] shows the results of the above-mentioned four text similarity algorithms.

[표 3][Table 3]

Figure pat00009
Figure pat00009

이상에서와 같이 Levenshtein Distance의 유사도가 OCR의 결과보다 현저히 낮게 측정되었다. 이는 실제 대본에 포함되지 않는 Filter word가 STT를 통해 포함되었기 때문이다. 이는 요약본 생성과 키워드 추출을 위한 TextRank Algorithm의 사용과 연결되는데 이에 대해서는 후술하기로 한다. As above, the similarity of Levenshtein Distance was significantly lower than that of OCR. This is because filter words not included in the actual script were included through STT. This is connected to the use of TextRank Algorithm for summary creation and keyword extraction, which will be described later.

이하에서는 본 발명의 요약본 생성 및 키워드 생성의 유용성을 평가에 대해 설명하기로 한다. 키워드 추출에 대한 평가를 위해 STT에서 추출한 텍스트, 즉 제2 텍스트만을 이용하여 키워드를 추출한 결과값과, 본 발명에서와 같이 제1 텍스트(영역 합병 후 추출된 텍스트)와 제2 텍스트를 함께 이용하여 키워드를 추출한 결과값을 비교하였다. Hereinafter, the usefulness of the summary creation and keyword generation of the present invention will be described for evaluation. For evaluation of keyword extraction, the text extracted from the STT, that is, the result value of extracting the keyword using only the second text, and the first text (text extracted after region merging) and the second text are used together as in the present invention The results of extracting keywords were compared.

먼저 도 11은 실제 TextRank 알고리즘을 바탕으로 요약본을 만든 결과물이다. 요약본은 충분히 유용성을 보이는데, 이는 STT 텍스트 추출물에서 filler word와 같이 무의미한 문장들이 삭제된 것에서 비롯된 것임을 확인할 수 있다.First, Figure 11 is the result of making a summary based on the actual TextRank algorithm. The summary shows sufficient usefulness, and it can be confirmed that this is due to the deletion of meaningless sentences such as filler words from the STT text extract.

한편 도 12는 STT를 통한 텍스트 추출물, 즉 제2 텍스트만을 사용한 키워드 결과물과 본 발명에서와 같이 제1 텍스트 및 제2 텍스트를 함께 사용한 키워드 결과물을 비교한 도면이다. 두 결과물 모두 중요한키워드를 기준으로 내림차순 하였다. 키워드 결과물 모두 중요 키워드는 상단에 나타나는 것은 동일하지만 밑으로 내려갈 수록 제2 텍스트만을 이용한 키워드에서는 little, earlier와 같이 문맥을 파악해야 의미를 파악할 수 있는 단어들이 추출된 반면 본 발명에서와 같이 제1 텍스트 및 제2 텍스트를 함께 이용한 키워드에서는 밑으로 내려가도 비교적 단어들이 명사위주로 추출된 것을 확인할 수 있다. 이를 통해 실제 키워드를 추출하는 작업에는 제1 텍스트 및 제2 텍스트를 입력값으로 설정하는 것이 비교적 유의미하다는 것을 알 수 있다.Meanwhile, FIG. 12 is a diagram comparing text extraction through STT, that is, a keyword result using only the second text and a keyword result using both the first text and the second text as in the present invention. Both results were ranked in descending order based on important keywords. In all of the keyword results, the important keywords appear at the top, but as they go down, words that can be understood only by understanding the context, such as little and earlier, are extracted from keywords using only the second text, while as in the present invention, the first text And in the keywords using the second text together, it can be confirmed that comparatively words are extracted based on nouns even when going down. From this, it can be seen that setting the first text and the second text as input values is relatively meaningful in the task of extracting actual keywords.

상술한 바와 같이 본 실시예에 따른 발표 동영상 요약방법은 발표자료에 이미지 영역, 즉 객체 영역을 높은 정확도고 인식함을 보였으며, 이러한 객체 영역의 정확한 인식이 텍스트 추출 정확도의 성능을 크게 향상시킴을 알 수 있다. 특히 텍스트 추출 정확도의 성능향상을 위해 객체 영역이 겹칠 경우 영역에 대한 교집합을 구하는 합병함수를 적용한 경우, 그렇지 않은 경우에 비하여 텍스트 추출 성능 정확도는 크게 향상시키는 것을 알 수 있다. As described above, it was shown that the presentation video summary method according to this embodiment recognizes the image area, that is, the object area, in the presentation material with high accuracy, and the accurate recognition of this object area greatly improves the performance of text extraction accuracy. Able to know. In particular, it can be seen that when the merge function for obtaining the intersection of object regions is applied to improve the performance of text extraction accuracy, the text extraction performance accuracy is greatly improved compared to the case where object regions overlap.

이와 같은 본 발명의 발표 동영상 요약방법은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. The presentation video summary method of the present invention can be implemented in the form of program instructions that can be executed through various computer components and recorded on a computer-readable recording medium. The computer readable recording medium may include program instructions, data files, data structures, etc. alone or in combination.

상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. Program instructions recorded on the computer-readable recording medium may be those specially designed and configured for the present invention, or those known and usable to those skilled in the art of computer software.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD 와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical recording media such as CD-ROMs and DVDs, and magneto-optical media such as floptical disks. media), and hardware devices specially configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.Examples of program instructions include high-level language codes that can be executed by a computer using an interpreter or the like as well as machine language codes such as those produced by a compiler. The hardware device may be configured to act as one or more software modules to perform processing according to the present invention and vice versa.

이상에서는 본 발명의 다양한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.Although various embodiments of the present invention have been shown and described above, the present invention is not limited to the specific embodiments described above, and is commonly used in the technical field to which the present invention pertains without departing from the gist of the present invention claimed in the claims. Of course, various modifications are possible by those with knowledge of, and these modifications should not be individually understood from the technical spirit or perspective of the present invention.

100 : 발표 동영상 요약장치 110 : 입력부
120 : 통신부 130 : 저장부
140 : 제어부 141 : 이미지부
1411 : 프레임 추출부 1413 : 객체 추출부
14131 : 영역 병합부 1415 : 텍스트판독부
1417 : 군집화부 143 : 음성부
1431 : 텍스트추출부 1433 : 분석부
145 : 결합부 150 : 출력부
100: presentation video summary device 110: input unit
120: communication unit 130: storage unit
140: control unit 141: image unit
1411: frame extraction unit 1413: object extraction unit
14131: region merging unit 1415: text reading unit
1417: clustering unit 143: voice unit
1431: text extraction unit 1433: analysis unit
145: coupling unit 150: output unit

Claims (5)

발표 동영상 요약장치에서 수행되는 발표 동영상 요약방법에 있어서,
발표 동영상을 수신하는 단계;
상기 발표 동영상으로부터 프레임을 추출하는 단계;
추출된 프레임 내에서 객체를 추출하고, 상기 추출된 프레임 내에서 추출된 객체의 영역을 마스킹하는 단계;
일부 영역이 마스킹된 프레임 내의 문자를 판독하여 제1 텍스트를 추출하는 단계;
추출된 제1 텍스트를 군집화하는 단계; 및
군집화된 데이터에 기초하여 상기 발표 동영상을 문서화하는 단계를 포함하는 발표 동영상 요약방법.
In the presentation video summary method performed by the presentation video summary device,
Receiving an announcement video;
extracting frames from the presentation video;
extracting an object within the extracted frame, and masking a region of the extracted object within the extracted frame;
extracting first text by reading characters in a frame in which a partial region is masked;
clustering the extracted first text; and
A method for summarizing a presentation video comprising the step of documenting the presentation video based on the clustered data.
제1항에 있어서,
상기 발표 동영상에 포함된 음성으로부터 제2 텍스트를 추출하는 단계;
추출된 제2 텍스트를 기설정된 함수를 통해 일정 비율로 요약하여 요약본을 생성하는 단계; 및
상기 추출된 제1 텍스트와 상기 제2 텍스트에 기초하여 키워드를 추출하는 단계를 더 포함하는 것을 특징으로 하는 발표 동영상 요약방법.
According to claim 1,
extracting second text from audio included in the presentation video;
generating a summary by summarizing the extracted second text at a predetermined ratio through a preset function; and
The presentation video summary method further comprising extracting a keyword based on the extracted first text and the extracted second text.
제2항에 있어서,
상기 마스킹하는 단계에서는,
상기 프레임 내에서 복수의 객체가 추출되고 각 객체의 영역이 서로 중첩되면, 각 객체의 영역을 병합하여 하나의 이미지로 통합하고, 상기 추출된 프레임 내에서 병합된 이미지를 마스킹하며,
상기 문서화하는 단계에서는,
상기 군집화된 데이터, 상기 병합된 이미지, 상기 요약본 및 상기 키워드에 기초하여 상기 발표 동영상을 문서화하는 것을 특징으로 하는 발표 동영상 요약방법.
According to claim 2,
In the masking step,
When a plurality of objects are extracted from the frame and the regions of each object overlap each other, the regions of each object are merged and integrated into a single image, and the merged image is masked in the extracted frame;
In the documenting step,
and documenting the presentation video based on the clustered data, the merged image, the summary, and the keyword.
제1항에 있어서,
상기 제1 텍스트를 추출하는 단계에서는,
상기 제1 텍스트와 함께 상기 마스킹된 프레임 내에서의 상기 제1 텍스트의 위치정보를 함께 추출하고,
상기 군집화하는 단계에서는,
추출된 위치정보에 기초해 상기 추출된 제1 텍스트를 군집화하는 것을 특징으로 하는 발표 동영상 요약방법.
According to claim 1,
In the step of extracting the first text,
Extracting location information of the first text in the masked frame together with the first text;
In the clustering step,
A method for summarizing a presentation video, characterized in that the extracted first text is clustered based on the extracted location information.
수신된 발표 동영상으로부터 프레임을 추출하고, 추출된 프레임 내에서 객체를 추출하여 상기 추출된 프레임 내에서 추출된 객체의 영역을 마스킹하며, 일부 영역이 마스킹된 프레임 내의 문자를 판독하여 제1 텍스트를 추출하고, 추출된 제1 텍스트를 군집화하는 이미지부;
상기 수신된 발표 동영상에 포함된 음성으로부터 제2 텍스트를 추출하고, 추출된 제2 텍스트를 기설정된 함수를 통해 일정 비율로 요약하여 요약본을 생성하며, 상기 추출된 제1 텍스트와 상기 제2 텍스트에 기초하여 키워드를 추출하는 음성부; 및
군집화된 데이터, 상기 요약본 및 상기 키워드에 기초하여 상기 발표 동영상을 문서화하는 결합부를 포함하는 발표 동영상 요약장치.
A frame is extracted from the received presentation video, an object is extracted from the extracted frame, an area of the object extracted from the extracted frame is masked, and a character in the frame in which a partial area is masked is read to extract the first text and an image unit which clusters the extracted first text;
Second text is extracted from the voice included in the received presentation video, and a summary is generated by summarizing the extracted second text at a predetermined ratio through a preset function, and the extracted first text and the second text are summarized. a voice unit for extracting keywords based on; and
A presentation video summary device comprising a combiner for documenting the presentation video based on the clustered data, the summary, and the keywords.
KR1020210181285A 2021-12-17 2021-12-17 Presentation video summary method and summary device for performing the same KR20230092161A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210181285A KR20230092161A (en) 2021-12-17 2021-12-17 Presentation video summary method and summary device for performing the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210181285A KR20230092161A (en) 2021-12-17 2021-12-17 Presentation video summary method and summary device for performing the same

Publications (1)

Publication Number Publication Date
KR20230092161A true KR20230092161A (en) 2023-06-26

Family

ID=86947965

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210181285A KR20230092161A (en) 2021-12-17 2021-12-17 Presentation video summary method and summary device for performing the same

Country Status (1)

Country Link
KR (1) KR20230092161A (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110121964A (en) 2010-05-03 2011-11-09 엔에이치엔(주) System and method for ranking paper search

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110121964A (en) 2010-05-03 2011-11-09 엔에이치엔(주) System and method for ranking paper search

Similar Documents

Publication Publication Date Title
CN107291723B (en) Method and device for classifying webpage texts and method and device for identifying webpage texts
CN112801010B (en) Visual rich document information extraction method for actual OCR scene
US20090144277A1 (en) Electronic table of contents entry classification and labeling scheme
CN106294344B (en) Video retrieval method and device
CN113569050B (en) Method and device for automatically constructing government affair field knowledge map based on deep learning
CN104881428B (en) A kind of hum pattern extraction, search method and the device of hum pattern webpage
CN112633431A (en) Tibetan-Chinese bilingual scene character recognition method based on CRNN and CTC
CN113469067A (en) Document analysis method and device, computer equipment and storage medium
CN114118053A (en) Contract information extraction method and device
Baidya et al. LectureKhoj: automatic tagging and semantic segmentation of online lecture videos
CN114357206A (en) Education video color subtitle generation method and system based on semantic analysis
US20220101060A1 (en) Text partitioning method, text classifying method, apparatus, device and storage medium
Worring et al. Content based internet access to paper documents
US20120197894A1 (en) Apparatus and method for processing documents to extract expressions and descriptions
KR20230092161A (en) Presentation video summary method and summary device for performing the same
CN114691907A (en) Cross-modal retrieval method, device and medium
Xu et al. Estimating similarity of rich internet pages using visual information
CN114417860A (en) Information detection method, device and equipment
CN116029280A (en) Method, device, computing equipment and storage medium for extracting key information of document
Gandhi et al. Topic Transition in Educational Videos Using Visually Salient Words.
CN111898371A (en) Ontology construction method and device for rational design knowledge and computer storage medium
CN114222193B (en) Video subtitle time alignment model training method and system
US20230326046A1 (en) Application matching method and application matching device
US20220414336A1 (en) Semantic Difference Characterization for Documents
CN111898370B (en) Method and device for acquiring design rational knowledge and computer storage medium