KR20210144082A - Method of detecting valuable sections of video lectures, computer program and computer-readable recording medium - Google Patents

Method of detecting valuable sections of video lectures, computer program and computer-readable recording medium Download PDF

Info

Publication number
KR20210144082A
KR20210144082A KR1020200060866A KR20200060866A KR20210144082A KR 20210144082 A KR20210144082 A KR 20210144082A KR 1020200060866 A KR1020200060866 A KR 1020200060866A KR 20200060866 A KR20200060866 A KR 20200060866A KR 20210144082 A KR20210144082 A KR 20210144082A
Authority
KR
South Korea
Prior art keywords
section
voice
instructor
video
detecting
Prior art date
Application number
KR1020200060866A
Other languages
Korean (ko)
Other versions
KR102412863B1 (en
Inventor
김지영
Original Assignee
주식회사 윌비소프트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 윌비소프트 filed Critical 주식회사 윌비소프트
Priority to KR1020200060866A priority Critical patent/KR102412863B1/en
Priority to PCT/KR2020/013866 priority patent/WO2021235615A1/en
Publication of KR20210144082A publication Critical patent/KR20210144082A/en
Application granted granted Critical
Publication of KR102412863B1 publication Critical patent/KR102412863B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • G06K9/00597
    • G06K9/00624
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Ophthalmology & Optometry (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

The present invention relates to a method for detecting an important section of a video lecture comprising: a step of extracting at least one frontal gaze section wherein an instructor continuously stares straight ahead for a predetermined time during a video lecture; a step of calculating a voice analysis result for each of the extracted at least one frontal gaze section; a step of deriving an important section detection model using the voice analysis result and the reference data; and a step of detecting the important section using the derived important section detection model. Therefore, the present invention enables to provide a method for detecting the important section of the video lecture using a model for detecting the important section derived using the lecture characteristics of the instructor.

Description

동영상 강의의 중요구간 탐지 방법, 컴퓨터 프로그램 및 컴퓨터 판독가능 기록 매체{Method of detecting valuable sections of video lectures, computer program and computer-readable recording medium} Method of detecting valuable sections of video lectures, computer program and computer-readable recording medium

본 발명은 동영상 강의의 중요구간 탐지 방법에 관한 것으로서, 보다 상세하게는 강사의 강의 특성에 기반한 동영상 강의의 중요구간 탐지 방법에 관한 것이다. The present invention relates to a method for detecting an important section of a video lecture, and more particularly, to a method for detecting an important section of a video lecture based on the lecture characteristics of an instructor.

동영상 강의는 시공간의 제약을 받지 않을 뿐 아니라 경제적인 효율성으로 인해 기존 면대면 강의를 상당 부분 보조하거나 대체하고 있다. Video lectures are not limited by time and space, but also substantially subsidize or replace the existing face-to-face lectures due to economic efficiency.

동영상 강의를 이용하여 공부하는 학습자들은 주어진 강의를 수동적으로 시청하기만 하는 것이 아니라, 다양한 재생 제어 기능을 이용해 동영상 강의를 보다 능동적으로 활용하고 있다. Learners who study using video lectures are not only passively watching a given lecture, but are more actively using video lectures by using various playback control functions.

특히 학습자들은 강의 주제와 관련된 중요한 곳이나 복습을 해야 하는 어려운 곳, 재미있는 곳 등을 빨리 찾아 해당 위치로 이동하거나 찾은 곳을 저장하기 원한다. 이때 학습자들이 동영상 내에서 원하는 곳으로 이동하기 위해 사용할 수 있는 방법은, 정해진 시간만큼 앞뒤로 이동하는 방법, 인덱싱된 목차의 장절 단위로 이동하는 방법, 마우스를 이용하여 원하는 위치를 어립잡아 이동하는 방법 등이 대부분이어서 학습자들의 요구를 만족시키기에는 충분치 않은 실정이다. In particular, learners want to quickly find important places related to the lecture topic, difficult places to review, interesting places, etc., and move to or save the found places. At this time, the methods that learners can use to move to the desired place within the video include moving back and forth for a set amount of time, moving the indexed table of contents chapter by verse, and using the mouse to move to the desired position. Most of these are insufficient to satisfy the needs of learners.

최근 들어 인공지능 분야에서 기계학습을 이용해 동영상 강의 내의 중요한 정보를 탐색하는 방법에 대한 연구가 진행되고 있으나, 이들 연구는 대부분 동영상 강의에서 원하는 키워드가 있는 위치를 탐색할 수 있도록 해주는 방식이어서, 강의 키워드 추출에 필요한 어휘 사전, 강의 자막, 학습자의 피드백 등의 정보 등을 사전에 추가로 필요로 한다는 단점이 있다. Recently, in the field of artificial intelligence, research on how to search for important information in video lectures using machine learning is being conducted. There is a disadvantage in that information such as a vocabulary dictionary, lecture subtitles, and learner feedback required for extraction is additionally required in advance.

한편, 동영상 강의에 대한 성인 학습자의 학습 만족도는 강사의 출연 여부가 학습 만족도에 크게 영향을 미치지 않는다. 그러나, 초중고 학생을 대상으로 하는 동영상 강의는 강사의 출연 자체가 학생들에게 교수실재감을 부여하고 학습 만족도나 학습 효과의 향상을 가져오는 것으로 알려져 있다. 이러한 이유로 대부분의 초중고 학생용 동영상 강의는 강사 출연형으로 제작된다. On the other hand, in the learning satisfaction of adult learners with respect to video lectures, the presence or absence of the instructor does not significantly affect the learning satisfaction. However, in video lectures for elementary, middle and high school students, it is known that the lecturer's appearance itself gives students a sense of teaching reality and improves learning satisfaction or learning effect. For this reason, most of the video lectures for elementary, middle and high school students are produced with lecturers appearing.

본 발명자는, 강사는 강의 주제를 더 효과적으로 전달하기 위해 강의의 분위기나 흐름을 인위적으로 조정하는데, 특히 강조하고자 하는 내용을 설명하는 경우에는 이를 부각시킬 목적으로 그렇지 않은 부분을 설명할 때와는 확연히 구별되는 강사의 강의 특성을 보임을 발견하였다. In the present inventor, the instructor artificially adjusts the atmosphere or flow of the lecture to more effectively convey the lecture topic. In particular, when explaining the content to be emphasized, it is clearly different from when explaining the part that is not in order to emphasize it. It was found that the lecture characteristics of the instructor were distinguished.

따라서, 강사가 출연하는 동영상 강의에 있어서 중요구간을 탐지하는 경우에 있어서는, 키워드 위주의 데이터에 기반하는 대신, 이러한 강사의 강의 특성에 기반하는 것이 효과적일 수 있을 것으로 예상하였다. Therefore, in the case of detecting an important section in a video lecture in which an instructor appears, it was expected that it would be effective to be based on the lecture characteristics of the instructor instead of based on keyword-oriented data.

KR 1205388 B1KR 1205388 B1 KR 0593837 B1KR 0593837 B1

이로써, 본 발명의 목적은 키워드 위주의 데이터에 기반하는 대신, 강사의 강의 특성에 기반한 동영상 강의의 중요구간 탐지 방법을 제공하는 데 있다. Accordingly, an object of the present invention is to provide a method for detecting important sections of a video lecture based on the lecture characteristics of the instructor, instead of based on keyword-oriented data.

본 발명의 다른 목적은 강사의 강의 특성을 이용해 도출된 중요구간 탐지 모델을 이용한 동영상 강의의 중요구간 탐지 방법을 제공하는 데 있다. Another object of the present invention is to provide a method for detecting important sections of a video lecture using a critical section detection model derived using lecture characteristics of an instructor.

본 발명이 해결하고자 하는 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The problems to be solved by the present invention are not limited to the problems mentioned above, and other problems not mentioned will be clearly understood by those skilled in the art from the following description.

상기 목적은, 본 발명의 제1 측면에 따라, The object is, according to a first aspect of the present invention,

동영상 강의 중 소정 시간 동안 강사가 지속하여 정면을 응시한, 적어도 하나의 정면응시구간을 추출하는 단계; extracting at least one frontal gaze section in which the instructor continuously gazed at the front for a predetermined time during the video lecture;

상기 추출된 적어도 하나의 정면응시구간 각각에 대하여, 음성분석 결과를 산출하는 단계; calculating a voice analysis result for each of the extracted at least one frontal gaze section;

상기 음성분석 결과 및 기준 데이터를 이용해 중요구간 탐지 모델을 도출하는 단계; 및deriving an important section detection model using the voice analysis result and reference data; and

상기 도출된 중요구간 탐지 모델을 이용해 중요구간을 탐지하는 단계를 포함하는, Including the step of detecting a critical section using the derived critical section detection model,

동영상 강의의 중요구간 탐지 방법에 의해 달성된다.It is achieved by the method of detecting critical sections of video lectures.

이때, 상기 음성분석 결과는 강사의 음성의 피치 및 강사의 음성의 세기를 포함하는 것이 바람직하다. In this case, the voice analysis result preferably includes the pitch of the instructor's voice and the intensity of the instructor's voice.

또한, 상기 기준 데이터는 전문가에 의한 식별 값이고, In addition, the reference data is an identification value by an expert,

상기 중요구간 탐지 모델을 도출하는 단계는, The step of deriving the critical section detection model is,

상기 음성분석 결과 및 상기 기준 데이터를 훈련용 데이터로 하는 기계 학습에 의하는 것일 수 있고, 상기 기계 학습은, 상기 음성분석 결과 및 상기 기준 데이터를 훈련용 데이터로 로지스틱 회귀 분석을 실시하여 상기 중요구간 탐지 모델의 최적의 파라미터 값을 결정하는 것에 의하는 것이 바람직하다. It may be by machine learning using the voice analysis result and the reference data as training data, and the machine learning is the critical section by performing logistic regression analysis using the voice analysis result and the reference data as training data. Preferably by determining the optimal parameter values of the detection model.

나아가, 상기 적어도 하나의 정면응시구간을 추출하는 단계는, Furthermore, the step of extracting the at least one frontal gaze section,

소정의 얼굴인식 프로그램을 이용해 동영상 강의 중 5초 이상 강사가 지속하여 정면을 응시한, 적어도 하나의 정면응시구간을 추출하는 것일 수 있다. It may be to extract at least one frontal gaze section in which the instructor continuously gazes straight ahead for 5 seconds or more during a video lecture using a predetermined face recognition program.

또한, 상기 음성분석 결과를 산출하는 단계는, 상기 추출된 적어도 하나의 정면응시구간 각각에 대하여, 소정의 음성분석 프로그램을 이용해 강사의 음성의 피치 및 강사의 음성의 세기의 구간별 대표값을 산출하고, 표준화하는 것일 수 있다. In addition, the calculating of the result of the voice analysis includes calculating a representative value for each section of the pitch of the instructor's voice and the intensity of the instructor's voice using a predetermined voice analysis program for each of the extracted at least one frontal gaze section. and can be standardized.

이때, 상기 구간별 대표값은, 평균값, 최대값, 최소값, 중앙값 중 하나인 것이 바람직하다. In this case, the representative value for each section is preferably one of an average value, a maximum value, a minimum value, and a median value.

상기 목적은, 또한 본 발명의 제2 측면에 따라, Said object is also according to a second aspect of the invention,

상기의 방법을 수행하는 프로그램을 기록한 컴퓨터 판독가능 기록 매체에 의해 달성된다.It is achieved by a computer-readable recording medium recording a program for performing the above method.

나아가, 상기 목적은 또한 본 발명의 제3 측면에 따라, Furthermore, the object is also according to a third aspect of the invention,

상기의 방법을 하드웨어와의 결합을 통해 실행시키기 위한 매체에 저장된 컴퓨터 프로그램에 의해 달성된다. It is achieved by a computer program stored in a medium for executing the above method through combination with hardware.

상기한 바와 같은 동영상 강의의 중요구간 탐지 방법에 따르면 키워드 위주의 데이터에 기반하는 대신, 강사의 강의 특성에 기반한 동영상 강의의 중요구간 탐지 방법을 제공하는 장점이 있다. According to the method for detecting important sections of a video lecture as described above, there is an advantage of providing a method of detecting important sections of a video lecture based on the lecture characteristics of the instructor instead of based on keyword-oriented data.

또한 본 발명의 동영상 강의의 중요구간 탐지 방법에 따르면 강사의 강의 특성을 이용해 도출된 중요구간 탐지 모델을 이용한 동영상 강의의 중요구간 탐지 방법을 제공하는 장점이 있다. In addition, according to the method for detecting important sections of a video lecture of the present invention, there is an advantage of providing a method for detecting important sections of a video lecture using a model for detecting important sections derived using the lecture characteristics of the instructor.

도 1은 본 발명에 따른 동영상 강의의 중요구간 탐지 방법의 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 정면응시구간 추출의 예를 보여주는 도면이다.
도 3은 본 발명의 일 실시예에 따른 강사의 음성 피치 정보를 산출하는 예를 보여주는 도면이다.
도 4는 본 발명의 일 실시예에 따른 강사의 음성의 세기 정보를 산출하는 예를 보여주는 도면이다.
1 is a flowchart of a method for detecting an important section of a video lecture according to the present invention.
2 is a view showing an example of extraction of the frontal gaze section according to an embodiment of the present invention.
3 is a diagram illustrating an example of calculating the instructor's voice pitch information according to an embodiment of the present invention.
4 is a diagram illustrating an example of calculating intensity information of an instructor's voice according to an embodiment of the present invention.

이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명에 따른 예시적 실시예를 상세하게 설명한다. 다만, 본 발명이 예시적 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조부호는 실질적으로 동일한 기능을 수행하는 부재를 나타낸다.Hereinafter, exemplary embodiments according to the present invention will be described in detail with reference to the contents described in the accompanying drawings. However, the present invention is not limited or limited by the exemplary embodiments. The same reference numerals provided in the respective drawings indicate members that perform substantially the same functions.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. The terms used in the present application are only used to describe specific embodiments, and are not intended to limit the present invention. The singular expression includes the plural expression unless the context clearly dictates otherwise.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.The terms used in the present invention have been selected as currently widely used general terms as possible while considering the functions in the present invention, but these may vary depending on the intention or precedent of a person skilled in the art, the emergence of new technology, and the like. In addition, in a specific case, there is a term arbitrarily selected by the applicant, and in this case, the meaning will be described in detail in the description of the corresponding invention. Therefore, the term used in the present invention should be defined based on the meaning of the term and the overall content of the present invention, rather than the name of a simple term.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다.When a part "includes" a certain element throughout the specification, this means that other elements may be further included, rather than excluding other elements, unless otherwise stated.

발명의 배경이 되는 기술 부분에서 언급한 바와 같이, 강사는 강의 주제를 더 효과적으로 전달하기 위해 강의의 분위기나 흐름을 인위적으로 조정하는데, 특히 강조하고자 하는 내용을 설명하는 경우에는 이를 부각시킬 목적으로 그렇지 않은 부분을 설명할 때와는 확연히 구별되는 강사의 강의 특성을 보이게 된다.As mentioned in the description of the background of the invention, the instructor artificially adjusts the atmosphere or flow of the lecture in order to more effectively convey the subject of the lecture. It shows the characteristics of the lecturer's lecture that is clearly different from the case where he explains the parts that are not.

이때 강조하고자 하는 내용을 설명할 때의 강사의 강의 특성으로는 첫째, 학습자를 집중시키기 위해 강사의 얼굴이 정면을 응시한다는 점(정면응시 특성)과, 둘째 중요한 내용을 더 효과적으로 전달하기 위해 음성의 피치(pitch) 및 세기(intensity)를 조절한다는 점(음성 사용 특성)이다. At this time, the lecture characteristics of the instructor when explaining the content to be emphasized are: first, that the instructor's face looks straight ahead in order to focus the learner (frontal gaze characteristic), and secondly, the voice The point is that it controls pitch and intensity (a characteristic of using voice).

동영상 강의는 강사와 학습자가 분리된 채 학습이 일어나기 때문에 직접적인 눈 맞춤은 불가능하다. 하지만, 강사는 눈 맞춤 효과를 얻기 위해 정면응시라는 촬영기법을 사용할 수 있고, 이때 이를 보는 학습자는 강사가 자신에게 눈을 맞추고 직접 설명을 해주는 것 같은 느낌을 받게 되어 학습자의 집중도가 향상될 수 있다.In video lectures, direct eye contact is impossible because the learning takes place with the instructor and the learner separated. However, the instructor can use a shooting technique called frontal gaze to achieve the effect of eye contact, and the learner who sees this can feel as if the instructor is making eye contact with him and giving a direct explanation, so the learner's concentration can be improved. .

또한 동영상 강의 뿐만 아니라, 강사는 학습자의 집중을 유도하거나 중요한 내용의 전달력을 높이기 위해 강조하는 부분에서 톤을 높여 크게 말하는 경향이 있는데, 이는 강사의 음성의 피치가 높고, 목소리에 실리는 에너지를 나타내는 세기가 커지게 되는 것을 의미한다. 중요구간에서 나타나는 강사의 이러한 음성 사용 특성은 중요구간 이외의 구간을 설명할 때와는 현저히 구별되는 것으로서, 중요구간인지 아닌지 판단하는 중요한 기준이 될 수 있다. In addition to video lectures, instructors tend to speak louder by raising the tone in the areas emphasized to induce the learner's concentration or to improve the delivery of important content. It means that the displayed intensity increases. This characteristic of the instructor's voice used in the important section is significantly different from when explaining the section other than the important section, and can be an important criterion for judging whether it is an important section or not.

본 발명에 따른 동영상 강의의 중요구간 탐지 방법은, 이러한 점에 착안하여 강사의 강의 특성을 식별하고, 그 특성을 이용하여 동영상 강의의 중요구간을 탐지할 수 있는 모델을 도출하도록 개발되었다. The method for detecting important sections of a video lecture according to the present invention was developed to identify the lecture characteristics of the instructor in consideration of this point, and to derive a model capable of detecting the important sections of the video lecture using the characteristics.

도 1은 본 발명에 따른 동영상 강의의 중요구간 탐지 방법의 흐름도이다. 1 is a flowchart of a method for detecting an important section of a video lecture according to the present invention.

도 1을 참조하면, 본 발명에 따른 동영상 강의 중요구간 탐지 방법은, 필수적으로 정면응시구간 추출 단계(S100), 음성분석 결과 산출 단계(S200), 및 중요구간 탐지 모델 도출 단계(S300)를 포함한다. 물론, 도출된 중요구간 탐지 모델을 이용해 중요구간을 탐지하는 중요구간 탐지 단계도 포함할 수 있다. 1 , the method for detecting important sections of a video lecture according to the present invention essentially includes a step of extracting a frontal gaze section (S100), a step of calculating a voice analysis result (S200), and a step of deriving an important section detection model (S300) do. Of course, a critical section detection step of detecting a critical section using the derived critical section detection model may also be included.

먼저, 정면응시구간 추출 단계(S100)에서는, 동영상 강의 중 소정 시간 동안 강사가 지속하여 정면을 응시한, 적어도 하나의 정면응시구간을 추출한다. First, in the step of extracting the frontal gaze section ( S100 ), at least one frontal gaze section in which the instructor continuously gazes at the front for a predetermined time during the video lecture is extracted.

보다 바람직하게는, 소정의 얼굴인식 프로그램을 이용해 동영상 강의 중 5초 이상 강사가 지속하여 정면을 응시한, 적어도 하나의 정면응시구간을 모두 선택 추출할 수 있다. More preferably, using a predetermined face recognition program, it is possible to select and extract all of the at least one frontal gaze section in which the instructor continuously stares at the front for 5 seconds or more during the video lecture.

이때 소정의 얼굴인식 프로그램은, 기존의 얼굴인식 프로그램을 그대로 차용하거나 또는 소정의 프로그램을 이용한 프로그래밍을 통해 구현될 수 있는데, 예를 들어 python(v3.7.1) 및 openCV(v4.1.1)을 이용하여 구현될 수 있다. In this case, the predetermined face recognition program may be implemented by borrowing an existing face recognition program as it is or through programming using a predetermined program, for example, using python (v3.7.1) and openCV (v4.1.1). can be implemented.

정면응시구간의 추출은, 이렇게 구현된 얼굴인식 프로그램을 이용해, 동영상이 재생되면 강사의 얼굴을 인식하고, 인식시작시각, 인식종료시각, 정면응시시간에 해당하는 3 가지 데이터로 구성되는 정면인식 정보를 생성하여 도 2와 같이, 텍스트파일 형태로 출력하는 것으로 실현될 수 있다. The extraction of the frontal gaze section uses the face recognition program implemented in this way to recognize the instructor’s face when the video is played, and the frontal recognition information consisting of three data corresponding to the recognition start time, recognition end time, and frontal gaze time. can be realized by generating and outputting it in the form of a text file, as shown in FIG. 2 .

여기서, 중요구간으로 간주될 수 있는 기준이 되는 정면응시 지속시간은 경험에 의해 또는 실험적으로 결정될 수 있다. Here, the duration of the frontal gaze, which is a criterion that can be regarded as an important section, can be determined empirically or experimentally.

예를 들어, 본 발명자는 중요구간의 정면응시 지속시간을 결정하기 위해 먼저, 임의로 선택된 8 개의 수능 수학 동영상 강의에서 552 개 정면응시 구간을 추출한 후, 수학강사 경력 10년 이상의 전문가 3인의 검증을 거친 중요구간 37개를 선별하여 그 정면응시 지속시간을 조사하였다. 조사 결과 하기의 표 1과 같이 가장 긴 지속시간은 59.56초였고, 가장 짧은 지속시간은 5.07초로서, 5초 미만의 지속시간을 갖는 중요구간은 존재하지 않았다. For example, in order to determine the duration of the frontal gaze of the important section, the present inventor first extracted 552 frontal exam sections from 8 arbitrarily selected SAT math video lectures, and then passed the verification of 3 experts with more than 10 years of experience as a math instructor. 37 important sections were selected and the duration of the frontal gaze was investigated. As a result of the investigation, as shown in Table 1 below, the longest duration was 59.56 seconds, and the shortest duration was 5.07 seconds, and there was no important section having a duration of less than 5 seconds.

구간번호Section number 지속시간(초)Duration (seconds) 구간번호Section number 지속시간(초)Duration (seconds) 구간번호Section number 지속시간(초)Duration (seconds) 1-D1-D 27.927.9 6-C6-C 59.5659.56 8-168-16 5.815.81 1-G1-G 15.9715.97 6-E6-E 5.945.94 8-208-20 6.816.81 2-B2-B 12.0812.08 6-H6-H 13.1513.15 8-288-28 17.8817.88 2-C2-C 6.876.87 6-I6-I 5.845.84 8-308-30 13.1513.15 2-D2-D 10.0810.08 7-A7-A 6.376.37 8-318-31 5.875.87 2-E2-E 5.615.61 7-B7-B 6.446.44 8-328-32 5.075.07 2-F2-F 17.8217.82 7-G7-G 25.5625.56 8-338-33 10.0110.01 2-G2-G 25.5625.56 7-H7-H 17.8817.88 8-348-34 5.875.87 3-C3-C 14.6114.61 7-O7-O 5.175.17 8-358-35 11.8511.85 4-D4-D 5.175.17 8-58-5 8.218.21 8-368-36 5.345.34 5-C5-C 5.875.87 8-88-8 9.149.14 8-378-37 7.317.31 5-D5-D 11.6411.64 8-98-9 9.689.68 8-398-39 14.6814.68 5-F5-F 6.146.14 8-108-10 5.245.24

다음으로, 상기의 임의로 선택된 8 개의 수능 수학 동영상 강의에서 추출된 552 개 정면응시 구간을 지속시간 5초를 기준으로 분류하여 정면응시 이유를 조사하였다. 조사 결과 하기의 표 2와 같이 판서 시 잠깐 정면을 응시하는 정도로, 지속시간 5초 미만인 정면응시 구간은 중요구간이라고 판단될 만한 내용을 담고 있지 않았다. Next, the reason for the frontal gaze was investigated by classifying 552 frontal gaze sections extracted from the above randomly selected 8 SAT math video lectures based on the duration of 5 seconds. As a result of the investigation, as shown in Table 2 below, the section of the frontal gaze with a duration of less than 5 seconds did not contain content that could be judged to be an important section, as shown in Table 2 below.

지속시간 5초 미만의 정면응시 구간Frontal gaze section with duration less than 5 seconds 지속시간 5초 이상의 정면응시 구간Frontal gaze section with a duration of 5 seconds or longer 정면응시 이유Reason for face-to-face 마침표 판서 시period writing poem 개념 설명Conceptual explanation 문제 판서 시when writing a problem 문제해석 및 해석방법 설명Explanation of problem analysis and interpretation method 그래프 지시 시when graphing 문제의 핵심 단서 설명Explain the key clues to the problem 수식 판서 시formula writing poetry 변수 잡는 법 설명Explanation of how to catch a variable 계산 시at the time of calculation 문제 풀이의 핵심 전략 제시Suggest a key strategy for problem solving 문제 조건 지시 시When the problem condition is indicated 주요 용어 설명Key Terms Explained 단어 뜻풀이 시word meaning 풀이 과정 정리Solving process summary 출제 의도 설명Explanation of intent

이와 같이, 두번의 조사 결과에 따라서, 임의로 선택된 8 개의 수능 수학 동영상 강의에 있어서, 중요구간의 정면응시 지속시간은 5초 이상인 것으로 결정되었다. 물론, 어떠한 분야의 동영상 강의를 선택하느냐에 따라서, 중요구간의 정면응시 지속시간의 임계 값은 5초보다 작거나 또는 이보다 클 수 있다. As such, according to the results of the two surveys, in the 8 arbitrarily selected SAT math video lectures, the duration of the frontal gaze in the important section was determined to be 5 seconds or more. Of course, depending on which field of video lecture is selected, the threshold value of the duration of the face-to-face gaze in the important section may be less than or greater than 5 seconds.

이로써, 이러한 소정의 임계 값 이상의 정면응시 지속시간을 갖는 구간을 정면응시구간으로 추출하게 된다. Accordingly, a section having a frontal gaze duration greater than or equal to a predetermined threshold value is extracted as a frontal gaze section.

다음으로, 음성분석 결과 산출 단계(S200)에서는, 상기에서 추출된 적어도 하나의 정면응시구간 각각에 대하여, 음성분석 결과를 산출한다. 이때, 음성분석 결과는 강사의 음성의 피치 및 강사의 음성의 세기를 포함할 수 있다. Next, in the voice analysis result calculation step (S200), a voice analysis result is calculated for each of the at least one frontal gaze section extracted above. In this case, the voice analysis result may include the pitch of the instructor's voice and the intensity of the instructor's voice.

보다 바람직하게는, 상기에서 추출된 적어도 하나의 정면응시구간 각각에 대하여, 소정의 음성분석 프로그램을 이용해 강사의 음성의 피치 및 강사의 음성의 세기의 구간별 대표값을 산출하고, 표준화할 수 있다. More preferably, for each of the at least one frontal gaze section extracted above, a representative value for each section of the pitch of the instructor's voice and the intensity of the instructor's voice can be calculated and standardized using a predetermined voice analysis program. .

상기에서 언급한 바와 같이, 강사는 학습자의 집중을 유도하거나 중요한 내용의 전달력을 높이기 위해 강조하는 부분에서 톤을 높여 크게 말하는 경향이 있는데, 이는 강사의 음성의 피치가 높고, 목소리에 실리는 에너지를 나타내는 세기가 커지게 되는 것을 의미한다. 따라서, 강사의 음성 피치가 높거나 또는 세기가 큰 부분은 중요구간일 확률이 매우 높으므로, 중요구간 탐지 모델을 도출하는 데 적극 활용하는 것이 바람직할 수 있다. As mentioned above, the instructor tends to speak loudly by raising the tone in the part emphasized to induce the learner's concentration or to improve the delivery of important content. This means that the intensity representing Therefore, the part with a high pitch or high intensity of the instructor's voice has a very high probability of being an important section, so it may be desirable to actively utilize it in deriving an important section detection model.

이때 소정의 음성분석 프로그램은, 기존의 음성분석 프로그램을 그대로 차용하거나 또는 소정의 프로그램을 이용한 프로그래밍을 통해 구현될 수 있는데, 예를 들어 praat(v6.1)을 이용하여 구현될 수 있다. In this case, the predetermined voice analysis program may be implemented by borrowing an existing voice analysis program as it is or through programming using a predetermined program, for example, it may be implemented using praat(v6.1).

음성분석 결과 중 음성의 피치는, 이렇게 구현된 음성분석 프로그램을 이용해, 동영상 강의 및/또는 동영상 강의 음성 파일의 소정의 구간에 대하여 도 3의 (b)와 같은, 해당 구간의 음성 피치 정보, 예를 들어 피치의 평균값, 최대값, 최소값, 중앙값으로 제공받을 수 있다. 이때 도 3의 (a)와 같은, 해당 구간의 음성 파형과 피치 그래프를 보여주는 윈도우가 같이 제공될 수 있다. The pitch of the voice among the voice analysis results is, using the voice analysis program implemented in this way, the voice pitch information of the corresponding section, such as in FIG. For example, it may be provided as an average value, a maximum value, a minimum value, and a median value of the pitch. At this time, as shown in (a) of FIG. 3 , a window showing the voice waveform and the pitch graph of the corresponding section may be provided together.

이때 동영상 강의가 아닌 동영상 강의의 음성 파일을 이용해 음성분석을 하는 경우에 있어서는, 먼저 동영상 강의로부터 음성 파일을 추출하는 단계를 더 포함할 수 있다. In this case, in the case of performing voice analysis using an audio file of a video lecture rather than a video lecture, the step of first extracting the audio file from the video lecture may be further included.

물론, 이 음성 피치 정보는, 소정 간격으로 분리된 동영상 강의의 모든 구간에 대해서 제공될 수 있으나, 시간과 비용 측면에서 유리하게, 상기에서 추출된 적어도 하나의 정면응시구간 각각에 대해서만 제공될 수 있다.Of course, this voice pitch information can be provided for all sections of the video lecture separated by a predetermined interval, but advantageously in terms of time and cost, it can be provided only for each of the at least one frontal gaze section extracted above .

여기서, 해당 구간에 대하여 제공되는 피치의 평균값, 최대값, 최소값, 중앙값 중 적어도 하나를 구간별 대표값으로 정의하고 이를 음성분석 결과 중 일부로서 취급할 수 있는데, 특히 해당 구간 전체의 보편적인 특성을 가장 잘 표현하는 평균값이 바람직할 수 있다. Here, at least one of the average value, the maximum value, the minimum value, and the median value of the pitch provided for the corresponding section is defined as a representative value for each section, and this can be treated as a part of the voice analysis result. The average value that best represents it may be desirable.

이와 유사하게, 음성분석 결과 중 음성의 세기는, 이렇게 구현된 음성분석 프로그램을 이용해, 동영상 강의 및/또는 동영상 강의 음성 파일의 소정의 구간에 대하여 도 4의 (b)와 같은, 해당 구간의 세기 정보, 예를 들어 세기의 평균값, 최대값, 최소값으로 제공받을 수 있다. 이때 도 4의 (a)와 같은, 해당 구간의 음성 파형과 세기 그래프를 보여주는 윈도우가 같이 제공될 수 있다. Similarly, the intensity of the voice among the voice analysis results is the intensity of the corresponding section, as shown in FIG. 4(b), for a predetermined section of the video lecture and/or the audio file of the video lecture using the voice analysis program implemented in this way. Information, for example, may be provided as an average value, a maximum value, and a minimum value of the intensity. In this case, as shown in (a) of FIG. 4 , a window showing the voice waveform and the intensity graph of the corresponding section may be provided together.

물론, 이 음성 세기 정보는, 소정 간격으로 분리된 동영상 강의의 모든 구간에 대해서 제공될 수 있으나, 시간과 비용 측면에서 유리하게, 상기에서 추출된 적어도 하나의 정면응시구간 각각에 대해서만 제공될 수 있다.Of course, this voice intensity information may be provided for all sections of the video lecture separated by a predetermined interval, but advantageously in terms of time and cost, it may be provided only for each of the at least one frontal gaze section extracted above .

여기서, 해당 구간에 대하여 제공되는 세기의 평균값, 최대값, 최소값 중 적어도 하나를 구간별 대표값으로 정의하고 이를 음성분석 결과 중 일부로서 취급할 수 있는데, 특히 해당 구간 전체의 보편적인 특성을 가장 잘 표현하는 평균값이 바람직할 수 있다.Here, at least one of the average value, the maximum value, and the minimum value of the intensity provided for the corresponding section can be defined as a representative value for each section and treated as a part of the voice analysis result. An average value expressed may be preferable.

이러한 구간별 대표값으로부터 해당 구간이 중요구간인지 여부를 판단하기 위해서는 비교를 위해 상대적인 값으로 환산하는 것이 필요한데, 이를 표준화라고 지칭하고, 예를 들어 식 (1)을 이용할 수 있다. In order to determine whether a corresponding section is an important section from the representative value for each section, it is necessary to convert it into a relative value for comparison. This is referred to as standardization, and Equation (1) can be used, for example.

Figure pat00001
(1)
Figure pat00001
(One)

여기서, X는 해당 구간의 대표값, m은 전체 동영상 강의의 구간별 대표값의 평균값, σ는 표준편차를 의미한다.Here, X is the representative value of the corresponding section, m is the average value of the representative values for each section of the entire video lecture, and σ is the standard deviation.

이는 해당 구간의 대표값이 평균으로부터 얼마나 떨어져 있는지를 나타내는 값으로서, 예를 들어 어떤 구간의 피치의 대표값의 표준화 값이 양수이면 그 구간에서 강사의 음성 톤이 동영상 내의 평균 음성 톤에 비해 더 높았다고 판단할 수 있다. 마찬가지로 어떤 구간의 세기의 대표값의 표준화 값이 양수이면 그 구간에서 강사의 음성이 동영상 내의 평균 음성에 비해 더 컸다고 판단할 수 있다. This is a value indicating how far the representative value of the corresponding section is from the average. For example, if the standardized value of the representative value of the pitch in a section is positive, the instructor’s voice tone in that section was higher than the average voice tone in the video. can be judged Similarly, if the standardized value of the representative value of the intensity of a certain section is positive, it can be determined that the instructor's voice in that section was larger than the average voice in the video.

다음으로, 중요구간 탐지 모델 도출 단계(S300)에서는, 상기의 음성분석 결과 및 기준 데이터를 이용해 중요구간 탐지 모델을 도출한다. 이때, 기준 데이터는 전문가에 의한 식별 값일 수 있다. 이 식별 값은, 0 또는 1로서, 예를 들어, 중요구간이면 1, 중요구간이 아니라면 0으로 전문가에 의해 부여될 수 있다. 이때 전문가는 인격을 가진 전문인일 수 있고 및/또는 인격을 가진 전문인의 식별 결과에 준하는, 비인격체인 컴퓨터 프로그램에 의한 결과물일 수 있다. Next, in the step of deriving a critical section detection model ( S300 ), a critical section detection model is derived using the voice analysis result and reference data. In this case, the reference data may be an identification value by an expert. The identification value may be 0 or 1, for example, 1 if it is an important interval, and 0 if it is not an important interval, which may be assigned by an expert. In this case, the expert may be a professional with personality and/or may be a result of an impersonal computer program corresponding to the identification result of the professional with personality.

보다 바람직하게, 중요구간 탐지 모델의 도출은, 상기의 음성분석 결과 및 상기의 기준 데이터를 훈련용 데이터로 하는 기계 학습에 의할 수 있고, 이때 이 기계 학습은, 상기의 음성분석 결과 및 상기의 기준 데이터를 훈련용 데이터로 로지스틱 회귀 분석을 실시하여 이 중요구간 탐지 모델의 최적의 파라미터 값을 결정하는 것에 의하는 것이 바람직하다. More preferably, the derivation of the critical section detection model may be performed by machine learning using the speech analysis result and the reference data as training data, wherein the machine learning comprises the speech analysis result and the It is preferable to perform logistic regression analysis using the reference data as training data to determine the optimal parameter value of the critical interval detection model.

로지스틱 회귀 분석은, 그 결과가 0 또는 1에 속할 확률을 예측하는 데 가장 보편적으로 이용되는 분석 방법이다. 본 발명에 따른 중요구간 탐지 모델 역시, 중요구간인지(1) 아닌지(0) 여부를 결정하기 위해 하기의 식 (2)와 같은 로지스틱 함수를 기본적으로 이용한다. Logistic regression analysis is the most commonly used analysis method to predict the probability that a result will fall into 0 or 1. The critical section detection model according to the present invention also basically uses a logistic function as in Equation (2) below to determine whether it is a critical section (1) or not (0).

Figure pat00002
(2)
Figure pat00002
(2)

해당 구간이 중요구간인지 아닌지 여부를 결정하는 변수로서, 본 발명에서는 상기에서 언급한 바와 같이, 추출된 적어도 하나의 정면응시구간 각각에 대하여, 산출된 음성분석 결과를 이용한다. 다시 말하면, (표준화된) 음성 피치의 대표값, 및 (표준화된) 음성 세기의 대표값을 하기의 식 (3)과 같은 선형회귀식의 독립변수로 정의한다. As a variable for determining whether or not the corresponding section is an important section, in the present invention, as mentioned above, the calculated voice analysis result is used for each of the extracted at least one frontal gaze section. In other words, the (normalized) representative value of the voice pitch and the (normalized) representative value of the voice intensity are defined as independent variables of the linear regression equation as in Equation (3) below.

Figure pat00003
(3)
Figure pat00003
(3)

여기서, 변수 p는 (표준화된) 음성 피치의 대표값, i는 (표준화된) 음성 세기의 대표값, ωp 및 ωi는 각각 변수 p와 i에 대한 가중치, b는 선형회귀식의 편향값(bias)를 의미한다. where the variable p is a representative value of the (normalized) voice pitch, i is the representative value of the (normalized) voice intensity, ω p and ω i are the weights for the variables p and i, respectively, and b is the bias value of the linear regression equation. means (bias).

따라서, 식 (2) 및 식 (3)을 이용하면, 그 결과 값이 1(중요구간)로 판단될 확률을 나타내는 회귀 함수를 하기의 식 (4)와 같이 획득할 수 있다. Therefore, using Equations (2) and (3), a regression function representing the probability that the result value is determined to be 1 (important section) can be obtained as in Equation (4) below.

Figure pat00004
(4)
Figure pat00004
(4)

회귀 함수 S(f(p,i))의 결과 값은, 0과 1 사이의 확률 값으로서, 해당 구간을 중요구간인 1로 판단할 확률을 의미한다. 따라서, 최종 결과 값이 0 아니면 1 중의 하나를 갖도록 올림, 버림, 반올림 등을 수행할 수 있는데, 예를 들어 본 발명에서는 플로링을 이용해 반올림한다. The result value of the regression function S(f(p,i)) is a probability value between 0 and 1, and means the probability of determining the corresponding section as 1, which is an important section. Therefore, if the final result value is not 0, rounding, rounding, and rounding may be performed to have one of 1. For example, in the present invention, rounding is performed using flooring.

Figure pat00005
(5)
Figure pat00005
(5)

또한, 중요구간 판단의 오차를 최소화하는 최적의 파라미터(ωp, ωi 및 b) 값을 구하기 위해 최대우도추정법(maximum likelihood estimation)을 사용하는 식 (6)과 같은 비용함수 식을 이용한다. In addition, a cost function equation such as Equation (6) using the maximum likelihood estimation method is used to obtain the optimal parameter values (ω p , ω i and b) that minimize the error in determining the critical section.

Figure pat00006
(6)
Figure pat00006
(6)

여기서, m은 모델 생성에 필요한 표본 구간의 개수, k는 표준 구간 번호, y는 해당 구간에 부여된 전문가 식별 값이다. Here, m is the number of sample intervals required for model generation, k is the standard interval number, and y is the expert identification value assigned to the corresponding interval.

상기의 식 (4) 내지 (6)의 계산은, 기존의 프로그램을 그대로 차용하거나 또는 소정의 프로그램을 이용한 프로그래밍을 통해 구현될 수 있는데, 예를 들어 오픈 소스 소프트웨어인 weka(v3.8)를 이용해 처리되어, 선형회귀식의 최적의 파라미터(ωp, ωi 및 b) 값을 구할 수 있다. Calculations of Equations (4) to (6) above may be implemented by borrowing an existing program as it is or by programming using a predetermined program, for example, using weka (v3.8), an open source software. It can be processed to obtain the optimal values of the parameters (ω p , ω i and b) of the linear regression equation.

예를 들어, 본 발명에서는, 선형회귀식의 최적의 파라미터(ωp, ωi 및 b) 값을 구하기 위해, 상기의 임의로 선택된 8 개의 수능 수학 동영상 강의 중 선택된 7 개의 수학 동영상 강의에서 507 개의 정면응시 구간을 추출한 후, 지속시간이 5초 이상인 구간 80 개를 다시 표본 구간으로 추출하였다. For example, in the present invention, in order to obtain the optimal parameter (ω p , ω i and b) values of the linear regression equation, 507 frontal images are selected from among the above 8 arbitrarily selected 8 SAT math video lectures. After extracting the gaze section, 80 sections with a duration of 5 seconds or longer were again extracted as sample sections.

다음으로, 각 동영상 강의에서 음성 파일을 추출하여, 상기의 80 개의 추출된 해당 표본 구간 각각에 대하여 중요구간이면 1, 중요구간이 아니라면 0으로 전문가 식별 값을 부여하고 오픈소스 소프트웨어인 weka를 이용해 로지스틱 회귀 분석을 실시하였다. 이와 같이 로지스틱 회귀 분석 결과 도출된 최적의 파라미터 정보는, ωp는 1.6288, ωi는 1.5533, 및 b는 1.2254이다. Next, a voice file is extracted from each video lecture, and an expert identification value is assigned to each of the 80 extracted corresponding sample sections as 1 if it is an important section and 0 if it is not an important section, and logistic using the open source software weka. A regression analysis was performed. As such, the optimal parameter information derived as a result of logistic regression analysis is 1.6288 for ω p , 1.5533 for ω i , and 1.2254 for b.

이로써, 로지스틱 회귀 분석을 통해 도출된 파라미터 정보가 대입된 중요구간 탐지 모델은 하기의 식 (7)과 같다. Accordingly, the critical section detection model to which the parameter information derived through logistic regression analysis is substituted is as shown in Equation (7) below.

Figure pat00007
(7)
Figure pat00007
(7)

물론, 상기에서 언급한 바와 같이, 어떠한 분야의 동영상 강의를 선택하느냐에 따라서, 도출되는 최적의 파라미터 정보는 달라질 수 있다. Of course, as mentioned above, the optimal parameter information derived may vary depending on which field of video lecture is selected.

마지막으로, 본 발명에 따라 도출된 중요구간 탐지 모델을 이용해 중요구간을 탐지할 수 있는데, 이하에서는 이와 같이 도출된 중요구간 탐지 모델의 성능 평가 결과를 살펴보기로 한다. Finally, a critical section can be detected using the critical section detection model derived according to the present invention. Hereinafter, the performance evaluation result of the critical section detection model derived as described above will be described.

성능 평가는 전체 데이터를 훈련용과 시험용으로 랜덤하게 추출하여 검증하는 방식인 교차검증 방식을 이용한다. 여기서는, 80 개의 전체 데이터에 대해 10-fold 교차검증으로 정확도, 정밀도, 재현율, F-measure를 구하였다. The performance evaluation uses the cross-validation method, which is a method of randomly extracting and verifying the entire data for training and testing. Here, accuracy, precision, recall, and F-measure were obtained through 10-fold cross-validation for all 80 data sets.

먼저, 중요구간 탐지 모델의 정확도를 살펴보면, 전체 80 개의 구간 중 6 개 구간의 탐지에 오류가 발생하였고, 74 개 구간에 대해서는 중요구간과 중요구간이 아닌 구간을 정확하게 탐지하여 92.5%의 정확도를 나타냈다. First, looking at the accuracy of the critical section detection model, an error occurred in the detection of 6 sections out of 80 sections. .

또한, 중요구간 탐지 모델의 탐지 결과와 전문가 식별 값을 비교한 결과를 정리한 하기의 표 3을 참고하여, 정밀도, 재현율, F-measure를 구한다. In addition, with reference to Table 3 below, which summarizes the results of comparing the detection results of the critical section detection model with the expert identification values, precision, recall, and F-measure are obtained.

중요구간 탐지 모델 결과 값Critical section detection model result value total 1One 00 전문가 식별값expert identification 1One 2323 55 2828 00 1One 5151 5252 total 2424 5656 8080

정밀도는 탐지 모델이 중요구간이라고 탐지한 구간 중 실제 중요구간인 것의 비율을 말한다. 따라서 여기서 정밀도는 95.83%(=23/24*100)이다. 재현율은 실제 중요구간 중 중요구간 탐지 모델이 중요구간이라고 정확히 탐지한 것의 비율이다. 따라서 여기서 재현율은 82.14%(=23/28*100)이다. F-measure는 정밀도와 재현율의 조화평균으로, 여기서는 88.5%(=2*95.83*82.14/(95.83+82.14))이다. Precision refers to the ratio of actual critical intervals among the intervals detected by the detection model as critical intervals. So the precision here is 95.83% (=23/24*100). Recall is the ratio of what the critical section detection model correctly detects as a critical section among the actual critical sections. Therefore, the recall here is 82.14% (=23/28*100). The F-measure is the harmonic mean of precision and recall, here 88.5% (=2*95.83*82.14/(95.83+82.14)).

더 많은 동영상 강의에서 훈련용 데이터를 확보하여 본 발명에 따른 중요구간 탐지 모델의 최적의 파라미터를 찾는다면, 중요구간의 탐지 정확도 및 정밀도 등의 성능 향상을 꾀할 수 있을 것으로 예상된다. If training data are obtained from more video lectures to find the optimal parameters of the critical section detection model according to the present invention, it is expected that performance such as detection accuracy and precision of critical sections can be improved.

한편, 본 발명의 실시예에 따른 방법들은 다양한 컴퓨팅 장치를 통하여 수행될 수 있는 프로그램 명령(instruction) 형태로 구현되어 컴퓨터 판독 가능 기록매체에 기록될 수 있다. Meanwhile, the methods according to an embodiment of the present invention may be implemented in the form of program instructions that can be executed through various computing devices and recorded in a computer-readable recording medium.

상기 프로그램 명령 형태는, 소프트웨어로 통칭될 수 있고, 이는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로 (collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨팅 장치상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The program instruction form may be collectively referred to as software, which may include a computer program, code, instructions, or a combination of one or more of these, and configures the processing device to operate as desired. may be configured or may independently or collectively instruct the processing device. The software and/or data may be any kind of machine, component, physical device, virtual equipment, computer storage medium or device, to be interpreted by or to provide instructions or data to the processing device. may be permanently or temporarily embody in The software may be distributed over networked computing devices, and stored or executed in a distributed manner. Software and data may be stored in one or more computer-readable recording media.

상기 컴퓨터 판독 가능 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시 예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광 기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The computer-readable recording medium may include program instructions, data files, data structures, etc. alone or in combination. The program instructions recorded on the medium may be specially designed and configured for the embodiment, or may be known and used by those skilled in the art of computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floppy disks. - includes magneto-optical media, and hardware devices specially configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine language codes such as those generated by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

요약하면, 본 발명의 동영상 강의의 중요구간 탐지 방법에 따르면 키워드 위주의 데이터에 기반하는 대신, 강사의 강의 특성에 기반한 동영상 강의의 중요구간 탐지 방법을 제공하게 된다. In summary, according to the method of detecting important sections of a video lecture of the present invention, instead of based on keyword-oriented data, a method of detecting important sections of a video lecture based on the lecture characteristics of the instructor is provided.

보다 상세하게는, 본 발명의 동영상 강의의 중요구간 탐지 방법에 따르면 강사의 강의 특성을 이용해 도출된 중요구간 탐지 모델을 이용한 동영상 강의의 중요구간 탐지 방법을 제공하게 된다.More specifically, according to the method for detecting important sections in a video lecture of the present invention, a method for detecting important sections in a video lecture using a critical section detection model derived using lecture characteristics of an instructor is provided.

이로써, 이렇게 탐지된 중요구간은 이에 북마크를 자동으로 삽입하여 학습자가 활용할 수 있도록 해주거나 또는 해당 부분에서 이벤트를 발생시켜 학습자의 집중도를 높이는 데 활용될 수 있다. 또한 탐지된 중요구간을 추출하여 하이라이트 영상이나 홍보 영상을 제작하는 등, 동영상 강의를 더욱 효과적으로 활용할 수 있도록 해준다. Accordingly, the detected important section can be used to automatically insert a bookmark therein so that the learner can use it, or generate an event in the corresponding section to increase the learner's concentration. In addition, by extracting the detected important sections, it makes it possible to use the video lectures more effectively, such as producing a highlight video or a promotional video.

일반적으로 본 명세서에서 사용된 용어는, 특히 청구항에서(예를 들어, 청구항의 본문) 일반적으로 "개방적인" 용어로 의도된다(예를 들어, "포함하는"은 "포함하나 이에 제한되지 않는"으로, "가지다"는 "적어도 그 이상으로 가지다"로, "포함하다"는 "포함하나 이에 제한되지 않는다"로 해석되어야 함) 도입된 청구항 기재에 대하여 특정한 개수가 의도되는 경우, 이러한 의도는 해당 청구항에서 명시적으로 기재되며, 이러한 기재가 부재하는 경우 이러한 의도는 존재하지 않는 것으로 이해된다. Terms used in this specification are generally intended to be "open-ended" terms, particularly in claims (eg, the body of claims) (eg, "comprising" means "including but not limited to"). , "have" should be construed as "have at least more" and "comprise" be interpreted as "including but not limited to") It is expressly recited in the claims, and in the absence of such recitation, no such intent is understood.

본 발명의 특정 특징만이 본 명세서에서 도시되고 설명되었으며, 다양한 수정 및 변경이 당업자에 대하여 발생할 수 있다. 그러므로 청구항은 본 발명의 사상 내에 속하는 변경 및 수정을 포함하는 것으로 의도된다는 점이 이해된다.Only specific features of the invention have been shown and described herein, and various modifications and variations will occur to those skilled in the art. It is therefore to be understood that the claims are intended to cover changes and modifications that fall within the spirit of the present invention.

Claims (9)

동영상 강의 중 소정 시간 동안 강사가 지속하여 정면을 응시한, 적어도 하나의 정면응시구간을 추출하는 단계;
상기 추출된 적어도 하나의 정면응시구간 각각에 대하여, 음성분석 결과를 산출하는 단계;
상기 음성분석 결과 및 기준 데이터를 이용해 중요구간 탐지 모델을 도출하는 단계; 및
상기 도출된 중요구간 탐지 모델을 이용해 중요구간을 탐지하는 단계를 포함하는,
동영상 강의의 중요구간 탐지 방법.
extracting at least one frontal gaze section in which the instructor continuously gazed at the front for a predetermined time during the video lecture;
calculating a voice analysis result for each of the extracted at least one frontal gaze section;
deriving an important section detection model using the voice analysis result and reference data; and
Including the step of detecting a critical section using the derived critical section detection model,
A method of detecting important sections of video lectures.
제 1 항에 있어서,
상기 음성분석 결과는 강사의 음성의 피치 및 강사의 음성의 세기를 포함하는,
동영상 강의의 중요구간 탐지 방법.
The method of claim 1,
The voice analysis result includes the pitch of the instructor's voice and the intensity of the instructor's voice,
A method of detecting important sections of video lectures.
제 2 항에 있어서,
상기 기준 데이터는 전문가에 의한 식별 값이고,
상기 중요구간 탐지 모델을 도출하는 단계는,
상기 음성분석 결과 및 상기 기준 데이터를 훈련용 데이터로 하는 기계 학습에 의하는,
동영상 강의의 중요구간 탐지 방법.
3. The method of claim 2,
The reference data is an identification value by an expert,
The step of deriving the critical section detection model is,
By machine learning using the voice analysis result and the reference data as training data,
A method of detecting important sections of video lectures.
제 3 항에 있어서,
상기 기계 학습은, 상기 음성분석 결과 및 상기 기준 데이터를 훈련용 데이터로 로지스틱 회귀 분석을 실시하여 상기 중요구간 탐지 모델의 최적의 파라미터 값을 결정하는 것에 의하는,
동영상 강의의 중요구간 탐지 방법.
4. The method of claim 3,
The machine learning is by performing logistic regression analysis on the voice analysis result and the reference data as training data to determine the optimal parameter value of the critical section detection model,
A method of detecting important sections of video lectures.
제 4 항에 있어서,
상기 적어도 하나의 정면응시구간을 추출하는 단계는,
소정의 얼굴인식 프로그램을 이용해 동영상 강의 중 5초 이상 강사가 지속하여 정면을 응시한, 적어도 하나의 정면응시구간을 추출하는 것을 특징으로 하는,
동영상 강의의 중요구간 탐지 방법.
5. The method of claim 4,
The step of extracting the at least one frontal gaze section,
Characterized in extracting at least one frontal gaze section, in which the instructor continuously gazed at the front for more than 5 seconds during the video lecture using a predetermined face recognition program,
A method of detecting important sections of video lectures.
제 5 항에 있어서,
상기 음성분석 결과를 산출하는 단계는, 상기 추출된 적어도 하나의 정면응시구간 각각에 대하여, 소정의 음성분석 프로그램을 이용해 강사의 음성의 피치 및 강사의 음성의 세기의 구간별 대표값을 산출하고, 표준화하는 것을 특징으로 하는,
동영상 강의의 중요구간 탐지 방법.
6. The method of claim 5,
The step of calculating the voice analysis result includes calculating, for each of the extracted at least one frontal gaze section, a representative value for each section of the pitch of the instructor's voice and the intensity of the instructor's voice using a predetermined voice analysis program, characterized by standardizing,
A method of detecting important sections of video lectures.
제 6 항에 있어서,
상기 구간별 대표값은, 평균값, 최대값, 최소값, 중앙값 중 하나인 것을 특징으로 하는,
동영상 강의의 중요구간 탐지 방법.
7. The method of claim 6,
The representative value for each section is characterized in that one of an average value, a maximum value, a minimum value, and a median value,
A method of detecting important sections of video lectures.
제 1 항 내지 제 7 항 중 어느 한 항의 방법을 수행하는 프로그램을 기록한 컴퓨터 판독가능 기록 매체. A computer-readable recording medium recording a program for performing the method of any one of claims 1 to 7. 제 1 항 내지 제 7 항 중 어느 한 항의 방법을 하드웨어와의 결합을 통해 실행시키기 위한 매체에 저장된 컴퓨터 프로그램. A computer program stored in a medium for executing the method of any one of claims 1 to 7 through combination with hardware.
KR1020200060866A 2020-05-21 2020-05-21 Method of detecting valuable sections of video lectures, computer program and computer-readable recording medium KR102412863B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200060866A KR102412863B1 (en) 2020-05-21 2020-05-21 Method of detecting valuable sections of video lectures, computer program and computer-readable recording medium
PCT/KR2020/013866 WO2021235615A1 (en) 2020-05-21 2020-10-12 Method for detecting important sections of video lecture, computer program, and computer-readable recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200060866A KR102412863B1 (en) 2020-05-21 2020-05-21 Method of detecting valuable sections of video lectures, computer program and computer-readable recording medium

Publications (2)

Publication Number Publication Date
KR20210144082A true KR20210144082A (en) 2021-11-30
KR102412863B1 KR102412863B1 (en) 2022-06-24

Family

ID=78708688

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200060866A KR102412863B1 (en) 2020-05-21 2020-05-21 Method of detecting valuable sections of video lectures, computer program and computer-readable recording medium

Country Status (2)

Country Link
KR (1) KR102412863B1 (en)
WO (1) WO2021235615A1 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050198570A1 (en) * 2004-01-14 2005-09-08 Isao Otsuka Apparatus and method for browsing videos
KR100593837B1 (en) 2001-10-17 2006-07-03 박남교 Active studying data offer method to add interface function on internet moving image
JP2008252667A (en) * 2007-03-30 2008-10-16 Matsushita Electric Ind Co Ltd System for detecting event in moving image
KR20100098104A (en) * 2009-02-27 2010-09-06 고려대학교 산학협력단 Method and apparatus for space-time voice activity detection using audio and video information
KR101205388B1 (en) 2011-05-13 2012-11-27 한국과학기술원 A method for indexing video frames with slide titles through synchronization of video lectures with slide notes
JP2015170973A (en) * 2014-03-06 2015-09-28 キヤノン株式会社 Image processing apparatus and image processing method

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101984042B1 (en) * 2017-05-30 2019-06-04 주식회사 엠글리쉬 Analysis method for chunk and key word based on voice signal of video data, and system thereof
KR102660124B1 (en) * 2018-03-08 2024-04-23 한국전자통신연구원 Method for generating data for learning emotion in video, method for determining emotion in video, and apparatus using the methods
KR102036721B1 (en) * 2018-05-16 2019-10-25 주식회사 한글과컴퓨터 Terminal device for supporting quick search for recorded voice and operating method thereof

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100593837B1 (en) 2001-10-17 2006-07-03 박남교 Active studying data offer method to add interface function on internet moving image
US20050198570A1 (en) * 2004-01-14 2005-09-08 Isao Otsuka Apparatus and method for browsing videos
JP2008252667A (en) * 2007-03-30 2008-10-16 Matsushita Electric Ind Co Ltd System for detecting event in moving image
KR20100098104A (en) * 2009-02-27 2010-09-06 고려대학교 산학협력단 Method and apparatus for space-time voice activity detection using audio and video information
KR101205388B1 (en) 2011-05-13 2012-11-27 한국과학기술원 A method for indexing video frames with slide titles through synchronization of video lectures with slide notes
JP2015170973A (en) * 2014-03-06 2015-09-28 キヤノン株式会社 Image processing apparatus and image processing method

Also Published As

Publication number Publication date
KR102412863B1 (en) 2022-06-24
WO2021235615A1 (en) 2021-11-25

Similar Documents

Publication Publication Date Title
Cucchiarini et al. Oral proficiency training in Dutch L2: The contribution of ASR-based corrective feedback
Gillam et al. Language change following computer-assisted language instruction with Fast ForWord or Laureate Learning Systems software
KR101054052B1 (en) System for providing foreign language study using blanks in sentence
Milin et al. A learning perspective on individual differences in skilled reading: Exploring and exploiting orthographic and semantic discrimination cues.
Donnelly et al. Automatic teacher modeling from live classroom audio
Wang et al. Computer assisted language learning system based on dynamic question generation and error prediction for automatic speech recognition
Ming et al. A Mandarin edutainment system integrated virtual learning environments
KR101438087B1 (en) Method for providing language training service based on consecutive and simultaneous interpretation test using speech recognition engine
Graesser et al. Conversational agents can provide formative assessment, constructive learning, and adaptive instruction
Huff et al. Construction and updating of event models in auditory event processing.
Lopes et al. A voice-controlled serious game for the sustained vowel exercise
KR102412863B1 (en) Method of detecting valuable sections of video lectures, computer program and computer-readable recording medium
Chakravarthula et al. Assessing empathy using static and dynamic behavior models based on therapist's language in addiction counseling
Yu Oral English Learning Strategies.
CN101739852A (en) Speech recognition-based method and device for realizing automatic oral interpretation training
WO2023192821A1 (en) Communication skills training
Junining et al. Automatic speech recognition in computer-assisted language learning for individual learning in speaking
Tian et al. Recognizing emotions in dialogues with acoustic and lexical features
Nishikawa et al. Cognitive model of phonological awareness focusing on errors and formation process through Shiritori
van Doremalen Developing automatic speech recognition-enabled language learning applications: from theory to practice
Wilder Investigating hybrid models of speech perception
Osborne The L2 perception of initial English/h/and/ɹ/by Brazilian Portuguese learners of English
Vitriana et al. A STUDY OF SPEECH ACTS IN †œCALL ME BY YOUR NAME†MOVIE: Speech Act, Call Me by Your Name Movie
Wu et al. Analyzing Effect of Physical Expression on English Proficiency for Multimodal Computer-Assisted Language Learning.
Bortlík Czech accent in English: Linguistics and biometric speech technologies

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant