KR102412863B1 - 동영상 강의의 중요구간 탐지 방법, 컴퓨터 프로그램 및 컴퓨터 판독가능 기록 매체 - Google Patents

동영상 강의의 중요구간 탐지 방법, 컴퓨터 프로그램 및 컴퓨터 판독가능 기록 매체 Download PDF

Info

Publication number
KR102412863B1
KR102412863B1 KR1020200060866A KR20200060866A KR102412863B1 KR 102412863 B1 KR102412863 B1 KR 102412863B1 KR 1020200060866 A KR1020200060866 A KR 1020200060866A KR 20200060866 A KR20200060866 A KR 20200060866A KR 102412863 B1 KR102412863 B1 KR 102412863B1
Authority
KR
South Korea
Prior art keywords
section
instructor
voice
important
video
Prior art date
Application number
KR1020200060866A
Other languages
English (en)
Other versions
KR20210144082A (ko
Inventor
김지영
Original Assignee
주식회사 윌비소프트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 윌비소프트 filed Critical 주식회사 윌비소프트
Priority to KR1020200060866A priority Critical patent/KR102412863B1/ko
Priority to PCT/KR2020/013866 priority patent/WO2021235615A1/ko
Publication of KR20210144082A publication Critical patent/KR20210144082A/ko
Application granted granted Critical
Publication of KR102412863B1 publication Critical patent/KR102412863B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Abstract

본 발명은, 동영상 강의 중 소정 시간 동안 강사가 지속하여 정면을 응시한, 적어도 하나의 정면응시구간을 추출하는 단계; 상기 추출된 적어도 하나의 정면응시구간 각각에 대하여, 음성분석 결과를 산출하는 단계; 상기 음성분석 결과 및 기준 데이터를 이용해 중요구간 탐지 모델을 도출하는 단계; 및 상기 도출된 중요구간 탐지 모델을 이용해 중요구간을 탐지하는 단계를 포함하는, 동영상 강의의 중요구간 탐지 방법에 관한 것이다. 이로써, 강사의 강의 특성을 이용해 도출된 중요구간 탐지 모델을 이용한 동영상 강의의 중요구간 탐지 방법을 제공할 수 있게 된다.

Description

동영상 강의의 중요구간 탐지 방법, 컴퓨터 프로그램 및 컴퓨터 판독가능 기록 매체{Method of detecting valuable sections of video lectures, computer program and computer-readable recording medium}
본 발명은 동영상 강의의 중요구간 탐지 방법에 관한 것으로서, 보다 상세하게는 강사의 강의 특성에 기반한 동영상 강의의 중요구간 탐지 방법에 관한 것이다.
동영상 강의는 시공간의 제약을 받지 않을 뿐 아니라 경제적인 효율성으로 인해 기존 면대면 강의를 상당 부분 보조하거나 대체하고 있다.
동영상 강의를 이용하여 공부하는 학습자들은 주어진 강의를 수동적으로 시청하기만 하는 것이 아니라, 다양한 재생 제어 기능을 이용해 동영상 강의를 보다 능동적으로 활용하고 있다.
특히 학습자들은 강의 주제와 관련된 중요한 곳이나 복습을 해야 하는 어려운 곳, 재미있는 곳 등을 빨리 찾아 해당 위치로 이동하거나 찾은 곳을 저장하기 원한다. 이때 학습자들이 동영상 내에서 원하는 곳으로 이동하기 위해 사용할 수 있는 방법은, 정해진 시간만큼 앞뒤로 이동하는 방법, 인덱싱된 목차의 장절 단위로 이동하는 방법, 마우스를 이용하여 원하는 위치를 어립잡아 이동하는 방법 등이 대부분이어서 학습자들의 요구를 만족시키기에는 충분치 않은 실정이다.
최근 들어 인공지능 분야에서 기계학습을 이용해 동영상 강의 내의 중요한 정보를 탐색하는 방법에 대한 연구가 진행되고 있으나, 이들 연구는 대부분 동영상 강의에서 원하는 키워드가 있는 위치를 탐색할 수 있도록 해주는 방식이어서, 강의 키워드 추출에 필요한 어휘 사전, 강의 자막, 학습자의 피드백 등의 정보 등을 사전에 추가로 필요로 한다는 단점이 있다.
한편, 동영상 강의에 대한 성인 학습자의 학습 만족도는 강사의 출연 여부가 학습 만족도에 크게 영향을 미치지 않는다. 그러나, 초중고 학생을 대상으로 하는 동영상 강의는 강사의 출연 자체가 학생들에게 교수실재감을 부여하고 학습 만족도나 학습 효과의 향상을 가져오는 것으로 알려져 있다. 이러한 이유로 대부분의 초중고 학생용 동영상 강의는 강사 출연형으로 제작된다.
본 발명자는, 강사는 강의 주제를 더 효과적으로 전달하기 위해 강의의 분위기나 흐름을 인위적으로 조정하는데, 특히 강조하고자 하는 내용을 설명하는 경우에는 이를 부각시킬 목적으로 그렇지 않은 부분을 설명할 때와는 확연히 구별되는 강사의 강의 특성을 보임을 발견하였다.
따라서, 강사가 출연하는 동영상 강의에 있어서 중요구간을 탐지하는 경우에 있어서는, 키워드 위주의 데이터에 기반하는 대신, 이러한 강사의 강의 특성에 기반하는 것이 효과적일 수 있을 것으로 예상하였다.
KR 1205388 B1 KR 0593837 B1
이로써, 본 발명의 목적은 키워드 위주의 데이터에 기반하는 대신, 강사의 강의 특성에 기반한 동영상 강의의 중요구간 탐지 방법을 제공하는 데 있다.
본 발명의 다른 목적은 강사의 강의 특성을 이용해 도출된 중요구간 탐지 모델을 이용한 동영상 강의의 중요구간 탐지 방법을 제공하는 데 있다.
본 발명이 해결하고자 하는 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 목적은, 본 발명의 제1 측면에 따라,
동영상 강의 중 소정 시간 동안 강사가 지속하여 정면을 응시한, 적어도 하나의 정면응시구간을 추출하는 단계;
상기 추출된 적어도 하나의 정면응시구간 각각에 대하여, 음성분석 결과를 산출하는 단계;
상기 음성분석 결과 및 기준 데이터를 이용해 중요구간 탐지 모델을 도출하는 단계; 및
상기 도출된 중요구간 탐지 모델을 이용해 중요구간을 탐지하는 단계를 포함하는,
동영상 강의의 중요구간 탐지 방법에 의해 달성된다.
이때, 상기 음성분석 결과는 강사의 음성의 피치 및 강사의 음성의 세기를 포함하는 것이 바람직하다.
또한, 상기 기준 데이터는 전문가에 의한 식별 값이고,
상기 중요구간 탐지 모델을 도출하는 단계는,
상기 음성분석 결과 및 상기 기준 데이터를 훈련용 데이터로 하는 기계 학습에 의하는 것일 수 있고, 상기 기계 학습은, 상기 음성분석 결과 및 상기 기준 데이터를 훈련용 데이터로 로지스틱 회귀 분석을 실시하여 상기 중요구간 탐지 모델의 최적의 파라미터 값을 결정하는 것에 의하는 것이 바람직하다.
나아가, 상기 적어도 하나의 정면응시구간을 추출하는 단계는,
소정의 얼굴인식 프로그램을 이용해 동영상 강의 중 5초 이상 강사가 지속하여 정면을 응시한, 적어도 하나의 정면응시구간을 추출하는 것일 수 있다.
또한, 상기 음성분석 결과를 산출하는 단계는, 상기 추출된 적어도 하나의 정면응시구간 각각에 대하여, 소정의 음성분석 프로그램을 이용해 강사의 음성의 피치 및 강사의 음성의 세기의 구간별 대표값을 산출하고, 표준화하는 것일 수 있다.
이때, 상기 구간별 대표값은, 평균값, 최대값, 최소값, 중앙값 중 하나인 것이 바람직하다.
상기 목적은, 또한 본 발명의 제2 측면에 따라,
상기의 방법을 수행하는 프로그램을 기록한 컴퓨터 판독가능 기록 매체에 의해 달성된다.
나아가, 상기 목적은 또한 본 발명의 제3 측면에 따라,
상기의 방법을 하드웨어와의 결합을 통해 실행시키기 위한 매체에 저장된 컴퓨터 프로그램에 의해 달성된다.
상기한 바와 같은 동영상 강의의 중요구간 탐지 방법에 따르면 키워드 위주의 데이터에 기반하는 대신, 강사의 강의 특성에 기반한 동영상 강의의 중요구간 탐지 방법을 제공하는 장점이 있다.
또한 본 발명의 동영상 강의의 중요구간 탐지 방법에 따르면 강사의 강의 특성을 이용해 도출된 중요구간 탐지 모델을 이용한 동영상 강의의 중요구간 탐지 방법을 제공하는 장점이 있다.
도 1은 본 발명에 따른 동영상 강의의 중요구간 탐지 방법의 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 정면응시구간 추출의 예를 보여주는 도면이다.
도 3은 본 발명의 일 실시예에 따른 강사의 음성 피치 정보를 산출하는 예를 보여주는 도면이다.
도 4는 본 발명의 일 실시예에 따른 강사의 음성의 세기 정보를 산출하는 예를 보여주는 도면이다.
이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명에 따른 예시적 실시예를 상세하게 설명한다. 다만, 본 발명이 예시적 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조부호는 실질적으로 동일한 기능을 수행하는 부재를 나타낸다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다.
발명의 배경이 되는 기술 부분에서 언급한 바와 같이, 강사는 강의 주제를 더 효과적으로 전달하기 위해 강의의 분위기나 흐름을 인위적으로 조정하는데, 특히 강조하고자 하는 내용을 설명하는 경우에는 이를 부각시킬 목적으로 그렇지 않은 부분을 설명할 때와는 확연히 구별되는 강사의 강의 특성을 보이게 된다.
이때 강조하고자 하는 내용을 설명할 때의 강사의 강의 특성으로는 첫째, 학습자를 집중시키기 위해 강사의 얼굴이 정면을 응시한다는 점(정면응시 특성)과, 둘째 중요한 내용을 더 효과적으로 전달하기 위해 음성의 피치(pitch) 및 세기(intensity)를 조절한다는 점(음성 사용 특성)이다.
동영상 강의는 강사와 학습자가 분리된 채 학습이 일어나기 때문에 직접적인 눈 맞춤은 불가능하다. 하지만, 강사는 눈 맞춤 효과를 얻기 위해 정면응시라는 촬영기법을 사용할 수 있고, 이때 이를 보는 학습자는 강사가 자신에게 눈을 맞추고 직접 설명을 해주는 것 같은 느낌을 받게 되어 학습자의 집중도가 향상될 수 있다.
또한 동영상 강의 뿐만 아니라, 강사는 학습자의 집중을 유도하거나 중요한 내용의 전달력을 높이기 위해 강조하는 부분에서 톤을 높여 크게 말하는 경향이 있는데, 이는 강사의 음성의 피치가 높고, 목소리에 실리는 에너지를 나타내는 세기가 커지게 되는 것을 의미한다. 중요구간에서 나타나는 강사의 이러한 음성 사용 특성은 중요구간 이외의 구간을 설명할 때와는 현저히 구별되는 것으로서, 중요구간인지 아닌지 판단하는 중요한 기준이 될 수 있다.
본 발명에 따른 동영상 강의의 중요구간 탐지 방법은, 이러한 점에 착안하여 강사의 강의 특성을 식별하고, 그 특성을 이용하여 동영상 강의의 중요구간을 탐지할 수 있는 모델을 도출하도록 개발되었다.
도 1은 본 발명에 따른 동영상 강의의 중요구간 탐지 방법의 흐름도이다.
도 1을 참조하면, 본 발명에 따른 동영상 강의 중요구간 탐지 방법은, 필수적으로 정면응시구간 추출 단계(S100), 음성분석 결과 산출 단계(S200), 및 중요구간 탐지 모델 도출 단계(S300)를 포함한다. 물론, 도출된 중요구간 탐지 모델을 이용해 중요구간을 탐지하는 중요구간 탐지 단계도 포함할 수 있다.
먼저, 정면응시구간 추출 단계(S100)에서는, 동영상 강의 중 소정 시간 동안 강사가 지속하여 정면을 응시한, 적어도 하나의 정면응시구간을 추출한다.
보다 바람직하게는, 소정의 얼굴인식 프로그램을 이용해 동영상 강의 중 5초 이상 강사가 지속하여 정면을 응시한, 적어도 하나의 정면응시구간을 모두 선택 추출할 수 있다.
이때 소정의 얼굴인식 프로그램은, 기존의 얼굴인식 프로그램을 그대로 차용하거나 또는 소정의 프로그램을 이용한 프로그래밍을 통해 구현될 수 있는데, 예를 들어 python(v3.7.1) 및 openCV(v4.1.1)을 이용하여 구현될 수 있다.
정면응시구간의 추출은, 이렇게 구현된 얼굴인식 프로그램을 이용해, 동영상이 재생되면 강사의 얼굴을 인식하고, 인식시작시각, 인식종료시각, 정면응시시간에 해당하는 3 가지 데이터로 구성되는 정면인식 정보를 생성하여 도 2와 같이, 텍스트파일 형태로 출력하는 것으로 실현될 수 있다.
여기서, 중요구간으로 간주될 수 있는 기준이 되는 정면응시 지속시간은 경험에 의해 또는 실험적으로 결정될 수 있다.
예를 들어, 본 발명자는 중요구간의 정면응시 지속시간을 결정하기 위해 먼저, 임의로 선택된 8 개의 수능 수학 동영상 강의에서 552 개 정면응시 구간을 추출한 후, 수학강사 경력 10년 이상의 전문가 3인의 검증을 거친 중요구간 37개를 선별하여 그 정면응시 지속시간을 조사하였다. 조사 결과 하기의 표 1과 같이 가장 긴 지속시간은 59.56초였고, 가장 짧은 지속시간은 5.07초로서, 5초 미만의 지속시간을 갖는 중요구간은 존재하지 않았다.
구간번호 지속시간(초) 구간번호 지속시간(초) 구간번호 지속시간(초)
1-D 27.9 6-C 59.56 8-16 5.81
1-G 15.97 6-E 5.94 8-20 6.81
2-B 12.08 6-H 13.15 8-28 17.88
2-C 6.87 6-I 5.84 8-30 13.15
2-D 10.08 7-A 6.37 8-31 5.87
2-E 5.61 7-B 6.44 8-32 5.07
2-F 17.82 7-G 25.56 8-33 10.01
2-G 25.56 7-H 17.88 8-34 5.87
3-C 14.61 7-O 5.17 8-35 11.85
4-D 5.17 8-5 8.21 8-36 5.34
5-C 5.87 8-8 9.14 8-37 7.31
5-D 11.64 8-9 9.68 8-39 14.68
5-F 6.14 8-10 5.24
다음으로, 상기의 임의로 선택된 8 개의 수능 수학 동영상 강의에서 추출된 552 개 정면응시 구간을 지속시간 5초를 기준으로 분류하여 정면응시 이유를 조사하였다. 조사 결과 하기의 표 2와 같이 판서 시 잠깐 정면을 응시하는 정도로, 지속시간 5초 미만인 정면응시 구간은 중요구간이라고 판단될 만한 내용을 담고 있지 않았다.
지속시간 5초 미만의 정면응시 구간 지속시간 5초 이상의 정면응시 구간
정면응시 이유 마침표 판서 시 개념 설명
문제 판서 시 문제해석 및 해석방법 설명
그래프 지시 시 문제의 핵심 단서 설명
수식 판서 시 변수 잡는 법 설명
계산 시 문제 풀이의 핵심 전략 제시
문제 조건 지시 시 주요 용어 설명
단어 뜻풀이 시 풀이 과정 정리
출제 의도 설명
이와 같이, 두번의 조사 결과에 따라서, 임의로 선택된 8 개의 수능 수학 동영상 강의에 있어서, 중요구간의 정면응시 지속시간은 5초 이상인 것으로 결정되었다. 물론, 어떠한 분야의 동영상 강의를 선택하느냐에 따라서, 중요구간의 정면응시 지속시간의 임계 값은 5초보다 작거나 또는 이보다 클 수 있다.
이로써, 이러한 소정의 임계 값 이상의 정면응시 지속시간을 갖는 구간을 정면응시구간으로 추출하게 된다.
다음으로, 음성분석 결과 산출 단계(S200)에서는, 상기에서 추출된 적어도 하나의 정면응시구간 각각에 대하여, 음성분석 결과를 산출한다. 이때, 음성분석 결과는 강사의 음성의 피치 및 강사의 음성의 세기를 포함할 수 있다.
보다 바람직하게는, 상기에서 추출된 적어도 하나의 정면응시구간 각각에 대하여, 소정의 음성분석 프로그램을 이용해 강사의 음성의 피치 및 강사의 음성의 세기의 구간별 대표값을 산출하고, 표준화할 수 있다.
상기에서 언급한 바와 같이, 강사는 학습자의 집중을 유도하거나 중요한 내용의 전달력을 높이기 위해 강조하는 부분에서 톤을 높여 크게 말하는 경향이 있는데, 이는 강사의 음성의 피치가 높고, 목소리에 실리는 에너지를 나타내는 세기가 커지게 되는 것을 의미한다. 따라서, 강사의 음성 피치가 높거나 또는 세기가 큰 부분은 중요구간일 확률이 매우 높으므로, 중요구간 탐지 모델을 도출하는 데 적극 활용하는 것이 바람직할 수 있다.
이때 소정의 음성분석 프로그램은, 기존의 음성분석 프로그램을 그대로 차용하거나 또는 소정의 프로그램을 이용한 프로그래밍을 통해 구현될 수 있는데, 예를 들어 praat(v6.1)을 이용하여 구현될 수 있다.
음성분석 결과 중 음성의 피치는, 이렇게 구현된 음성분석 프로그램을 이용해, 동영상 강의 및/또는 동영상 강의 음성 파일의 소정의 구간에 대하여 도 3의 (b)와 같은, 해당 구간의 음성 피치 정보, 예를 들어 피치의 평균값, 최대값, 최소값, 중앙값으로 제공받을 수 있다. 이때 도 3의 (a)와 같은, 해당 구간의 음성 파형과 피치 그래프를 보여주는 윈도우가 같이 제공될 수 있다.
이때 동영상 강의가 아닌 동영상 강의의 음성 파일을 이용해 음성분석을 하는 경우에 있어서는, 먼저 동영상 강의로부터 음성 파일을 추출하는 단계를 더 포함할 수 있다.
물론, 이 음성 피치 정보는, 소정 간격으로 분리된 동영상 강의의 모든 구간에 대해서 제공될 수 있으나, 시간과 비용 측면에서 유리하게, 상기에서 추출된 적어도 하나의 정면응시구간 각각에 대해서만 제공될 수 있다.
여기서, 해당 구간에 대하여 제공되는 피치의 평균값, 최대값, 최소값, 중앙값 중 적어도 하나를 구간별 대표값으로 정의하고 이를 음성분석 결과 중 일부로서 취급할 수 있는데, 특히 해당 구간 전체의 보편적인 특성을 가장 잘 표현하는 평균값이 바람직할 수 있다.
이와 유사하게, 음성분석 결과 중 음성의 세기는, 이렇게 구현된 음성분석 프로그램을 이용해, 동영상 강의 및/또는 동영상 강의 음성 파일의 소정의 구간에 대하여 도 4의 (b)와 같은, 해당 구간의 세기 정보, 예를 들어 세기의 평균값, 최대값, 최소값으로 제공받을 수 있다. 이때 도 4의 (a)와 같은, 해당 구간의 음성 파형과 세기 그래프를 보여주는 윈도우가 같이 제공될 수 있다.
물론, 이 음성 세기 정보는, 소정 간격으로 분리된 동영상 강의의 모든 구간에 대해서 제공될 수 있으나, 시간과 비용 측면에서 유리하게, 상기에서 추출된 적어도 하나의 정면응시구간 각각에 대해서만 제공될 수 있다.
여기서, 해당 구간에 대하여 제공되는 세기의 평균값, 최대값, 최소값 중 적어도 하나를 구간별 대표값으로 정의하고 이를 음성분석 결과 중 일부로서 취급할 수 있는데, 특히 해당 구간 전체의 보편적인 특성을 가장 잘 표현하는 평균값이 바람직할 수 있다.
이러한 구간별 대표값으로부터 해당 구간이 중요구간인지 여부를 판단하기 위해서는 비교를 위해 상대적인 값으로 환산하는 것이 필요한데, 이를 표준화라고 지칭하고, 예를 들어 식 (1)을 이용할 수 있다.
Figure 112020051286569-pat00001
(1)
여기서, X는 해당 구간의 대표값, m은 전체 동영상 강의의 구간별 대표값의 평균값, σ는 표준편차를 의미한다.
이는 해당 구간의 대표값이 평균으로부터 얼마나 떨어져 있는지를 나타내는 값으로서, 예를 들어 어떤 구간의 피치의 대표값의 표준화 값이 양수이면 그 구간에서 강사의 음성 톤이 동영상 내의 평균 음성 톤에 비해 더 높았다고 판단할 수 있다. 마찬가지로 어떤 구간의 세기의 대표값의 표준화 값이 양수이면 그 구간에서 강사의 음성이 동영상 내의 평균 음성에 비해 더 컸다고 판단할 수 있다.
다음으로, 중요구간 탐지 모델 도출 단계(S300)에서는, 상기의 음성분석 결과 및 기준 데이터를 이용해 중요구간 탐지 모델을 도출한다. 이때, 기준 데이터는 전문가에 의한 식별 값일 수 있다. 이 식별 값은, 0 또는 1로서, 예를 들어, 중요구간이면 1, 중요구간이 아니라면 0으로 전문가에 의해 부여될 수 있다. 이때 전문가는 인격을 가진 전문인일 수 있고 및/또는 인격을 가진 전문인의 식별 결과에 준하는, 비인격체인 컴퓨터 프로그램에 의한 결과물일 수 있다.
보다 바람직하게, 중요구간 탐지 모델의 도출은, 상기의 음성분석 결과 및 상기의 기준 데이터를 훈련용 데이터로 하는 기계 학습에 의할 수 있고, 이때 이 기계 학습은, 상기의 음성분석 결과 및 상기의 기준 데이터를 훈련용 데이터로 로지스틱 회귀 분석을 실시하여 이 중요구간 탐지 모델의 최적의 파라미터 값을 결정하는 것에 의하는 것이 바람직하다.
로지스틱 회귀 분석은, 그 결과가 0 또는 1에 속할 확률을 예측하는 데 가장 보편적으로 이용되는 분석 방법이다. 본 발명에 따른 중요구간 탐지 모델 역시, 중요구간인지(1) 아닌지(0) 여부를 결정하기 위해 하기의 식 (2)와 같은 로지스틱 함수를 기본적으로 이용한다.
Figure 112020051286569-pat00002
(2)
해당 구간이 중요구간인지 아닌지 여부를 결정하는 변수로서, 본 발명에서는 상기에서 언급한 바와 같이, 추출된 적어도 하나의 정면응시구간 각각에 대하여, 산출된 음성분석 결과를 이용한다. 다시 말하면, (표준화된) 음성 피치의 대표값, 및 (표준화된) 음성 세기의 대표값을 하기의 식 (3)과 같은 선형회귀식의 독립변수로 정의한다.
Figure 112020051286569-pat00003
(3)
여기서, 변수 p는 (표준화된) 음성 피치의 대표값, i는 (표준화된) 음성 세기의 대표값, ωp 및 ωi는 각각 변수 p와 i에 대한 가중치, b는 선형회귀식의 편향값(bias)를 의미한다.
따라서, 식 (2) 및 식 (3)을 이용하면, 그 결과 값이 1(중요구간)로 판단될 확률을 나타내는 회귀 함수를 하기의 식 (4)와 같이 획득할 수 있다.
Figure 112020051286569-pat00004
(4)
회귀 함수 S(f(p,i))의 결과 값은, 0과 1 사이의 확률 값으로서, 해당 구간을 중요구간인 1로 판단할 확률을 의미한다. 따라서, 최종 결과 값이 0 아니면 1 중의 하나를 갖도록 올림, 버림, 반올림 등을 수행할 수 있는데, 예를 들어 본 발명에서는 플로링을 이용해 반올림한다.
Figure 112020051286569-pat00005
(5)
또한, 중요구간 판단의 오차를 최소화하는 최적의 파라미터(ωp, ωi 및 b) 값을 구하기 위해 최대우도추정법(maximum likelihood estimation)을 사용하는 식 (6)과 같은 비용함수 식을 이용한다.
Figure 112020051286569-pat00006
(6)
여기서, m은 모델 생성에 필요한 표본 구간의 개수, k는 표준 구간 번호, y는 해당 구간에 부여된 전문가 식별 값이다.
상기의 식 (4) 내지 (6)의 계산은, 기존의 프로그램을 그대로 차용하거나 또는 소정의 프로그램을 이용한 프로그래밍을 통해 구현될 수 있는데, 예를 들어 오픈 소스 소프트웨어인 weka(v3.8)를 이용해 처리되어, 선형회귀식의 최적의 파라미터(ωp, ωi 및 b) 값을 구할 수 있다.
예를 들어, 본 발명에서는, 선형회귀식의 최적의 파라미터(ωp, ωi 및 b) 값을 구하기 위해, 상기의 임의로 선택된 8 개의 수능 수학 동영상 강의 중 선택된 7 개의 수학 동영상 강의에서 507 개의 정면응시 구간을 추출한 후, 지속시간이 5초 이상인 구간 80 개를 다시 표본 구간으로 추출하였다.
다음으로, 각 동영상 강의에서 음성 파일을 추출하여, 상기의 80 개의 추출된 해당 표본 구간 각각에 대하여 중요구간이면 1, 중요구간이 아니라면 0으로 전문가 식별 값을 부여하고 오픈소스 소프트웨어인 weka를 이용해 로지스틱 회귀 분석을 실시하였다. 이와 같이 로지스틱 회귀 분석 결과 도출된 최적의 파라미터 정보는, ωp는 1.6288, ωi는 1.5533, 및 b는 1.2254이다.
이로써, 로지스틱 회귀 분석을 통해 도출된 파라미터 정보가 대입된 중요구간 탐지 모델은 하기의 식 (7)과 같다.
Figure 112020051286569-pat00007
(7)
물론, 상기에서 언급한 바와 같이, 어떠한 분야의 동영상 강의를 선택하느냐에 따라서, 도출되는 최적의 파라미터 정보는 달라질 수 있다.
마지막으로, 본 발명에 따라 도출된 중요구간 탐지 모델을 이용해 중요구간을 탐지할 수 있는데, 이하에서는 이와 같이 도출된 중요구간 탐지 모델의 성능 평가 결과를 살펴보기로 한다.
성능 평가는 전체 데이터를 훈련용과 시험용으로 랜덤하게 추출하여 검증하는 방식인 교차검증 방식을 이용한다. 여기서는, 80 개의 전체 데이터에 대해 10-fold 교차검증으로 정확도, 정밀도, 재현율, F-measure를 구하였다.
먼저, 중요구간 탐지 모델의 정확도를 살펴보면, 전체 80 개의 구간 중 6 개 구간의 탐지에 오류가 발생하였고, 74 개 구간에 대해서는 중요구간과 중요구간이 아닌 구간을 정확하게 탐지하여 92.5%의 정확도를 나타냈다.
또한, 중요구간 탐지 모델의 탐지 결과와 전문가 식별 값을 비교한 결과를 정리한 하기의 표 3을 참고하여, 정밀도, 재현율, F-measure를 구한다.
중요구간 탐지 모델 결과 값
1 0
전문가 식별값 1 23 5 28
0 1 51 52
24 56 80
정밀도는 탐지 모델이 중요구간이라고 탐지한 구간 중 실제 중요구간인 것의 비율을 말한다. 따라서 여기서 정밀도는 95.83%(=23/24*100)이다. 재현율은 실제 중요구간 중 중요구간 탐지 모델이 중요구간이라고 정확히 탐지한 것의 비율이다. 따라서 여기서 재현율은 82.14%(=23/28*100)이다. F-measure는 정밀도와 재현율의 조화평균으로, 여기서는 88.5%(=2*95.83*82.14/(95.83+82.14))이다.
더 많은 동영상 강의에서 훈련용 데이터를 확보하여 본 발명에 따른 중요구간 탐지 모델의 최적의 파라미터를 찾는다면, 중요구간의 탐지 정확도 및 정밀도 등의 성능 향상을 꾀할 수 있을 것으로 예상된다.
한편, 본 발명의 실시예에 따른 방법들은 다양한 컴퓨팅 장치를 통하여 수행될 수 있는 프로그램 명령(instruction) 형태로 구현되어 컴퓨터 판독 가능 기록매체에 기록될 수 있다.
상기 프로그램 명령 형태는, 소프트웨어로 통칭될 수 있고, 이는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로 (collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨팅 장치상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
상기 컴퓨터 판독 가능 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시 예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광 기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
요약하면, 본 발명의 동영상 강의의 중요구간 탐지 방법에 따르면 키워드 위주의 데이터에 기반하는 대신, 강사의 강의 특성에 기반한 동영상 강의의 중요구간 탐지 방법을 제공하게 된다.
보다 상세하게는, 본 발명의 동영상 강의의 중요구간 탐지 방법에 따르면 강사의 강의 특성을 이용해 도출된 중요구간 탐지 모델을 이용한 동영상 강의의 중요구간 탐지 방법을 제공하게 된다.
이로써, 이렇게 탐지된 중요구간은 이에 북마크를 자동으로 삽입하여 학습자가 활용할 수 있도록 해주거나 또는 해당 부분에서 이벤트를 발생시켜 학습자의 집중도를 높이는 데 활용될 수 있다. 또한 탐지된 중요구간을 추출하여 하이라이트 영상이나 홍보 영상을 제작하는 등, 동영상 강의를 더욱 효과적으로 활용할 수 있도록 해준다.
일반적으로 본 명세서에서 사용된 용어는, 특히 청구항에서(예를 들어, 청구항의 본문) 일반적으로 "개방적인" 용어로 의도된다(예를 들어, "포함하는"은 "포함하나 이에 제한되지 않는"으로, "가지다"는 "적어도 그 이상으로 가지다"로, "포함하다"는 "포함하나 이에 제한되지 않는다"로 해석되어야 함) 도입된 청구항 기재에 대하여 특정한 개수가 의도되는 경우, 이러한 의도는 해당 청구항에서 명시적으로 기재되며, 이러한 기재가 부재하는 경우 이러한 의도는 존재하지 않는 것으로 이해된다.
본 발명의 특정 특징만이 본 명세서에서 도시되고 설명되었으며, 다양한 수정 및 변경이 당업자에 대하여 발생할 수 있다. 그러므로 청구항은 본 발명의 사상 내에 속하는 변경 및 수정을 포함하는 것으로 의도된다는 점이 이해된다.

Claims (9)

  1. 동영상 강의 중 소정 시간 동안 강사가 지속하여 정면을 응시한, 적어도 하나의 정면응시구간을 추출하는 단계;
    상기 추출된 적어도 하나의 정면응시구간 각각에 대하여, 음성분석 결과를 산출하는 단계, 여기서 상기 음성분석 결과는 강사의 음성의 피치 및 강사의 음성의 세기를 포함하고;
    상기 음성분석 결과 및 기준 데이터를 이용해 중요구간 탐지 모델을 도출하는 단계, 여기서 상기 기준 데이터는 중요구간 여부를 나타내는 식별 값으로서, 중요구간 여부에 따라 상이한 값을 가지고; 및
    상기 도출된 중요구간 탐지 모델을 이용해 중요구간을 탐지하는 단계를 포함하는,
    동영상 강의의 중요구간 탐지 방법.
  2. 제 1 항에 있어서,
    상기 기준 데이터는 전문가에 의한 식별 값이고,
    상기 중요구간 탐지 모델을 도출하는 단계는,
    상기 음성분석 결과 및 상기 기준 데이터를 훈련용 데이터로 하는 기계 학습에 의하는,
    동영상 강의의 중요구간 탐지 방법.
  3. 제 2 항에 있어서,
    상기 기계 학습은, 상기 음성분석 결과 및 상기 기준 데이터를 훈련용 데이터로 로지스틱 회귀 분석을 실시하여 상기 중요구간 탐지 모델의 최적의 파라미터 값을 결정하는 것에 의하는,
    동영상 강의의 중요구간 탐지 방법.
  4. 제 3 항에 있어서,
    상기 적어도 하나의 정면응시구간을 추출하는 단계는,
    소정의 얼굴인식 프로그램을 이용해 동영상 강의 중 5초 이상 강사가 지속하여 정면을 응시한, 적어도 하나의 정면응시구간을 추출하는 것을 특징으로 하는,
    동영상 강의의 중요구간 탐지 방법.
  5. 제 4 항에 있어서,
    상기 음성분석 결과를 산출하는 단계는, 상기 추출된 적어도 하나의 정면응시구간 각각에 대하여, 소정의 음성분석 프로그램을 이용해 강사의 음성의 피치 및 강사의 음성의 세기의 구간별 대표값을 산출하고, 표준화하는 것을 특징으로 하는,
    동영상 강의의 중요구간 탐지 방법.
  6. 제 5 항에 있어서,
    상기 구간별 대표값은, 평균값, 최대값, 최소값, 중앙값 중 하나인 것을 특징으로 하는,
    동영상 강의의 중요구간 탐지 방법.
  7. 제 1 항 내지 제 6 항 중 어느 한 항의 방법을 수행하는 프로그램을 기록한 컴퓨터 판독가능 기록 매체.
  8. 제 1 항 내지 제 6 항 중 어느 한 항의 방법을 하드웨어와의 결합을 통해 실행시키기 위한 매체에 저장된 컴퓨터 프로그램.
  9. 삭제
KR1020200060866A 2020-05-21 2020-05-21 동영상 강의의 중요구간 탐지 방법, 컴퓨터 프로그램 및 컴퓨터 판독가능 기록 매체 KR102412863B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200060866A KR102412863B1 (ko) 2020-05-21 2020-05-21 동영상 강의의 중요구간 탐지 방법, 컴퓨터 프로그램 및 컴퓨터 판독가능 기록 매체
PCT/KR2020/013866 WO2021235615A1 (ko) 2020-05-21 2020-10-12 동영상 강의의 중요구간 탐지 방법, 컴퓨터 프로그램 및 컴퓨터 판독가능 기록 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200060866A KR102412863B1 (ko) 2020-05-21 2020-05-21 동영상 강의의 중요구간 탐지 방법, 컴퓨터 프로그램 및 컴퓨터 판독가능 기록 매체

Publications (2)

Publication Number Publication Date
KR20210144082A KR20210144082A (ko) 2021-11-30
KR102412863B1 true KR102412863B1 (ko) 2022-06-24

Family

ID=78708688

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200060866A KR102412863B1 (ko) 2020-05-21 2020-05-21 동영상 강의의 중요구간 탐지 방법, 컴퓨터 프로그램 및 컴퓨터 판독가능 기록 매체

Country Status (2)

Country Link
KR (1) KR102412863B1 (ko)
WO (1) WO2021235615A1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050198570A1 (en) 2004-01-14 2005-09-08 Isao Otsuka Apparatus and method for browsing videos
JP2008252667A (ja) * 2007-03-30 2008-10-16 Matsushita Electric Ind Co Ltd 動画イベント検出装置
JP2015170973A (ja) * 2014-03-06 2015-09-28 キヤノン株式会社 画像処理装置及び画像処理方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100593837B1 (ko) 2001-10-17 2006-07-03 박남교 인터넷 동영상에 연동 기능을 부가한 능동적 학습 자료제공 방법
KR101041039B1 (ko) * 2009-02-27 2011-06-14 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
KR101205388B1 (ko) 2011-05-13 2012-11-27 한국과학기술원 강의 동영상과 강의노트 동기화를 통해 동영상 프레임을 슬라이드 주요 제목으로 색인하는 방법
KR101984042B1 (ko) * 2017-05-30 2019-06-04 주식회사 엠글리쉬 영상데이터 음성신호 기반 청크 및 핵심어 분석 방법, 그리고 그 시스템
KR102660124B1 (ko) * 2018-03-08 2024-04-23 한국전자통신연구원 동영상 감정 학습용 데이터 생성 방법, 동영상 감정 판단 방법, 이를 이용하는 동영상 감정 판단 장치
KR102036721B1 (ko) * 2018-05-16 2019-10-25 주식회사 한글과컴퓨터 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치 및 그 동작 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050198570A1 (en) 2004-01-14 2005-09-08 Isao Otsuka Apparatus and method for browsing videos
JP2008252667A (ja) * 2007-03-30 2008-10-16 Matsushita Electric Ind Co Ltd 動画イベント検出装置
JP2015170973A (ja) * 2014-03-06 2015-09-28 キヤノン株式会社 画像処理装置及び画像処理方法

Also Published As

Publication number Publication date
WO2021235615A1 (ko) 2021-11-25
KR20210144082A (ko) 2021-11-30

Similar Documents

Publication Publication Date Title
Cucchiarini et al. Oral proficiency training in Dutch L2: The contribution of ASR-based corrective feedback
KR101054052B1 (ko) 문장의 블랭크를 이용한 외국어 학습 제공 시스템
Donnelly et al. Automatic teacher modeling from live classroom audio
Hasibuan et al. Detecting learning style using hybrid model
CN109461441A (zh) 一种自适应、无监督式的课堂教学活动智能感知方法
KR101438087B1 (ko) 음성인식엔진을 이용한 순차 및 동시 통역 테스트에 따른 외국어 문장 패턴 내면화 강화 및 인출 훈련 서비스 제공 방법
Ming et al. A Mandarin edutainment system integrated virtual learning environments
Huff et al. Construction and updating of event models in auditory event processing.
Van Dalen et al. Improving multiple-crowd-sourced transcriptions using a speech recogniser
Lopes et al. A voice-controlled serious game for the sustained vowel exercise
Yoon et al. Spoken text difficulty estimation using linguistic features
Lopez-Otero et al. Depression Detection Using Automatic Transcriptions of De-Identified Speech.
KR102412863B1 (ko) 동영상 강의의 중요구간 탐지 방법, 컴퓨터 프로그램 및 컴퓨터 판독가능 기록 매체
Chakravarthula et al. Assessing empathy using static and dynamic behavior models based on therapist's language in addiction counseling
Nenadić et al. Computational modelling of an auditory lexical decision experiment using jTRACE and TISK
KR101837576B1 (ko) 외국어 학습 제공 장치 및 그 방법, 이를 수행하기 위한 기록매체
Tian et al. Recognizing emotions in dialogues with acoustic and lexical features
Junining et al. Automatic speech recognition in computer-assisted language learning for individual learning in speaking
Osborne The L2 perception of initial English/h/and/ɹ/by Brazilian Portuguese learners of English
van Doremalen Developing automatic speech recognition-enabled language learning applications: from theory to practice
Vitriana et al. A STUDY OF SPEECH ACTS IN †œCALL ME BY YOUR NAME†MOVIE: Speech Act, Call Me by Your Name Movie
Wilder Investigating hybrid models of speech perception
Grill et al. Classification and Detection of Specific Language Impairments in Children Based on their Speech Skills
Wu et al. Analyzing Effect of Physical Expression on English Proficiency for Multimodal Computer-Assisted Language Learning.
KR20200034250A (ko) 문장 따라 말하기 학습을 이용한 작업 기억 능력 측정 방법, 이를 수행하기 위한 기록매체 및 장치

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant