WO2023022316A1

WO2023022316A1 - 외국어 동영상의 자막 필터링 방법 및 이를 수행하는 시스템

Info

Publication number: WO2023022316A1
Application number: PCT/KR2022/003858
Authority: WO
Inventors: 박봉래
Original assignee: 박봉래
Priority date: 2021-08-16
Filing date: 2022-03-18
Publication date: 2023-02-23

Abstract

외국어 동영상 자막 필터링 방법 및 이를 수행하는 시스템이 개시된다. 본 발명의 다양한 실시예 중 하나에 따르면, 동영상 자막을 필터링하는 시스템에 있어서, 외국어 발음 패턴 및 표현 패턴을 관리하는 패턴 관리부; 시청자의 외국어 청취 실력을 설정하는 시청자 실력 설정부; 동영상의 음성 및 대사 스크립트를 기초로 음성 난이도를 평가하는 음성 난이도 평가부; 동영상의 대사 스크립트를 기초로 표현 난이도를 평가하는 표현 난이도 평가부; 상기 음성 난이도 및 상기 표현 난이도를 종합하여 동영상 음성에 대한 청취 난이도를 계산하는 청취 난이도 평가부; 및 상기 시청자의 외국어 청취 실력과 평가된 청취 난이도의 비교를 통해 자막의 필터링 여부를 결정하는 자막 필터부를 포함하는, 동영상 자막 필터링 시스템이 개시될 수 있다.

Description

외국어 동영상의 자막 필터링 방법 및 이를 수행하는 시스템

본 발명은 외국어 동영상 시청중 번역 자막이 필요없는 대사의 경우 자막을 표출하지 않는 새로운 동영상 시청 환경을 제공하고자 하는 기술에 대한 것이다.

외국어가 나오는 동영상과 함께 제공되는 자막은 동영상의 내용을 쉽게 파악할 수 있게 하여 해당 외국어를 잘 알지 못하는 상황에서도 콘텐츠의 내용을 파악할 수 있게 하나, 모순적으로 자막이 콘텐츠의 감상을 방해하는 경우 또한 존재한다.

자막이 영상의 내용을 완벽하게 번역하지 못하는 경우도 있으며, 자막없이도 이해 가능한 장면에서 자막에 신경 쓰다가 영상에 집중하지 못하게 되는 경우도 존재한다.

따라서, 동영상의 시청자가 자막 없이 이해 가능한 대사가 제공되는 상황에서는 자막이 없는 것이 시청에 효과적일 수 있다. 다만, 어떠한 장면에서 자막이 표시되고 어떠한 장면에서 자막이 표시되지 않는 것이 효율적인지에 대한 연구가 필요한 실정이다.

자막에 대한 적절한 필터링은 시청자들이 동영상에 보다 집중할 수 있게 하며, 어학 학습에도 도움이 될 수 있어, 자막을 필터링할 수 있는 적절한 시스템이 필요한 상황이다.

본 발명의 다양한 실시예는 외국어 동영상을 시청하는 환경에서 표시되는 자막을 시청자의 외국어 수준에 맞춰 효율적으로 제공하는 것을 그 목적으로 한다.

본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상술한 과제를 해결하기 위한 본 발명의 다양한 실시예 중 하나에 따르면, 동영상 자막을 필터링하는 시스템에 있어서, 외국어 발음 패턴 및 표현 패턴을 관리하는 패턴 관리부; 시청자의 외국어 청취 실력을 설정하는 시청자 실력 설정부; 동영상의 음성 및 대사 스크립트를 기초로 음성 난이도를 평가하는 음성 난이도 평가부; 동영상의 대사 스크립트를 기초로 표현 난이도를 평가하는 표현 난이도 평가부; 상기 음성 난이도 및 상기 표현 난이도를 종합하여 동영상 음성에 대한 청취 난이도를 계산하는 청취 난이도 평가부; 및 상기 시청자의 외국어 청취 실력과 평가된 청취 난이도의 비교를 통해 자막의 필터링 여부를 결정하는 자막 필터부를 포함하는, 동영상 자막 필터링 시스템이 개시될 수 있다.

상기 패턴 관리부는 단어별 또는 문장별 음소열 및 음소 구간 정보를 관리하며, 상기 음성 난이도 평가부는, 동영상의 대사 스크립트에서 기준 음소열 및 음소 구간을 추출하는 기준 음소열 추출부; 동영상의 대사 스크립트 또는 기준 음소열에 발음 변환 규칙을 적용하여 기준 음소열 포함 적어도 하나 이상의 후보 음소열을 생성하는 후보 음소열 생성부; 및 상기 후보 음소열 생성부에 의해 생성된 후보 음소열들을 기초로 최적 음소열을 선정하고 구성 음소별 음소 구간 길이를 추출하는 최적 음소열 선정부를 더 포함하며, 상기 음성 난이도 평가부는 상기 기준 음소열 추출부에 의해 추출된 기준 음소열과 상기 최적 음소열 선정부에 의해 선정된 최적 음소열의 비교를 통해 상기 음성 난이도를 평가하는 것을 특징으로 할 수 있다.

상기 음성 난이도 평가부는, 특정 음성에 대해 기준 음소열 대비 최적 음소열에 적용된 발음 변환 규칙을 기초로 상기 음성 난이도를 평가할 수 있다.

상기 기준 음소열 추출부는, 동영상의 대사 스크립트가 기본형인지 여부를 체크하고 기본형이 아닌 경우 대사 스크립트를 기본형으로 복원하고 복원된 대사 스크립트로부터 기본 음소열 및 음소 구간을 추출할 수 있다.

상기 패턴 관리부는, 음성 및 문장 텍스트별 음소열 및 음소 구간 정보를 딥러닝하여 구축된 인공지능 데이터 세트 및 상기 인공지능 데이터 세트에 기초하여 텍스트 입력에 대해 음소열과 음소 구간 정보를 제공하는 음소 구간 추출부를 추가로 포함하고, 상기 기준 음소열 추출부는, 상기 음소 구간 추출부를 통해 음소열 및 음소 구간을 추출하는 것을 특징으로 할 수 있다.

상기 음성 난이도 평가부는, 기준 음소열과 최적 음소열의 비교를 통해 상기 음성 난이도를 평가하는 과정에서, 기준 음소열의 음소 구간 길이 대비 최적 음소열의 음소 구간 길이에 기초하여 상기 음성 난이도를 평가하는 것을 특징으로 할 수 있다.

상기 패턴 관리부는, 난청 발음에 대한 패턴 정보를 추가로 관리하며, 상기 음성 난이도 평가부는, 기준 음소열 또는 최적 음소열로부터 검출되는 난청 발음 패턴 정보를 기초로 상기 음성 난이도를 평가하는 것을 특징으로 할 수 있다.

상기 패턴 관리부는, 외국어에 대한 발음 패턴 또는 발음 변환 규칙들의 발생 빈도를 추가로 제공하며, 상기 음성 난이도 평가부는, 기준 음소열 또는 최적 음소열에 등장하는 발음 패턴 또는 발음 변환 규칙의 발생 빈도를 기초로 상기 음성 난이도를 평가하는 것을 특징으로 할 수 있다.

상기 패턴 관리부는, 외국어에 대한 발음 패턴이 나타난 음소열 또는 발음 변환 규칙이 적용된 음소열의 발생 빈도를 추가로 제공하며, 상기 음성 난이도 평가부는, 기준 음소열 또는 최적 음소열에 등장하는 발음 패턴이 나타난 음소열 또는 발음 변환 규칙이 적용된 음소열의 발생 빈도를 기초로 상기 음성 난이도를 평가하는 것을 특징으로 할 수 있다.

상기 패턴 관리부는, 표현 패턴과 관련하여 단어 통계, 구문 유형 통계 또는 단어열 통계 중 적어도 하나 이상을 관리하며, 상기 표현 난이도 평가부가 동영상의 대사 스크립트를 기초로 표현 난이도를 평가하는 과정은, 상기 동영상의 대사 스크립트에 포함되는 단어, 구문 유형 또는 단어열에 대해 표현 패턴의 단어 통계, 구문 유형 통계 또는 단어열 통계를 기초로 표현 난이도를 평가하는 것을 특징으로 할 수 있다.

상기 패턴 관리부는, 표현 패턴과 관련하여 대사 스크립트에 포함된 단어들에 대한 동사 여부를 판단할 수 있는 정보를 추가로 관리하며, 상기 표현 난이도 평가부가 동영상의 대사 스크립트를 기초로 표현 난이도를 평가하는 과정은, 동영상 대사 스크립트에 포함된 동사의 숫자를 기초로 표현 난이도를 평가하는 것일 수 있다.

상기 자막 필터부는, 시청자의 외국어 청취 실력과 상기 청취 난이도 평가부에 의해 계산된 청취 난이도가 기 정해진 일정한 차이 이내로 판단되면, 기 정해진 일정 확률을 기반으로 하여 자막의 표시 여부를 결정하는 것을 특징으로 할 수 있다.

상술한 과제를 해결하기 위한 본 발명의 다양한 실시예 중 하나에 따르면, 동영상 자막 필터링 시스템이 동영상 자막의 필터링을 수행하는 방법에 있어서, 외국어 발음 패턴 및 표현 패턴을 저장하여 관리하는 단계; 시청자의 외국어 청취 난이도를 설정하는 단계; 동영상의 음성 및 대사 스크립트를 기초로 음성 난이도를 평가하는 단계; 동영상의 대사 스크립트를 기초로 표현 난이도를 평가하는 단계; 상기 음성 난이도 및 상기 표현 난이도를 종합하여 동영상 음성에 대한 청취 난이도를 계산하는 단계; 및 상기 시청자의 외국어 청취 난이도와 평가된 청취 난이도의 비교를 통해 자막의 필터링 여부를 결정하는 단계를 포함하는, 동영상 자막 필터링 시스템의 동영상 자막 필터링 수행 방법이 개시될 수 있다.

본 발명의 실시예에 따르면, 동영상 시청자의 외국어 청취 난이도 수준과 동영상에서 제공되는 음성 대사의 청취 난이도가 비교되어 해당 자막의 선택적 필터링이 수행됨으로써, 실력보다 낮은 난이도에 대한 내용은 자막이 표시되지 않을 수 있다.

시청자의 외국어 청취 실력에 기초한 자막의 선택적 필터링이 수행됨에 따라, 시청자는 보다 쾌적한 동영상 청취 환경을 제공받을 수 있으며, 어학 능력 향상에도 도움을 받을 수 있다.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 동영상 자막 필터링 시스템이 동작하는 환경에 대한 개략도이다.

도 2는 본 발명의 일 실시예에 따른 동영상 자막 필터링 시스템의 구성을 개략적으로 나타낸 블록도이다.

도 3은 본 발명의 일 실시예에 따른 동영상 자막 필터링 시스템의 동작 방식을 설명하기 위한 흐름도이다.

도 4는 본 발명의 일 실시예에 따른 동영상 자막 필터링 시스템 내에서 동작하는 음소 구간 분석부의 동작 방식을 설명하기 위한 도면이다.

도 5는 본 발명의 일 실시예에 따른 동영상 자막 필터링 시스템에 의해 자막이 필터링되는 상태를 설명하기 위한 도면이다.

도 6은 본 발명의 일 실시예에 따른 동영상 자막 필터링 시스템 내에서 동작하는 시청자 실력 설정부를 설명하기 위한 도면이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

본 발명을 통해 제공되는 동영상 자막 필터링 시스템은 외국어 동영상에 표시되는 자막 중 일부분을 필터링하는 기술로, '외국어'라 함은 표시되는 자막에 해당하는 언어와 상이한 언어를 의미할 수 있다. 즉, 한국인의 입장에서 '외국어'는 한국어가 아닌 상이한 언어를 의미할 수 있지만, 다른 언어를 쓰는 사람의 입장에서는 '외국어'가 한국어가 될 수도 있다. 즉, 본 발명에서의 외국어 및 자막은 특정 언어에 한정되거나 특정 언어를 배제하지 않는 개념일 수 있다.

이하, 첨부된 도면들을 참조하여 본 발명의 다양한 실시예들을 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 동영상 자막 필터링 시스템(100)이 동작하는 환경에 대한 개략도이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 동영상 자막 필터링 시스템(100)은 시청자 단말기(200), 관리자 단말기(300) 및 외부 서버(400)와 연결되어 통신하는 환경 내에서 동작할 수 있다.

동영상 자막 필터링 시스템(100)은 연결된 기기로부터 동영상 및 동영상에 대한 대사 스크립트를 수신하여 자막 필터링 여부를 결정하는 전자 장치 또는 서버와 같은 형태의 시스템으로 구성될 수 있다. 또한, 동영상 자막 필터링 시스템(100)은 스마트폰, 태블릿 등과 같은 특정 전자기기에 설치되어 동작하는 어플리케이션 등과 같은 프로그램 형태의 소프트웨어로 구성될 수도 있다.

한편, 동영상 자막 필터링 시스템(100)은 외국어 자막이 존재하는 경우 외국어 자막을 대사 스크립트로 사용할 수도 있고, 외국어 자막이 존재하지 않는 경우 연결된 외부기기로부터 별도로 대사 스크립트를 입력받아 사용할 수도 있으며, 또는 자막과 대응되는 동영상내 음성 대사로부터 음성인식을 통해 대사 스크립트를 생성할 수도 있다.

다른 한편, 각 대사 스크립트에는 대응되는 동영상 플레이 시간에 대한 구간 정보가 배정되어 있어 각 대사 스크립트와 동영상 내의 음성이 연동될 수 있다. 또한, 바람직하게는, 각 대사 스크립트의 동영상 플레이 시간에 대한 구간 정보는 자막에 배정된 동영상 플레이 시간에 대한 구간 정보와 호응될 수 있다.

동영상 자막 필터링 시스템(100)은 동영상 음성 및 대사 스크립트로 청취 난이도를 측정하고, 동영상을 감상할 시청자의 외국어 청취 실력을 확보하여 청취 난이도와 청취 실력을 비교함으로써, 동영상의 음성 중 대응되는 자막을 표시할 부분과 표시하지 않을 부분의 결정을 수행할 수 있다.

동영상 자막 필터링 시스템(100)은 동영상내 모든 음성 및 대사 스크립트별로 미리 청취 난이도를 측정해 두고, 이후 시청자에 따라 시청자 외국어 청취 실력에 맞춰 각 음성 대사에 대응되는 자막의 필터링 여부를 결정할 수도 있다.

일 실시예에 따르면, 동영상 자막 필터링 시스템(100)은 청취 난이도를 측정함에 있어, 동영상의 음성 및 대사 스크립트를 기초로 '음성'의 난이도를 평가하고, 동영상의 대사 스크립트만을 기초로 '표현' 자체의 난이도를 평가한 이후에 음성 난이도와 표현 난이도를 종합하여 최종적으로 동영상 음성에 대한 '청취' 난이도를 평가할 수 있다.

시청자 단말기(200)는 동영상 자막 필터링 시스템(100)을 활용하여 동영상을 감상하고자 하는 시청자에 의해 제어되는 단말기로, 시청자는 웹 브라우저 또는 시청자 단말기(200) 상에 설치된 동영상 감상 프로그램을 통하여 동영상 자막 필터링 시스템(100)의 기술이 적용된 동영상을 감상할 수 있다.

시청자 단말기(200)는 동영상 자막 필터링 시스템(100)과의 통신을 수행하여 동영상 자막 필터링 시스템(100)으로부터 수신하는 데이터를 기초로 하여 시청자 단말기(200) 상에서 재생되는 동영상의 자막 표시 여부를 결정할 수 있으며, 시청자 단말기(200) 내에 소프트웨어 형태로 설치된 동영상 자막 필터링 시스템(100)을 활용하여 시청자 단말기(200) 상에서 재생되는 동영상의 자막 표시 여부를 결정할 수도 있다. 또한, 시청자 단말기(200)는 동영상 자막 필터링 시스템(100)으로부터 시청자의 외국어 수준에 맞게 모든 대사에 대해 필터링 여부가 미리 반영된 자막을 수신하여 동영상과 함께 표출만 할 수도 있다.

관리자 단말기(300)는 동영상 자막 필터링 시스템(100)을 관리하는 주체에 의해 제어되는 단말기로, 일 실시예에 따르면 관리자는 동영상 자막 필터링 시스템(100)의 제작자일 수 있다.

관리자는 관리자 단말기(300)를 통해 동영상 자막 필터링 시스템(100)이 동작하는 방법에 대한 상세 설정을 수행할 수 있으며, 상세하게는 시청자의 외국어 실력 확보 방법, 음성 난이도의 평가 방법, 표현 난이도의 평가 방법, 청취 난이도의 계산 방법 등을 설정할 수 있다.

시청자 단말기(200) 및 관리자 단말기(300)는 동작에 필요한 정보들을 저장하는 메모리, 동작에 필요한 각종 연산을 수행하는 CPU와 같은 중앙처리장치, 입출력 장치 등을 포함하여 구성될 수 있다.

이러한 시청자 단말기(200) 및 관리자 단말기(300)는 휴대폰, 스마트폰, PDA(Personal Digital Assistant), PMP(Portable Multimedia Player), 태블릿 PC, 등과 같이 네트워크를 통하여 웹 서버와 연결될 수 있는 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있으며, 개인용 컴퓨터(예를 들어, 데스크탑 컴퓨터, 노트북 컴퓨터 등), 워크스테이션, 웹 패드 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기 중 하나일 수도 있다.

외부 서버(400)는 동영상 자막 필터링 시스템(100)의 원활한 동작을 위해 필요한 데이터를 제공하는 서버로, 일 실시예에 따르면 외부 서버(400)는 OTT 서비스를 제공하는 서버로 구성되어 동영상 및 동영상에 대한 외국어 자막 또는 번역 자막을 동영상 자막 필터링 시스템(100) 측으로 제공할 수 있다.

본 발명의 일 실시예에 따르면, 동영상 자막 필터링 시스템(100)의 동작 환경 내에서 동작하는 각 주체들이 통신하기 위해서 사용하는 통신망은 유선 및 무선 등과 같은 그 통신 양태를 가리지 않고 구성될 수 있으며, 예를 들면, 근거리 통신망(LAN: Local Area Network), 도시권 통신망(MAN: Metropolitan Area Network), 광역 통신망(WAN: Wide Area Network) 등 다양한 통신망으로 구현될 수 있다.　바람직하게는, 본 발명의 일 실시예에 따른 통신망은 공지의 월드와이드웹(WWW: World Wide Web) 등일 수도 있다.

도 2는 본 발명의 일 실시예에 따른 동영상 자막 필터링 시스템(100)의 구성을 개략적으로 나타낸 블록도이다.

도 2를 참조하면, 동영상 자막 필터링 시스템(100)은 패턴 관리부(110), 시청자 실력 설정부(120), 음성 난이도 평가부(130), 표현 난이도 평가부(140), 청취 난이도 평가부(150), 자막 필터부(160), 통신부(170), 저장부(180) 및 제어부(190)를 포함하여 구성될 수 있다.

패턴 관리부(110)는 특정 언어에 대한 발음 패턴 및 표현 패턴을 저장하여 관리할 수 있다. 패턴 관리부(110)에 의해 관리되는 발음 패턴 및 표현 패턴 등은 추후 동영상의 음성 및 대사 스크립트를 기초로 음성 난이도 및 표현 난이도를 평가하는 과정에서 활용될 수 있다.

패턴 관리부(110)는 발음 패턴 정보로서 단어별 또는 문장별 음소열 및 음소 구간에 대한 정보를 관리할 수 있다. 또한, 패턴 관리부(110)는 발음 패턴 정보로서 난청 발음에 대한 패턴 정보 및 발음 변환 규칙에 대한 정보 또한 관리할 수 있다.

패턴 관리부(110)는 단어별 또는 문장별 음소열 및 음소 구간 정보를 직접 관리할 수 있다. 패턴 관리부(110)는 다량의 음성 및 각각의 음성에 해당하는 문장의 텍스트별 음소열 및 음소 구간 정보를 딥러닝하여 구축된 인공지능 데이터 세트 및 인공지능 데이터 세트 또는 인공지능 모델에 기초하여 텍스트 입력에 대해 음소열과 음소 구간 정보를 제공하는 음소 구간 추출부를 추가로 포함하고, 음소 구간 추출부를 통해 문장 텍스트별 음소열 및 음소 구간 정보를 제공할 수도 있다.

패턴 관리부(110)에 의해 관리되는 발음 변환 규칙은 다양한 형태의 규칙을 포함할 수 있다. 예를 들어, 자발성 자음과 약모음이 연속될 경우에 약모음이 생략되는 규칙, 비자발성 자음과 자음이 연속될 경우에 비자발성 자음이 생략되는 규칙, 단모음이 강세가 없으면 약화(schwa)되는 규칙, 문장을 시작하는 약모음이 생략되는 규칙, 약모음과 강모음이 연속될 경우에 강모음만 나타나는 규칙 등이 포함될 수 있다. 또한, 자음 t와 자음 r이 연속될 경우 ch로 변환되는 규칙과 같이 구체적 발음과 관련된 축약, 삭제, 변환 등의 규칙 등이 포함될 수도 있다. 자발성 자음이란 모음이 받쳐주지 않아도 자체로 발성이 가능한 s, z, f, v, sh, ch, r, l과 같은 자음들이고, 비자발성 자음이란, p, t, k, b, d, g와 같이 원칙적으로 모음이 없으면 발성되지 않는 자음들이다.

한편, 상기 발음 변환 규칙들이 적용될 때에는 연이어 적용될 수도 있다. 예를 들어, 단모음이 강세가 없으면 약화되는 규칙에 따라 발음 변환이 일어난 상태에 다시 자발성 자음과 약모음이 연속될 경우에 약모음이 생략되는 규칙이 연속으로 적용될 수도 있다.

패턴 관리부(110)에 의해 관리되는 난청 발음 패턴은, 동일한 자음이 연속되어 나타나는 패턴, 유사한 자음이 연속되는 패턴, 유사한 모음이 연속되는 패턴, 영어를 예로 들었을 때에 t, p, k와 같은 알파벳에 대한 발음들이 경음화되는 패턴 등을 포함할 수 있다.

한편, 패턴 관리부(110)는 발음 패턴이 나타나는 빈도 및 발음 변환 규칙이 적용되는 빈도에 대한 통계 정보, 더 나아가, 발음 패턴이 나타나는 구체적 음소열의 발생 빈도 및 발음 변환 규칙이 적용되는 구체적 음소열의 발생 빈도에 대한 통계 정보를 추가로 포함할 수도 있다.

패턴 관리부(110)는 표현 패턴과 관련하여 단어 통계, 구문 유형 통계 및 단어열 통계에 대한 정보를 관리할 수 있다. 단어열 통계란 N-Gram 통계로서 N개의 연속 단어들의 발생 빈도 정보를 의미한다.

패턴 관리부(110)는 표현 패턴과 관련하여 대사 스크립트내 단어들에 대해 동사 여부를 판단할 수 있는 정보를 관리할 수 있다.

시청자 실력 설정부(120)는 시청자가 동영상 자막 필터링 시스템(100)을 활용하여 동영상을 감상하기 이전에 해당 시청자의 외국어 청취 실력을 판단하여 시청자의 외국어 청취 실력을 설정할 수 있다.

시청자 실력 설정부(120)의 시청자 외국어 청취 실력 설정은 다양한 방식으로 수행될 수 있다. 일 실시예에 따르면, 시청자가 시청자 단말기(200)를 통해 자신의 실력 정도를 입력함에 따라 시청자의 외국어 청취 실력이 설정될 수 있으며, 이와 달리 시청자 실력 설정부(120)에 의해 제공되는 청취력 테스트 퀴즈에 대한 정답을 시청자가 입력하면 시청자 실력 설정부(120)가 시청자가 맞힌 문제와 맞히지 못한 문제에 근거하여 시청자의 외국인 청취 실력을 설정할 수도 있다. 시청자 실력 설정부(120)가 퀴즈를 제공하는 경우, 퀴즈는 시청자가 특정 동영상을 청취하기 이전 또는 청취한 이후에 해당 동영상의 음성 및 대사 스크립트와 관련된 문제로 제공될 수도 있다.

시청자 실력 설정부(120)의 시청자 외국어 청취 실력 설정은 시청자가 동영상을 감상하는 동안에도 실시간으로 수행될 수 있으며, 그에 따라 음성 대사에 대응되는 자막이 표시될 것인지에 대한 기준 또한 실시간으로 변경될 수 있다. 필터링 여부가 사전에 일괄 결정된 자막을 제공하는 방식에서는 새로 설정된 시청자 실력에 맞춰 재필터링된 자막이 제공될 수 있다.

음성 난이도 평가부(130)는 동영상에서 출력되는 음성 및 동영상의 대사 스크립트를 기초로 동영상의 음성 난이도를 평가할 수 있다. 즉, 음성 난이도는 동영상에서 출력되는 음성 그 자체와 동영상의 대사 스크립트를 기초로 분석되는 발음 패턴에 의한 음성 난이도가 종합되는 형태로 평가될 수 있다.

일 실시예에 따르면, 음성 난이도 평가부(130)는 기준 음소열 추출부(131), 후보 음소열 생성부(132) 및 최적 음소열 선정부(133)를 포함하는 형태로 구성될 수 있다.

기준 음소열 추출부(131)는 동영상의 대사 스크립트에서 기준 음소열 및 음소 구간을 추출하는 동작을 수행할 수 있다.

기준 음소열 추출부(131)는 패턴 관리부(110)에 의해 관리되는 또는 제공되는 단어별 또는 문장별 음소 구간 정보에 기초하여 음소열 및 음소 구간을 추출할 수 있다. 대사 스크립트의 기준 음소열 및 음소 구간 정보는 기본적으로 패턴 관리부(110)에 의해 관리되는 단어들의 음소열 및 음소 구간 정보의 조합에 의해 획득될 수도 있다.

기준 음소열 추출부(131)는 대사 스크립트가 기본형인지 여부를 체크하고 기본형이 아닌 경우 대사 스크립트를 기본형으로 복원하고 복원된 대사 스크립트로부터 기준 음소열 및 음소 구간을 추출할 수도 있다. 기본형이란 축약 등으로 단어들의 형태가 변형되기 전의 기본 형태의 구문을 의미한다. 예를 들어, 기준 음소열 추출부(131)는 'should've, don't, whatcha, wanna' 와 같은 표현이 포함되어 있으면 해당 부분을 'should have, do not, what are you, want to'와 같은 기본형으로 복원한 후 복원된 대사 스크립트로부터 기본 음소열 및 음소 구간을 추출할 수도 있다.

후보 음소열 생성부(132)는 동영상의 대사 스크립트 또는 기준 음소열에 발음 변환 규칙을 적용하여 적어도 하나 이상의 후보 음소열을 생성할 수 있다. 이 과정에서 후보 음소열 생성부(132)가 생성하는 후보 음소열에는 기준 음소열이 기본적으로 포함될 수 있다. 적용되는 발음 변환 규칙들은 전술된 패턴 관리부(110)에 의해 관리될 수 있다. 한편, 바람직하게는, 대사 스크립트는 기본형으로 구성될 수 있다.

최적 음소열 선정부(133)는 후보 음소열 생성부(132)가 생성한 복수의 후보 음소열 중 하나를 최적 음소열로 선정하고 그 과정에서 구성 음소별 음소 구간 길이도 추출할 수 있다.

최적 음소열 선정부(133)는 복수의 후보 음소열 각각을 동영상에서 출력되는 음성에 적용하여 음소 구간 분석을 수행하고 이를 통해 최적 음소열을 선정할 수 있다. 이와 같은 과정에서 음소 구간 분석은 음성 난이도 평가부(130)의 추가적인 구성인 음소 구간 분석부에 의해 수행될 수 있으며, 음소 구간 분석부는 Gaussian Hidden Markov Model 또는 Gaussian Neural Network 모델 등에 기반하여 음소 구간을 출력할 수 있다. 최적 음소열 선정부(133)는 음소 구간 분석부에 후보 음소열들을 입력하여 해당 음성에 대한 적합도가 가장 큰 음소열 및 음소 구간을 출력으로 받을 수 있다.

최종적으로, 음성 난이도 평가부(130)는 기준 음소열 추출부(131)에 의해 추출된 기준 음소열과, 최적 음소열 선정부(133)에 의해 선정된 최적 음소열 간의 비교를 통해 음성 난이도를 평가할 수 있다.

음성 난이도 평가부(130)는 이와 같이 기준 음소열과 최적 음소열의 비교를 통해 음성 난이도를 평가하는 과정에서, 기준 음소열의 음소 구간 길이 대비 최적 음소열의 음소 구간 길이에 기초하여 음성 난이도를 평가할 수 있다. 예를 들어, 대응되는 음소별로 최적 음소열의 음소 구간 길이가 기준 음소열의 음소 구간 길이에 비해 짧아질수록, 음성 난이도는 높게 평가될 수 있다.

일 실시예에 따르면, 음성 난이도 평가부(130)는 기준 음소열 또는 최적 음소열로부터 검출되는 난청 발음 패턴 정보를 기초로 음성 난이도의 평가를 수행할 수 있다.

음성 난이도 평가부(130)는 기준 음소열 또는 최적 음소열상에 원어민이 아닌 시청자의 청취를 어렵게 하는 유사 자음의 연속, 모음 연속, 자발성 자음과 약모음의 연속 등 난청 발음 패턴이 나타나면 이를 기초로 음성 난이도를 평가할 수 있다. 예를 들어, 'have books'와 같은 표현에서는 앞 단어 끝 자음과 뒷 단어 첫 자음이 유사하여 앞 단어 끝 자음 [v]가 잘 안 들릴 가능성이 있기에 그에 따라 음성 난이도가 상승될 수 있다.

일 실시예에 따르면, 음성 난이도 평가부(130)는 동영상을 통해 출력되는 특정 음성에 대해 선정된 최적 음소열에 적용된 발음 변환 규칙을 기초로 음성 난이도 평가를 수행할 수 있다.

음성 난이도 평가부(130)는 동영상 각 대사 음성에 대해 선정된 최적 음소열에 적용된 각종 유형의 축약, 삭제, 변환 등 발음 변환 규칙을 기초로 음성 난이도 평가를 수행할 수 있다. 예를 들어, 'suit you'와 같은 표현은 앞 단어 끝 자음 [t]와 뒷 단어 첫 자음 [y]가 변환하여 [ch]로 발음될 수 있는데 이런 경우에 있어 시청자에게 연속된 단어들이 익숙하지 않은 경우에 음성 난이도가 증가할 수 있다. 한편, 최적 음소열에 적용된 발음 변환 규칙은 최적 음소열로 선정된 후보 음소열을 후보 음소열 생성부에서 생성할 때 적용한 하나 이상의 발음 변환 규칙들을 의미한다.

음성 난이도 평가부(130)는 발음 변환 규칙 또는 난청 발음 패턴에 가중치를 두고 정도를 달리하여 음성 난이도 평가에 반영할 수도 있다.

음성 난이도 평가부(130)는 패턴 관리부(110)에 의해 제공되는 발음 패턴 또는 발음 변환 규칙들의 발생 빈도에 대한 정보를 기초로 하여, 기준 음소열 또는 최적 음소열에 등장하는 발음 패턴 또는 발음 변환 규칙의 발생 빈도를 토대로 음성 난이도의 평가를 수행할 수도 있다.

더 나아가, 음성 난이도 평가부(130)는 패턴 관리부(110)에 의해 제공되는 발음 패턴이 나타난 또는 발음 변환 규칙이 적용된 구체적 음소열의 발생 빈도에 대한 정보를 기초로 하여, 기준 음소열 또는 최적 음소열에 등장하는 발음 패턴이 나타난 또는 발음 변환 규칙이 적용된 실제 음소열의 발생 빈도를 토대로 음성 난이도의 평가를 수행할 수도 있다.

표현 난이도 평가부(140)는 동영상의 대사 스크립트만을 기초로 하여 표현 난이도를 평가할 수 있다. 즉, 표현 난이도 평가부(140)에 의해 평가되는 표현 난이도는 동영상을 통해 출력되는 실제 음성과는 상관없이 대사 스크립트의 텍스트 만을 통해 결정되는 것일 수 있다.

본 발명의 일 실시예에 따르면, 표현 난이도 평가부(140)는 동영상의 대사 스크립트를 기초로 표현 난이도를 평가하는 과정에서, 동영상의 대사 스크립트에 포함되는 단어, 구문 유형 또는 단어열에 대해 표현 패턴의 단어 통계, 구문 유형 통계 또는 단어열 통계를 기초로 표현 난이도의 평가를 수행할 수 있다. 예를 들어, 표현 난이도 평가부(140)는 다양한 통계를 바탕으로 특정 단어, 구문 유형, 단어열이 통계상 잘 활용되지 않는 경우에는 난이도를 보다 높게 측정할 수 있다.

일 실시예에 따르면, 표현 난이도 평가부(140)는 동영상의 대사 스크립트를 기초로 표현 난이도를 평가하는 과정에서, 패턴 관리부(110)에 의해 관리되는 단어들에 대한 동사 여부 판단 정보에 기초하여, 동영상 대사 스크립트에 포함된 동사의 숫자를 파악하고 이를 기초로 표현 난이도의 평가를 수행할 수 있다.

즉, 특정 표현에 동사의 수가 많을수록 해당 표현의 구문 복잡도가 증가하게 되어 해당 표현을 청취하여 이해하기 위한 난이도가 증가할 수 있으므로, 표현 난이도 평가부(140)는 동사의 숫자가 많을수록 표현 난이도가 증가되게 하는 방식으로 평가를 수행할 수 있게 된다.

청취 난이도 평가부(150)는 음성 난이도 평가부(130)에 의해 평가된 음성 난이도와, 표현 난이도 평가부(140)에 의해 평가된 표현 난이도를 종합하여 동영상의 음성에 대한 최종적인 청취 난이도를 계산할 수 있다.

자막 필터부(160)는 시청자 실력 설정부(120)에 의해 설정된 시청자의 외국어 청취 실력과, 청취 난이도 평가부(150)에 의해 계산된 청취 난이도의 비교를 통해 자막의 필터링 여부를 결정할 수 있다.

즉, 자막 필터부(160)는 동영상에 나오는 음성 대사별로 계산된 청취 난이도를 기초로, 시청자의 외국어 청취 실력보다 높은 난이도의 청취 난이도로 분류되는 대사는 해당 대사에 대한 번역된 자막을 표시하고, 시청자의 외국어 청취 실력보다 낮은 난이도의 청취 난이도로 분류되는 대사는 해당 대사에 대한 번역된 자막이 표시되지 않도록 제어할 수 있다.

자막 필터부(160)는 시청자의 외국어 청취 실력과 동영상내 음성 대사별 청취 난이도가 동일한 경우나, 시청자 외국어 청취 실력과 특정 음성 대사의 청취 난이도가 기 정해진 일정한 차이 이내인 경우에는 미리 설정된 방식에 따라 해당 대사의 자막 표시 여부가 결정될 수 있다.

예를 들어, 특정 시청자는 자신의 외국어 청취 실력과 비슷한 청취 난이도로 평가되는 음성 대사에 대해서는 자막을 제공받고 싶을 수 있으며, 다른 시청자는 이와 달리 자신의 외국어 청취 실력과 비슷한 청취 난이도로 평가되는 음성 대사에 대해서는 자막이 표시되는 것을 원하지 않을 수 있다. 이와 같은 상황에서는, 시청자의 설정 또는 관리자의 설정에 의해 자막의 표시 여부가 결정될 수도 있다.

본 발명의 일 실시예에 따르면, 자막 필터부(160)는 시청자의 외국어 청취 실력과 동영상내 음성 대사별 청취 난이도가 동일한 경우나, 시청자 외국어 청취 실력과 특정 음성 대사의 청취 난이도가 기 정해진 일정한 차이 이내인 경우에 있어서, 기 정해진 일정 확률을 기반으로 하여 랜덤으로 자막의 표시 여부를 결정할 수 있다.

예를 들어, 상기와 같은 경우에 정해진 자막 표시 확률이 50%인 경우에는, 시청자의 외국어 청취 실력과 동영상에서 출력되는 음성의 청취 난이도가 일정한 차이 이내인 대사는 50%의 확률로 자막이 표시되고, 나머지 50%의 확률로 자막이 표시되지 않을 수 있다.

통신부(170)는 동영상 자막 필터링 시스템(100)이 시청자 단말기(200), 관리자 단말기(300) 및 외부 서버(400)와의 통신을 수행할 수 있도록 한다. 통신부(170)가 통신을 수행하기 위해서 사용하는 통신망은 유선 및 무선 등과 같은 그 통신 양태를 가리지 않고 구성될 수 있으며, 예를 들면, 근거리 통신망(LAN: Local Area Network), 도시권 통신망(MAN: Metropolitan Area Network), 광역 통신망(WAN: Wide Area Network) 등 다양한 통신망으로 구현될 수 있다.

저장부(180)는 동영상 자막 필터링 시스템(100)의 각종 구성부 내에서 수집되고, 생성되고, 가공되는 정보들을 저장하는 역할을 수행한다. 즉, 저장부(180)에는 패턴 관리부(110)가 관리하는 발음 패턴, 표현 패턴 등의 각종 정보와 시청자들에 대한 정보 등이 저장될 수 있다. 이러한 저장부(180)는 예를 들어, 메모리(memory), 캐시(cash), 버퍼(buffer) 등을 포함할 수 있으며, 소프트웨어, 펌웨어, 하드웨어 또는 이들 중 적어도 둘 이상의 조합으로 구성될 수 있다.

제어부(190)는 패턴 관리부(110), 시청자 실력 설정부(120), 음성 난이도 평가부(130), 표현 난이도 평가부(140), 청취 난이도 평가부(150), 자막 필터부(160), 통신부(170) 및 저장부(180) 간의 데이터 흐름을 제어하는 역할을 수행할 수 있다. 즉, 본 발명의 일 실시예에 따른 제어부(190)는 패턴 관리부(110), 시청자 실력 설정부(120), 음성 난이도 평가부(130), 표현 난이도 평가부(140), 청취 난이도 평가부(150), 자막 필터부(160), 통신부(170) 및 저장부(180)에서 각각 고유한 역할을 수행하도록 제어할 수 있다.

도 2에서 패턴 관리부(110), 시청자 실력 설정부(120), 음성 난이도 평가부(130), 표현 난이도 평가부(140), 청취 난이도 평가부(150) 및 자막 필터부(160)는 제어부(190)를 기능적으로 분류한 구성이므로 하나의 제어부(190)로서 통합되어 구성될 수도 있다.

도 3은 본 발명의 일 실시예에 따른 동영상 자막 필터링 시스템(100)의 동작 방식을 설명하기 위한 흐름도이다.

도 3을 참조하면, 동영상 자막 필터링 시스템(100)은 시청자가 시청자 단말기(200)를 통해 자신이 시청하기를 원하는 동영상을 선택하면 동작을 시작할 수 있다(S310).

동영상 자막 필터링 시스템(100)은 우선적으로 시청자의 외국어 청취 실력을 설정할 수 있다(S320). 시청자의 외국어 청취 실력이 설정되어 있어야 동영상의 각 음성 대사에 대한 난이도에 따라 자막의 표시 여부가 결정될 수 있기 때문이다. 동영상의 각 음성 대사에 대한 난이도 평가는 시청자의 외국어 청취 실력 설정과 독립적으로 수행될 수 있다.

시청자의 외국어 청취 실력은 시청자 또는 관리자의 선택에 의해 기본으로 설정되어 있을 수 있으며, 시청자가 과거에 다른 동영상을 청취하고 난 후 퀴즈를 푼 결과에 기초하여 측정된 외국어 청취 실력에 대한 정보에 따라 설정되어 있을 수도 있다.

이후, 동영상 자막 필터링 시스템(100)은 선택된 동영상내 음성 및 대사 스크립트를 추출할 수 있다(S330). 동영상 자막 필터링 시스템(100)은 필터링 여부를 결정해야 하는 자막별로 내포되어 있는 노출 시간 구간 정보를 확인하여 해당 구간에 대응되는 동영상내 음성 및 대사 스크립트를 추출할 수 있다. 이 과정에서, 대사 스크립트는 자막의 외국어 버전일 수도 있고, 자막과 동기화되어 외부 기기로부터 수신될 수도 있고, 음성인식을 통해 해당 구간의 동영상 음성으로부터 추출될 수도 있다.

동영상 자막 필터링 시스템(100)은 동영상의 음성 및 대사 스크립트를 기초로 하여 음성 난이도의 평가 및 표현 난이도의 평가를 수행할 수 있다(S340).

일 실시예에 따르면, 음성 난이도의 평가는 동영상의 음성 분석 및 대사 스크립트의 텍스트 분석에 기초하여 수행될 수 있으며, 표현 난이도의 평가는 대사 스크립트의 텍스트 분석에만 기초하여 수행될 수 있다.

이후, 동영상 자막 필터링 시스템(100)은 음성 난이도 및 표현 난이도를 종합하여 최종적으로 자막 필터링에 활용되는 청취 난이도를 계산할 수 있다(S350).

동영상 자막 필터링 시스템(100)은 동영상에서 제공되는 음성을 자막에 대응되는 음성 대사별로 분리하여 시청자의 외국어 청취 실력이 해당 대사의 청취 난이도보다 높은지를 판단하고(S360), 시청자의 외국어 청취 실력이 해당 대사의 청취 난이도보다 높은 경우 해당 대사에 대응되는 자막이 표시되지 않도록 필터링을 결정할 수 있다(S370). 이와 달리, 시청자의 외국어 청취 실력이 해당 음성 대사의 청취 난이도보다 낮은 경우 해당 대사에 대응되는 자막은 필터링 되지 않고 표시될 수 있다. 또한, 시청자의 외국어 청취 실력과 해당 음성 대사의 청취 난이도가 동일하거나 기 정해진 일정 차이 이내로 판단되는 경우에는, 시청자 또는 관리자의 설정에 따라 필터링 여부가 결정되거나 기 정해진 일정 확률을 기반으로 하여 자막의 필터링 여부가 랜덤으로 결정될 수도 있다.

도 4는 본 발명의 일 실시예에 따른 동영상 자막 필터링 시스템(100) 내에서 동작하는 음소 구간 분석부의 동작 방식을 설명하기 위한 도면이다.

도 4를 참조하면, 동영상 자막 필터링 시스템(100) 내의 음성 난이도 평가부(130)는 도 4의 음소 구간 분석부를 포함할 수 있으며, 음소 구간 분석부는 Gaussian Hidden Markov Model 또는 Gaussian Neural Network 모델 등에 기반하여 음소열 및 음소 구간을 출력할 수 있다.

도 4에서는 음소 구간 분석부에 제공되는 입력 값으로 동영상의 음성 파형 및 후보 음소열이 표시되어 있다. 실제로는 음성 파형이 아니라 음성 대사로부터 추출된 음향학적 특징값들이 입력되어 활용될 수 있다. 복수의 후보 음소열은 후보 음소열 생성부(132)에 의해 생성된 것일 수 있으며, 음소 구간 분석부는 동영상의 음성에 후보 음소열 각각을 적용하여 음소열별 적합도를 출력할 수 있다. 이후, 최적 음소열 선정부(133)는 적합도가 가장 높은 후보 음소열을 최적 음소열로 선정할 수 있다.

영어의 한 문장이 음소 구간 분석부에 의해 분석되는 방식을 예시로 들어보면, 'How was your date?" 라는 문장이 동영상의 대사 스크립트에 존재하였을 때에, 발음 변환 규칙들에 따라 후보 음소열로 [h aw w ax z y uh r d ey t], [h aw z y uh r d ey t], [h aw w ax dj uh r d ey t], [h aw dj uh r d ey t], [h a- dj uh r d ey t] 와 같이 5개의 후보 음소열이 생성되어 음소 구간 분석부에 제공될 수 있으며, 동영상에서 해당 문장에 대한 음성 또한 음소 구간 분석부에 제공될 수 있다. 음소 구간 분석부는 5개의 후보 음소열 각각에 대해, 입력된 음성에 대한 적합도를 출력하며 최적 음소열 선정부(133)는 적합도가 가장 높게 출력된 후보 음소열을 최적 음소열로 선정할 수 있다.

도 5는 본 발명의 일 실시예에 따른 동영상 자막 필터링 시스템(100)에 의해 자막이 필터링되는 상태를 설명하기 위한 도면이다.

도 5는 시청자가 시청자 단말기(200)를 통해 동영상 두 가지 장면을 시청하는 상태를 도시하고 있으며, 각각 영어 대사가 등장인물에 의해 제공되는 상태이다.

한 장면에서는 외국어 대사의 청취 난이도가 시청자의 외국어 청취 실력보다 낮다고 판단되어 자막이 표시되지 않은 상태가 도시되어 있으며, 다른 한 장면에서는 외국어 대사의 청취 난이도가 시청자의 외국어 청취 실력보다 높다고 판단되어 자막이 표시된 상태가 도시되어 있다.

도 6은 본 발명의 일 실시예에 따른 동영상 자막 필터링 시스템(100) 내에서 동작하는 시청자 실력 설정부(120)를 설명하기 위한 도면이다.

도 6에 따르면 시청자 실력 설정부(120)는 시청자 단말기(200) 화면 일측에 표시되는 시청자 실력 설정 수단을 통해 시청자의 외국어 청취 실력에 대응되는 청취 난이도 수준값을 입력받을 수 있다.

이와 같이, 본 발명의 다양한 실시예들에 따르면 시청자의 외국어 청취 실력에 따라 동영상의 자막이 선택적으로 필터링 될 수 있으며 그에 따라 시청자의 동영상 감상 환경이 개선될 수 있고 어학 학습에도 도움이 될 수 있다.

본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.

이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.

본 발명은 교육산업 분야에 대한 딥러닝 등 인공지능 기술의 모범적 적용 사례로서 특히 외국어 교육 산업 발전에 기여할 것으로 기대된다.

Claims

동영상 자막을 필터링하는 시스템에 있어서,

외국어 발음 패턴 및 표현 패턴을 관리하는 패턴 관리부;

시청자의 외국어 청취 실력을 설정하는 시청자 실력 설정부;

동영상의 음성 및 대사 스크립트를 기초로 음성 난이도를 평가하는 음성 난이도 평가부;

동영상의 대사 스크립트를 기초로 표현 난이도를 평가하는 표현 난이도 평가부;

상기 음성 난이도 및 상기 표현 난이도를 종합하여 동영상 음성에 대한 청취 난이도를 계산하는 청취 난이도 평가부; 및

상기 시청자의 외국어 청취 실력과 평가된 청취 난이도의 비교를 통해 자막의 필터링 여부를 결정하는 자막 필터부를 포함하는, 동영상 자막 필터링 시스템.
제1항에 있어서,

상기 패턴 관리부는 단어별 또는 문장별 음소열 및 음소 구간 정보를 관리하며,

상기 음성 난이도 평가부는,

동영상의 대사 스크립트에서 기준 음소열 및 음소 구간을 추출하는 기준 음소열 추출부;

동영상의 대사 스크립트 또는 기준 음소열에 발음 변환 규칙을 적용하여 기준 음소열 포함 적어도 하나 이상의 후보 음소열을 생성하는 후보 음소열 생성부; 및

상기 후보 음소열 생성부에 의해 생성된 후보 음소열들을 기초로 최적 음소열을 선정하고 구성 음소별 음소 구간 길이를 추출하는 최적 음소열 선정부를 더 포함하며,

상기 음성 난이도 평가부는 상기 기준 음소열 추출부에 의해 추출된 기준 음소열과 상기 최적 음소열 선정부에 의해 선정된 최적 음소열의 비교를 통해 상기 음성 난이도를 평가하는 것을 특징으로 하는, 동영상 자막 필터링 시스템.
제2항에 있어서,

상기 음성 난이도 평가부는,

특정 음성에 대해 기준 음소열 대비 최적 음소열에 적용된 발음 변환 규칙을 기초로 상기 음성 난이도를 평가하는, 동영상 자막 필터링 시스템.
제2항에 있어서,

상기 기준 음소열 추출부는,

동영상의 대사 스크립트가 기본형인지 여부를 체크하고 기본형이 아닌 경우 대사 스크립트를 기본형으로 복원하고 복원된 대사 스크립트로부터 기본 음소열 및 음소 구간을 추출하는, 동영상 자막 필터링 시스템
제2항에 있어서,

상기 패턴 관리부는,

음성 및 문장 텍스트별 음소열 및 음소 구간 정보를 딥러닝하여 구축된 인공지능 데이터 세트 및 상기 인공지능 데이터 세트에 기초하여 텍스트 입력에 대해 음소열과 음소 구간 정보를 제공하는 음소 구간 추출부를 추가로 포함하고,

상기 기준 음소열 추출부는, 상기 음소 구간 추출부를 통해 음소열 및 음소 구간을 추출하는 것을 특징으로 하는, 동영상 자막 필터링 시스템.
제2항에 있어서,

상기 음성 난이도 평가부는,

기준 음소열과 최적 음소열의 비교를 통해 상기 음성 난이도를 평가하는 과정에서,

기준 음소열의 음소 구간 길이 대비 최적 음소열의 음소 구간 길이에 기초하여 상기 음성 난이도를 평가하는 것을 특징으로 하는, 동영상 자막 필터링 시스템.
제2항에 있어서,

상기 패턴 관리부는,

난청 발음에 대한 패턴 정보를 추가로 관리하며,

상기 음성 난이도 평가부는,

기준 음소열 또는 최적 음소열로부터 검출되는 난청 발음 패턴 정보를 기초로 상기 음성 난이도를 평가하는 것을 특징으로 하는, 동영상 자막 필터링 시스템.
제2항에 있어서,

상기 패턴 관리부는,

외국어에 대한 발음 패턴 또는 발음 변환 규칙들의 발생 빈도를 추가로 제공하며,

상기 음성 난이도 평가부는,

기준 음소열 또는 최적 음소열에 등장하는 발음 패턴 또는 발음 변환 규칙의 발생 빈도를 기초로 상기 음성 난이도를 평가하는 것을 특징으로 하는, 동영상 자막 필터링 시스템.
제2항에 있어서,

상기 패턴 관리부는,

외국어에 대한 발음 패턴이 나타난 음소열 또는 발음 변환 규칙이 적용된 음소열의 발생 빈도를 추가로 제공하며,

상기 음성 난이도 평가부는,

기준 음소열 또는 최적 음소열에 등장하는 발음 패턴이 나타난 음소열 또는 발음 변환 규칙이 적용된 음소열의 발생 빈도를 기초로 상기 음성 난이도를 평가하는 것을 특징으로 하는, 동영상 자막 필터링 시스템.
제1항에 있어서,

상기 패턴 관리부는,

표현 패턴과 관련하여 단어 통계, 구문 유형 통계 또는 단어열 통계 중 적어도 하나 이상을 관리하며,

상기 표현 난이도 평가부가 동영상의 대사 스크립트를 기초로 표현 난이도를 평가하는 과정은,

상기 동영상의 대사 스크립트에 포함되는 단어, 구문 유형 또는 단어열에 대해 표현 패턴의 단어 통계, 구문 유형 통계 또는 단어열 통계를 기초로 표현 난이도를 평가하는 것을 특징으로 하는, 동영상 자막 필터링 시스템.
제1항에 있어서,

상기 패턴 관리부는,

표현 패턴과 관련하여 대사 스크립트에 포함된 단어들에 대한 동사 여부를 판단할 수 있는 정보를 추가로 관리하며,

상기 표현 난이도 평가부가 동영상의 대사 스크립트를 기초로 표현 난이도를 평가하는 과정은,

동영상 대사 스크립트에 포함된 동사의 숫자를 기초로 표현 난이도를 평가하는 것인, 동영상 자막 필터링 시스템.
제1항에 있어서,

상기 자막 필터부는,

시청자의 외국어 청취 실력과 상기 청취 난이도 평가부에 의해 계산된 청취 난이도가 기 정해진 일정한 차이 이내로 판단되면,

기 정해진 일정 확률을 기반으로 하여 자막의 표시 여부를 결정하는 것을 특징으로 하는, 동영상 자막 필터링 시스템.
동영상 자막 필터링 시스템이 동영상 자막의 필터링을 수행하는 방법에 있어서,

외국어 발음 패턴 및 표현 패턴을 저장하여 관리하는 단계;

시청자의 외국어 청취 난이도를 설정하는 단계;

동영상의 음성 및 대사 스크립트를 기초로 음성 난이도를 평가하는 단계;

동영상의 대사 스크립트를 기초로 표현 난이도를 평가하는 단계;

상기 음성 난이도 및 상기 표현 난이도를 종합하여 동영상 음성에 대한 청취 난이도를 계산하는 단계; 및

상기 시청자의 외국어 청취 난이도와 평가된 청취 난이도의 비교를 통해 자막의 필터링 여부를 결정하는 단계를 포함하는, 동영상 자막 필터링 시스템의 동영상 자막 필터링 수행 방법.