KR20150055921A

KR20150055921A - 동영상 재생 제어 방법 및 장치

Info

Publication number: KR20150055921A
Application number: KR1020130138504A
Authority: KR
Inventors: 최재우
Original assignee: 주식회사 디오텍
Priority date: 2013-11-14
Filing date: 2013-11-14
Publication date: 2015-05-22

Abstract

본 발명은 동영상 재생 제어 방법 및 장치에 관한 것으로서, 본 발명에 따른 동영상 재생 제어 방법은 동영상의 일 이상의 시점에서 재생에 앞서 재생될 내용에 대한 음성 데이터 수신을 요청하는 단계, 음성 데이터를 수신하는 단계, 음성 데이터를 음성인식 알고리즘으로 처리하여 음성처리 데이터를 생성하는 단계, 음성처리 데이터와 동영상 자막을 비교하여 유사도를 측정하는 단계, 및 유사도가 일정 수준 이상인 경우, 동영상을 이어서 재생하는 단계를 포함하고, 영어 말하기 학습을 위해 음성인식 기술을 이용하여 동영상의 제어와 함께 자막의 표시를 선택적으로 제어할 수 있는 동영상 재생 제어 방법 및 장치를 제공할 수 있는 효과가 있다.

Description

동영상 재생 제어 방법 및 장치{METHOD AND APPARATUS FOR CONTROLLING PLAYING VIDEO}

본 발명은 동영상 재생 제어 방법 및 장치에 관한 것으로서, 보다 상세하게는 음성인식을 통해 동영상의 자막과 비교하여 동영상의 재생을 제어하는 동영상 재생 제어 방법 및 장치에 관한 것이다.

세계화 추세에 따라 영어 학습의 중요성이 강조되고 영어 교육에 대한 관심이 증가하고 있다. 특히, 현대 사회에서는 실제 생활에서 의사소통을 중심으로 하는 영어 능력에 대한 관심이 높아지고 있고, 보다 쉽고 재미있는 영어 말하기 학습 방법에 대한 연구가 끊임없이 진행되고 있다.

컴퓨터의 보급과 사용자의 증가로 인하여 교육, 게임, 업무 등 일상에서 널리 컴퓨터가 활용되고 있으며, 최근 컴퓨터 기술의 발달로 인해 컴퓨터를 이용한 다양한 기술들이 개발되고 있다. 또한, 컴퓨터와 컴퓨터를 이용하는 음성인식 기술은 단순한 음성의 구별과 인식을 넘어서 다양한 분야에서 이용되고 있다. 음성인식 기술이 발달하고 대중화됨에 따라 영어 교육에도 음성인식 기술을 이용한 영어 학습 방법이 다양하게 시도되고 있다. 이에 따라, 음성인식 기술은 영어 학습에 대한 흥미를 유발시킬 수 있고, 음성인식 기술을 이용한 프로그램의 개발로 영어 학습의 효과를 높일 수 있다.

이에 따라, 영어 말하기 학습을 위해 음성인식 기술을 바탕으로 동영상을 재생하는 방법을 제공하고 보다 용이하고 흥미롭게 영어 말하기 학습을 위한 동영상 재생을 제어할 수 있는 방법을 제공할 필요성이 증대되었다.

본 발명이 해결하고자 하는 과제는 영어 말하기 학습을 위해 음성인식 기술을 이용하여 동영상의 제어와 함께 자막의 표시를 선택적으로 제어할 수 있는 동영상 재생 제어 방법 및 장치를 제공하는 것이다.

본 발명이 해결하고자 하는 다른 과제는 음성인식 기술을 이용하여 동영상의 음원을 분석하여 수정 가이드를 제시할 수 있는 동영상 재생 제어 방법 및 장치를 제공하는 것이다.

본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 동영상 재생 제어 방법은 동영상의 일 이상의 시점에서 재생에 앞서 재생될 내용에 대한 음성 데이터 수신을 요청하는 단계, 음성 데이터를 수신하는 단계, 음성 데이터를 음성인식 알고리즘으로 처리하여 음성처리 데이터를 생성하는 단계, 음성처리 데이터와 동영상 자막을 비교하여 유사도를 측정하는 단계, 및 유사도가 일정 수준 이상인 경우, 동영상을 이어서 재생하는 단계를 포함하는 것을 특징으로 한다.

본 발명의 다른 특징에 따르면, 음성 데이터 수신을 요청하는 단계는 동영상 자막의 적어도 일부를 표시하는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 음성 데이터 수신을 요청하는 단계는 캐릭터 선택 명령에 기초하여 선택적으로 이루어지는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 음성인식 알고리즘은 동영상 음원을 기준으로 동영상 음원과 음성 데이터를 비교한 수정 가이드를 생성하는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 유사도가 일정 수준 미만인 경우, 음성처리 데이터에 대응하는 동영상의 음원을 재생하는 단계를 더 포함하는 것을 특징으로 한다.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 동영상 재생 제어 장치는 음성 데이터를 수신하는 수신부, 동영상의 일 이상의 시점에서 재생에 앞서 재생될 내용에 대한 음성 데이터 수신을 요청하고, 음성 데이터를 음성인식 알고리즘으로 처리하여 음성처리 데이터를 생성하고, 음성처리 데이터와 동영상 자막을 비교하여 유사도를 측정하는 처리부, 및 유사도가 일정 수준 이상인 경우, 동영상을 이어서 재생하는 제어부를 포함하는 것을 특징으로 한다.

본 발명의 다른 특징에 따르면, 제어부는 동영상 자막의 적어도 일부를 표시하도록 제어하는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 제어부는 동영상 자막을 캐릭터 선택 명령에 기초하여 선택적으로 표시하는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 제어부는 유사도가 일정 수준 미만인 경우, 음성처리 데이터에 대응하는 동영상의 음원을 재생하는 것을 특징으로 한다.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 다른 실시예에 따른 동영상 재생 제어 방법을 제공하는 명령어들을 저장하는 컴퓨터 판독 가능 매체는 동영상의 일 이상의 시점에서 재생에 앞서 재생될 내용에 대한 음성 데이터 수신을 요청하고, 음성 데이터를 수신하고, 음성 데이터를 음성인식 알고리즘으로 처리하여 음성처리 데이터를 생성하고, 음성처리 데이터와 동영상 자막을 비교하여 유사도를 측정하고, 유사도가 일정 수준 이상인 경우, 동영상을 이어서 재생하는 것을 포함하는 것을 특징으로 한다.

기타 실시예의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

본 발명은 영어 말하기 학습을 위해 음성인식 기술을 이용하여 동영상의 제어와 함께 자막의 표시를 선택적으로 제어할 수 있는 동영상 재생 제어 방법 및 장치를 제공할 수 있는 효과가 있다.

본 발명은 음성인식 기술을 이용하여 동영상의 음원을 분석하여 수정 가이드를 제시할 수 있는 동영상 재생 제어 방법 및 장치를 제공할 수 있는 효과가 있다.

본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.

도 1은 본 발명의 일 실시예에 따른 동영상 재생 제어 모듈의 개략적인 구성도이다.
도 2는 본 발명의 일 실시예에 따른 동영상 재생 제어 방법을 설명하기 위한 순서도이다.
도 3은 본 발명의 일 실시예에 따른 동영상 재생 제어 방법이 구현된 예시적인 화면을 도시한 것이다.
도 4a 및 도 4b는 도 3에서의 입력에 따른 동영상 재생 제어 방법의 예시적인 설정 화면구성과 도 4a의 설정에 의해 출력되는 예시적인 화면구성을 도시한 것이다.
도 5a 및 도 5b는 도 3에서의 입력에 따른 동영상 재생 제어 방법의 예시적인 설정 화면구성과 도 5a의 설정에 의해 출력되는 예시적인 화면구성을 도시한 것이다.
도 6은 본 발명의 다른 실시예에 따른 동영상 재생 제어 방법에 의한 유사도 측정에 따른 처리부에서의 수정 가이드 생성과정을 도시한 것이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하며, 당업자가 충분히 이해할 수 있듯이 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.

이하, 첨부된 도면을 참조하여 본 발명의 다양한 실시예들을 상세히 설명한다.

도 1은 본 발명의 일 실시예에 따른 동영상 재생 제어 모듈의 개략적인 구성도이다.

본 발명의 일 실시예에 따르면, 동영상 제어 모듈 (100) 은 수신부 (110), 처리부 (120), 및 제어부 (130) 를 포함한다.

동영상 재생 제어 모듈 (100) 은 재생 중인 동영상을 수신부 (110) 를 통해 수신되는 음성 데이터에 의해 재생 여부를 제어한다. 음성 데이터는 동영상 재생 제어 모듈 (100) 의 음성인식 알고리즘을 통해 재생 여부를 제어할 수 있는 데이터로 변환된다.

동영상 재생 제어 모듈 (100) 은 다양한 프로그램과 연계되어 실행될 수 있다. 동영상 재생 제어 모듈 (100) 과 연계될 수 있는 프로그램은 동영상 재생 프로그램, 음성 재생 프로그램, 및 동영상 및 자막 편집 프로그램 등을 포함한다. 동영상 재생 프로그램은 동영상을 재생하면서 동시에 자막도 함께 표시할 수 있는 프로그램이다. 예를 들어, 동영상 재생 프로그램은 윈도우 미디어 플레이어 (Window Media Player) 와 같은 동영상 재생 프로그램 또는 어플리케이션이 될 수 있다.

수신부 (110) 는 동영상 재생 제어 모듈 (100) 에서 음성 인식이 가능하도록 사용자의 음성 데이터를 수신한다. 수신부 (110) 는 사용자의 음성 데이터를 입력 받는 외부의 입력부와 연결될 수 있다. 예를 들어, 입력부는 사용자의 음성을 직접 수신하는 마이크 또는 사용자의 음성을 녹음하여 전송하는 녹음기를 포함할 수 있다. 이에 따라, 음성 데이터는 마이크를 통해 수신된 사용자의 음성이거나 녹음된 사용자의 음성을 포함한다.

처리부 (120) 는 음성 데이터를 수신하기 위한 요청을 생성하여 수신부 (110) 에 전송한다. 동영상이 재생되는 시점 중 음성 데이터가 요구되는 시점에서 처리부 (120) 는 음성 데이터를 요구하는 신호를 발생시켜 사용자에게 알릴 수 있다. 음성 데이터를 수신하기 위한 요청은 동영상 재생 제어 모듈 (100) 과 연계되어 실행되는 프로그램에서 사용자가 인식할 수 있는 음성, 문자 또는 일정 신호 등을 통해 표현될 수 있다.

처리부 (120) 는 수신부 (110) 를 통해 수신된 음성 데이터를 기초로 음성인식 알고리즘을 이용하여 음성처리 데이터를 생성한다. 음성처리 데이터는 음성을 텍스트로 변환한 데이터로서, 음성처리 데이터를 통해 동영상 자막을 생성하거나 음성의 텍스트 변환을 꾀할 수 있다. 보다 구체적으로 음성처리 데이터는 동영상 자막과 같이 문자로 구성된 데이터일 수 있다. 음성인식 알고리즘은 기본적으로 사용자가 발성한 음성을 전자장치가 해석해 그 내용을 텍스트로 인식하는 작업을 의미한다. 구체적으로, 사용자가 발성한 음성의 파형이 전자장치에 입력되면, 음향 모델 등을 참조하여 음성파형을 분석함으로써, 음성패턴 정보가 획득될 수 있다. 그리고, 획득된 음성패턴 정보가 식별정보와 비교됨으로써, 식별정보에서 일치 확률이 가장 높은 텍스트가 인식될 수 있다.

처리부 (120) 는 생성된 음성처리 데이터와 재생되고 있는 동영상 자막을 비교하여 양자간의 유사도를 측정한다. 처리부 (120) 는 음성인식 알고리즘을 통해 생성된 음성처리 데이터의 단어와 동영상 자막의 단어를 각각 비교하여 양자간의 유사도를 측정할 수 있다. 처리부 (120) 는 보다 정확한 유사도 측정을 위해 음성처리 데이터의 한 음절, 하나의 알파벳 또는 한 글자 단위로 동영상의 자막과 비교할 수 있다. 처리부 (120) 에서 측정한 유사도는 숫자로 표현될 수 있다.

제어부 (130) 는 처리부 (120) 에서 측정된 유사도를 기초로 하여 기준 점수와 비교한 후 동영상의 재생 여부를 결정한다. 유사도는 제어부 (130) 에서 미리 정해진 기준 점수와 비교된다. 제어부 (130) 의 기준 점수보다 유사도가 큰 경우에는 정지되었던 동영상이 다시 재생된다. 제어부 (130) 는 처리부 (120) 의 다음 동영상 자막에 대한 음성 데이터 수신 요청을 받기 전까지 동영상을 재생한다. 제어부 (130) 의 기준 점수보다 유사도가 작은 경우, 동영상은 다시 재생되지 않고 동영상 자막에 해당되는 동영상 음원만이 재생될 수 있다. 동영상 음원에 대한 음성 데이터가 입력되는 경우, 다시 입력부 (110) 와 처리부 (120) 를 거쳐온 새로운 유사도는 제어부 (130) 에서 기준 점수를 비교되고, 제어부 (130) 는 동영상의 재생 여부를 결정한다.

도 2는 본 발명의 일 실시예에 따른 동영상 재생 제어 방법 및 장치를 설명하기 위한 순서도이다. 설명의 편의를 위해 도 1을 함께 참조하여 설명한다.

처리부 (120) 는 동영상의 재생에 앞서 재생될 내용에 대한 음성 데이터 수신을 요청한다 (S110).

재생을 요하는 시점은 동영상 제어 모듈 (100) 에서 미리 정한 시점이나 사용자의 요청에 의해 정해진 시점 등 다양하게 지정될 수 있다. 예를 들어, 동영상 제어 모듈 (100) 에서 정해진 시점은 동영상 자막마다 새로운 음성 데이터를 수신하기 위해 정해진 시점일 수 있다. 또한, 사용자의 요청에 의해 정해진 시점은 캐릭터 선택 등에 의해 동영상 자막의 일부에 대해서만 재생이 필요한 경우, 선택된 캐릭터의 동영상 자막에 대한 새로운 음성 데이터를 수신하기 위해 정해진 시점일 수 있다. 음성 데이터 요청은 처리부 (120) 에 저장된 음성 신호 또는 문자를 출력하거나 제어부 (130) 를 통해 단순히 동영상의 재생을 정지시키는 동작이 될 수 있다. 또한, 음성 데이터 요청은 동영상 자막을 표시함과 동시에 동영상의 재생을 정지시키는 동작이 될 수 있다. 동영상 자막은 사용자의 선택에 의해 전부 또는 일부만 표시될 수 있다.

음성 데이터 요청에 따라 사용자가 음성을 송신하는 경우, 수신부 (110) 는 음성 데이터를 수신한다 (S120).

음성 데이터는 사용자의 음성을 포함한다. 음성 데이터는 수신부 (110) 에서 수신하는 음성의 종류에 따라 다양할 수 있다. 수신부 (110) 는 수신한 음성 데이터를 처리부 (120) 로 전송한다.

처리부 (120) 는 음성 데이터를 음성인식 알고리즘으로 처리하여 음성처리 데이터를 생성한다 (S130).

음성인식 알고리즘은 기본적으로 사용자가 발성한 음성을 동영상 제어 모듈 (100) 이 해석해 그 내용을 텍스트로 변환하는 작업을 의미한다. 구체적으로, 사용자가 발성한 음성의 파형이 수신부 (110) 에 입력되면, 동영상 제어 모듈 (100) 에 저장되어 있는 음향 모델 등을 참조하여 음성파형을 분석함으로써, 음성패턴 정보가 획득될 수 있다. 그리고, 획득된 음성패턴 정보가 식별정보와 비교됨으로써, 식별정보에서 일치 확률이 가장 높은 텍스트가 인식될 수 있다. 식별정보는 동영상 제어 모듈 (100) 에 저장되어 있는 음향 모델에 따라 대표적인 음성에 대응하는 텍스트를 저장한 정보이다.

음성처리 데이터는 음성인식 알고리즘에 의해 매칭된 단어들을 결합하여 수신된 음성 데이터에 대응되는 문장으로 이루어질 수 있다. 음성처리 데이터는 동영상 자막과 비교하기 위해 처리부 (120) 에 임시로 저장될 수 있다.

처리부 (120) 는 음성처리 데이터와 동영상 자막을 비교하여 문자의 유사도를 측정한다 (S140).

유사도는 음성처리 데이터와 동영상 자막 사이의 유사한 정도를 나타낸 것으로서, 처리부 (120) 에서 음성처리 데이터와 동영상 자막을 비교한 결과이다. 유사도는 숫자, 문자, 기호 등으로 표현될 수 있다. 보다 구체적으로 유사도는 비교되는 동영상 자막에 대한 음성처리 데이터의 일치 정도를 비율 수치로 나타낸 정도일 수 있다.

처리부 (120) 에서 측정된 유사도가 일정 수준 이상인 경우 (S150), 제어부 (130) 는 동영상을 이어서 재생한다 (S160).

이어서 재생되는 부분은 사용자가 입력한 음성에 대응하는 동영상의 일부일 수 있다. 이에 따라 유사도가 일정 수준 이상인 경우에는 재생되는 부분 이후 동영상의 일부를 재생한다. 또한, 사용자는 이어서 재생되는 부분을 들으면서 바로 동영상의 원래 음성을 확인할 수 있다.

처리부 (120) 에서 측정된 유사도는 처리부 (120) 에서 미리 정해진 기준 점수와 비교된다. 유사도는 문자로 구성된 데이터 사이에서의 유사한 정도를 표현한 것으로, 음성처리 데이터와 동영상 자막 사이의 문자들의 유사한 정도를 나타낸다. 유사한 정도란 텍스트화된 음성처리 데이터와 동영상 자막의 텍스트 일치 정도로 측정될 수 있으며, 음성처리 데이터와 동영상 자막의 텍스트 정보의 비교에 추가로 사용자의 음성 데이터와 동영상 음원의 파형, 길이, 파장 등이 유사도를 판단함에 고려 될 수 있다. 예를 들어, 처리부 (120) 에서 미리 정해진 기준은 유사도가 90% 이상일 수 있다. 이에 따라, 미리 정해진 기준 이상의 유사도가 측정된 경우, 처리부 (120) 에서 비교된 결과는 제어부 (130) 로 전송되며, 동영상의 재생 여부를 결정하는 요소가 된다.

유사도가 미리 정해진 기준 점수 이상인 경우, 제어부 (130) 가 수신한 비교된 결과는 재생 허용 신호일 수 있다. 재생 허용 신호는 다음의 음성 데이터 수신을 요청하기 전까지의 동영상을 재생하도록 명령하는 신호이다.

처리부 (120) 에서 측정된 유사도가 일정 수준 미만인 경우 (S150), 제어부 (130) 는 음성처리 데이터에 대응하는 동영상의 음원을 재생한다 (S170).

유사도가 미리 정해진 기준 점수 미만인 경우, 동영상의 음원을 재생하면서 다시 사용자의 음성 데이터를 반복적으로 요청하거나, 단순히 동영상의 음원을 재생하거나, 사용자의 별도의 입력이 수신될 때까지 동영상의 음원을 재생하지 않을 수 있다. 보다 구체적으로 유사도가 미리 정해진 기준 점수 미만인 경우, 제어부 (130) 는 음성처리 데이터에 대응하는 동영상의 음원만을 재생한다. 다만, 동영상의 음원을 재생하면서 다시 사용자의 음성 데이터를 반복적으로 요청하거나 사용자의 별도의 입력이 수신될 때까지 동영상의 음원을 재생하지 않는 것도 다른 실시예로 이용될 수 있다.

제어부 (130) 가 수신한 비교된 결과는 재생 불허 신호를 포함한다. 재생 불허 신호는 동영상을 재생하지 않도록 하는 신호이다. 또한, 제어부 (130) 가 수신한 비교된 결과는 음성처리 데이터에 대응하는 동영상 음원을 재생하도록 하는 동영상 음원 재생 신호를 더 포함할 수 있다. 비교된 결과는 처리부 (120) 에서 비교된 것으로 유사도가 처리부 (120) 에서 미리 정해진 기준 이상인지 미만 인지에 대한 것이다. 동영상은 영상과 음원을 포함하는 것으로서, 동영상 음원은 영상과는 별개의 파일로 존재할 수 있다. 동영상 음원은 배경음악, 캐릭터의 음성, 기타 동영상에 포함되는 소리를 포함한다. 이에 따라, 제어부 (130) 는 재생 불허 신호에 의해 영상의 재생을 정지시키고, 음성처리 데이터에 대응하는 동영상 음원만을 재생할 수 있다. 동영상 음원만을 재생하는 경우, 캐릭터의 음성만을 재생할 수도 있고 배경음악, 기타 동영상에 포함되는 소리를 모두 재생할 수도 있다.

도 3은 본 발명의 일 실시예에 따른 동영상 재생 제어 방법에 의한 예시적인 화면을 도시한 것이다.

도 3을 참조하면, 동영상 화면부 (200) 는 동영상 자막 표시부 (210), 재생 제어 설정부 (220), 및 재생 여부 표시부 (230) 를 포함한다.

동영상 화면부 (200) 는 동영상과 함께 동영상 자막을 표시한다. 동영상 화면부 (200) 는 동영상 재생 프로그램의 일부 영역일 수 있다.

동영상 자막 표시부 (210) 는 동영상의 자막을 표시하는 영역으로 동영상 자막은 문자를 포함하여 구성된다. 동영상 자막 표시부 (210) 의 위치는 동영상 재생 프로그램의 설정을 통해 변경될 수 있다. 동영상 자막은 동영상 재생 프로그램에 의해 재생되는 동영상과 별개의 파일로 존재할 수 있다. 이에 따라, 동영상 자막은 동영상과 재생 시간을 맞추어 동영상의 캐릭터 음성과 대응되도록 싱크 (synchronization) 될 수 있다.

본 발명의 일 실시예에 따르면, 동영상 자막은 복수의 자막을 포함할 수 있고, 각각의 자막은 캐릭터의 이름을 포함할 수 있다. 동영상 자막은 캐릭터의 이름과 캐릭터의 자막 사이를 구분하는 기호를 더 포함할 수 있다. 예를 들어, 동영상 자막 표시부 (210) 는 ‘TARZAN’이라는 동영상의 캐릭터 이름과 ‘Be quiet. I am TARZAN.’이라는 자막을 포함하고, ‘TARZAN’과 ‘Be quiet. I am TARZAN.’사이에 콜론 (:) 이 표시된다. 이와 같은 경우, 사용자는 동영상에 등장하는 복수의 캐릭터 중 일부를 선택하여 학습할 수 있다. 동영상 자막은 처리부 (120) 에 의해 일부만 표시될 수 있으며 이에 대해서는 도 4를 통해 설명한다.

재생 제어 설정부 (220) 는 동영상 재생 프로그램이 동영상을 재생하는데 필요한 설정을 수신할 수 있다. 재생 제어 설정부 (220) 를 선택하면, 별도의 설정창이 표시될 수 있다. 보다 구체적으로 재생 제어 설정부 (220) 를 선택하면, 자막 표시 선택창 또는 캐릭터 선택창이 표시될 수 있다. 자막 표시 선택창 또는 캐릭터 선택창은 자막의 일부 단어를 표시하지 않도록 설정하거나 특정 캐릭터에 대한 자막만 표시되도록 설정하는 명령을 수신할 수 있다. 자막 표시 선택창은 도 4a를 통해, 캐릭터 선택창은 도 5a를 통해 설명한다.

재생 여부 표시부 (230) 는 동영상 재생 제어 모듈 (100) 에서 미리 정해진 영역에 임의의 크기로 표시될 수 있다. 예를 들어, 동영상 화면부 (200) 중앙이나 꼭지점의 주변부에 표시될 수 있다. 또한, 재생 여부 표시부 (230) 는 일시적으로 표시된 후 사라질 수도 있다. 재생 여부 표시부 (230) 는 음성 데이터 수신을 요청하는 경우 일시 정지 신호를 표시할 수 있다. 또한, 재생 여부 표시부 (230) 는 제어부 (130) 로부터 동영상을 이어서 재생하도록 하는 경우, 재생 신호를 표시할 수 있다.

도 4a 및 도 4b는 도 3에서의 입력에 따른 동영상 재생 제어 방법의 예시적인 설정 화면구성과 도 4a의 설정에 의해 출력되는 예시적인 화면구성을 도시한 것이다.

도 4a를 참조하면, 자막 표시 선택창 (300) 은 전체 자막 표시 영역 (310) 과 일부 단어 숨김 영역 (320) 을 포함한다. 자막 표시 선택창 (300) 은 도 3의 재생 제어 설정부 (220) 에서 별도의 선택이 있는 경우 표시된다.

도 4b를 참조하면, 동영상 자막 표시부 (211) 는 도 4a의 선택에 의해 도 3과 다른 실시예에 따른 동영상 자막을 표시한다.

도 4a의 전체 자막 표시 영역 (310) 이 선택되는 경우, 도 4b의 동영상 화면부 (201) 에서 동영상 자막 표시부 (211) 는 도 3과 같이 자막의 전체를 표시한다.

도 4a의 일부 단어 숨김 영역 (320) 이 선택되는 경우, 도 4b의 동영상 화면부 (201) 에서 동영상 자막 표시부 (211) 는 도 3과 달리 자막의 일부 단어를 표시하지 않는다. 예를 들어, 동영상 자막 표시부 (211) 는 ‘TARZAN’ 의 동영상 자막 중 ‘Be’와 ‘TARZAN.’ 을 표시하지 않고 비어있는 영역으로 표시한다. 수신부 (110) 는 비어있는 영역의 단어에 대해서도 음성 데이터를 수신하여 동영상 제어 모듈 (100) 은 음성 데이터에 따라 동영상 재생을 제어한다. 사용자는 일부 단어 숨김 영역 (320) 의 체크 박스를 선택하고, 숨김 단어의 수를 입력하여 동영상 자막 중 표시되지 않는 단어의 수를 지정할 수 있다. 숨김 단어의 수는 동영상 자막 중 한 문장에서 표시되는 단어의 수를 기준으로 할 수 있고, 동영상 재생 프로그램에 표시되는 동영상 자막의 한 줄에 표시되는 단어의 수를 기준으로 할 수도 있다. 도 4b에 따르면, 동영상 자막 표시부 (211) 에서 숨김 단어의 수는 2 개이다. 일부 단어 숨김 영역 (320) 이 선택되는 경우, 동영상 자막 표시부 (211) 는 숨기는 단어의 위치를 비어있는 영역으로 표시할 수 있다. 비어있는 영역은 밑줄로 표시되거나 직사각형으로 표시될 수 있다. 또한, 비어있는 영역은 숨기는 단어의 알파벳 개수를 유추할 수 있는 표시를 포함할 수도 있다.

도 5a 및 도 5b는 도 3에서의 입력에 따른 동영상 재생 제어 방법의 예시적인 설정 화면구성과 도 5a의 설정에 의해 출력되는 예시적인 화면구성을 도시한 것이다.

도 5a를 참조하면, 캐릭터 선택창 (400) 은 전체 캐릭터 표시 영역 (410) 과 일부 캐릭터 표시 영역 (420) 을 포함한다. 캐릭터 선택창 (400) 은 도 3의 재생 제어 설정부 (220) 에서 별도의 선택이 있는 경우 표시된다.

도 5b를 참조하면, 동영상 화면부 (202) 는 제1 동영상 자막 표시부 (213) 및 제2 동영상 자막 표시부 (215) 를 포함한다. 제1 동영상 자막 표시부 (213) 및 제2 동영상 자막 표시부 (215) 는 도 5a의 선택에 의해 도 3과 또 다른 실시예에 따른 동영상 자막을 표시한다.

도 5a의 전체 캐릭터 표시 영역 (410) 이 선택되는 경우, 도 5b의 동영상 화면부 (202) 에서 제1 동영상 자막 표시부 (213) 및 제2 동영상 자막 표시부 (215) 는 모든 캐릭터의 자막을 표시한다. 동영상에 등장하는 캐릭터가 2 이상인 경우 동영상 자막의 표시 설정에 따라 동영상 자막 표시부 (213, 215) 는 등장하는 캐릭터의 수만큼 표시될 수 있다. 제1 동영상 자막 표시부 (213) 는 ‘TARZAN’의 ‘Be quiet. I am TARZAN.’을 표시하고, 제2 동영상 자막 표시부 (215) 는 ‘JANE’의 ‘Who are you?’를 표시한다.

도 5a의 일부 캐릭터 표시 영역 (420) 이 선택되는 경우, 동영상에 등장하는 다양한 캐릭터 중 일부 캐릭터를 선택할 수 있다. 보다 구체적으로 일부 캐릭터 표시 영역 (420) 이 선택되는 경우, 일부 캐릭터 선택 메뉴 (421) 는 2 이상의 캐릭터 이름을 표시할 수 있다. 일부 캐릭터 선택 메뉴 (421) 는 2 이상의 캐릭터 이름 중 적어도 하나를 선택할 수 있도록 체크 박스를 포함할 수 있다. 일부 캐릭터 선택 메뉴 (421) 가 선택되는 경우 드롭-다운 (drop-down) 형식의 메뉴를 표시할 수 있다. 예를 들어, 일부 캐릭터 선택 메뉴 (421) 에서 ‘TARZAN’을 선택한 경우, 제2 동영상 자막 표시부 (215) 가 표시되는 동안에는 동영상이 계속 재생된다. 재생 여부 표시부 (232) 는 제2 동영상 자막 표시부 (215) 에 대응하는 동영상이 재생되는 경우 재생 중으로 표시된다.

도 4a에서의 일부 단어 숨김 영역 (320) 과 도 5a에서의 일부 캐릭터 표시 영역 (420) 이 모두 선택되는 경우, 도 5b의 제1 동영상 자막 표시부 (213) 및 제2 동영상 자막 표시부 (215) 는 자막의 일부 단어를 표시하지 않는다. 예를 들어, 일부 단어 숨김 영역 (320) 과 일부 캐릭터 선택 메뉴 (421) 에서 ‘TARZAN’이 선택된 경우, 제2 동영상 자막 표시부 (215) 는 ‘JANE’의 ‘Who are you?’를 모두 표시하지만, 제1 동영상 자막 표시부 (213) 는 ‘TARZAN’ 의 동영상 자막 중 ‘Be’와 ‘TARZAN.’ 을 표시하지 않고 비어있는 영역으로 표시한다.

도 6은 본 발명의 다른 실시예에 따른 동영상 재생 제어 방법에 의한 음성 유사도 측정에 따른 처리부에서의 수정 가이드 생성과정을 도시한 것이다. 도 1을 함께 참조하여 설명한다.

처리부 (120) 는 동영상 음원의 자막, 억양, 타이밍, 크기를 기초로 하여 기준 데이터를 생성한다 (S210).

기준 데이터는 동영상 음원 자체에 대한 정보를 포함한 데이터로, 동영상 음원이 갖고 있는 동영상 음원의 자막, 억양, 타이밍, 크기를 포함할 수 있다. 기준 데이터는 동영상 음원의 자막, 억양, 타이밍, 크기 각각에 대해 개별적인 데이터로 존재하거나 동영상 음원의 자막, 억양, 타이밍, 크기를 모두 포함하는 데이터일 수 있다.

처리부 (120) 는 음성 데이터의 자막, 억양, 타이밍, 크기를 기초로 하여 음성비교 데이터를 생성한다 (S220).

음성비교 데이터는 동영상 음원의 기준 데이터와 비교될 수 있는 데이터로, 음성 데이터가 음성인식 알고리즘에 의해 처리된 데이터일 수 있다. 음성비교 데이터는 음성 데이터로부터 기준 데이터와 비교할 수 있는 특징으로 구분될 수 있고, 기준 데이터와 비교할 수 있는 특징마다 음성비교 데이터는 개별적인 파일로 생성될 수 있다. 기준 데이터와 비교할 수 있는 특징은 음성의 자막, 억양, 타이밍, 크기, 파형, 주파수 등을 포함한다. 이에 따라, 음성인식 알고리즘은 음성 데이터를 기준 데이터와 비교할 수 있는 특징별로 음성비교 데이터를 생성할 수 있다.

처리부 (120) 는 음성비교 데이터와 기준 데이터를 비교하여 음성 유사도를 산출한다 (S230).

처리부 (120) 는 음성비교 데이터의 자막, 억양, 타이밍, 크기 등을 이에 대응되는 기준 데이터의 자막, 억양, 타이밍, 크기 등과 비교한다. 처리부 (120) 는 기준 데이터에 대해 음성비교 데이터가 일치하는 비율을 음성 유사도로 표시할 수 있다. 음성 유사도는 숫자로 표시될 수 있다.

처리부 (120) 는 음성 유사도에 기초하여 수정 가이드를 생성한다 (S240).

처리부 (120) 는 숫자로 표시되는 음성 유사도를 기준으로 사용자에게 수정 가이드를 제공할 수 있다. 수정 가이드는 음성비교 데이터의 자막, 억양, 타이밍, 크기 등의 기준 데이터의 자막, 억양, 타이밍, 크기 등에 대한 차이를 음성 유사도의 숫자를 기초로 하여 생성될 수 있다.

본 명세서에서, 각 블록 또는 각 단계는 특정된 논리적 기능 (들) 을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또한, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.

본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서에 의해 실행되는 하드웨어, 소프트웨어 모듈 또는 그 2 개의 결합으로 직접 구현될 수도 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM 또는 당업계에 알려진 임의의 다른 형태의 저장 매체에 상주할 수도 있다. 예시적인 저장 매체는 프로세서에 커플링되며, 그 프로세서는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로 (ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형실시될 수 있다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100 동영상 제어 모듈
110 수신부
120 처리부
130 제어부
200, 201, 202 동영상 화면부
210, 211, 212 동영상 자막 표시부
213 제1 동영상 자막 표시부
215 제2 동영상 자막 표시부
220, 221, 222 재생 제어 설정부
230, 231, 232 재생 여부 표시부
300 자막 표시 선택창
310 전체 자막 표시 영역
320 일부 단어 숨김 영역
400 캐릭터 선택창
410 전체 캐릭터 표시 영역
420 일부 캐릭터 표시 영역
421 일부 캐릭터 선택 메뉴

Claims

동영상의 일 이상의 시점에서 재생에 앞서 재생될 내용에 대한 음성 데이터 수신을 요청하는 단계;
상기 음성 데이터를 수신하는 단계;
상기 음성 데이터를 음성인식 알고리즘으로 처리하여 음성처리 데이터를 생성하는 단계;
상기 음성처리 데이터와 동영상 자막을 비교하여 유사도를 측정하는 단계; 및
상기 유사도가 일정 수준 이상인 경우, 상기 동영상을 이어서 재생하는 단계를 포함하는 것을 특징으로 하는, 동영상 재생 제어 방법.
제1항에 있어서,
상기 음성 데이터 수신을 요청하는 단계는 상기 동영상 자막의 적어도 일부를 표시하는 것을 특징으로 하는, 동영상 재생 제어 방법.
제1항에 있어서,
상기 음성 데이터 수신을 요청하는 단계는 캐릭터 선택 명령에 기초하여 선택적으로 이루어지는 것을 특징으로 하는, 동영상 재생 제어 방법.
제1항에 있어서,
상기 음성인식 알고리즘은 동영상 음원을 기준으로 상기 동영상 음원과 상기 음성 데이터를 비교한 수정 가이드를 생성하는 것을 특징으로 하는, 동영상 재생 제어 방법.
제1항에 있어서,
상기 유사도가 일정 수준 미만인 경우, 상기 음성처리 데이터에 대응하는 상기 동영상의 음원을 재생하는 단계를 더 포함하는 것을 특징으로 하는, 동영상 재생 제어 방법.
음성 데이터를 수신하는 수신부;
동영상의 일 이상의 시점에서 재생에 앞서 재생될 내용에 대한 상기 음성 데이터 수신을 요청하고, 상기 음성 데이터를 음성인식 알고리즘으로 처리하여 음성처리 데이터를 생성하고, 상기 음성처리 데이터와 동영상 자막을 비교하여 유사도를 측정하는 처리부; 및
상기 유사도가 일정 수준 이상인 경우, 상기 동영상을 이어서 재생하는 제어부를 포함하는 것을 특징으로 하는, 동영상 재생 제어 장치.
제6항에 있어서,
상기 제어부는 상기 동영상 자막의 적어도 일부를 표시하도록 제어하는 것을 특징으로 하는, 동영상 재생 제어 장치.
제6항에 있어서,
상기 제어부는 상기 동영상 자막을 캐릭터 선택 명령에 기초하여 선택적으로 표시하는 것을 특징으로 하는, 동영상 재생 제어 장치.
제6항에 있어서,
상기 음성인식 알고리즘은 동영상 음원을 기준으로 상기 동영상 음원과 상기 음성 데이터를 비교한 수정 가이드를 생성하는 것을 특징으로 하는, 동영상 재생 제어 장치.
제6항에 있어서,
상기 제어부는 상기 유사도가 일정 수준 미만인 경우, 상기 음성처리 데이터에 대응하는 상기 동영상의 음원을 재생하는 것을 특징으로 하는, 동영상 재생 제어 장치.
동영상의 일 이상의 시점에서 재생에 앞서 재생될 내용에 대한 음성 데이터 수신을 요청하고,
상기 음성 데이터를 수신하고,
상기 음성 데이터를 음성인식 알고리즘으로 처리하여 음성처리 데이터를 생성하고,
상기 음성처리 데이터와 동영상 자막을 비교하여 유사도를 측정하고,
상기 유사도가 일정 수준 이상인 경우, 상기 동영상을 이어서 재생하는 것을 특징으로 하는, 동영상 재생 제어 방법을 제공하는 명령어들을 저장하는 컴퓨터 판독 가능 매체.