KR20220138145A

KR20220138145A - 동영상 검토 시스템, 방법 그리고 프로그램

Info

Publication number: KR20220138145A
Application number: KR1020210043908A
Authority: KR
Inventors: 이현빈; 강태근
Original assignee: 한밭대학교 산학협력단
Priority date: 2021-04-05
Filing date: 2021-04-05
Publication date: 2022-10-12
Also published as: KR102467081B1

Abstract

본 발명의 일 실시예에 따른 동영상 검토 방법은, 사용자단말기 화면에 실행된 동영상 검토 프로그램은 확인 및 검토하려는 동영상 파일을 사용자가 입력하면, 해당 동영상 파일을 분석하여 영상 데이터와 음성 데이터 부분으로 추출하는 단계; 상기 동영상 검토 프로그램은 추출된 영상 데이터에서 사용자가 입력한 검토 시간 간격 단위로 적어도 하나의 구간별 동영상 정지 화면을 추출하여 사용자단말기 화면에 출력하는 단계; 상기 동영상 검토 프로그램은 추출된 음성 데이터에서 상기 구간별 동영상 정지 화면에 해당하는 해당 구간별 자막 정보와 음량 정보를 별도로 생성하는 단계; 해당 부분의 동영상 정지 화면별로 구분하여 구간별 동영상 정지 화면, 자막 정보, 음량 정보를 사용자 단말기 화면에 출력하는 단계를 포함한다.

Description

동영상 검토 시스템, 방법 그리고 프로그램{Video review system, method and program}

본 발명은 동영상 검토 시스템 및 방법에 관한 것으로, 더욱 상세하게는 사용자가 입력한 시간 간격으로 정지 화면과 음성 내용 그리고 음량 정보를 제공하여 동영상의 문제 여부를 효율적으로 확인할 수 있게 해주는 동영상 검토 시스템, 방법과 그 프로그램에 관한 것이다.

교육, 문화, 취미 등 다양한 동영상 콘텐츠가 기하급수적으로 증가하는 상황에서 시스템 및 유튜브, VIMEO 등과 같은 영상 컨텐츠 플랫폼에 업로드되고, 유지 및 관리되어야 하는 동영상들이 제대로 구성되어 있는지 확인하는 작업은 방대해지고 그만큼 어려워졌다.

동영상에 문제가 없는지 확인하기 위해서는 사용자 또는 시스템 관리자가 동영상들을 일일이 재생하여 확인하여야 한다.

많은 동영상을 관리해야 하는 시스템에서 이 작업은 매우 많은 시간이 필요하고 번거롭기 때문에 다량의, 그리고 재생 시간이 긴 동영상들의 효율적인 확인을 위하여 전체적인 동영상 내용을 빠르게 검토할 수 있는 기술이 필요하다.

동영상에 문제가 없는지, 그래서 동영상이 제대로 구성되어 있는지 빠르게 확인할 수 있는 방법 중 하나는 일정한 시간 단위로 동영상의 화면을 보여주고 해당 부분의 음성 정보를 출력하는 것이다.

따라서, 전술한 문제를 해결하기 위하여 동영상 검토 시스템 및 방법에 대한 연구가 필요하게 되었다.

한국등록특허 제10-1682076호(2016년11월28일 등록)

본 발명의 목적은 사용자가 입력한 시간 간격으로 정지 화면과 음성 내용 그리고 음량 정보를 제공하여 동영상의 문제 여부를 효율적으로 확인할 수 있게 해주는 동영상 검토 시스템 및 방법을 제공하는 것이다.

상기 동영상 검토 프로그램은 동영상에 대한 정보를 표시하도록 동영상 재생 화면, 동영상 재생 관련 메뉴, 동영상 파일에 대한 정보를 표시하는 동영상정보부와, 상기 동영상정보부에 표시되는 동영상 검토시, 해당 동영상 검토 시간 간격을 입력받도록 표시하고, 현재 출력되는 자막이 동영상의 재생 시간 구간 어디에 해당하는지 확인할 수 있는 자막출력시간을 표시하는 시간표시부와, 상기 동영상정보부에 표시되는 동영상 검토시, 상기 시간표시부에서 입력된 동영상 검토 시간 간격에 대한 해당 구간별 적어도 하나의 동영상 정지 화면, 자막 정보, 음량정보를 포함한 구간정보를 표시하는 구간정보부를 포함하는 것을 특징으로 한다.

상기 동영상 검토 프로그램은 검토할 동영상 파일 분석을 통해 음성 데이터를 추출하는 단계; 상기 동영상 검토 프로그램은 음성 데이터를 사용자가 입력한 검토 시간 간격과 자막 출력 시간에 따라 구간별로 PCM 데이터를 생성하여 서비스제공서버로 전송하는 단계; 상기 서비스제공서버는 수신한 PCM 데이터를 STT 엔진에 입력하고 STT 변환 결과를 생성하여 상기 동영상 검토 프로그램이 실행된 사용자단말기로 전송하는 단계; 상기 동영상 검토 프로그램은 STT 변환 결과를 구간별로 나눠 출력하여 동영상 검토 시간 간격에 해당하는 구간별로 자막 정보를 표시하여 제공하는 단계를 더 포함한다.

상기 동영상 검토 방법을 수행하는 컴퓨터로 읽을 수 있는 저장매체에 저장된 동영상 검토 프로그램에 의해 수행된다.

본 발명의 일 실시예에 따른 상기 동영상 검토 방법을 이용한 동영상 검토 시스템에 있어서, 동영상 검토 프로그램이 실행되는 사용자단말기와 통신망을 통하여 연결되고, 사용자단말기에서 실행된 동영상 검토 프로그램이 검토할 동영상에서 추출한 음성을 자막 텍스트 변환 요청시, 해당 음성에 대한 자막 텍스트 변환을 수행하기 위한 STT 엔진을 구비하는 서비스제공서버를 포함한다.

상기 서비스제공서버는 통신망을 통하여 사용자단말기와 통신하고, 동영상 검토 서비스를 제공하는데 필요한 정보의 데이터 통신을 수행하기 위한 적어도 하나의 통신 프로토콜을 구비한 통신부; STT 엔진을 구비하여 검토할 동영상에 대한 음성-자막 텍스트 변환을 수행하고, STT 변환 결과를 통신부를 통하여 사용자단말기 측으로 전송하도록 제공하는 관리부; 상기 동영상 검토 프로그램에서 구현되는 유저 인터페이스에 대한 제어 기능을 수행하며, 동영상 검토 프로그램을 통하여 사용자 입력 동작에 따라 동영상 정지 화면부터 동영상을 재생하거나 음량 정보를 재생하며, 자막 정보에 대해서 사용자 입력 동작을 수행하면 해당 자막 정보의 텍스트를 직접 다시 입력하여 수정할 수 있도록 인터페이스를 제공하는 표시제어부를 포함한다.

상기 서비스제공서버는 동영상 검토 프로그램을 제공함에 따라 동영상 검토 내역에 대해 수집하고, 사용자 요청시 해당 정보를 조회할 수 있도록 관리하며, 동영상 검토 내역에는 동영상 수정 내용, 해당 동영상 정보(자막, 음량 포함)를 포함함과 아울러, 동영상 검토 결과에 대한 사용자 평가나 만족도를 더 포함하며, 수집된 동영상 검토 내역을 이용하여 머신러닝 기반의 학습을 수행할 수 있으며, 학습 결과로서 동영상 검토 프로그램의 문제나 오류에 대한 결과를 판단하여 관리자에게 제공하는 통계학습부를 더 포함한다.

본 발명은 동영상 검토를 효율적으로 수행할 수 있도록 구간별 동영상 정지 화면, 자막 정보, 음성 정보를 구분하여 제공하고, 해당 구간에서의 동영상 자막, 음성의 오류를 발견하고 즉각적으로 수정할 수 있도록 기능을 제공함으로써 사용자 편의성이 증대될 뿐만 아니라, 다양한 동영상 컨텐츠 검토를 수행할 수 있어, 최근 급성장하고 있는 동영상 컨텐츠 관련 사업 수요 창출에 유리한 장점이 있다.

또한 본 발명은 분할 화면을 통하여 구간별 정지 화면, 음성(음량 상태 포함), 자막 등에 대해서 구간별로 다각도 검토 방식이 적용되어 방대한 양의 동영상에 대해서도 구간별 적용에 의해 동영상 오류 검토에 효율적인 장점이 있다.

도 1은 본 발명의 일 실시예에 따른 동영상 검토 시스템의 구성을 보인 블록도이다.
도 2는 도 1의 동영상 검토 시스템의 내부 구성을 세부적으로 보인 블록도이다.
도 3은 본 발명의 일 실시예에 따른 동영상 검토 방법의 순서도이다.
도 4는 본 발명의 일 실시예에 따른 동영상 검토 방법에서 음성 데이터 변환 과정을 구체적으로 나타낸 순서도이다.
도 5는 본 발명의 일 실시예에 따른 동영상 검토 방법을 구현한 동영상 검토 프로그램 화면을 예시적으로 보인 도면이다.

이하에서는 도면을 참조하여 본 발명의 구체적인 실시예를 상세하게 설명한다. 다만, 본 발명의 사상은 제시되는 실시예에 제한되지 아니하고, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서 다른 구성요소를 추가, 변경, 삭제 등을 통하여, 퇴보적인 다른 발명이나 본 발명 사상의 범위 내에 포함되는 다른 실시예를 용이하게 제안할 수 있을 것이나, 이 또한 본 발명 사상 범위 내에 포함된다고 할 것이다. 또한, 각 실시예의 도면에 나타나는 동일한 사상의 범위 내의 기능이 동일한 구성요소는 동일한 참조부호를 사용하여 설명한다.

도 3은 본 발명의 일 실시예에 따른 동영상 검토 방법의 순서도이며, 도 4는 본 발명의 일 실시예에 따른 동영상 검토 방법에서 음성 데이터 변환 과정을 구체적으로 나타낸 순서도이며, 도 5는 본 발명의 일 실시예에 따른 동영상 검토 방법을 구현한 동영상 검토 프로그램 화면을 예시적으로 보인 도면이다.

본 발명의 일 실시예에 따른 동영상 검토 방법은 사용자단말기(200) 화면에 실행된 동영상 검토 프로그램을 통하여 동영상 검토를 위해 사용자단말기(200)에 제공하려는 동영상의 음성 영상 분리 및 음성 자막 변환 등의 제어 및 표시되는 구간에 대한 정보들이 처리되는 과정을 포함한다.

이때 동영상 검토 프로그램은 도 5를 참조하면, 크게 세 영역으로 나누어서 표시되도록 프로그램 화면 상의 유저 인터페이스(User Interface)를 구현할 수 있으며, 세 영역은 동영상정보부(V), 시간표시부(T) 및 구간정보부(I)로 이루어진다.

동영상정보부(V)는 동영상에 대한 정보를 표시하도록 제공하며, 이를 테면 동영상화면, 동영상 재생 관련 메뉴(재생, 정지, 일시정지 등), 동영상 파일 정보(제목, 파일 크기, 파일 형식, 재생 시간 등)에 대한 정보를 표시하며 동영상 구간별 직관적인 확인이 가능하도록 구간정보부(I)의 좌측 화면에 위치하여 표시될 수 있다.

시간표시부(T)는 동영상 검토시 검토할 구간과 자막출력시간을 확인할 수 있도록 제공하며, 위치는 동영상정보부(V)와 구간정보부(I)의 상단에 바 형태로 제공되어 사용자가 검토시 자막 출력 시간을 확인하고, 검토할 동영상 검토 시간 간격을 쉽게 입력할 수 있도록 제공할 수 있다.

구간정보부(I)는 동영상에 대한 검토시 입력된 동영상 검토 간격에 대한 구간별 동영상 정지 화면, 자막 정보, 음량정보를 포함한 구간정보를 제공한다.

동영상 검토 간격에 대한 구간은 검토 간격 내에서 일정 시간 간격 또는 영상 프레임 간격으로 분할되어 적어도 하나의 구간에 대한 구간정보가 정해질 수 있다.

또한 동영상 정지 화면은 해당 구간의 동영상 프레임에 대한 정지 화면이 될 수 있다.

또한 자막 정보 및 음량정보는 해당 구간의 자막과 음량 데이터를 포함할 수 있으며, 자막 정보는 텍스트 형태로 표시되어 제공되고, 음량정보는 버튼 형태로 제공하여 음량정보 버튼에 대한 사용자 입력 동작(예컨대 마우스 클릭 또는 터치 등의 입력 동작 등)시 해당 구간의 음성이 출력되도록 제공될 수 있다.

또한 동영상 정지 화면도 사용자 입력 동작시, 해당 구간의 동영상 프레임에 대한 정지 화면부터 재생이 되도록 제어될 수 있으며 이를 통해 구간별 동영상과 자막, 음량을 같이 검토함으로써, 사용자가 쉽게 동영상의 구간별로 자막 및 음량을 매칭하여 볼 수 있기 때문에 검토시 잘못된 부분을 찾기 용이한 측면이 있는 것이다.

구체적으로 동영상 검토 프로그램 사용자는 동영상을 검토할 시간 간격을 입력할 수 있으며, 동영상 검토 프로그램은 입력한 시간 간격에 맞추어 해당 부분의 정지 화면, 일정 시간 동안의 자막 내용 그리고 음량 정보를 확인할 수 있다.

사용자는 자막과 음량정보를 구간 별로 확인하고 문제가 있다고 판단될 경우 정지 화면을 누르고 해당 부분의 동영상을 재생시켜 자세히 확인할 수 있다.

동영상 검토 프로그램에서 사용자 또는 관리자에게 제공하는 정보는 크게 동영상 해당 구간의 시작 정지 화면, 자막 내용을 포함한 자막 정보, 음량 정보이다.

도 5는 제공하려는 동영상 관련 정보들이 어떻게 처리되는 지를 나타내는 과정이다.

확인하려는 동영상 파일을 영상 부분과 음성 부분으로 나누어 분석한 뒤에 영상 관련 데이터에서는 사용자가 입력한 시간 단위로 정지 화면을 추출하여 화면에 출력한다. 음성 관련 데이터에서는 구간 자막 정보와 음량 정보를 생성하여 해당 부분의 정지 화면과 함께 출력한다.

이제 도 3의 과정을 참조하여 동영상 구간별 검토를 위한 영상/음성 분석 및 변환 과정을 설명하면, 다음과 같다.

먼저, 확인 및 검토하려는 동영상 파일을 사용자가 입력하면, 동영상 검토 프로그램은 해당 동영상 파일을 분석하여 영상 부분과 음성 부분으로 나누어 추출할 수 있다(S100~S104).

추출된 영상 데이터에서는 사용자가 입력한 시간 단위로 구간별 동영상 정지 화면을 추출하여 사용자단말기(200)의 화면에 출력한다(S106).

또한 음성 데이터에서는 사용자 입력된 동영상 검토 시간 간격에 해당하는 구간별 자막 정보와 음량 정보를 별도로 생성하고, 도 5에 도시된 바와 같이 해당 부분의 동영상 정지 화면별로 구분하여 출력한다(S108~S112).

음성 데이터의 자막 생성을 위한 구체적 처리 과정에 대해서는 도 4에 도시하고 있으며, 음성을 텍스트로 변환하는 기술인 Speech-to-Text(STT) 기술을 통하여 음성 내용을 자막으로 변환하여 제공할 수 있다.

음성을 자막으로 변환하기 위하여 STT 엔진이 구비되는 통신망(300)상의 서비스제공서버(100)가 마련된다. 그리고, 사용자단말기(200)에서는 동영상 검토 프로그램을 실행시켜, 동영상의 추출된 음성 데이터를 서비스제공서버(100)로 전송하여 STT 변환 결과 즉, 자막 정보를 수신할 수 있다.

구체적으로 도 4를 참조하여 설명하면, 먼저 동영상 검토 프로그램은 검토할 동영상 파일 분석을 통해 음성 데이터를 추출한다(S200, S202).

동영상 검토 프로그램은 음성 데이터를 사용자가 입력한 검토 시간 간격과 자막 출력 시간에 따라 구간별로 Pulse-Code Modulation(PCM) 데이터를 생성하여 서비스제공서버(100)로 전송한다(S204, S206).

서비스제공서버(100)는 수신한 PCM 데이터를 STT 엔진에 입력하고 STT 변환 결과를 생성하여 상기 동영상 검토 프로그램이 실행된 사용자단말기(200)로 전송한다(S208).

동영상 검토 프로그램은 STT 변환 결과를 구간별로 나눠 출력하여 사용자에게 동영상 검토 시간 간격에 해당하는 구간별로 자막 정보를 표시하여 제공한다(S210).

또한 이때 사용자단말기(200)는 검토할 동영상에서 추출한 음성의 STT 변환을 위해 STT 엔진에 요청시, 원하는 국가 언어를 선택할 수 있도록 하여 변환할 언어정보를 같이 전송할 수 있으며, STT 엔진은 해당 언어로 변환된 STT 변환 결과를 제공하며, 복수의 언어에 대해서 요청시 복수의 변환 결과를 제공받을 수도 있다.

나아가, 사용자단말기(200)에서 확인되는 구간별 자막 정보는 변환 결과에 따라 오류가 있을 수 있으며, 구간별 해당 음성 정보를 체크하여 직접 사용자가 수정 변환이 가능하도록 구현함으로써, 사용자가 쉽게 특정 구간에 대한 자막 교정이 이루어지도록 할 수 있다.

또한, 자막 정보와 구간별 영상 정지 화면에 대해서도 매칭을 통해 해당 구간의 자막에 해당하는지 체크하여 자막 싱크 조정이 이루어지도록 제공될 수 있다.

도 1은 본 발명의 일 실시예에 따른 동영상 검토 시스템의 구성을 보인 블록도이며, 도 2는 도 1의 동영상 검토 시스템의 내부 구성을 세부적으로 보인 블록도이다.

본 발명의 동영상 검토 시스템은 동영상 검토 프로그램이 실행되는 사용자단말기(200)와, 통신망(300)을 통하여 연결되어 음성에 대한 자막 텍스트 변환을 수행하기 위한 STT 엔진을 구비하는 서비스제공서버(100)를 포함한다.

사용자단말기(200)는 동영상 검토 프로그램을 실행 가능한 개인 단말기로, 예컨대 PC를 포함하여 노트북, 태블릿, 스마트폰, 패블릿폰과 같은 휴대단말기가 될 수도 있다.

또한 서비스제공서버(100)는 STT 엔진을 구비하며, 사용자단말기(200)에서 실행된 동영상 검토 프로그램이 검토할 동영상에서 추출한 음성을 자막 텍스트 변환 요청시, STT 변환을 수행하고 변환 결과를 사용자단말기(200) 측으로 제공할 수 있다.

나아가 서비스제공서버(100)는 사용자단말기(200)에 설치되는 방식 외에도 웹 기반으로 동영상 검토 프로그램을 제공하도록 서비스를 제공할 수도 있다.

또한 서비스제공서버(100)는 사용자단말기(200) 설치 방식 또는 웹 기반 방식으로 프로그램 서비스 제공을 위한 세부 구성으로 도 2에 도시된 바와 같이 통신부(110), 관리부(120), 표시제어부(130), 통계학습부(140) 및 데이터베이스(150)를 더 포함할 수 있다.

통신부(110)는 통신망(300)을 통하여 사용자단말기(200)와 통신하고, 동영상 검토 서비스를 제공하는데 필요한 정보의 데이터 통신을 수행하며, 이를 위해 통신망(300)의 호환 통신 프로토콜을 하나 이상 포함할 수 있다.

관리부(120)는 STT 엔진을 구비하여 검토할 동영상에 대한 음성-자막 텍스트 변환을 수행하고, 변환 결과(자막 텍스트를 포함한 자막 정보)를 통신부(110)를 통하여 사용자단말기(200) 측으로 전송하도록 제공한다.

또한 관리부(120)는 웹기반으로 동영상 검토 프로그램을 제공시 프로그램 서비스를 제공하기 위한 기능을 더 포함할 수 있으며, 이를테면 회원정보를 제공받아 회원별 프로그램 관리를 수행할 수도 있다.

또한 회원제에 의해 프로그램 서비스를 제공하는 것 외에, 체험판(trial version) 형태와 유료 결제에 의한 정식판을 제공하며, 정식판 서비스 이용시 로그인마다 결제가 이루어지거나, 기간제 결제 방식이 채용될 수도 있다.

또한 프로그램이 서비스제공서버(100)에서 웹기반으로 운영되는 경우, 서버 로그인이 시도될 수 있다.

로그인 인증을 위해 최초 회원 가입 과정이 필요하며, 비회원으로 진행시 개인정보 인증에 의해 임시로 프로그램을 이용할 수도 있으나, 할인 혜택 등 회원에게 제공되는 혜택이 줄어들 수 있다.

로그인 인증은 최초 회원 가입시 제공받은 개인정보와의 매칭에 의해 진행될 수 있으며, 이를 위해 서비스제공서버(100)는 개인정보를 데이터베이스(150)에 암호화하여 저장할 수 있다.

로그인 인증이 완료되면, 통신망(300)을 통하여 웹기반 형태로 프로그램이 사용자단말기(200)에서 실행될 수 있도록 제공된다.

나아가 로그인 인증시 인증의 무결성 검증을 수행하고, 개인 회원 정보의 보호를 위해 블록체인 기반의 회원정보 관리 및 저장이 이루어질 수 있다.

구체적으로, 다수의 블록체인서버와 연계하여 블록체인망을 구축하고, 기구축된 내부의 블록체인 네트워크를 통해 공개키 및 개인키를 생성하여 해쉬값으로 변환하여 분산 저장하고, 분산 저장된 공개키와 사용자의 개인정보를 기반으로 사용자 로그인 인증을 수행할 수 있다.

더 나아가 다수의 사용자단말기(200)에서 공개키와 함께 개인 고유의 사용자 정보를 전송받아 사용자 정보에 대한 해쉬값을 포함하는 사용자 인증서를 각각 생성할 수 있으며, 각 사용자 인증서에 대한 저장 방식은 머클 트리 구조에 의해 이루어질 수 있다.

가령, 각각의 사용자 인증서(거래)를 최하위 자식 노드에 해쉬값을 포함하여 저장하고, 머클 트리의 최상위 레벨인 머클 루트(부모 노드)에는 최하위 자식 노드와 이어지는 경로 상에 있는 중간 노드에 해시값을 공유하도록 해싱(hashing)하여 저장하게 된다.

이를 통해 저장된 사용자 인증서의 진위 여부를 판단할 때, 개인의 사용자단말기(200)에 복사된 사용자 인증서와 데이터베이스(150)의 사용자 인증서를 비교하게 되고, 머클 트리의 경로를 따라 해싱된 해쉬값만을 비교하여 이루어지게 된다.

이때, 머클 트리의 경로 상에서 비교 연산이 이루어짐에 따라 모든 노드의 블록에 대한 비교 연산을 수행하지 않아도 되기 때문에, 비교적 쉬운 연산량으로 진위 여부를 판단할 수 있으며, 거래의 위변조도 쉽고 빠르게 찾아낼 수 있으며, 용량이 작은 휴대 단말 형태의 사용자단말기(200)에서도 쉽게 거래를 검증할 수 있게 된다.

표시제어부(130)는 동영상 검토 프로그램에서 구현되는 유저 인터페이스에 대한 제어 기능을 수행하며, 구체적으로 도 5와 같은 프로그램 화면을 구성하도록 제어하고, 표시된 동영상정보부(V), 시간표시부(T), 구간정보부(I)에서 상술한 바와 같이, 사용자 입력 동작에 따라 동영상 정지 화면부터 동영상을 재생하거나, 음량정보를 재생할 수 있다. 또한 자막 정보에 대해서 사용자 입력 동작을 수행하면, 해당 자막 정보의 텍스트를 직접 다시 입력하여 수정할 수 있도록 인터페이스를 제공할 수도 있다.

통계학습부(140)는 회원별 동영상 검토 프로그램을 제공함에 따라 회원별 동영상 검토 내역에 대해 수집하고, 데이터베이스(150)에 저장하여 회원이 요청시 해당 정보를 조회할 수 있도록 관리하며, 회원별 동영상 검토 내역에는 동영상 수정 내용, 해당 동영상 정보(자막, 음량 정보 등을 포함한 정보) 등을 포함함과 아울러, 동영상 검토 결과에 대한 사용자 평가나 만족도를 더 포함할 수 있다.

나아가 통계학습부(140)는 수집된 동영상 검토 내역을 이용하여 머신러닝 기반의 학습을 수행할 수 있으며, 학습 결과로서 동영상 검토 프로그램의 문제나 오류 등을 판단하여 관리자에게 제공할 수 있다.

이를 테면 머신러닝 학습시 특정 검토 영역(자막, 음성, 동영상 재생 구간 등)에 대해 오류 내지 문제 판단을 위한 기준값을 설정하고, 검토 후 사용자 평가나 만족도에서 해당 영역에 대해 문제 제기시 문제 제기된 횟수에 따라 기준값 초과 여부를 판단하고, 초과시 오류나 문제가 있다고 판단하여 미리 설정된 관리자에게 해당 판단 결과를 제공할 수 있도록 한다. 또한 여기서 머신러닝 기반 학습은 알려진 CNN, RNN, SVM 등을 적어도 하나 이상 이용하는 신경망 또는 패턴 분류 학습 알고리즘이 될 수 있다.

데이터베이스(150)는 회원정보, 동영상정보, 동영상 검토 정보, 통계 등을 수집하여 저장하고 관리할 수 있다.

본 명세서에서 ‘단말기’는 휴대성 및 이동성이 보장된 무선 통신 장치일 수 있으며, 예를 들어 스마트폰, 태블릿 PC 또는 노트북 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치일 수 있다. 또한, ‘단말기’는 통신망을 통해 다른 단말 또는 서버 등에 접속할 수 있는 PC 등의 유선 통신 장치인 것도 가능하다. 또한, 통신망은 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷 (WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다.

무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 블루투스 통신, 적외선 통신, 초음파 통신, 가시광 통신(VLC: Visible Light Communication), 라이파이(LiFi) 등이 포함되나 이에 한정되지는 않는다.

100 ; 서비스제공서버
110 ; 통신부
120 ; 관리부
130 ; 표시제어부
140 ; 통계학습부
150 ; 데이터베이스
200 ; 사용자단말기
300 ; 통신망
V ; 동영상정보부
T ; 시간표시부
I ; 구간정보부

Claims

사용자단말기 화면에 실행된 동영상 검토 프로그램은 확인 및 검토하려는 동영상 파일을 사용자가 입력하면, 해당 동영상 파일을 분석하여 영상 데이터와 음성 데이터 부분으로 추출하는 단계;
상기 동영상 검토 프로그램은 추출된 영상 데이터에서 사용자가 입력한 검토 시간 간격 단위로 적어도 하나의 구간별 동영상 정지 화면을 추출하여 사용자단말기 화면에 출력하는 단계;
상기 동영상 검토 프로그램은 추출된 음성 데이터에서 상기 구간별 동영상 정지 화면에 해당하는 해당 구간별 자막 정보와 음량 정보를 별도로 생성하는 단계;
해당 부분의 동영상 정지 화면별로 구분하여 구간별 동영상 정지 화면, 자막 정보, 음량 정보를 사용자 단말기 화면에 출력하는 단계
를 포함하는 동영상 검토 방법.
제1항에 있어서,
상기 동영상 검토 프로그램은
동영상에 대한 정보를 표시하도록 동영상 재생 화면, 동영상 재생 관련 메뉴, 동영상 파일에 대한 정보를 표시하는 동영상정보부와,
상기 동영상정보부에 표시되는 동영상 검토시, 해당 동영상 검토 시간 간격을 입력받도록 표시하고, 현재 출력되는 자막이 동영상의 재생 시간 구간 어디에 해당하는지 확인할 수 있는 자막출력시간을 표시하는 시간표시부와,
상기 동영상정보부에 표시되는 동영상 검토시, 상기 시간표시부에서 입력된 동영상 검토 시간 간격에 대한 해당 구간별 적어도 하나의 동영상 정지 화면, 자막 정보, 음량정보를 포함한 구간정보를 표시하는 구간정보부를 포함하는 것을 특징으로 하는 동영상 검토 방법.
제1항에 있어서,
상기 동영상 검토 프로그램은 검토할 동영상 파일 분석을 통해 음성 데이터를 추출하는 단계;
상기 동영상 검토 프로그램은 음성 데이터를 사용자가 입력한 검토 시간 간격과 자막 출력 시간에 따라 구간별로 PCM 데이터를 생성하여 서비스제공서버로 전송하는 단계;
상기 서비스제공서버는 수신한 PCM 데이터를 STT 엔진에 입력하고 STT 변환 결과를 생성하여 상기 동영상 검토 프로그램이 실행된 사용자단말기로 전송하는 단계;
상기 동영상 검토 프로그램은 STT 변환 결과를 구간별로 나눠 출력하여 동영상 검토 시간 간격에 해당하는 구간별로 자막 정보를 표시하여 제공하는 단계
를 더 포함하는 동영상 검토 방법.
제1항 내지 제3항 중 어느 한 항의 동영상 검토 방법을 수행하는 컴퓨터로 읽을 수 있는 저장매체에 저장된 동영상 검토 프로그램.
제1항 내지 제3항 중 어느 한 항의 동영상 검토 방법을 이용한 동영상 검토 시스템에 있어서,
동영상 검토 프로그램이 실행되는 사용자단말기와 통신망을 통하여 연결되고, 사용자단말기에서 실행된 동영상 검토 프로그램이 검토할 동영상에서 추출한 음성을 자막 텍스트 변환 요청시, 해당 음성에 대한 자막 텍스트 변환을 수행하기 위한 STT 엔진을 구비하는 서비스제공서버
를 포함하는 동영상 검토 시스템.
제5항에 있어서,
상기 서비스제공서버는
통신망을 통하여 사용자단말기와 통신하고, 동영상 검토 서비스를 제공하는데 필요한 정보의 데이터 통신을 수행하기 위한 적어도 하나의 통신 프로토콜을 구비한 통신부;
STT 엔진을 구비하여 검토할 동영상에 대한 음성-자막 텍스트 변환을 수행하고, STT 변환 결과를 통신부를 통하여 사용자단말기 측으로 전송하도록 제공하는 관리부;
상기 동영상 검토 프로그램에서 구현되는 유저 인터페이스에 대한 제어 기능을 수행하며, 동영상 검토 프로그램을 통하여 사용자 입력 동작에 따라 동영상 정지 화면부터 동영상을 재생하거나 음량 정보를 재생하며, 자막 정보에 대해서 사용자 입력 동작을 수행하면 해당 자막 정보의 텍스트를 직접 다시 입력하여 수정할 수 있도록 인터페이스를 제공하는 표시제어부를 포함하는 동영상 검토 시스템.
제6항에 있어서,
상기 서비스제공서버는
동영상 검토 프로그램을 제공함에 따라 동영상 검토 내역에 대해 수집하고, 사용자 요청시 해당 정보를 조회할 수 있도록 관리하며, 동영상 검토 내역에는 동영상 수정 내용, 해당 동영상 정보를 포함함과 아울러, 동영상 검토 결과에 대한 사용자 평가나 만족도를 더 포함하며, 수집된 동영상 검토 내역을 이용하여 머신러닝 기반의 학습을 수행할 수 있으며, 학습 결과로서 동영상 검토 프로그램의 문제나 오류에 대한 결과를 판단하여 관리자에게 제공하는 통계학습부를 더 포함하는 동영상 검토 시스템.