KR101618777B1

KR101618777B1 - 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법

Info

Publication number: KR101618777B1
Application number: KR1020150119935A
Authority: KR
Inventors: 오창용
Original assignee: (주)에스알포스트
Priority date: 2015-08-26
Filing date: 2015-08-26
Publication date: 2016-05-09

Abstract

본 발명은 본 발명의 실시예에 따른 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법은 음성신호를 포함하는 기준데이터를 수신하는 수신수단; 상기 수신수단으로 수신된 음성신호를 포함하는 기준데이터 중 음성신호를 추출하는 추출수단; 상기 추출수단에서 추출된 음성신호를 인식하고, 인식된 음성신호를 문자데이터로 변환하는 변환수단; 및 상기 변환수단에서 변환된 문자데이터의 출력시간을 문장단위로 나누어 상기 기준데이터의 출력시간과 동기화시키는 동기화수단;을 포함하는 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법을 제공할 수 있다.
또한, 본 발명에 따르면 음성신호를 포함하는 기준데이터에 포함된 음성을 인식하여 음성을 문자데이터로 변환시키고 변환된 문자데이터를 영상과 함께 재생시키는 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법을 제공할 수 있다.

Description

파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법{.}

본 발명은 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법에 관한 것으로, 보다 상세하게는 음성신호를 포함하는 기준데이터에 포함된 음성을 인식하여 음성을 문자데이터로 변환시키고 변환된 문자데이터를 영상과 함께 재생시키는 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법에 관한 것이다.

본 발명은 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법에 관한 것이다.

현대의 정보의 홍수 속에서 영상콘텐츠의 수는 지속적으로 증가하고 있는 추세이다.

하지만 현재 제공되어지고 있는 영상콘텐츠는, 하나의 영상을 각각의 용도에 맞게 분할하거나, 하나의 영상에 각각 위치를 표시하여 그 위치를 사용자가 직접 찾아보게 하여 사용자가 원하는 구간을 찾아 볼 수 있게 하고 있다.

하지만, 이 방법은, 영상 콘텐츠를 제공하는 제공자가 수동으로 직접 작업하여 그 결과물을 인터넷상에 게시하고 있어 작업에 시간이 오래 소요될 뿐만 아니라 인력낭비가 심하였다.

또한, 사용자는, 영상 콘텐츠의 이름만을 확인하여 재생시키고, 재생된 영상콘텐츠가 자신이 원하는 내용인지 확인하는 방법은 영상을 재생하는 방법 밖에 존재하지 않아 자신이 원하는 영상 콘텐츠를 검출하는 작업에 많은 시간이 소요되는 등의 문제점이 있다.

더욱이, 영상 콘텐츠 제공자가 업로드한 영상에는 자막을 직접 만들어 추가하지 않는 이상 자막이 포함되어 있지 않아 영상과 자막을 함께 업로드 하기 위해서는 자막을 직접 만듬과 동시에 영상과 싱크를 맞춰야 하는 등의 문제점이 있었다.

상술한 문제점을 해결하기 위해 안출된 본 발명의 목적은 음성신호를 포함하는 기준데이터에 포함된 음성을 인식하여 음성을 문자데이터로 변환시키고 변환된 문자데이터를 영상과 함께 재생시키는 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법을 제공하기 위한 것이다.

그리고 본 발명의 또 다른 목적은, 문자데이터 중 명사를 추출하여 내림차순으로 이를 정리하고, 그 목록을 메타데이터로 저장하여 사용자가 동영상을 재생하기 전 명사의 빈도수를 확인하여 사용자가 원하는 영상을 재생케하는 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법을 제공하기 위한 것이다.

상기한 바와 같은 목적을 달성하기 위한 본 발명의 특징에 따르면, 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버는, 음성신호를 포함하는 기준데이터를 수신하는 수신수단; 상기 수신수단으로 수신된 음성신호를 포함하는 기준데이터 중 음성신호를 추출하는 추출수단; 상기 추출수단에서 추출된 음성신호를 인식하고, 인식된 음성신호를 문자데이터로 변환하는 변환수단; 상기 변환수단에서 변환된 문자데이터의 출력시간을 문장단위로 나누어 상기 기준데이터의 출력시간과 동기화시켜 패키징데이터를 생성하는 동기화수단; 상기 변환수단에서 변환된 문자데이터에 포함된 하나 이상의 단어 중 각 단어가 중복되는 개수를 내림차순으로 정렬하는 단어정렬수단; 상기 단어정렬수단에서 정렬된 각각의 단어마다 각 단어가 포함된 문장단위의 출력시간을 매칭시켜 메타데이터를 생성하는 매칭수단; 및 상기 매칭수단에서 생성된 매타데이터를 출력시키는 출력수단을 포함하며, 상기 매칭수단은, 상기 기준데이터 중 상기 문장단위의 출력시간에 해당하는 프레임을 검출하여 상기 단어정렬수단에서 정렬된 각각의 단어를 매칭시켜 썸네일을 생성하는 썸네일 생성수단;을 포함하고, 상기 출력수단은, 상기 썸네일 생성수단에서 생성된 썸네일을 출력시키고, 재생 프로그램을 통해 상기 메타데이터 중 어느 한 단어 또는 썸네일 중 어느 하나가 선택되어 상기 메타데이터 중 어느 한 단어 또는 썸네일에 대한 재생요청신호를 수신하면, 상기 메타데이터 중 어느 한 단어 또는 썸네일에 해당하는 시점에 해당하는 상기 패키징데이터를 상기 재생 프로그램을 통해 재생시키는 재생수단을 더 포함하고, 상기 재생 프로그램은, 상기 패키징데이터를 수신하여 상기 패키징데이터에 포함된 기준데이터와 문자데이터를 동시에 재생하되 상기 패키징데이터의 재생진행도를 표시하고, 상기 재생진행도 중 상기 메타데이터 또는 썸네일이 형성된 구간마다 마킹하여 표시되도록 하는 것을 특징으로 한다.
또한, 상기 단어정렬수단은, 상기 문자데이터에 포함된 단어 중 사전DB에 저장된 하나 이상의 명사와 중복되는 개수를 내림차순으로 정렬하는 것을 특징으로 한다.
또한, 상기 재생 프로그램은, 상기 패키징데이터가 재생되는 도중 문자데이터 수정버튼이 클릭되면 패키징데이터에 대한 재생을 일시정지하고, 일시정지된 상태에서 하나 이상의 단어가 수정된 후 수정완료버튼이 클릭되면 상기 패키징데이터를 다시 재생하고, 상기 하나 이상의 단어가 수정된 부분의 문장단위에 대한 수정데이터를 생성하여 서버로 송신하는 것을 특징으로 하고, 상기 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버는, 상기 재생 프로그램으로부터 수정데이터를 수신하면 상기 수정데이터에 해당하는 상기 패키징데이터에 포함된 출력시간별로 나누어진 문자데이터를 검출하여 상기 수정데이터로 치환하는 수정수단;을 더 포함하는 것을 특징으로 한다.
또한, 상기 재생 프로그램은, 상기 패키징데이터를 수신하여 내림차순으로 정렬된 상기 패키징데이터에 포함된 문자데이터의 단어 중복 개수를 표시하되, 미리 설정된 개수부터 미리 설정된 개수까지 단어 중복 개수를 표시하는 것을 특징으로 한다.

삭제

상기한 바와 같은 목적을 달성하기 위한 본 발명의 특징에 따르면, 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 방법은, (a) 음성신호를 포함하는 기준데이터를 수신하는 단계; (b) 상기 (a)단계로 수신된 음성신호를 포함하는 기준데이터 중 음성신호를 추출하는 단계; (c) 상기 (b)단계에서 추출된 음성신호를 인식하고, 인식된 음성신호를 문자데이터로 변환하는 단계; (d) 상기 (c)단계에서 변환된 문자데이터의 출력시간을 문장단위로 나누어 상기 기준데이터의 출력시간과 동기화시켜 패키징데이터를 생성하는 단계; (e) 상기 (c)단계에서 변환된 문자데이터에 포함된 하나 이상의 단어 중 각 단어가 중복되는 개수를 내림차순으로 정렬하는 단계; (f) 상기 (e)단계에서 정렬된 각각의 단어마다 각 단어가 포함된 문장단위의 출력시간을 매칭시켜 메타데이터를 생성하는 단계; 및 (g) 상기 (f)단계에서 생성된 매타데이터를 출력시키는 단계를 포함하며, 상기 (f)단계는, (f1) 상기 기준데이터 중 상기 문장단위의 출력시간에 해당하는 프레임을 검출하여 상기 (e)단계에서 정렬된 각각의 단어를 매칭시켜 썸네일을 생성하는 단계;를 포함하고, 상기 (g)단계는, (g1) 상기 (f1)단계에서 생성된 썸네일을 출력시키는 단계; 및 (g2) 재생 프로그램을 통해 상기 메타데이터 중 어느 한 단어 또는 썸네일 중 어느 하나가 선택되어 상기 메타데이터 중 어느 한 단어 또는 썸네일에 대한 재생요청신호를 수신하면, 상기 메타데이터 중 어느 한 단어 또는 썸네일에 해당하는 시점에 해당하는 상기 패키징데이터를 상기 재생 프로그램을 통해 재생시키는 단계;를 더 포함하고, 상기 재생 프로그램은, 상기 패키징데이터를 수신하여 상기 패키징데이터에 포함된 기준데이터와 문자데이터를 동시에 재생하되 상기 패키징데이터의 재생진행도를 표시하고, 상기 재생진행도 중 상기 메타데이터 또는 썸네일이 형성된 구간마다 마킹하여 표시되도록 하는 것을 특징으로 한다.
또한, 상기 (e)단계는, 상기 문자데이터에 포함된 단어 중 사전DB에 저장된 하나 이상의 명사와 중복되는 개수를 내림차순으로 정렬하는 것을 특징으로 한다.
또한, 상기 재생 프로그램은, 상기 패키징데이터가 재생되는 도중 문자데이터 수정버튼이 클릭되면 패키징데이터에 대한 재생을 일시정지하고, 일시정지된 상태에서 하나 이상의 단어가 수정된 후 수정완료버튼이 클릭되면 상기 패키징데이터를 다시 재생하고, 상기 하나 이상의 단어가 수정된 부분의 문장단위에 대한 수정데이터를 생성하여 서버로 송신하는 것을 특징으로 하고, 상기 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 방법은, (h) 상기 재생 프로그램으로부터 수정데이터를 수신하면 상기 수정데이터에 해당하는 상기 패키징데이터에 포함된 출력시간별로 나누어진 문자데이터를 검출하여 상기 수정데이터로 치환하는 단계;를 더 포함하는 것을 특징으로 한다.
또한, 상기 재생 프로그램은, 상기 패키징데이터를 수신하여 내림차순으로 정렬된 상기 패키징데이터에 포함된 문자데이터의 단어 중복 개수를 표시하되, 미리 설정된 개수부터 미리 설정된 개수까지 단어 중복 개수를 표시하는 것을 특징으로 한다.

삭제

이상 살펴본 바와 같은 본 발명의 따르면, 음성신호를 포함하는 기준데이터에 포함된 음성을 인식하여 음성을 문자데이터로 변환시키고 변환된 문자데이터를 영상과 함께 재생시키는 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법을 제공할 수 있다.

또한, 본 발명에 따르면 문자데이터 중 명사를 추출하여 내림차순으로 이를 정리하고, 그 목록을 메타데이터로 저장하여 사용자가 동영상을 재생하기 전 명사의 빈도수를 확인하여 사용자가 원하는 영상을 재생케하는 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법을 제공할 수 있다.

도 1은 본 발명에 따른 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버를 도시한 블럭구성도
도 2는 본 발명에 따른 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 방법의 순서도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다.

그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

이하, 본 발명의 실시예에 따른 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법을 설명하기 위한 도면들을 참고하여 본 발명에 대해 설명하도록 한다.

본 발명인 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법은, 무선 또는 유선으로 데이터 전송이 가능한 하나 이상의 단말기(200)와 연결되어 단말기(200)로부터 영상을 업로드 받고, 업로드된 영상에 서버가 자막을 추가해주는 서버에 관한 것이다.

도 1은 본 발명에 따른 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버를 도시한 블록구성도이다.

도 1을 참고하면, 본 발명인 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버(100) 및 그 방법은, 수신수단(110), 추출수단(120), 변환수단(130), 동기화수단(140), 단어정렬수단(150), 매칭수단(160), 출력수단(170) 및 수정수단(180)을 포함한다.

수신수단(110)은. 음성신호를 포함하는 기준데이터를 수신한다.

여기서, 기준데이터는 하나 이상의 프레임을 통해 생성된 영상과 음성신호를 포함하는 영상데이터 형태이거나 음성신호만을 포함하는 음성데이터 형태인 것이 바람직하다.

추출수단(120)은, 상기 수신수단(110)으로 수신된 음성신호를 포함하는 기준데이터 중 음성신호를 추출한다.

즉, 추출수단은, 기준데이터가 영상데이터 형태인 경우, 영상데이터에 포함된 영상신호와 음성신호 중 음성신호만을 추출하고, 기준데이터가 음성데이터 형태인 경우, 음성신호를 추출하는 것이 바람직하다.

변환수단(130)은, 상기 추출수단(120)에서 추출된 음성신호를 인식하고, 인식된 음성신호를 문자데이터로 변환한다.

여기서, 음성신호를 문자데이터로 변환하는 기술은 음성인식 기술로써, 오락 프로그램 등의 동영상 데이터로부터 신뢰성 있는 음성 인식 성능을 얻기 위하여 불특정 다수의 음성을 인식할 수 있는 화자 독립 음성인식 기술을 사용한다. 이를 위하여 다양한 출생지의 1000명이 발음한 음성 데이터로부터 음향 모델을 생성하여, 어떠한 화자가 발성한 음성이라도 인식에 문제가 없도록 디자인한다.

또한, 음성 인식 성능 향상을 위하여 문맥에 따른 조음효과를 반영하기 위하여 음성 인식의 단위를 현재 음소의 앞, 뒤 음소를 함께 포함하는 문맥 종속형 모델인 프라이-폰(tri-phone)을 기본 단위로 하며, 대어휘 인식시스템에 적합하도록 압축에 다른 손실이 없는 높은 성능을 지닌 음성 인식 알고리즘인 연속 분포 은닉 마르코프 모델(continuous density Hidden Markov Model:continuous density HMM)을 사용하는 것이 바람직하다.

또한, 음성신호를 포함하는 기준데이터로부터 음성신호를 추출하기 위하여 대어휘 연속어 음성인식 기술을 개발하여 문장 단위의 음성신호를 문자데이터인 전사 데이터로 변환한다.

그리고, 변환수단(130)은, 인식된 음성신호를 문자데이터로 변환시, 음성신호에 포함된 각종 잡음을 DB에 미리 저장된 잡음신호와 비교하여 음성신호 중 잡음신호에 해당하는 잡음을 삭제하는 것이 바람직하다.

여기서 잡음신호는, 동물소리, 환경소리를 포함하며, 음성인식시, 음성신호를 음성파형으로 변환한 후 변환된 음성파형 중 동물소리 또는 환경소리에 해당하는 파형이 검출되면 각 파형에 해당하는 잡음신호를 제거하는 것이 바람직하다.

즉, 개구리의 울음소리가 DB에 저장되고 자동차 소리가 DB에 저장되어있다면

동기화수단(140)은, 상기 변환수단(130)에서 변환된 문자데이터의 출력시간을 문장단위로 나누어 상기 기준데이터의 출력시간과 동기화시킨다.

즉, 문자데이터의 출력시간과 음성신호를 포함하는 기준데이터의 출력시간을 동기화시킴으로 인해 사용자가 음성신호를 포함하는 기준데이터를 출력할 경우 문자데이터를 화면에 함께 문장단위로 출력시키는 것이 바람직하다.

단어정렬수단(150)은, 상기 변환수단(130)에서 변환된 문자데이터에 포함된 하나 이상의 단어 중 각 단어가 중복되는 개수를 내림차순으로 정렬한다.

여기서, 상기 문자데이터에 포함된 단어 중 사전DB에 저장된 하나 이상의 명사와 중복되는 개수를 내림차순으로 정렬하는 것이 바람직하다.

만약, '뉴스'라는 명사가 문자데이터에 100개가 포함되어져 있고, '화제'라는 단어가 80개, '연예인'이라는 단어가 70개 포함되어져 있다면, 이를 내림차순으로 정리하여 뉴스-100, 화제-80, 연예인-70으로 정렬시키는 것이 바람직하다.

매칭수단(160)은, 상기 단어정렬수단(150)에서 정렬된 각각의 단어마다 각 단어가 포함된 문장단위의 출력시간을 매칭시켜 메타데이터를 생성한다.

즉, '뉴스' 라는 단어를 사용자가 클릭하면, '뉴스'라는 단어가 포함된 100개의 문장단위의 출력시간마다 음성신호를 포함하는 기준데이터 재생 프로그램 상에서 표시되어 사용자가 이를 확인할 수 있게 하는 것이 바람직하다.

여기서, 상기 매칭수단(160)은, 썸네일 생성수단(162)을 더 포함한다.

썸네일 생성수단(162)은, 상기 기준데이터 중 상기 문장단위의 출력시간에 해당하는 프레임을 검출하여 상기 단어정렬수단(150)에서 정렬된 각각의 단어를 매칭시켜 썸네일을 생성한다.

즉, 음성신호를 포함하는 기준데이터 재생 프로그램 상에 '뉴스'라는 단어가 포함된 100개의 문장단위의 출력시간을 사용자가 검색하면 이에 대한 썸네일을 표시하여 사용자가 원하는 재생시간을 정지화면으로 확인할 수 있게 하는 것이 바람직하다.

출력수단(170)은, 및 상기 매칭수단(160)에서 생성된 매타데이터를 출력시킨다.

여기서, 출력수단(170)은, 재생수단(172)을 포함한다.

재생수단은, 재생 프로그램을 통해 상기 메타데이터 중 어느 한 단어 또는 썸네일 중 어느 하나가 선택되어 상기 메타데이터 중 어느 한 단어 또는 썸네일에 대한 재생요청신호를 수신하면, 상기 메타데이터 중 어느 한 단어 또는 썸네일에 해당하는 시점에 해당하는 상기 패키징데이터를 상기 재생 프로그램을 통해 재생시킨다.

여기서, 상기 재생 프로그램은, 상기 패키징데이터를 수신하여 상기 패키징데이터에 포함된 기준데이터와 문자데이터를 동시에 재생하되 상기 패키징데이터의 재생진행도를 표시하고, 상기 재생진행도 중 상기 메타데이터 또는 썸네일이 형성된 구간마다 마킹하여 표시되도록 한다.

그리고, 상기 재생 프로그램은, 상기 패키징데이터가 재생되는 도중 문자데이터 수정버튼이 클릭되면 패키징데이터에 대한 재생을 일시정지하고, 일시정지된 상태에서 하나 이상의 단어가 수정된 후 수정완료버튼이 클릭되면 상기 패키징데이터를 다시 재생하고, 상기 하나 이상의 단어가 수정된 부분의 문장단위에 대한 수정데이터를 생성하여 서버로 송신한다.

또한, 상기 재생 프로그램은, 상기 패키징데이터를 수신하여 내림차순으로 정렬된 상기 패키징데이터에 포함된 문자데이터의 단어 중복 개수를 표시하되, 미리 설정된 개수부터 미리 설정된 개수까지 단어 중복 개수를 표시하는 것을 특징으로 한다.

수정수단(180)은, 상기 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버는, 상기 재생프로그램으로부터 수정데이터를 수신하면 상기 수정데이터에 해당하는 상기 패키징데이터에 포함된 출력시간별로 나누어진 문자데이터를 검출하여 상기 수정데이터로 치환한다.

즉, 재생프로그램을 통해 단어가 수정되면 단어가 포함된 문장단위의 수정데이터를 생성하여 상기 수정데이터의 출력시간에 해당하는 상기 단어가 포함된 문장단위의 문자데이터를 삭제하고 수정데이터를 삽입하는 것이 바람직하다.

도 2는 본 발명에 따른 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 방법의 순서도이다.

도 2를 참고하면, 우선, 음성신호를 포함하는 기준데이터를 단말기(200)로부터 수신한다(S110).

그 다음, 수신된 음성신호를 포함하는 기준데이터 중 음성신호를 추출한다(S120).

그 다음, 추출된 음성신호를 인식하고, 인식된 음성신호를 문자데이터로 변환한다(S130).

그 다음, 변환된 문자데이터의 출력시간을 문장단위로 나누어 상기 기준데이터의 출력시간과 동기화시킨다(S140).

그 다음, 변환된 문자데이터에 포함된 하나 이상의 단어 중 각 단어가 중복되는 개수를 내림차순으로 정렬한다(S150).

여기서, 상기 단계는, 상기 문자데이터에 포함된 단어 중 사전DB에 저장된 하나 이상의 명사와 중복되는 개수를 내림차순으로 정렬하는 것이 바람직하다.

그리고, 상기 기준데이터 중 상기 문장단위의 출력시간에 해당하는 프레임을 검출하여 상기 단어정렬수단(150)에서 정렬된 각각의 단어를 매칭시켜 썸네일을 생성하는 것이 바람직하다(S160).

그 다음, 정렬된 각각의 단어마다 각 단어가 포함된 문장단위의 출력시간을 매칭시켜 메타데이터를 생성한다(S170).

그 다음, 생성된 썸네일과 메타데이터를 출력시킨다(S180),

마지막으로, 재생 프로그램을 통해 상기 메타데이터 중 어느 한 단어 또는 썸네일 중 어느 하나가 선택되어 상기 메타데이터 중 어느 한 단어 또는 썸네일에 대한 재생요청신호를 수신하면, 상기 메타데이터 중 어느 한 단어 또는 썸네일에 해당하는 시점에 해당하는 상기 패키징데이터를 상기 재생 프로그램을 통해 재생시키고, 상기 재생프로그램으로부터 수정데이터를 수신하면 상기 수정데이터에 해당하는 상기 패키징데이터에 포함된 출력시간별로 나누어진 문자데이터를 검출하여 상기 수정데이터로 치환한다(S190).

본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구의 범위에 의하여 나타내어지며, 특허청구의 범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100 : 서버 110 : 수신수단
120 : 추출수단 130 : 변환수단
140 : 동기화수단 150: 단어정렬수단
160: 매칭수단 162: 썸네일 생성수단
170: 출력수단 172: 재생수단
180: 수정수단 200: 단말기

Claims

음성신호를 포함하는 기준데이터를 수신하는 수신수단;
상기 수신수단으로 수신된 음성신호를 포함하는 기준데이터 중 음성신호를 추출하는 추출수단;
상기 추출수단에서 추출된 음성신호를 인식하고, 인식된 음성신호를 문자데이터로 변환하는 변환수단;
상기 변환수단에서 변환된 문자데이터의 출력시간을 문장단위로 나누어 상기 기준데이터의 출력시간과 동기화시켜 패키징데이터를 생성하는 동기화수단;
상기 변환수단에서 변환된 문자데이터에 포함된 하나 이상의 단어 중 각 단어가 중복되는 개수를 내림차순으로 정렬하는 단어정렬수단;
상기 단어정렬수단에서 정렬된 각각의 단어마다 각 단어가 포함된 문장단위의 출력시간을 매칭시켜 메타데이터를 생성하는 매칭수단; 및
상기 매칭수단에서 생성된 매타데이터를 출력시키는 출력수단을 포함하며,
상기 매칭수단은,
상기 기준데이터 중 상기 문장단위의 출력시간에 해당하는 프레임을 검출하여 상기 단어정렬수단에서 정렬된 각각의 단어를 매칭시켜 썸네일을 생성하는 썸네일 생성수단;을 포함하고,
상기 출력수단은,
상기 썸네일 생성수단에서 생성된 썸네일을 출력시키고,
재생 프로그램을 통해 상기 메타데이터 중 어느 한 단어 또는 썸네일 중 어느 하나가 선택되어 상기 메타데이터 중 어느 한 단어 또는 썸네일에 대한 재생요청신호를 수신하면, 상기 메타데이터 중 어느 한 단어 또는 썸네일에 해당하는 시점에 해당하는 상기 패키징데이터를 상기 재생 프로그램을 통해 재생시키는 재생수단을 더 포함하고,
상기 재생 프로그램은,
상기 패키징데이터를 수신하여 상기 패키징데이터에 포함된 기준데이터와 문자데이터를 동시에 재생하되 상기 패키징데이터의 재생진행도를 표시하고, 상기 재생진행도 중 상기 메타데이터 또는 썸네일이 형성된 구간마다 마킹하여 표시되도록 하는 것을 특징으로 하는 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버.
삭제
제1항에 있어서, 상기 단어정렬수단은,
상기 문자데이터에 포함된 단어 중 사전DB에 저장된 하나 이상의 명사와 중복되는 개수를 내림차순으로 정렬하는 것을 특징으로 하는 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버.
삭제
삭제
제1항에 있어서, 상기 재생 프로그램은,
상기 패키징데이터가 재생되는 도중 문자데이터 수정버튼이 클릭되면 패키징데이터에 대한 재생을 일시정지하고, 일시정지된 상태에서 하나 이상의 단어가 수정된 후 수정완료버튼이 클릭되면 상기 패키징데이터를 다시 재생하고, 상기 하나 이상의 단어가 수정된 부분의 문장단위에 대한 수정데이터를 생성하여 서버로 송신하는 것을 특징으로 하고,
상기 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버는,
상기 재생 프로그램으로부터 수정데이터를 수신하면 상기 수정데이터에 해당하는 상기 패키징데이터에 포함된 출력시간별로 나누어진 문자데이터를 검출하여 상기 수정데이터로 치환하는 수정수단;을 더 포함하는 것을 특징으로 하는 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버.
제1항에 있어서, 상기 재생 프로그램은,
상기 패키징데이터를 수신하여 내림차순으로 정렬된 상기 패키징데이터에 포함된 문자데이터의 단어 중복 개수를 표시하되, 미리 설정된 개수부터 미리 설정된 개수까지 단어 중복 개수를 표시하는 것을 특징으로 하는 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버.
(a) 음성신호를 포함하는 기준데이터를 수신하는 단계;
(b) 상기 (a)단계로 수신된 음성신호를 포함하는 기준데이터 중 음성신호를 추출하는 단계;
(c) 상기 (b)단계에서 추출된 음성신호를 인식하고, 인식된 음성신호를 문자데이터로 변환하는 단계;
(d) 상기 (c)단계에서 변환된 문자데이터의 출력시간을 문장단위로 나누어 상기 기준데이터의 출력시간과 동기화시켜 패키징데이터를 생성하는 단계;
(e) 상기 (c)단계에서 변환된 문자데이터에 포함된 하나 이상의 단어 중 각 단어가 중복되는 개수를 내림차순으로 정렬하는 단계;
(f) 상기 (e)단계에서 정렬된 각각의 단어마다 각 단어가 포함된 문장단위의 출력시간을 매칭시켜 메타데이터를 생성하는 단계; 및
(g) 상기 (f)단계에서 생성된 매타데이터를 출력시키는 단계를 포함하며,
상기 (f)단계는,
(f1) 상기 기준데이터 중 상기 문장단위의 출력시간에 해당하는 프레임을 검출하여 상기 (e)단계에서 정렬된 각각의 단어를 매칭시켜 썸네일을 생성하는 단계;를 포함하고,
상기 (g)단계는,
(g1) 상기 (f1)단계에서 생성된 썸네일을 출력시키는 단계; 및
(g2) 재생 프로그램을 통해 상기 메타데이터 중 어느 한 단어 또는 썸네일 중 어느 하나가 선택되어 상기 메타데이터 중 어느 한 단어 또는 썸네일에 대한 재생요청신호를 수신하면, 상기 메타데이터 중 어느 한 단어 또는 썸네일에 해당하는 시점에 해당하는 상기 패키징데이터를 상기 재생 프로그램을 통해 재생시키는 단계;를 더 포함하고,
상기 재생 프로그램은,
상기 패키징데이터를 수신하여 상기 패키징데이터에 포함된 기준데이터와 문자데이터를 동시에 재생하되 상기 패키징데이터의 재생진행도를 표시하고, 상기 재생진행도 중 상기 메타데이터 또는 썸네일이 형성된 구간마다 마킹하여 표시되도록 하는 것을 특징으로 하는 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 방법.
삭제
제8항에 있어서, 상기 (e)단계는,
상기 문자데이터에 포함된 단어 중 사전DB에 저장된 하나 이상의 명사와 중복되는 개수를 내림차순으로 정렬하는 것을 특징으로 하는 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 방법.
삭제
삭제
제8항에 있어서, 상기 재생 프로그램은,
상기 패키징데이터가 재생되는 도중 문자데이터 수정버튼이 클릭되면 패키징데이터에 대한 재생을 일시정지하고, 일시정지된 상태에서 하나 이상의 단어가 수정된 후 수정완료버튼이 클릭되면 상기 패키징데이터를 다시 재생하고, 상기 하나 이상의 단어가 수정된 부분의 문장단위에 대한 수정데이터를 생성하여 서버로 송신하는 것을 특징으로 하고,
상기 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 방법은,
(h) 상기 재생 프로그램으로부터 수정데이터를 수신하면 상기 수정데이터에 해당하는 상기 패키징데이터에 포함된 출력시간별로 나누어진 문자데이터를 검출하여 상기 수정데이터로 치환하는 단계;를 더 포함하는 것을 특징으로 하는 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 방법.
제8항에 있어서, 상기 재생 프로그램은,
상기 패키징데이터를 수신하여 내림차순으로 정렬된 상기 패키징데이터에 포함된 문자데이터의 단어 중복 개수를 표시하되, 미리 설정된 개수부터 미리 설정된 개수까지 단어 중복 개수를 표시하는 것을 특징으로 하는 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 방법.