KR101618777B1 - 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법 - Google Patents

파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법 Download PDF

Info

Publication number
KR101618777B1
KR101618777B1 KR1020150119935A KR20150119935A KR101618777B1 KR 101618777 B1 KR101618777 B1 KR 101618777B1 KR 1020150119935 A KR1020150119935 A KR 1020150119935A KR 20150119935 A KR20150119935 A KR 20150119935A KR 101618777 B1 KR101618777 B1 KR 101618777B1
Authority
KR
South Korea
Prior art keywords
data
words
packaging
metadata
character data
Prior art date
Application number
KR1020150119935A
Other languages
English (en)
Inventor
오창용
Original Assignee
(주)에스알포스트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)에스알포스트 filed Critical (주)에스알포스트
Priority to KR1020150119935A priority Critical patent/KR101618777B1/ko
Application granted granted Critical
Publication of KR101618777B1 publication Critical patent/KR101618777B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

본 발명은 본 발명의 실시예에 따른 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법은 음성신호를 포함하는 기준데이터를 수신하는 수신수단; 상기 수신수단으로 수신된 음성신호를 포함하는 기준데이터 중 음성신호를 추출하는 추출수단; 상기 추출수단에서 추출된 음성신호를 인식하고, 인식된 음성신호를 문자데이터로 변환하는 변환수단; 및 상기 변환수단에서 변환된 문자데이터의 출력시간을 문장단위로 나누어 상기 기준데이터의 출력시간과 동기화시키는 동기화수단;을 포함하는 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법을 제공할 수 있다.
또한, 본 발명에 따르면 음성신호를 포함하는 기준데이터에 포함된 음성을 인식하여 음성을 문자데이터로 변환시키고 변환된 문자데이터를 영상과 함께 재생시키는 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법을 제공할 수 있다.

Description

파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법{.}
본 발명은 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법에 관한 것으로, 보다 상세하게는 음성신호를 포함하는 기준데이터에 포함된 음성을 인식하여 음성을 문자데이터로 변환시키고 변환된 문자데이터를 영상과 함께 재생시키는 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법에 관한 것이다.
본 발명은 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법에 관한 것이다.
현대의 정보의 홍수 속에서 영상콘텐츠의 수는 지속적으로 증가하고 있는 추세이다.
하지만 현재 제공되어지고 있는 영상콘텐츠는, 하나의 영상을 각각의 용도에 맞게 분할하거나, 하나의 영상에 각각 위치를 표시하여 그 위치를 사용자가 직접 찾아보게 하여 사용자가 원하는 구간을 찾아 볼 수 있게 하고 있다.
하지만, 이 방법은, 영상 콘텐츠를 제공하는 제공자가 수동으로 직접 작업하여 그 결과물을 인터넷상에 게시하고 있어 작업에 시간이 오래 소요될 뿐만 아니라 인력낭비가 심하였다.
또한, 사용자는, 영상 콘텐츠의 이름만을 확인하여 재생시키고, 재생된 영상콘텐츠가 자신이 원하는 내용인지 확인하는 방법은 영상을 재생하는 방법 밖에 존재하지 않아 자신이 원하는 영상 콘텐츠를 검출하는 작업에 많은 시간이 소요되는 등의 문제점이 있다.
더욱이, 영상 콘텐츠 제공자가 업로드한 영상에는 자막을 직접 만들어 추가하지 않는 이상 자막이 포함되어 있지 않아 영상과 자막을 함께 업로드 하기 위해서는 자막을 직접 만듬과 동시에 영상과 싱크를 맞춰야 하는 등의 문제점이 있었다.
상술한 문제점을 해결하기 위해 안출된 본 발명의 목적은 음성신호를 포함하는 기준데이터에 포함된 음성을 인식하여 음성을 문자데이터로 변환시키고 변환된 문자데이터를 영상과 함께 재생시키는 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법을 제공하기 위한 것이다.
그리고 본 발명의 또 다른 목적은, 문자데이터 중 명사를 추출하여 내림차순으로 이를 정리하고, 그 목록을 메타데이터로 저장하여 사용자가 동영상을 재생하기 전 명사의 빈도수를 확인하여 사용자가 원하는 영상을 재생케하는 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법을 제공하기 위한 것이다.
상기한 바와 같은 목적을 달성하기 위한 본 발명의 특징에 따르면, 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버는, 음성신호를 포함하는 기준데이터를 수신하는 수신수단; 상기 수신수단으로 수신된 음성신호를 포함하는 기준데이터 중 음성신호를 추출하는 추출수단; 상기 추출수단에서 추출된 음성신호를 인식하고, 인식된 음성신호를 문자데이터로 변환하는 변환수단; 상기 변환수단에서 변환된 문자데이터의 출력시간을 문장단위로 나누어 상기 기준데이터의 출력시간과 동기화시켜 패키징데이터를 생성하는 동기화수단; 상기 변환수단에서 변환된 문자데이터에 포함된 하나 이상의 단어 중 각 단어가 중복되는 개수를 내림차순으로 정렬하는 단어정렬수단; 상기 단어정렬수단에서 정렬된 각각의 단어마다 각 단어가 포함된 문장단위의 출력시간을 매칭시켜 메타데이터를 생성하는 매칭수단; 및 상기 매칭수단에서 생성된 매타데이터를 출력시키는 출력수단을 포함하며, 상기 매칭수단은, 상기 기준데이터 중 상기 문장단위의 출력시간에 해당하는 프레임을 검출하여 상기 단어정렬수단에서 정렬된 각각의 단어를 매칭시켜 썸네일을 생성하는 썸네일 생성수단;을 포함하고, 상기 출력수단은, 상기 썸네일 생성수단에서 생성된 썸네일을 출력시키고, 재생 프로그램을 통해 상기 메타데이터 중 어느 한 단어 또는 썸네일 중 어느 하나가 선택되어 상기 메타데이터 중 어느 한 단어 또는 썸네일에 대한 재생요청신호를 수신하면, 상기 메타데이터 중 어느 한 단어 또는 썸네일에 해당하는 시점에 해당하는 상기 패키징데이터를 상기 재생 프로그램을 통해 재생시키는 재생수단을 더 포함하고, 상기 재생 프로그램은, 상기 패키징데이터를 수신하여 상기 패키징데이터에 포함된 기준데이터와 문자데이터를 동시에 재생하되 상기 패키징데이터의 재생진행도를 표시하고, 상기 재생진행도 중 상기 메타데이터 또는 썸네일이 형성된 구간마다 마킹하여 표시되도록 하는 것을 특징으로 한다.
또한, 상기 단어정렬수단은, 상기 문자데이터에 포함된 단어 중 사전DB에 저장된 하나 이상의 명사와 중복되는 개수를 내림차순으로 정렬하는 것을 특징으로 한다.
또한, 상기 재생 프로그램은, 상기 패키징데이터가 재생되는 도중 문자데이터 수정버튼이 클릭되면 패키징데이터에 대한 재생을 일시정지하고, 일시정지된 상태에서 하나 이상의 단어가 수정된 후 수정완료버튼이 클릭되면 상기 패키징데이터를 다시 재생하고, 상기 하나 이상의 단어가 수정된 부분의 문장단위에 대한 수정데이터를 생성하여 서버로 송신하는 것을 특징으로 하고, 상기 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버는, 상기 재생 프로그램으로부터 수정데이터를 수신하면 상기 수정데이터에 해당하는 상기 패키징데이터에 포함된 출력시간별로 나누어진 문자데이터를 검출하여 상기 수정데이터로 치환하는 수정수단;을 더 포함하는 것을 특징으로 한다.
또한, 상기 재생 프로그램은, 상기 패키징데이터를 수신하여 내림차순으로 정렬된 상기 패키징데이터에 포함된 문자데이터의 단어 중복 개수를 표시하되, 미리 설정된 개수부터 미리 설정된 개수까지 단어 중복 개수를 표시하는 것을 특징으로 한다.
삭제
삭제
삭제
삭제
삭제
삭제
상기한 바와 같은 목적을 달성하기 위한 본 발명의 특징에 따르면, 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 방법은, (a) 음성신호를 포함하는 기준데이터를 수신하는 단계; (b) 상기 (a)단계로 수신된 음성신호를 포함하는 기준데이터 중 음성신호를 추출하는 단계; (c) 상기 (b)단계에서 추출된 음성신호를 인식하고, 인식된 음성신호를 문자데이터로 변환하는 단계; (d) 상기 (c)단계에서 변환된 문자데이터의 출력시간을 문장단위로 나누어 상기 기준데이터의 출력시간과 동기화시켜 패키징데이터를 생성하는 단계; (e) 상기 (c)단계에서 변환된 문자데이터에 포함된 하나 이상의 단어 중 각 단어가 중복되는 개수를 내림차순으로 정렬하는 단계; (f) 상기 (e)단계에서 정렬된 각각의 단어마다 각 단어가 포함된 문장단위의 출력시간을 매칭시켜 메타데이터를 생성하는 단계; 및 (g) 상기 (f)단계에서 생성된 매타데이터를 출력시키는 단계를 포함하며, 상기 (f)단계는, (f1) 상기 기준데이터 중 상기 문장단위의 출력시간에 해당하는 프레임을 검출하여 상기 (e)단계에서 정렬된 각각의 단어를 매칭시켜 썸네일을 생성하는 단계;를 포함하고, 상기 (g)단계는, (g1) 상기 (f1)단계에서 생성된 썸네일을 출력시키는 단계; 및 (g2) 재생 프로그램을 통해 상기 메타데이터 중 어느 한 단어 또는 썸네일 중 어느 하나가 선택되어 상기 메타데이터 중 어느 한 단어 또는 썸네일에 대한 재생요청신호를 수신하면, 상기 메타데이터 중 어느 한 단어 또는 썸네일에 해당하는 시점에 해당하는 상기 패키징데이터를 상기 재생 프로그램을 통해 재생시키는 단계;를 더 포함하고, 상기 재생 프로그램은, 상기 패키징데이터를 수신하여 상기 패키징데이터에 포함된 기준데이터와 문자데이터를 동시에 재생하되 상기 패키징데이터의 재생진행도를 표시하고, 상기 재생진행도 중 상기 메타데이터 또는 썸네일이 형성된 구간마다 마킹하여 표시되도록 하는 것을 특징으로 한다.
또한, 상기 (e)단계는, 상기 문자데이터에 포함된 단어 중 사전DB에 저장된 하나 이상의 명사와 중복되는 개수를 내림차순으로 정렬하는 것을 특징으로 한다.
또한, 상기 재생 프로그램은, 상기 패키징데이터가 재생되는 도중 문자데이터 수정버튼이 클릭되면 패키징데이터에 대한 재생을 일시정지하고, 일시정지된 상태에서 하나 이상의 단어가 수정된 후 수정완료버튼이 클릭되면 상기 패키징데이터를 다시 재생하고, 상기 하나 이상의 단어가 수정된 부분의 문장단위에 대한 수정데이터를 생성하여 서버로 송신하는 것을 특징으로 하고, 상기 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 방법은, (h) 상기 재생 프로그램으로부터 수정데이터를 수신하면 상기 수정데이터에 해당하는 상기 패키징데이터에 포함된 출력시간별로 나누어진 문자데이터를 검출하여 상기 수정데이터로 치환하는 단계;를 더 포함하는 것을 특징으로 한다.
또한, 상기 재생 프로그램은, 상기 패키징데이터를 수신하여 내림차순으로 정렬된 상기 패키징데이터에 포함된 문자데이터의 단어 중복 개수를 표시하되, 미리 설정된 개수부터 미리 설정된 개수까지 단어 중복 개수를 표시하는 것을 특징으로 한다.
삭제
삭제
삭제
삭제
삭제
삭제
이상 살펴본 바와 같은 본 발명의 따르면, 음성신호를 포함하는 기준데이터에 포함된 음성을 인식하여 음성을 문자데이터로 변환시키고 변환된 문자데이터를 영상과 함께 재생시키는 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법을 제공할 수 있다.
또한, 본 발명에 따르면 문자데이터 중 명사를 추출하여 내림차순으로 이를 정리하고, 그 목록을 메타데이터로 저장하여 사용자가 동영상을 재생하기 전 명사의 빈도수를 확인하여 사용자가 원하는 영상을 재생케하는 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법을 제공할 수 있다.
도 1은 본 발명에 따른 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버를 도시한 블럭구성도
도 2는 본 발명에 따른 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 방법의 순서도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다.
그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
이하, 본 발명의 실시예에 따른 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법을 설명하기 위한 도면들을 참고하여 본 발명에 대해 설명하도록 한다.
본 발명인 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법은, 무선 또는 유선으로 데이터 전송이 가능한 하나 이상의 단말기(200)와 연결되어 단말기(200)로부터 영상을 업로드 받고, 업로드된 영상에 서버가 자막을 추가해주는 서버에 관한 것이다.
도 1은 본 발명에 따른 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버를 도시한 블록구성도이다.
도 1을 참고하면, 본 발명인 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버(100) 및 그 방법은, 수신수단(110), 추출수단(120), 변환수단(130), 동기화수단(140), 단어정렬수단(150), 매칭수단(160), 출력수단(170) 및 수정수단(180)을 포함한다.
수신수단(110)은. 음성신호를 포함하는 기준데이터를 수신한다.
여기서, 기준데이터는 하나 이상의 프레임을 통해 생성된 영상과 음성신호를 포함하는 영상데이터 형태이거나 음성신호만을 포함하는 음성데이터 형태인 것이 바람직하다.
추출수단(120)은, 상기 수신수단(110)으로 수신된 음성신호를 포함하는 기준데이터 중 음성신호를 추출한다.
즉, 추출수단은, 기준데이터가 영상데이터 형태인 경우, 영상데이터에 포함된 영상신호와 음성신호 중 음성신호만을 추출하고, 기준데이터가 음성데이터 형태인 경우, 음성신호를 추출하는 것이 바람직하다.
변환수단(130)은, 상기 추출수단(120)에서 추출된 음성신호를 인식하고, 인식된 음성신호를 문자데이터로 변환한다.
여기서, 음성신호를 문자데이터로 변환하는 기술은 음성인식 기술로써, 오락 프로그램 등의 동영상 데이터로부터 신뢰성 있는 음성 인식 성능을 얻기 위하여 불특정 다수의 음성을 인식할 수 있는 화자 독립 음성인식 기술을 사용한다. 이를 위하여 다양한 출생지의 1000명이 발음한 음성 데이터로부터 음향 모델을 생성하여, 어떠한 화자가 발성한 음성이라도 인식에 문제가 없도록 디자인한다.
또한, 음성 인식 성능 향상을 위하여 문맥에 따른 조음효과를 반영하기 위하여 음성 인식의 단위를 현재 음소의 앞, 뒤 음소를 함께 포함하는 문맥 종속형 모델인 프라이-폰(tri-phone)을 기본 단위로 하며, 대어휘 인식시스템에 적합하도록 압축에 다른 손실이 없는 높은 성능을 지닌 음성 인식 알고리즘인 연속 분포 은닉 마르코프 모델(continuous density Hidden Markov Model:continuous density HMM)을 사용하는 것이 바람직하다.
또한, 음성신호를 포함하는 기준데이터로부터 음성신호를 추출하기 위하여 대어휘 연속어 음성인식 기술을 개발하여 문장 단위의 음성신호를 문자데이터인 전사 데이터로 변환한다.
그리고, 변환수단(130)은, 인식된 음성신호를 문자데이터로 변환시, 음성신호에 포함된 각종 잡음을 DB에 미리 저장된 잡음신호와 비교하여 음성신호 중 잡음신호에 해당하는 잡음을 삭제하는 것이 바람직하다.
여기서 잡음신호는, 동물소리, 환경소리를 포함하며, 음성인식시, 음성신호를 음성파형으로 변환한 후 변환된 음성파형 중 동물소리 또는 환경소리에 해당하는 파형이 검출되면 각 파형에 해당하는 잡음신호를 제거하는 것이 바람직하다.
즉, 개구리의 울음소리가 DB에 저장되고 자동차 소리가 DB에 저장되어있다면
동기화수단(140)은, 상기 변환수단(130)에서 변환된 문자데이터의 출력시간을 문장단위로 나누어 상기 기준데이터의 출력시간과 동기화시킨다.
즉, 문자데이터의 출력시간과 음성신호를 포함하는 기준데이터의 출력시간을 동기화시킴으로 인해 사용자가 음성신호를 포함하는 기준데이터를 출력할 경우 문자데이터를 화면에 함께 문장단위로 출력시키는 것이 바람직하다.
단어정렬수단(150)은, 상기 변환수단(130)에서 변환된 문자데이터에 포함된 하나 이상의 단어 중 각 단어가 중복되는 개수를 내림차순으로 정렬한다.
여기서, 상기 문자데이터에 포함된 단어 중 사전DB에 저장된 하나 이상의 명사와 중복되는 개수를 내림차순으로 정렬하는 것이 바람직하다.
만약, '뉴스'라는 명사가 문자데이터에 100개가 포함되어져 있고, '화제'라는 단어가 80개, '연예인'이라는 단어가 70개 포함되어져 있다면, 이를 내림차순으로 정리하여 뉴스-100, 화제-80, 연예인-70으로 정렬시키는 것이 바람직하다.
매칭수단(160)은, 상기 단어정렬수단(150)에서 정렬된 각각의 단어마다 각 단어가 포함된 문장단위의 출력시간을 매칭시켜 메타데이터를 생성한다.
즉, '뉴스' 라는 단어를 사용자가 클릭하면, '뉴스'라는 단어가 포함된 100개의 문장단위의 출력시간마다 음성신호를 포함하는 기준데이터 재생 프로그램 상에서 표시되어 사용자가 이를 확인할 수 있게 하는 것이 바람직하다.
여기서, 상기 매칭수단(160)은, 썸네일 생성수단(162)을 더 포함한다.
썸네일 생성수단(162)은, 상기 기준데이터 중 상기 문장단위의 출력시간에 해당하는 프레임을 검출하여 상기 단어정렬수단(150)에서 정렬된 각각의 단어를 매칭시켜 썸네일을 생성한다.
즉, 음성신호를 포함하는 기준데이터 재생 프로그램 상에 '뉴스'라는 단어가 포함된 100개의 문장단위의 출력시간을 사용자가 검색하면 이에 대한 썸네일을 표시하여 사용자가 원하는 재생시간을 정지화면으로 확인할 수 있게 하는 것이 바람직하다.
출력수단(170)은, 및 상기 매칭수단(160)에서 생성된 매타데이터를 출력시킨다.
여기서, 출력수단(170)은, 재생수단(172)을 포함한다.
재생수단은, 재생 프로그램을 통해 상기 메타데이터 중 어느 한 단어 또는 썸네일 중 어느 하나가 선택되어 상기 메타데이터 중 어느 한 단어 또는 썸네일에 대한 재생요청신호를 수신하면, 상기 메타데이터 중 어느 한 단어 또는 썸네일에 해당하는 시점에 해당하는 상기 패키징데이터를 상기 재생 프로그램을 통해 재생시킨다.
여기서, 상기 재생 프로그램은, 상기 패키징데이터를 수신하여 상기 패키징데이터에 포함된 기준데이터와 문자데이터를 동시에 재생하되 상기 패키징데이터의 재생진행도를 표시하고, 상기 재생진행도 중 상기 메타데이터 또는 썸네일이 형성된 구간마다 마킹하여 표시되도록 한다.
그리고, 상기 재생 프로그램은, 상기 패키징데이터가 재생되는 도중 문자데이터 수정버튼이 클릭되면 패키징데이터에 대한 재생을 일시정지하고, 일시정지된 상태에서 하나 이상의 단어가 수정된 후 수정완료버튼이 클릭되면 상기 패키징데이터를 다시 재생하고, 상기 하나 이상의 단어가 수정된 부분의 문장단위에 대한 수정데이터를 생성하여 서버로 송신한다.
또한, 상기 재생 프로그램은, 상기 패키징데이터를 수신하여 내림차순으로 정렬된 상기 패키징데이터에 포함된 문자데이터의 단어 중복 개수를 표시하되, 미리 설정된 개수부터 미리 설정된 개수까지 단어 중복 개수를 표시하는 것을 특징으로 한다.
수정수단(180)은, 상기 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버는, 상기 재생프로그램으로부터 수정데이터를 수신하면 상기 수정데이터에 해당하는 상기 패키징데이터에 포함된 출력시간별로 나누어진 문자데이터를 검출하여 상기 수정데이터로 치환한다.
즉, 재생프로그램을 통해 단어가 수정되면 단어가 포함된 문장단위의 수정데이터를 생성하여 상기 수정데이터의 출력시간에 해당하는 상기 단어가 포함된 문장단위의 문자데이터를 삭제하고 수정데이터를 삽입하는 것이 바람직하다.
도 2는 본 발명에 따른 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 방법의 순서도이다.
도 2를 참고하면, 우선, 음성신호를 포함하는 기준데이터를 단말기(200)로부터 수신한다(S110).
그 다음, 수신된 음성신호를 포함하는 기준데이터 중 음성신호를 추출한다(S120).
그 다음, 추출된 음성신호를 인식하고, 인식된 음성신호를 문자데이터로 변환한다(S130).
그 다음, 변환된 문자데이터의 출력시간을 문장단위로 나누어 상기 기준데이터의 출력시간과 동기화시킨다(S140).
그 다음, 변환된 문자데이터에 포함된 하나 이상의 단어 중 각 단어가 중복되는 개수를 내림차순으로 정렬한다(S150).
여기서, 상기 단계는, 상기 문자데이터에 포함된 단어 중 사전DB에 저장된 하나 이상의 명사와 중복되는 개수를 내림차순으로 정렬하는 것이 바람직하다.
그리고, 상기 기준데이터 중 상기 문장단위의 출력시간에 해당하는 프레임을 검출하여 상기 단어정렬수단(150)에서 정렬된 각각의 단어를 매칭시켜 썸네일을 생성하는 것이 바람직하다(S160).
그 다음, 정렬된 각각의 단어마다 각 단어가 포함된 문장단위의 출력시간을 매칭시켜 메타데이터를 생성한다(S170).
그 다음, 생성된 썸네일과 메타데이터를 출력시킨다(S180),
마지막으로, 재생 프로그램을 통해 상기 메타데이터 중 어느 한 단어 또는 썸네일 중 어느 하나가 선택되어 상기 메타데이터 중 어느 한 단어 또는 썸네일에 대한 재생요청신호를 수신하면, 상기 메타데이터 중 어느 한 단어 또는 썸네일에 해당하는 시점에 해당하는 상기 패키징데이터를 상기 재생 프로그램을 통해 재생시키고, 상기 재생프로그램으로부터 수정데이터를 수신하면 상기 수정데이터에 해당하는 상기 패키징데이터에 포함된 출력시간별로 나누어진 문자데이터를 검출하여 상기 수정데이터로 치환한다(S190).
본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구의 범위에 의하여 나타내어지며, 특허청구의 범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100 : 서버 110 : 수신수단
120 : 추출수단 130 : 변환수단
140 : 동기화수단 150: 단어정렬수단
160: 매칭수단 162: 썸네일 생성수단
170: 출력수단 172: 재생수단
180: 수정수단 200: 단말기

Claims (14)

  1. 음성신호를 포함하는 기준데이터를 수신하는 수신수단;
    상기 수신수단으로 수신된 음성신호를 포함하는 기준데이터 중 음성신호를 추출하는 추출수단;
    상기 추출수단에서 추출된 음성신호를 인식하고, 인식된 음성신호를 문자데이터로 변환하는 변환수단;
    상기 변환수단에서 변환된 문자데이터의 출력시간을 문장단위로 나누어 상기 기준데이터의 출력시간과 동기화시켜 패키징데이터를 생성하는 동기화수단;
    상기 변환수단에서 변환된 문자데이터에 포함된 하나 이상의 단어 중 각 단어가 중복되는 개수를 내림차순으로 정렬하는 단어정렬수단;
    상기 단어정렬수단에서 정렬된 각각의 단어마다 각 단어가 포함된 문장단위의 출력시간을 매칭시켜 메타데이터를 생성하는 매칭수단; 및
    상기 매칭수단에서 생성된 매타데이터를 출력시키는 출력수단을 포함하며,
    상기 매칭수단은,
    상기 기준데이터 중 상기 문장단위의 출력시간에 해당하는 프레임을 검출하여 상기 단어정렬수단에서 정렬된 각각의 단어를 매칭시켜 썸네일을 생성하는 썸네일 생성수단;을 포함하고,
    상기 출력수단은,
    상기 썸네일 생성수단에서 생성된 썸네일을 출력시키고,
    재생 프로그램을 통해 상기 메타데이터 중 어느 한 단어 또는 썸네일 중 어느 하나가 선택되어 상기 메타데이터 중 어느 한 단어 또는 썸네일에 대한 재생요청신호를 수신하면, 상기 메타데이터 중 어느 한 단어 또는 썸네일에 해당하는 시점에 해당하는 상기 패키징데이터를 상기 재생 프로그램을 통해 재생시키는 재생수단을 더 포함하고,
    상기 재생 프로그램은,
    상기 패키징데이터를 수신하여 상기 패키징데이터에 포함된 기준데이터와 문자데이터를 동시에 재생하되 상기 패키징데이터의 재생진행도를 표시하고, 상기 재생진행도 중 상기 메타데이터 또는 썸네일이 형성된 구간마다 마킹하여 표시되도록 하는 것을 특징으로 하는 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버.
  2. 삭제
  3. 제1항에 있어서, 상기 단어정렬수단은,
    상기 문자데이터에 포함된 단어 중 사전DB에 저장된 하나 이상의 명사와 중복되는 개수를 내림차순으로 정렬하는 것을 특징으로 하는 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버.
  4. 삭제
  5. 삭제
  6. 제1항에 있어서, 상기 재생 프로그램은,
    상기 패키징데이터가 재생되는 도중 문자데이터 수정버튼이 클릭되면 패키징데이터에 대한 재생을 일시정지하고, 일시정지된 상태에서 하나 이상의 단어가 수정된 후 수정완료버튼이 클릭되면 상기 패키징데이터를 다시 재생하고, 상기 하나 이상의 단어가 수정된 부분의 문장단위에 대한 수정데이터를 생성하여 서버로 송신하는 것을 특징으로 하고,
    상기 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버는,
    상기 재생 프로그램으로부터 수정데이터를 수신하면 상기 수정데이터에 해당하는 상기 패키징데이터에 포함된 출력시간별로 나누어진 문자데이터를 검출하여 상기 수정데이터로 치환하는 수정수단;을 더 포함하는 것을 특징으로 하는 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버.
  7. 제1항에 있어서, 상기 재생 프로그램은,
    상기 패키징데이터를 수신하여 내림차순으로 정렬된 상기 패키징데이터에 포함된 문자데이터의 단어 중복 개수를 표시하되, 미리 설정된 개수부터 미리 설정된 개수까지 단어 중복 개수를 표시하는 것을 특징으로 하는 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버.
  8. (a) 음성신호를 포함하는 기준데이터를 수신하는 단계;
    (b) 상기 (a)단계로 수신된 음성신호를 포함하는 기준데이터 중 음성신호를 추출하는 단계;
    (c) 상기 (b)단계에서 추출된 음성신호를 인식하고, 인식된 음성신호를 문자데이터로 변환하는 단계;
    (d) 상기 (c)단계에서 변환된 문자데이터의 출력시간을 문장단위로 나누어 상기 기준데이터의 출력시간과 동기화시켜 패키징데이터를 생성하는 단계;
    (e) 상기 (c)단계에서 변환된 문자데이터에 포함된 하나 이상의 단어 중 각 단어가 중복되는 개수를 내림차순으로 정렬하는 단계;
    (f) 상기 (e)단계에서 정렬된 각각의 단어마다 각 단어가 포함된 문장단위의 출력시간을 매칭시켜 메타데이터를 생성하는 단계; 및
    (g) 상기 (f)단계에서 생성된 매타데이터를 출력시키는 단계를 포함하며,
    상기 (f)단계는,
    (f1) 상기 기준데이터 중 상기 문장단위의 출력시간에 해당하는 프레임을 검출하여 상기 (e)단계에서 정렬된 각각의 단어를 매칭시켜 썸네일을 생성하는 단계;를 포함하고,
    상기 (g)단계는,
    (g1) 상기 (f1)단계에서 생성된 썸네일을 출력시키는 단계; 및
    (g2) 재생 프로그램을 통해 상기 메타데이터 중 어느 한 단어 또는 썸네일 중 어느 하나가 선택되어 상기 메타데이터 중 어느 한 단어 또는 썸네일에 대한 재생요청신호를 수신하면, 상기 메타데이터 중 어느 한 단어 또는 썸네일에 해당하는 시점에 해당하는 상기 패키징데이터를 상기 재생 프로그램을 통해 재생시키는 단계;를 더 포함하고,
    상기 재생 프로그램은,
    상기 패키징데이터를 수신하여 상기 패키징데이터에 포함된 기준데이터와 문자데이터를 동시에 재생하되 상기 패키징데이터의 재생진행도를 표시하고, 상기 재생진행도 중 상기 메타데이터 또는 썸네일이 형성된 구간마다 마킹하여 표시되도록 하는 것을 특징으로 하는 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 방법.
  9. 삭제
  10. 제8항에 있어서, 상기 (e)단계는,
    상기 문자데이터에 포함된 단어 중 사전DB에 저장된 하나 이상의 명사와 중복되는 개수를 내림차순으로 정렬하는 것을 특징으로 하는 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 방법.
  11. 삭제
  12. 삭제
  13. 제8항에 있어서, 상기 재생 프로그램은,
    상기 패키징데이터가 재생되는 도중 문자데이터 수정버튼이 클릭되면 패키징데이터에 대한 재생을 일시정지하고, 일시정지된 상태에서 하나 이상의 단어가 수정된 후 수정완료버튼이 클릭되면 상기 패키징데이터를 다시 재생하고, 상기 하나 이상의 단어가 수정된 부분의 문장단위에 대한 수정데이터를 생성하여 서버로 송신하는 것을 특징으로 하고,
    상기 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 방법은,
    (h) 상기 재생 프로그램으로부터 수정데이터를 수신하면 상기 수정데이터에 해당하는 상기 패키징데이터에 포함된 출력시간별로 나누어진 문자데이터를 검출하여 상기 수정데이터로 치환하는 단계;를 더 포함하는 것을 특징으로 하는 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 방법.
  14. 제8항에 있어서, 상기 재생 프로그램은,
    상기 패키징데이터를 수신하여 내림차순으로 정렬된 상기 패키징데이터에 포함된 문자데이터의 단어 중복 개수를 표시하되, 미리 설정된 개수부터 미리 설정된 개수까지 단어 중복 개수를 표시하는 것을 특징으로 하는 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 방법.
KR1020150119935A 2015-08-26 2015-08-26 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법 KR101618777B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150119935A KR101618777B1 (ko) 2015-08-26 2015-08-26 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150119935A KR101618777B1 (ko) 2015-08-26 2015-08-26 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법

Publications (1)

Publication Number Publication Date
KR101618777B1 true KR101618777B1 (ko) 2016-05-09

Family

ID=56020585

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150119935A KR101618777B1 (ko) 2015-08-26 2015-08-26 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법

Country Status (1)

Country Link
KR (1) KR101618777B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107820112A (zh) * 2017-11-15 2018-03-20 安徽声讯信息技术有限公司 一种音频文字直播系统
CN109510858A (zh) * 2018-07-31 2019-03-22 西安艾润物联网技术服务有限责任公司 服务信息推送方法以及相关产品
KR102632973B1 (ko) * 2023-11-30 2024-02-01 이수민 멀티미디어 컨텐츠 생성을 위한 사용자 인터페이스를 제공하는 전자 장치 및 이의 동작 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107820112A (zh) * 2017-11-15 2018-03-20 安徽声讯信息技术有限公司 一种音频文字直播系统
CN109510858A (zh) * 2018-07-31 2019-03-22 西安艾润物联网技术服务有限责任公司 服务信息推送方法以及相关产品
KR102632973B1 (ko) * 2023-11-30 2024-02-01 이수민 멀티미디어 컨텐츠 생성을 위한 사용자 인터페이스를 제공하는 전자 장치 및 이의 동작 방법

Similar Documents

Publication Publication Date Title
US11887578B2 (en) Automatic dubbing method and apparatus
US9552807B2 (en) Method, apparatus and system for regenerating voice intonation in automatically dubbed videos
CN111538851B (zh) 自动生成演示视频的方法、系统、设备及存储介质
JP4113059B2 (ja) 字幕信号処理装置、字幕信号処理方法及び字幕信号処理プログラム
US20140372100A1 (en) Translation system comprising display apparatus and server and display apparatus controlling method
JP2008546016A (ja) マルチメディア信号で自動的なダビングを実行する方法及び装置
KR102044689B1 (ko) 방송자막 제작 시스템 및 방법
US9767825B2 (en) Automatic rate control based on user identities
JP2006319980A (ja) イベントを利用した動画像要約装置、方法及びプログラム
KR20150057591A (ko) 동영상파일에 대한 자막데이터 생성방법 및 장치
JP2011239141A (ja) 情報処理方法、情報処理装置、情景メタデータ抽出装置、欠損補完情報生成装置及びプログラム
US20130151251A1 (en) Automatic dialog replacement by real-time analytic processing
WO2020124754A1 (zh) 多媒体文件的翻译方法、装置及翻译播放设备
Federico et al. An automatic caption alignment mechanism for off-the-shelf speech recognition technologies
KR101618777B1 (ko) 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법
US9666211B2 (en) Information processing apparatus, information processing method, display control apparatus, and display control method
JP6641045B1 (ja) コンテンツ生成システム、及びコンテンツ生成方法
JP2021090172A (ja) 字幕データ生成装置、コンテンツ配信システム、映像再生装置、プログラム及び字幕データ生成方法
US8553855B2 (en) Conference support apparatus and conference support method
JP2008047998A (ja) 動画再生装置及び動画再生方法
CN110324702B (zh) 视频播放过程中的信息推送方法和装置
KR102160117B1 (ko) 장애인을 위한 실시간 방송 컨텐츠 제작 시스템
KR102232642B1 (ko) 스토리 컨텐츠에 대한 음향 효과를 제공하는 미디어 재생 장치 및 음성 인식 서버
CN114842858A (zh) 一种音频处理方法、装置、电子设备及存储介质
KR101920653B1 (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20200227

Year of fee payment: 5