KR20140137219A

KR20140137219A - 멀티미디어 파일에서 원하는 부분만 쉽고 빠르게 정확히 추출하거나 저장하여 s,e,u-컨텐츠를 만드는 장치 및 그 방법 또는 요점 추출 저장

Info

Publication number: KR20140137219A
Application number: KR1020130057874A
Authority: KR
Inventors: 박청정
Original assignee: 박청정
Priority date: 2013-05-22
Filing date: 2013-05-22
Publication date: 2014-12-02

Abstract

본 발명은 멀티미디어 파일 중 사용자가 원하는 특정 부분을 정확하면서도 용이하게 찾아서 추출해 낼 수 있도록 하기 위한 발명으로서,
화자의 음성을 포함하는 멀티미디어 파일에서, 상기 화자의 음성을 인식하여 상기 화자의 음성에 대응하는 전체 자막을 생성하고, 상기 전체 자막에 포함된 각 단어 및 각 문장의 재생 시점에 대한 정보를 상기 화자의음성과 매칭시켜 임시 저장부에 저장하는 제1 단계와, 상기 멀티미디어 파일 및 상기 전체 자막의 적어도 일부를 인터넷을 통하여 사용자 단말기로 전송하는 제2 단계, 및 상기 사용자 단말기로부터 상기 전체 자막 중 하나 이 상의 추출 부분을 마킹하여 전송해줄 것을 요청받은 경우, 상기 멀티미디어 파일 중 상기 마킹된 추출 부분에 대응하는 부분 추출 파일을 추출하여 상기 사용자 단말기로 전송하는 제3 단계와 또한 음성합성(문장이나 문자를 읽어서 음성으로 들려줄 때)을 통하여 화자가 문자나 글자를 읽거나 그림 등 해설을 할 때 각 단어 및 각 문장의 합성시점(체화점)과 매칭시켜 그 대응정보를 저장하였다가 상기 제1,2,3단계의 서비스에 연계시키거나 스마프폰시대에 모든사람들 손안의 機智(기지)로 SSM(Small Smart Contents)의 제작/편집/보급에 편의 제공수단으로의 기술제공을 할 수도 있는 제4단계를 포함하는 것을 특징으로 한다.

Description

멀티미디어 파일에서 원하는 부분만 쉽고 빠르게 정확히 추출하여 s,e,u-러닝 컨텐츠 만드는 장치 및 그 방법{METHOD FOR PROVIDING S,E,U-CONTENTS BY EASILY, QUICKLY AND ACCURATELY EXTRACTING ONLY WANTED PART FROM MULTIMEDIA FILE}

본 발명은 멀티미디어 파일의 부분 추출 장치 및 방법에 관한 것으로, 멀티미디어 파일 중 사용자가 원하는 특정 부분을 정확하면서도 용이하게 찾아서 추출해 낼 수 있는 장치 및 방법에 관한 것이다.

일반적으로, 멀티미디어 파일에는 다양한 형태의 동영상, 음성 및 텍스트 등이 포함되며, 상기멀티미디어 파일은 개인용 컴퓨터(PC: Personal Computer)에서 멀티미디어 파일 재생 프로그램, 예를 들어, 마이크로소프트(MS)사의 윈도우 미디어 플레이어(Window Media Player) 또는 매크로미디어(Macromedia)사의 플래시 플레이어(Flash Player)를 이용하여 재생될 수 있다.

위와 같은 종래의 멀티미디어 파일 재생 프로그램은 현재 모니터 상에 재생되고 있는 멀티미디어 파일의 재생 위치를 변경할 수 있는 재생바와 같은 도구를 제공하고 있다. 상기 재생바는 상기 멀티미디어 파일이 재생되고 있는 위치를 앞뒤로 변경시킴으로써 일시적인 반복 시청을 가능하게 한다.

그러나, 종래의 멀티미디어 파일 재생 프로그램에 따르면 사용자는 상기 멀티미디어 파일 중 자신이 반복시청을 원하는 부분을 정확히 찾을 수 없는 문제가 있으며, 사용자는 자신이 반복 시청을 원하는 정확한 부분을 찾기 위해서는 대략적인 재생 위치를 추정한 후 상기 재생바의 위치를 이동시키는 과정을 반복해야만 하는 문제가 있다.

또한, 웹기반의 학습을 의미하는 이러닝(e-Learning)에 있어서, 학생들이 개인용 컴퓨터를 이용하여 인터넷교육 사이트에서 제공하는 교육 컨텐츠로 학습을 하는 경우, 학생들은 상기 교육 컨텐츠의 중요 부분만 반복 학습하고 싶어도 종래 기술에서는 상기 교육 컨텐츠로부터 중요 부분 또는 요점만을 추출할 수 있는 수단이 부재하여, 상기 교육 컨텐츠를 다시 처음부터 반복 시청해야만 하는 불편함이 있고, 이로 인하여 학습 의욕 및 웹기반의 교육 컨텐츠 이용 욕구를 저하시키는 문제가 있다.

KR 10-2006-87144 A KR 10-2001-102807 A

상기와 같은 문제점을 해소하기 위한 본 발명의 목적은 멀티미디어 파일로부터 사용자가 원하는 부분을 정확하면서도 용이하게 찾아서 추출해 낼 수 있는 장치 및 방법을 제공함에 있다.

또한, 본 발명의 다른 목적은 멀티미디어 파일로부터 사용자가 원하는 부분을 정확하면서도 용이하게 찾아서 추출하여 사용자 단말기에 저장시킴으로써, 사용자가 추출된 부분 추출 파일을 다양하게 활용할 수 있는 장치 및 방법을 제공함에 있다.

본 발명의 또 다른 목적은 이미 만들어진 멀티미디어 파일의 요점 채집 외에 새로 만드는 동영상 편집에서도 추가/삭제를 해야 하는 부분을 찾는 작업은 이미 지적한 것처럼 많은 노력이 들어간다. 본 기술이 개발되면 당연히 새로 제작되는 멀티미디어 제작에 추가/삭제를 위한 위치를 찾는 노력도 손쉽게 해결이 된다.특히, 요즘의 스마트폰은 손안에서 이미지촬영/음성녹음기 등의 기능으로 지식정보데이터 채집기를 누구나 소유하고 볼 수 있는데 이들이 새로 제작하는 SSC(Small Smart Contents)를 제작/편집/배포하는데 유용하게 쓰도록 기술 개발이 되어야 한다.

향후 활성화 될 특히 eBook과 같은 시청각 매체(교재)등에서는 이용 고객별 수요,기호,대상내용에 따라서 다양한 방법으로 요약/편집을 원하는 수요에 만족할만한 SSC(Small Smart Contents)를 제작/편집/배포가 되어야 한다.

본 발명은 멀티미디어 파일에서 원하는 부문의 절체위치를 결정할 때 쓰이는 수단으로 일예를 들면 동영상 강의파일에서 강사음성의 시작위치와 종료위치의 정확성과 정밀성이 크게 요구되는데 이 때 이 시각에 매겨지는 위치의 명칭을 體化點(체화점)이라 명하고, 강사음성시작으로 순차적인 시각에 의하여 최초로 만들어지는 MatchingPoint(체화점)를 原體化點(원체화점), 시작위치를 始體化點(시체화점), 종료위치를 終體化點(종체화점)이라고 명하고 있다. 이 원체화점은 다음에 요점채집이나 편집을 할 때 시체화점이나 종체화점으로 바뀔 수도 있는 것이다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 멀티미디어 파일에서 원하는 부분만 쉽고 빠르게 정확히 추출하여 s,e,u-러닝 컨텐츠 만드는 방법은, 화자의 음성을 포함하는 멀티미디어 파일에서, 상기 화자의 음성을 인식하여 상기 화자의 음성에 대응하는 전체 자막을 생성하고, 상기 전체 자막에 포함된 각 단어 및 각 문장의 재생시점에 대한 정보를 상기 화자의 음성과 매칭시켜 임시 저장부에 저장하는 제1 단계와, 상기 멀티미디어 파일및 상기 전체 자막의 적어도 일부를 인터넷을 통하여 사용자 단말기로 전송하는 제2 단계, 및 상기 사용자 단말기로부터 상기 전체 자막 중 하나 이상의 추출 부분을 마킹하여 전송해줄 것을 요청받은 경우, 상기 멀티미디어파일 중 상기 마킹된 추출 부분에 대응하는 부분 추출 파일을 추출하여 상기 사용자 단말기로 전송하는 제3 단계를 포함하는 것을 특징으로 한다.

또한 eBook과 같은 시청각교재나 동영상 등에서 자막과 음성 두개의 MatchingPoint를 시·종체화점으로 정하여서 활용하는 것보다 본 새 특허에서는 자막과 음성 및 일정소량이미지(3?4각형면적에 수용되어 있는 이미지 또는 색상이나 판독 가능한 해상도속성 중의 어느하나)를 3요소로 하여 구성된 MatchingPoint를 형성하여 DB화하여 두고 이 셋의 임의적조합을 검색Key-Word로 활용함으로 기 제출했던 구특허기술에서 자막을 정확히 만드는데 따르는 막대한 경제적 손실을 보전할 수 있고, 또 요점다운의 정확성에 효과가 매우 큼으로 새로운 가치와 경쟁력창출이 가능한 제4단계를 추가 특징으로 되기도 한다.

또한, 본 발명의 다른 실시예에 따른 멀티미디어 파일에서 원하는 부분만 쉽고 빠르게 정확히 추출하여 s,e,u-러닝 컨텐츠 만드는 방법은, 상기 멀티미디어 파일은 자막 파일을 더 포함하며, 상기 제1 단계는, 상기 자막 파일 내에 배열된 단어들의 배열순서에 대한 정보로부터 상기 음성 파일 중 특정 단어의 재생 시점을 예측하는 것을 특징으로 한다.

또한, 본 발명의 또 다른 실시예에 따른 멀티미디어 파일에서 원하는 부분만 쉽고 빠르게 정확히 추출하여 s,e,u-러닝 컨텐츠 만드는 방법은, 상기 추출된 부분 추출 파일에 상기 사용자 단말기로부터 입력된 사용자 정보를 바이너리 형태로 암호화하여 기록하는 단계를 더 포함한다.

나아가, 본 발명의 또 다른 실시예에 따른 멀티미디어 파일에서 원하는 부분만 쉽고 빠르게 정확히 추출하여 s,e,u-러닝 컨텐츠 만드는 방법은, 상기 추출된 부분 추출 파일을 상기 임시 저장부에 저장하는 단계, 상기 부분 추출 파일을 이용 고객의 용도 및 출력기기의 종류에 따른 출력 형태 중 적어도 하나에 따라 편집하는 단계, 및 상기 편집된 부분 추출 파일을 상기 임시 저장부에 저장하는 단계를 포함한다.

또한, 상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 멀티미디어 파일에서 원하는 부분만 쉽고 빠르게정확히 추출하여 s,e,u-러닝 컨텐츠 만드는 장치는, 화자의 음성을 포함하는 멀티미디어 파일에서, 상기 화자의 음성을인식하여 상기 화자의 음성에 대응하는 전체 자막을 생성하고, 상기 전체 자막에 포함된 각 단어 및 각 문장의재생 시점에 대한 정보를 상기 화자의 음성과 매칭시키는 자막추출부와, 상기 전체 자막 및 상기 전체 자막에포함된 각 단어 및 각 문장의 재생 시점에 대한 정보를 저장하는 임시 저장부, 및 상기 멀티미디어 파일 및 상기 전체 자막의 적어도 일부를 인터넷을 통하여 사용자 단말기로 전송하고, 상기 사용자 단말기로부터 상기 전체 자막 중 하나 이상의 추출 부분을 마킹하여 전송해줄 것을 요청받은 경우, 상기 멀티미디어 파일 중 상기 마킹된 추출 부분에 대응하는 부분 추출 파일을 추출하여 상기 사용자 단말기로 전송하는 웹서버를 포함하는 것을 특징으로 한다.

또한, 상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 사용자 단말기는, 멀티미디어 파일이 재생되는 재생화면 표시부와, 상기 멀티미디어 파일에 포함된 화자의 음성에 대응하는 자막이 표시되는 자막 표시부를 포함하는 디스플레이부와, 사용자로부터 상기 자막 표시부에 포함된 자막 중 하나 이상의 추출 부분을 선택하기 위한 입력신호가 입력되는 입력부, 및 상기 입력부로부터 입력된 입력신호에 따라 상기 자막 중 상기 하나 이상의 추출 부분을 마킹한 후, 상기 멀티미디어 파일 중 상기 마킹된 추출 부분에 대응하는 부분 추출 파일을 저장부에 저장하는 제어부를 포함하는 것을 특징으로 한다.

본 발명에 따르면 사용자 단말기에 동영상과 같은 멀티미디어 파일을 제공함과 동시에 상기 동영상에 포함된 화자의 음성을 자막으로 변환하여 제공하고, 사용자는 상기 자막을 이용하여 상기 동영상 중 추출을 원하는 부분을 마킹하여 쉽고 빠르면서도 정확하게 추출할 수 있다. 이에 따라, 사용자는 전체 동영상 중 자신이 필요한 부분만 선택하여 사용자 단말기에 저장한 후 이를 반복 학습할 수 있는 이점이 있다.

또한, 본 발명에 따르면 상기 부분 추출 파일에 사용자의 개인 정보를 바이너리 형태로 암호화하여 기록하고 사용자에게 저작권 침해에 관한 경고를 주어 DRM(Digital Rights Management) 기능을 구현함으로써, 저작물의 불법유통을 미연에 방지할 수 있는 이점이 있다.

또한, 본 발명에 따르면, 추출된 부분 추출 파일을 이용 고객의 용도별 및 출력기기의 출력 형태에 따라 편집하고 색인기능을 부여함으로써, 다수의 사용자가 자신의 사용자 단말기를 이용하여 원하는 부분 추출 파일을 용이하게 검색하여 다운로드받을 수 있는 이점이 있다.

나아가 본 발명에 따르면, 멀티미디어 파일 서비스 제공업자는, 인터넷으로 제공되는 이러닝(e-Learning) 컨텐츠에서 요점만을 추출하여 휴대용 단말기에 제공함으로써, 사용자는 휴대용 단말기를 이용하여 언제 어디서나 원하는 컨텐츠의 요점만을 활용할 수 있는 유러닝(s,e,u-러닝 컨텐츠 ) 기능을 제공하여, 각종 영상 및 음원 서비스 업체 등에서 제공되는 뉴스, 영화, 음악, 드라마 등의 모든 영상 및 음성에서 원하는 부분만을 빠르게 시청할 수있는 이점이 있다.

결과적으로, 본 발명에 따르면 특히 s,e,u-러닝 컨텐츠 분야에서는 학습의 효율성을 향상시킬 수 있을 뿐만 아니라, 일반인들에 대하여 동영상 및 음성과 같은 멀티미디어 파일로 제공되는 각종 서비스의 이용을 활성화시킬 수 있다.

도 1은 본 발명의 실시 예에 따른 멀티미디어 파일에서 원하는 부분만 쉽고 빠르게 정확히 추출하여 s,e,u-러닝 컨텐츠 만드는 장치의 구성도.
도 2는 본 발명에 따른 사용자 단말기의 세부 구성도.
도 3은 본 발명의 실시 예에 따른 사용자 단말기의 화면 구성을 설명하는 도면.
도 4는 본 발명의 실시 예에 따른 멀티미디어 파일의 부분 추출 과정을 설명하는 도면.
도 5는 자막이 포함된 멀티미디어 파일의 부분 추출 과정을 설명하는 도면이다.
도 6은 본 발명에 따른 부분 추출 파일을 이용목적 및 출력기기에 따라 편집하여 제공하는 과정을 설명하는 도면이다.
도 7은 상기 부분 추출 파일을 편집하기 위한 웹서버의 화면 구성의 일 예를 나타내는 도면.
도 8은 본 발명자가 등록받은 특허등록기술(두개의 창 분할)을 적용하여 고객의 편의성을 증진시키는 것을 설명하는 도면.

도 1은 본 발명의 실시 예에 따른 멀티미디어 파일에서 원하는 부분만 쉽고 빠르게 정확히 추출하여 s,e,u-러닝 컨텐츠 만드는 장치의 구성도이다.

도 1을 참조하면, 본 발명에 따른 멀티미디어 파일에서 원하는 부분만 쉽고 빠르게 정확히 추출하여 s,e,u-러닝 컨텐츠 만드는 장치(100)는 자막추출부(110), 음성정보 데이터베이스(DB)(111), 임시 저장부(120), 원시파일 저장부(130), 미디어 처리 서버(140), 웹서버(150) 및 사용자 단말기(160)를 포함한다.

먼저, 본 발명에 따른 멀티미디어 파일은 1회 분량의 동영상 강의 또는 뉴스 등과 같이 일정 시간 동안 화자의음성에 의한 정보 전달을 위한 음성 파일을 포함한다. 또한 상기 멀티미디어 파일은 상기 화자의 동작 또는 강의 자료 등을 촬영한 동영상, 및 상기 화자의 음성 전체를 텍스트 형태로 변환하거나 상기 화자의 강의 내용 일부를 텍스트 형태로 표현한 자막을 더 포함할 수 있다.

자막추출부(110)는 음성 파일이 포함된 멀티미디어 파일을 입력받으며, 상기 음성파일을 음성인식하여 상기 음성파일에 포함된 화자의 음성을 텍스트 데이터로 변환하여 자막을 형성한다. 구체적으로, 자막추출부(110)는 상기 음성파일에서 배경음악 또는 잡음 등 사람의 음성이 아닌 소리를 제거하고 화자 독립형 연속음성인식을 수행한다. 이때 음성인식의 첫 단계로 이미 널리 알려진 Ribiner와 Samber가 제안한 음성신호의 프레임 에너지를 이용하여 음성이 존재하는 구간의 인식을 수행하는 방법(Rabiner and Sambur's Method) 또는 Teager 에너지를 이용하여 음성이 존재하는 구간의 인식을 수행하는 방법 등을 활용하여, 상기 음성 파일에 대하여 음성이 있는 음성 존재 구간을 검출하는 묵음 구간 검출단계(End Point Detection)를 수행함으로써, 상기 음성 파일을 음성 존재 구간과 묵음 구간으로 구분한다. 그리고, 상기 음성 파일 중 상기 찾아낸 음성 존재 구간에 해당하는 부분을 별개로 구분하여 놓고 음성 정보 데이터베이스(DB)(111), 즉 다양한 음성의 패턴이 기록되어 있는 라이브러리와 유사도를 비교함으로써 가장 가까운 음성을 찾아내어 음성인식을 수행하고, 상기 음성인식에 의하여 얻어진 정보로써 텍스트 데이터(즉, 자막)를 얻어내어 임시저장부(120)에 저장한다. 특히, 본 발명에 따르면 상기 음성인식 과정에 일부 오류가 발생하여 화자의 음성이 표현하는 내용을 정확히 자막으로 변경하지 못하더라도, 사용자에게는 적어도 화자의 음성에 대응하는 자막의 위치에 대한 정보가 제공될 수 있다. 이에 따라 음성인식 과정에서 설령 음성 인식률이 낮더라도 사용자는 상기 자막을 이용하여 상기 음성파일 중 원하는 위치 또는 부분을 용이하게 찾아 사용자 단말기(160)에 저장할 수 있게 된다.

더욱 상세히 설명하면, 일반적으로 음성의 패턴이 기록되어 있는 음성정보 데이터베이스(111)에 한국어, 또는영어와 같이 특정 언어별로 발생 가능한 모든 어휘가 포함되기란 현실적으로 불가능하며, 이로 인하여 모든 음성이 100% 인식될 수 없는 것이 기술적 한계이다. 지금까지의 기술에 따르면, 비교적 정확한 언어구사를 하는 앵커의 뉴스 음성은 90% 정도, 인터뷰의 경우 60% 정도 인식할 수 있는 것으로 알려져 있다. 그러나, 본 발명에 따르면, 원시파일인 멀티미디어 파일로부터 화자의 음성을 인식하여 자막을 획득한다. 그리고, 상기 멀티미디어 파일에 포함된 화자의 음성 중 일부 단어만 인식한다 하더라도, 상기 인식된 단어의 출현 순서로부터 각 문장이 시작되는 시간과 끝나는 시간, 그리고 각 단어가 시작되는 시간과 끝나는 시간에 대한 정보를 얻을 수 있다. 이와 같이, 얻어진 각 문장 및 각 단어의 시작시간 및 끝시간에 대한 정보를 상기 자막에 포함된 각 문장 및 단어와 매칭(matching)시켜 구조화한다. 예를 들어, 상기 멀티미디어 파일에 포함된 화자의 음성으로부터 "나는 밥을 먹으러 식당으로 갔습니다.”라는 문장을 인식할 때, 상기 자막추출부(110)가 음성정보 데이터베이스(111)를 이용하여 “밥”과 “식당”이라는 단어만 인식하고, “나는”, “먹으러”, “갔습니다”라는 단어는 정확히 인식하지 못하는 경우가 발생할 수 있다. 그러나, 설령 상기 "밥"과 "식당"이라는 단어의 주위에 위치한 “나는”, “먹으러”, “갔습니다”라는 단어를 정확히 인식하지 못하였더라도, 각 단어 사이의 묵음 구간은 검출할 수 있다. 따라서, 상기 묵음 구간에 대한 정보를 이용하여 전체 문장에 포함된 각 단어별로 시작시점과 끝 시점에 대한 정보를 얻을 수 있게 된다. 이와 같은 방식으로 화자의 음성으로부터 획득된 각 문장 및 각 단어의 시작시점 및 끝시점에 대한 정보와, 상기 자막에 포함된 각 문장 및 각 단어의 시작시점 및 끝시점에 대한 정보를 서로 비교함으로써, 상기 자막에 포함된 각 문장 및 각 단어에 대응하는 상기 멀티미디어 파일의 재생 위치를 매칭시켜 임시 저장부(120)에 저장한다.

이에 따라, 상기 멀티미디어 파일로부터 추출되는 부분 추출 파일의 추출 위치는 상기 자막에 포함된 각 단어 및 문장의 위치에 대응하는 상기 멀티미디어 파일의 재생 위치에 의해서 결정될 수 있다. 상기 멀티미디어 파일로부터 상기 부분 추출 파일의 추출이 시작되는 시작위치는 시체화점(始體化點), 추출이 종료되는 종료위치는 종체화점(終體化點)이라고 정의될 수 있다. 여기서 체화점(體化點)이란 상기 자막과 상기 멀티미디어 파일에 포함된 이미지 및 음성이 응결된 위치를 말한다. 상기 시체화점 및 종체화점은 시간정보로 표현되나, 상기 멀티미디어 파일에 포함된 동영상의 각 프레임 위치와 같이 상기 멀티미디어 파일 내의 특정 위치를 식별할 수 있다면 어떠한 정보도 모두 상기 시체화점 및 종체화점을 결정하는데 이용될 수 있다.

임시 저장부(120)는 상기 자막 추출부(110)에 의해 획득된 전체 자막 및 상기 전체 자막에 포함된 각 단어 및 각 문장의 재생 시점에 대한 정보를 저장한다. 아울러, 상기 임시 저장부(120)는 상기 전체 자막 중 사용자 단말기(160)에 의해 선택된 부분 추출 자막 및 상기 멀티미디어 파일 중 상기 사용자 단말기(160)에 의해 추출된 부분 추출 파일을 저장할 수 있다.

원시파일 저장부(130)는 상기 자막추출부(110)에 입력된 멀티미디어 파일을 저장한다. 상기 멀티미디어 파일은 음성인식이 이루어지기 전의 원시파일에 해당한다.

상기 미디어 처리 서버(140)는 상기 원시파일 저장부(130)에 저장된 멀티미디어 파일을 웹서버(150)를 통하여사용자 단말기(160)에 스트리밍(streaming) 방식으로 제공하는 기능을 한다.

웹서버(150)는 다양한 웹 어플리케이션을 탑재하며 웹 사이트를 운영하고, 유선 또는 무선 인터넷(170)을 통하여 사용자 단말기(160)로 상기 멀티미디어 파일, 및 자막을 제공한다. 또한, 상기 웹서버(150)는 상기 사용자 단말기(160)로부터 상기 전체 자막 중 하나 이상의 추출 부분을 마킹하여 전송해줄 것을 요청받은 경우, 상기 원시파일 저장부(130)에 저장된 상기 멀티미디어 파일로부터 상기 마킹된 추출 부분에 대응하는 부분 추출 파일을 추출하여 상기 사용자 단말기(160)로 전송한다.

상기 자막추출부(110), 임시 저장부(120), 원시파일 저장부(130), 미디어 처리 서버(140), 및 웹서버(150)는 하나의 서버 내에 형성될 수 있다. 그러나, 상기 자막추출부(110)에서의 음성인식 과정은 매우 오랜 연산 시간이 소요되므로, 상기 웹서버(150)에 큰 부담으로 작용하여 상기 웹서버(150)가 원활한 웹서비스를 제공하는데 방해가 될 수 있다. 또한, 상기 음성인식과정은 하나의 멀티미디어 파일에 대하여 단 1회만 수행하면 된다. 반면, 이렇게 음성인식에 의해 얻어진 자막은 사용자 단말기(160)의 요구에 따라 웹서버(150)를 통하여 수 회 반복하여 활용될 수 있다. 따라서, 상기 자막추출부(110)는, 상기 임시 저장부(120), 원시파일 저장부(130), 미디어처리 서버(140), 및 웹서버(150)와는 물리적으로 구별되는, 별도의 독립적인 서버로 구성되는 것이 바람직하다.

이 단계에서 기술의 활용성 및 편의성을 증진하기 위하여, 이제 사용자가 원하는 위치를 빠르게 찾는 것을 도와주기 위한 재생화면, 자막화면 동기화단계에서는 두 개의 창분할 기술(201)(본 발명자의 등록특허기술)을 사용하면(도 8 참조) 더욱 효과적으로 구현할 수도 있는데 210 창과 220 창이 겹치지 않게 하여 작업하는 것으로, 재생화면(210)에서 영상재생시점을 사용자가 변경하기 위해 재생바(211)를 드래그 또는 마우스 오버(마우스를 재생바위에 올리는 동작)하면 자막화면(220)에서 스크롤바(221)이 자동으로 움직이면서 해당되는 자막위치로 자동 이동시키는 기능이 작동된다. 이때 그 역으로 자막화면(220)에서 특정위치의 자막을 클릭하거나, 스크롤바(221)를 사용하여 현재 보는 자막의 위치를 변경하면 재생화면(210)에서 동영상 재생위치가 이동되어 재생바(211)의 표시 위치도 자동으로 변경되는 기능이 작동된다. 사용자가 추출을 원하는 시점을 찾은 경우 사용자가 자막화면(220)에서 마우스 드래그 또는 문장 클릭 등 이와 유사한 동작을 통하여 추출대상을 마킹하는 단계(105)를 통하여 추출될 부분을 지정할 수 있다. 이때 추출되는영역은 문장 전체 또는 문장 중간도 될 수 있고 추출범위 또한 1개 영역 또는 복수영역을 지정할 수 있다. 마킹이 끝나고 사용자는 밑줄 부분 저장버튼(222)을 클릭한다.

사용자 단말기(160)는 개인용 컴퓨터(PC) 또는 휴대용 단말기로 이루어지며, 상기 유선 또는 무선 인터넷(170)을 통하여 상기 웹서버(150)로부터 멀티미디어 파일 및 상기 생성된 자막을 제공받는다. 또한, 사용자는 상기사용자 단말기(160)에 구비된 키보드(key board), 마우스(mouse), 키 패드(key pad), 터치 패드(정압/정전) 등의 입력부(미도시)를 이용하여 상기 자막 중 원하는 하나 또는 둘 이상의 추출 부분을 마킹(marking)하고, 상기마킹된 추출 부분에 대한 정보를 상기 웹서버(150)로 제공함으로써, 상기 웹서버(150)로부터 상기 멀티미디어파일 중 상기 마킹된 추출 부분에 대응하는 부분 추출 파일을 제공받을 수 있다. 이와 같이, 사용자는 멀티미디어 파일에서 자신이 원하는 부분만을 추출한 부분 추출 파일을 제공받을 수 있고, 상기 부분 추출 파일은 상기사용자 단말기(160)를 이용하여 언제 어디서나 자유롭게 활용할 수 있다는 점에서 S,E,U-러닝컨텐츠(UibiquitousContents)로서 기능을 한다.

도 2는 본 발명에 따른 사용자 단말기의 세부 구성도이다.

도 2를 참조하면, 본 발명에 따른 사용자 단말기(160)는 유선 인터넷에 연결된 개인용 컴퓨터(PC) 또는 무선 인터넷에 연결된 노트북 컴퓨터(notebook computer), 휴대폰, 스마트 폰(smart phone), PDA(Personal Digital Assistants), PMP(Portable Multimedia Player) 등과 같은 휴대용 단말기로 이루어질 수 있다.

구체적으로, 상기 사용자 단말기(160)는 통신부(161), 멀티미디어 파일 재생부(162), 입력부(163), 디스플레이부(164), 스피커(165), 저장부(166), 및 제어부(167)를 포함한다.

통신부(161)는 유선 또는 무선으로 상기 인터넷(170)에 접속하기 위한 모듈을 말하는 것으로, 상기 통신부(161)는 내장되거나 외장될 수 있다.

멀티미디어 파일 재생부(162)는 멀티미디어 파일 및 본 발명에 따라 추출된 부분 추출 파일을 재생한다. 상기멀티미디어 파일 재생부(162)는 제어부(167) 내에 하드웨어로 구성될 수도 있고, 제어부(167)와 별도의 소프트웨어로 구성될 수도 있다.

입력부(163)는 사용자가 사용자 단말기(160)의 동작 제어를 위하여 입력하는 입력 신호를 발생시킨다. 입력부(163)는 키보드(key board), 마우스(mouse), 키 패드(key pad), 터치 패드(정압/정전) 등으로 구성될 수 있다.

특히, 터치 패드가 후술하는 디스플레이부(164)와 상호 레이어 구조를 이룰 경우, 이를 터치 스크린이라 부를 수 있다.

디스플레이부(164)는 통신부(161)를 통해 수신되거나 저장부(166)에 저장된멀티미디어 파일 및 전체 자막을 디스플레이하거나, 추출된 부분 추출 파일 및 부분 자막을 디스플레이한다. 또한, 상기 디스플레이부(164)는 사용자 단말기(160)에서 처리되는 정보를 디스플레이하거나, 사용자로부터 입력 명령을 수신하기 위한 UI(User Interface) 또는 GUI(Graphic User Interface)를 디스플레이한다.

스피커(165)는 통신부(161)를 통해 수신되거나 저장부(166)에 저장된 멀티미디어 파일의 음성 파일 또는 부분추출된 음성 파일을 음성으로 변환하여 출력한다.

저장부(166)는 제어부(167)의 처리 및 제어를 위한 프로그램이 저장될 수 있고, 상기 통신부(161)를 통해 수신되는 멀티미디어 파일, 자막 및 부분 추출 파일을 저장할 수 있다. 또한, 상기 사용자 단말기(160)는 인터넷(170) 상에서 저장부(166)의 저장 기능을 수행하는 웹 스토리지(web storage)를 운영할 수도 있다.

그리고 제어부(167)는 통상적으로 사용자 단말기(160)의 전반적인 동작을 제어한다. 예를 들어, 상기 제어부(167)는 상기 멀티미디어 파일의 재생 및 부분 추출과 관련된 제어 및 처리를 수행한다. 구체적으로, 상기 제어부(167)는 상기 입력부(163)로부터 상기 전체 자막 중 하나 이상의 추출 부분을 선택하기 위한 입력신호가 입력되면, 상기 디스플레이부(164)에 표시된 전체 자막 중 상기 하나 이상의 추출 부분을 마킹한다. 또한, 상기 제어부(167)는 상기 입력부(163)로부터 상기 마킹된 추출 부분을 저장하기 위한 입력신호가 입력되면, 인터넷(170)을 통하여 상기 웹서버(150)로부터 상기 멀티미디어 파일 중 상기 마킹된 추출 부분에 대응하는 부분 추출파일을 수신하여 저장부(166)에 저장하도록 제어한다.

도 3은 본 발명의 실시 예에 따른 사용자 단말기의 화면 구성을 설명하는 도면이다.

본 발명에 따른 사용자 단말기(160)는 디스플레이부(164)를 통하여 도 3에 도시된 바와 같이 화면을 구성한다.즉, 상기 디스플레이부(164)는 재생화면 표시부(310)와 자막 표시부(320)를 형성한다.

상기 재생화면 표시부(310)에는 본 발명에 따른 멀티미디어 파일이 재생된다. 예를 들어, 도 3에 도시된 바와같이, 상기 재생화면 표시부(310)에는 포토샵 사용방법 강의에 관한 동영상이 재생될 수 있다. 상기 재생화면 표시부(310)에는 재생바(311)가 포함될 수 있다. 상기 재생바(311)는 상기 재생화면 표시부(310)에 의해 재생되고 있는 멀티미디어 파일의 전체 재생 분량을 표시하고, 상기 전체 재생 분량 중 현재 재생되고 있는 시점을 나타내는 재생 위치 표시기(311-1)를 포함한다.

상기 자막 표시부(320)에는 본 발명에 따라 상기 멀티미디어 파일에 포함된 텍스트 형태의 자막 또는 화자의 음성을 음성 인식하여 추출된 자막을 표시한다. 상기 자막 표시부(320)는 복수의 단위 자막 표시부(330 내지 350)를 포함하며, 추출된 자막을 각각의 단위 자막 표시부(330 내지 350)마다 일정 단위로 구분하여 표시할 수 있다. 예를 들어, 상기 재생화면 표시부(310)에 총 50분 분량으로 이루어진 포토샵 사용방법 강의 동영상이 재생되는 경우, 도 3에 도시된 바와 같이, 상기 자막 표시부(320)의 상단에 위치한 제1 단위 표시부(330)에는 상기 동영상의 최초 24초 동안(즉, 00:00 ~ 00:24)에 포함된 화자의 음성에 대응하는 제1 단위 자막을 표시하기 위한 제1 단위 자막부(332)가 형성된다. 또한 상기 제1 단위 자막 표시부(330)에는 자막 추출 시간을 표시하는 추출시간 표시부(331)와, 상기 포토샵 사용방법 강의 동영상 중 상기 제1 단위 자막에 대응하는 부분 중 주요장면에 해당하는 정지영상을 추출하여 썸네일(Thumbnail)과 같이 축소 사진 형태로 표시하는 정지영상 표시부(333)를 포함한다.

그리고, 상기 제1 단위 자막 표시부(330)의 아래에는 상기 동영상의 다음 13초 동안(즉, 00:25 ~ 00:38)에 포함된 화자의 음성에 대응하는 제2 단위 자막을 표시하기 위한 제2 단위 자막 표시부(340)가 형성된다. 또한, 상기제2 단위 자막 표시부(340)의 아래에는 상기 동영상의 다음 26초 동안(즉, 00:38 ~ 01:04)에 포함된 화자의 음성에 대응하는 제3 단위 자막을 표시하기 위한 제3 단위 자막 표시부(350)가 형성된다.

여기서, 상기 각각의 단위 자막 표시부(330 내지 350)는 상기 멀티미디어 파일에 포함된 영상의 변화량을 측정하여 영상의 변화가 큰 시점을 기준으로 구분될 수 있다. 예를 들어, 제1 단위 자막 표시부(330)에 자막을 표시하던 중, 상기 멀티미디어 파일에 포함된 영상의 변화량이 일정 기준 이상일 경우에는 상기 일정 기준 이상의 변화량이 발생한 시점을 기준으로 이후에 제공되는 자막은 제2 단위 자막 표시부(340)에 표시할 수 있다. 또한, 상기 복수의 단위 자막 표시부(330 내지 350)는 일정 시간 단위로 구분될 수도 있다. 예를 들어, 각각의 단위 자막 표시부(330 내지 350)에는 매 30초 간격으로 추출된 전체 자막을 구분하여 표시할 수도 있다.

또한, 자막 표시부(320)의 우측 단부에는 스크롤바(360)가 형성된다. 상기 스크롤바(360)는 상기 디스플레이부 (164)의 우측 단부를 따라 상하 방향으로 길게 형성되고, 상기 동영상으로부터 추출된 전체 자막 중 상기 자막표시부(320)에 현재 표시된 단위 자막 표시부들의 상대적인 위치를 표시하기 위한 스크롤 박스(361)가 형성된다.

특히, 본 발명에 따른 사용자 단말기(160)는 제어부(167)의 제어에 의하여 상기 디스플레이부(164)의 화면상에상기 재생화면 표시부(310)와 상기 자막 표시부(320)가 겹치지 않도록 형성한다. 즉, 상기 제어부(167)는 상기디스플레이부(164)의 전체 화면 크기를 인식하고, 상기 재생화면 표시부(310)와 상기 자막 표시부(320)가 서로 겹치지 않은 상태에서 전체 화면에 분할되도록 상기 재생화면 표시부(310)와 상기 자막 표시부(320)의 크기를 자동 정렬하여 상기 디스플레이부(164)에 표시되도록 한다. 상기 재생화면 표시부(310)와 상기 자막 표시부(320)가 디스플레이부(164) 상에 표시되는 위치 및 크기를 정렬하는 과정을 설명하면, 예를 들어, 상기 디스플레이부(164)에 의해 형성되는 전체 화면의 크기는 윈도우 95 운영체제부터 널리 사용되는 WIN32 API인 윈도우 함수[GetDesktopWindow()]를 통해 바탕화면의 윈도우 핸들값을 취해 윈도우 크기를 윈도우 함수[GetWindowRect()]를 이용하여 알아낸다. 이후, 상기 디스플레이부(164)에 임의적으로 표시되는 시작표시줄 등의 윈도우 핸들을 알아내고, 이에 따라 윈도우(즉, 재생화면 표시부(310) 및 상기 자막 표시부(320))의 위치 및 크기를 결정할 수 있게 된다. 여기서, 상기 재생화면 표시부(310)와 상기 자막 표시부(320)의 위치 및 크기는변화될 수 있다.

또한, 본 발명에 따르면, 상기 재생화면 표시부(310)에 재생되는 동영상과 상기 자막 표시부(320)에 표시되는자막이 서로 동기화된다. 즉, 상기 동영상 중 상기 재생화면 표시부(310)에 현재 재생되는 부분에 해당하는 자막이 상기 자막 표시부(320)에 표시된다.

이에 따라, 사용자가 입력부(163)를 조작하여 상기 재생화면 표시부(310)에 형성된 재생바(311-1)를 드래그(drag)하거나 특정 위치에 마우스 오버(Mouse Over: 마우스를 재생바 위에 올리는 동작)함으로써 상기 재생바(311-1)의 위치를 이동시키면, 상기 동영상 중 상기 재생바(311-1)의 위치에 해당하는 부분이 상기 재생화면 표시부(310)에 재생됨과 아울러, 상기 재생바(311-1)의 움직임에 따라 상기 자막 표시부(320)에 형성된 스크롤 박스(361)가 자동으로 이동함으로써 상기 자막 표시부(320)에도 역시 상기 재생화면 표시부(310)에 현재 재생되는 부분에 해당하는 자막이 상기 자막 표시부(320)에 표시된다.

반대로, 사용자가 입력부(163)를 조작하여 상기 자막 표시부(320)에 형성된 스크롤 박스(361)의 위치를 이동시키면, 상기 자막 표시부(320)에는 상기 동영상으로부터 추출된 전체 자막 중 스크롤바(361) 상에서 상기 스크롤박스(361)의 상대적 위치에 대응하는 부분이 표시됨과 아울러, 상기 스크롤 박스(361)의 움직임에 따라 상기 재생바(311-1)가 자동으로 이동함으로써 상기 재생화면 표시부(310)에는 역시 상기 동영상 중 상기 자막 표시부(320)에 현재 표시된 자막에 대응되는 부분이 재생된다.

위와 같이, 상기 자막 표시부(320)에 자막이 표시된 상태에서 사용자는 입력부(163)를 이용하여 상기 자막 중자신이 추출하고자 하는 제1 부분(370, 371)에 밑줄을 긋거나 일정한 색으로 칠하여 마킹(marking)함으로써, 상

기 제1 부분(370, 371)을 추출하지 않는 제2 부분(372)과 구별시킬 수 있다. 상기 마킹하는 방법은 부분 추출데이터의 효율성과 유용성을 높이기 위하여 용도나 성격별로 추출하고자 하는 부분의 색상을 달리하여 지정할 수 있다. 또한 상기 마킹하는 방법은 밑줄 긋기 외에 추출하고자 하는 부분에 대하여 상기 사용자 단말기(160)가 식별 가능한 다양한 기호를 삽입하여 이루어질 수도 있다. 이와 같이 추출하고자 하는 제1 부분(370, 371)에 대한 마킹이 이루어지면, 제어부(167)는 상기 입력부(163)로부터 입력되는 입력 신호를 인식하여 상기 마킹된 제1 부분(370, 371)을 식별할 수 있다. 상기 추출하고자 하는 제1 부분(370, 371)은 복 수개가 될 수 있다. 즉, 사용자는 상기 자막 표시부(320)에 표시된 자막 중 추출하고자 하는 여러 부분을 마킹하여 선택할 수 있다. 이 때 추출되는 부분은 하나 이상의 문장의 시작점부터 끝점으로 선택되거나, 또는 한 문장의 중간 부분부터 다른 문장의 중간 또는 끝점으로 선택될 수 있다.

이와 같이, 사용자의 마킹 동작이 종료되면, 사용자는 입력부(163)를 이용하여 디스플레이부(164)에 형성된 '밑줄부분 저장' 버튼(380)을 클릭함으로써, 상기 마킹된 부분을 상기 사용자 단말기(160)에 저장할 것인지 여부를 결정할 수 있다. 만약, 상기 '밑줄부분 저장' 버튼(380)이 클릭되어 추출된 부분에 대한 저장 명령이 입력되면, 제어부(167)는 상기 웹서버(150)로 상기 마킹된 부분에 대한 부분 추출 파일의 전송을 요청한 후, 상기 웹서버(150)로부터 상기 마킹된 부분에 대응하는 부분 추출 파일을 다운로드하여 저장부(166)에 저장한다. 이와 같이, 사용자는 전체 동영상 중 자신이 원하는 부분만 선택하여 사용자 단말기(160)에 저장한 후, 이를 반복 시청할 수 있게 된다.

이와 같이, 본 발명에 따르면 큰 용량의 멀티미디어 파일 중 자신이 원하는 일정 부분(예를 들어, 강사의 핵심설명, 강의의 요점)만 추출한 후 자신의 사용자 단말기(160)에 저장할 수 있다. 따라서, 사용자는 동영상 강의 중 자신이 원하는 부분만 추출하여 자신의 사용자 단말기(160)를 이용하여 언제 어디서든지 용이하게 반복 학습할 수 있다. 이뿐만 아니라, 상기 사용자 단말기(160)가 휴대용 단말기로서 메모리 용량이 작더라도, 본 발명에 따르면 휴대용 단말기에 다양한 동영상 강의의 핵심 부분만 추출하여 저장할 수 있다. 이에 따라, 본 발명에 따르면 이러닝(e-Learning)뿐만 아니라 유러닝(S,E,U-러닝Learning)을 활성화시킬 수 있는 이점이 있다.

특히 애플의 스티브 잡스가 발표한 스마트폰 시대로 변혁된 전 세계는 유사스마트기기등으로 기술이 전파되고 있는 요즘 사람들의 손 안으로 문화와 기술이 파급되고 있기 ?문에 본 제품은 다량의 정보를 요약과 편집을 할? 커다란 기여를 할것임에 틀림없다.

도 4는 본 발명의 실시 예에 따른 멀티미디어 파일의 부분 추출 과정을 설명하는 도면이다.

먼저, 자막추출부(110)는 음성 파일이 포함된 멀티미디어 파일을 입력받으며, 상기 음성파일을 음성인식하여 상기 음성파일에 포함된 화자의 음성을 텍스트 데이터로 변환하여 자막을 형성하여 임시 저장부(120)에 저장한다(S401).

구체적으로, 자막추출부(110)는 상기 음성파일에서 배경음악 또는 잡음 등 사람의 음성이 아닌 소리를 제거하고 화자 독립형 연속음성인식을 수행함으로써, 텍스트 데이터(즉, 자막)를 얻어내어 임시저장소(121)에 저장을 한다.

아울러, 자막추출부(110)는 상기 화자의 음성으로부터 단어별 또는 문장별 시작점과 끝점에 대한 정보를 추출하여 상기 자막에 포함된 단어별 또는 문장별 시작점과 끝점에 대한 정보와 매칭시켜 구조화한 후, 상기 구조화된결과를 임시저장소(121)에 저장한다(S402). 상기 S401 단계 및 상기 S402 단계는 동시에 이루어질 수 있다.

이후, 사용자 단말기(160)가 상기 웹서버(150)에 접속하여 멀티미디어 파일(예를 들어, 포토샵 강의 동영상)의제공을 요청하면(S403), 상기 웹서버(150)는 요청된 멀티미디어 파일 및 상기 멀티미디어 파일에 대응하는 자막을 스트리밍 방식으로 상기 사용자 단말기(160)로 제공한다. 이에 따라, 상기 사용자 단말기(160)는 재생화면표시부(310)를 통하여 상기 웹서버(150)로부터 제공받은 멀티미디어 파일을 재생하고, 또한 자막 표시부(320)를통하여 상기 멀티미디어 파일에 대응하는 자막을 표시할 수 있다(S404).

이후, 사용자가 사용자 단말기(160)의 입력부(163)를 이용하여 상기 자막 표시부(320)에 표시된 자막 중 추출하기를 원하는 부분을 마킹하고, 상기 마킹된 부분에 대한 저장을 요청하면(S405), 상기 웹서버(150)는 상기 임시저장부(120)에 저장된 자막 정보 및 재생시점 정보를 질의(query)하고 상기 원시파일 저장부(130)에 저장된 상기 멀티미디어 파일 중 상기 마킹된 부분에 대응하는 부분을 추출하여 부분 추출 파일을 생성한다(S406).

상기 웹서버(150)는 상기 생성된 부분 추출 파일에 상기 사용자 단말기(160)로부터 입력된 사용자 정보를 바이너리 형태로 암호화하여 기록함으로써 DRM(Digital Rights Management) 기능을 부여한다(S407). 본 발명에 따르면, 임의의 사용자에 의하여 멀티미디어 파일의 부분 추출 및 저장이 가능하기 때문에 상기 멀티미디어 파일에 대한 저작권 침해 문제가 발생할 수 있다. 따라서, 이러한 저작권 침해 문제를 사전에 방지할 수 있도록, 상기 부분 추출 파일에 사용자가 상기 웹서버(150)에 접속할 시 입력한 로그온 정보(예를 들어, 사용자의 이름, 주민등록번호, 및 부분 추출 파일 생성 일자 등)를 바이너리 형태로 암호화하여 사용자의 개인정보를 남기고 사용자에게 저작권 침해에 관한 경고를 주어 저작물의 불법유통을 미연에 방지할 수 있는 이점이 있다.

이어서, 상기 웹서버(150)는 상기 획득한 부분 추출 파일을 상기 사용자 단말기(160)로 전송한다(S408). 이때,상기 웹서버(150)는 상기 멀티미디어 파일로부터 음성만 추출하거나, 음성 및 동영상을 함께 추출하여 상기 사용자 단말기(160)로 전송할 수 있다. 또한, 상기 웹서버(150)는 상기 부분 추출 파일을 상기 임시 저장부(120)에 저장하여 향후 다양한 서비스에 활용할 수 있다.

그러면, 상기 사용자 단말기(160)는 상기 웹서버(150)로부터 다운로드한 부분 추출 파일을 내부의 저장부(166)에 저장한다(S409). 이에 따라, 사용자는 전체 동영상 중 자신이 원하는 부분만 선택하여 사용자 단말기(160)에저장한 후, 이를 반복 시청할 수 있게 된다.

도 5는 자막이 포함된 멀티미디어 파일의 부분 추출 과정을 설명하는 도면이다.

앞서 설명한 바와 같이, 상기 멀티미디어 파일에는 화자의 동작 또는 강의 자료 등을 촬영한 동영상뿐만 아니라, 상기 화자의 음성 전체를 텍스트 형태로 변환하거나 상기 화자의 강의 내용 일부를 텍스트 형태로 표현한 자막을 더 포함할 수 있다.

이와 같이, 서비스 제공자에 의하여 상기 멀티미디어 파일에 자막이 미리 포함되어 제공되는 경우에는, 상기 미리 포함된 자막 내의 단어의 배열순서에 대한 정보를 활용하여 음성인식 과정을 수행함으로써, 상기 음성 화일 내에 포함된 화자의 음성에 대응하는 각 단어 및 각 문장의 재생시점을 더욱더 정밀하게 획득할 수 있다. 즉, 상기 서비스 제공자에 의하여 제공되는 자막은 화자의 음성을 실질적으로 100% 반영하고 있기 때문에 더욱 정확하고 높은 완성도로서 부분 추출 파일의 추출을 가능하게 한다.

구체적으로, 자막추출부(110)는 자막 파일 및 음성 파일이 포함된 멀티미디어 파일을 입력받으며, 상기 멀티미디어 파일로부터 자막 파일을 분리하여 임시 저장부(120)에 저장한다. 또한, 상기 자막추출부(110)는 상기 음성파일을 음성인식하여 상기 음성파일에 포함된 화자의 음성을 텍스트 데이터로 변환하여 자막을 형성하여 임시 저장부(120)에 저장한다(S501).

아울러, 자막추출부(110)는 상기 화자의 음성으로부터 단어별 또는 문장별 시작점과 끝점에 대한 정보를 추출하여 상기 자막에 포함된 단어별 또는 문장별 시작점과 끝점에 대한 정보와 매칭시켜 구조화한 후, 상기 구조화된결과를 임시저장소(121)에 저장한다(S502). 이때, 상기 자막추출부(110)는 상기 미리 포함된 자막 내에 배열된단어들의 배열순서에 대한 정보로부터 상기 음성 파일 중 특정 단어 또는 특정 문장이 재생되는 시점을 예측할수 있다. 따라서, 상기 자막추출부(110)는 상기 미리 포함된 자막 내의 단어의 배열순서에 대한 정보를 활용하여 음성인식 과정을 수행함으로써, 상기 음성 화일 내에 포함된 화자의 음성에 대응하는 각 단어 및 각 문장의재생시점을 더욱더 정밀하게 획득할 수 있다.

이하, 단계(S503) 내지 단계(S509)는 각각 상기 도 4에 관한 설명 중 단계(S403) 내지 단계(S409)와 동일하므로, 중복되는 설명은 생략한다.

도 6은 본 발명에 따른 부분 추출 파일을 이용목적 및 출력기기에 따라 편집하여 제공하는 과정을 설명하는 도면이다.

본 발명에 따라 특정 사용자에 의하여 멀티미디어 파일로부터 추출된 부분 추출 파일은 다음과 같이 편집과정을거쳐 웹서버(150)를 통하여 다수의 사용자에게 다양한 용도로 활용될 수 있다.

먼저, 특정 사용자에 의하여 추출된 부분 추출 파일은 임시 저장부(120)에 저장된다(S601). 이에 따라, 상기 임시 저장부(120)에는 다수의 사용자에 의하여 추출된 다수의 부분 추출 파일이 저장될 수 있다.

그러면, 컨텐츠 편집자는 상기 임시 저장부(120)에 저장된 다수의 부분 추출 파일을 이용고객의 용도별, 및 출력기기(즉, 사용자 단말기(160))의 종류에 따른 출력형태에 맞추어 편집한다(S602). 상기 이용 고객의 용도란, 이용 고객은 상기 부분 추출 파일을 회사의 직무 교육, 어학 교육, 입시 교육, 자격증 강의, 고시 공부 등의 용도로 사용할 수 있다. 또한, 상기 이용 고객이 사용하는 출력기기는 개인용 컴퓨터(PC)뿐만 아니라, 노트북 컴퓨터, 휴대폰, 스마트 폰, MP3 플레이어, PDA, PMP 등과 같은 휴대용 단말기로 이루어질 수 있다. 따라서, 본 발명에서는 상기 부분 추출 파일을 이용 고객의 사용 용도 및 출력 기기의 종류에 따라 사용자 단말기(160)에 적절하게 표시될 수 있도록 분류 및 편집한다.

이 본 발명이 쓰이는 하나의 예에서 도면 4의 402(출력형태와 화면편집)에서는 특허등록기술 10-0376314호를 활용(501)하면 더욱더 편리함을 제공하게 되는데 이는 좌측화면에서는 부분 추출된 정보 또는 데이터의 출력화면구성과 가공편집 창(502)으로, 우측화면에는 출력형태에 따른 편집사양과 기준(503)을 동시에 보면서 출력물을 설계, 개발하면 제작 시간과 노력을 크게 절약할 수 있다.

예를 들어, 도 7에는 상기 부분 추출 파일을 편집하기 위한 웹서버(150)의 화면 구성의 일 예를 도시하고 있다.컨텐츠 편집자는 상기 웹서버(150)를 통하여 상기 부분 추출 파일을 편집할 수 있다.

도 7을 참조하면, 상기 웹서버(150)를 통하여 제공되는 편집 화면(501)은 좌측에 부분 추출 파일에 대한 편집 도구가 표시되는 부분 추출파일 편집부(502)가 형성된다. 상기 부분 추출 파일 편집부(502)에는 강의 주제, 동영상 저장 경로 등의 상기부분 추출 파일에 대한 정보가 표시되며, 상기 부분 추출 파일에 대한 이미지 변경, 이미지 추가 등 다양한 편집 도구가 표시된다. 그리고, 상기 편집화면(501)의 우측에 상기 부분 추출 파일을 이용 고객의 용도별 및 출력기기의 출력 형태에 따른 편집 사양을 안내하는 편집 사양 설계지침 표시부(503)가 형성된다. 또한, 상기 부분추출 파일 편집부(502)와 상기 편집 사양 설계지침 표시부(503)는 상기 편집 화면(501) 내에서 서로 겹치지 않도록 형성한다.

즉, 상기 웹서버(150)는 상기 편집화면(501)의 전체 화면 크기를 인식하고, 상기 부분 추출 파일 편집부(502)와 상기 편집 사양 설계지침 표시부(503)가 서로 겹치지 않은 상태에서 전체 화면에 분할되도록 상기 부분추출파일 편집부(502)와 상기 편집사양 설계지침 표시부(503)의 크기를 자동정렬하여 상기 편집화면(501)에 표시되도록 한다. 상기 부분 추출 파일 편집부(502)와 상기 편집 사양 설계지침 표시부(503)가 상기 편집화면(501) 상에 표시되는 위치 및 크기를 정렬하는 과정을 설명하면, 예를 들어, 상기 편집화면(501)에 의해 형성되는 전체화면의 크기는 윈도우 95 운영체제부터 널리 사용되는 WIN32 API인 윈도우 함수[GetDesktopWindow()]를 통해 바탕화면의 윈도우 핸들값을 취해 윈도우 크기를 윈도우 함수[GetWindowRect()]를 이용하여 알아낸다. 이후, 상기 편집화면(501)에 임의적으로 표시되는 시작표시줄 등의 윈도우 핸들을 알아내고, 이에 따라 윈도우(즉, 부분 추출 파일 편집부(502) 및 편집 사양 설계지침 표시부(503))의 위치 및 크기를 결정할 수 있게 된다. 여기서, 상기 부분 추출 파일 편집부(502)와 상기 편집 사양 설계지침 표시부(503)의 위치 및 크기는 변화될 수 있다.

이에 따라, 컨텐츠 편집자는 우측의 편집 사양 설계지침 표시부(503)에 표시된 편집 사양 안내 정보를 보면서상기 편집 사양 안내 정보의 안내 순서에 따라 좌측의 부분 추출 파일 편집 영역(502)의 각종 편집 도구를 이용하여 상기 부분 추출 파일을 용이하게 편집할 수 있고, 이로 인하여 편집 시간과 노력을 크게 절약할 수 있다.

이어서, 상기 컨텐츠 편집자는 상기 편집 화면(501)을 통하여 상기 부분 추출 파일에 출력기기별 색인기능을 부여할 수 있다(S603). 이와 같이, 색인 기능이 부여되고 편집된 부분 추출 파일은 임시 저장부(120)에 저장된다.

이후, 사용자는 다양한 종류의 사용자 단말기(160)를 이용하여 상기 웹서버(150)에 접속한 후 웹페이지의 검색창(미도시)에 검색어를 이용하여 자신이 원하는 부분 추출 파일을 찾은 후 전송을 요청할 수 있다. 그러면, 상기 웹서버(150)는 상기 임시 저장부(120)로부터 상기 사용자 단말기(160)로부터 요청된 부분 추출 파일을 상기 사용자 단말기(160)로 전송한다(S604).

본 발명에 따라 멀티미디어 파일을 부분 추출하는 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수있는 코드로서 구현할 수 있다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CDROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있으며, 또한 인터넷을 통한 전송과 같이 캐리어 웨이브의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다.

본 발명의 기술사상은 상기 바람직한 실시 예에 따라 구체적으로 기술되었으나, 상기한 실시 예는 그 설명을 위한 것이며, 그 제한을 위한 것이 아님을 주의하여야 한다. 또한, 본 발명의 기술분야의 통상의 전문가라면 본 발명의 기술사상의 범위에서 다양한 실시 예가 가능함을 이해할 수 있을 것이다.

110: 자막추출부
111: 음성정보 데이터베이스(DB)
120: 임시 저장부
130: 원시파일 저장부
140: 미디어 처리 서버
150: 웹서버
160: 사용자 단말기

Claims

화자의 음성을 포함하는 멀티미디어 파일에서, 상기 화자의 음성을 인식하여 상기 화자의 음성에 대응하는 전체 자막을 생성하고, 상기 전체 자막에 포함된 각 단어 및 각 문장의 재생 시점에 대한 정보를 상기 화자의 음성과 매칭시켜 임시 저장부에 저장하는 제1 단계;
상기 멀티미디어 파일 및 상기 전체 자막의 적어도 일부를 인터넷을 통하여 사용자 단말기로 전송하는 제2 단계; 및
상기 사용자 단말기로부터 상기 전체 자막 중 하나 이상의 추출 부분을 마킹하여 전송해줄 것을 요청받은 경우, 상기 멀티미디어 파일 중 상기 마킹된 추출 부분에 대응하는 부분 추출 파일을 추출하여 상기 사용자 단말기로 전송하는 제3 단계를 포함하는 것을 특징으로 하는 멀티미디어 파일에서 원하는 부분만 쉽고 빠르게 정확히 추출하여 s,e,u-러닝컨텐츠 만드는 방법.
제1항에 있어서,
상기 멀티미디어 파일은 자막 파일을 더 포함하며,
상기 제1 단계는, 상기 자막 파일 내에 배열된 단어들의 배열순서에 대한 정보로부터 상기 음성 파일 중 특정 단어의 재생 시점을 예측하는 것을 특징으로 하는 멀티미디어 파일에서 원하는 부분만 쉽고 빠르게 정확히 추출하여 s,e,u-러닝컨텐츠 만드는 방법.
제1항에 있어서,
상기 추출된 부분 추출 파일에 상기 사용자 단말기로부터 입력된 사용자 정보를 바이너리 형태로 암호화하여 기록하는 단계를 더 포함하는 것을 특징으로 하는 멀티미디어 파일에서 원하는 부분만 쉽고 빠르게 정확히 추출하여 s,e,u-러닝컨텐츠 만드는 방법.
제1항에 있어서,
상기 추출된 부분 추출 파일을 상기 임시 저장부에 저장하는 단계;
상기 부분 추출 파일을 이용 고객의 용도 및 출력기기의 종류에 따른 출력 형태 중 적어도 하나에 따라 편집하는 단계; 및
상기 편집된 부분 추출 파일을 상기 임시 저장부에 저장하는 단계를 더 포함하는 것을 특징으로 하는 멀티미디어 파일에서 원하는 부분만 쉽고 빠르게 정확히 추출하여 s,e,u-러닝컨텐츠 만드는 방법.
화자의 음성을 포함하는 멀티미디어 파일에서, 상기 화자의 음성을 인식하여 상기 화자의 음성에 대응하는 전체자막을 생성하고, 상기 전체 자막에 포함된 각 단어 및 각 문장의 재생 시점에 대한 정보를 상기 화자의 음성과 매칭시키는 자막추출부;
상기 전체 자막 및 상기 전체 자막에 포함된 각 단어 및 각 문장의 재생 시점에 대한 정보를 저장하는 임시 저장부; 및상기 멀티미디어 파일 및 상기 전체 자막의 적어도 일부를 인터넷을 통하여 사용자 단말기로 전송하고, 상기 사용자 단말기로부터 상기 전체 자막 중 하나 이상의 추출 부분을 마킹하여 전송해줄 것을 요청받은 경우, 상기멀티미디어 파일 중 상기 마킹된 추출 부분에 대응하는 부분 추출 파일을 추출하여 상기 사용자 단말기로 전송하는 웹서버를 포함하는 것을 특징으로 하는 멀티미디어 파일에서 원하는 부분만 쉽고 빠르게 정확히 추출하여 s,e,u-러닝 컨텐츠 만드는 장치.
제5항에 있어서,
상기 멀티미디어 파일은 자막 파일을 더 포함하며,상기 자막추출부는, 상기 자막 파일 내에 배열된 단어들의 배열순서에 대한 정보로부터 상기 음성 파일 중 특정단어의 재생 시점을 예측하는 것을 특징으로 하는 멀티미디어 파일에서 원하는 부분만 쉽고 빠르게 정확히 추출하여 s,e,u-러닝 컨텐츠 만드는 장치.
제5항에 있어서,
상기 웹서버는, 상기 추출된 부분 추출 파일에 상기 사용자 단말기로부터 입력된 사용자 정보를 바이너리 형태로 암호화하여 기록하는 것을 특징으로 하는 멀티미디어 파일에서 원하는 부분만 쉽고 빠르게 정확히 추출하여 s,e,u-러닝 컨텐츠 만드는 장치.
제5항에 있어서,
상기 웹서버는, 상기 추출된 부분 추출 파일을 상기 임시 저장부에 저장하고, 상기 부분 추출 파일을 이용고객의 용도, 출력매체에 따른 출력형태 중 적어도 하나에 따라 편집하기 위한 편집화면을 제공하는 것을 특징으로 하는 멀티미디어 파일에서 원하는 부분만 쉽고 빠르게 정확히 추출하여 s,e,u-러닝 컨텐츠 만드는 장치.
멀티미디어 파일이 재생되는 재생화면 표시부와, 상기 멀티미디어 파일에 포함된 화자의 음성에 대응하는 자막이 표시되는 자막 표시부를 포함하는 디스플레이부;
사용자로부터 상기 자막 표시부에 포함된 자막 중 하나 이상의 추출 부분을 선택하기 위한 입력신호가 입력되는 입력부; 및
상기 입력부로부터 입력된 입력신호에 따라 상기 자막 중 상기 하나 이상의 추출 부분을 마킹한 후, 상기 멀티미디어 파일 중 상기 마킹된 추출 부분에 대응하는 부분 추출 파일을 저장부에 저장하는 제어부를 포함하는 것을 특징으로 하는 사용자 단말기.
제9항에 있어서,
상기 재생화면 표시부는, 상기 재생화면 표시부에 의해 재생되고 있는 멀티미디어 파일의 전체 재생 분량을 표시하는 재생바 및 상기 전체 재생 분량 중 현재 재생되고 있는 시점을 나타내는 재생 위치 표시기를 포함하고,
상기 자막 표시부는 상기 멀티미디어 파일로부터 추출된 전체 자막의 분량을 표시하는 스크롤바 및 상기 자막표시부에 현재 표시된 단위 자막의 상대적인 위치를 표시하기 위한 스크롤 박스를 포함하며,
상기 스크롤 박스의 위치가 이동함에 따라 상기 재생 위치 표시기의 위치가 변경되는 것을 특징으로 하는 사용자 단말기.
제9항에 있어서,
인터넷을 통하여 웹서버로부터 상기 멀티미디어 파일 및 상기 부분 추출 파일을 수신하는 통신부를 더 포함하고,
상기 제어부는 상기 멀티미디어 파일 중 상기 마킹된 추출 부분에 해당하는 부분 추출 파일을 상기 웹서버로부터 수신하여 상기 저장부에 저장되도록 제어하는 것을 특징으로 하는 사용자 단말기.