KR20190142761A - 멀티미디어 핵심추출로 새로운 콘텐츠 만들기 - Google Patents

멀티미디어 핵심추출로 새로운 콘텐츠 만들기 Download PDF

Info

Publication number
KR20190142761A
KR20190142761A KR1020190168105A KR20190168105A KR20190142761A KR 20190142761 A KR20190142761 A KR 20190142761A KR 1020190168105 A KR1020190168105 A KR 1020190168105A KR 20190168105 A KR20190168105 A KR 20190168105A KR 20190142761 A KR20190142761 A KR 20190142761A
Authority
KR
South Korea
Prior art keywords
file
voice
technology
user
caption
Prior art date
Application number
KR1020190168105A
Other languages
English (en)
Inventor
박청정
Original Assignee
박청정
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 박청정 filed Critical 박청정
Priority to KR1020190168105A priority Critical patent/KR20190142761A/ko
Publication of KR20190142761A publication Critical patent/KR20190142761A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47205End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8166Monomedia components thereof involving executable data, e.g. software
    • H04N21/8173End-user applications, e.g. Web browser, game

Abstract

본 발명은 기존 멀티미디어 파일에서 사용자가 원하는 특정 부분을 쉽고 빠르
게 정확히 추출저장했다가.. 사용자가 원하는 새Idea를 추가하여 s,e,u러닝컨텐츠 나 NewMidea를 만들어서.. 사용자가 원하는 다양한 분야에 활용할 수 있게하는
IT응용기술 서비스개발에 커다란 잠재가치가 있습니다.
현재의 지구촌은 다양한 분야의 양극화(빈부,국가,기술,.)가 공존하나 그틀을 깨 는 기회도 공존합니다. 가까워지는 인류기술 생활문화에서 본 발명배경기술의 6개(동 영상시청, 뉴스화면, 세미나토론, 장단편영화, eBook음성, 폴더블폰)분야에서 생기는 문제점 개선점을 위하여 기술대중화 차원에서의 일꺼리창출 및 관련기술응용 간접지 원에 공헌하고 싶은 서비스개발입니다.
본 발명인 분할출원은 원출원 범위내에서 청구항 11개를 1개로 축소하고 원출
원때 과제해결수단으로 거론했던 體化點(체화점)활용을 명확하게 소명하는 차원
으로 매듭을 지우면서, 단 하나 멀티미디어 파일절체 부문에서 아날로기술을 100% 디지털로 치환을 해야 된다는 것을 기술응용적합성을 강조하다가 보니까
10년전 특허출원 내용을 지금의 혁신기술로 포장하려는 의도로 오해의 소지가 없었으면 좋겠습니다.
분명한 것은 4차산업혁명이라는 용어는 2016년 1월 스위스 다보스에서 개최된
세계경제포럼에서 등장하여 전 세계에서 본격적으로 논의 되었고, 아날로그와
디디털기술은 컴퓨터기술과 정보통신 인터넷기술이 보급될 때 동시에 출현되었
을 것으로 추정하고 있습니다.

Description

멀티미디어 핵심추출로 새로운 콘텐츠 만들기{The creating of anew content by the extracting multimedia core}
이미 제작된 컨텐츠(멀티미디어파일 등)에서 제작자가 원하는 핵심만 색출 저장하고 활용고객의 창의성을 더하여 새운 s_e_u컨텐츠를 제작편집하여 인터넷과 웹 eBiz분야 기술생활문화에 서비스하는 IT응용기술 활성화분야
일반적으로, 멀티미디어 영상제작과 편집기술에서 (MS)사 윈도우미디어 플레이어(Window Media Player) 또는 매크로미디어(Macromedia)사의 플래시 플레이어(Flash Player)는 아날로그형 기술기반임으로 한때 전세계 제작편집의 최고의 기술과 우수제품이였지만, 아래처럼 3부문에서 사용자욕구불만이 도출되었다. 첫째 파일편집 위치지정 불분명과, 두째 재생위치 앞뒤이동 신속 정확성 없이 개략적 위치지정, 세째 특히, e러닝동영상 요점반복시청과 다운 방법이 없거나 불편해서 강의시청 활용욕구가 저하되는 원인이기도 하다.
위 3문제는 전산업 기술동향에서 아날로그와 디지털기술 변형 변곡점에 관한 문제로 원출원서에 개선대(안)출원했었으나 특허등록에 실패했다. 그 실패는 원출원서 불명확성 때문이기도 하여 분할출원을 하기로했다. 그후 한국정보화진흥원의 (스마트폰 대중화시대) 분류에서 2010년을 디지털 응용 기술 폭발기로 정의한(출처:-한국정보화진흥원(2018) Future IT & Strategy 그림2 정보화시대주요 변곡점과 발전단계)라는 자료참조 및 김종식 박민재 공학박사 공저 디지털트랜스포메이션 전략 책자84,85폐지 디지털기반기술과 응용기술가치 참조자료).
가. 6개분야 일꺼리창출에 아날로그와 디지털기술 변곡점상의 기술치환문제.
(1)동영상강의 시청후에 온라인Q&A, 요점추출저장 재생컨텐츠 만들어쓰기.
(2)각종 뉴스화면제작과 업계동향 및 제작전달자 코멘트(가짜뉴스문제)용,
(3)Issue(주제토론,세미나포럼)에서 화자별 주의주장,여론종합,주제별색인.
(4)장단편영화(드라마)제작편집, 감독, PD의 시안평가후 재작업 개선(안).
(5)활자화 음성녹화 된 eBook잠재가치 개선(안), 전세계 NW, One도서관.
(6)스마트폰은 손안의 촬영기/음성녹화 기능활용, 이동형 촬영실 및 증빙.
나. 위(1)~(6)항 일꺼리창출에서 만들어진 멀티미디어파일의 사용자가 핵심 만 쉽고 빠르게 정확히 색출후 새로운 s,e,u컨텐츠제작하는 방법안내 .
위 발명배경기술에서 발생하는 3가지 문제해결의 공통과제는 기술파급효과
와 기술의존도가 대단히 높아 혁신기술로 공동대처해야 경제효율성이 있음.
그 기술은 업무특성상 오래된 아나로그기술을 디지털로 치환하는 것입니다.
본 발명은 이미 만들어진 멀티미디어 파일에서 원하는 절체위치를 결정할
때 위치의 명칭을 體化點(체화점)이라고 명하고 동영상강의나 뉴스파일에서
화자음성으로부터 순차적인 시각에 의해 최초로 매기는 MatchingPoint(체화점)
를 原體化點(원체화점), 시작위치를 始體化點(시체화점), 종료위치를 終體化
點(종체화점)이라고 명하며, 또 고객이 원하는 한 어절이나 문장앞뒤(from
A to B형)복제를 원할때 매기는 처음과 마지막을 A始體化點(A시체화점)과
B終體化點(B종체화점)이라고 명하여 쓴다
상기 목적을 달성하기 위한 본 발명의 하나의 실시예에 따르면 위 6개
(동영상강의, 각종뉴스.. )분야에서 이미 만들어진 파일의 절체점지정 수단
과 방법은 위와 같으나 어떤 경우(예, 요점작성, 단어와 문장복사) 등이 겹
친 시작점위치라면 하나의 體化點(체화점)이 개념상 3개體化點(체화점)이
겹치게 되고, 멀티미디어명 당 순차적인 호출연번호(체화점의 Renaming)
까지를 고려하면 3개이상의 복수개가 매겨질수 있는데, 이 때 어느 경우
이던간에 모든 체화점의 절체호출기능은 한곳이 되며, 호출대응은 사용
고객이 원하는 곳이 된다. 이 때의 체화점 호출기능속성은 위 해결하고저
하는 과제가.항에서 기술한 아날로그가 아닌 디지털 10진법이나 2진법수치
로 매기는 것을 특징으로 하는 제1단계와,
연이어 본과제 해결 제1단계 작업의 구체화 방안에서 모든 멀티미디어
재생파일 구성속성을 문자계(문자, 단어, 문장) 소리계(화자음성, 잡음,
묵음) 이미지계(아날로형에서 동영상, 정지영상,무용지물)등 3개분야 전
항목을 디지털 숫치정보로 100% 치환(아날로그에서 디지털숫치형으로)개선
하여 위 6개일꺼리창출에 간접지원요인이 되는 IT응용기술 활성화에 크게
기여하게 되는 것을 특징으로 하는 제2단계를 포함하고
최종적으로 본 발명의 해결의 종료단계로 위 제1,2단계(호출기능작업완
료)작업이 완성됐음으로 다음은 사용자가 사용자단말에 제시된 자막에서 원
하는 부분만을 발췌(2Wins 웹Guider plat-form)하는 고객 편의성 SW솔루
션을 활용하는 것을 특징으로 하는 제3단계를 포함하는 것이다.
본 발명 발명배경기술의 6개(동영상시청, 뉴스화면, 세미나토론, 장단편영화, eBook음성, 폴더블폰)분야 일꺼리창출 및 기술응용에서 본 서비스 개발유통상에 업무주요도가 대단히 높은 파일발췌기술을 아날로그에서 디지털기술로 바꿔어서 경제적인 효율성을 놉히게 된다. 또한 본 발명에 따르면 사용자 단말기에 동영상과 같은 멀티미디어 파일을 제공함과 동시에 상기 동영상에 포함된 화자의 음성을 자막으로 변환하여 제공하고, 사용자는 상기 자막을 이용하여 상기 동영상 중 원하는 핵심부 을 마킹하여 쉽고 빠르면서도 정확하게 색출할 수 있다. 이에 따라, 사용자는 전체 동영상중 자신이 필요한 부분만 선택하여 사용자 단말기에 저장한후 이
반복학습이나 요점정리를 잘 할 수 있는 이점이 있다. 또한, 본 발명으로 상기 부분추출파일에 사용자개인정보를 바이너리로
암호화로 사용자의 저작권침해경고를 하는 DRM(Digital Rights Management
기능구현을 함으로써, 저작물 불법유통을 미연방지의 이점이 있다. 또한, 본 발명에 따르면, 추출된 부분 추출 파일을 이용 고객의 용도별 및 출력기기의 출력형태에 따라 편집하고 색인기능을 부여함으로써, 다수의 사용자가 자신의 사용자 단말기를 이용하여 원하는 부분추출 파일을 용이하계
검색하여 다운로드받을 수 있는 이점이 있다.
나아가 본 발명에 따르면, 멀티미디어 파일 서비스 제공업자는,인터넷
으로 제공되는 이러닝(e-Learning) 컨텐츠에서 요점만을 추출하여 휴대용단말
기에 제공함으로써, 사용자는 휴대용 단말기를 이용하여 언제 어디서나 원하
는 컨텐츠의 요점만을 활용할 수 있는 유러닝(s,e,u-러닝 컨텐츠)기능을 제공
하여, 각종 영상 및 음원 서비스 업체 등에서 제공되는 뉴스, 영화, 음악,
드라마 등의 모든 영상 및 음성에서 원하는 부분만을 빠르게 시청할 수있는
이점이 있다.
도 1은 본 발명의 실시 예에 따른 멀티미디어 파일에서 원하는 부분만 쉽고
빠르게 정확히 추출하여 s,e,u-러닝 컨텐츠 만드는 장치의 구성도.
도 2는 본 발명에 따른 사용자 단말기의 세부 구성도.
도 3은 본 발명의 실시 예에 따른 사용자 단말기의 화면 구성을 설명하는 도면.
도 4는 본발명의 실시예에 따른 멀티미디어파일 부분추출과정을 설명하는 도면.
도 5는 자막이 포함된 멀티미디어 파일의 부분 추출 과정을 설명하는 도면이다.
도 6은 본 발명에 따른 부분추출 파일을 이용목적 및 출력기기에 따라 편집하여
제공하는 과정을 설명하는 도면이다.
도 7은 상기 부분 추출 파일을 편집하기 위한 웹서버의 화면 구성의 일 예를
나타내는 도면.
도 8은 본 발명자가 등록받은 특허등록기술(두개의 창 분할)을 적용하여
고객의 편의성을 증진시키는 것을 설명하는 도면.
도 1은 본 발명의 실시 예에 따른 멀티미디어 파일에서 원하는 부분만 쉽고 빠르게 정확히 추출하여 s,e,u-러닝 컨텐츠 만드는 장치의 구성도이다.
도 1을 참조하면, 본 발명에 따른 멀티미디어 파일에서 원하는 부분만 쉽고 빠르게 정확히 추출하여 s,e,u-러닝 컨텐츠 만드는 장치(100)는 막추출부(110), 음성정보 데이터베이스(DB)(111), 임시 저장부(120), 원시파일 저장부(130), 미디 어 처리 서버(140), 웹서버(150) 및 사용자 단말기(160)를 포함한다.
먼저, 본 발명에 따른 멀티미디어 파일은 1회 분량의 동영상 강의 또는 뉴스 등과 같이 일정 시간 동안 화자의음성에 의한 정보 전달을 위한 음성 파일을 포함한다. 또한 상기 멀티미디어 파일은 상기 화자의 동작 또는 강의 자료 등을 촬영한 동영상, 및 상기 화자의 음성 전체를 텍스트 형태로 변환하거나 상기 화자의 강의 내용 일부를 텍스트 형태로 표현한 자막을 더 포함할 수 있다.
자막추출부(110)는 음성 파일이 포함된 멀티미디어 파일을 입력받으며, 상기 음성파일을 음성인식하여 상기 음성파일에 포함된 화자의 음성을 텍스트 데이터로 변환하여 자막을 형성한다. 구체적으로, 자막추출부(110)는 상기 음성파일에서 배경음악 또는 잡음 등 사람의 음성이 아닌 소리를 제거하고 화자 독립형 연속음성인식을 수행한다. 이때 음성인식의 첫 단계로 이미 널리 알려진 Ribiner와 Samber가 제안한 음성신호의 프레임 에너지를 이용하여 음성이 존재하는 구간의 인식을 수행하는 방법(Rabiner and Sambur's Method) 또는 Teager 에너지를 이용하여 음성이 존재하는 구간의 인식을 수행하는 방법 등을 활용하여, 상기 음성 파일에 대하여 음성이 있는 음성 존재 구간을 검출하는 묵음 구간 검출단계(End Point Detection)를 수행함으로써, 상기 음성 파일을 음성 존재 구간과 묵음 구간으로 구분한다. 그리고, 상기 음성 파일 중 상기 찾아낸 음성 존재 구간에 해당하는 부분을 별개로 구분하여 놓고 음성 정보 데이터베이스(DB)(111), 즉 다양한 음성의 패턴이 기록되어 있는 라이브러리와 유사도를 비교함으로써 가장 가까운 음성을 찾아내어 음성인식을 수행하고, 상기 음성인식에 의하여 얻어진 정보로써 텍스트 데이터(즉, 자막)를 얻어내어 임시저장부(120)에 저장한다. 특히, 본 발명에 따르면 상기 음성인식 과정에 일부 오류가 발생하여 화자의 음성이 표현하는 내용을 정확히 자막으로 변경하지 못하더라도, 사용자에게는 적어도 화자의 음성에 대응하는 자막의 위치에 대한 정보가 제공될 수 있다. 이에 따라 음성인식 과정에서 설령 음성 인식률이 낮더라도 사용자는 상기 자막을 이용하여 상기 음성파일 중 원하는 위치 또는 부분을 용이하게 찾아 사용자 단말기(160)에 저장할 수 있게 된다.
더욱 상세히 설명하면, 일반적으로 음성의 패턴이 기록되어 있는 음성정보 데이터베이스(111)에 한국어, 또는영어와 같이 특정 언어별로 발생 가능한 모든 어휘가 포함되기란 현실적으로 불가능하며, 이로 인하여 모든 음성이 100% 인식될 수 없는 것이 기술적 한계이다. 지금까지의 기술에 따르면, 비교적 정확한 언어구사를 하는 앵커의 뉴스 음성은 90% 정도, 인터뷰의 경우 60% 정도 인식할 수 있는 것으로 알려져 있다. 그러나, 본 발명에 따르면, 원시파일인 멀티미디어 파일로부터 화자의 음성을 인식하여 자막을 획득한다. 그리고, 상기 멀티미디어 파일에 포함된 화자의 음성 중 일부 단어만 인식한다 하더라도, 상기 인식된 단어의 출현 순서로부터 각 문장이 시작되는 시간과 끝나는 시간, 그리고 각 단어가 시작되는 시간과 끝나는 시간에 대한 정보를 얻을 수 있다. 이와 같이, 얻어진 각 문장 및 각 단어의 시작시간 및 끝시간에 대한 정보를 상기 자막에 포함된 각 문장 및 단어와 매칭(matching)시켜 구조화한다. 예를 들어, 상기 멀티미디어 파일에 포함된 화자의 음성으로부터 "나는 밥을 먹으러 식당으로 갔습니다.”라는 문장을 인식할 때, 상기 자막추출부(110)가 음성정보 데이터베이스(111)를 이용하여 “밥”과 “식당”이라는 단어만 인식하고, “나는”, “먹으러”, “갔습니다”라는 단어는 정확히 인식하지 못하는 경우가 발생할 수 있다. 그러나, 설령 상기 "밥"과 "식당"이라는 단어의 주위에 위치한 “나는”, “먹으러”, “갔습니다”라는 단어를 정확히 인식하지 못하였더라도, 각 단어 사이의 묵음 구간은 검출할 수 있다. 따라서, 상기 묵음 구간에 대한 정보를 이용하여 전체 문장에 포함된 각 단어별로 시작시점과 끝 시점에 대한 정보를 얻을 수 있게 된다. 이와 같은 방식으로 화자의 음성으로부터 획득된 각 문장 및 각 단어의 시작시점 및 끝시점에 대한 정보와, 상기 자막에 포함된 각 문장 및 각 단어의 시작시점 및 끝시점에 대한 정보를 서로 비교함으로써, 상기 자막에 포함된 각 문장 및 각 단어에 대응하는 상기 멀티미디어 파일의 재생 위치를 매칭시켜 임시 저장부(120)에 저장한다.
더욱 상세히 설명하면, 일반적으로 음성의 패턴이 기록되어 있는 음성정보 데이터베이스(111)에 한국어, 또는영어와 같이 특정 언어별로 발생 가능한 모든 어휘가 포함되기란 현실적으로 불가능하며, 이로 인하여 모든 음성이 100% 인식될 수 없는 것이 기술적 한계이다. 지금까지의 기술에 따르면, 비교적 정확한 언어구사를 하는 앵커의 뉴스 음성은 90% 정도, 인터뷰의 경우 60% 정도 인식할 수 있는 것으로 알려져 있다. 그러나, 본 발명에 따르면, 원시파일인 멀티미디어 파일로부터 화자의 음성을 인식하여 자막을 획득한다. 그리고, 상기 멀티미디어 파일에 포함된 화자의 음성 중 일부 단어만 인식한다 하더라도, 상기 인식된 단어의 출현 순서로부터 각 문장이 시작되는 시간과 끝나는 시간, 그리고 각 단어가 시작되는 시간과 끝나는 시간에 대한 정보를 얻을 수 있다. 이와 같이, 얻어진 각 문장 및 각 단어의 시작시간 및 끝시간에 대한 정보를 상기 자막에 포함된 각 문장 및 단어와 매칭(matching)시켜 구조화한다. 예를 들어, 상기 멀티미디어 파일에 포함된 화자의 음성으로부터 "나는 밥을 먹으러 식당으로 갔습니다.”라는 문장을 인식할 때, 상기 자막추출부(110)가 음성정보 데이터베이스(111)를 이용하여 “밥”과 “식당”이라는 단어만 인식하고, “나는”, “먹으러”, “갔습니다”라는 단어는 정확히 인식하지 못하는 경우가 발생할 수 있다. 그러나, 설령 상기 "밥"과 "식당"이라는 단어의 주위에 위치한 “나는”, “먹으러”, “갔습니다”라는 단어를 정확히 인식하지 못하였더라도, 각 단어 사이의 묵음 구간은 검출할 수 있다. 따라서, 상기 묵음 구간에 대한 정보를 이용하여 전체 문장에 포함된 각 단어별로 시작시점과 끝 시점에 대한 정보를 얻을 수 있게 된다. 이와 같은 방식으로 화자의 음성으로부터 획득된 각 문장 및 각 단어의 시작시점 및 끝시점에 대한 정보와, 상기 자막에 포함된 각 문장 및 각 단어의 시작시점 및 끝시점에 대한 정보를 서로 비교함으로써, 상기 자막에 포함된 각 문장 및 각 단어에 대응하는 상기 멀티미디어 파일의 재생 위치를 매칭시켜 임시 저장부(120)에 저장한다.
이에 따라, 상기 멀티미디어 파일로부터 추출되는 부분 추출 파일의 추출 위치는 상기 자막에 포함된 각 단어 및 문장의 위치에 대응하는 상기 멀티미디어 파일의 재생 위치에 의해서 결정될 수 있다. 상기 멀티미디어 파일로부터 상기 부분 추출 파일의 추출이 시작되는 시작위치는 시체화점(始體化點), 추출이 종료되는 종료위치는 종체화점(終體化點)이라고 정의될 수 있다. 여기서 체화점(體化點)이란 상기 자막과 상기 멀티미디어 파일에 포함된 이미지 및 음성이 응결된 위치를 말한다. 상기 시체화점 및 종체화점은 시간정보로 표현되나, 상기 멀티미디어 파일에 포함된 동영상의 각 프레임 위치와 같이 상기 멀티미디어 파일 내의 특정 위치를 식별할 수 있다면 어떠한 정보도 모두 상기 시체화점 및 종체화점을 결정하는데 이용될 수 있다.
임시 저장부(120)는 상기 자막 추출부(110)에 의해 획득된 전체 자막 및 상기 전체 자막에 포함된 각 단어 및 각 문장의 재생 시점에 대한 정보를 저장한다. 아울러, 상기 임시 저장부(120)는 상기 전체 자막 중 사용자 단말기(160)에 의해 선택된 부분 추출 자막 및 상기 멀티미디어 파일 중 상기 사용자 단말기(160)에 의해 추출된 부분 추출 파일을 저장할 수 있다.
임시 저장부(120)는 상기 자막 추출부(110)에 의해 획득된 전체 자막 및 상기 전체 자막에 포함된 각 단어 및 각 문장의 재생 시점에 대한 정보를 저장한다. 아울러, 상기 임시 저장부(120)는 상기 전체 자막 중 사용자 단말기(160)에 의해 선택된 부분 추출 자막 및 상기 멀티미디어 파일 중 상기 사용자 단말기(160)에 의해 추출된 부분 추출 파일을 저장할 수 있다.
원시파일 저장부(130)는 상기 자막추출부(110)에 입력된 멀티미디어 파일을 저장한다. 상기 멀티미디어 파일은 음성인식이 이루어지기 전의 원시파일에 해당한다.
*상기 미디어 처리 서버(140)는 상기 원시파일 저장부(130)에 저장된 멀티미디어 파일을 웹서버(150)를 통하여사용자 단말기(160)에 스트리밍(streaming) 방식으로 제공하는 기능을 한다.
웹서버(150)는 다양한 웹 어플리케이션을 탑재하며 웹 사이트를 운영하고, 유선 또는 무선 인터넷(170)을 통하여 사용자 단말기(160)로 상기 멀티미디어 파일, 및 자막을 제공한다. 또한, 상기 웹서버(150)는 상기 사용자 단말기(160)로부터 상기 전체 자막 중 하나 이상의 추출 부분을 마킹하여 전송해줄 것을 요청받은 경우, 상기 원시파일 저장부(130)에 저장된 상기 멀티미디어 파일로부터 상기 마킹된 추출 부분에 대응하는 부분 추출 파일을 추출하여 상기 사용자 단말기(160)로 전송한다.
상기 자막추출부(110), 임시 저장부(120), 원시파일 저장부(130), 미디어 처리 서버(140), 및 웹서버(150)는 하나의 서버 내에 형성될 수 있다. 그러나, 상기 자막추출부(110)에서의 음성인식 과정은 매우 오랜 연산 시간이 소요되므로, 상기 웹서버(150)에 큰 부담으로 작용하여 상기 웹서버(150)가 원활한 웹서비스를 제공하는데 방해가 될 수 있다. 또한, 상기 음성인식과정은 하나의 멀티미디어 파일에 대하여 단 1회만 수행하면 된다. 반면, 이렇게 음성인식에 의해 얻어진 자막은 사용자 단말기(160)의 요구에 따라 웹서버(150)를 통하여 수 회 반복하여 활용될 수 있다. 따라서, 상기 자막추출부(110)는, 상기 임시 저장부(120), 원시파일 저장부(130), 미디어처리 서버(140), 및 웹서버(150)와는 물리적으로 구별되는, 별도의 독립적인 서버로 구성되는 것이 바람직하다.
이 단계에서 기술의 활용성 및 편의성을 증진하기 위하여, 이제 사용자가 원하는 위치를 빠르게 찾는 것을 도와주기 위한 재생화면, 자막화면 동기화단계에서는 두 개의 창분할 기술(201)(본 발명자의 등록특허기술)을 사용하면(도 8 참조) 더욱 효과적으로 구현할 수도 있는데 210 창과 220 창이 겹치지 않게 하여 작업하는 것으로, 재생화면(210)에서 영상재생시점을 사용자가 변경하기 위해 재생바(211)를 드래그 또는 마우스 오버(마우스를 재생바위에 올리는 동작)하면 자막화면(220)에서 스크롤바(221)이 자동으로 움직이면서 해당되는 자막위치로 자동 이동시키는 기능이 작동된다. 이때 그 역으로 자막화면(220)에서 특정위치의 자막을 클릭하거나, 스크롤바(221)를 사용하여 현재 보는 자막의 위치를 변경하면 재생화면(210)에서 동영상 재생위치가 이동되어 재생바(211)의 표시 위치도 자동으로 변경되는 기능이 작동된다. 사용자가 추출을 원하는 시점을 찾은 경우 사용자가 자막화면(220)에서 마우스 드래그 또는 문장 클릭 등 이와 유사한 동작을 통하여 추출대상을 마킹하는 단계(105)를 통하여 추출될 부분을 지정할 수 있다. 이때 추출되는영역은 문장 전체 또는 문장 중간도 될 수 있고 추출범위 또한 1개 영역 또는 복수영역을 지정할 수 있다. 마킹이 끝나고 사용자는 밑줄 부분 저장버튼(222)을 클릭한다.
용자 단말기(160)는 개인용 컴퓨터(PC) 또는 휴대용 단말기로 이루어지며, 상기 유선 또는 무선 인터넷(170)을 통하여 상기 웹서버(150)로부터 멀티미디어 파일 및 상기 생성된 자막을 제공받는다. 또한, 사용자는 상기사용자 단말기(160)에 구비된 키보드(key board), 마우스(mouse), 키 패드(key pad), 터치 패드(정압/정전) 등의 입력부(미도시)를 이용하여 상기 자막 중 원하는 하나 또는 둘 이상의 추출 부분을 마킹(marking)하고, 상기마킹된 추출 부분에 대한 정보를 상기 웹서버(150)로 제공함으로써, 상기 웹서버(150)로부터 상기 멀티미디어파일 중 상기 마킹된 추출 부분에 대응하는 부분 추출 파일을 제공받을 수 있다. 이와 같이, 사용자는 멀티미디어 파일에서 자신이 원하는 부분만을 추출한 부분 추출 파일을 제공받을 수 있고, 상기 부분 추출 파일은 상기사용자 단말기(160)를 이용하여 언제 어디서나 자유롭게 활용할 수 있다는 점에서 S,E,U-러닝컨텐츠(UibiquitousContents)로서 기능을 한다.
도 2는 본 발명에 따른 사용자 단말기의 세부 구성도이다.
도 2를 참조하면, 본 발명에 따른 사용자 단말기(160)는 유선 인터넷에 연결된 개인용 컴퓨터(PC) 또는 무선 인터넷에 연결된 노트북 컴퓨터(notebook computer), 휴대폰, 스마트 폰(smart phone), PDA(Personal Digital Assistants), PMP(Portable Multimedia Player) 등과 같은 휴대용 단말기로 이루어질 수 있다.
구체적으로, 상기 사용자 단말기(160)는 통신부(161), 멀티미디어 파일 재생부(162), 입력부(163), 디스플레이부(164), 스피커(165), 저장부(166), 및 제어부(167)를 포함한다.
통신부(161)는 유선 또는 무선으로 상기 인터넷(170)에 접속하기 위한 모듈을 말하는 것으로, 상기 통신부(161)는 내장되거나 외장될 수 있다.
멀티미디어 파일 재생부(162)는 멀티미디어 파일 및 본 발명에 따라 추출된 부분 추출 파일을 재생한다. 상기멀티미디어 파일 재생부(162)는 제어부(167) 내에 하드웨어로 구성될 수도 있고, 제어부(167)와 별도의 소프트웨어로 구성될 수도 있다.
입력부(163)는 사용자가 사용자 단말기(160)의 동작 제어를 위하여 입력하는 입력 신호를 발생시킨다. 입력부(163)는 키보드(key board), 마우스(mouse), 키 패드(key pad), 터치 패드(정압/정전) 등으로 구성될 수 있다.
특히, 터치 패드가 후술하는 디스플레이부(164)와 상호 레이어 구조를 이룰 경우, 이를 터치 스크린이라 부를 수 있다.
디스플레이부(164)는 통신부(161)를 통해 수신되거나 저장부(166)에 저장된멀티미디어 파일 및 전체 자막을 디스플레이하거나, 추출된 부분 추출 파일 및 부분 자막을 디스플레이한다. 또한, 상기 디스플레이부(164)는 사용자 단말기(160)에서 처리되는 정보를 디스플레이하거나, 사용자로부터 입력 명령을 수신하기 위한 UI(User Interface) 또는 GUI(Graphic User Interface)를 디스플레이한다.
스피커(165)는 통신부(161)를 통해 수신되거나 저장부(166)에 저장된 멀티미디어 파일의 음성 파일 또는 부분추출된 음성 파일을 음성으로 변환하여 출력한다.
저장부(166)는 제어부(167)의 처리 및 제어를 위한 프로그램이 저장될 수 있고, 상기 통신부(161)를 통해 수신되는 멀티미디어 파일, 자막 및 부분 추출 파일을 저장할 수 있다. 또한, 상기 사용자 단말기(160)는 인터넷(170) 상에서 저장부(166)의 저장 기능을 수행하는 웹 스토리지(web storage)를 운영할 수도 있다.
그리고 제어부(167)는 통상적으로 사용자 단말기(160)의 전반적인 동작을 제어한다. 예를 들어, 상기 제어부(167)는 상기 멀티미디어 파일의 재생 및 부분 추출과 관련된 제어 및 처리를 수행한다. 구체적으로, 상기 제어부(167)는 상기 입력부(163)로부터 상기 전체 자막 중 하나 이상의 추출 부분을 선택하기 위한 입력신호가 입력되면, 상기 디스플레이부(164)에 표시된 전체 자막 중 상기 하나 이상의 추출 부분을 마킹한다. 또한, 상기 제어부(167)는 상기 입력부(163)로부터 상기 마킹된 추출 부분을 저장하기 위한 입력신호가 입력되면, 인터넷(170)을 통하여 상기 웹서버(150)로부터 상기 멀티미디어 파일 중 상기 마킹된 추출 부분에 대응하는 부분 추출파일을 수신하여 저장부(166)에 저장하도록 제어한다
도 3은 본 발명의 실시 예에 따른 사용자 단말기의 화면 구성을 설명하는 도면이다.
본 발명에 따른 사용자 단말기(160)는 디스플레이부(164)를 통하여 도 3에 도시된 바와 같이 화면을 구성한다.즉, 상기 디스플레이부(164)는 재생화면 표시부(310)와 자막 표시부(320)를 형성한다.
상기 재생화면 표시부(310)에는 본 발명에 따른 멀티미디어 파일이 재생된다. 예를 들어, 도 3에 도시된 바와같이, 상기 재생화면 표시부(310)에는 포토샵 사용방법 강의에 관한 동영상이 재생될 수 있다. 상기 재생화면 표시부(310)에는 재생바(311)가 포함될 수 있다. 상기 재생바(311)는 상기 재생화면 표시부(310)에 의해 재생되고 있는 멀티미디어 파일의 전체 재생 분량을 표시하고, 상기 전체 재생 분량 중 현재 재생되고 있는 시점을 나타내는 재생 위치 표시기(311-1)를 포함한다.
상기 자막 표시부(320)에는 본 발명에 따라 상기 멀티미디어 파일에 포함된 텍스트 형태의 자막 또는 화자의 음성을 음성 인식하여 추출된 자막을 표시한다. 상기 자막 표시부(320)는 복수의 단위 자막 표시부(330 내지 350)를 포함하며, 추출된 자막을 각각의 단위 자막 표시부(330 내지 350)마다 일정 단위로 구분하여 표시할 수 있다. 예를 들어, 상기 재생화면 표시부(310)에 총 50분 분량으로 이루어진 포토샵 사용방법 강의 동영상이 재생되는 경우, 도 3에 도시된 바와 같이, 상기 자막 표시부(320)의 상단에 위치한 제1 단위 표시부(330)에는 상기 동영상의 최초 24초 동안(즉, 00:00 ~ 00:24)에 포함된 화자의 음성에 대응하는 제1 단위 자막을 표시하기 위한 제1 단위 자막부(332)가 형성된다. 또한 상기 제1 단위 자막 표시부(330)에는 자막 추출 시간을 표시하는 추출시간 표시부(331)와, 상기 포토샵 사용방법 강의 동영상 중 상기 제1 단위 자막에 대응하는 부분 중 주요장면에 해당하는 정지영상을 추출하여 썸네일(Thumbnail)과 같이 축소 사진 형태로 표시하는 정지영상 표시부(333)를 포함한다.
그리고, 상기 제1 단위 자막 표시부(330)의 아래에는 상기 동영상의 다음 13초 동안(즉, 00:25 ~ 00:38)에 포함된 화자의 음성에 대응하는 제2 단위 자막을 표시하기 위한 제2 단위 자막 표시부(340)가 형성된다. 또한, 상기제2 단위 자막 표시부(340)의 아래에는 상기 동영상의 다음 26초 동안(즉, 00:38 ~ 01:04)에 포함된 화자의 음성에 대응하는 제3 단위 자막을 표시하기 위한 제3 단위 자막 표시부(350)가 형성된다.
여기서, 상기 각각의 단위 자막 표시부(330 내지 350)는 상기 멀티미디어 파일에 포함된 영상의 변화량을 측정하여 영상의 변화가 큰 시점을 기준으로 구분될 수 있다. 예를 들어, 제1 단위 자막 표시부(330)에 자막을 표시하던 중, 상기 멀티미디어 파일에 포함된 영상의 변화량이 일정 기준 이상일 경우에는 상기 일정 기준 이상의 변화량이 발생한 시점을 기준으로 이후에 제공되는 자막은 제2 단위 자막 표시부(340)에 표시할 수 있다. 또한, 상기 복수의 단위 자막 표시부(330 내지 350)는 일정 시간 단위로 구분될 수도 있다. 예를 들어, 각각의 단위 자막 표시부(330 내지 350)에는 매 30초 간격으로 추출된 전체 자막을 구분하여 표시할 수도 있다.
또한, 자막 표시부(320)의 우측 단부에는 스크롤바(360)가 형성된다. 상기 스크롤바(360)는 상기 디스플레이부 (164)의 우측 단부를 따라 상하 방향으로 길게 형성되고, 상기 동영상으로부터 추출된 전체 자막 중 상기 자막표시부(320)에 현재 표시된 단위 자막 표시부들의 상대적인 위치를 표시하기 위한 스크롤 박스(361)가 형성된다.
특히, 본 발명에 따른 사용자 단말기(160)는 제어부(167)의 제어에 의하여 상기 디스플레이부(164)의 화면상에상기 재생화면 표시부(310)와 상기 자막 표시부(320)가 겹치지 않도록 형성한다. 즉, 상기 제어부(167)는 상기디스플레이부(164)의 전체 화면 크기를 인식하고, 상기 재생화면 표시부(310)와 상기 자막 표시부(320)가 서로 겹치지 않은 상태에서 전체 화면에 분할되도록 상기 재생화면 표시부(310)와 상기 자막 표시부(320)의 크기를 자동 정렬하여 상기 디스플레이부(164)에 표시되도록 한다. 상기 재생화면 표시부(310)와 상기 자막 표시부(320)가 디스플레이부(164) 상에 표시되는 위치 및 크기를 정렬하는 과정을 설명하면, 예를 들어, 상기 디스플레이부(164)에 의해 형성되는 전체 화면의 크기는 윈도우 95 운영체제부터 널리 사용되는 WIN32 API인 윈도우 함수[GetDesktopWindow()]를 통해 바탕화면의 윈도우 핸들값을 취해 윈도우 크기를 윈도우 함수[GetWindowRect()]를 이용하여 알아낸다. 이후, 상기 디스플레이부(164)에 임의적으로 표시되는 시작표시줄 등의 윈도우 핸들을 알아내고, 이에 따라 윈도우(즉, 재생화면 표시부(310) 및 상기 자막 표시부(320))의 위치 및 크기를 결정할 수 있게 된다. 여기서, 상기 재생화면 표시부(310)와 상기 자막 표시부(320)의 위치 및 크기는변화될 수 있다.
또한, 본 발명에 따르면, 상기 재생화면 표시부(310)에 재생되는 동영상과 상기 자막 표시부(320)에 표시되는자막이 서로 동기화된다. 즉, 상기 동영상 중 상기 재생화면 표시부(310)에 현재 재생되는 부분에 해당하는 자막이 상기 자막 표시부(320)에 표시된다.
이에 따라, 사용자가 입력부(163)를 조작하여 상기 재생화면 표시부(310)에 형성된 재생바(311-1)를 드래그(drag)하거나 특정 위치에 마우스 오버(Mouse Over: 마우스를 재생바 위에 올리는 동작)함으로써 상기 재생바(311-1)의 위치를 이동시키면, 상기 동영상 중 상기 재생바(311-1)의 위치에 해당하는 부분이 상기 재생화면 표시부(310)에 재생됨과 아울러, 상기 재생바(311-1)의 움직임에 따라 상기 자막 표시부(320)에 형성된 스크롤 박스(361)가 자동으로 이동함으로써 상기 자막 표시부(320)에도 역시 상기 재생화면 표시부(310)에 현재 재생되는 부분에 해당하는 자막이 상기 자막 표시부(320)에 표시된다.
반대로, 사용자가 입력부(163)를 조작하여 상기 자막 표시부(320)에 형성된 스크롤 박스(361)의 위치를 이동시키면, 상기 자막 표시부(320)에는 상기 동영상으로부터 추출된 전체 자막 중 스크롤바(361) 상에서 상기 스크롤박스(361)의 상대적 위치에 대응하는 부분이 표시됨과 아울러, 상기 스크롤 박스(361)의 움직임에 따라 상기 재생바(311-1)가 자동으로 이동함으로써 상기 재생화면 표시부(310)에는 역시 상기 동영상 중 상기 자막 표시부(320)에 현재 표시된 자막에 대응되는 부분이 재생된다.
위와 같이, 상기 자막 표시부(320)에 자막이 표시된 상태에서 사용자는 입력부(163)를 이용하여 상기 자막 중자신이 추출하고자 하는 제1 부분(370, 371)에 밑줄을 긋거나 일정한 색으로 칠하여 마킹(marking)함으로써, 상
기 제1 부분(370, 371)을 추출하지 않는 제2 부분(372)과 구별시킬 수 있다. 상기 마킹하는 방법은 부분 추출데이터의 효율성과 유용성을 높이기 위하여 용도나 성격별로 추출하고자 하는 부분의 색상을 달리하여 지정할 수 있다. 또한 상기 마킹하는 방법은 밑줄 긋기 외에 추출하고자 하는 부분에 대하여 상기 사용자 단말기(160)가 식별 가능한 다양한 기호를 삽입하여 이루어질 수도 있다. 이와 같이 추출하고자 하는 제1 부분(370, 371)에 대한 마킹이 이루어지면, 제어부(167)는 상기 입력부(163)로부터 입력되는 입력 신호를 인식하여 상기 마킹된 제1 부분(370, 371)을 식별할 수 있다. 상기 추출하고자 하는 제1 부분(370, 371)은 복 수개가 될 수 있다. 즉, 사용자는 상기 자막 표시부(320)에 표시된 자막 중 추출하고자 하는 여러 부분을 마킹하여 선택할 수 있다. 이 때 추출되는 부분은 하나 이상의 문장의 시작점부터 끝점으로 선택되거나, 또는 한 문장의 중간 부분부터 다른 문장의 중간 또는 끝점으로 선택될 수 있다.
이와 같이, 사용자의 마킹 동작이 종료되면, 사용자는 입력부(163)를 이용하여 디스플레이부(164)에 형성된 '밑줄부분 저장' 버튼(380)을 클릭함으로써, 상기 마킹된 부분을 상기 사용자 단말기(160)에 저장할 것인지 여부를 결정할 수 있다. 만약, 상기 '밑줄부분 저장' 버튼(380)이 클릭되어 추출된 부분에 대한 저장 명령이 입력되면, 제어부(167)는 상기 웹서버(150)로 상기 마킹된 부분에 대한 부분 추출 파일의 전송을 요청한 후, 상기 웹서버(150)로부터 상기 마킹된 부분에 대응하는 부분 추출 파일을 다운로드하여 저장부(166)에 저장한다. 이와 같이, 사용자는 전체 동영상 중 자신이 원하는 부분만 선택하여 사용자 단말기(160)에 저장한 후, 이를 반복 시청할 수 있게 된다.
이와 같이, 본 발명에 따르면 큰 용량의 멀티미디어 파일 중 자신이 원하는 일정 부분(예를 들어, 강사의 핵심설명, 강의의 요점)만 추출한 후 자신의 사용자 단말기(160)에 저장할 수 있다. 따라서, 사용자는 동영상 강의 중 자신이 원하는 부분만 추출하여 자신의 사용자 단말기(160)를 이용하여 언제 어디서든지 용이하게 반복 학습할 수 있다. 이뿐만 아니라, 상기 사용자 단말기(160)가 휴대용 단말기로서 메모리 용량이 작더라도, 본 발명에 따르면 휴대용 단말기에 다양한 동영상 강의의 핵심 부분만 추출하여 저장할 수 있다. 이에 따라, 본 발명에 따르면 이러닝(e-Learning)뿐만 아니라 유러닝(S,E,U-러닝Learning)을 활성화시킬 수 있는 이점이 있다.
특히 애플의 스티브 잡스가 발표한 스마트폰 시대로 변혁된 전 세계는 유사스마트기기등으로 기술이 전파되고 있는 요즘 사람들의 손 안으로 문화와 기술이 파급되고 있기 ?문에 본 제품은 다량의 정보를 요약과 편집을 할? 커다란 기여를 할것임에 틀림없다.
도 4는 본 발명의 실시 예에 따른 멀티미디어 파일의 부분 추출 과정을 설명하는 도면이다.
먼저, 자막추출부(110)는 음성 파일이 포함된 멀티미디어 파일을 입력받으며, 상기 음성파일을 음성인식하여 상기 음성파일에 포함된 화자의 음성을 텍스트 데이터로 변환하여 자막을 형성하여 임시 저장부(120)에 저장한다(S401).
구체적으로, 자막추출부(110)는 상기 음성파일에서 배경음악 또는 잡음 등 사람의 음성이 아닌 소리를 제거하고 화자 독립형 연속음성인식을 수행함으로써, 텍스트 데이터(즉, 자막)를 얻어내어 임시저장소(121)에 저장을 한다.
아울러, 자막추출부(110)는 상기 화자의 음성으로부터 단어별 또는 문장별 시작점과 끝점에 대한 정보를 추출하여 상기 자막에 포함된 단어별 또는 문장별 시작점과 끝점에 대한 정보와 매칭시켜 구조화한 후, 상기 구조화된결과를 임시저장소(121)에 저장한다(S402). 상기 S401 단계 및 상기 S402 단계는 동시에 이루어질 수 있다.
이후, 사용자 단말기(160)가 상기 웹서버(150)에 접속하여 멀티미디어 파일(예를 들어, 포토샵 강의 동영상)의제공을 요청하면(S403), 상기 웹서버(150)는 요청된 멀티미디어 파일 및 상기 멀티미디어 파일에 대응하는 자막을 스트리밍 방식으로 상기 사용자 단말기(160)로 제공한다. 이에 따라, 상기 사용자 단말기(160)는 재생화면표시부(310)를 통하여 상기 웹서버(150)로부터 제공받은 멀티미디어 파일을 재생하고, 또한 자막 표시부(320)를통하여 상기 멀티미디어 파일에 대응하는 자막을 표시할 수 있다(S404).
이후, 사용자가 사용자 단말기(160)의 입력부(163)를 이용하여 상기 자막 표시부(320)에 표시된 자막 중 추출하기를 원하는 부분을 마킹하고, 상기 마킹된 부분에 대한 저장을 요청하면(S405), 상기 웹서버(150)는 상기 임시저장부(120)에 저장된 자막 정보 및 재생시점 정보를 질의(query)하고 상기 원시파일 저장부(130)에 저장된 상기 멀티미디어 파일 중 상기 마킹된 부분에 대응하는 부분을 추출하여 부분 추출 파일을 생성한다(S406).
상기 웹서버(150)는 상기 생성된 부분 추출 파일에 상기 사용자 단말기(160)로부터 입력된 사용자 정보를 바이너리 형태로 암호화하여 기록함으로써 DRM(Digital Rights Management) 기능을 부여한다(S407). 본 발명에 따르면, 임의의 사용자에 의하여 멀티미디어 파일의 부분 추출 및 저장이 가능하기 때문에 상기 멀티미디어 파일에 대한 저작권 침해 문제가 발생할 수 있다. 따라서, 이러한 저작권 침해 문제를 사전에 방지할 수 있도록, 상기 부분 추출 파일에 사용자가 상기 웹서버(150)에 접속할 시 입력한 로그온 정보(예를 들어, 사용자의 이름, 주민등록번호, 및 부분 추출 파일 생성 일자 등)를 바이너리 형태로 암호화하여 사용자의 개인정보를 남기고 사용자에게 저작권 침해에 관한 경고를 주어 저작물의 불법유통을 미연에 방지할 수 있는 이점이 있다.
이어서, 상기 웹서버(150)는 상기 획득한 부분 추출 파일을 상기 사용자 단말기(160)로 전송한다(S408). 이때,상기 웹서버(150)는 상기 멀티미디어 파일로부터 음성만 추출하거나, 음성 및 동영상을 함께 추출하여 상기 사용자 단말기(160)로 전송할 수 있다. 또한, 상기 웹서버(150)는 상기 부분 추출 파일을 상기 임시 저장부(120)에 저장하여 향후 다양한 서비스에 활용할 수 있다.
그러면, 상기 사용자 단말기(160)는 상기 웹서버(150)로부터 다운로드한 부분 추출 파일을 내부의 저장부(166)에 저장한다(S409). 이에 따라, 사용자는 전체 동영상 중 자신이 원하는 부분만 선택하여 사용자 단말기(160)에저장한 후, 이를 반복 시청할 수 있게 된다.
도 5는 자막이 포함된 멀티미디어 파일의 부분 추출 과정을 설명하는 도면이다.
앞서 설명한 바와 같이, 상기 멀티미디어 파일에는 화자의 동작 또는 강의 자료 등을 촬영한 동영상뿐만 아니라, 상기 화자의 음성 전체를 텍스트 형태로 변환하거나 상기 화자의 강의 내용 일부를 텍스트 형태로 표현한 자막을 더 포함할 수 있다.
이와 같이, 서비스 제공자에 의하여 상기 멀티미디어 파일에 자막이 미리 포함되어 제공되는 경우에는, 상기 미리 포함된 자막 내의 단어의 배열순서에 대한 정보를 활용하여 음성인식 과정을 수행함으로써, 상기 음성 화일 내에 포함된 화자의 음성에 대응하는 각 단어 및 각 문장의 재생시점을 더욱더 정밀하게 획득할 수 있다. 즉, 상기 서비스 제공자에 의하여 제공되는 자막은 화자의 음성을 실질적으로 100% 반영하고 있기 때문에 더욱 정확하고 높은 완성도로서 부분 추출 파일의 추출을 가능하게 한다.
구체적으로, 자막추출부(110)는 자막 파일 및 음성 파일이 포함된 멀티미디어 파일을 입력받으며, 상기 멀티미디어 파일로부터 자막 파일을 분리하여 임시 저장부(120)에 저장한다. 또한, 상기 자막추출부(110)는 상기 음성파일을 음성인식하여 상기 음성파일에 포함된 화자의 음성을 텍스트 데이터로 변환하여 자막을 형성하여 임시 저장부(120)에 저장한다(S501).
아울러, 자막추출부(110)는 상기 화자의 음성으로부터 단어별 또는 문장별 시작점과 끝점에 대한 정보를 추출하여 상기 자막에 포함된 단어별 또는 문장별 시작점과 끝점에 대한 정보와 매칭시켜 구조화한 후, 상기 구조화된결과를 임시저장소(121)에 저장한다(S502). 이때, 상기 자막추출부(110)는 상기 미리 포함된 자막 내에 배열된단어들의 배열순서에 대한 정보로부터 상기 음성 파일 중 특정 단어 또는 특정 문장이 재생되는 시점을 예측할수 있다. 따라서, 상기 자막추출부(110)는 상기 미리 포함된 자막 내의 단어의 배열순서에 대한 정보를 활용하여 음성인식 과정을 수행함으로써, 상기 음성 화일 내에 포함된 화자의 음성에 대응하는 각 단어 및 각 문장의재생시점을 더욱더 정밀하게 획득할 수 있다.
이하, 단계(S503) 내지 단계(S509)는 각각 상기 도 4에 관한 설명 중 단계(S403) 내지 단계(S409)와 동일하므로, 중복되는 설명은 생략한다.
도 6은 본 발명에 따른 부분 추출 파일을 이용목적 및 출력기기에 따라 편집하여 제공하는 과정을 설명하는 도면이다.
본 발명에 따라 특정 사용자에 의하여 멀티미디어 파일로부터 추출된 부분 추출 파일은 다음과 같이 편집과정을거쳐 웹서버(150)를 통하여 다수의 사용자에게 다양한 용도로 활용될 수 있다.
*먼저, 특정 사용자에 의하여 추출된 부분 추출 파일은 임시 저장부(120)에 저장된다(S601). 이에 따라, 상기 임시 저장부(120)에는 다수의 사용자에 의하여 추출된 다수의 부분 추출 파일이 저장될 수 있다.
그러면, 컨텐츠 편집자는 상기 임시 저장부(120)에 저장된 다수의 부분 추출 파일을 이용고객의 용도별, 및 출력기기(즉, 사용자 단말기(160))의 종류에 따른 출력형태에 맞추어 편집한다(S602). 상기 이용 고객의 용도란, 이용 고객은 상기 부분 추출 파일을 회사의 직무 교육, 어학 교육, 입시 교육, 자격증 강의, 고시 공부 등의 용도로 사용할 수 있다. 또한, 상기 이용 고객이 사용하는 출력기기는 개인용 컴퓨터(PC)뿐만 아니라, 노트북 컴퓨터, 휴대폰, 스마트 폰, MP3 플레이어, PDA, PMP 등과 같은 휴대용 단말기로 이루어질 수 있다. 따라서, 본 발명에서는 상기 부분 추출 파일을 이용 고객의 사용 용도 및 출력 기기의 종류에 따라 사용자 단말기(160)에 적절하게 표시될 수 있도록 분류 및 편집한다.
이 본 발명이 쓰이는 하나의 예에서 도면 4의 402(출력형태와 화면편집)에서는 특허등록기술 10-0376314호를 활용(501)하면 더욱더 편리함을 제공하게 되는데 이는 좌측화면에서는 부분 추출된 정보 또는 데이터의 출력화면구성과 가공편집 창(502)으로, 우측화면에는 출력형태에 따른 편집사양과 기준(503)을 동시에 보면서 출력물을 설계, 개발하면 제작 시간과 노력을 크게 절약할 수 있다.
예를 들어, 도 7에는 상기 부분 추출 파일을 편집하기 위한 웹서버(150)의 화면 구성의 일 예를 도시하고 있다.컨텐츠 편집자는 상기 웹서버(150)를 통하여 상기 부분 추출 파일을 편집할 수 있다.
도 7을 참조하면, 상기 웹서버(150)를 통하여 제공되는 편집 화면(501)은 좌측에 부분 추출 파일에 대한 편집 도구가 표시되는 부분 추출파일 편집부(502)가 형성된다. 상기 부분 추출 파일 편집부(502)에는 강의 주제, 동영상 저장 경로 등의 상기부분 추출 파일에 대한 정보가 표시되며, 상기 부분 추출 파일에 대한 이미지 변경, 이미지 추가 등 다양한 편집 도구가 표시된다. 그리고, 상기 편집화면(501)의 우측에 상기 부분 추출 파일을 이용 고객의 용도별 및 출력기기의 출력 형태에 따른 편집 사양을 안내하는 편집 사양 설계지침 표시부(503)가 형성된다. 또한, 상기 부분추출 파일 편집부(502)와 상기 편집 사양 설계지침 표시부(503)는 상기 편집 화면(501) 내에서 서로 겹치지 않도록 형성한다.
즉, 상기 웹서버(150)는 상기 편집화면(501)의 전체 화면 크기를 인식하고, 상기 부분 추출 파일 편집부(502)와 상기 편집 사양 설계지침 표시부(503)가 서로 겹치지 않은 상태에서 전체 화면에 분할되도록 상기 부분추출파일 편집부(502)와 상기 편집사양 설계지침 표시부(503)의 크기를 자동정렬하여 상기 편집화면(501)에 표시되도록 한다. 상기 부분 추출 파일 편집부(502)와 상기 편집 사양 설계지침 표시부(503)가 상기 편집화면(501) 상에 표시되는 위치 및 크기를 정렬하는 과정을 설명하면, 예를 들어, 상기 편집화면(501)에 의해 형성되는 전체화면의 크기는 윈도우 95 운영체제부터 널리 사용되는 WIN32 API인 윈도우 함수[GetDesktopWindow()]를 통해 바탕화면의 윈도우 핸들값을 취해 윈도우 크기를 윈도우 함수[GetWindowRect()]를 이용하여 알아낸다. 이후, 상기 편집화면(501)에 임의적으로 표시되는 시작표시줄 등의 윈도우 핸들을 알아내고, 이에 따라 윈도우(즉, 부분 추출 파일 편집부(502) 및 편집 사양 설계지침 표시부(503))의 위치 및 크기를 결정할 수 있게 된다. 여기서, 상기 부분 추출 파일 편집부(502)와 상기 편집 사양 설계지침 표시부(503)의 위치 및 크기는 변화될 수 있다.
이에 따라, 컨텐츠 편집자는 우측의 편집 사양 설계지침 표시부(503)에 표시된 편집 사양 안내 정보를 보면서상기 편집 사양 안내 정보의 안내 순서에 따라 좌측의 부분 추출 파일 편집 영역(502)의 각종 편집 도구를 이용하여 상기 부분 추출 파일을 용이하게 편집할 수 있고, 이로 인하여 편집 시간과 노력을 크게 절약할 수 있다.
이어서, 상기 컨텐츠 편집자는 상기 편집 화면(501)을 통하여 상기 부분 추출 파일에 출력기기별 색인기능을 부여할 수 있다(S603). 이와 같이, 색인 기능이 부여되고 편집된 부분 추출 파일은 임시 저장부(120)에 저장된다.
이후, 사용자는 다양한 종류의 사용자 단말기(160)를 이용하여 상기 웹서버(150)에 접속한 후 웹페이지의 검색창(미도시)에 검색어를 이용하여 자신이 원하는 부분 추출 파일을 찾은 후 전송을 요청할 수 있다. 그러면, 상기 웹서버(150)는 상기 임시 저장부(120)로부터 상기 사용자 단말기(160)로부터 요청된 부분 추출 파일을 상기 사용자 단말기(160)로 전송한다(S604).
본 발명에 따라 멀티미디어 파일을 부분 추출하는 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수있는 코드로서 구현할 수 있다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CDROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있으며, 또한 인터넷을 통한 전송과 같이 캐리어 웨이브의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다.
본 발명의 기술사상은 상기 바람직한 실시 예에 따라 구체적으로 기술되었으나, 상기한 실시 예는 그 설명을 위한 것이며, 그 제한을 위한 것이 아님을 주의하여야 한다. 또한, 본 발명의 기술분야의 통상의 전문가라면 본 발명의 기술사상의 범위에서 다양한 실시 예가 가능함을 이해할 수 있을 것이다.
110: 자막추출부
111: 음성정보 데이터베이스(DB)
120: 임시 저장부
130: 원시파일 저장부
140: 미디어 처리 서버
150: 웹서버
160: 사용자 단말

Claims (1)

  1. 멀티미디어 파일에서 핵심부분을 절체할 때 그 절체점을 體化點(체화점) 이라고 명하며 쓰면서 그 하나의 체화점은 단어 시작문자에는 始體化點(시체화 점), 끝문자에는 終體化點(종체화점)으로, 단어나 문자그릅을 호출할 때는 A始
    體化點(A시체화점)과 B終體化點(B종체화점)이라고 명하여 쓰이기도 함으로 개 념적으로는 복수개 기능과 명칭이 쓰이기도 하며, 또 그 體化點(체화점)은 아 날로그형이 아닌 디지털 10진법숫자나 2진수로 치환되도록 하는 것이 특징인 제1단계와

    연이여 본 발명에서 새로운 컨텐츠제작용으로 쓰이는 모든 멀티미디어 파 일에서 비문자 아나로그형 절체점까지 전부 체화점으로 명명되어 디지럴숫치로 치환작업을 함으로서 거쳐서 쉽고 빨리 정확하게 작업능율이 향상되는 것을 징으로 하는 제2단계를 포함하여

    또한 종극적으로 제1,2단계(발췌준비 완료작업)를 마치고 멀티미디어 핵심
    추출과 화면선택과 편집과정에 아주편리한 SW 솔루션(대표도 도3) 사용으로 새
    로운 s,e,u컨텐츠나 New미디어를 만들어 활용하는 단계가 포함되는데 여기에
    쓰이는 SW솔루션은 윈도우창이 둘로 분할된 2Wins 웹Guider Plat/form이라는 제품을 활용하여 사용고객의 편의성을 높히는 것을 특징으로하는 제3단계를 포
    함하는 청구항1로 청구한다.
KR1020190168105A 2019-12-16 2019-12-16 멀티미디어 핵심추출로 새로운 콘텐츠 만들기 KR20190142761A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190168105A KR20190142761A (ko) 2019-12-16 2019-12-16 멀티미디어 핵심추출로 새로운 콘텐츠 만들기

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190168105A KR20190142761A (ko) 2019-12-16 2019-12-16 멀티미디어 핵심추출로 새로운 콘텐츠 만들기

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020130057874A Division KR20140137219A (ko) 2013-05-22 2013-05-22 멀티미디어 파일에서 원하는 부분만 쉽고 빠르게 정확히 추출하거나 저장하여 s,e,u-컨텐츠를 만드는 장치 및 그 방법 또는 요점 추출 저장

Publications (1)

Publication Number Publication Date
KR20190142761A true KR20190142761A (ko) 2019-12-27

Family

ID=69062467

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190168105A KR20190142761A (ko) 2019-12-16 2019-12-16 멀티미디어 핵심추출로 새로운 콘텐츠 만들기

Country Status (1)

Country Link
KR (1) KR20190142761A (ko)

Similar Documents

Publication Publication Date Title
CN107220228B (zh) 一种教学录播数据修正装置
US9870796B2 (en) Editing video using a corresponding synchronized written transcript by selection from a text viewer
US20140310746A1 (en) Digital asset management, authoring, and presentation techniques
US20070244700A1 (en) Session File Modification with Selective Replacement of Session File Components
US20200126583A1 (en) Discovering highlights in transcribed source material for rapid multimedia production
US8930308B1 (en) Methods and systems of associating metadata with media
CN105190678A (zh) 语言学习环境
KR20050121664A (ko) 비디오 기반 언어 학습 시스템
US20220374585A1 (en) User interfaces and tools for facilitating interactions with video content
US20150213793A1 (en) Methods and systems for converting text to video
US20220036004A1 (en) Filler word detection through tokenizing and labeling of transcripts
CN102880599A (zh) 用于解析句子并支持对该解析进行学习的句子探索方法
CN101452468A (zh) 基于用户制作的问答数据提供会话辞典服务的方法及系统
KR20100005177A (ko) 맞춤형 학습 시스템, 맞춤형 학습 방법, 및 학습기
US20110113357A1 (en) Manipulating results of a media archive search
US20170004859A1 (en) User created textbook
KR20140137219A (ko) 멀티미디어 파일에서 원하는 부분만 쉽고 빠르게 정확히 추출하거나 저장하여 s,e,u-컨텐츠를 만드는 장치 및 그 방법 또는 요점 추출 저장
KR20190142761A (ko) 멀티미디어 핵심추출로 새로운 콘텐츠 만들기
KR102414993B1 (ko) 연관 정보 제공 방법 및 시스템
KR102057706B1 (ko) 컨텐츠의 목차 입력 방법 및 재생 방법
Fels et al. Sign language online with Signlink Studio 2.0
JP7166370B2 (ja) 音声記録のための音声認識率を向上させる方法、システム、およびコンピュータ読み取り可能な記録媒体
JP7128222B2 (ja) 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム
KR20100014031A (ko) 멀티미디어 파일에서 원하는 부분만 쉽고 빠르게 정확히추출하여 u-컨텐츠 만드는 장치 및 그 방법
Lee PRESTIGE: MOBILIZING AN ORALLY ANNOTATED LANGUAGE DOCUMENTATION CORPUS

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application