KR101493006B1 - 멀티미디어 콘텐츠 편집장치 및 그 방법 - Google Patents

멀티미디어 콘텐츠 편집장치 및 그 방법 Download PDF

Info

Publication number
KR101493006B1
KR101493006B1 KR20130030117A KR20130030117A KR101493006B1 KR 101493006 B1 KR101493006 B1 KR 101493006B1 KR 20130030117 A KR20130030117 A KR 20130030117A KR 20130030117 A KR20130030117 A KR 20130030117A KR 101493006 B1 KR101493006 B1 KR 101493006B1
Authority
KR
South Korea
Prior art keywords
text
voice
generating
speech
text object
Prior art date
Application number
KR20130030117A
Other languages
English (en)
Other versions
KR20140115536A (ko
Inventor
정찬의
Original Assignee
디노플러스 (주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 디노플러스 (주) filed Critical 디노플러스 (주)
Priority to KR20130030117A priority Critical patent/KR101493006B1/ko
Priority to PCT/KR2013/002502 priority patent/WO2014148665A2/ko
Publication of KR20140115536A publication Critical patent/KR20140115536A/ko
Application granted granted Critical
Publication of KR101493006B1 publication Critical patent/KR101493006B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Document Processing Apparatus (AREA)
  • Processing Or Creating Images (AREA)

Abstract

멀티미디어 콘텐츠 제작시 음성 데이터와 텍스트 데이터를 동기화하는 멀티미디어 콘텐츠 편집장치 및 그 방법에 관한 것으로, 입력된 텍스트 데이터를 문단/문장/단어 단위 순으로 순차 분리한 후 단어 단위의 텍스트 객체를 생성하는 텍스트 객체 생성부; 입력된 음성 데이터의 문장 끝 위치를 지정하고 음소 구간을 검출한 후 음성 인식을 하는 음성 인식부; 상기 음성 인식부에서 인식된 음성 데이터로부터 음성 텍스트 객체를 생성하는 음성 객체 생성부; 상기 텍스트 객체와 음성 텍스트 객체를 템플릿 매칭 방식으로 대비시켜 음성과 텍스트를 동기화하는 자동 동기화부를 통해, 음성 데이터와 텍스트 데이터의 자동 동기화가 가능하므로, 기존 수작업 대비 동기화 작업 시간을 단축할 수 있으며, 동기화 작업의 효율성 및 정확성을 향상시킬 수 있게 된다.

Description

멀티미디어 콘텐츠 편집장치 및 그 방법{Apparatus for editing of multimedia contents and method thereof}
본 발명은 멀티미디어 콘텐츠(Multimedia contents) 편집에 관한 것으로, 특히 멀티미디어 콘텐츠 제작시 음성 데이터와 텍스트 데이터를 동기화하는 멀티미디어 콘텐츠 편집장치 및 그 방법에 관한 것이다.
일반적으로, 멀티미디어 콘텐츠 제작시 음성 객체와 텍스트 객체를 동기화할 필요가 있다. 특히, 교육용 멀티미디어 콘텐츠나 노래방의 가사 서비스시 음성과 텍스트를 동기화함으로써, 교육 효율을 높이거나 노래를 부르는 사람이 박자를 맞추는 데 도움이 될 수 있다. 여기서 음성 객체(또는, 음성 텍스트 객체)는 음성 데이터를 의미하고, 텍스트 객체는 텍스트 데이터를 의미한다. 아울러 상기 동기화란 음성과 텍스트를 매칭시키는 것을 의미한다.
멀티미디어 콘텐츠 제작시 음성 데이터와 텍스트 데이터를 동기화하기 위한 일반적인 방법은 다음과 같다.
텍스트 데이터와 음성 데이터를 시계열 상에서 시각적으로 표시하는 단계, 음성 데이터의 구간을 선택하여 청음을 하는 단계, 청음한 해당 음성과 동일한 텍스트를 선택하는 단계, 선택한 텍스트의 속성값으로 청음한 음성 데이터 구간의 시작시간과 끝 시간 정보를 저장하는 단계를 통해 텍스트 데이터와 음성 데이터를 동기화하게 된다. 즉, 동기화 작업자(Operator)가 음성 데이터의 무음 구간을 기준으로 청음할 구간을 선택하여 청음 후 해당 텍스트 데이터와 매핑하는 과정을 반복적으로 수행한다.
한편, 텍스트 데이터와 음성 데이터를 동기화하는 종래의 기술이 공개특허공보 공개번호 특1995-0030128호(1995.11.24. 공개)에 개시된다.
개시된 종래기술은 노래방시스템의 모니터를 통해 자막의 표현변화로 각종 음악정보를 시각적으로 전달할 수 있도록 한 것으로서, 노래 가사의 형태적 변화를 통해 시각적으로 음악 정보를 제공해주게 된다.
대한민국 공개번호 특1995-0030128호(1995.11.24. 공개)
그러나 상기와 같은 음성 객체와 텍스트 객체를 동기화하는 일반적인 방법은 작업자가 음성 데이터를 모두 청음하는데 요구되는 시간만큼 동기화 시간이 소요되는 단점이 있다.
또한, 상기와 같은 일반적인 방법은 작업자의 숙련도에 따라 동기화의 정확도가 달라지는 문제가 있으며, 작업상황이나 작업자의 기분상태 등 외적 요인에 의해 동기화 오류 발생 빈도가 높아지는 문제점도 있다.
또한, 상기와 같은 종래기술은 음성 데이터와 텍스트 데이터를 동기화하는 것이 불가능한 문제점이 있었다.
본 발명의 목적은 상기한 바와 같은 문제점을 해결하기 위한 것으로, 멀티미디어 콘텐츠 제작시 음성 데이터와 텍스트 데이터를 동기화하는 멀티미디어 콘텐츠 편집장치 및 그 방법을 제공하는 것이다.
본 발명의 다른 목적은 멀티미디어 콘텐츠 제작시 음성 데이터와 텍스트 데이터를 자동으로 동기화하여, 동기화에 소요되는 시간을 절감하고 작업 효율성을 높일 수 있는 멀티미디어 콘텐츠 편집장치 및 그 방법을 제공하는 것이다.
본 발명의 또 다른 목적은 텍스트 데이터를 대상으로 음성인식을 수행하고 인식된 결과를 텍스트로 변환하여 텍스트 데이터와 인식된 결과 텍스트를 비교하여 동일한 텍스트끼리 매핑하는 방식으로 동기화를 수행하는 멀티미디어 콘텐츠 편집장치 및 그 방법을 제공하는 것이다.
상기한 바와 같은 목적을 달성하기 위하여, 본 발명에 따른 멀티미디어 콘텐츠 편집장치는 입력된 텍스트 데이터를 문단/문장/단어 단위 순으로 순차 분리한 후 단어 단위의 텍스트 객체를 생성하는 텍스트 객체 생성부; 입력된 음성 데이터의 문장 끝 위치를 지정하고 음소 구간을 검출한 후 음성 인식을 하는 음성 인식부; 상기 음성 인식부에서 인식된 음성 데이터로부터 음성 텍스트 객체를 생성하는 음성 객체 생성부; 상기 텍스트 객체와 음성 텍스트 객체를 템플릿 매칭 방식으로 대비시켜 음성과 텍스트를 동기화하는 자동 동기화부를 포함하는 것을 특징으로 한다.
또한, 본 발명에 따른 멀티미디어 콘텐츠 편집장치는 상기 자동 동기화부와 연결되어 동기화가 이루어지지 않은 텍스트 객체를 비 동기화 정보로 생성하는 비 동기화 정보 생성부; 상기 비 동기화 정보 생성부에서 생성된 비 동기화 정보를 사용자가 수작업으로 동기화할 수 있도록 시각적으로 표시해주는 비동기화 정보 표시부를 포함하는 것을 특징으로 한다.
또한, 상기한 바와 같은 목적을 달성하기 위하여, 본 발명에 따른 멀티미디어 콘텐츠 편집방법은 (a) 입력된 텍스트 데이터로부터 단어 단위의 텍스트 객체를 생성하는 단계; (b) 입력된 음성 데이터로부터 음성인식을 통해 음성 텍스트 객체를 생성하는 단계; 및 (c) 상기 텍스트 객체와 음성 텍스트 객체의 템플릿을 생성하고, 템플릿 매칭으로 자동 동기화를 실행하는 단계를 포함하는 것을 특징으로 한다.
또한, 본 발명에 따른 멀티미디어 콘텐츠 편집방법은 (d) 상기 (c)단계에서 동기화가 이루어지지 않은 객체들을 대상으로 텍스트 객체 템플릿을 생성하고, 텍스트 객체 템플릿을 기초로 비동기화 정보를 생성하여 표시해주는 단계; (e) 동기화된 객체의 속성을 저장하는 단계를 더 포함하는 것을 특징으로 한다.
상기에서 (a)단계는 (a-1) 입력된 텍스트 데이터를 문단 단위로 분리하는 단계; (a-2) 분리한 각 문단을 문장 단위로 분리하는 단계; (a-3) 분리한 각 문장을 단어 단위로 분리하고, 분리한 단어 단위의 텍스트 데이터를 텍스트 객체로 생성하는 단계를 포함한다.
상기에서 (b)단계는 (b-1) 입력된 음성 데이터에서 문장의 끝 위치를 지정하는 단계; (b-2) 상기 문장에서 묵음 구간을 기준으로 음소 구간을 자동으로 검출하는 단계; (b-3) 텍스트 객체 정보를 참조하여 음성인식을 수행하여 음성인식된 텍스트를 획득하는 단계; (b-4) 획득된 텍스트를 음성 텍스트 객체로 생성하는 단계를 포함한다.
상기에서 (c)단계는 (c-1) 상기 단어 단위의 텍스트 객체로 구성된 텍스트 템플릿 집합을 생성하는 단계; (c-2) 음성인식의 결과로 이루어진 음성 텍스트 객체에서 단어 집합으로 구성된 음성 텍스트 템플릿 집합을 생성하는 단계; (c-3) 상기 텍스트 템플릿 집합과 상기 음성 텍스트 템플릿 집합을 매칭하는 단계; (c-4) 상기 템플릿 매칭 결과로부터 동일한 단어를 검출하는 단계; (c-5) 검출된 동일한 단어들을 동기화정보로 생성하는 단계를 포함하는 것을 특징으로 한다.
상기에서 (d)단계는 (d-1) 상기 (c)단계에서 동기화되지 않은 텍스트 객체들로 텍스트 객체 템플릿을 구성하는 단계; (d-2) 상기 텍스트 객체 템플릿에 포함된 각 객체에 대한 속성 정보를 생성하는 단계; (d-3) 동기화되지 않은 구간을 음성 신호 표시 화면상에 컬러로 표시하는 단계; (d-4) 상기 구간 내에서 음성 단어 객체를 복수로 나눌 후보 점을 생성하여 비 동기화 정보로 표시해주는 단계를 포함하는 것을 특징으로 한다.
상기에서 (d-2)단계는 텍스트 객체 템플릿 집합에서 자동 동기화된 객체들을 제외하고 자동 동기화되지 않은 텍스트 객체들로 구성된 템플릿 집합을 생성하고, 생성한 템플릿 집합의 객체들에게 고유의 순차적인 번호를 부여하고, 해당 객체의 우측에 바로 인접한 객체에 관한 속성값을 지정하여 속성 정보를 생성하는 것을 특징으로 한다.
본 발명에 따르면 음성 데이터와 텍스트 데이터의 자동 동기화가 가능하므로, 기존 수작업 대비 동기화 작업 시간을 단축할 수 있는 효과가 있다.
또한, 본 발명에 따르면 음성 데이터와 텍스트 데이터의 자동 동기화에 의해 작업자의 숙련도, 작업 상황, 작업자의 기분상태 등의 외적 요인에 의한 동기화 오류 발생 빈도를 최소화할 수 있는 효과가 있다.
또한, 본 발명에 따르면 자동 동기화에 의해 동기화 작업의 효율성 및 정확성을 향상시킬 수 있는 효과가 있다.
도 1은 본 발명의 바람직한 실시 예에 따른 멀티미디어 콘텐츠 편집장치의 블록구성도.
도 2는 본 발명에서 음성 데이터를 분리하기 위한 무음 구간 설명도.
도 3은 본 발명의 바람직한 실시 예에 따른 멀티미디어 콘텐츠 편집방법을 보인 흐름도.
도 4는 도 3의 텍스트 객체 생성 단계의 실시 예 흐름도.
도 5는 도 3의 음성 텍스트 객체 생성단계의 실시 예 흐름도.
도 6은 본 발명에서 6개의 객체로 분리된 음성 단어의 제1예시도.
도 7은 본 발명에서 6개의 객체로 분리된 음성단어의 제2예시도.
도 8은 본 발명에서 6개의 객체로 분리된 음성단어의 제3예시도.
도 9는 본 발명에서 6개의 객체로 분리된 음성단어의 제4예시도.
도 10은 본 발명에서 GUI방식에 의한 후보 구간 자동 분리 설명도.
도 11은 도 3의 자동 동기화 단계의 실시 예 흐름도,
도 12는 도 3의 비 동기화 정보 생성 및 표시 단계의 실시 예 흐름도.
이하 본 발명의 바람직한 실시 예에 따른 멀티미디어 콘텐츠 편집장치 및 방법을 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 바람직한 실시 예에 따른 멀티미디어 콘텐츠 편집장치의 블록구성도이다.
본 발명의 바람직한 실시 예에 따른 멀티미디어 콘텐츠 편집장치는 텍스트 입력부(10), 텍스트 객체 생성부(20), 음성 입력부(30), 음성 인식부(40), 음성 객체 생성부(50), 자동 동기화부(60), 비동기화 정보 생성부(70), 비동기화 정보 표시부(80)를 포함한다.
텍스트 입력부(10)는 텍스트 데이터를 입력받는 역할을 하며, 텍스트 객체 생성부(20)는 상기 텍스트 객체 생성부(20)를 통해 입력된 텍스트 데이터를 문단/문장/단어 단위 순으로 순차 분리한 후 단어 단위의 텍스트 객체를 생성하는 역할을 한다.
음성 입력부(30)는 음성 데이터를 입력받는 역할을 하며, 음성 인식부(40)는 상기 음성 입력부(30)를 통해 입력된 음성 데이터의 문장 끝 위치를 지정하고 음소 구간을 검출한 후 음성 인식을 하는 역할을 한다.
음성 객체 생성부(50)는 상기 음성 인식부(40)에서 인식된 음성 데이터로부터 음성 텍스트 객체를 생성하는 역할을 하며, 자동 동기화부(60)는 상기 텍스트 객체와 음성 텍스트 객체를 템플릿 매칭 방식으로 대비시켜 음성과 텍스트를 동기화하는 역할을 한다.
비동기화 정보 생성부(70)는 상기 자동 동기화부(60)와 연결되어 동기화가 이루어지지 않은 텍스트 객체를 비동기화 정보로 생성하는 역할을 하며, 비동기화 정보 표시부(80)는 상기 비동기화 정보 생성부(70)에서 생성된 비동기화 정보를 사용자가 수작업으로 동기화할 수 있도록 시각적으로 표시해주는 역할을 한다.
도 3은 본 발명의 바람직한 실시 예에 따른 멀티미디어 콘텐츠 편집방법을 보인 흐름도로서, S는 단계(Step)를 나타낸다.
본 발명의 바람직한 실시 예에 따른 멀티미디어 콘텐츠 편집방법은 (a) 입력된 텍스트 데이터로부터 단어 단위의 텍스트 객체를 생성하는 단계(S10); (b) 입력된 음성 데이터로부터 음성인식을 통해 음성 텍스트 객체를 생성하는 단계(S20); 및 (c) 상기 텍스트 객체와 음성 텍스트 객체의 템플릿을 생성하고, 템플릿 매칭으로 자동 동기화를 실행하는 단계(S30); (d) 상기 (c)단계에서 동기화가 이루어지지 않은 객체들을 대상으로 텍스트 객체 템플릿을 생성하고, 텍스트 객체 템플릿을 기초로 비동기화 정보를 생성하여 표시해주는 단계(S40); (e) 동기화된 객체의 속성을 저장하는 저장 단계(S50)를 포함한다.
여기서 상기 (c)단계에서 음성 데이터와 텍스트 데이터 간의 동기화가 이루어진 객체에 대해서는 (d)단계를 경유하지 않고 바로 (e)단계로 이동하게 된다.
상기에서 (a)단계는 도 4에 도시된 바와 같이, (a-1) 입력된 텍스트 데이터를 문단 단위로 분리하는 단계(S11 ~ S12); (a-2) 분리한 각 문단을 문장 단위로 분리하는 단계(S13); (a-3) 분리한 각 문장을 단어 단위로 분리하고, 분리한 단어 단위의 텍스트 데이터를 텍스트 객체로 생성하는 단계(S14)를 포함한다.
상기에서 (b)단계는 도 5에 도시된 바와 같이, (b-1) 입력된 음성 데이터에서 문장의 끝 위치를 지정하는 단계(S21 ~ S22); (b-2) 상기 문장에서 묵음 구간을 기준으로 음소 구간을 자동으로 검출하는 단계(S23); (b-3) 텍스트 객체 정보를 참조하여 음성인식을 수행하여 음성인식된 텍스트를 획득하는 단계(S24); (b-4) 획득된 텍스트를 음성 텍스트 객체로 생성하는 단계(S25)를 포함한다.
상기에서 (c)단계는 도 11에 도시된 바와 같이, (c-1) 상기 단어 단위의 텍스트 객체로 구성된 텍스트 템플릿 집합을 생성하는 단계(S31); (c-2) 음성인식의 결과로 이루어진 음성 텍스트 객체에서 단어 집합으로 구성된 음성 텍스트 템플릿 집합을 생성하는 단계(S32); (c-3) 상기 텍스트 템플릿 집합과 상기 음성 텍스트 템플릿 집합을 매칭하는 단계(S33); (c-4) 상기 템플릿 매칭 결과로부터 동일한 단어를 검출하는 단계(S34); (c-5) 검출된 동일한 단어들을 동기화정보로 생성하는 단계(S35)를 포함한다.
상기에서 (d)단계는 도 12에 도시된 바와 같이, (d-1) 상기 (c)단계에서 동기화되지 않은 텍스트 객체들로 텍스트 객체 템플릿을 구성하는 단계(S41); (d-2) 상기 텍스트 객체 템플릿에 포함된 각 객체에 대한 속성 정보를 생성하는 단계(S42); (d-3) 동기화되지 않은 구간을 음성 신호 표시 화면상에 컬러로 표시하는 단계(S43); (d-4) 상기 구간 내에서 음성 단어 객체를 복수로 나눌 후보 점을 생성하여 비 동기화 정보로 표시해주는 단계(S44)를 포함한다.
이하 본 발명의 바람직한 실시 예에 따른 멀티미디어 콘텐츠 편집장치 및 그 방법을 첨부한 도면 도 1 내지 도 12를 참조하여 상세하게 설명한다.
먼저, 텍스트와 음성을 동기화하여 멀티미디어 콘텐츠를 제작하기 위해서, 텍스트 입력부(10)는 텍스트 데이터를 입력받게 되고, 음성 입력부(30)는 음성을 입력받게 된다.
여기서 텍스트 입력부(10)는 키보드이거나 특정 텍스트 파일에서 추출한 텍스트 데이터가 입력되는 부분을 의미할 수 있다. 아울러 음성 입력부(30)는 음성 신호 입력을 위한 마이크이거나 특정 음성 파일에서 추출한 음성 데이터일 수 있다.
텍스트 입력부(10)를 통해 입력되는 텍스트 데이터는 텍스트 객체 생성부(20)에 전달되며, 텍스트 객체 생성부(20)는 입력된 텍스트 데이터로부터 동기화를 위한 텍스트 객체를 생성하게 된다(S10 ~ S20).
예컨대, 텍스트 객체는 도 4에 도시된 바와 같이, 단계 S11 내지 S12에서 입력된 텍스트 데이터를 문단 단위로 분리하게 된다. 여기서 입력된 텍스트 데이터로부터 문단 단위의 분리는 시작 텍스트부터 마침표를 탐색하고, 마침표 다음에 문단을 식별하기 위해 미리 설정된 데이터 간격 동안 다음 데이터가 검색되지 않으면 문단이라고 판단을 한다.
다음으로, 단계 S13에서 분리한 각 문단을 문장 단위로 분리하게 된다. 문단에서 문장의 분리는 마침표를 기준으로 한다. 예컨대, 문단에서 처음 텍스트가 검출되고 이후 처음으로 마침표가 검출되면 이것을 문장 단위로 분리한다. 그리고 마침표 이후 처음 텍스트가 검출되고 이후 다시 처음으로 마침표가 검출되면 이것도 문장 단위로 분리하게 된다.
마지막으로 단계 S14에서는 상기 분리한 각 문장을 단어 단위로 분리하고, 분리한 단어 단위의 텍스트 데이터를 텍스트 객체로 생성하게 된다. 여기서 문장으로부터 단어 단위의 텍스트 데이터 분리는 텍스트가 지속하다가 텍스트가 검출되지 않으면 그 검출되지 않는 시점의 바로 앞의 텍스트까지를 단어로 분리하게 된다. 이후 분리한 단어 단위의 텍스트 데이터를 텍스트 객체로 생성하게 된다. 다시 말해 텍스트 객체는 분리된 단어 단위를 의미한다. 여기서 단어 단위라고 표현한 것은 분리된 단위가 단어일 수도 있고 아니면 조사 등을 포함하는 단어일 수 있기 때문이다.
이러한 과정을 통해 텍스트 데이터로부터 생성된 텍스트 객체는 자동 동기화부(60)에 전달된다.
한편, 음성 인식부(40)는 상기 음성 입력부(30)를 통해 입력된 음성 데이터로부터 음성 텍스트 객체를 생성하게 된다(S20).
상기 음성 텍스트 객체 생성은 도 5에 도시된 바와 같이, 단계 S21 및 S22에서 입력된 음성 데이터에서 문장의 끝 위치를 지정하고, 단계 S23에서 상기 문장에서 도 2의 묵음 구간을 기준으로 음소 구간을 자동으로 검출하게 된다. 여기서 통상의 음성 데이터는 도 2에 도시된 바와 같이, 음성 신호가 존재하는 구간과 음성과 음성 중간에 음성 신호가 없는 구간인 묵음구간(무음 구간)이 존재한다. 따라서 이러한 묵음 구간을 기본으로 음소 구간을 자동으로 검출할 수 있다.
이후 단계 S24에서 텍스트 객체 정보를 참조하여 음성인식을 수행하고, 음성인식된 텍스트를 획득하게 된다. 여기서 음성 인식은 통상의 동적 시간 신축(DTW; dynamic time warping), 은닉 markov 모델(HMM; hidden markov model), 분산 신경망을 이용한 연속 음성 인식 방법, 제안단어 음성인식 방법을 이용할 수 있다.
다음으로, 단계 S25에서 음성 객체 생성부(50)는 상기 음성인식부(40)에서 음성 인식으로 획득된 텍스트를 음성 텍스트 객체로 생성하여 자동 동기화부(60)에 전달한다.
상기 자동 동기화부(60)는 단계 S30에서 상기 텍스트 객체와 음성 텍스트 객체를 동기화하게 된다.
여기서 텍스트 객체와 음성 텍스트 객체의 동기화는 템플릿 매칭 방식에 의한 자동 동기화 과정이 수행되며, 이후 자동 동기화 과정에서 동기화가 이루어지지 못한 텍스트 데이터와 음성 데이터를 GUI를 이용하여 동기화를 진행하는 GUI기반 동기화 과정이 수행된다.
그리고 텍스트 객체(단어)와 음성 객체(단어)의 동기화는 두 객체(단어)가 동일한 텍스트이면, 즉 같은 단어이면 서로 매핑되는 동기화 대상으로 지정한다. 같은 단어인가의 판단은 두 객체를 표현하는 문자가 동일한가를 비교하여 판단할 수 있다. 그런데 텍스트 객체는 그 자체가 문자로 표현 가능하지만, 음성 객체는 다른 과정을 거쳐 문자로 다시 표현해야 한다. 그 과정은 음성인식 기법을 이용하여 가능해 진다. 따라서, 두 객체 간의 동기화 여부 결정은 텍스트 객체의 문자(열)와 음성객체를 인식한 결과인 음성 객체의 문자(열)를 비교하여 동일한 문자(열)인가를 판단한다.
이를 좀 더 구체적으로 설명하면 도 11에 도시된 바와 같이, 단계 S31에서 입력된 단어 단위의 텍스트 객체를 기반으로 텍스트 템플릿 집합을 생성하게 된다. 여기서 템플릿이란 텍스트 객체와 음성 텍스트 객체를 상호 비교하기 용이하게 인위적으로 만들어 놓은 틀이라고 할 수 있다.
텍스트 데이터가 기준이 되어야 하기 때문에, 텍스트 문장을 단어 단위의 텍스트 객체의 문자열 집합으로 하는 템플릿을 생성한다. 즉, 텍스트 템플릿 집합(A)은 A = {aaa, bbb, ccc, ...}와 같이 생성한다.
다음으로, 단계 S32에서 음성인식의 결과로 이루어진 음성단어에 대한 음성 텍스트 템플릿 집합(B)을 생성하게 된다. 여기서 음성 텍스트는 음성 인식된 결과를 단어 단위의 문자열로 변환한 것으로서, 음성 텍스트 템플릿 집합(B)은 B = {a'a'a', b'b'b', c'c'c', ...}와 같이 생성한다.
이후 단계 S33에서 템플릿 집합 A를 기준으로 음성단어 집합 B를 매칭하는 템플릿 매칭 과정을 수행한다.
상기 두 집합에 속한 문자열들에 대한 비교는 집합 B의 각 요소(문자열)를 템플릿 집합 A의 각 요소(문자열)에 순서대로 1:1로 비교하는 것으로 구현된다. 즉 템플릿 매칭 요소 집합(T)은 T = {(aaa, a'a'a'), (aaa, b'b'b'), ..., (bbb, b'b'b'), (bbb, c'c'c'), ...}와 같이 결정되고, 각 요소를 순차적으로 비교하여 두 객체 문자열이 일치하는 즉, (aaa)=(a'a'a')인 경우에 두 객체가 완전하게 매칭된 것으로 판단한다. 예를 들어, "신데렐라는 호박 마차를 타고 궁전으로 갑니다."라는 텍스트 문장을 텍스트 템플릿 집합 A로 표시하면, A = {신데렐라는, 호박, 마차를, 타고, 궁전으로, 갑니다}로 표현되며, 이 집합은 6개의 단어 단위 객체로 구성되어 있음을 알 수 있다. 만약, 이 텍스트 문장에 대응한 음성 문장을 인식한 결과가 도 6과 같은 경우, 이를 단어 단위의 문자열 집합 B로 표현하면, B = {신데렐라는, 호박, 마차를, 타고, 궁전으로, 갑니다}와 같이 표현되었다면, 템플릿 비교를 통해 T = {(신데렐라, 신데렐라), (호박, 호박), (마차를, 마차를), (타고, 타고), (궁전으로, 궁전으로), (갑니다, 갑니다)}와 같이 6개의 매칭된 결과를 얻게 되고, 모든 객체가 일치하므로 텍스트 문장과 음성 문장은 동기화가 완료된다.
또한, 음성인식의 오류로 인해 도 7과 같은 음성인식 결과의 음성 텍스트 객체를 얻은 경우, 두 집합은 A = {신데렐라는, 호박, 마차를, 타고, 궁전으로, 갑니다}, B = {신데렐라는, 호박 마차를, 타고, 궁전으로, 갑니다}로 표현되고, T = {(신데렐라, 신데렐라), (타고, 타고), (궁전으로, 궁전으로), (갑니다, 갑니다)}
와 같은 5개의 매칭 객체를 얻게 된다.
이때, 매칭되지 않은 객체에 대해서는 비동기화 정보 생성부(70)에서 텍스트 객체 집합으로 템플릿 A'를 생성하고 또한 매칭되지 않은 음성 텍스트 객체 집합 B'를 생성하게 된다. 여기서 매칭되지 않은 객체에 대한 집합은 다음과 같이 표현된다.
A' = {호박, 마차를}, B' = {호박 마차를}
또한, 음성인식의 오류로 인해 도 8과 같은 음성인식 결과의 음성 텍스트 객체를 얻은 경우에, 매칭되지 않은 객체에 대한 집합은 다음과 같이 표현된다.
A' = {마차를, 타고}, B' = {마차를 타고}
이러한 과정으로 단계 S33에서 템플릿 매칭을 수행하고, 단계 S34에서 동일한 단어를 검출하며, 단계 S35에서 동기화 속성 정보를 생성하여 내부 메모리에 저장하게 된다.
미디어 동기화 대상인 텍스트 데이터와 음성 데이터는 본래 동일한 문자(열)를 갖는다. 즉, 단어 단위로 분리된 텍스트 객체와 음성 텍스트 객체의 문자(열)는 원칙적으로 완전하게 동일해야 하며, 이러한 비교는 텍스트 객체를 기준으로 판단해야 한다. 만약, 완벽한 음성인식 엔진이 있다면, 음성인식된 객체들과 텍스트 객체들은 완전하게 일치하게 될 것이다.
본 발명에서는 실시 예로 제한단어 음성인식 방식을 적용하였다. 이 경우 텍스트 데이터에 포함된 단어들만을 대상으로 제한적 인식을 수행함으로써 인식률이 매우 높지만, 음성인식 기술은 여전히 한계가 있어서, 특정 객체에 대한 인식률이 극히 낮거나 혹은 인식에 실패한 경우도 존재한다. 더구나, 단어 단위 음성인식을 위해 음성 데이터를 사전에 묵음 구간을 기준으로 음소단위 분리하여 인식을 수행할 경우, 음성 단어 분리 오류에 따른 오인식도 존재하게 된다.
이와 같은 이유 때문에, 텍스트 객체들과 음성인식 객체들이 일치하지 않을 경우, 이를 보완할 방법이 필요하며, 본 발명에서는 템플릿 매칭에 의한 보완 방법을 제시한다.
예컨대, 단계 S40에서는 상기와 같이 매칭되지 않은 집합에 대해서만 GUI 방식으로 동기화가 이루어지도록, 비동기화 정보를 생성하여 표시해주게 된다.
이를 위해 도 12에 도시한 바와 같이, 단계 S41에서 자동 동기화되지 않은 텍스트 객체 템플릿을 생성한다. 그리고 단계 S42에서 템플릿 객체 속성정보를 생성한다.
예컨대, 자동 동기화되지 않은 템플릿 집합(A')을 생성하는 과정에서, 자동 동기화되지 않은 객체들은 고유의 순차적인 번호가 부여되며, 또한 우측에 바로 인접한 객체가 자동 동기화된 객체인지를 구별하는 속성값을 갖게 된다. 이때, 속성값이 0이면 우측 객체는 자동 동기화된 객체를 의미하며, 0이 아닌 숫자의 경우 우측 객체의 고유한 순차 번호를 가리키며 이는 우측 객체 또한 자동 동기화되지 않은 객체라는 의미이다. 즉, 자동 동기화되지 않은 템플릿 A'는 동기화되지 않은 객체의 수 N(N=1, 2, ..., n)과 그 구간 정보 C(N)를 포함한 속성값을 가진다. 여기서, 구간 정보(C(N))는 C(N) = 0이면 동기화되지 않은 객체 N의 우측에 있는 객체는 동기화된 객체라는 의미이고, C(N) = k(k>N)이면 우측에 동기화되지 않는 객체가 있으며 그 고유 번호가 k라는 의미이다.
따라서, 도 7의 경우, A' = {호박, 마차를}이므로, 자동 동기화되지 않은 객체의 수 N = 2이고, A'(1) = {호박}, A'(2) = {마차를}로 표현되므로, C(1)=2, C(2)=0의 속성값을 갖는다. 즉, 이러한 속성값을 고려한 A'(1) = {호박}, A'(2)={마차를}, B' = {마차를 타고}의 관계로부터 B' = {마차를 타고}의 음성 단어 객체는 두 개로 분리되어야 한다는 것을 알 수 있다. 이와 같은 A'의 속성 정보 C(N)를 기준으로 GUI 방식에 의해 동기화 과정을 진행하면 된다.
GUI 방식에 의한 동기화 과정을 위해 단계 S43에서와 같이, 템플릿 매칭으로 자동 동기화되지 않은 구간을 음성 신호 표시 화면상에 컬러로 표시해주게 된다. 자동화되지 않은 영역을 컬러로 표시함으로써 작업자가 한눈에 파악할 수 있도록 시선 집중도를 높여주게 된다.
단계 S44에서 해당 구간 내에서 음성 단어 객체를 n개로 나눌 후보점 p를 생성해주게 된다. 예컨대, 도 7의 음성 단어 객체 {(호박 마차를)}의 경우, 도 6과 같이 두 개의 후보 객체 영역으로 나누어야 하므로 도 10과 같이 하나의 분리 후보점 p를 생성하고 화면상에서 후보 음성 객체 영역을 표시해주게 된다.
이러한 자동 동기화되지 않은 구간 표시와 후보점 생성으로, 작업자는 후보 음성 객체 영역을 클릭하여 청음하고, 청음 결과 동일한 텍스트일 경우 텍스트 객체 영역을 마우스로 클릭한다. 텍스트 객체 영역이 마우스로 선택되면 음성 후보 객체와 클릭한 텍스트 객체 간의 동기화가 이루어진다.
이렇게 동기화가 이루어진 동기화 정보는 자동 동기화 정보와 함께 내부 메모리에 저장된다. 상기 동기화 정보에 의해 제작된 멀티미디어 콘텐츠를 재생하는 경우, 음성 데이터와 텍스트 데이터 간의 동기화가 이루어지게 되는 것이다.
이상 본 발명자에 의해서 이루어진 발명을 상기 실시 예에 따라 구체적으로 설명하였지만, 본 발명은 상기 실시 예에 한정되는 것은 아니고 그 요지를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 물론이다.
본 발명은 텍스트 데이터와 음성 데이터를 자동 동기화하여 멀티미디어 콘텐츠를 제작하는 기술에 적용된다. 특히, 교육용 멀티미디어 콘텐츠 제작에 효과적으로 적용할 수 있다.
10… 텍스트 입력부
20… 텍스트 객체 생성부
30… 음성 입력부
40… 음성 인식부
50… 음성 객체 생성부
60… 자동 동기화부
70… 비동기화 정보 생성부
80… 비동기화 정보 표시부

Claims (9)

  1. 입력된 텍스트 데이터를 문단/문장/단어 단위 순으로 순차 분리한 후 단어 단위의 텍스트 객체를 생성하는 텍스트 객체 생성부;
    입력된 음성 데이터의 문장 끝 위치를 지정하고 음소 구간을 검출한 후 음성 인식을 하는 음성 인식부;
    상기 음성 인식부에서 인식된 음성 데이터로부터 음성 텍스트 객체를 생성하는 음성 객체 생성부;
    상기 텍스트 객체와 음성 텍스트 객체를 템플릿 매칭 방식으로 대비시켜 음성과 텍스트를 동기화하는 자동 동기화부;
    상기 자동 동기화부와 연결되어 동기화가 이루어지지 않은 텍스트 객체를 비 동기화 정보로 생성하는 비 동기화 정보 생성부;
    상기 비 동기화 정보 생성부에서 생성된 비 동기화 정보를 사용자가 수작업으로 동기화할 수 있도록 시각적으로 표시해주는 비동기화 정보 표시부를 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠 편집장치.
  2. 삭제
  3. (a) 텍스트 객체 생성부에서 입력된 텍스트 데이터로부터 단어 단위의 텍스트 객체를 생성하는 단계;
    (b) 음성 객체 생성부에서 입력된 음성 데이터로부터 음성인식을 통해 음성 텍스트 객체를 생성하는 단계;
    (c) 자동 동기화부에서 상기 텍스트 객체와 음성 텍스트 객체의 템플릿을 생성하고, 템플릿 매칭으로 자동 동기화를 실행하는 단계;
    (d) 상기 (c)단계에서 동기화가 이루어지지 않은 객체들을 대상으로 텍스트 객체 템플릿을 생성하고, 텍스트 객체 템플릿을 기초로 비동기화 정보를 생성하여 표시해주는 단계;
    (e) 동기화된 객체의 속성을 저장하는 단계를 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠 편집방법.
  4. 삭제
  5. 청구항 3에 있어서, 상기 (a)단계는 (a-1) 입력된 텍스트 데이터를 문단 단위로 분리하는 단계; (a-2) 분리한 각 문단을 문장 단위로 분리하는 단계; (a-3) 분리한 각 문장을 단어 단위로 분리하고, 분리한 단어 단위의 텍스트 데이터를 텍스트 객체로 생성하는 단계를 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠 편집방법.
  6. 청구항 3에 있어서, 상기 (b)단계는 (b-1) 입력된 음성 데이터에서 문장의 끝 위치를 지정하는 단계; (b-2) 상기 문장에서 묵음 구간을 기준으로 음소 구간을 자동으로 검출하는 단계; (b-3) 텍스트 객체 정보를 참조하여 음성인식을 수행하여 음성인식된 텍스트를 획득하는 단계; (b-4) 획득된 텍스트를 음성 텍스트 객체로 생성하는 단계를 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠 편집방법.
  7. 청구항 3에 있어서, 상기 (c)단계는 (c-1) 상기 단어 단위의 텍스트 객체로 구성된 텍스트 템플릿 집합을 생성하는 단계; (c-2) 음성인식의 결과로 이루어진 음성 텍스트 객체에서 단어 집합으로 구성된 음성 텍스트 템플릿 집합을 생성하는 단계; (c-3) 상기 텍스트 템플릿 집합과 상기 음성 텍스트 템플릿 집합을 매칭하는 단계; (c-4) 상기 템플릿 매칭 결과로부터 동일한 단어를 검출하는 단계; (c-5) 검출된 동일한 단어들을 동기화정보로 생성하는 단계를 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠 편집방법.
  8. 청구항 3에 있어서, 상기 (d)단계는 (d-1) 상기 (c)단계에서 동기화되지 않은 텍스트 객체들로 텍스트 객체 템플릿을 구성하는 단계; (d-2) 상기 텍스트 객체 템플릿에 포함된 각 객체에 대한 속성 정보를 생성하는 단계; (d-3) 동기화되지 않은 구간을 음성 신호 표시 화면상에 컬러로 표시하는 단계; (d-4) 상기 구간 내에서 음성 단어 객체를 복수로 나눌 후보 점을 생성하여 비 동기화 정보로 표시해주는 단계를 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠 편집방법.
  9. 청구항 8에 있어서, 상기 (d-2)단계는 텍스트 객체 템플릿 집합에서 자동 동기화된 객체들을 제외하고 자동 동기화되지 않은 텍스트 객체들로 구성된 템플릿 집합을 생성하고, 생성한 템플릿 집합의 객체들에게 고유의 순차적인 번호를 부여하고, 해당 객체의 우측에 바로 인접한 객체에 관한 속성값을 지정하여 속성 정보를 생성하는 것을 특징으로 하는 멀티미디어 콘텐츠 편집방법.

KR20130030117A 2013-03-21 2013-03-21 멀티미디어 콘텐츠 편집장치 및 그 방법 KR101493006B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR20130030117A KR101493006B1 (ko) 2013-03-21 2013-03-21 멀티미디어 콘텐츠 편집장치 및 그 방법
PCT/KR2013/002502 WO2014148665A2 (ko) 2013-03-21 2013-03-26 멀티미디어 콘텐츠 편집장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20130030117A KR101493006B1 (ko) 2013-03-21 2013-03-21 멀티미디어 콘텐츠 편집장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20140115536A KR20140115536A (ko) 2014-10-01
KR101493006B1 true KR101493006B1 (ko) 2015-02-13

Family

ID=51581569

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20130030117A KR101493006B1 (ko) 2013-03-21 2013-03-21 멀티미디어 콘텐츠 편집장치 및 그 방법

Country Status (2)

Country Link
KR (1) KR101493006B1 (ko)
WO (1) WO2014148665A2 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10889714B2 (en) 2016-01-26 2021-01-12 Toray Industries, Inc. Polyphenylene sulfide resin composition and manufacturing method of the same
CN110349572B (zh) * 2017-05-27 2021-10-22 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器
CN107908743B (zh) * 2017-11-16 2021-12-03 百度在线网络技术(北京)有限公司 人工智能应用构建方法和装置
KR102642259B1 (ko) * 2023-06-22 2024-03-04 유니닥스 주식회사 Ai 학습용 데이터 가공 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR900702495A (ko) * 1988-07-25 1990-12-07 프레드릭 제이. 비스코 발음 및 언어 훈련 장치와 그 방법
JP2009008884A (ja) * 2007-06-28 2009-01-15 Internatl Business Mach Corp <Ibm> 音声の再生に同期して音声の内容を表示させる技術

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004090746A1 (en) * 2003-04-14 2004-10-21 Koninklijke Philips Electronics N.V. System and method for performing automatic dubbing on an audio-visual stream
US8862255B2 (en) * 2011-03-23 2014-10-14 Audible, Inc. Managing playback of synchronized content
CN102737631A (zh) * 2011-04-15 2012-10-17 富泰华工业(深圳)有限公司 互功式语音识别电子装置及方法
KR20120129015A (ko) * 2011-05-18 2012-11-28 조성진 어학 컨텐츠 생성 방법 및 이를 위한 단말기

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR900702495A (ko) * 1988-07-25 1990-12-07 프레드릭 제이. 비스코 발음 및 언어 훈련 장치와 그 방법
JP2009008884A (ja) * 2007-06-28 2009-01-15 Internatl Business Mach Corp <Ibm> 音声の再生に同期して音声の内容を表示させる技術

Also Published As

Publication number Publication date
WO2014148665A3 (ko) 2015-05-07
KR20140115536A (ko) 2014-10-01
WO2014148665A2 (ko) 2014-09-25

Similar Documents

Publication Publication Date Title
JP5313466B2 (ja) 音声の再生に同期して音声の内容を表示させる技術
Mauch et al. Integrating additional chord information into HMM-based lyrics-to-audio alignment
US8688725B2 (en) Search apparatus, search method, and program
CN108268530B (zh) 一种歌词的配乐生成方法和相关装置
US20170047060A1 (en) Text-to-speech method and multi-lingual speech synthesizer using the method
US20090048832A1 (en) Speech-to-text system, speech-to-text method, and speech-to-text program
US20060112812A1 (en) Method and apparatus for adapting original musical tracks for karaoke use
KR101493006B1 (ko) 멀티미디어 콘텐츠 편집장치 및 그 방법
US9711133B2 (en) Estimation of target character train
JP6615952B1 (ja) テキスト表示用同期情報生成装置および方法
KR101325722B1 (ko) 사용자 입력 노래에 대응한 악보 생성 장치와 그 방법
US9905221B2 (en) Automatic generation of a database for speech recognition from video captions
JP5943436B2 (ja) テキストデータと読み上げ音声データとの同期処理装置および同期処理プログラム
Lee et al. Word level lyrics-audio synchronization using separated vocals
TWI605350B (zh) 文字轉語音方法以及多語言語音合成裝置
Kruspe et al. Retrieval of Textual Song Lyrics from Sung Inputs.
Moniz et al. Extending AuToBI to prominence detection in European Portuguese
US5806039A (en) Data processing method and apparatus for generating sound signals representing music and speech in a multimedia apparatus
JP2008020621A (ja) コンテンツオーサリングシステム
JP6849977B2 (ja) テキスト表示用同期情報生成装置および方法並びに音声認識装置および方法
JP2013069170A (ja) 検索装置、検索方法およびプログラム
JP2012181307A (ja) 音声処理装置、音声処理方法及び音声処理プログラム
US20090043568A1 (en) Accent information extracting apparatus and method thereof
TWI269191B (en) Method of synchronizing speech waveform playback and text display
Pedone et al. Phoneme-level text to audio synchronization on speech signals with background music

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
FPAY Annual fee payment

Payment date: 20180207

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190208

Year of fee payment: 5