KR101030777B1 - 스크립트 데이터 생성 방법 및 장치 - Google Patents

스크립트 데이터 생성 방법 및 장치 Download PDF

Info

Publication number
KR101030777B1
KR101030777B1 KR1020100111615A KR20100111615A KR101030777B1 KR 101030777 B1 KR101030777 B1 KR 101030777B1 KR 1020100111615 A KR1020100111615 A KR 1020100111615A KR 20100111615 A KR20100111615 A KR 20100111615A KR 101030777 B1 KR101030777 B1 KR 101030777B1
Authority
KR
South Korea
Prior art keywords
information
syllable
audio data
word
phrase
Prior art date
Application number
KR1020100111615A
Other languages
English (en)
Inventor
임광순
김인송
Original Assignee
김인송
임광순
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김인송, 임광순 filed Critical 김인송
Priority to KR1020100111615A priority Critical patent/KR101030777B1/ko
Application granted granted Critical
Publication of KR101030777B1 publication Critical patent/KR101030777B1/ko
Priority to PCT/KR2011/008522 priority patent/WO2012064110A2/ko
Priority to CN2011800538470A priority patent/CN103210447A/zh

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • G11B2020/10546Audio or video recording specifically adapted for audio data
    • G11B2020/10555Audio or video recording specifically adapted for audio data wherein the frequency, the amplitude, or other characteristics of the audio signal is taken into account

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 오디오 데이터에 대한 스크립트 데이터를 생성하는 방법 및 장치에 관한 것으로, 오디오 데이터의 실제 소리 구간의 전체 시간 정보를 획득하는 단계와, 텍스트 데이터에 기초하여 소리 구간에 대한 전체 음절수 정보를 획득하는 단계와, 전체 시간 정보 및 전체 음절수 정보에 기초하여 한 음절에 대응하는 단위 음절 시간 정보를 산출하는 단계와, 텍스트 데이터에서 예측이 필요한 단어 또는 구절까지가 차지하는 소리 구간의 구간 음절수 정보와 단위 음절 시간 정보에 기초하여 오디오 데이터의 대응 소리 구간에 대한 예측 재생 위치 정보를 획득하는 단계와, 예측 재생 위치의 이전 또는 이후에 위치하는 오디오 데이터의 묵음 구간들 중 예측 재생 위치에 가장 인접한 묵음 구간을 실제 재생 위치 정보로 저장하는 단계를 포함하는 스크립트 데이터 생성 방법을 제공한다.

Description

스크립트 데이터 생성 방법 및 장치{METHOD AND APPARATUS FOR PRODUCING SCRIPT DATA}
본 발명은 오디오 데이터에 대한 매칭 정보를 구비하는 스크립트 데이터를 생성하기 위한 방법 및 장치에 관한 것이다.
최근, 휴대용 전자기기와 인터넷 등의 발달에 힘입어 다양한 내용의 멀티미디어 콘텐츠가 폭넓게 보급되어 이용되고 있다. 예를 들면, 영어, 일어, 중국어 등의 언어 습득을 위한 다양한 종류의 듣기 학습용 음성 파일이 보급되어 이용되고 있다.
언어 학습을 위한 하나의 음성 파일과 이에 대응하는 문자로 된 스크립트가 존재하는 경우, 스크립트의 원하는 위치에서 그에 대응하는 음성 파일의 소리 구간을 재생하기 위해서는 음성 파일의 제조시 해당 정보를 음성 파일 내에 삽입해야 한다.
그러나, 기존의 소정의 재생 위치 정보를 구비한 음성 파일의 경우, 단락별로 재생할 수 있는 정보를 포함하는 것에 불과하여 실질적으로 길이가 긴 단락 내의 특정 문장을 재생하고자 할 때 음성 파일의 대응 소리 구간을 직접 탐색해야 하므로 음성 파일을 사용하기 어려운 문제가 있다.
한편, 재생 위치 정보가 저장되지 않은 음성 파일의 경우, 스크립트의 특정 단어나 구절에 대응하는 음성 파일의 소리 구간을 임의로 재생하는 것은 어렵다. 예를 들어, 재생 위치 정보가 저장되어 있지 않은 음성 파일에 있어서 스크립트의 원하는 단어나 구절 또는 문장에 대응하는 소리 구간을 재생하기 위해서는 사용자 자신이 직접 되감기나 빨리감기 버튼을 수동 조작하여 음성 파일의 내용을 확인하면서 해당 부분을 찾아야 하는 문제가 있다.
본 발명은 전술한 문제점을 해결하기 위하여 안출된 것으로, 스크립트 내의 문장 또는 단어에 대하여 음성 파일의 실제 소리 구간을 손쉽게 매칭시키는 정보를 구비하는 스크립트 데이터 생성 방법을 제공하는 데에 주된 목적이 있다.
본 발명은 전술한 스크립트 데이터 생성 방법을 채용할 수 있는 스크립트 데이터 생성 장치를 제공하는 데에 또 다른 목적이 있다.
상기 기술적 과제를 해결하기 위하여 본 발명의 일 측면에 따르면, 오디오 데이터와 오디오 데이터의 내용이 기재된 텍스트 데이터에 기초하여 텍스트 데이터의 단어 또는 구절에 대응하는 오디오 데이터의 재생 위치 정보를 가진 스크립트 데이터를 생성하기 위한 방법으로서, 오디오 데이터의 소리 구간에 대한 전체 시간 정보를 획득하는 제1 단계; 텍스트 데이터에 기초하여 소리 구간에 대한 전체 음절수 정보를 획득하는 제2 단계; 전체 시간 정보 및 전체 음절수 정보에 기초하여 한 음절에 대응하는 단위 음절 시간 정보를 산출하는 제3 단계; 텍스트 데이터에서 예측이 필요한 단어 또는 구절 직전까지의 적어도 하나의 소리 구간이 차지하는 구간 음절수 정보를 파악하는 제4 단계; 구간 음절수 정보와 단위 음절 시간 정보에 기초하여 오디오 데이터에서 예측이 필요한 단어 또는 구절에 대한 예측 재생 위치 정보를 획득하는 제5 단계; 오디오 데이터의 각 소리 구간의 시간 정보를 순차적으로 더한 값과 예측 재생 위치 정보를 비교하는 제6 단계; 및 각 소리 구간의 시간 정보를 순차적으로 더한 값이 예측 재생 위치 정보와 일치할 때 예측 재생 위치 정보에 가장 인접한 묵음 구간 내의 소정 위치를 예측이 필요한 단어 또는 구절에 대한 실제 재생 위치로 텍스트 데이터에 저장하는 제7 단계를 포함하는 스크립트 데이터 생성 방법이 제공된다.
일 실시예에서, 제1 단계는 오디오 데이터의 시간에 따른 진폭 정보에 기초하여 각 소리 구간에 대한 시간 정보를 추출하는 단계를 포함한다.
일 실시예에서, 제1 단계는 오디오 데이터의 시간에 따른 진폭 정보에 기초하여 오디오 데이터 내의 묵음 구간을 추출하는 단계; 및 묵음 구간의 추출에 의해 얻은 각 묵음 구간의 시간 정보와 오디오 데이터 자체의 전체 시간 정보에 기초하여 소리 구간에 대한 전체 시간 정보를 획득하는 단계를 포함한다.
일 실시예에서, 제2 단계는 텍스트 데이터를 음절 문자 또는 음절 문자의 속성을 가진 문자 또는 기호로 표기한 발음사전 정보에 기초하여 텍스트 데이터의 단어 또는 구절에 대한 음절수를 획득하는 단계를 포함한다.
일 실시예에서, 제4 단계는 예측이 필요한 단어 또는 구절로서 텍스트 데이터의 첫 번째 단어 또는 구절에서부터 마지막 단어 또는 구절까지를 하나씩 순차적으로 선택하는 단계를 포함한다.
일 실시예에서, 제6 단계는 텍스트 데이터의 첫 번째 단어 또는 구절에 대응하는 오디오 데이터의 첫 번째 소리 구간에서부터 마지막 단어 또는 구절에 대응하는 오디오 데이터의 마지막 소리 구간까지의 각 소리 구간의 시간 정보를 하나씩 순차적으로 더해가며 예측 재생 위치 정보와 일치하는 위치를 탐색하는 단계를 포함한다.
본 발명의 또 다른 측면에 따르면, 오디오 데이터와 오디오 데이터의 내용이 기재된 텍스트 데이터에 기초하여 텍스트 데이터의 단어 또는 구절에 대응하는 오디오 데이터의 재생 위치 정보를 가진 스크립트 데이터를 생성하기 위한 장치로서, 오디오 데이터의 소리 구간에 대한 전체 시간 정보를 획득하는 진폭비교부; 텍스트 데이터에 기초하여 소리 구간에 대한 전체 음절수 정보를 획득하는 음절수추출부; 진폭비교부로부터 얻은 전체 시간 정보 및 음절수추출부로부터 얻은 전체 음절수 정보에 기초하여 한 음절에 대응하는 단위 음절 시간 정보를 산출하는 단위시간산출부; 텍스트 데이터 내에서 예측이 필요한 단어 또는 구절 직전까지의 적어도 하나의 소리 구간이 차지하는 구간 음절수와 단위 음절 시간 정보에 기초하여 오디오 데이터의 예측이 필요한 단어 또는 구절에 대한 예측 재생 위치 정보를 획득하는 재생위치예측부; 및 오디오 데이터의 각 소리 구간의 시간 정보를 순차적으로 더한 값과 예측 재생 위치 정보를 비교하고, 상기 값이 예측 재생 위치 정보와 일치할 때 예측 재생 위치 정보에 가장 인접한 묵음 구간 내의 소정 위치를 예측이 필요한 단어 또는 구절에 대한 실제 재생 위치로서 텍스트 데이터에 저장하는 재생위치탐색부를 포함하는 스크립트 데이터 생성 장치가 제공된다.
일 실시예에서, 진폭비교부는 오디오 데이터의 시간에 따른 진폭 정보에 기초하여 소리 구간을 추출하고, 추출된 각 소리 구간의 시간 정보에 기초하여 전체 시간 정보를 산출한다.
일 실시예에서, 진폭비교부는 오디오 데이터의 시간에 따른 진폭 정보에 기초하여 오디오 데이터 내의 묵음 구간을 추출하고, 추출된 각 묵음 구간의 시간 정보와 오디오 데이터 자체의 전체 시간 정보에 기초하여 소리 구간의 전체 시간 정보를 산출한다.
일 실시예에서, 음절수추출부는 텍스트 데이터를 음절 문자 또는 음절 문자의 속성을 가진 문자 또는 기호로 표기한 발음사전 정보에 기초하여 텍스트 데이터의 단어 또는 구절에 대한 음절수를 획득한다.
일 실시예에서, 재생위치예측부는 예측이 필요한 단어 또는 구절로서 텍스트 데이터의 첫 번째 단어 또는 구절에서부터 마지막 단어 또는 구절까지를 하나씩 순차적으로 선택한다.
일 실시예에서, 재생위치탐색부는 텍스트 데이터의 첫 번째 단어 또는 구절에 대응하는 오디오 데이터의 첫 번째 소리 구간에서부터 텍스트 데이터의 마지막 단어 또는 구절에 대응하는 오디오 데이터의 마지막 소리 구간까지의 각 소리 구간의 시간 정보를 하나씩 순차적으로 더해가며 예측 재생 위치 정보와 일치하는 위치를 탐색한다.
본 발명에 의하면, 소정의 음성 파일에 대응하는 문자로 된 스크립트 파일 상의 특정 위치를 음성 파일 내의 대응 소리 구간에 간단히 매칭시킴으로서 음성 파일의 이용률을 높이고 사용자 편의성을 향상시킬 수 있는 스크립트 데이터 생성 방법과 이 방법에 의해 제조되는 스크립트 데이터를 제공할 수 있다.
또한, 본 발명의 스크립트 데이터를 이용하여 기록 및/또는 재생 장치에서 구동되는 프로그램 어플리케이션이나 스크립트 데이터가 기록된 컴퓨터에서 실행 가능한 저장 매체를 제공할 수 있다.
또한, 본 발명에 의하면, 문장 단위뿐만 아니라 스크립트 내의 임의 구절이나 단어에 대하여도 음성 파일 내에 대응 재생 위치를 매칭시킬 수 있다. 따라서, 스크립트 데이터 상에서 오디오 데이터의 원하는 재생 위치를 임의로 지정할 수 있으므로 오디오 데이터의 내용을 직접 확인하며 탐색하는 불편을 해소할 수 있고, 어학 듣기 학습 등의 용도에서 스크립트 데이터의 활용도를 크게 향상시킬 수 있다.
도 1은 본 발명의 스크립트 데이터 생성 방법을 채용할 수 있는 기록 및/또는 재생 장치의 일례에 대한 개략적인 구성도이다.
도 2는 본 발명의 스크립트 데이터 생성 방법에 채용가능한 사전 준비 과정의 일 실시예에 대한 순서도이다.
도 3a는 도 2의 사전 준비 과정에 채용가능한 텍스트 데이터의 일 실시예에 대한 도면이다.
도 3b는 도 2의 사전 준비 과정에 채용가능한 오디오 데이터의 일 실시예에 대한 도면이다.
도 4는 본 발명의 일 실시예에 따른 스크립트 데이터 생성 방법에 대한 순서도이다.
도 5a는 도 4의 스크립트 데이터 생성 방법에 채용가능한 텍스트 데이터의 일 실시예에 대한 도면이다.
도 5b는 도 5a의 텍스트 데이터를 이용하여 생성된 본 발명의 스크립트 데이터의 일 실시예에 대한 도면이다.
도 6은 도 4의 스크립트 데이터 생성 방법에 채용가능한 오디오 데이터의 일 실시예에 대한 도면이다.
도 7a 및 도 7b는 도 4의 스크립트 데이터 생성 방법에 채용가능한 발음사전 정보의 일 실시예에 대한 도면들이다.
도 8은 도 4의 스크립트 데이터 생성 방법에서 스크립트 데이터의 특정 위치에 대응하는 오디오 데이터의 재생 위치를 예측 및 탐색하는 과정을 설명하기 위한 도면이다.
도 9는 본 발명의 일 실시예에 따른 스크립트 데이터 생성 장치에 대한 블록도이다.
이하, 첨부 도면을 참조하여 본 발명에 의한 실시예들을 상세하게 설명하기로 한다.
도 1은 본 발명의 스크립트 데이터 생성 방법을 채용할 수 있는 기록 및/또는 재생 장치의 일례에 대한 개략적인 구성도이다.
도 1을 참조하면, 본 발명의 스크립트 데이터 생성 방법을 구현하는 기록 및/또는 재생 장치는 오디오 데이터를 실행시켜 음성 또는 소리를 출력하고, 텍스트 데이터(140)를 소정의 프로그램을 통해 화면으로 볼 수 있는 장치이다. 예를 들면, 기록 및/또는 재생 장치는 디스플레이 화면을 구비하고 스피커(110)에 연결되는 컴퓨터 장치(120), 스마트폰과 같이 컴퓨터 기능을 구비한 모바일 단말(130), 멀티미디어 파일을 기록하고 재생할 수 있는 휴대용 컴퓨터의 일종인 개인 휴대 정보 단말기(PDA: Personal digital assistant), 터치패드 화면을 구비하고 이어폰이나 스피커를 연결하여 오디오 데이터를 출력할 수 있는 엠피쓰리(MP3) 플레이어 등의 오디오 재생 장치를 포함한다.
이러한 기록 및/또는 재생 장치(이하, 간단히 재생 장치라고 한다)는 저장 매체를 구비한다. 본 실시예에 있어서 재생 장치의 저장 매체에는 스크립트 데이터 생성 방법을 구현하는 프로그램과 이 프로그램을 실행하는 어플리케이션이 저장될 수 있다. 또한, 저장 매체에는 본 실시예에 따른 스크립트 데이터 생성 방법을 구현하기 위한 데이터가 저장될 수 있다.
예를 들면, 데이터는 오디오 데이터의 실제 소리 구간의 시간 정보, 텍스트 데이터에 기초하여 획득된 소리 구간에 대한 전체 음절수 정보, 텍스트 데이터의 한 음절에 대응하는 단위 음절 시간 정보, 텍스트 데이터의 각 단어 또는 구절에 대응하는 소리 구간까지의 구간 음절수 정보, 및 구간 음절수 정보와 단위 음절 시간 정보에 기초하여 특정 단어 또는 구절에 대응하는 오디오 데이터의 실제 재생 위치 정보 등을 포함할 수 있다.
본 실시예의 재생 장치는 영어, 일어, 중국어 등의 듣기 학습용으로 이용될 수 있다. 다시 말하면, 본 실시예의 재생 장치는 예컨대 영어 듣기 학습을 위해 음성 파일(또는 오디오 데이터)과 이에 대응되는 문자로 된 스크립트(또는 텍스트 데이터)가 존재하는 경우, 스크립트의 각 단어, 구절, 또는 문장에 대응하는 소리 구간을 매칭시킬 수 있는 알고리즘 또는 그에 상응하는 프로그램을 구비할 수 있다.
스크립트는 이하의 본 실시예에 대한 상세한 설명에서 언급되는 스크립트 데이터와 구별하기 위하여 스크립트 원본 또는 텍스트 데이터로 지칭한다. 여기서, 텍스트 데이터 또는 스크립트 원본은 본 실시예에 따른 실제 재생 위치 정보가 기록되지 않은 기존의 스크립트를 지칭한다.
전술한 재생 장치에 의해 구현되는 알고리즘 또는 스크립트 데이터를 제공하기 위하여, 본 발명자는 영어, 일어, 중국어 등의 소정 언어로 된 오디오 데이터와 그에 대응하는 문자로 된 스크립트 원본에 있어서 스크립트 원본에 대응하는 음절문자에 기초하여 오디오 데이터의 소리 구간에 대한 음절수를 파악함으로써, 스크립트 원본의 특정 문장이나 구절 또는 단어에 대응하는 오디오 데이터 내의 재생 위치를 예측하여 스크립트 원본과 오디오 데이터를 매칭시킬 수 있는 스크립트 데이터 생성 방안을 제안한다.
스크립트 데이터 생성 방안에 있어서, 오디오 데이터의 소리 구간에 대한 음절수를 파악하기 위하여 스크립트 원본을 음절 문자나 그에 상응하는 문자 또는 기호로 변환하는 사전 작업이 선행될 수 있다. 그 경우, 음절 문자나 그에 상응하는 문자 또는 기호는 스크립트 원본을 소리나는 대로 문자화할 수 있는 언어의 문자로서 일본어의 가나, 한국어의 한글, 키프로스문자, 아메리카인디언의 체로키문자, 또는 세계 각 국에서 과거나 현재에 사용되었거나 사용되고 있는 언어로서 음절문자이거나 적어도 음절문자의 속성을 가지는 문자를 포함한다. 여기서, 음절문자는 소리의 한 음절을 한 글자로 나타내는 문자를 지칭한다.
일 실시예에 있어서 본 발명자는 영어와 달리 한글이 음절문자의 속성을 가진 문자임에 착안하여, 영어 단어 각각에 해당하는 발음을 한글로 사전화하고, 이를 통해 스크립트 원본의 영어 단어들이 어느 정도의 길이로 발음될지를 예측함으로써 음성 파일에서 예측된 길이에 가장 알맞은 구간을 선택할 수 있도록 하고, 그것에 의해 스크립트 원본과 음성 파일을 임의로 매칭시킬 수 있는 스크립트 데이터 생성 방법을 제안한다. 스크립트 원본에 기초하여 영어 스크립트 원본의 각 단어 또는 구절에 대한 음절수를 한글 음절로 파악하는 경우 예컨대, 영어-한글 발음사전을 이용하는 경우, 예측의 정확도를 높이기 위해 한글 발음에 장음기호가 이용될 수 있다.
또한, 또 다른 사전 작업으로서, 준비된 음성파일을 각각의 듣기 단락 예컨대 영어 듣기 문제별로 구분되는 각 단락에 대응되는 음성 정보로 나누는 작업이 선행될 수 있다. 여기서, 각 단락 또는 각 단락의 적어도 하나의 문장에 대응하는 음성 정보를 오디오 데이터라고 한다.
상기 과정은 여러 듣기 단락으로 이루어진 음성 파일이 하나의 파일로 제공되는 경우에 전체 구간을 대상으로 예측을 할 때 발생하는 오차의 확산을 막고, 단락과 단락 사이에 주로 삽입되는 원하는 소리 구간이 아닌 예컨대 안내 멘트, 전화벨 소리, 웅성대는 소리 등의 소리에 대한 악영향을 줄이기 위함이다.
전술한 사전 작업을 좀더 구체적으로 설명하면 도 2에 나타낸 바와 같다. 도 2는 본 발명의 스크립트 데이터 생성 방법에 채용가능한 사전 준비 과정의 일 실시예에 대한 순서도이다.
이하의 상세한 설명에서는 스크립트 원본의 단어나 구절에 대한 음절수를 예측하기 위한 수단으로 음절 문자의 속성을 가진 한글을 이용하는 것을 예를 들어 설명한다.
도 2를 참조하면, 먼저 본 발명의 일 실시예에 따른 스크립트 데이터 생성 방법을 구현하는 재생 장치에 문자로 된 스크립트 원본을 입력한다(S210). 스크립트 원본은 도 3a에 도시한 시험지에 대응하는 텍스트 데이터(도 5a 참조)가 될 수 있다.
다음, 듣기 단락(문제)의 개수를 파악한다(S215). 듣기 단락의 개수는 스크립트 원본의 인접한 텍스트 단락들 사이사이에 위치하는 빈 라인이나 음성 파일의 인접한 단락들 사이에 삽입되는 상대적으로 긴 묵음 구간에 기초하여 파악될 수 있다.
다음, 음성 파일이 단락별로 제공되는가를 판단한다(S220). 본 단계(S220)에서의 판단결과, 음성 파일이 단락별로 제공되는 것이 아니면, 복수의 단락을 구비하는 음성 파일에 대하여 이하의 소정 작업을 진행할 수 있도록 음성 파일을 소정 장치 예컨대 본 실시예의 스크립트 데이터 생성 방법의 사전 작업을 구현하는 장치에 입력한다(S225).
다음, 음성 파일의 시간에 따른 진폭 정보를 토대로 소리가 나지 않는 묵음 구간을 추출한다(S230).
다음, 묵음 구간을 길이 예컨대 시간에 대한 구간 길이에 따라 내림차순으로 정렬한다(S235). 묵음 구간을 정렬하면 단락과 단락 사이의 긴 묵음 구간이 단락 또는 문장 내의 상대적으로 짧은 묵음 구간에 비해 상대적으로 큰 값 즉 우선 순위를 가지므로 이를 이용하여 듣기 단락(문제)의 개수를 손쉽게 파악할 수 있다.
다음, 듣기 단락 개수만큼의 구간을 선택하여 하나의 음성 파일을 단락별로 분리한다(S240). 본 단계에서는 상대적으로 분명하게 구별되는 긴 묵음 구간의 개수에 기초하여 듣기 단락의 개수를 파악한 후 단락별로 그에 대응하는 음성 정보를 준비하기 위한 것이다.
다음, 각 음성 정보가 실제 음성 파일의 각 단락과 서로 일치하는가를 판단한다(S245). 본 단계(S245)에서의 판단결과, 각 음성 정보가 실제 음성 파일의 각 단락과 서로 일치하면, 음성 파일의 각 듣기 단락에 해당하는 음성 정보의 준비를 완료한다(S250). 준비된 음성 정보는 재생 장치의 소정의 메모리나 저장장치에 저장될 수 있다.
한편, 위 단계(S245)에서의 판단결과, 각 음성 정보가 실제 음성 파일의 각 단락과 서로 일치하지 않으면, 음성 정보에 대한 수정 작업을 진행한다(S255). 각 음성 정보가 실제 음성 파일의 각 단락과 서로 일치하지 않는 경우는 주로 음성 파일이 스크립트와 상관없는 안내 멘트나 음향 효과 등을 포함하는 경우인데, 그러한 경우 사용자는 스크립트와 상관없는 소리 구간을 매칭 과정에서 통과하거나 배제하도록 처리할 수 있다. 수정 작업은 재생 장치에 탑재된 오디오 편집 프로그램의 유저인터페이스를 통해 수행될 수 있다. 수정 작업에 의해 각 음성 정보가 실제 스크립트 단락과 일치하면, 각 듣기 단락(문제)에 해당하는 음성 정보의 준비를 완료한다(S250).
한편, 위 단계(S220)에서의 판단결과, 음성 파일이 단락별로 제공되는 것이면, 단락별로 제공되는 각각의 음성 파일을 입력한다(S260). 본 단계(S260)에 따르면, 단락별로 제공되는 각각의 음성 파일이 존재하므로, 스크립트에서 소정 단락(문제)이 선택될 때 이에 대응하는 음성 파일로 이동할 수 있고, 따라서 단락별 음성 정보를 생성할 필요 없이 본 사전 작업을 종료할 수 있다.
도 3a는 도 2의 사전 준비 과정에 채용가능한 텍스트 데이터의 일 실시예에 대한 도면이다. 도 3b는 도 2의 사전 준비 과정에 채용가능한 오디오 데이터의 일 실시예에 대한 도면이다.
본 실시예에 따른 스크립트 데이터 생성 방법을 구현하기 위한 사전 준비 작업은 도 3a에 도시한 바와 같이 '2011학년도 대학수학능력시험 모의평가 문제지 외국어(영어) 영역'에 대한 시험지(300) 또는 그에 대응하는 스크립트 원본에 대하여 적용될 수 있다. 예컨대, 2번 문제(320) 앞에 표시된 사각형 박스 표시(322)를 마우스나 터치패드 등의 입력 장치로 선택하면, 그에 대응하는 오디오 데이터의 소리 구간이 재생되도록 준비될 수 있다.
시험지(300)의 2번 내지 7번-여기서, 3번 내지 6번은 도시의 편의상 생략됨-에 대한 각 듣기 단락별 음성 정보는 도 3b에 도시한 바와 같다. 예컨대, 도 3a 및 도 3b에 있어서, 시험지(300)의 2번 문제 내지 7번 문제는 각 단락별 음성 정보가 포함된 음성 파일(380)의 6개의 소리 구간(P2 내지 P7)에 각각 대응한다.
본 실시예에 의하면, 하나의 음성 파일 내에 복수의 듣기 단락별 음성 정보가 존재하는 경우, 음성 파일의 시간에 따른 진폭 정보에 기초하여 묵음 구간-여기서, 묵음 구간은 S1 내지 S6을 포함함-을 추출하고, 추출한 묵음 구간들에 기초하여 2번 내지 7번 문제들에 대응하는 6개의 듣기 단락들(P2 내지 P7)을 단락별로 구분 또는 분리하여 각 단락별 음성 정보를 준비할 수 있다.
도 4는 본 발명의 일 실시예에 따른 스크립트 데이터 생성 방법에 대한 순서도이다.
도 4를 참조하면, 본 실시예의 스크립트 데이터 생성 방법에 있어서, 우선 음성 파일에서 작업을 진행할 음성 정보가 선택된다(S410). 본 단계(S410)에서 음성 정보는 복수의 듣기 단락들을 포함한 음성 파일에 대하여 도 2에 도시한 바와 같은 방식으로 사전 작업한 특정 단락에 대한 음성 정보이거나 하나의 듣기 단락을 포함하는 음성 파일일 수 있다. 한 단락의 음성 정보 또는 하나의 음성 정보를 포함하는 음성 파일은 오디오 데이터에 대응된다.
다음, 선택된 오디오 데이터에서 진폭 정보에 기초하여 실제 소리가 발생하는 소리 구간의 전체 시간을 파악한다(S415). 본 단계는 해당 단락 예컨대, 듣기 학습의 한 문제 구간에 상응하는 단락의 음성 정보에서 묵음 구간을 제외한 실제 소리가 발생하는 전체 소리 구간[도 6의 (b)에서 흰색 파형 구간 참조]의 시간을 파악하기 위한 것이다.
진폭 정보에 기초하여 소리 구간과 묵음 구간을 구분하는 것은 소정의 기준 진폭 이상을 소리 구간으로 획득하는 것을 포함한다. 예를 들면, 가장 큰 소리를 100%로 할 때, 3%, 5%, 또는 7% 이하의 크기를 갖는 소리로 묵음 구간으로 판단할 수 있다.
다음, 오디오 데이터의 해당 스크립트 원본에 기초하여 소리 구간의 전체 음절수를 파악한다(S420).
본 단계(S420)에서는 예를 들어 스크립트 원본 내의 영어 단어에 대한 한글 음절을 파악하여 소리 구간의 전체 음절수를 구할 수 있다. 한글은 음절문자의 속성을 가지므로 한글 음절은 화자와 청자가 한 뭉치로 생각하는 발화의 단위로 이용될 수 있다.
또한, 본 단계(S420)에서는 일 실시예에 있어서 영어 단어에 대응하는 한글 음절이 기록된 영어-한글 발음사전 정보에 기초하여 소리 구간의 전체 음절수를 파악할 수 있다. 영어-한글 발음사전 정보는 도 7a에 도시한 바와 같은 발음사전 정보를 포함할 수 있다.
다음, 위의 단계(S415)에서 얻은 전체 시간(이하, A라고 한다)을 위의 또 다른 단계(S420)에서 얻은 전체 음절수(이하, B라고 한다)로 나누어 한 음절에 대응하는 단위 음절 시간(이하, C라고 한다)을 산출한다(S425). 본 단계에서 구한 단위 음절 시간을 수식으로 나타내면 다음의 수학식 1과 같다.
[수학식 1]
C = A / B
다음, 특정한 또는 예측이 필요한 단어 또는 구절 직전까지의 소리 구간이 차지하는 음절수를 파악한다(S430). 여기서, 파악된 음절수를 전체 음절수와 구분하기 위하여 구간 음절수라고 한다.
다음, 구간 음절수에 단위 음절 시간(C)을 곱하여 해당 단어 또는 구절 직전까지의 소리 구간이 차지하는 시간을 예측한다(S435). 본 단계(S435)에 있어서, 예측하고 하는 단어 또는 구절 직전까지의 소리 구간이 차지하는 시간은 해당 단어 또는 구절에 대한 예측 재생 위치에 대응된다.
다음, 해당 단어 또는 구절에 대한 예측 재생 위치에 도달할 때까지 오디오 데이터의 각 소리 구간을 시간을 기준으로 할 때 앞에서부터 하나씩 순차적으로 더한다(S440).
다음, 위의 단계(S440)에서 얻은 소리 구간의 합이 예측 재생 위치 정보의 예측 재생 위치와 일치하는가를 판단한다(S445). 본 단계(S445)의 판단 결과, 일치하지 않으면, 이전 단계(S440)로 되돌아가서 그 다음의 소리 구간을 더한 후 소리 구간의 합이 예측 재생 위치와 일치하는가를 판단한다(S445). 상기 두 단계들(S440, S445)은 소리 구간의 합이 예측 재생 위치와 실질적으로 일치할 때까지 반복 수행된다.
다음, 상기 단계(S445)의 판단 결과, 소리 구간의 합이 예측 재생 위치와 일치하면, 예측 재생 위치에 가장 인접한 묵음 구간을 탐색하고, 탐색된 가장 인접한 묵음 구간을 해당 단어 또는 구절에 대한 실제 재생 위치로서 저장한다(S450).
예측 재생 위치에 가장 인접한 묵음 구간을 탐색하는 것은 오디오 데이터의 소리 구간과 묵음 구간을 시간 흐름에 따라 순차적으로 하나씩 더해가면서 예측 재생 위치를 포함하는 소리 구간을 추출하고, 추출된 소리 구간의 양쪽에 위치하는 두 묵음 구간들과 예측 재생 위치 사이의 거리를 각각 비교하는 방식으로 수행될 수 있다. 여기서, 오디오 데이터의 예측 재생 위치까지의 소리 구간들의 시간에 대한 합은 예측 재생 위치의 시간과 일치한다. 즉, 그것은 본 실시예에 따른 방법이 오디오 데이터 내의 묵음 구간으로 인한 오차를 배제할 수 있다는 것을 나타낸다.
실제 재생 위치는 묵음 구간 내의 소정 위치 예컨대 해당 묵음 구간의 처음 시간, 중간 시간, 또는 끝 시간이 될 수 있다.
다음, 오디오 데이터 내의 모든 문장에 대한 처리가 완료되었는가를 판단한다(S455). 본 단계(S455)의 판단 결과, 모든 문장에 대한 상기 예측 및 탐색이 완료되지 않았으면, 특정 단계(S430)로 되돌아가서 오디오 데이터 내의 다음 단어 또는 구절을 선택한 후 예측이 필요한 다음 단어 또는 구절 이전까지의 소리 구간이 차지하는 구간 음절수를 획득하고, 이 구간 음절수와 단위 음절 시간 정보에 기초하여 해당 소리 구간의 재생 위치를 예측하고 실제 재생 위치를 탐색하는 이후의 과정들을 진행한다.
다음, 상기 단계(S455)의 판단 결과, 모든 문장에 대한 처리가 완료되었으면, 나머지 오디오 데이터 즉 나머지 단락의 음성 정보에 대하여 상기 과정에 의한 예측 및 탐색이 완료되었는가를 판단한다(S460).
위 단계(S460)의 판단결과, 모든 오디오 데이터에 대한 처리가 완료되지 않았으면, 특정 단계(S410)로 되돌아가서 작업이 진행 중인 음성 파일 내의 다음 단락에 대응하는 음성 정보 즉 다음 오디오 데이터를 선택하고, 다음 오디오 데이터에 대하여 특정 단계 이후의 과정을 진행한다. 본 과정은 모든 오디오 데이터에 대한 처리가 완료될 때까지 진행된다.
그리고, 위 단계(S460)의 판단결과, 모든 오디오 데이터에 대한 처리가 완료되면, 해당 음성 파일과 그 스크립트 원본에 대한 매칭을 완료한다(S465). 매칭이 완료되면, 텍스트 데이터의 각 단락, 각 문장, 또는 각 단어에 대한 해당 재생 위치 정보가 텍스트 데이터에 저장될 수 있고, 그것에 의해 본 실시예에 따른 스크립트 데이터를 생성할 수 있다.
이하에서는 본 실시예의 음성 파일과 그에 대응하는 스크립트 원본에 대한 매칭 과정을 음성 파일 내의 특정 오디오 데이터[도 6의 (b) 참조]와 그에 대응하는 스크립트 원본(도 5a 참조)의 매칭 과정으로 예를 들어 설명하기로 한다.
도 5a는 도 4의 스크립트 데이터 생성 방법에 채용가능한 텍스트 데이터의 일 실시예에 대한 도면이다. 도 5b는 도 5a의 텍스트 데이터를 이용하여 생성된 본 발명의 스크립트 데이터의 일 실시예에 대한 도면이다. 도 6은 도 4의 스크립트 데이터 생성 방법에 채용가능한 오디오 데이터의 일 실시예에 대한 도면이다. 도 7a 및 도 7b는 도 4의 스크립트 데이터 생성 방법에 채용가능한 발음사전 정보의 일 실시예에 대한 도면들이다.
도 5a를 참조하면, 텍스트 데이터(500)는 도 3a에 도시한 '2011학년도 대학수학능력시험 모의평가 문제지 외국어(영어) 영역' 시험지에서 문제 2번에 대응하는 스크립트 원본이다.
이러한 스크립트 원본(500)의 원하는 문장, 구절, 또는 단어에 대하여 그에 대응하는 음성 파일 내의 소리 구간을 다시 듣기 위해서는 사용자가 직접 음성 파일 내의 해당 소리 구간을 탐색해야 하는 어려움이 있다.
하지만, 도 5b에 도시한 본 실시예의 스크립트 데이터(500a)에 의하면, 듣기 단락 내의 문장에 대한 재생 위치 정보(530), 또는 단어에 대한 재생 위치 정보(540)에 의해 음성 파일 내의 대응 위치로 이동하여 해당 소리 구간을 바로 재생할 수 있다. 위의 두 재생 위치 정보(530, 540) 중 적어도 어느 하나는 실제 스크립트 데이터(500a) 상에 보이지 않도록 하이퍼텍스트 전송 프로토콜 방식에 따른 링크 정보 형태로 스크립트 데이터에 구비될 수 있다.
예를 들면, 도 6에 도시한 바와 같이, 복수개의 듣기 단락에 대한 음성 정보들(610, 611, 612, 613, 614, 615)을 포함하는 음성 파일(601)에서 특정 단락의 음성 정보 예컨대 첫 번째 음성 정보(610) 내의 특정 소리 구간의 오디오 데이터(620)에 대응하는 스크립트 문장(도 5b의 550 참조) 또는 그 문장 내의 단어나 구절에 대한 소리 구간을 예측하기 위하여, 우선 해당 문장(550)에 대한 오디오 데이터(620)의 실제 소리 구간의 전체 시간을 파악한다.
본 실시예에서, 작업하고자 하는 오디오 데이터(620)의 전체 길이는 약 1.952초이며, 묵음 구간(632, 634)은 약 0.623초에서 약 0.646초와 약 1.413초에서 약 1.439초이므로, 실제 소리 구간의 전체 시간은 오디오 데이터(620)의 전체 시간 약 1.952초에서 묵음 구간의 전체 시간 약 0.049초를 뺀 약 1.903초가 된다.
다음, 상기 문장(550)에 대한 전체 음절수를 구한다. 본 실시예의 영어 문장(550) 'How do you like your new job, Chelsea?'의 음절수는 표음문자, 보다 구체적으로는, 음절문자의 발음사전 정보를 참조하여 획득할 수 있는데, 본 실시예에서는 도 7a 및 도 7b에 도시한 바와 같이 상기 문장(550)에 대한 한글 음절을 기록한 테이블(710)이나 상기 문장(550)에 대한 일본어의 가나 음절을 기록한 테이블(720)을 발음사전 정보로서 이용할 수 있다. 본 실시예에서 상기 문장(550)의 음절수는 16.5이다.
다음, 한 음절에 대응되는 단위 음절 시간을 구한다. 본 실시예에서 단위 음절 시간은 약 1.903초를 16.5로 나눈 값 즉, 약 0.115333초가 된다.
다음, 예측하고자 하는 구절 또는 단어에 대한 구간 음절수를 구한다. 그리고, 구간 음절수에 단위 음절 시간을 곱하여 예측 재생 위치를 구한 후 예측 재생 위치에 가장 인접한 묵음 구간을 탐색함으로써 해당 구절 또는 단어에 대한 실제 재생 위치 정보를 획득한다.
한편, 도 5b의 스크립트 원본에서 음절수를 구할 때, 한글 멘트, 'M:' 및 'W:'와 같은 특정 표시자 등은 생략 또는 배제되도록 처리하는 것이 바람직하다. 물론, 스크립트 원본에 상기 한글 멘트와 특정 표시자가 포함되지 않는 것이 더욱 바람직하다.
전술한 재생 위치의 예측 및 탐색 과정을 도 8을 참조하여 아래에서 좀더 상세히 설명하기로 한다.
도 8은 도 4의 스크립트 데이터 생성 방법에서 스크립트 데이터의 특정 위치에 대응하는 오디오 데이터의 재생 위치를 예측 및 탐색하는 과정을 설명하기 위한 도면이다.
우선, 도 8의 (a)에 도시한 바와 같은 오디오 데이터(620)가 있다고 가정한다. 오디오 데이터(620)는 아래에 기재한 바와 같이 소정 문장(도 5b의 550 참조)에 대응하는 소리 구간을 구비한다.
'How do you like your new job, Chelsea?'
그리고, 예측하고자 하는 단어가 'Chelsea?'라고 가정한다.
그럼, 이제부터 상기 단어 'Chelsea?'에 대응하는 오디오 데이터의 소리 구간을 예측하고 탐색하는 과정의 일 실시예를 상세히 설명하기로 한다.
본 실시예에서 오디오 데이터(620)는 세 개의 소리 구간들(810, 820, 830)과 두 개의 묵음 구간들(632, 634)을 구비한다. 첫 번째 소리 구간(810)은 상기 문장(550)의 첫 번째 구절 'How do you like'에 대응되고, 두 번째 소리 구간(820)은 상기 문장(550)의 두 번째 구절 'your new job'에 대응되며, 그리고 세 번째 소리 구간(830)은 상기 문장(550)의 세 번째 구절 'Chelsea?'에 대응된다.
먼저, 오디오 데이터(620)에 대한 소리 구간의 전체 시간을 파악한다. 전체 시간은 세 소리 구간들(810, 820, 830)의 시간의 합이 된다. 본 실시예에서, 첫 번째 소리 구간(810)은 0에서 약 0.623초까지, 두 번째 소리 구간(820)은 약 0.646초에서 약 1.413초까지, 그리고 세 번째 소리 구간(830)은 약 1.439초에서 약 1.952초이다. 따라서, 소리 구간의 전체 시간은 약 1.903초이다.
다음, 상기 문장(550)에 기초하여 오디오 데이터(620)의 소리 구간에 대한 전체 음절수를 파악한다. 전체 음절수는 예컨대 한글 음절을 이용하여 아래에 기재한 바와 같이 구할 수 있다(도 7a 참조).
'하우 두 유 라이크 유어- 뉴- 자압 체르시-'
위의 한글 음절에서 장음 기호(-)는 0.5 음절에 해당하는 것으로 가정하면, 본 실시예에서 오디오 데이터 또는 해당 문장(550)에 대한 전체 음절수는 16.5음절이다.
다음, 오디오 데이터(620)의 1음절이 발음되는데 소요되는 시간을 계산한다. 본 실시예에 있어서, 1음절이 발음되는데 소요되는 시간을 계산하면, 소리 구간의 전체 시간을 전체 음절수로 나눈 값이 된다. 즉,
1.903초 / 16.5음절 = 0.115333초/음절
이 된다.
다음, 예측하고자 하는 단어까지의 소리 구간이 차지하는 구간 음절수를 파악한다. 본 실시예에서는 상기 단어 'Chelsea?' 까지의 소리 구간은 첫 번째 소리 구간(810)과 두 번째 소리 구간(820)을 포함한다. 따라서, 이들 두 소리 구간의 음절수와 그 길이를 파악하면 다음과 같다.
첫 번째 구절인 'How do you like'은 한글 음절로서 7음절이며, 이 구절에 해당하는 소리 구간의 시간을 예측하여 보면,
7음절 × 0.115333초/음절 = 0.807331초
가 된다.
그리고, 두 번째 구절인 'your new job'은 한글 음절로서 6음절이며, 이 구절에 해당하는 소리 구간의 시간을 예측하여 보면,
6음절 × 0.115333초/음절 = 0.691998초
가 된다.
이것은 첫 번째 구절과 두 번째 구절에 해당하는 소리 구간의 합이 약 1.499329초만큼의 소리 구간을 차지하고 있다는 것을 나타낸다. 본 실시예에서, 예측된 시간은 예측 재생 위치에 대응하므로, 예측 재생 위치는 약 1.499329가 된다.
다음, 오디오 데이터(620)의 음성 파형에 대하여 처음 시점부터 각각의 묵음 구간(632; 634)까지의 소리 구간의 길이를 순차적으로 분석한다. 여기서, 분석은 소리 구간의 길이가 위의 과정을 통해 예측한 시간 즉 예측 재생 위치와 가장 가까운 묵음 구간을 발견할 때까지 진행하게 된다.
즉, 도 8의 (b) 및 (c)에 도시한 바와 같이, 상기 문장(550)의 오디오 데이터(620)에 있어서 첫 번째 묵음구간(632)까지의 소리 구간(810)의 길이는 약 0.623초이다. 두 번째 묵음 구간(634)까지의 소리 구간(810, 820)의 길이는 약 1.412초이다. 그리고, 세 번째 묵음 구간(미도시)까지의 소리 구간(810, 820, 830)의 길이는 약 1.925초이다.
따라서, 두 번째 묵음 구간(634)과 세 번째 묵음 구간을 비교하면, 예측 재생 위치에 가장 가까운 묵은 구간은 두 번째 묵음 구간(634)이 된다. 즉, 예측 재생 위치의 소리 구간인 약 1.499329초에 가장 인접하게 위치하는 두 번째 묵음 구간이 상기 단어 'Chelsea?'에 대응하는 실제 재생 위치로 저장된다. 여기서, 실제 재생 위치는 두 번째 묵음 구간인 약 1.413초에서 약 1.439초 내의 임의의 시간 또는 위치가 선택될 수 있다. 탐색된 실제 재생 위치는 하이퍼링크 형태로 해당 단어, 구절, 또는 문장에 결합하여 스크립트 원본에 저장될 수 있다.
전술한 구성에 의하면, 스크립트 원본의 'Chelsea?'라는 단어에 대응하는 소리 구간을 오디오 데이터 내에서 쉽고 정확하게 찾을 수 있으며, 이러한 방식의 분석 과정을 스크립트 원본 전체의 단어, 구절, 또는 문장에 대하여 진행하면, 스크립트 원본 전체와 음성 파일 간의 매칭을 손쉽게 진행할 수 있고, 그것에 의해 오디오 데이터의 각 단어, 구절, 또는 문장에 대한 매칭 정보 즉 재생 위치 정보를 스크립트 원본에 삽입하여 본 실시예에 따른 스크립트 데이터를 생성할 수 있다.
생성된 스크립트 데이터는 오디오 데이터에 대응하는 스크립트 데이터 자체로서 이용될 수 있을 뿐만 아니라 오디오 데이터 또는 스크립트 데이터가 저장되는 컴퓨터로 실행가능한 저장 매체나 이를 실행하는 재생 및/또는 기록 장치의 프로그램 어플리케이션에 탑재 또는 결합하여 이용될 수 있다.
한편, 전술한 상세한 설명에 있어서, 도 7a 및 도 7b의 발음사전 정보는 본 발명의 일 실시예를 설명하기 위한 것일 뿐, 본 발명을 한정하기 위한 것은 아니다.
도 9는 본 발명의 일 실시예에 따른 스크립트 데이터 생성 장치에 대한 블록도이다.
도 9를 참조하면, 본 실시예의 스크립트 데이터 생성 장치(900)는 오디오 데이터와 이 오디오 데이터의 내용이 문자로 기재된 텍스트 데이터에 기초하여 텍스트 데이터의 단어, 구절, 또는 문장에 대응하는 오디오 데이터의 재생 위치 정보를 가진 스크립트 데이터를 생성하기 위한 장치이다.
일 실시예에서, 스크립트 데이터 생성 장치(900)는 마이크로프로세서(910)와 저장 장치(920)를 구비하고, 마이크로프로세서(910)가 저장 장치(920)에 저장된 프로그램 및/또는 어플리케이션에 의해 스크립트 데이터 생성 과정을 수행하도록 구현된다.
이러한 스크립트 데이터 생성 장치(900)는 마이크로프로세서(910) 또는 마이크로프로세서(910)에 의해 수행되는 프로그램 어플리케이션에 의해 동작하는 기능부 예컨대, 진폭비교부(930), 음절수추출부(940), 단위시간산출부(950), 재생위치예측부(960), 및 재생위치탐색부(970)를 구비할 수 있다.
진폭비교부(930)는 음성 정보 또는 오디오 데이터의 실제 소리 구간의 전체 시간 정보를 획득한다.
일 실시예에서, 진폭비교부(930)는 오디오 데이터의 시간에 따른 진폭 정보에 기초하여 실제 소리 구간을 추출하고, 추출된 각 소리 구간으로부터 전체 시간 정보를 획득할 수 있다.
또 다른 일 실시예에서, 진폭비교부(930)는 오디오 데이터의 시간에 따른 진폭 정보에 기초하여 오디오 데이터 내의 묵음 구간을 추출하고, 추출된 묵음 구간으로부터 묵음 구간의 전체 시간 정보를 획득하고, 오디오 데이터의 전체 시간에서 묵음 구간의 전체 시간을 뺀 시간 정보에 기초하여 소리 구간의 전체 시간 정보를 산출할 수 있다.
음절수추출부(940)는 스크립트 원본 또는 텍스트 데이터의 문자에 대응하는 음절문자 정보에 기초하여 소리 구간에 대한 전체 음절수 정보를 획득한다.
일 실시예에서, 음절수추출부(940)는 텍스트 데이터를 음절 문자로 표기한 발음사전 정보에 기초하여 텍스트 데이터의 단어 또는 구절에 대한 음절수를 획득할 수 있다. 음절 문자는 오디오 데이터 내의 각 단어를 음절 단위로 기록할 수 있는 일본어 또는 이러한 음절 문자의 속성을 가지는 한국어 등을 포함할 수 있다.
단위시간산출부(950)는 진폭비교부(930)로부터 얻은 발성 구간의 시간 정보와 음절수추출부(940)로부터 얻은 전체 음절 개수 정보에 기초하여 한 음절에 대응하는 단위 음절 시간 정보를 산출한다.
재생위치예측부(960)는 진폭비교부(930)와 음절수추출부(940)로부터 각 문장 또는 예측이 필요한 단어, 구절, 또는 문장의 이전 소리 구간까지가 차지하는 구간 음절수 정보와 단위 음절 시간 정보를 얻고, 이러한 정보에 기초하여 해당 단어, 구절, 또는 문장에 대응하는 오디오 데이터의 소리 구간의 길이 즉 예측 재생 위치 정보를 획득한다.
재생위치탐색부(970)는 재생위치예측부(960)로부터 얻은 예측 재생 위치에 기초하여 예측 재생 위치의 이전 또는 이후에 위치하는 오디오 데이터의 묵음 구간들 중 예측 재생 위치에 가장 인접한 묵음 구간을 실제 재생 위치 정보로 결정한다.
본 실시예의 스크립트 데이터 생성 장치(900)는 도 1에 도시한 기록 및/또는 재생 장치에 어플리케이션 형태로 탑재되어 전술한 스크립트 데이터를 생성하도록 구현될 수 있다.
이상에서, 바람직한 실시예들을 참조하여 본 발명을 설명하였으나, 본 발명은 상기의 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능할 것이다. 따라서 본 발명은 첨부한 특허청구범위 및 도면 등의 전체적인 기재를 참조하여 해석되어야 할 것이며, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.
110: 스피커
120: 컴퓨터 장치
130: 모바일 단말
140, 500: 스크립트 원본 또는 텍스트 데이터
500a: 스크립트 데이터
601: 음성 파일
610: 음성 정보 또는 오디오 데이터
620: 한 문장에 대한 오디오 데이터
632, 634: 묵음 구간
710, 720: 음절사전 정보
810, 820, 830: 소리 구간
900: 스크립트 데이터 생성 장치

Claims (12)

  1. 오디오 데이터와 상기 오디오 데이터의 내용이 기재된 텍스트 데이터에 기초하여 상기 텍스트 데이터의 단어 또는 구절에 대응하는 오디오 데이터의 재생 위치 정보를 가진 스크립트 데이터를 생성하기 위한 방법으로서,
    상기 오디오 데이터의 시간에 따른 진폭 정보에 기초하여 상기 오디오 데이터 내의 묵음 구간을 추출하고, 상기 묵음 구간의 추출에 의해 얻은 각 묵음 구간의 시간 정보와 상기 오디오 데이터 자체의 전체 시간 정보에 기초하여 상기 오디오 데이터의 실제 소리 구간에 대한 전체 시간 정보를 획득하는 제1 단계;
    상기 텍스트 데이터에 기초하여 상기 소리 구간에 대한 전체 음절수 정보를 획득하는 제2 단계;
    상기 전체 시간 정보 및 상기 전체 음절수 정보에 기초하여 한 음절에 대응하는 단위 음절 시간 정보를 산출하는 제3 단계;
    상기 텍스트 데이터에서 예측이 필요한 단어 또는 구절 이전까지의 적어도 하나의 소리 구간이 차지하는 구간 음절수 정보를 파악하는 제4 단계;
    상기 구간 음절수 정보와 상기 단위 음절 시간 정보를 곱하여 상기 오디오 데이터 내에서 상기 예측이 필요한 단어 또는 구절에 대한 예측 재생 위치 정보를 획득하는 제5 단계;
    상기 오디오 데이터의 각 소리 구간의 시간 정보를 순차적으로 더한 값과 상기 예측 재생 위치 정보를 비교하는 제6 단계; 및
    상기 각 소리 구간의 시간 정보를 순차적으로 더한 값이 상기 예측 재생 위치 정보와 일치할 때 상기 예측 재생 위치 정보에 가장 인접한 묵음 구간 내의 소정 위치를 상기 예측이 필요한 단어 또는 구절에 대한 실제 재생 위치로 상기 텍스트 데이터에 저장하는 제7 단계를 포함하는 단계를 포함하는 스크립트 데이터 생성 방법.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 제2 단계는 상기 텍스트 데이터를 음절 문자로 표기한 발음사전 정보에 기초하여 상기 텍스트 데이터의 단어 또는 구절에 대한 음절수를 획득하는 단계
    를 포함하는 스크립트 데이터 생성 방법.
  5. 제1항에 있어서,
    상기 제4 단계는 상기 예측이 필요한 단어 또는 구절로서 상기 텍스트 데이터의 첫 번째 단어 또는 구절에서부터 마지막 단어 또는 구절까지를 하나씩 순차적으로 선택하는 단계를 포함하는 스크립트 데이터 생성 방법.
  6. 제5항에 있어서,
    상기 제6 단계는 상기 텍스트 데이터의 첫 번째 단어 또는 구절에 대응하는 상기 오디오 데이터의 첫 번째 소리 구간에서부터 상기 마지막 단어 또는 구절에 대응하는 상기 오디오 데이터의 마지막 소리 구간까지의 각 소리 구간의 시간 정보를 하나씩 순차적으로 더해가며 상기 예측 재생 위치 정보와 일치하는 위치를 탐색하는 단계를 포함하는 스크립트 데이터 생성 방법.
  7. 오디오 데이터와 상기 오디오 데이터의 내용이 기재된 텍스트 데이터에 기초하여 상기 텍스트 데이터의 단어 또는 구절에 대응하는 오디오 데이터의 재생 위치 정보를 가진 스크립트 데이터를 생성하기 위한 장치로서,
    상기 오디오 데이터의 시간에 따른 진폭 정보에 기초하여 상기 오디오 데이터 내의 묵음 구간을 추출하고, 추출된 각 묵음 구간의 시간 정보와 상기 오디오 데이터 자체의 전체 시간 정보에 기초하여 상기 오디오 데이터의 실제 소리 구간의 전체 시간 정보를 획득하는 진폭비교부;
    상기 텍스트 데이터에 기초하여 상기 소리 구간에 대한 전체 음절수 정보를 획득하는 음절수추출부;
    상기 진폭비교부로부터 얻은 상기 전체 시간 정보 및 상기 음절수추출부로부터 얻은 상기 전체 음절수 정보에 기초하여 한 음절에 대응하는 단위 음절 시간 정보를 산출하는 단위시간산출부;
    상기 텍스트 데이터 내에서 예측이 필요한 단어 또는 구절 이전까지의 적어도 하나의 소리 구간이 차지하는 구간 음절수에 단위 음절 시간을 곱하여 상기 오디오 데이터의 해당 부분에 대한 예측 재생 위치 정보를 획득하는 재생위치예측부; 및
    상기 오디오 데이터의 각 소리 구간의 시간 정보를 순차적으로 더한 값과 상기 예측 재생 위치 정보를 비교하고, 상기 값이 상기 예측 재생 위치 정보에 가장 인접할 때 상기 예측 재생 위치 정보에 가장 인접한 묵음 구간 내의 소정 위치를 상기 예측이 필요한 단어 또는 구절에 대한 실제 재생 위치로서 상기 텍스트 데이터에 저장하는 재생위치탐색부를 포함하는 스크립트 데이터 생성 장치.
  8. 삭제
  9. 삭제
  10. 제7항에 있어서,
    상기 음절수추출부는 상기 텍스트 데이터를 음절 문자로 표기한 발음사전 정보에 기초하여 상기 텍스트 데이터의 단어 또는 구절에 대한 음절수를 획득하는 스크립트 데이터 생성 장치.
  11. 제7항에 있어서,
    상기 재생위치예측부는 상기 예측이 필요한 단어 또는 구절로서 상기 텍스트 데이터의 첫 번째 단어 또는 구절에서부터 마지막 단어 또는 구절까지를 하나씩 순차적으로 선택하는 스크립트 데이터 생성 장치.
  12. 제11항에 있어서,
    상기 재생위치탐색부는 상기 텍스트 데이터의 첫 번째 단어 또는 구절에 대응하는 상기 오디오 데이터의 첫 번째 소리 구간에서부터 상기 마지막 단어 또는 구절에 대응하는 상기 오디오 데이터의 마지막 소리 구간까지의 각 소리 구간을 하나씩 순차적으로 더해가며 상기 예측 재생 위치 정보와 일치하는 위치를 탐색하는 스크립트 데이터 생성 장치.
KR1020100111615A 2010-11-10 2010-11-10 스크립트 데이터 생성 방법 및 장치 KR101030777B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020100111615A KR101030777B1 (ko) 2010-11-10 2010-11-10 스크립트 데이터 생성 방법 및 장치
PCT/KR2011/008522 WO2012064110A2 (ko) 2010-11-10 2011-11-09 스크립트 데이터 생성 방법 및 장치
CN2011800538470A CN103210447A (zh) 2010-11-10 2011-11-09 脚本数据生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100111615A KR101030777B1 (ko) 2010-11-10 2010-11-10 스크립트 데이터 생성 방법 및 장치

Publications (1)

Publication Number Publication Date
KR101030777B1 true KR101030777B1 (ko) 2011-05-25

Family

ID=44365384

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100111615A KR101030777B1 (ko) 2010-11-10 2010-11-10 스크립트 데이터 생성 방법 및 장치

Country Status (3)

Country Link
KR (1) KR101030777B1 (ko)
CN (1) CN103210447A (ko)
WO (1) WO2012064110A2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114282941A (zh) * 2021-12-20 2022-04-05 咪咕音乐有限公司 广告插入位置的确定方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005189454A (ja) * 2003-12-25 2005-07-14 Casio Comput Co Ltd テキスト同期音声再生制御装置及びプログラム
JP2010157816A (ja) * 2008-12-26 2010-07-15 Toshiba Corp 字幕情報作成装置、字幕情報作成方法及びプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1168068C (zh) * 1999-03-25 2004-09-22 松下电器产业株式会社 语音合成系统与语音合成方法
JP2002318580A (ja) * 2001-04-23 2002-10-31 Sony Corp 音声再生装置、音声再生方法、音声再生プログラム、音声再生プログラム格納媒体、およびデータ格納媒体
US7346506B2 (en) * 2003-10-08 2008-03-18 Agfa Inc. System and method for synchronized text display and audio playback
JP2005242231A (ja) * 2004-02-27 2005-09-08 Yamaha Corp 音声合成装置、音声合成方法、及び音声合成プログラム
JP5313466B2 (ja) * 2007-06-28 2013-10-09 ニュアンス コミュニケーションズ,インコーポレイテッド 音声の再生に同期して音声の内容を表示させる技術
JP5246948B2 (ja) * 2009-03-27 2013-07-24 Kddi株式会社 字幕ずれ補正装置、再生装置および放送装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005189454A (ja) * 2003-12-25 2005-07-14 Casio Comput Co Ltd テキスト同期音声再生制御装置及びプログラム
JP2010157816A (ja) * 2008-12-26 2010-07-15 Toshiba Corp 字幕情報作成装置、字幕情報作成方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114282941A (zh) * 2021-12-20 2022-04-05 咪咕音乐有限公司 广告插入位置的确定方法、装置、设备及存储介质

Also Published As

Publication number Publication date
WO2012064110A3 (ko) 2012-07-12
CN103210447A (zh) 2013-07-17
WO2012064110A2 (ko) 2012-05-18

Similar Documents

Publication Publication Date Title
CN110148427B (zh) 音频处理方法、装置、系统、存储介质、终端及服务器
AU2016202974B2 (en) Automatically creating a mapping between text data and audio data
CN111739556B (zh) 一种语音分析的系统和方法
JP2014132345A (ja) テキストデータとオーディオデータとの間のマッピングの自動作成
CN110740275B (zh) 一种非线性编辑系统
CN110600002B (zh) 语音合成方法、装置及电子设备
JP2013109061A (ja) 音声データ検索システムおよびそのためのプログラム
JP4738847B2 (ja) データ検索装置および方法
CN115101042A (zh) 一种文本处理方法、装置及设备
KR102036721B1 (ko) 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치 및 그 동작 방법
JP5334716B2 (ja) 文字情報提示制御装置及びプログラム
KR101030777B1 (ko) 스크립트 데이터 생성 방법 및 장치
JP2013069170A (ja) 検索装置、検索方法およびプログラム
JP5713782B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN114170856A (zh) 用机器实施的听力训练方法、设备及可读存储介质
CN111475708A (zh) 一种跟读内容的推送方法、介质、装置和计算设备
JP3958908B2 (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
JP6538399B2 (ja) 音声処理装置、音声処理方法およびプログラム
KR102585031B1 (ko) 실시간 외국어 발음 평가시스템 및 방법
KR102274275B1 (ko) 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법
CN102542854A (zh) 借助角色扮演学习发音的方法
CN108959617B (zh) 一种语法特征的匹配方法、装置、介质和计算设备
JP2010085581A (ja) 歌詞データ表示装置、歌詞データ表示方法、歌詞データ表示プログラム
Shawar et al. A Mobile Application for Harmonized Recitation and Text Display
JP2001265792A (ja) 自動要約文生成装置、自動要約文生成方法及び自動要約文生成方法を記録した媒体

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140415

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170417

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee