KR102616598B1

KR102616598B1 - 번역 자막을 이용한 원문 자막 병렬 데이터 생성 방법

Info

Publication number: KR102616598B1
Application number: KR1020230069575A
Authority: KR
Inventors: 황명진; 유세희
Original assignee: 주식회사 엘솔루
Priority date: 2023-05-30
Filing date: 2023-05-30
Publication date: 2023-12-22

Abstract

일 실시예에 따른 병렬 데이터 생성 장치에 의해 수행되는 병렬 데이터 생성 방법은, 영상 미디어 파일에 포함된 제1 언어의 음성 데이터에 대해, 기 학습된 음성인식 기술을 이용하여 상기 음성 데이터의 재생시간 정보를 포함하는 상기 제1 언어의 텍스트 데이터를 생성하는 단계, 상기 생성된 텍스트 데이터와 기 저장되어 있는 상기 영상 미디어 파일의 상기 제1 언어의 대본 데이터에 대하여, 기 정해진 알고리즘을 이용하여 각 데이터의 대응되는 부분을 검색하는 단계, 상기 검색의 결과 및 상기 재생시간 정보를 기초로, 상기 대본 데이터의 각 문장에 제1 표시 시간정보를 할당하는 단계, 상기 영상 미디어 파일과 관련되어, 각 문장에 제2 표시 시간정보가 할당된 제2 언어의 자막 데이터를 획득하는 단계, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 상기 대본 데이터와 상기 자막 데이터를 정렬하는 단계, 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터에 대해, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 복수의 묶음 데이터 -각 묶음 데이터에는 상기 대본 데이터의 일부와 상기 자막 데이터의 일부가 포함되어 있음- 를 생성하는 단계 및 상기 복수의 묶음 데이터로부터 각 언어별로 추출된 자막 병렬 데이터를 생성하는 단계를 포함한다.

Description

번역 자막을 이용한 원문 자막 병렬 데이터 생성 방법{METHOD FOR GENERATING ORIGINAL SUBTITLE PARALLEL CORPUS DATA USING TRANSLATED SUBTITLES}

본 발명은 음성인식 기술 및 문자열 정렬 알고리즘을 이용하여 서로 다른 언어의 자막 병렬 데이터를 생성하는 방법에 관한 것이다.

입력된 자연어를 처리하는 기술 중, STT(speech to text) 기술은 음성을 인식하고 이를 텍스트로 변환하는 음성인식 기술이다. 최근 들어 음성인식 기술은 정확도가 많이 향상되었지만, 여전히 정확도가 완벽하지 않으므로 음성을 입력으로 하여 변환된 텍스트 데이터에 오류가 발생할 수 있다.

문자열 정렬 알고리즘은 문자열 데이터를 특정한 순서로 정렬하는 방법으로, 이를 이용하여 두 개 문자열 데이터에서 일치하는 부분과 불일치 하는 부분을 정렬할 수 있다. 문자열 정렬 알고리즘은 두 개의 문자열 데이터에서 가장 긴 공통 부분 문자열을 찾는 알고리즘인 LCS(longest common subsequence)를 이용하여 구현할 수 있다.

병렬 데이터(병렬말뭉치 또는 병렬코퍼스)란 문장 별로 정렬된 두 개 이상의 언어로 구성된 텍스트 모음을 뜻하는 것으로, 한 언어의 각 문장이 다른 언어의 번역과 쌍을 이루어 구성된다. 병렬 데이터는 대응되는 문장의 번역을 서로 비교함으로써 기계 번역 및 자연어 처리 작업 등에서 유용하게 사용될 수 있다. 병렬 데이터의 활용성을 높이기 위해서, 일반적으로 원문과 번역문이 한 두 개의 문장 단위로 연관 지어져 있고, 이렇게 작은 단위로 연관 지어져 있는 것을 정렬되어 있다고 표현한다.

문장 단위의 병렬 데이터 생성은, 첫 번째로 제1 언어로 된 말뭉치를 제2 언어로 직접 번역하는 방법, 두 번째로 병렬 문서에서 병렬 문장을 추출하는 방법이 있다. 첫 번째 방법은, 정확하지만 번역에 많은 시간과 비용이 드는 단점이 있다. 두 번째 방법은, 같은 내용의 제1 언어와 제2 언어의 문서가 필요하고, 문장 단위의 정렬을 자동으로 하기 위해서는 번역기와 단어 혹은 문장의 의미 유사도를 측정할 수 있는 도구가 필요하다.

국내등록특허 10-2225435(2021.03.03.)

본 발명의 해결하고자 하는 과제는, 제1 언어의 음성 데이터가 포함된 영상 미디어 파일, 제1 언어의 대본 데이터 및 제2 언어의 자막 데이터만 있을 뿐, 제1 언어의 자막 데이터가 없는 경우, 음성인식 기술과 문자열 정렬 알고리즘을 이용하여 적은 시간과 비용을 들여 효율적으로 자막 병렬 데이터를 생성할 수 있는 방법을 제공하는 것이다.

다만, 본 발명이 해결하고자 하는 과제는 이상에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 해결하고자 하는 과제는 아래의 기재로부터 본 발명이 속하는 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

일 실시예에 따른 병렬 데이터 생성 장치는, 제1 언어의 음성 데이터가 포함된 영상 미디어 파일, 상기 제1 언어의 대본 데이터, 제2 언어의 자막데이터를 입력 받는 입력부, 복수의 묶음 데이터로부터 각 언어별로 추출된 병렬 언어 자막데이터를 출력하는 출력부, 컴퓨터 실행 가능한 명령어를 포함하는 메모리 및 상기 명령어를 실행함으로써, 영상 미디어 파일에 포함된 제1 언어의 음성 데이터에 대해, 기 학습된 음성인식 기술을 이용하여 상기 음성 데이터의 재생시간 정보를 포함하는 상기 제1 언어의 텍스트 데이터를 생성하고, 상기 생성된 텍스트 데이터와 기 저장되어 있는 상기 영상 미디어 파일의 상기 제1 언어의 대본 데이터에 대하여, 기 정해진 알고리즘을 이용하여 각 데이터의 대응되는 부분을 검색하고, 상기 검색의 결과 및 상기 재생시간 정보를 기초로, 상기 대본 데이터의 각 문장에 제1 표시 시간정보를 할당하고, 상기 영상 미디어 파일과 관련되어, 각 문장에 제2 표시 시간정보가 할당된 제2 언어의 자막 데이터를 획득하고, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 상기 대본 데이터와 상기 자막 데이터를 정렬하고, 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터에 대해, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 복수의 묶음 데이터 -각 묶음 데이터에는 상기 대본 데이터의 일부와 상기 자막 데이터의 일부가 포함되어 있음- 를 생성하고, 상기 복수의 묶음 데이터로부터 각 언어별로 추출된 자막 병렬 데이터를 생성하는 방법을 수행하도록 제어하는 프로세서를 포함한다.

일 실시예에 따른 컴퓨터 실행 가능한 명령어를 저장하고 있는 컴퓨터 판독 가능 기록매체는, 상기 컴퓨터 실행 가능한 명령어가 프로세서에 의해 실행되면, 영상 미디어 파일에 포함된 제1 언어의 음성 데이터에 대해, 기 학습된 음성인식 기술을 이용하여 상기 음성 데이터의 재생시간 정보를 포함하는 상기 제1 언어의 텍스트 데이터를 생성하는 단계, 상기 생성된 텍스트 데이터와 기 저장되어 있는 상기 영상 미디어 파일의 상기 제1 언어의 대본 데이터에 대하여, 기 정해진 알고리즘을 이용하여 각 데이터의 대응되는 부분을 검색하는 단계, 상기 검색의 결과 및 상기 재생시간 정보를 기초로, 상기 대본 데이터의 각 문장에 제1 표시 시간정보를 할당하는 단계, 상기 영상 미디어 파일과 관련되어, 각 문장에 제2 표시 시간정보가 할당된 제2 언어의 자막 데이터를 획득하는 단계, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 상기 대본 데이터와 상기 자막 데이터를 정렬하는 단계, 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터에 대해, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 복수의 묶음 데이터 -각 묶음 데이터에는 상기 대본 데이터의 일부와 상기 자막 데이터의 일부가 포함되어 있음- 를 생성하는 단계, 상기 복수의 묶음 데이터로부터 각 언어별로 추출된 자막 병렬 데이터를 생성하는 단계를 포함하는 방법을 상기 프로세서가 수행하도록 하는 명령어를 포함한다.

일 실시예에 따른 컴퓨터 판독 가능한 기록매체에 저장되어 있는 컴퓨터 프로그램은, 프로세서에 의해 실행되면, 영상 미디어 파일에 포함된 제1 언어의 음성 데이터에 대해, 기 학습된 음성인식 기술을 이용하여 상기 음성 데이터의 재생시간 정보를 포함하는 상기 제1 언어의 텍스트 데이터를 생성하는 단계, 상기 생성된 텍스트 데이터와 기 저장되어 있는 상기 영상 미디어 파일의 상기 제1 언어의 대본 데이터에 대하여, 기 정해진 알고리즘을 이용하여 각 데이터의 대응되는 부분을 검색하는 단계, 상기 검색의 결과 및 상기 재생시간 정보를 기초로, 상기 대본 데이터의 각 문장에 제1 표시 시간정보를 할당하는 단계, 상기 영상 미디어 파일과 관련되어, 각 문장에 제2 표시 시간정보가 할당된 제2 언어의 자막 데이터를 획득하는 단계, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 상기 대본 데이터와 상기 자막 데이터를 정렬하는 단계, 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터에 대해, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 복수의 묶음 데이터 -각 묶음 데이터에는 상기 대본 데이터의 일부와 상기 자막 데이터의 일부가 포함되어 있음- 를 생성하는 단계, 상기 복수의 묶음 데이터로부터 각 언어별로 추출된 자막 병렬 데이터를 생성하는 단계를 포함하는 방법을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함한다.

본 발명의 실시예에 의하면, 제1 언어의 음성 데이터가 포함된 영상 미디어 파일, 제1 언어의 대본 데이터 및 제2 언어의 자막 데이터가 확보될 경우, 음성인식 기술을 이용하여 각 언어별로 추출된 자막 병렬 데이터를 생성할 수 있다. 이에 따라 제2 언어로 된 자막 데이터를 제1 언어로 직접 번역하지 않고도 자막 병렬 데이터를 생성할 수 있으므로, 번역 및 자막 병렬 데이터의 생성에 필요한 비용 및 시간을 절약할 수 있다.

생성된 자막 병렬 데이터는 텍스트 데이터뿐 아니라 시간정보를 포함하기 때문에, 곧바로 제1 언어의 자막 데이터로써 활용할 수 있다.

본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 병렬 데이터 생성 장치의 구성도이다.
도 2는 본 발명의 일 실시예에서 사용되는 음성인식 프로그램을 개념적으로 나타내는 구성도이다.
도 3은 본 발명의 일 실시예에서 사용되는 병렬 데이터 생성 프로그램을 개념적으로 나타내는 구성도이다.
도 4는 본 발명의 일 실시예에서 사용되는 음성인식 기술을 사용하여 영상 미디어 파일에 포함된 음성 데이터를 텍스트 데이터로 변환하는 방법을 나타내는 순서도이다.
도 5는 본 발명의 일 실시예에 따른 병렬 데이터 생성 방법을 나타내는 순서도이다.
도 6은 제1 언어의 음성 데이터가 포함된 영상 미디어 파일에 대응하는 제1 언어의 대본 데이터를 예시한다.
도 7은 영상 미디어 파일에 포함된 제1 언어의 음성 데이터를 음성인식 기술을 이용하여 제1 언어의 텍스트 데이터를 생성한 것을 예시한다.
도 8은 제1 언어의 대본 데이터의 각 문장에 제1 표시 시간정보를 할당하는 것을 예시한다.
도 9는 제1 언어의 음성 데이터를 포함한 영상 미디어 파일에 대응하는 제2 언어의 자막 데이터를 예시한다.
도 10은, 도 8에서 예시한, 제1 표시 시간정보가 할당된 제1 언어의 대본 데이터와, 도 9에서 예시한 제2 표시 시간정보가 할당된 제2 언어의 자막 데이터를, 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로 정렬한 것을 예시한다.
도 11은, 도 10에서 예시한, 정렬된 제1 언어의 대본 데이터 및 제2 언어의 자막 데이터에 대해, 복수의 묶음 데이터를 생성한 결과를 예시한다.
도 12는, 사용자의 입력에 의해, 도 11에서 예시한 복수의 묶음 데이터를 기초로 생성된 최종 묶음 데이터를 예시한다.
도 13은, 묶음 데이터로부터 각 문장들이 언어별로 추출되어 자막 병렬 데이터를 생성하는 것을 예시한다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.

본 명세서에서 사용되는 용어는 본 발명의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 '포함'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다.

또한, 명세서에서 사용되는 '부'라는 용어는 소프트웨어 또는 FPGA나 ASIC과 같은 하드웨어 구성요소를 의미하며, '부'는 어떤 역할들을 수행한다. 그렇지만 '부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 '부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '부'들로 결합되거나 추가적인 구성요소들과 '부'들로 더 분리될 수 있다.

아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.

도 1은 본 발명의 일 실시예에 따른 병렬 데이터 생성 장치의 구성도이다.

도 1에 나타난 바와 같이, 병렬 데이터 생성 장치(100)는 프로세서(130) 및 메모리(140)를 포함하고, 입력부(110) 또는 출력부(120)을 더 포함할 수 있다.

입력부(110)는 제1 언어의 음성 데이터가 포함된 영상 미디어 파일, 상기 제1 언어의 대본 데이터 및 제2 언어의 자막데이터를 내부 장치를 이용하여 직접 입력 받거나 통신망으로 연결된 외부 장치로부터 입력 받을 수 있다. 여기서 통신망은 유선망 또는 무선망일 수 있다. 입력부(110)가 상기 영상 미디어 파일, 상기 제1 언어의 대본 데이터, 제2 언어의 자막데이터를 입력 받는 방법은 상술한 실시예에 한정되지 않는다.

출력부(120)는 복수의 묶음 데이터로부터 각 언어별로 추출된 병렬 언어 자막데이터를, 사용자 인터페이스(user interface) 또는 디스플레이 수단을 통해 시각적인 정보로서 표시하거나, 컴퓨터에서 처리할 수 있는 데이터의 형태로 처리하거나, 통신망으로 연결된 외부 장치로 전송하는 등 각종 출력 형태를 포함할 수 있다. 출력부(120)가 복수의 묶음 데이터로부터 각 언어별로 추출된 병렬 언어 자막데이터를 출력하는 방법은 상술한 실시예에 한정되지 않는다.

프로세서(130)는 입력부(110)를 통해 입력 받은 제1 언어의 음성 데이터가 포함된 영상 미디어 파일, 상기 제1 언어의 대본 데이터 및 제2 언어의 자막데이터를 이용하여 자막 병렬 데이터를 생성한다. 프로세서(130)는 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 프로세서(130)는 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 처리 장치를 의미할 수 있으나, 상술한 실시예에 한정되지 않는다.

프로세서(130)는 메모리(140)에 저장된 명령어를 실행함으로써, 영상 미디어 파일에 포함된 제1 언어의 음성 데이터에 대해, 기 학습된 음성인식 기술을 이용하여 상기 음성 데이터의 재생시간 정보를 포함하는 상기 제1 언어의 텍스트 데이터를 생성하고, 상기 생성된 텍스트 데이터와 기 저장되어 있는 상기 영상 미디어 파일의 상기 제1 언어의 대본 데이터에 대하여, 기 정해진 알고리즘을 이용하여 각 데이터의 대응되는 부분을 검색하고, 상기 검색의 결과 및 상기 재생시간 정보를 기초로, 상기 대본 데이터의 각 문장에 제1 표시 시간정보를 할당하고, 상기 영상 미디어 파일과 관련되어, 각 문장에 제2 표시 시간정보가 할당된 제2 언어의 자막 데이터를 획득하고, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 상기 대본 데이터와 상기 자막 데이터를 정렬하고, 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터에 대해, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 복수의 묶음 데이터를 생성하고, 상기 복수의 묶음 데이터로부터 각 언어별로 추출된 자막 병렬 데이터를 생성하는 방법을 수행하도록 제어할 수 있다. 각 묶음 데이터는 상기 대본 데이터의 일부와 상기 자막 데이터의 일부를 포함할 수 있다.

프로세서(130)는 제1 언어의 대본 데이터에 제1 표시 시간정보를 할당할 때, 제1 언어의 텍스트 데이터 내의 특정 부분과 대응되는 부분이 상기 대본 데이터에서 검색되지 않은 경우, 상기 텍스트 데이터 내의 상기 대본 데이터와 대응되지 않는 부분의 이전 또는 이후 부분의 재생시간 정보를 기초로, 상기 대본 데이터에 제1 표시 시간정보를 할당할 수 있다. 상기 할당되는 제1 표시 시간정보는, 상기 대본 데이터와 대응되지 않는 부분의 이전 또는 이후 부분의 재생시간 정보의 평균값일 수 있다.

프로세서(130)는 복수의 묶음 데이터를 생성할 때, 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로 정렬된 대본 데이터 및 자막 데이터에 대하여, 제1 표시 시간정보 및 제2 표시 시간정보의 시작 시각과 종료 시각 사이 간격인, 시간 범위가 겹치지 않는 경우, 상기 시간 범위가 겹치지 않는 상기 정렬된 대본 데이터 및 상기 정렬된 자막데이터의 부분을 시각적인 요소를 이용해 표시하거나 삭제할 수 있다.

프로세서(130)는 복수의 묶음 데이터를 생성할 때, 제1 표시 시간정보 및 제2 표시 시간정보를 기초로 정렬된 대본 데이터 및 자막 데이터에 대하여, 제1 표시 시간정보 및 제2 표시 시간정보의 시작 시각과 종료 시각 사이 간격인, 시간 범위가 겹치지 않는 경우, 상호 의미 관계를 기초로, 상기 복수의 묶음 데이터를 생성할 수 있다. 예를 들면, 문자열 정렬 알고리즘을 이용하여 각 데이터의 상기 상호 의미 관계에 대응되는 부분을 검색하고 정렬할 수 있다. 상기 상호 의미 관계는, 상기 대본 데이터 및 상기 자막 데이터를 구성하는 각 문장간의 의미의 유사 정도 또는 문장 구조의 유사 정도를 의미할 수 있다.

프로세서(130)는 복수의 묶음 데이터를 생성할 때, 적어도 하나의 행의 간격을 두어 초기 묶음 데이터를 생성하는 제1 단계와 사용자의 입력에 의해, 상기 초기 묶음 데이터를 기초로, 최종 묶음 데이터를 생성하는 제2 단계를 포함하는 방법을 이용할 수 있다.

예를 들면, 프로세서(130)는 제1 표시 시간정보 및 제2 표시 시간정보를 기초로 정렬된 대본 데이터 및 자막 데이터에 대하여, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보의 시작 시각과 종료 시각 사이 간격인, 시간 범위가 겹치는 정도 및 상호 의미 관계를 기초로 산출된 페어링 결합지수가 높을수록, 더 적은 행의 간격을 두어 상기 초기 묶음 데이터를 생성할 수 있다. 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터에 대하여, 상기 시간 범위가 많이 겹칠수록 상기 페어링 결합지수가 높아지고, 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터를 구성하는 각 문장간의 의미의 유사 정도 또는 문장 구조의 유사 정도가 클수록 상기 페어링 결합지수가 높아질 수 있다. 이에 따라, 생성된 복수의 묶음 데이터에 있어서, 관련도가 높은, 즉, 페어링 결합지수가 높은 문장들은 더 적은 행의 간격을 두어 상기 초기 묶음 데이터로서 생성되고, 관련도가 낮은, 즉, 페어링 결합지수가 낮은 문장들은 더 많은 행의 간격을 두어 상기 초기 묶음 데이터로서 생성될 수 있다.

프로세서(130)는 복수의 묶음 데이터를 생성할 때, 각 묶음 데이터 내에서, 제1 언어의 대본 데이터를 구성하는 문장의 제1 표시 시간정보와 제2 언어의 자막 데이터를 구성하는 문장의 제2 표시 시간정보의 차이가 기 설정된 시간을 초과하는 경우, 상기 제2 표시 시간정보를 상기 제1 표시 시간정보와 동일하게 수정할 수 있다.

프로세서(130)는 복수의 묶음 데이터를 생성할 때, 제1 표시 시간정보 및 제2 표시 시간정보를 기초로 정렬된 대본 데이터를 구성하는 제1 문장과 상기 제1 문장의 다음 문장인 제2 문장에 대하여, 상기 제1 문장의 제3 표시 시간정보와 상기 제2 문장의 제4 표시 시간정보 사이의 시간 간격이 기 설정된 시간을 초과하는 경우, 상기 제1 문장과 상기 제2 문장을 서로 다른 묶음 데이터로 생성할 수 있다.

프로세서(130)는 복수의 묶음 데이터를 생성할 때, 제1 표시 시간정보 및 제2 표시 시간정보를 기초로 정렬된 대본 데이터를 구성하는 제3 문장과 제1 표시 시간정보 및 제2 표시 시간정보를 기초로 정렬된 자막 데이터를 구성하는 제4 문장에 대하여, 상기 제3 문장의 중간 시각과 상기 제4 문장의 중간 시각의 차이가 기 설정된 시간보다 작을 경우, 상기 제3 문장과 상기 제4 문장을 동일한 묶음 데이터로 생성할 수 있다. 상기 중간 시각은 상기 제1 표시 시간정보 또는 상기 제2 표시 시간정보 내에서, 시작 시각과 종료 시각의 중간을 의미할 수 있다.

프로세서(130)는 각 묶음 데이터 내에서, 제1 언어의 대본 데이터를 구성하는 제3 문장과 제 2언어의 자막 데이터를 구성하는 제4 문장에 대하여, 상기 제3 문장의 중간 시각과 상기 제4 문장의 중간 시각의 차이가 기 설정된 시간보다 큰 경우, 제1 표시 시간정보 및 제2 표시 시간정보의 중간 시각을 기초로, 복수의 묶음 데이터를 다시 생성할 수 있다.

메모리(140)에는 음성인식 프로그램(150), 병렬 데이터 생성 프로그램(160), 음성인식 프로그램(150)의 실행에 필요한 정보 및 병렬 데이터 생성 프로그램(160)의 실행에 필요한 정보가 저장될 수 있고, 프로세서(130)에 의한 처리 결과가 저장될 수도 있다. 또한 메모리(140)에는 문자열 정렬 알고리즘이 저장될 수도 있다. 메모리(140)는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 플래시 메모리(flash memory)와 같은 프로그램 명령어들을 저장하고 수행하도록 특별히 구성된 하드웨어 장치 등과 같이 컴퓨터 판독 가능한 기록매체를 의미할 수 있으나, 상술한 실시예에 한정되지 않는다.

도 2는 본 발명의 일 실시예에서 사용되는 음성인식 프로그램(150)을 개념적으로 나타내는 구성도이다. 음성인식은 STT(Speech To Text) 기술을 의미할 수 있지만 이에 한정되지 않는다. 음성인식 프로그램(150)은 음성 데이터를 생성하고, 생성된 음성 데이터를 텍스트 데이터로 변환하도록 프로그램 된 명령어들을 포함하는 소프트웨어를 의미할 수 있다. 프로세서(130)는 음성인식 프로그램(150)을 실행하기 위하여 메모리(140)에서 음성인식 프로그램(150) 및 음성인식 프로그램(150)의 실행에 필요한 정보를 로드할 수 있다.

도 2에 나타난 바와 같이, 음성인식 프로그램(150)은 음성 데이터 생성부(210)와 음성 데이터 변환부(220)를 포함할 수 있고, 이는 상기 음성인식 프로그램(150)의 기능을 쉽게 설명하기 위하여 개념적으로 나눈 것으로서, 이에 한정되지 않는다. 따라서, 실시예들에 따라, 음성 데이터 생성부(210) 및 음성 데이터 변환부(220)의 기능은 병합 또는 분리 가능하며, 하나의 프로그램에 포함된 일련의 명령어들로 구현될 수도 있다.

음성 데이터 생성부(210)는 제1 언어의 음성 데이터가 포함된 영상 미디어 파일을 이용하여 제1 언어의 음성 데이터를 생성할 수 있다. 음성 데이터 변환부(220)는 미리 학습된 변환 모델을 이용하여 상기 음성 데이터를 텍스트 데이터로 변환할 수 있다. 상기 변환 모델은 상기 음성 데이터가 입력되면 상기 음성 데이터가 변환된 상기 텍스트 데이터를 출력하도록 학습용 음성 데이터와, 학습용 텍스트 데이터를 이용하여 학습된 것일 수 있다. 음성 데이터 생성부(210)에서 상기 음성 데이터를 생성하는 과정 없이, 음성 데이터 변환부(220)에서 상기 영상 미디어 파일에 포함된 상기 음성 데이터를 곧바로 인식한 후 텍스트 데이터를 생성할 수도 있다.

도 3은 본 발명의 일 실시예에서 사용되는 병렬 데이터 생성 프로그램(160)을 개념적으로 나타내는 구성도이다.

도 3에 나타난 바와 같이, 병렬 데이터 생성 프로그램(160)은 획득부(310), 검색부(320), 시간정보 할당부(330), 정렬부(340), 묶음 데이터 생성부(350) 및 추출부(360)을 포함할 수 있고, 이는 상기 병렬 데이터 생성 프로그램(160)의 기능을 쉽게 설명하기 위하여 개념적으로 나눈 것으로서, 이에 한정되지 않는다. 따라서, 실시예들에 따라, 획득부(310), 검색부(320), 시간정보 할당부(330), 정렬부(340), 묶음 데이터 생성부(350) 및 추출부(360)의 기능은 병합 또는 분리 가능하며, 하나의 프로그램에 포함된 일련의 명령어들로 구현될 수도 있다.

획득부(310)는 입력부(110)를 통해 제1 언어의 음성 데이터가 포함된 영상 미디어 파일, 상기 제1 언어의 대본 데이터 및 제2 언어의 자막 데이터를 내부 장치를 이용하여 직접 입력 받거나 통신망으로 연결된 외부 장치로부터 입력 받는 기능을 수행할 수 있다. 또한, 획득부(310)는 제1 언어의 음성 데이터가 포함된 영상 미디어 파일을 입력으로 하여 음성인식 프로그램(150)을 통해 생성된 제1 언어의 텍스트 데이터를 획득할 수 있다.

검색부(320)는 음성인식 프로그램(150)을 통해 생성된 제1 언어의 텍스트 데이터와 제1 언어의 음성 데이터가 포함된 영상 미디어 파일의 제1 언어의 대본 데이터에 대하여, 문자열 정렬 알고리즘을 이용하여 각 데이터의 대응되는 부분을 검색할 수 있다. 예를 들면, 제1 언어의 텍스트 데이터는 STT 결과 데이터 일 수 있다. 문자열 정렬 알고리즘은 문자열 데이터를 특정한 순서로 정렬하는 방법으로, 이를 이용하여 두 개 문자열 데이터에서 일치하는 부분을 정렬할 수 있다. 문자열 정렬 알고리즘은 두 개의 문자열 데이터에서 가장 긴 공통 부분 문자열을 찾는 알고리즘인 LCS를 이용하여 구현할 수 있다. 각 데이터의 대응되는 부분을 검색함에 있어서, 제1 언어의 텍스트 데이터를 기준으로, 제1 언어의 텍스트 데이터를 구성하는 각 문장에 대응되는 문장이 제1 언어의 대본 데이터에 존재하는지 검색할 수 있다.

시간정보 할당부(330)는 검색부(320)에서 수행한 검색의 결과 및 영상 미디어 파일에 포함된 제1 언어의 음성 데이터의 재생시간 정보를 기초로, 제1 언어의 대본 데이터의 각 문장에 제1 표시 시간정보를 할당할 수 있다.

음성인식 기술은 상황에 따라 정확도가 떨어지는 문제가 있을 수 있기 때문에, 검색 결과, 각 데이터의 대응되는 부분이 없는 결과가 나올 수 있다. 따라서, 시간정보 할당부(330)는 제1 언어의 대본 데이터에 제1 표시 시간정보를 할당할 때, 제1 언어의 텍스트 데이터 내의 특정 부분과 대응되는 부분이 상기 대본 데이터에서 검색되지 않은 경우, 상기 텍스트 데이터 내의 상기 대본 데이터와 대응되지 않는 부분의 이전 또는 이후 부분의 재생시간 정보를 기초로, 상기 대본 데이터에 제1 표시 시간정보를 할당할 수 있다. 상기 할당되는 제1 표시 시간정보는, 상기 대본 데이터와 대응되지 않는 부분의 이전 또는 이후 부분의 재생시간 정보의 평균값일 수 있다.

정렬부(340)는 제1 표시 시간정보 및 제2 표시 시간정보를 기초로, 제1 언어의 대본 데이터와 제2 언어의 자막 데이터를 정렬할 수 있다. 제1 표시 시간정보 및 제2 표시 시간정보를 기초로 정렬한다는 것은, 표시 시각이 이를수록 먼저 배치되고, 표시 시각이 늦을수록 뒤에 배치되는 것을 의미할 수 있다.

묶음 데이터 생성부(350)는 제1 표시 시간정보 및 제2 표시 시간정보를 기초로 정렬된 제1 언어의 대본 데이터 및 제2 언어의 자막 데이터에 대해, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 복수의 묶음 데이터를 생성할 수 있다. 각 묶음 데이터는 상기 대본 데이터의 일부와 상기 자막 데이터의 일부를 포함할 수 있다.

묶음 데이터 생성부(350)는 복수의 묶음 데이터를 생성할 때, 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로 정렬된 대본 데이터 및 자막 데이터에 대하여, 제1 표시 시간정보 및 제2 표시 시간정보의 시작 시각과 종료 시각 사이 간격인, 시간 범위가 겹치지 않는 경우, 상기 시간 범위가 겹치지 않는 상기 정렬된 대본 데이터 및 상기 정렬된 자막데이터의 부분을 시각적인 요소를 이용해 표시하거나 삭제할 수 있다. 이에 따라, 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터 내의 상기 시간 범위가 겹치지 않는 문장들은 시각적인 요소를 이용하여 구분되어 표시될 수도 있고, 잘못 입력된 데이터로 간주되어 삭제될 수도 있다.

묶음 데이터 생성부(350)는 복수의 묶음 데이터를 생성할 때, 제1 표시 시간정보 및 제2 표시 시간정보를 기초로 정렬된 대본 데이터 및 자막 데이터에 대하여, 제1 표시 시간정보 및 제2 표시 시간정보의 시작 시각과 종료 시각 사이 간격인, 시간 범위가 겹치지 않는 경우, 상호 의미 관계를 기초로, 상기 복수의 묶음 데이터를 생성할 수 있다. 예를 들면, 문자열 정렬 알고리즘을 이용하여 각 데이터의 상기 상호 의미 관계에 대응되는 부분을 검색하고 정렬할 수 있다. 상기 상호 의미 관계는, 상기 대본 데이터 및 상기 자막 데이터를 구성하는 각 문장간의 의미의 유사 정도 또는 문장 구조의 유사 정도를 의미할 수 있다.

묶음 데이터 생성부(350)는 복수의 묶음 데이터를 생성할 때, 적어도 하나의 행의 간격을 두어 초기 묶음 데이터를 생성하는 제1 단계와 사용자의 입력에 의해, 상기 초기 묶음 데이터를 기초로, 최종 묶음 데이터를 생성하는 제2 단계를 포함하는 방법을 이용할 수 있다.

예를 들면, 묶음 데이터 생성부(350)는 제1 표시 시간정보 및 제2 표시 시간정보를 기초로 정렬된 대본 데이터 및 자막 데이터에 대하여, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보의 시작 시각과 종료 시각 사이 간격인, 시간 범위가 겹치는 정도 및 상호 의미 관계를 기초로 산출된 페어링 결합지수가 높을수록, 더 적은 행의 간격을 두어 상기 초기 묶음 데이터를 생성할 수 있다. 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터에 대하여, 상기 시간 범위가 많이 겹칠수록 상기 페어링 결합지수가 높아지고, 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터를 구성하는 각 문장간의 의미의 유사 정도 또는 문장 구조의 유사 정도가 클수록 상기 페어링 결합지수가 높아질 수 있다. 이에 따라, 생성된 복수의 묶음 데이터에 있어서, 관련도가 높은, 즉, 페어링 결합지수가 높은 문장들은 더 적은 행의 간격을 두어 상기 초기 묶음 데이터로서 생성되고, 관련도가 낮은, 즉, 페어링 결합지수가 낮은 문장들은 더 많은 행의 간격을 두어 상기 초기 묶음 데이터로서 생성될 수 있다.

제1 언어의 텍스트 데이터는 음성인식 프로그램을 통해 상기 텍스트 데이터의 각 문장에 각 음성 데이터의 재생시간 정보가 입력된 데이터이고, 제2 언어의 자막 데이터의 재생시간 정보는 임의로 입력될 수 있다. 따라서 영상 미디어 파일에 포함된 상기 제1 언어의 음성 데이터의 재생시간 정보와 비교할 때, 상기 자막 데이터의 제2 표시 시간정보에 비해 상기 텍스트 데이터의 재생시간 정보가 할당된 제1 언어의 대본 데이터의 제1 표시 시간정보가 더 정확할 수 있다. 따라서, 묶음 데이터 생성부(350)는 복수의 묶음 데이터를 생성할 때, 각 묶음 데이터 내에서, 제1 언어의 대본 데이터를 구성하는 문장의 제1 표시 시간정보와 제2 언어의 자막 데이터를 구성하는 문장의 제2 표시 시간정보의 차이가 기 설정된 시간을 초과하는 경우, 상기 제2 표시 시간정보를 상기 제1 표시 시간정보와 동일하게 수정할 수 있다.

묶음 데이터 생성부(350)는 복수의 묶음 데이터를 생성할 때, 제1 표시 시간정보 및 제2 표시 시간정보를 기초로 정렬된 대본 데이터를 구성하는 제1 문장과 상기 제1 문장의 다음 문장인 제2 문장에 대하여, 상기 제1 문장의 제3 표시 시간정보와 상기 제2 문장의 제4 표시 시간정보 사이의 시간 간격이 기 설정된 시간을 초과하는 경우, 상기 제1 문장과 상기 제2 문장을 서로 다른 묶음 데이터로 생성할 수 있다.

묶음 데이터 생성부(350)가 각 묶음 데이터를 생성할 때, 제1 표시 시간정보 및 제2 표시 시간정보의 시작 시각과 종료 시각만 고려하는 경우, 부정확한 결과가 나올 수 있다. 따라서, 묶음 데이터 생성부(350)는 중간 시각을 고려하여, 복수의 묶음 데이터를 생성할 수 있다. 예를 들면, 묶음 데이터 생성부(350)는 제1 표시 시간정보 및 제2 표시 시간정보를 기초로 정렬된 대본 데이터를 구성하는 제3 문장과 제1 표시 시간정보 및 제2 표시 시간정보를 기초로 정렬된 자막 데이터를 구성하는 제4 문장에 대하여, 상기 제3 문장의 중간 시각과 상기 제4 문장의 중간 시각의 차이가 기 설정된 시간보다 작을 경우, 상기 제3 문장과 상기 제4 문장을 동일한 묶음 데이터로 생성할 수 있다. 상기 중간 시각은 상기 제1 표시 시간정보 또는 상기 제2 표시 시간정보 내에서, 시작 시각과 종료 시각의 중간을 의미할 수 있다.

묶음 데이터 생성부(350)는 각 묶음 데이터 내에서, 제1 언어의 대본 데이터를 구성하는 제3 문장과 제 2언어의 자막 데이터를 구성하는 제4 문장에 대하여, 상기 제3 문장의 중간 시각과 상기 제4 문장의 중간 시각의 차이가 기 설정된 시간보다 큰 경우, 제1 표시 시간정보 및 제2 표시 시간정보의 중간 시각을 기초로, 복수의 묶음 데이터를 다시 생성할 수 있다.

추출부(360)는 복수의 묶음 데이터로부터 각 언어별 자막 병렬 데이터를 추출할 수 있다.

도 4는 본 발명의 일 실시예에서 사용되는 음성인식 기술을 사용하여 영상 미디어 파일에 포함된 음성 데이터를 텍스트 데이터로 변환하는 방법을 나타내는 순서도이다. 도 4에 나타난 바와 같이, 음성인식 기술을 사용하여 영상 미디어 파일에 포함된 음성 데이터를 텍스트 데이터로 변환하는 방법은, 제1 언어의 음성 데이터가 포함된 영상 미디어 파일을 입력 받는 단계(S100), 상기 영상 미디어 파일로부터 상기 음성 데이터를 생성하는 단계(S200) 및 제1 언어의 텍스트 데이터가 생성되는 단계(S300)를 포함한다. 상기 음성 데이터를 생성하는 과정 없이, 상기 영상 미디어 파일에 포함된 상기 음성 데이터를 곧바로 인식한 후 상기 텍스트 데이터를 생성할 수도 있다.

도 5는 본 발명의 일 실시예에 따른 병렬 데이터 생성 방법을 나타내는 순서도이다. 도 5에 나타난 바와 같이, 병렬 데이터 생성 방법은, 영상 미디어 파일에 포함된 제1 언어의 음성 데이터에 대해, 기 학습된 음성인식 기술을 이용하여 상기 음성 데이터의 재생시간 정보를 포함하는 상기 제1 언어의 텍스트 데이터를 생성하는 단계(S400), 상기 생성된 텍스트 데이터와 기 저장되어 있는 상기 영상 미디어 파일의 상기 제1 언어의 대본 데이터에 대하여, 기 정해진 알고리즘을 이용하여 각 데이터의 대응되는 부분을 검색하는 단계(S500), 상기 검색의 결과 및 상기 재생시간 정보를 기초로, 상기 대본 데이터의 각 문장에 제1 표시 시간정보를 할당하는 단계(S600), 상기 영상 미디어 파일과 관련되어, 각 문장에 제2 표시 시간정보가 할당된 제2 언어의 자막 데이터를 획득하는 단계(S700), 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 상기 대본 데이터와 상기 자막 데이터를 정렬하는 단계(S800), 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터에 대해, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 복수의 묶음 데이터를 생성하는 단계(S900) 및 상기 복수의 묶음 데이터로부터 각 언어별로 추출된 자막 병렬 데이터를 생성하는 단계(S1000)를 포함한다. 각 묶음 데이터는 상기 대본 데이터의 일부와 상기 자막 데이터의 일부를 포함할 수 있다.

이하의 설명에서는 도 6 내지 도 13을 참조하여, 제1 언어의 음성 데이터가 포함된 영상 미디어 파일, 상기 제1 언어의 대본 데이터, 제2 언어의 자막데이터를 이용하여 자막 병렬 데이터를 생성하는 방법에 대하여 상세하게 설명한다.

도 6은 제1 언어의 음성 데이터가 포함된 영상 미디어 파일에 대응하는 제1 언어의 대본 데이터를 예시한다. 대본 데이터이므로 영상 미디어 파일에 포함된 음성 데이터와 대응되는 시간 정보는 할당되어 있지 않다.

도 7은 영상 미디어 파일에 포함된 제1 언어의 음성 데이터를 음성인식 기술을 이용하여 제1 언어의 텍스트 데이터를 생성한 것을 예시한다. 텍스트 데이터의 각 문장에는 제1 언어의 음성 데이터의 재생시간 정보가 포함된다. 각 문장은 음성 데이터에 대한 음성인식 결과이며, 각 문장의 첫 두 숫자는 해당 문장의 시작 시각과 종료 시각을 나타낸다. 발화가 없는 시간은 <SILENCE>로 표시되어 있다.

도 8은 제1 언어의 대본 데이터의 각 문장에 제1 표시 시간정보를 할당하는 것을 예시한다. 구체적으로, 제1 언어의 대본 데이터와 제1 언어의 텍스트 데이터에 대하여, 대본 데이터의 각 문장에 텍스트 데이터의 각 문장에 포함된 재생시간 정보를 제1 표시 시간정보로서 할당할 수 있다. 예를 들면, 문자열 정렬 알고리즘을 이용하여 각 데이터의 대응되는 부분을 검색하고 정렬(align)한 후, 대본 데이터에 대응되는 부분을 텍스트 데이터에서 검색할 수 있다. 대본 데이터와 텍스트 데이터의 대응되는 부분이 검색되지 않는 경우가 있을 수 있는데, 도 8에서는 예시적으로 <BAD_ALIGN>이라고 표시되어 있다. 이 경우 예를 들면, 텍스트 데이터 내의 대본 데이터와 대응되지 않는 부분의 이전 또는 이후 부분의 재생시간 정보를 기초로, 대본 데이터에 제1 표시 시간정보를 할당할 수 있다.

도 9는 제1 언어의 음성 데이터를 포함한 영상 미디어 파일에 대응하는 제2 언어의 자막 데이터를 예시한다. 자막 데이터이므로 각 문장에는 제2 표시 시간정보가 할당되어 있다.

도 10은, 도 8에서 예시한, 제1 표시 시간정보가 할당된 제1 언어의 대본 데이터와, 도 9에서 예시한 제2 표시 시간정보가 할당된 제2 언어의 자막 데이터를, 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로 정렬한 것을 예시한다.

도 11은, 도 10에서 예시한, 정렬된 제1 언어의 대본 데이터 및 제2 언어의 자막 데이터에 대해, 복수의 묶음 데이터를 생성한 결과를 예시한다. 각 문장의 첫 번째 숫자는 시작 시각, 두 번째 숫자는 종료 시각, 세 번째 숫자는 중간 시각을 의미한다.

제1 표시 시간정보 및 제2 표시 시간정보를 기초로, 제1 표시 시간정보 및 제2 표시 시간정보의 시작 시각과 종료 시각 사이 간격인 시간 범위가 겹치는지 여부를 기준으로 하여 복수의 묶음 데이터를 생성할 수 있다.

제1 표시 시간정보 및 제2 표시 시간정보를 기초로, 해당 문장의 종료 시각과 다음 문장의 시작 시각 사이의 시간 간격을 기준으로 하여 복수의 묶음 데이터를 생성할 수 있다.

제1 표시 시간정보 및 제2 표시 시간정보를 기초로, 각 문장의 중간 시각을 기준으로 하여 복수의 묶음 데이터를 생성할 수 있다.

따라서 제1 언어의 대본 데이터 및 제2 언어의 자막 데이터를 구성하는 각 문장들에 대해, 각 문장들의 시간 범위가 겹치거나, 각 문장들의 시간 간격이 기 설정된 시간보다 작거나, 각 문장들의 중간 시각의 차이가 기 설정된 시간보다 작은 경우, 동일한 묶음 데이터로서 생성될 수 있다. 여기서 묶음 데이터는 자막 병렬 데이터가 될 수 있는 문장들을 의미한다.

또한, 동일한 묶음 데이터로서 생성된 각 묶음 데이터 내의 제1 언어의 대본 데이터 및 제2 언어의 자막 데이터를 구성하는 각 문장들의 중간 시각의 차이가 기 설정된 시간보다 큰 경우, 제1 표시 시간정보 및 제2 표시 시간정보의 중간 시각을 기초로, 복수의 묶음 데이터를 다시 생성할 수 있다.

제1 언어의 대본 데이터 및 제2 언어의 자막 데이터를 구성하는 각 문장들에 대해, 시간 범위가 겹치지 않는 경우, 상호 의미 관계를 기초로, 상기 복수의 묶음 데이터를 생성할 수 있다. 예를 들면, 문자열 정렬 알고리즘을 이용하여 각 데이터의 상기 상호 의미 관계에 대응되는 부분을 검색하고 정렬할 수 있다. 상기 상호 의미 관계는, 상기 대본 데이터 및 상기 자막 데이터를 구성하는 각 문장간의 의미의 유사 정도 또는 문장 구조의 유사 정도를 의미할 수 있다.

복수의 묶음 데이터를 생성할 때, 적어도 하나의 행의 간격을 두어 초기 묶음 데이터를 생성하는 제1 단계와 사용자의 입력에 의해, 상기 초기 묶음 데이터를 기초로, 최종 묶음 데이터를 생성하는 제2 단계를 포함하는 방법을 이용할 수 있다. 생성된 복수의 묶음 데이터는, 상황에 따라 부정확한 결과가 나올 수 있으므로, 사용자가 후 작업을 할 경우 정확한 묶음 데이터를 생성하는데 도움이 될 수 있다.

시간 범위가 겹치는 정도 및 상호 의미 관계를 기초로 산출된 페어링 결합지수가 높을수록, 더 적은 행의 간격을 두어 상기 초기 묶음 데이터를 생성할 수 있다. 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터에 대하여, 상기 시간 범위가 많이 겹칠수록 상기 페어링 결합지수가 높아지고, 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터를 구성하는 각 문장간의 의미의 유사 정도 또는 문장 구조의 유사 정도가 클수록 상기 페어링 결합지수가 높아질 수 있다. 이에 따라, 생성된 복수의 묶음 데이터에 있어서, 관련도가 높은, 즉, 페어링 결합지수가 높은 문장들은 더 적은 행의 간격을 두어 상기 초기 묶음 데이터로서 생성되고, 관련도가 낮은, 즉, 페어링 결합지수가 낮은 문장들은 더 많은 행의 간격을 두어 상기 초기 묶음 데이터로서 생성될 수 있다. 따라서, 도 11에 나타난 바와 같이, 페어링 결합지수에 따라 행의 간격을 다르게 하여 묶음 데이터가 생성될 수 있다.

제1 언어의 텍스트 데이터는 음성인식 프로그램을 통해 상기 텍스트 데이터의 각 문장에 각 음성 데이터의 재생시간 정보가 입력된 데이터이고, 제2 언어의 자막 데이터의 재생시간 정보는 임의로 입력될 수 있다. 따라서 영상 미디어 파일에 포함된 상기 제1 언어의 음성 데이터의 재생시간 정보와 비교할 때, 상기 자막 데이터의 제2 표시 시간정보에 비해 상기 텍스트 데이터의 재생시간 정보가 할당된 제1 언어의 대본 데이터의 제1 표시 시간정보가 더 정확할 수 있다. 따라서, 복수의 묶음 데이터를 생성할 때, 각 묶음 데이터 내에서, 제1 언어의 대본 데이터를 구성하는 문장의 제1 표시 시간정보와 제2 언어의 자막 데이터를 구성하는 문장의 제2 표시 시간정보의 차이가 기 설정된 시간을 초과하는 경우, 상기 제2 표시 시간정보를 상기 제1 표시 시간정보와 동일하게 수정할 수 있다.

도 12는, 사용자의 입력에 의해, 도 11에서 예시한 복수의 묶음 데이터를 기초로 생성된 최종 묶음 데이터를 예시한다.

도 13은, 묶음 데이터로부터 각 문장들이 언어별로 추출되어 자막 병렬 데이터를 생성하는 것을 예시한다. 도 12에서 예시한 복수의 묶음 데이터 중 하나의 묶음 데이터에 대해, 각 언어별로 따로 추출하면 서로가 병렬 데이터가 될 수 있다.

본 발명에 첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 인코딩 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 인코딩 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방법으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 품질에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100: 병렬 데이터 생성 장치
110: 입력부
120: 출력부
130: 프로세서
140: 메모리
150: 음성인식 프로그램
160: 병렬 데이터 생성 프로그램
210: 음성 데이터 생성부
220: 음성 데이터 변환부
310: 획득부
320: 검색부
330: 시간정보 할당부
340: 정렬부
350: 묶음 데이터 생성부
360: 추출부

Claims

병렬 데이터 생성 장치에 의해 수행되는 병렬 데이터 생성 방법에 있어서,
영상 미디어 파일에 포함된 제1 언어의 음성 데이터에 대해, 기 학습된 음성인식 기술을 이용하여 상기 음성 데이터의 재생시간 정보를 포함하는 상기 제1 언어의 텍스트 데이터를 생성하는 단계;
기 정해진 알고리즘을 이용하여 상기 생성된 제1 언어의 텍스트 데이터와 기 저장되어 있는 상기 영상 미디어 파일의 상기 제1 언어의 대본 데이터의 대응되는 부분을 검색하는 단계;
상기 검색 결과 상기 제1 언어의 대본 데이터 내 각 문장에 대응되는 상기 제1 언어의 텍스트 데이터 내 각 문장의 상기 재생시간 정보를 이용하여, 상기 제1 언어의 대본 데이터 내 각 문장에 제1 표시 시간정보를 할당하는 단계;
상기 영상 미디어 파일과 관련되어, 각 문장에 제2 표시 시간정보가 할당된 제2 언어의 자막 데이터를 획득하는 단계;
상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 상기 대본 데이터와 상기 자막 데이터를 정렬하는 단계;
상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터에 대해, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 복수의 묶음 데이터 -각 묶음 데이터에는 상기 대본 데이터의 일부와 상기 자막 데이터의 일부가 포함되어 있음- 를 생성하는 단계; 및
상기 복수의 묶음 데이터로부터 각 언어별로 추출된 자막 병렬 데이터를 생성하는 단계를 포함하고,
상기 제1 언어의 음성 데이터 및 상기 제1 언어의 대본 데이터의 내용은 동일하게 대응하는,
병렬 데이터 생성 방법.
제1항에 있어서,
상기 대본 데이터에 제1 표시 시간정보를 할당하는 단계는,
상기 텍스트 데이터 내의 특정 부분과 대응되는 부분이 상기 대본 데이터에서 검색되지 않은 경우, 상기 텍스트 데이터 내의 상기 대본 데이터와 대응되지 않는 부분의 이전 또는 이후 부분의 상기 재생시간 정보를 기초로, 상기 대본 데이터에 제1 표시 시간정보를 할당하는,
병렬 데이터 생성 방법.
제1항에 있어서,
상기 복수의 묶음 데이터를 생성하는 단계는,
상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터에 대하여, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보의 시작 시각과 종료 시각 사이 간격인, 시간 범위가 겹치지 않는 경우, 상기 시간 범위가 겹치지 않는 상기 정렬된 대본 데이터 및 상기 정렬된 자막데이터의 부분을 시각적인 요소를 이용해 표시하거나 삭제하는 단계를 포함하는,
병렬 데이터 생성 방법.
제1항에 있어서,
상기 복수의 묶음 데이터를 생성하는 단계는,
상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터에 대하여, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보의 시작 시각과 종료 시각 사이 간격인 시간 범위가 겹치지 않는 경우, 상호 의미 관계를 기초로, 상기 복수의 묶음 데이터를 생성하는,
병렬 데이터 생성 방법.
제1항에 있어서,
상기 알고리즘은 LCS(longest common subsequence) 알고리즘인,
병렬 데이터 생성 방법.
제2항 또는 제4항에 있어서,
상기 복수의 묶음 데이터를 생성하는 단계는,
적어도 하나의 행의 간격을 두어 초기 묶음 데이터를 생성하는 제1 단계와 사용자의 입력에 의해, 상기 초기 묶음 데이터를 기초로, 최종 묶음 데이터를 생성하는 제2 단계를 포함하는,
병렬 데이터 생성 방법.
제6항에 있어서,
상기 복수의 묶음 데이터를 생성하는 단계는,
상기 시간 범위가 겹치는 정도 및 상기 상호 의미 관계를 기초로 산출된 페어링 결합지수가 높을수록, 더 적은 행의 간격을 두어 상기 초기 묶음 데이터를 생성하는,
병렬 데이터 생성 방법.
제1항에 있어서,
상기 복수의 묶음 데이터를 생성하는 단계는,
상기 각 묶음 데이터 내에서, 상기 대본 데이터를 구성하는 문장의 상기 제1 표시 시간정보와 상기 자막 데이터를 구성하는 문장의 상기 제2 표시 시간정보의 차이가 기 설정된 시간범위 이내일 경우, 상기 제2 표시 시간정보를 상기 제1 표시 시간정보와 동일하게 수정하는 단계를 포함하는,
병렬 데이터 생성 방법.
제1항에 있어서,
상기 복수의 묶음 데이터를 생성하는 단계는,
상기 정렬된 대본 데이터를 구성하는 제1 문장과 상기 제1 문장의 다음 문장인 제2 문장에 대하여, 상기 제1 문장의 제3 표시 시간정보와 상기 제2 문장의 제4 표시 시간정보 사이의 시간 간격이 기 설정된 시간을 초과하는 경우, 상기 제1 문장과 상기 제2 문장을 서로 다른 묶음 데이터로 생성하는,
병렬 데이터 생성 방법.
제1항에 있어서,
상기 복수의 묶음 데이터를 생성하는 단계는,
상기 정렬된 대본 데이터를 구성하는 제3 문장과 상기 정렬된 자막 데이터를 구성하는 제4 문장에 대하여, 상기 제3 문장의 중간 시각과 상기 제4 문장의 중간 시각의 차이가 기 설정된 시간보다 작을 경우, 상기 제3 문장과 상기 제4 문장을 동일한 묶음 데이터로 생성하고,
상기 중간 시각은 상기 제1 표시 시간정보 또는 상기 제2 표시 시간정보 내에서, 시작 시각과 종료 시각의 중간인,
병렬 데이터 생성 방법.
제1항에 있어서,
상기 각 묶음 데이터 내에서, 상기 대본 데이터를 구성하는 제3 문장과 상기 자막 데이터를 구성하는 제4 문장에 대하여, 상기 제3 문장의 중간 시각과 상기 제4 문장의 중간 시각의 차이가 기 설정된 시간보다 큰 경우, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보의 중간 시각을 기초로, 복수의 묶음 데이터를 다시 생성하는 단계를 더 포함하고,
상기 중간 시각은 상기 제1 표시 시간정보 또는 상기 제2 표시 시간정보 내에서, 시작 시각과 종료 시각의 중간인,
병렬 데이터 생성 방법.
컴퓨터 실행 가능한 명령어를 저장하고 있는 컴퓨터 판독 가능 기록매체로서, 상기 컴퓨터 실행 가능한 명령어는, 프로세서에 의해 실행되면,
영상 미디어 파일에 포함된 제1 언어의 음성 데이터에 대해, 기 학습된 음성인식 기술을 이용하여 상기 음성 데이터의 재생시간 정보를 포함하는 상기 제1 언어의 텍스트 데이터를 생성하는 단계, 기 정해진 알고리즘을 이용하여 상기 생성된 제1 언어의 텍스트 데이터와 기 저장되어 있는 상기 영상 미디어 파일의 상기 제1 언어의 대본 데이터의 대응되는 부분을 검색하는 단계, 상기 검색 결과 상기 제1 언어의 대본 데이터 내 각 문장에 대응되는 상기 제1 언어의 텍스트 데이터 내 각 문장의 상기 재생시간 정보를 이용하여, 상기 제1 언어의 대본 데이터 내 각 문장에 제1 표시 시간정보를 할당하는 단계, 상기 영상 미디어 파일과 관련되어, 각 문장에 제2 표시 시간정보가 할당된 제2 언어의 자막 데이터를 획득하는 단계, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 상기 대본 데이터와 상기 자막 데이터를 정렬하는 단계, 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터에 대해, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 복수의 묶음 데이터 -각 묶음 데이터에는 상기 대본 데이터의 일부와 상기 자막 데이터의 일부가 포함되어 있음- 를 생성하는 단계 및 상기 복수의 묶음 데이터로부터 각 언어별로 추출된 자막 병렬 데이터를 생성하는 단계를 포함하고, 상기 제1 언어의 음성 데이터 및 상기 제1 언어의 대본 데이터의 내용은 동일하게 대응하는 방법을 상기 프로세서가 수행하도록 하는,
컴퓨터 판독 가능한 기록매체.
컴퓨터 판독 가능한 기록매체에 저장되어 있는 컴퓨터 프로그램으로서,
상기 컴퓨터 프로그램은, 프로세서에 의해 실행되면,
영상 미디어 파일에 포함된 제1 언어의 음성 데이터에 대해, 기 학습된 음성인식 기술을 이용하여 상기 음성 데이터의 재생시간 정보를 포함하는 상기 제1 언어의 텍스트 데이터를 생성하는 단계, 기 정해진 알고리즘을 이용하여 상기 생성된 제1 언어의 텍스트 데이터와 기 저장되어 있는 상기 영상 미디어 파일의 상기 제1 언어의 대본 데이터의 대응되는 부분을 검색하는 단계, 상기 검색 결과 상기 제1 언어의 대본 데이터 내 각 문장에 대응되는 상기 제1 언어의 텍스트 데이터 내 각 문장의 상기 재생시간 정보를 이용하여, 상기 제1 언어의 대본 데이터 내 각 문장에 제1 표시 시간정보를 할당하는 단계, 상기 영상 미디어 파일과 관련되어, 각 문장에 제2 표시 시간정보가 할당된 제2 언어의 자막 데이터를 획득하는 단계, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 상기 대본 데이터와 상기 자막 데이터를 정렬하는 단계, 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터에 대해, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 복수의 묶음 데이터 -각 묶음 데이터에는 상기 대본 데이터의 일부와 상기 자막 데이터의 일부가 포함되어 있음- 를 생성하는 단계 및 상기 복수의 묶음 데이터로부터 각 언어별로 추출된 자막 병렬 데이터를 생성하는 단계를 포함하고, 상기 제1 언어의 음성 데이터 및 상기 제1 언어의 대본 데이터의 내용은 동일하게 대응하는 방법을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함하는,
컴퓨터 판독 가능한 기록매체에 저장되어 있는 컴퓨터 프로그램.