KR102616598B1 - 번역 자막을 이용한 원문 자막 병렬 데이터 생성 방법 - Google Patents

번역 자막을 이용한 원문 자막 병렬 데이터 생성 방법 Download PDF

Info

Publication number
KR102616598B1
KR102616598B1 KR1020230069575A KR20230069575A KR102616598B1 KR 102616598 B1 KR102616598 B1 KR 102616598B1 KR 1020230069575 A KR1020230069575 A KR 1020230069575A KR 20230069575 A KR20230069575 A KR 20230069575A KR 102616598 B1 KR102616598 B1 KR 102616598B1
Authority
KR
South Korea
Prior art keywords
data
time information
language
display time
sentence
Prior art date
Application number
KR1020230069575A
Other languages
English (en)
Inventor
황명진
유세희
Original Assignee
주식회사 엘솔루
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엘솔루 filed Critical 주식회사 엘솔루
Priority to KR1020230069575A priority Critical patent/KR102616598B1/ko
Application granted granted Critical
Publication of KR102616598B1 publication Critical patent/KR102616598B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

일 실시예에 따른 병렬 데이터 생성 장치에 의해 수행되는 병렬 데이터 생성 방법은, 영상 미디어 파일에 포함된 제1 언어의 음성 데이터에 대해, 기 학습된 음성인식 기술을 이용하여 상기 음성 데이터의 재생시간 정보를 포함하는 상기 제1 언어의 텍스트 데이터를 생성하는 단계, 상기 생성된 텍스트 데이터와 기 저장되어 있는 상기 영상 미디어 파일의 상기 제1 언어의 대본 데이터에 대하여, 기 정해진 알고리즘을 이용하여 각 데이터의 대응되는 부분을 검색하는 단계, 상기 검색의 결과 및 상기 재생시간 정보를 기초로, 상기 대본 데이터의 각 문장에 제1 표시 시간정보를 할당하는 단계, 상기 영상 미디어 파일과 관련되어, 각 문장에 제2 표시 시간정보가 할당된 제2 언어의 자막 데이터를 획득하는 단계, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 상기 대본 데이터와 상기 자막 데이터를 정렬하는 단계, 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터에 대해, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 복수의 묶음 데이터 -각 묶음 데이터에는 상기 대본 데이터의 일부와 상기 자막 데이터의 일부가 포함되어 있음- 를 생성하는 단계 및 상기 복수의 묶음 데이터로부터 각 언어별로 추출된 자막 병렬 데이터를 생성하는 단계를 포함한다.

Description

번역 자막을 이용한 원문 자막 병렬 데이터 생성 방법{METHOD FOR GENERATING ORIGINAL SUBTITLE PARALLEL CORPUS DATA USING TRANSLATED SUBTITLES}
본 발명은 음성인식 기술 및 문자열 정렬 알고리즘을 이용하여 서로 다른 언어의 자막 병렬 데이터를 생성하는 방법에 관한 것이다.
입력된 자연어를 처리하는 기술 중, STT(speech to text) 기술은 음성을 인식하고 이를 텍스트로 변환하는 음성인식 기술이다. 최근 들어 음성인식 기술은 정확도가 많이 향상되었지만, 여전히 정확도가 완벽하지 않으므로 음성을 입력으로 하여 변환된 텍스트 데이터에 오류가 발생할 수 있다.
문자열 정렬 알고리즘은 문자열 데이터를 특정한 순서로 정렬하는 방법으로, 이를 이용하여 두 개 문자열 데이터에서 일치하는 부분과 불일치 하는 부분을 정렬할 수 있다. 문자열 정렬 알고리즘은 두 개의 문자열 데이터에서 가장 긴 공통 부분 문자열을 찾는 알고리즘인 LCS(longest common subsequence)를 이용하여 구현할 수 있다.
병렬 데이터(병렬말뭉치 또는 병렬코퍼스)란 문장 별로 정렬된 두 개 이상의 언어로 구성된 텍스트 모음을 뜻하는 것으로, 한 언어의 각 문장이 다른 언어의 번역과 쌍을 이루어 구성된다. 병렬 데이터는 대응되는 문장의 번역을 서로 비교함으로써 기계 번역 및 자연어 처리 작업 등에서 유용하게 사용될 수 있다. 병렬 데이터의 활용성을 높이기 위해서, 일반적으로 원문과 번역문이 한 두 개의 문장 단위로 연관 지어져 있고, 이렇게 작은 단위로 연관 지어져 있는 것을 정렬되어 있다고 표현한다.
문장 단위의 병렬 데이터 생성은, 첫 번째로 제1 언어로 된 말뭉치를 제2 언어로 직접 번역하는 방법, 두 번째로 병렬 문서에서 병렬 문장을 추출하는 방법이 있다. 첫 번째 방법은, 정확하지만 번역에 많은 시간과 비용이 드는 단점이 있다. 두 번째 방법은, 같은 내용의 제1 언어와 제2 언어의 문서가 필요하고, 문장 단위의 정렬을 자동으로 하기 위해서는 번역기와 단어 혹은 문장의 의미 유사도를 측정할 수 있는 도구가 필요하다.
국내등록특허 10-2225435(2021.03.03.)
본 발명의 해결하고자 하는 과제는, 제1 언어의 음성 데이터가 포함된 영상 미디어 파일, 제1 언어의 대본 데이터 및 제2 언어의 자막 데이터만 있을 뿐, 제1 언어의 자막 데이터가 없는 경우, 음성인식 기술과 문자열 정렬 알고리즘을 이용하여 적은 시간과 비용을 들여 효율적으로 자막 병렬 데이터를 생성할 수 있는 방법을 제공하는 것이다.
다만, 본 발명이 해결하고자 하는 과제는 이상에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 해결하고자 하는 과제는 아래의 기재로부터 본 발명이 속하는 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
일 실시예에 따른 병렬 데이터 생성 장치에 의해 수행되는 병렬 데이터 생성 방법은, 영상 미디어 파일에 포함된 제1 언어의 음성 데이터에 대해, 기 학습된 음성인식 기술을 이용하여 상기 음성 데이터의 재생시간 정보를 포함하는 상기 제1 언어의 텍스트 데이터를 생성하는 단계, 상기 생성된 텍스트 데이터와 기 저장되어 있는 상기 영상 미디어 파일의 상기 제1 언어의 대본 데이터에 대하여, 기 정해진 알고리즘을 이용하여 각 데이터의 대응되는 부분을 검색하는 단계, 상기 검색의 결과 및 상기 재생시간 정보를 기초로, 상기 대본 데이터의 각 문장에 제1 표시 시간정보를 할당하는 단계, 상기 영상 미디어 파일과 관련되어, 각 문장에 제2 표시 시간정보가 할당된 제2 언어의 자막 데이터를 획득하는 단계, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 상기 대본 데이터와 상기 자막 데이터를 정렬하는 단계, 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터에 대해, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 복수의 묶음 데이터 -각 묶음 데이터에는 상기 대본 데이터의 일부와 상기 자막 데이터의 일부가 포함되어 있음- 를 생성하는 단계 및 상기 복수의 묶음 데이터로부터 각 언어별로 추출된 자막 병렬 데이터를 생성하는 단계를 포함한다.
일 실시예에 따른 병렬 데이터 생성 장치는, 제1 언어의 음성 데이터가 포함된 영상 미디어 파일, 상기 제1 언어의 대본 데이터, 제2 언어의 자막데이터를 입력 받는 입력부, 복수의 묶음 데이터로부터 각 언어별로 추출된 병렬 언어 자막데이터를 출력하는 출력부, 컴퓨터 실행 가능한 명령어를 포함하는 메모리 및 상기 명령어를 실행함으로써, 영상 미디어 파일에 포함된 제1 언어의 음성 데이터에 대해, 기 학습된 음성인식 기술을 이용하여 상기 음성 데이터의 재생시간 정보를 포함하는 상기 제1 언어의 텍스트 데이터를 생성하고, 상기 생성된 텍스트 데이터와 기 저장되어 있는 상기 영상 미디어 파일의 상기 제1 언어의 대본 데이터에 대하여, 기 정해진 알고리즘을 이용하여 각 데이터의 대응되는 부분을 검색하고, 상기 검색의 결과 및 상기 재생시간 정보를 기초로, 상기 대본 데이터의 각 문장에 제1 표시 시간정보를 할당하고, 상기 영상 미디어 파일과 관련되어, 각 문장에 제2 표시 시간정보가 할당된 제2 언어의 자막 데이터를 획득하고, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 상기 대본 데이터와 상기 자막 데이터를 정렬하고, 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터에 대해, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 복수의 묶음 데이터 -각 묶음 데이터에는 상기 대본 데이터의 일부와 상기 자막 데이터의 일부가 포함되어 있음- 를 생성하고, 상기 복수의 묶음 데이터로부터 각 언어별로 추출된 자막 병렬 데이터를 생성하는 방법을 수행하도록 제어하는 프로세서를 포함한다.
일 실시예에 따른 컴퓨터 실행 가능한 명령어를 저장하고 있는 컴퓨터 판독 가능 기록매체는, 상기 컴퓨터 실행 가능한 명령어가 프로세서에 의해 실행되면, 영상 미디어 파일에 포함된 제1 언어의 음성 데이터에 대해, 기 학습된 음성인식 기술을 이용하여 상기 음성 데이터의 재생시간 정보를 포함하는 상기 제1 언어의 텍스트 데이터를 생성하는 단계, 상기 생성된 텍스트 데이터와 기 저장되어 있는 상기 영상 미디어 파일의 상기 제1 언어의 대본 데이터에 대하여, 기 정해진 알고리즘을 이용하여 각 데이터의 대응되는 부분을 검색하는 단계, 상기 검색의 결과 및 상기 재생시간 정보를 기초로, 상기 대본 데이터의 각 문장에 제1 표시 시간정보를 할당하는 단계, 상기 영상 미디어 파일과 관련되어, 각 문장에 제2 표시 시간정보가 할당된 제2 언어의 자막 데이터를 획득하는 단계, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 상기 대본 데이터와 상기 자막 데이터를 정렬하는 단계, 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터에 대해, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 복수의 묶음 데이터 -각 묶음 데이터에는 상기 대본 데이터의 일부와 상기 자막 데이터의 일부가 포함되어 있음- 를 생성하는 단계, 상기 복수의 묶음 데이터로부터 각 언어별로 추출된 자막 병렬 데이터를 생성하는 단계를 포함하는 방법을 상기 프로세서가 수행하도록 하는 명령어를 포함한다.
일 실시예에 따른 컴퓨터 판독 가능한 기록매체에 저장되어 있는 컴퓨터 프로그램은, 프로세서에 의해 실행되면, 영상 미디어 파일에 포함된 제1 언어의 음성 데이터에 대해, 기 학습된 음성인식 기술을 이용하여 상기 음성 데이터의 재생시간 정보를 포함하는 상기 제1 언어의 텍스트 데이터를 생성하는 단계, 상기 생성된 텍스트 데이터와 기 저장되어 있는 상기 영상 미디어 파일의 상기 제1 언어의 대본 데이터에 대하여, 기 정해진 알고리즘을 이용하여 각 데이터의 대응되는 부분을 검색하는 단계, 상기 검색의 결과 및 상기 재생시간 정보를 기초로, 상기 대본 데이터의 각 문장에 제1 표시 시간정보를 할당하는 단계, 상기 영상 미디어 파일과 관련되어, 각 문장에 제2 표시 시간정보가 할당된 제2 언어의 자막 데이터를 획득하는 단계, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 상기 대본 데이터와 상기 자막 데이터를 정렬하는 단계, 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터에 대해, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 복수의 묶음 데이터 -각 묶음 데이터에는 상기 대본 데이터의 일부와 상기 자막 데이터의 일부가 포함되어 있음- 를 생성하는 단계, 상기 복수의 묶음 데이터로부터 각 언어별로 추출된 자막 병렬 데이터를 생성하는 단계를 포함하는 방법을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함한다.
본 발명의 실시예에 의하면, 제1 언어의 음성 데이터가 포함된 영상 미디어 파일, 제1 언어의 대본 데이터 및 제2 언어의 자막 데이터가 확보될 경우, 음성인식 기술을 이용하여 각 언어별로 추출된 자막 병렬 데이터를 생성할 수 있다. 이에 따라 제2 언어로 된 자막 데이터를 제1 언어로 직접 번역하지 않고도 자막 병렬 데이터를 생성할 수 있으므로, 번역 및 자막 병렬 데이터의 생성에 필요한 비용 및 시간을 절약할 수 있다.
생성된 자막 병렬 데이터는 텍스트 데이터뿐 아니라 시간정보를 포함하기 때문에, 곧바로 제1 언어의 자막 데이터로써 활용할 수 있다.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 병렬 데이터 생성 장치의 구성도이다.
도 2는 본 발명의 일 실시예에서 사용되는 음성인식 프로그램을 개념적으로 나타내는 구성도이다.
도 3은 본 발명의 일 실시예에서 사용되는 병렬 데이터 생성 프로그램을 개념적으로 나타내는 구성도이다.
도 4는 본 발명의 일 실시예에서 사용되는 음성인식 기술을 사용하여 영상 미디어 파일에 포함된 음성 데이터를 텍스트 데이터로 변환하는 방법을 나타내는 순서도이다.
도 5는 본 발명의 일 실시예에 따른 병렬 데이터 생성 방법을 나타내는 순서도이다.
도 6은 제1 언어의 음성 데이터가 포함된 영상 미디어 파일에 대응하는 제1 언어의 대본 데이터를 예시한다.
도 7은 영상 미디어 파일에 포함된 제1 언어의 음성 데이터를 음성인식 기술을 이용하여 제1 언어의 텍스트 데이터를 생성한 것을 예시한다.
도 8은 제1 언어의 대본 데이터의 각 문장에 제1 표시 시간정보를 할당하는 것을 예시한다.
도 9는 제1 언어의 음성 데이터를 포함한 영상 미디어 파일에 대응하는 제2 언어의 자막 데이터를 예시한다.
도 10은, 도 8에서 예시한, 제1 표시 시간정보가 할당된 제1 언어의 대본 데이터와, 도 9에서 예시한 제2 표시 시간정보가 할당된 제2 언어의 자막 데이터를, 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로 정렬한 것을 예시한다.
도 11은, 도 10에서 예시한, 정렬된 제1 언어의 대본 데이터 및 제2 언어의 자막 데이터에 대해, 복수의 묶음 데이터를 생성한 결과를 예시한다.
도 12는, 사용자의 입력에 의해, 도 11에서 예시한 복수의 묶음 데이터를 기초로 생성된 최종 묶음 데이터를 예시한다.
도 13은, 묶음 데이터로부터 각 문장들이 언어별로 추출되어 자막 병렬 데이터를 생성하는 것을 예시한다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.
본 명세서에서 사용되는 용어는 본 발명의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 '포함'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다.
또한, 명세서에서 사용되는 '부'라는 용어는 소프트웨어 또는 FPGA나 ASIC과 같은 하드웨어 구성요소를 의미하며, '부'는 어떤 역할들을 수행한다. 그렇지만 '부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 '부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '부'들로 결합되거나 추가적인 구성요소들과 '부'들로 더 분리될 수 있다.
아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 병렬 데이터 생성 장치의 구성도이다.
도 1에 나타난 바와 같이, 병렬 데이터 생성 장치(100)는 프로세서(130) 및 메모리(140)를 포함하고, 입력부(110) 또는 출력부(120)을 더 포함할 수 있다.
입력부(110)는 제1 언어의 음성 데이터가 포함된 영상 미디어 파일, 상기 제1 언어의 대본 데이터 및 제2 언어의 자막데이터를 내부 장치를 이용하여 직접 입력 받거나 통신망으로 연결된 외부 장치로부터 입력 받을 수 있다. 여기서 통신망은 유선망 또는 무선망일 수 있다. 입력부(110)가 상기 영상 미디어 파일, 상기 제1 언어의 대본 데이터, 제2 언어의 자막데이터를 입력 받는 방법은 상술한 실시예에 한정되지 않는다.
출력부(120)는 복수의 묶음 데이터로부터 각 언어별로 추출된 병렬 언어 자막데이터를, 사용자 인터페이스(user interface) 또는 디스플레이 수단을 통해 시각적인 정보로서 표시하거나, 컴퓨터에서 처리할 수 있는 데이터의 형태로 처리하거나, 통신망으로 연결된 외부 장치로 전송하는 등 각종 출력 형태를 포함할 수 있다. 출력부(120)가 복수의 묶음 데이터로부터 각 언어별로 추출된 병렬 언어 자막데이터를 출력하는 방법은 상술한 실시예에 한정되지 않는다.
프로세서(130)는 입력부(110)를 통해 입력 받은 제1 언어의 음성 데이터가 포함된 영상 미디어 파일, 상기 제1 언어의 대본 데이터 및 제2 언어의 자막데이터를 이용하여 자막 병렬 데이터를 생성한다. 프로세서(130)는 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 프로세서(130)는 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 처리 장치를 의미할 수 있으나, 상술한 실시예에 한정되지 않는다.
프로세서(130)는 메모리(140)에 저장된 명령어를 실행함으로써, 영상 미디어 파일에 포함된 제1 언어의 음성 데이터에 대해, 기 학습된 음성인식 기술을 이용하여 상기 음성 데이터의 재생시간 정보를 포함하는 상기 제1 언어의 텍스트 데이터를 생성하고, 상기 생성된 텍스트 데이터와 기 저장되어 있는 상기 영상 미디어 파일의 상기 제1 언어의 대본 데이터에 대하여, 기 정해진 알고리즘을 이용하여 각 데이터의 대응되는 부분을 검색하고, 상기 검색의 결과 및 상기 재생시간 정보를 기초로, 상기 대본 데이터의 각 문장에 제1 표시 시간정보를 할당하고, 상기 영상 미디어 파일과 관련되어, 각 문장에 제2 표시 시간정보가 할당된 제2 언어의 자막 데이터를 획득하고, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 상기 대본 데이터와 상기 자막 데이터를 정렬하고, 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터에 대해, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 복수의 묶음 데이터를 생성하고, 상기 복수의 묶음 데이터로부터 각 언어별로 추출된 자막 병렬 데이터를 생성하는 방법을 수행하도록 제어할 수 있다. 각 묶음 데이터는 상기 대본 데이터의 일부와 상기 자막 데이터의 일부를 포함할 수 있다.
프로세서(130)는 제1 언어의 대본 데이터에 제1 표시 시간정보를 할당할 때, 제1 언어의 텍스트 데이터 내의 특정 부분과 대응되는 부분이 상기 대본 데이터에서 검색되지 않은 경우, 상기 텍스트 데이터 내의 상기 대본 데이터와 대응되지 않는 부분의 이전 또는 이후 부분의 재생시간 정보를 기초로, 상기 대본 데이터에 제1 표시 시간정보를 할당할 수 있다. 상기 할당되는 제1 표시 시간정보는, 상기 대본 데이터와 대응되지 않는 부분의 이전 또는 이후 부분의 재생시간 정보의 평균값일 수 있다.
프로세서(130)는 복수의 묶음 데이터를 생성할 때, 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로 정렬된 대본 데이터 및 자막 데이터에 대하여, 제1 표시 시간정보 및 제2 표시 시간정보의 시작 시각과 종료 시각 사이 간격인, 시간 범위가 겹치지 않는 경우, 상기 시간 범위가 겹치지 않는 상기 정렬된 대본 데이터 및 상기 정렬된 자막데이터의 부분을 시각적인 요소를 이용해 표시하거나 삭제할 수 있다.
프로세서(130)는 복수의 묶음 데이터를 생성할 때, 제1 표시 시간정보 및 제2 표시 시간정보를 기초로 정렬된 대본 데이터 및 자막 데이터에 대하여, 제1 표시 시간정보 및 제2 표시 시간정보의 시작 시각과 종료 시각 사이 간격인, 시간 범위가 겹치지 않는 경우, 상호 의미 관계를 기초로, 상기 복수의 묶음 데이터를 생성할 수 있다. 예를 들면, 문자열 정렬 알고리즘을 이용하여 각 데이터의 상기 상호 의미 관계에 대응되는 부분을 검색하고 정렬할 수 있다. 상기 상호 의미 관계는, 상기 대본 데이터 및 상기 자막 데이터를 구성하는 각 문장간의 의미의 유사 정도 또는 문장 구조의 유사 정도를 의미할 수 있다.
프로세서(130)는 복수의 묶음 데이터를 생성할 때, 적어도 하나의 행의 간격을 두어 초기 묶음 데이터를 생성하는 제1 단계와 사용자의 입력에 의해, 상기 초기 묶음 데이터를 기초로, 최종 묶음 데이터를 생성하는 제2 단계를 포함하는 방법을 이용할 수 있다.
예를 들면, 프로세서(130)는 제1 표시 시간정보 및 제2 표시 시간정보를 기초로 정렬된 대본 데이터 및 자막 데이터에 대하여, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보의 시작 시각과 종료 시각 사이 간격인, 시간 범위가 겹치는 정도 및 상호 의미 관계를 기초로 산출된 페어링 결합지수가 높을수록, 더 적은 행의 간격을 두어 상기 초기 묶음 데이터를 생성할 수 있다. 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터에 대하여, 상기 시간 범위가 많이 겹칠수록 상기 페어링 결합지수가 높아지고, 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터를 구성하는 각 문장간의 의미의 유사 정도 또는 문장 구조의 유사 정도가 클수록 상기 페어링 결합지수가 높아질 수 있다. 이에 따라, 생성된 복수의 묶음 데이터에 있어서, 관련도가 높은, 즉, 페어링 결합지수가 높은 문장들은 더 적은 행의 간격을 두어 상기 초기 묶음 데이터로서 생성되고, 관련도가 낮은, 즉, 페어링 결합지수가 낮은 문장들은 더 많은 행의 간격을 두어 상기 초기 묶음 데이터로서 생성될 수 있다.
프로세서(130)는 복수의 묶음 데이터를 생성할 때, 각 묶음 데이터 내에서, 제1 언어의 대본 데이터를 구성하는 문장의 제1 표시 시간정보와 제2 언어의 자막 데이터를 구성하는 문장의 제2 표시 시간정보의 차이가 기 설정된 시간을 초과하는 경우, 상기 제2 표시 시간정보를 상기 제1 표시 시간정보와 동일하게 수정할 수 있다.
프로세서(130)는 복수의 묶음 데이터를 생성할 때, 제1 표시 시간정보 및 제2 표시 시간정보를 기초로 정렬된 대본 데이터를 구성하는 제1 문장과 상기 제1 문장의 다음 문장인 제2 문장에 대하여, 상기 제1 문장의 제3 표시 시간정보와 상기 제2 문장의 제4 표시 시간정보 사이의 시간 간격이 기 설정된 시간을 초과하는 경우, 상기 제1 문장과 상기 제2 문장을 서로 다른 묶음 데이터로 생성할 수 있다.
프로세서(130)는 복수의 묶음 데이터를 생성할 때, 제1 표시 시간정보 및 제2 표시 시간정보를 기초로 정렬된 대본 데이터를 구성하는 제3 문장과 제1 표시 시간정보 및 제2 표시 시간정보를 기초로 정렬된 자막 데이터를 구성하는 제4 문장에 대하여, 상기 제3 문장의 중간 시각과 상기 제4 문장의 중간 시각의 차이가 기 설정된 시간보다 작을 경우, 상기 제3 문장과 상기 제4 문장을 동일한 묶음 데이터로 생성할 수 있다. 상기 중간 시각은 상기 제1 표시 시간정보 또는 상기 제2 표시 시간정보 내에서, 시작 시각과 종료 시각의 중간을 의미할 수 있다.
프로세서(130)는 각 묶음 데이터 내에서, 제1 언어의 대본 데이터를 구성하는 제3 문장과 제 2언어의 자막 데이터를 구성하는 제4 문장에 대하여, 상기 제3 문장의 중간 시각과 상기 제4 문장의 중간 시각의 차이가 기 설정된 시간보다 큰 경우, 제1 표시 시간정보 및 제2 표시 시간정보의 중간 시각을 기초로, 복수의 묶음 데이터를 다시 생성할 수 있다.
메모리(140)에는 음성인식 프로그램(150), 병렬 데이터 생성 프로그램(160), 음성인식 프로그램(150)의 실행에 필요한 정보 및 병렬 데이터 생성 프로그램(160)의 실행에 필요한 정보가 저장될 수 있고, 프로세서(130)에 의한 처리 결과가 저장될 수도 있다. 또한 메모리(140)에는 문자열 정렬 알고리즘이 저장될 수도 있다. 메모리(140)는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 플래시 메모리(flash memory)와 같은 프로그램 명령어들을 저장하고 수행하도록 특별히 구성된 하드웨어 장치 등과 같이 컴퓨터 판독 가능한 기록매체를 의미할 수 있으나, 상술한 실시예에 한정되지 않는다.
도 2는 본 발명의 일 실시예에서 사용되는 음성인식 프로그램(150)을 개념적으로 나타내는 구성도이다. 음성인식은 STT(Speech To Text) 기술을 의미할 수 있지만 이에 한정되지 않는다. 음성인식 프로그램(150)은 음성 데이터를 생성하고, 생성된 음성 데이터를 텍스트 데이터로 변환하도록 프로그램 된 명령어들을 포함하는 소프트웨어를 의미할 수 있다. 프로세서(130)는 음성인식 프로그램(150)을 실행하기 위하여 메모리(140)에서 음성인식 프로그램(150) 및 음성인식 프로그램(150)의 실행에 필요한 정보를 로드할 수 있다.
도 2에 나타난 바와 같이, 음성인식 프로그램(150)은 음성 데이터 생성부(210)와 음성 데이터 변환부(220)를 포함할 수 있고, 이는 상기 음성인식 프로그램(150)의 기능을 쉽게 설명하기 위하여 개념적으로 나눈 것으로서, 이에 한정되지 않는다. 따라서, 실시예들에 따라, 음성 데이터 생성부(210) 및 음성 데이터 변환부(220)의 기능은 병합 또는 분리 가능하며, 하나의 프로그램에 포함된 일련의 명령어들로 구현될 수도 있다.
음성 데이터 생성부(210)는 제1 언어의 음성 데이터가 포함된 영상 미디어 파일을 이용하여 제1 언어의 음성 데이터를 생성할 수 있다. 음성 데이터 변환부(220)는 미리 학습된 변환 모델을 이용하여 상기 음성 데이터를 텍스트 데이터로 변환할 수 있다. 상기 변환 모델은 상기 음성 데이터가 입력되면 상기 음성 데이터가 변환된 상기 텍스트 데이터를 출력하도록 학습용 음성 데이터와, 학습용 텍스트 데이터를 이용하여 학습된 것일 수 있다. 음성 데이터 생성부(210)에서 상기 음성 데이터를 생성하는 과정 없이, 음성 데이터 변환부(220)에서 상기 영상 미디어 파일에 포함된 상기 음성 데이터를 곧바로 인식한 후 텍스트 데이터를 생성할 수도 있다.
도 3은 본 발명의 일 실시예에서 사용되는 병렬 데이터 생성 프로그램(160)을 개념적으로 나타내는 구성도이다.
도 3에 나타난 바와 같이, 병렬 데이터 생성 프로그램(160)은 획득부(310), 검색부(320), 시간정보 할당부(330), 정렬부(340), 묶음 데이터 생성부(350) 및 추출부(360)을 포함할 수 있고, 이는 상기 병렬 데이터 생성 프로그램(160)의 기능을 쉽게 설명하기 위하여 개념적으로 나눈 것으로서, 이에 한정되지 않는다. 따라서, 실시예들에 따라, 획득부(310), 검색부(320), 시간정보 할당부(330), 정렬부(340), 묶음 데이터 생성부(350) 및 추출부(360)의 기능은 병합 또는 분리 가능하며, 하나의 프로그램에 포함된 일련의 명령어들로 구현될 수도 있다.
획득부(310)는 입력부(110)를 통해 제1 언어의 음성 데이터가 포함된 영상 미디어 파일, 상기 제1 언어의 대본 데이터 및 제2 언어의 자막 데이터를 내부 장치를 이용하여 직접 입력 받거나 통신망으로 연결된 외부 장치로부터 입력 받는 기능을 수행할 수 있다. 또한, 획득부(310)는 제1 언어의 음성 데이터가 포함된 영상 미디어 파일을 입력으로 하여 음성인식 프로그램(150)을 통해 생성된 제1 언어의 텍스트 데이터를 획득할 수 있다.
검색부(320)는 음성인식 프로그램(150)을 통해 생성된 제1 언어의 텍스트 데이터와 제1 언어의 음성 데이터가 포함된 영상 미디어 파일의 제1 언어의 대본 데이터에 대하여, 문자열 정렬 알고리즘을 이용하여 각 데이터의 대응되는 부분을 검색할 수 있다. 예를 들면, 제1 언어의 텍스트 데이터는 STT 결과 데이터 일 수 있다. 문자열 정렬 알고리즘은 문자열 데이터를 특정한 순서로 정렬하는 방법으로, 이를 이용하여 두 개 문자열 데이터에서 일치하는 부분을 정렬할 수 있다. 문자열 정렬 알고리즘은 두 개의 문자열 데이터에서 가장 긴 공통 부분 문자열을 찾는 알고리즘인 LCS를 이용하여 구현할 수 있다. 각 데이터의 대응되는 부분을 검색함에 있어서, 제1 언어의 텍스트 데이터를 기준으로, 제1 언어의 텍스트 데이터를 구성하는 각 문장에 대응되는 문장이 제1 언어의 대본 데이터에 존재하는지 검색할 수 있다.
시간정보 할당부(330)는 검색부(320)에서 수행한 검색의 결과 및 영상 미디어 파일에 포함된 제1 언어의 음성 데이터의 재생시간 정보를 기초로, 제1 언어의 대본 데이터의 각 문장에 제1 표시 시간정보를 할당할 수 있다.
음성인식 기술은 상황에 따라 정확도가 떨어지는 문제가 있을 수 있기 때문에, 검색 결과, 각 데이터의 대응되는 부분이 없는 결과가 나올 수 있다. 따라서, 시간정보 할당부(330)는 제1 언어의 대본 데이터에 제1 표시 시간정보를 할당할 때, 제1 언어의 텍스트 데이터 내의 특정 부분과 대응되는 부분이 상기 대본 데이터에서 검색되지 않은 경우, 상기 텍스트 데이터 내의 상기 대본 데이터와 대응되지 않는 부분의 이전 또는 이후 부분의 재생시간 정보를 기초로, 상기 대본 데이터에 제1 표시 시간정보를 할당할 수 있다. 상기 할당되는 제1 표시 시간정보는, 상기 대본 데이터와 대응되지 않는 부분의 이전 또는 이후 부분의 재생시간 정보의 평균값일 수 있다.
정렬부(340)는 제1 표시 시간정보 및 제2 표시 시간정보를 기초로, 제1 언어의 대본 데이터와 제2 언어의 자막 데이터를 정렬할 수 있다. 제1 표시 시간정보 및 제2 표시 시간정보를 기초로 정렬한다는 것은, 표시 시각이 이를수록 먼저 배치되고, 표시 시각이 늦을수록 뒤에 배치되는 것을 의미할 수 있다.
묶음 데이터 생성부(350)는 제1 표시 시간정보 및 제2 표시 시간정보를 기초로 정렬된 제1 언어의 대본 데이터 및 제2 언어의 자막 데이터에 대해, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 복수의 묶음 데이터를 생성할 수 있다. 각 묶음 데이터는 상기 대본 데이터의 일부와 상기 자막 데이터의 일부를 포함할 수 있다.
묶음 데이터 생성부(350)는 복수의 묶음 데이터를 생성할 때, 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로 정렬된 대본 데이터 및 자막 데이터에 대하여, 제1 표시 시간정보 및 제2 표시 시간정보의 시작 시각과 종료 시각 사이 간격인, 시간 범위가 겹치지 않는 경우, 상기 시간 범위가 겹치지 않는 상기 정렬된 대본 데이터 및 상기 정렬된 자막데이터의 부분을 시각적인 요소를 이용해 표시하거나 삭제할 수 있다. 이에 따라, 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터 내의 상기 시간 범위가 겹치지 않는 문장들은 시각적인 요소를 이용하여 구분되어 표시될 수도 있고, 잘못 입력된 데이터로 간주되어 삭제될 수도 있다.
묶음 데이터 생성부(350)는 복수의 묶음 데이터를 생성할 때, 제1 표시 시간정보 및 제2 표시 시간정보를 기초로 정렬된 대본 데이터 및 자막 데이터에 대하여, 제1 표시 시간정보 및 제2 표시 시간정보의 시작 시각과 종료 시각 사이 간격인, 시간 범위가 겹치지 않는 경우, 상호 의미 관계를 기초로, 상기 복수의 묶음 데이터를 생성할 수 있다. 예를 들면, 문자열 정렬 알고리즘을 이용하여 각 데이터의 상기 상호 의미 관계에 대응되는 부분을 검색하고 정렬할 수 있다. 상기 상호 의미 관계는, 상기 대본 데이터 및 상기 자막 데이터를 구성하는 각 문장간의 의미의 유사 정도 또는 문장 구조의 유사 정도를 의미할 수 있다.
묶음 데이터 생성부(350)는 복수의 묶음 데이터를 생성할 때, 적어도 하나의 행의 간격을 두어 초기 묶음 데이터를 생성하는 제1 단계와 사용자의 입력에 의해, 상기 초기 묶음 데이터를 기초로, 최종 묶음 데이터를 생성하는 제2 단계를 포함하는 방법을 이용할 수 있다.
예를 들면, 묶음 데이터 생성부(350)는 제1 표시 시간정보 및 제2 표시 시간정보를 기초로 정렬된 대본 데이터 및 자막 데이터에 대하여, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보의 시작 시각과 종료 시각 사이 간격인, 시간 범위가 겹치는 정도 및 상호 의미 관계를 기초로 산출된 페어링 결합지수가 높을수록, 더 적은 행의 간격을 두어 상기 초기 묶음 데이터를 생성할 수 있다. 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터에 대하여, 상기 시간 범위가 많이 겹칠수록 상기 페어링 결합지수가 높아지고, 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터를 구성하는 각 문장간의 의미의 유사 정도 또는 문장 구조의 유사 정도가 클수록 상기 페어링 결합지수가 높아질 수 있다. 이에 따라, 생성된 복수의 묶음 데이터에 있어서, 관련도가 높은, 즉, 페어링 결합지수가 높은 문장들은 더 적은 행의 간격을 두어 상기 초기 묶음 데이터로서 생성되고, 관련도가 낮은, 즉, 페어링 결합지수가 낮은 문장들은 더 많은 행의 간격을 두어 상기 초기 묶음 데이터로서 생성될 수 있다.
제1 언어의 텍스트 데이터는 음성인식 프로그램을 통해 상기 텍스트 데이터의 각 문장에 각 음성 데이터의 재생시간 정보가 입력된 데이터이고, 제2 언어의 자막 데이터의 재생시간 정보는 임의로 입력될 수 있다. 따라서 영상 미디어 파일에 포함된 상기 제1 언어의 음성 데이터의 재생시간 정보와 비교할 때, 상기 자막 데이터의 제2 표시 시간정보에 비해 상기 텍스트 데이터의 재생시간 정보가 할당된 제1 언어의 대본 데이터의 제1 표시 시간정보가 더 정확할 수 있다. 따라서, 묶음 데이터 생성부(350)는 복수의 묶음 데이터를 생성할 때, 각 묶음 데이터 내에서, 제1 언어의 대본 데이터를 구성하는 문장의 제1 표시 시간정보와 제2 언어의 자막 데이터를 구성하는 문장의 제2 표시 시간정보의 차이가 기 설정된 시간을 초과하는 경우, 상기 제2 표시 시간정보를 상기 제1 표시 시간정보와 동일하게 수정할 수 있다.
묶음 데이터 생성부(350)는 복수의 묶음 데이터를 생성할 때, 제1 표시 시간정보 및 제2 표시 시간정보를 기초로 정렬된 대본 데이터를 구성하는 제1 문장과 상기 제1 문장의 다음 문장인 제2 문장에 대하여, 상기 제1 문장의 제3 표시 시간정보와 상기 제2 문장의 제4 표시 시간정보 사이의 시간 간격이 기 설정된 시간을 초과하는 경우, 상기 제1 문장과 상기 제2 문장을 서로 다른 묶음 데이터로 생성할 수 있다.
묶음 데이터 생성부(350)가 각 묶음 데이터를 생성할 때, 제1 표시 시간정보 및 제2 표시 시간정보의 시작 시각과 종료 시각만 고려하는 경우, 부정확한 결과가 나올 수 있다. 따라서, 묶음 데이터 생성부(350)는 중간 시각을 고려하여, 복수의 묶음 데이터를 생성할 수 있다. 예를 들면, 묶음 데이터 생성부(350)는 제1 표시 시간정보 및 제2 표시 시간정보를 기초로 정렬된 대본 데이터를 구성하는 제3 문장과 제1 표시 시간정보 및 제2 표시 시간정보를 기초로 정렬된 자막 데이터를 구성하는 제4 문장에 대하여, 상기 제3 문장의 중간 시각과 상기 제4 문장의 중간 시각의 차이가 기 설정된 시간보다 작을 경우, 상기 제3 문장과 상기 제4 문장을 동일한 묶음 데이터로 생성할 수 있다. 상기 중간 시각은 상기 제1 표시 시간정보 또는 상기 제2 표시 시간정보 내에서, 시작 시각과 종료 시각의 중간을 의미할 수 있다.
묶음 데이터 생성부(350)는 각 묶음 데이터 내에서, 제1 언어의 대본 데이터를 구성하는 제3 문장과 제 2언어의 자막 데이터를 구성하는 제4 문장에 대하여, 상기 제3 문장의 중간 시각과 상기 제4 문장의 중간 시각의 차이가 기 설정된 시간보다 큰 경우, 제1 표시 시간정보 및 제2 표시 시간정보의 중간 시각을 기초로, 복수의 묶음 데이터를 다시 생성할 수 있다.
추출부(360)는 복수의 묶음 데이터로부터 각 언어별 자막 병렬 데이터를 추출할 수 있다.
도 4는 본 발명의 일 실시예에서 사용되는 음성인식 기술을 사용하여 영상 미디어 파일에 포함된 음성 데이터를 텍스트 데이터로 변환하는 방법을 나타내는 순서도이다. 도 4에 나타난 바와 같이, 음성인식 기술을 사용하여 영상 미디어 파일에 포함된 음성 데이터를 텍스트 데이터로 변환하는 방법은, 제1 언어의 음성 데이터가 포함된 영상 미디어 파일을 입력 받는 단계(S100), 상기 영상 미디어 파일로부터 상기 음성 데이터를 생성하는 단계(S200) 및 제1 언어의 텍스트 데이터가 생성되는 단계(S300)를 포함한다. 상기 음성 데이터를 생성하는 과정 없이, 상기 영상 미디어 파일에 포함된 상기 음성 데이터를 곧바로 인식한 후 상기 텍스트 데이터를 생성할 수도 있다.
도 5는 본 발명의 일 실시예에 따른 병렬 데이터 생성 방법을 나타내는 순서도이다. 도 5에 나타난 바와 같이, 병렬 데이터 생성 방법은, 영상 미디어 파일에 포함된 제1 언어의 음성 데이터에 대해, 기 학습된 음성인식 기술을 이용하여 상기 음성 데이터의 재생시간 정보를 포함하는 상기 제1 언어의 텍스트 데이터를 생성하는 단계(S400), 상기 생성된 텍스트 데이터와 기 저장되어 있는 상기 영상 미디어 파일의 상기 제1 언어의 대본 데이터에 대하여, 기 정해진 알고리즘을 이용하여 각 데이터의 대응되는 부분을 검색하는 단계(S500), 상기 검색의 결과 및 상기 재생시간 정보를 기초로, 상기 대본 데이터의 각 문장에 제1 표시 시간정보를 할당하는 단계(S600), 상기 영상 미디어 파일과 관련되어, 각 문장에 제2 표시 시간정보가 할당된 제2 언어의 자막 데이터를 획득하는 단계(S700), 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 상기 대본 데이터와 상기 자막 데이터를 정렬하는 단계(S800), 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터에 대해, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 복수의 묶음 데이터를 생성하는 단계(S900) 및 상기 복수의 묶음 데이터로부터 각 언어별로 추출된 자막 병렬 데이터를 생성하는 단계(S1000)를 포함한다. 각 묶음 데이터는 상기 대본 데이터의 일부와 상기 자막 데이터의 일부를 포함할 수 있다.
이하의 설명에서는 도 6 내지 도 13을 참조하여, 제1 언어의 음성 데이터가 포함된 영상 미디어 파일, 상기 제1 언어의 대본 데이터, 제2 언어의 자막데이터를 이용하여 자막 병렬 데이터를 생성하는 방법에 대하여 상세하게 설명한다.
도 6은 제1 언어의 음성 데이터가 포함된 영상 미디어 파일에 대응하는 제1 언어의 대본 데이터를 예시한다. 대본 데이터이므로 영상 미디어 파일에 포함된 음성 데이터와 대응되는 시간 정보는 할당되어 있지 않다.
도 7은 영상 미디어 파일에 포함된 제1 언어의 음성 데이터를 음성인식 기술을 이용하여 제1 언어의 텍스트 데이터를 생성한 것을 예시한다. 텍스트 데이터의 각 문장에는 제1 언어의 음성 데이터의 재생시간 정보가 포함된다. 각 문장은 음성 데이터에 대한 음성인식 결과이며, 각 문장의 첫 두 숫자는 해당 문장의 시작 시각과 종료 시각을 나타낸다. 발화가 없는 시간은 <SILENCE>로 표시되어 있다.
도 8은 제1 언어의 대본 데이터의 각 문장에 제1 표시 시간정보를 할당하는 것을 예시한다. 구체적으로, 제1 언어의 대본 데이터와 제1 언어의 텍스트 데이터에 대하여, 대본 데이터의 각 문장에 텍스트 데이터의 각 문장에 포함된 재생시간 정보를 제1 표시 시간정보로서 할당할 수 있다. 예를 들면, 문자열 정렬 알고리즘을 이용하여 각 데이터의 대응되는 부분을 검색하고 정렬(align)한 후, 대본 데이터에 대응되는 부분을 텍스트 데이터에서 검색할 수 있다. 대본 데이터와 텍스트 데이터의 대응되는 부분이 검색되지 않는 경우가 있을 수 있는데, 도 8에서는 예시적으로 <BAD_ALIGN>이라고 표시되어 있다. 이 경우 예를 들면, 텍스트 데이터 내의 대본 데이터와 대응되지 않는 부분의 이전 또는 이후 부분의 재생시간 정보를 기초로, 대본 데이터에 제1 표시 시간정보를 할당할 수 있다.
도 9는 제1 언어의 음성 데이터를 포함한 영상 미디어 파일에 대응하는 제2 언어의 자막 데이터를 예시한다. 자막 데이터이므로 각 문장에는 제2 표시 시간정보가 할당되어 있다.
도 10은, 도 8에서 예시한, 제1 표시 시간정보가 할당된 제1 언어의 대본 데이터와, 도 9에서 예시한 제2 표시 시간정보가 할당된 제2 언어의 자막 데이터를, 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로 정렬한 것을 예시한다.
도 11은, 도 10에서 예시한, 정렬된 제1 언어의 대본 데이터 및 제2 언어의 자막 데이터에 대해, 복수의 묶음 데이터를 생성한 결과를 예시한다. 각 문장의 첫 번째 숫자는 시작 시각, 두 번째 숫자는 종료 시각, 세 번째 숫자는 중간 시각을 의미한다.
제1 표시 시간정보 및 제2 표시 시간정보를 기초로, 제1 표시 시간정보 및 제2 표시 시간정보의 시작 시각과 종료 시각 사이 간격인 시간 범위가 겹치는지 여부를 기준으로 하여 복수의 묶음 데이터를 생성할 수 있다.
제1 표시 시간정보 및 제2 표시 시간정보를 기초로, 해당 문장의 종료 시각과 다음 문장의 시작 시각 사이의 시간 간격을 기준으로 하여 복수의 묶음 데이터를 생성할 수 있다.
제1 표시 시간정보 및 제2 표시 시간정보를 기초로, 각 문장의 중간 시각을 기준으로 하여 복수의 묶음 데이터를 생성할 수 있다.
따라서 제1 언어의 대본 데이터 및 제2 언어의 자막 데이터를 구성하는 각 문장들에 대해, 각 문장들의 시간 범위가 겹치거나, 각 문장들의 시간 간격이 기 설정된 시간보다 작거나, 각 문장들의 중간 시각의 차이가 기 설정된 시간보다 작은 경우, 동일한 묶음 데이터로서 생성될 수 있다. 여기서 묶음 데이터는 자막 병렬 데이터가 될 수 있는 문장들을 의미한다.
또한, 동일한 묶음 데이터로서 생성된 각 묶음 데이터 내의 제1 언어의 대본 데이터 및 제2 언어의 자막 데이터를 구성하는 각 문장들의 중간 시각의 차이가 기 설정된 시간보다 큰 경우, 제1 표시 시간정보 및 제2 표시 시간정보의 중간 시각을 기초로, 복수의 묶음 데이터를 다시 생성할 수 있다.
제1 언어의 대본 데이터 및 제2 언어의 자막 데이터를 구성하는 각 문장들에 대해, 시간 범위가 겹치지 않는 경우, 상호 의미 관계를 기초로, 상기 복수의 묶음 데이터를 생성할 수 있다. 예를 들면, 문자열 정렬 알고리즘을 이용하여 각 데이터의 상기 상호 의미 관계에 대응되는 부분을 검색하고 정렬할 수 있다. 상기 상호 의미 관계는, 상기 대본 데이터 및 상기 자막 데이터를 구성하는 각 문장간의 의미의 유사 정도 또는 문장 구조의 유사 정도를 의미할 수 있다.
복수의 묶음 데이터를 생성할 때, 적어도 하나의 행의 간격을 두어 초기 묶음 데이터를 생성하는 제1 단계와 사용자의 입력에 의해, 상기 초기 묶음 데이터를 기초로, 최종 묶음 데이터를 생성하는 제2 단계를 포함하는 방법을 이용할 수 있다. 생성된 복수의 묶음 데이터는, 상황에 따라 부정확한 결과가 나올 수 있으므로, 사용자가 후 작업을 할 경우 정확한 묶음 데이터를 생성하는데 도움이 될 수 있다.
시간 범위가 겹치는 정도 및 상호 의미 관계를 기초로 산출된 페어링 결합지수가 높을수록, 더 적은 행의 간격을 두어 상기 초기 묶음 데이터를 생성할 수 있다. 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터에 대하여, 상기 시간 범위가 많이 겹칠수록 상기 페어링 결합지수가 높아지고, 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터를 구성하는 각 문장간의 의미의 유사 정도 또는 문장 구조의 유사 정도가 클수록 상기 페어링 결합지수가 높아질 수 있다. 이에 따라, 생성된 복수의 묶음 데이터에 있어서, 관련도가 높은, 즉, 페어링 결합지수가 높은 문장들은 더 적은 행의 간격을 두어 상기 초기 묶음 데이터로서 생성되고, 관련도가 낮은, 즉, 페어링 결합지수가 낮은 문장들은 더 많은 행의 간격을 두어 상기 초기 묶음 데이터로서 생성될 수 있다. 따라서, 도 11에 나타난 바와 같이, 페어링 결합지수에 따라 행의 간격을 다르게 하여 묶음 데이터가 생성될 수 있다.
제1 언어의 텍스트 데이터는 음성인식 프로그램을 통해 상기 텍스트 데이터의 각 문장에 각 음성 데이터의 재생시간 정보가 입력된 데이터이고, 제2 언어의 자막 데이터의 재생시간 정보는 임의로 입력될 수 있다. 따라서 영상 미디어 파일에 포함된 상기 제1 언어의 음성 데이터의 재생시간 정보와 비교할 때, 상기 자막 데이터의 제2 표시 시간정보에 비해 상기 텍스트 데이터의 재생시간 정보가 할당된 제1 언어의 대본 데이터의 제1 표시 시간정보가 더 정확할 수 있다. 따라서, 복수의 묶음 데이터를 생성할 때, 각 묶음 데이터 내에서, 제1 언어의 대본 데이터를 구성하는 문장의 제1 표시 시간정보와 제2 언어의 자막 데이터를 구성하는 문장의 제2 표시 시간정보의 차이가 기 설정된 시간을 초과하는 경우, 상기 제2 표시 시간정보를 상기 제1 표시 시간정보와 동일하게 수정할 수 있다.
도 12는, 사용자의 입력에 의해, 도 11에서 예시한 복수의 묶음 데이터를 기초로 생성된 최종 묶음 데이터를 예시한다.
도 13은, 묶음 데이터로부터 각 문장들이 언어별로 추출되어 자막 병렬 데이터를 생성하는 것을 예시한다. 도 12에서 예시한 복수의 묶음 데이터 중 하나의 묶음 데이터에 대해, 각 언어별로 따로 추출하면 서로가 병렬 데이터가 될 수 있다.
본 발명에 첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 인코딩 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 인코딩 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방법으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 품질에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100: 병렬 데이터 생성 장치
110: 입력부
120: 출력부
130: 프로세서
140: 메모리
150: 음성인식 프로그램
160: 병렬 데이터 생성 프로그램
210: 음성 데이터 생성부
220: 음성 데이터 변환부
310: 획득부
320: 검색부
330: 시간정보 할당부
340: 정렬부
350: 묶음 데이터 생성부
360: 추출부

Claims (13)

  1. 병렬 데이터 생성 장치에 의해 수행되는 병렬 데이터 생성 방법에 있어서,
    영상 미디어 파일에 포함된 제1 언어의 음성 데이터에 대해, 기 학습된 음성인식 기술을 이용하여 상기 음성 데이터의 재생시간 정보를 포함하는 상기 제1 언어의 텍스트 데이터를 생성하는 단계;
    기 정해진 알고리즘을 이용하여 상기 생성된 제1 언어의 텍스트 데이터와 기 저장되어 있는 상기 영상 미디어 파일의 상기 제1 언어의 대본 데이터의 대응되는 부분을 검색하는 단계;
    상기 검색 결과 상기 제1 언어의 대본 데이터 내 각 문장에 대응되는 상기 제1 언어의 텍스트 데이터 내 각 문장의 상기 재생시간 정보를 이용하여, 상기 제1 언어의 대본 데이터 내 각 문장에 제1 표시 시간정보를 할당하는 단계;
    상기 영상 미디어 파일과 관련되어, 각 문장에 제2 표시 시간정보가 할당된 제2 언어의 자막 데이터를 획득하는 단계;
    상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 상기 대본 데이터와 상기 자막 데이터를 정렬하는 단계;
    상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터에 대해, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 복수의 묶음 데이터 -각 묶음 데이터에는 상기 대본 데이터의 일부와 상기 자막 데이터의 일부가 포함되어 있음- 를 생성하는 단계; 및
    상기 복수의 묶음 데이터로부터 각 언어별로 추출된 자막 병렬 데이터를 생성하는 단계를 포함하고,
    상기 제1 언어의 음성 데이터 및 상기 제1 언어의 대본 데이터의 내용은 동일하게 대응하는,
    병렬 데이터 생성 방법.
  2. 제1항에 있어서,
    상기 대본 데이터에 제1 표시 시간정보를 할당하는 단계는,
    상기 텍스트 데이터 내의 특정 부분과 대응되는 부분이 상기 대본 데이터에서 검색되지 않은 경우, 상기 텍스트 데이터 내의 상기 대본 데이터와 대응되지 않는 부분의 이전 또는 이후 부분의 상기 재생시간 정보를 기초로, 상기 대본 데이터에 제1 표시 시간정보를 할당하는,
    병렬 데이터 생성 방법.
  3. 제1항에 있어서,
    상기 복수의 묶음 데이터를 생성하는 단계는,
    상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터에 대하여, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보의 시작 시각과 종료 시각 사이 간격인, 시간 범위가 겹치지 않는 경우, 상기 시간 범위가 겹치지 않는 상기 정렬된 대본 데이터 및 상기 정렬된 자막데이터의 부분을 시각적인 요소를 이용해 표시하거나 삭제하는 단계를 포함하는,
    병렬 데이터 생성 방법.
  4. 제1항에 있어서,
    상기 복수의 묶음 데이터를 생성하는 단계는,
    상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터에 대하여, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보의 시작 시각과 종료 시각 사이 간격인 시간 범위가 겹치지 않는 경우, 상호 의미 관계를 기초로, 상기 복수의 묶음 데이터를 생성하는,
    병렬 데이터 생성 방법.
  5. 제1항에 있어서,
    상기 알고리즘은 LCS(longest common subsequence) 알고리즘인,
    병렬 데이터 생성 방법.
  6. 제2항 또는 제4항에 있어서,
    상기 복수의 묶음 데이터를 생성하는 단계는,
    적어도 하나의 행의 간격을 두어 초기 묶음 데이터를 생성하는 제1 단계와 사용자의 입력에 의해, 상기 초기 묶음 데이터를 기초로, 최종 묶음 데이터를 생성하는 제2 단계를 포함하는,
    병렬 데이터 생성 방법.
  7. 제6항에 있어서,
    상기 복수의 묶음 데이터를 생성하는 단계는,
    상기 시간 범위가 겹치는 정도 및 상기 상호 의미 관계를 기초로 산출된 페어링 결합지수가 높을수록, 더 적은 행의 간격을 두어 상기 초기 묶음 데이터를 생성하는,
    병렬 데이터 생성 방법.
  8. 제1항에 있어서,
    상기 복수의 묶음 데이터를 생성하는 단계는,
    상기 각 묶음 데이터 내에서, 상기 대본 데이터를 구성하는 문장의 상기 제1 표시 시간정보와 상기 자막 데이터를 구성하는 문장의 상기 제2 표시 시간정보의 차이가 기 설정된 시간범위 이내일 경우, 상기 제2 표시 시간정보를 상기 제1 표시 시간정보와 동일하게 수정하는 단계를 포함하는,
    병렬 데이터 생성 방법.
  9. 제1항에 있어서,
    상기 복수의 묶음 데이터를 생성하는 단계는,
    상기 정렬된 대본 데이터를 구성하는 제1 문장과 상기 제1 문장의 다음 문장인 제2 문장에 대하여, 상기 제1 문장의 제3 표시 시간정보와 상기 제2 문장의 제4 표시 시간정보 사이의 시간 간격이 기 설정된 시간을 초과하는 경우, 상기 제1 문장과 상기 제2 문장을 서로 다른 묶음 데이터로 생성하는,
    병렬 데이터 생성 방법.
  10. 제1항에 있어서,
    상기 복수의 묶음 데이터를 생성하는 단계는,
    상기 정렬된 대본 데이터를 구성하는 제3 문장과 상기 정렬된 자막 데이터를 구성하는 제4 문장에 대하여, 상기 제3 문장의 중간 시각과 상기 제4 문장의 중간 시각의 차이가 기 설정된 시간보다 작을 경우, 상기 제3 문장과 상기 제4 문장을 동일한 묶음 데이터로 생성하고,
    상기 중간 시각은 상기 제1 표시 시간정보 또는 상기 제2 표시 시간정보 내에서, 시작 시각과 종료 시각의 중간인,
    병렬 데이터 생성 방법.
  11. 제1항에 있어서,
    상기 각 묶음 데이터 내에서, 상기 대본 데이터를 구성하는 제3 문장과 상기 자막 데이터를 구성하는 제4 문장에 대하여, 상기 제3 문장의 중간 시각과 상기 제4 문장의 중간 시각의 차이가 기 설정된 시간보다 큰 경우, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보의 중간 시각을 기초로, 복수의 묶음 데이터를 다시 생성하는 단계를 더 포함하고,
    상기 중간 시각은 상기 제1 표시 시간정보 또는 상기 제2 표시 시간정보 내에서, 시작 시각과 종료 시각의 중간인,
    병렬 데이터 생성 방법.
  12. 컴퓨터 실행 가능한 명령어를 저장하고 있는 컴퓨터 판독 가능 기록매체로서, 상기 컴퓨터 실행 가능한 명령어는, 프로세서에 의해 실행되면,
    영상 미디어 파일에 포함된 제1 언어의 음성 데이터에 대해, 기 학습된 음성인식 기술을 이용하여 상기 음성 데이터의 재생시간 정보를 포함하는 상기 제1 언어의 텍스트 데이터를 생성하는 단계, 기 정해진 알고리즘을 이용하여 상기 생성된 제1 언어의 텍스트 데이터와 기 저장되어 있는 상기 영상 미디어 파일의 상기 제1 언어의 대본 데이터의 대응되는 부분을 검색하는 단계, 상기 검색 결과 상기 제1 언어의 대본 데이터 내 각 문장에 대응되는 상기 제1 언어의 텍스트 데이터 내 각 문장의 상기 재생시간 정보를 이용하여, 상기 제1 언어의 대본 데이터 내 각 문장에 제1 표시 시간정보를 할당하는 단계, 상기 영상 미디어 파일과 관련되어, 각 문장에 제2 표시 시간정보가 할당된 제2 언어의 자막 데이터를 획득하는 단계, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 상기 대본 데이터와 상기 자막 데이터를 정렬하는 단계, 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터에 대해, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 복수의 묶음 데이터 -각 묶음 데이터에는 상기 대본 데이터의 일부와 상기 자막 데이터의 일부가 포함되어 있음- 를 생성하는 단계 및 상기 복수의 묶음 데이터로부터 각 언어별로 추출된 자막 병렬 데이터를 생성하는 단계를 포함하고, 상기 제1 언어의 음성 데이터 및 상기 제1 언어의 대본 데이터의 내용은 동일하게 대응하는 방법을 상기 프로세서가 수행하도록 하는,
    컴퓨터 판독 가능한 기록매체.
  13. 컴퓨터 판독 가능한 기록매체에 저장되어 있는 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램은, 프로세서에 의해 실행되면,
    영상 미디어 파일에 포함된 제1 언어의 음성 데이터에 대해, 기 학습된 음성인식 기술을 이용하여 상기 음성 데이터의 재생시간 정보를 포함하는 상기 제1 언어의 텍스트 데이터를 생성하는 단계, 기 정해진 알고리즘을 이용하여 상기 생성된 제1 언어의 텍스트 데이터와 기 저장되어 있는 상기 영상 미디어 파일의 상기 제1 언어의 대본 데이터의 대응되는 부분을 검색하는 단계, 상기 검색 결과 상기 제1 언어의 대본 데이터 내 각 문장에 대응되는 상기 제1 언어의 텍스트 데이터 내 각 문장의 상기 재생시간 정보를 이용하여, 상기 제1 언어의 대본 데이터 내 각 문장에 제1 표시 시간정보를 할당하는 단계, 상기 영상 미디어 파일과 관련되어, 각 문장에 제2 표시 시간정보가 할당된 제2 언어의 자막 데이터를 획득하는 단계, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 상기 대본 데이터와 상기 자막 데이터를 정렬하는 단계, 상기 정렬된 대본 데이터 및 상기 정렬된 자막 데이터에 대해, 상기 제1 표시 시간정보 및 상기 제2 표시 시간정보를 기초로, 복수의 묶음 데이터 -각 묶음 데이터에는 상기 대본 데이터의 일부와 상기 자막 데이터의 일부가 포함되어 있음- 를 생성하는 단계 및 상기 복수의 묶음 데이터로부터 각 언어별로 추출된 자막 병렬 데이터를 생성하는 단계를 포함하고, 상기 제1 언어의 음성 데이터 및 상기 제1 언어의 대본 데이터의 내용은 동일하게 대응하는 방법을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함하는,
    컴퓨터 판독 가능한 기록매체에 저장되어 있는 컴퓨터 프로그램.
KR1020230069575A 2023-05-30 2023-05-30 번역 자막을 이용한 원문 자막 병렬 데이터 생성 방법 KR102616598B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230069575A KR102616598B1 (ko) 2023-05-30 2023-05-30 번역 자막을 이용한 원문 자막 병렬 데이터 생성 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230069575A KR102616598B1 (ko) 2023-05-30 2023-05-30 번역 자막을 이용한 원문 자막 병렬 데이터 생성 방법

Publications (1)

Publication Number Publication Date
KR102616598B1 true KR102616598B1 (ko) 2023-12-22

Family

ID=89309538

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230069575A KR102616598B1 (ko) 2023-05-30 2023-05-30 번역 자막을 이용한 원문 자막 병렬 데이터 생성 방법

Country Status (1)

Country Link
KR (1) KR102616598B1 (ko)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130052800A (ko) * 2011-11-14 2013-05-23 에스케이텔레콤 주식회사 음성 인식 서비스를 제공하는 장치 및 그의 오류 발음 검출 능력 향상을 위한 음성 인식 방법
KR20130133629A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
JP2014077865A (ja) * 2012-10-10 2014-05-01 Nippon Hoso Kyokai <Nhk> 音声認識装置、誤り修正モデル学習方法、及びプログラム
KR20140089795A (ko) * 2013-01-07 2014-07-16 엘지전자 주식회사 홈 어플라이언스 및 그 동작방법
KR20140106715A (ko) * 2012-03-08 2014-09-03 엘지전자 주식회사 다수의 디바이스 음성 제어 장치 및 방법
JP2016512609A (ja) * 2013-01-29 2016-04-28 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 自動音声認識のための方法およびシステム
KR101664080B1 (ko) * 2015-07-28 2016-10-10 현대자동차 주식회사 음성 다이얼링 시스템 및 방법
US20180358019A1 (en) * 2017-06-09 2018-12-13 Soundhound, Inc. Dual mode speech recognition
JP2019008315A (ja) * 2018-09-18 2019-01-17 日本放送協会 学習データ生成装置及びそのプログラム
KR102225435B1 (ko) 2020-08-13 2021-03-08 이창영 Stt 기반 언어구사 학습-훈련 시스템
KR20210076163A (ko) * 2018-12-12 2021-06-23 구글 엘엘씨 음성 인식 트레이닝 및 스코어링을 위한 음역
KR20210150724A (ko) * 2020-06-04 2021-12-13 고일두 동영상 저작 시스템 및 방법
KR20230009564A (ko) * 2021-07-09 2023-01-17 주식회사 엘지유플러스 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
KR20230061001A (ko) * 2021-10-28 2023-05-08 삼성에스디에스 주식회사 문서 교정 장치 및 방법

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130052800A (ko) * 2011-11-14 2013-05-23 에스케이텔레콤 주식회사 음성 인식 서비스를 제공하는 장치 및 그의 오류 발음 검출 능력 향상을 위한 음성 인식 방법
KR20140106715A (ko) * 2012-03-08 2014-09-03 엘지전자 주식회사 다수의 디바이스 음성 제어 장치 및 방법
KR20130133629A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
JP2014077865A (ja) * 2012-10-10 2014-05-01 Nippon Hoso Kyokai <Nhk> 音声認識装置、誤り修正モデル学習方法、及びプログラム
KR20140089795A (ko) * 2013-01-07 2014-07-16 엘지전자 주식회사 홈 어플라이언스 및 그 동작방법
JP2016512609A (ja) * 2013-01-29 2016-04-28 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 自動音声認識のための方法およびシステム
KR101664080B1 (ko) * 2015-07-28 2016-10-10 현대자동차 주식회사 음성 다이얼링 시스템 및 방법
US20180358019A1 (en) * 2017-06-09 2018-12-13 Soundhound, Inc. Dual mode speech recognition
JP2019008315A (ja) * 2018-09-18 2019-01-17 日本放送協会 学習データ生成装置及びそのプログラム
KR20210076163A (ko) * 2018-12-12 2021-06-23 구글 엘엘씨 음성 인식 트레이닝 및 스코어링을 위한 음역
KR20210150724A (ko) * 2020-06-04 2021-12-13 고일두 동영상 저작 시스템 및 방법
KR102225435B1 (ko) 2020-08-13 2021-03-08 이창영 Stt 기반 언어구사 학습-훈련 시스템
KR20230009564A (ko) * 2021-07-09 2023-01-17 주식회사 엘지유플러스 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
KR20230061001A (ko) * 2021-10-28 2023-05-08 삼성에스디에스 주식회사 문서 교정 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Github https://github.com/hbollon/go-edlib#readme-ov-file (2022.7.4)* *

Similar Documents

Publication Publication Date Title
KR101629415B1 (ko) 문법 오류 검출 방법 및 이를 위한 오류검출장치
US11243971B2 (en) System and method of database creation through form design
US11031009B2 (en) Method for creating a knowledge base of components and their problems from short text utterances
CN111324743A (zh) 文本关系抽取的方法、装置、计算机设备及存储介质
EP2317507B1 (en) Corpus compilation for language model generation
JP6549563B2 (ja) 内容ベースの医療マクロのソート及び検索システムのためのシステム及び方法
JPS6375835A (ja) 目的コ−ド、プログラム・リスト及び設計文書を生成する装置
CN106202206B (zh) 一种基于软件聚类的源码功能搜索方法
CN118170894B (zh) 一种知识图谱问答方法、装置及存储介质
JP2022115815A (ja) 拡張プログラミング言語コーパスに基づく意味コード検索
CN110941694A (zh) 知识图谱的搜索定位方法、系统、电子设备和存储介质
JP2021197179A (ja) エンティティ識別方法、装置、及びコンピュータ読み取り可能な記憶媒体
JP6551968B2 (ja) 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム
KR20140026703A (ko) 문법의 오류 검출 방법 및 이를 위한 장치
TW201822190A (zh) 語音辨識系統及其方法、詞彙建立方法與電腦程式產品
WO2023278052A1 (en) Automated troubleshooter
JP2018195012A (ja) 学習プログラム、学習方法、学習装置、及び変換パラメータ製造方法
US20080184107A1 (en) Method and apparatus for creating a tool for generating an index for a document
CN113297251A (zh) 多源数据检索方法、装置、设备及存储介质
JP5780036B2 (ja) 抽出プログラム、抽出方法及び抽出装置
KR102616598B1 (ko) 번역 자막을 이용한 원문 자막 병렬 데이터 생성 방법
US20230281392A1 (en) Computer-readable recording medium storing computer program, machine learning method, and natural language processing apparatus
KR20170107808A (ko) 원문문장을 번역 소단위들로 분할하고 소번역단위들의 번역어순을 결정하는 번역어순패턴 데이터 구조, 이를 생성하기 위한 명령어들을 저장한 컴퓨터 판독가능한 저장매체 및 이를 가지고 번역을 수행하는 컴퓨터 판독가능한 저장매체에 저장된 번역 프로그램
JPWO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP2000242650A (ja) 類似文書検索方法、類似文書検索装置、および類似文書検索プログラムを記録したコンピュータ読み取り可能な記憶媒体

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant