KR20150057591A - 동영상파일에 대한 자막데이터 생성방법 및 장치 - Google Patents
동영상파일에 대한 자막데이터 생성방법 및 장치 Download PDFInfo
- Publication number
- KR20150057591A KR20150057591A KR1020130141131A KR20130141131A KR20150057591A KR 20150057591 A KR20150057591 A KR 20150057591A KR 1020130141131 A KR1020130141131 A KR 1020130141131A KR 20130141131 A KR20130141131 A KR 20130141131A KR 20150057591 A KR20150057591 A KR 20150057591A
- Authority
- KR
- South Korea
- Prior art keywords
- sound source
- information
- source information
- text information
- characters
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 37
- 230000001360 synchronised effect Effects 0.000 claims abstract description 12
- 239000003086 colorant Substances 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 239000007943 implant Substances 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
본 발명은 동영상파일에 대한 자막데이터 생성방법 및 장치에 관한 것으로서, 본 발명에 따른 동영상파일에 대한 자막데이터 생성방법은 동영상의 음원정보를 수신하는 단계, 음원정보를 음성인식 알고리즘으로 처리하여 음성텍스트정보를 생성하는 단계, 및 음성텍스트정보가 음원정보에 싱크되도록 음성텍스트정보를 임플란트 (implant) 하는 단계를 포함하고, 동영상파일로부터 음성인식 알고리즘을 통해 자막데이터를 생성할 수 있는 동영상파일에 대한 자막데이터 생성방법 및 장치를 제공할 수 있는 효과가 있다.
Description
본 발명은 동영상파일에 대한 자막데이터 생성방법 및 장치에 관한 것으로서, 보다 상세하게는 음성인식을 통해 동영상 자막을 자동으로 생성하고 동기화 할 수 있는 동영상파일에 대한 자막데이터 생성방법 및 장치에 관한 것이다.
현재 개인용 컴퓨터 등의 디지털 기기를 통해 미리 저장되거나 스트리밍 방식으로 다운로드되는 동영상파일을 재생하는 기술이 널리 보급되어 있다. 동영상파일은 다양한 압축 코덱에 의해 인코딩되며, 재생 프로그램에 의해 디코딩되어 재생된다. 또한, 미리 작성된 자막데이터를 동영상 데이터와 함께 화면에 보여줌으로써 모국어로 시청할 수 없는 동영상파일의 경우에 가독 가능한 스크립트 형태의 자막을 통해 번역된 내용을 볼 수 있게 해주는 기술이 많이 이용되고 있다.
다만, 자막데이터는 동영상파일과 별개로 만들어지고 별개의 파일로 존재하는 것이 일반적이다. 이러한 경우, 사용자가 동영상파일의 영상과 음성을 텍스트로 구성된 자막데이터를 실행하는 경우 동기화에 대한 문제점이 인식되어 왔다. 이처럼 동영상파일 재생 시 자막데이터의 동기화 오류 등으로 인하여 자막데이터가 영상 또는 음성과 일치하지 않는 문제는 특히 어학학습의 용도로써 동영상이 활용되는 경우 발생할 수 있다. 예를 들어 음성은 출력되고 있으나 동기화가 되지 않아 상기 음성에 대응되도록 자막이 출력되지 않거나 소정 시간이 지연되어 출력되는 경우가 있다. 일부 재생 프로그램은 자막데이터의 실행이 동영상파일의 재생과 일치하지 않는 경우, 자막데이터의 실행 시점을 조절하거나 동영상파일의 재생 시점을 조절할 수 있는 기능을 제공한다. 이에 따라, 사용자는 수동으로 자막데이터와 동영상파일의 동기 시간을 맞추거나 자막데이터의 지연 시간을 선택하여 동영상파일과 자막데이터의 동기화를 수동으로 조정해야 하는 번거로움이 있다.
이에 따라, 자막데이터가 없는 경우 동영상파일을 통해 자막데이터를 자동으로 생성할 수 있고, 동영상파일과 자막데이터의 동기화를 자동으로 조정할 수 있는 방법을 제공할 필요성이 증대되었다.
본 발명이 해결하고자 하는 과제는 동영상파일로부터 음성인식 알고리즘을 통해 자막데이터를 생성할 수 있는 동영상파일에 대한 자막데이터 생성방법 및 장치를 제공하는 것이다.
본 발명이 해결하고자 하는 다른 과제는 음성인식 알고리즘을 통해 자막데이터를 동영상파일과 자동으로 동기화시킬 수 있는 동영상파일에 대한 자막데이터 생성방법 및 장치를 제공하는 것이다.
본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 동영상파일에 대한 자막데이터 생성방법은 동영상의 음원정보를 수신하는 단계, 음원정보를 음성인식 알고리즘으로 처리하여 음성텍스트정보를 생성하는 단계, 및 음성텍스트정보가 음원정보에 싱크되도록 음성텍스트정보를 임플란트 (implant) 하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 다른 특징에 따르면, 음원정보를 수신하는 단계는 음원정보 중 음성 음원정보만을 필터링하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 또 다른 특징에 따르면, 음성인식 알고리즘은 등장인물이 복수인 경우, 등장인물의 음색분석을 통해 등장인물마다 구분하여 음성텍스트정보를 생성하는 것을 특징으로 한다.
본 발명의 또 다른 특징에 따르면, 임플란트하는 단계는 등장인물이 복수인 경우, 음성텍스트정보에 등장인물마다 구분하여 각기 다른 색상을 적용하는 것을 특징으로 한다.
전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 동영상파일에 대한 자막데이터 생성장치는 동영상의 음원정보를 수신하는 수신모듈, 음원정보를 음성인식 알고리즘으로 처리하여 음성텍스트정보를 생성하는 자막생성모듈, 및 음성텍스트정보가 음원정보에 싱크되도록 음성텍스트정보를 임플란트하는 자막싱크모듈을 포함하는 것을 특징으로 한다.
본 발명의 다른 특징에 따르면, 수신모듈은 음원정보 중 음성 음원정보만을 필터링하는 것을 특징으로 한다.
본 발명의 또 다른 특징에 따르면, 음성인식 알고리즘은 등장인물이 복수인 경우, 등장인물의 음색분석을 통해 등장인물마다 구분하여 음성텍스트정보를 생성하는 것을 특징으로 한다.
본 발명의 또 다른 특징에 따르면, 자막싱크모듈은 등장인물이 복수인 경우, 음성텍스트정보에 등장인물마다 구분하여 각기 다른 색상을 적용하는 것을 특징으로 한다.
전술한 바와 같은 과제를 해결하기 위하여 본 발명의 다른 실시예에 따른 동영상파일에 대한 자막데이터 생성방법을 제공하는 명령어들을 저장하는 컴퓨터 판독 가능 매체는 동영상의 음원정보를 수신하고, 음원정보를 음성인식 알고리즘으로 처리하여 음성텍스트정보를 생성하고, 음성텍스트정보가 음원정보에 싱크되도록 음성텍스트정보를 임플란트하는 것을 특징으로 한다.
기타 실시예의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명은 동영상파일로부터 음성인식 알고리즘을 통해 자막데이터를 생성할 수 있는 동영상파일에 대한 자막데이터 생성방법 및 장치를 제공할 수 있는 효과가 있다.
본 발명은 음성인식 알고리즘을 통해 자막데이터를 동영상파일과 자동으로 동기화시킬 수 있는 동영상파일에 대한 자막데이터 생성방법 및 장치를 제공할 수 있는 효과가 있다.
본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.
도 1은 본 발명의 일 실시예에 따른 자막데이터 처리모듈의 개략적인 구성도이다.
도 2는 본 발명의 일 실시예에 따른 동영상파일에 대한 자막데이터 생성방법을 설명하기 위한 순서도이다.
도 3은 본 발명의 일 실시예에 따른 자막생성모듈에 의해 동영상의 음원정보로부터 음성텍스트정보를 생성하는 과정을 설명하기 위한 흐름도를 도시한 것이다.
도 4는 본 발명의 다른 일 실시예에 따른 음성텍스트정보를 생성하는 과정을 설명하기 위한 흐름도를 도시한 것이다.
도 5는 본 발명의 또 다른 실시예에 따른 동영상파일에 대한 자막데이터 생성방법에 의한 자막데이터가 표시된 예시적인 화면구성을 도시한 것이다.
도 2는 본 발명의 일 실시예에 따른 동영상파일에 대한 자막데이터 생성방법을 설명하기 위한 순서도이다.
도 3은 본 발명의 일 실시예에 따른 자막생성모듈에 의해 동영상의 음원정보로부터 음성텍스트정보를 생성하는 과정을 설명하기 위한 흐름도를 도시한 것이다.
도 4는 본 발명의 다른 일 실시예에 따른 음성텍스트정보를 생성하는 과정을 설명하기 위한 흐름도를 도시한 것이다.
도 5는 본 발명의 또 다른 실시예에 따른 동영상파일에 대한 자막데이터 생성방법에 의한 자막데이터가 표시된 예시적인 화면구성을 도시한 것이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하며, 당업자가 충분히 이해할 수 있듯이 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.
이하, 첨부된 도면을 참조하여 본 발명의 다양한 실시예들을 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 자막데이터 처리모듈의 개략적인 구성도이다.
도 1을 참조하면, 자막데이터 처리모듈 (100) 은 수신모듈 (110), 자막생성모듈 (120), 및 자막싱크모듈 (130) 을 포함한다. 자막데이터 처리모듈 (100) 은 동영상파일 중 동영상의 음원정보 (이하 ‘음원정보’라 한다.) 를 수신하여 자막데이터를 생성한다. 자막데이터 처리모듈 (100) 은 음성인식 알고리즘을 포함하고, 음성인식 알고리즘은 음원정보를 자막데이터로 변환하는 과정에서 이용된다. 자막데이터 처리모듈 (100) 은 동영상파일 재생 어플리케이션에 포함되거나 연계되어 실행될 수 있다. 동영상파일 재생 어플리케이션은 사용자의 단말기마다 다양하게 존재한다. 예를 들어, 컴퓨터에서 실행되는 동영상파일 재생 어플리케이션에는 윈도우 미디어 플레이어 (Window Media Player), 곰 플레이어 (GOM Player), KM 플레이어 (KM Player) 등이 있고, 스마트폰과 같은 모바일 임베디드 (embedded) 단말기에서 실행되는 동영상파일 재생 어플리케이션에는 MX 플레이어 (MX Player) 등이 있다. 동영상파일 재생 어플리케이션은 일반적으로 동영상파일, 음원파일, 자막파일 등을 실행시킬 수 있으며, 영상과 음원을 동시에 재생하면서 문자정보인 자막파일도 함께 재생할 수 있다.
본 발명의 일 실시예에 따른 수신모듈 (110) 은 동영상의 음원정보를 수신한다. 동영상파일 재생 어플리케이션에서 재생되는 동영상파일은 영상정보와 음원정보를 포함할 수 있다. 수신모듈 (110) 은 음원정보를 수신하여 자막생성모듈 (120) 로 전송한다. 수신모듈 (110) 은 음원정보 중 등장인물의 음성 음원정보만을 필터링하는 필터를 포함할 수 있다.
자막생성모듈 (120) 은 음성인식 알고리즘을 포함한다. 이에 따라 자막생성모듈 (120) 은 수신모듈 (110) 을 통해 수신한 음원정보를 음성인식 알고리즘으로 처리하여 음성텍스트정보를 생성한다.
음성인식 알고리즘은 기본적으로 사용자가 발성한 음성을 전자장치가 해석해 그 내용을 텍스트로 인식하는 작업을 의미한다. 구체적으로, 사용자가 발성한 음성의 파형이 전자장치에 입력되면, 음향 모델 등을 참조하여 음성파형을 분석함으로써, 음성패턴 정보가 획득될 수 있다. 그리고, 획득된 음성패턴 정보가 식별정보와 비교됨으로써, 식별정보에서 일치 확률이 가장 높은 텍스트가 인식될 수 있다.
본 발명의 일 실시예에 따른 음성인식 알고리즘은 수신한 음성정보를 기초로 음성인식을 통해 음성텍스트정보를 생성한다. 음성텍스트정보는 문자만을 포함할 수 있다. 따라서, 음성인식 알고리즘은 음성정보를 문자정보로 변환하는 알고리즘이다.
자막싱크모듈 (130) 은 자막생성모듈 (120) 에서 생성된 음성텍스트정보를 음원정보에 싱크시켜 임플란트 (implant) 한다. 음성텍스트정보를 음원정보에 싱크시키는 것은 음원정보와 음성텍스트정보가 서로 대응되도록 실행되는 시간을 일치시키는 것이다. 즉, 음성텍스트정보와 음원정보의 싱크를 통해, 동영상파일 재생 어플리케이션에서 재생되는 음원정보와 대응되는 음성텍스트정보가 음원정보와 동일한 시간에 실행될 수 있다. 음원정보에 싱크된 음성텍스트정보는 음원정보에 임플란트되어 자막데이터를 생성할 수 있다. 음성텍스트정보의 임플란트는 싱크된 음성텍스트정보와 음원정보를 하나의 데이터로 일체화시키는 것이다. 즉, 음성텍스트정보와 음원정보가 시간정보를 통해 싱크되고 하나의 자막데이터로 통합되어 동영상파일에 포함되고, 동영상파일의 재생시 함께 표시될 수 있다.
동영상파일이 자막데이터를 포함하지 않고 자막데이터가 동영상파일과 별도로 존재하는 경우, 자막데이터는 동영상파일의 시간정보에 대응하여 동영상파일의 프레임과 일치시켜 표시되도록 설정될 수 있다. 이에 따라 동영상파일의 재생시 자막데이터가 별도로 실행되더라도 동영상파일의 시간정보와 프레임에 매칭되어 표시될 수 있다.
도 2는 본 발명의 일 실시예에 따른 동영상파일에 대한 자막데이터 생성방법을 설명하기 위한 순서도이다. 설명의 편의를 위해 도 1을 참조하여 설명한다.
본 발명에 따른 동영상파일에 대한 자막데이터 생성방법은 동영상의 음원정보를 수신함으로서 개시된다 (S110).
동영상파일 재생 어플리케이션에서 동영상파일은 영상정보와 음원정보를 포함할 수 있다. 음원정보는 동영상에 포함되는 소리정보를 모두 포함하며, 예를 들어, 등장인물의 음성, 배경음악, 효과음을 포함한다. 음원정보는 동영상에 포함되는 소리정보와 재생되는 시간에 대한 정보를 포함할 수 있다.
수신모듈 (110) 은 음원정보 중 음성 음원정보만을 필터링한다 (S120).
수신모듈 (110) 은 자막생성모듈 (120) 로 전송하기 위한 음성 음원정보만을 추출하기 위한 필터를 포함할 수 있다. 필터는 음성 음원정보를 동영상파일의 음원정보로부터 분리한다. 보다 구체적으로, 필터는 음성 대역인 300Hz 에서 3400Hz의 주파수 대역에 있는 음원정보를 음성 음원정보로 판단할 수 있다. 이에 따라, 필터는 음성 대역만을 통과시키는 대역 통과 필터 (Band Pass Filter) 일 수 있다. 음성 음원정보는 음원정보 중 등장인물의 음성에 대한 정보이다. 등장인물의 음성 음원정보는 등장인물이 복수인 경우, 복수의 음성 음원정보로 구별될 수 있다. 복수의 등장인물에 대한 음성 음원정보는 도 4에서 설명한다.
자막생성모듈 (120) 은 음원정보를 음성인식 알고리즘으로 처리하여 음성텍스트정보를 생성한다 (S130).
자막데이터 처리모듈 (100) 은 수신모듈 (110) 로부터 전송된 음원정보 또는 음성 음원정보 (이하 ‘음원정보 등’이라 한다.) 를 기초로 하여 음성인식 알고리즘을 통해 음성텍스트정보를 생성할 수 있다. 음성텍스트정보는 음원정보 등을 음성인식 알고리즘을 통해 문자화한 정보로, 음원정보 등의 각 나라별 언어로 문자화되어 생성된다. 등장인물이 복수인 경우, 음원정보 등이 음성인식 알고리즘을 통해 복수의 음성텍스트정보가 생성될 수 있다. 등장인물이 복수인 경우, 음성텍스트정보가 생성되는 과정에 대해서는 도 4에서 설명한다.
자막싱크모듈 (130) 은 음성텍스트정보가 음원정보에 싱크되도록 음성텍스트정보를 임플란트한다 (S140).
자막싱크모듈 (130) 은 음성텍스트정보를 자막데이터로 생성시키기 위해 음원정보 등에 음성텍스트정보를 싱크시키고 임플란트한다. 음성텍스트정보는 동영상파일의 시간에 대한 정보를 포함하지 않는 문자화된 정보이다. 이에 따라 음성텍스트정보는 동영상파일 재생 어플리케이션에서 실행되기 위해 음원정보 등과 싱크시키고 임플란트되어야 한다. 음성텍스트정보는 자막싱크모듈 (130) 에 의해 싱크되고 임플란트되어 자막데이터로 변환된다. 등장인물이 복수인 경우, 음성텍스트정보도 복수일 수 있으나 자막데이터는 복수의 음성텍스트정보를 포함하는 하나의 파일일 수 있다.
도 3은 본 발명의 일 실시예에 따른 자막생성모듈에 의해 동영상의 음원정보로부터 음성텍스트정보를 생성하는 과정을 설명하기 위한 흐름도를 도시한 것이다.
동영상파일은 영상정보와 음원정보를 포함하고, 음원정보 (200) 는 등장인물의 음성 (201), 배경음악 (203), 기타 효과음 (205) 을 포함한다. 자막데이터는 문자화된 정보로 등장인물의 대사를 문자화한 것일 수 있고, 음성텍스트정보 (210) 를 기초로 생성된다. 이에 따라 자막생성모듈 (120) 은 등장인물의 음성 (201) 을 기초로 자막데이터로 만들기 위한 음성텍스트정보 (210) 를 생성한다. 음원정보 (200) 중 등장인물의 음성 (201) 은 수신부 (110) 의 필터를 거쳐 자막생성모듈 (120) 에 입력될 수 있다. 배경음악 (203), 기타 효과음 (205) 는 자막생성모듈 (120) 에 입력되지 않거나 입력되더라도 음성텍스트정보 (210) 의 생성에는 영향을 미치지 않는다.
자막생성모듈 (120) 은 음성인식 알고리즘을 포함한다. 음성인식 알고리즘은 소리정보를 텍스트정보로 변환시킬 수 있다. 즉, 음성인식 알고리즘은 음원정보 (200) 중 등장인물의 음성 (201) 을 입력받아 음성텍스트정보 (210) 를 생성한다. 음성텍스트정보 (210) 는 등장인물의 음성 (201) 을 기초로 생성된 것으로 등장인물의 수에 따라 복수로 존재할 수 있다.
도 4는 본 발명의 다른 일 실시예에 따른 음성텍스트정보를 생성하는 과정을 설명하기 위한 흐름도를 도시한 것이다.
도 4를 참조하면, 복수의 등장인물이 존재하는 경우, 등장인물의 음성 (201) 으로부터 복수의 음성텍스트정보가 생성될 수 있다. 즉, 동영상파일에 n명의 등장인물의 음성이 포함되어있는 경우, 음성인식 알고리즘을 통해 n개의 음성텍스트정보가 생성될 수 있다.
복수의 등장인물이 존재하더라도 등장인물의 음성 (201) 은 하나의 데이터로 존재한다. 이에 따라, 음성인식 알고리즘은 등장인물의 음성 (201) 을 등장인물마다 음색분석을 통해 등장인물마다 음성정보를 구별하여 생성할 수 있다. 즉, 음성인식 알고리즘은 n명의 등장인물의 음성을 포함하는 하나의 등장인물의 음성 (201) 으로부터 등장인물의 음색을 구별하여 n개의 등장인물의 음성정보 (220) 를 생성할 수 있다. 이 경우 자막데이터 처리모듈 (100) 은 동영상파일을 처음부터 마지막까지 재생을 하거나 스캔하여 등장인물의 수를 판단할 수 있다. 자막데이터 처리모듈 (100) 이 등장인물의 수를 판단하기 위해 동영상파일을 재생하거나 스캔하는 것은 동영상파일 재생 어플리케이션을 통해 사용자에게 표시되지 않을 수 있다. 등장인물의 수를 판단하기 위한 동영상파일의 재생 또는 스캔은 음성인식 알고리즘을 통해 등장인물의 음색분석을 하고 이를 통해 등장인물을 구별하여 등장인물의 수를 판단한다. 이에 따라 등장인물의 수는 동영상파일의 재생 전이나 동영상파일 재생 어플리케이션의 설정을 통해 확인할 수 있으며, 실제 동영상파일에 등장하는 등장인물의 수와 다른 경우 사용자에 의해 수정될 수 있다.
음성인식 알고리즘은 n개의 등장인물의 음성정보 (220) 를 생성한다. 또한, 음성인식 알고리즘은 n개의 등장인물의 음성정보 (220) 를 이용하여 각각의 등장인물의 음성정보 (222, 224, 226) 에 대응하는 n개의 음성텍스트정보 (210) 를 생성한다. 즉, n개의 등장인물의 음성정보 (220) 를 생성하는 과정과 n개의 음성텍스트정보 (210) 를 생성하는 과정은 순차적으로 또는 동시에 발생할 수 있다.
도 5는 본 발명의 또 다른 실시예에 따른 동영상파일에 대한 자막데이터 생성방법에 의한 자막데이터가 표시된 예시적인 화면구성을 도시한 것이다.
도 5를 참조하면, 복수의 등장인물의 자막데이터는 동영상파일 재생 어플리케이션의 화면에서 동시에 또는 순차적으로 표시될 수 있다. 예를 들어, ‘JANE’과 ‘TARZAN’이 등장하는 화면에서 ‘JANE’의 자막데이터 (310) 와 ‘TARZAN’의 자막데이터 (320) 는 동시에 표시되거나, ‘JANE’의 자막데이터 (310) 가 먼저 표시되고 ‘JANE’의 자막데이터 (310) 가 표시된 이후에 ‘TARZAN’의 자막데이터 (320) 가 표시된다.
특히, 등장인물이 복수인 경우, 자막데이터는 자막싱크모듈 (130) 에 의해 등장인물마다 각기 상이한 색상이 적용될 수 있다. 예를 들어, ‘JANE’의 자막데이터 (310) 인 ‘Who are you?’는 빨간색으로, ‘TARZAN’의 자막데이터 (320) 인 ‘Be quiet. I am Tarzan’은 파란색으로 표시될 수 있다. 각각의 자막데이터 (310, 320) 의 색상은 동영상파일 재생 어플리케이션의 환경설정을 통해 사용자에 의해 변경될 수 있다.
본 명세서에서, 각 블록 또는 각 단계는 특정된 논리적 기능 (들) 을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또한, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서에 의해 실행되는 하드웨어, 소프트웨어 모듈 또는 그 2 개의 결합으로 직접 구현될 수도 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM 또는 당업계에 알려진 임의의 다른 형태의 저장 매체에 상주할 수도 있다. 예시적인 저장 매체는 프로세서에 커플링되며, 그 프로세서는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로 (ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형실시될 수 있다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100 자막데이터 처리모듈
110 수신모듈
120 자막생성모듈
130 자막싱크모듈
200 음원정보
201 등장인물의 음성
203 배경음악
205 기타 효과음
210 음성텍스트정보
212 제1 음성텍스트정보
214 제2 음성텍스트정보
216 제n 음성텍스트정보
220 등장인물의 음성정보
222 제1 등장인물의 음성정보
224 제2 등장인물의 음성정보
226 제n 등장인물의 음성정보
310 ‘JANE’의 자막데이터
320 ‘TARZAN’의 자막데이터
110 수신모듈
120 자막생성모듈
130 자막싱크모듈
200 음원정보
201 등장인물의 음성
203 배경음악
205 기타 효과음
210 음성텍스트정보
212 제1 음성텍스트정보
214 제2 음성텍스트정보
216 제n 음성텍스트정보
220 등장인물의 음성정보
222 제1 등장인물의 음성정보
224 제2 등장인물의 음성정보
226 제n 등장인물의 음성정보
310 ‘JANE’의 자막데이터
320 ‘TARZAN’의 자막데이터
Claims (9)
- 동영상의 음원정보를 수신하는 단계;
상기 음원정보를 음성인식 알고리즘으로 처리하여 음성텍스트정보를 생성하는 단계; 및
상기 음성텍스트정보가 상기 음원정보에 싱크되도록 상기 음성텍스트정보를 임플란트 (implant) 하는 단계를 포함하는 것을 특징으로 하는, 동영상파일에 대한 자막데이터 생성방법. - 제1항에 있어서,
상기 음원정보를 수신하는 단계는 상기 음원정보 중 음성 음원정보만을 필터링하는 단계를 포함하는 것을 특징으로 하는, 동영상파일에 대한 자막데이터 생성방법. - 제2항에 있어서,
상기 음성인식 알고리즘은 등장인물이 복수인 경우, 상기 등장인물의 음색분석을 통해 상기 등장인물마다 구분하여 상기 음성텍스트정보를 생성하는 것을 특징으로 하는, 동영상파일에 대한 자막데이터 생성방법. - 제1항에 있어서,
상기 임플란트하는 단계는 등장인물이 복수인 경우, 상기 음성텍스트정보에 상기 등장인물마다 구분하여 각기 다른 색상을 적용하는 것을 특징으로 하는, 동영상파일에 대한 자막데이터 생성방법. - 동영상의 음원정보를 수신하는 수신모듈;
상기 음원정보를 음성인식 알고리즘으로 처리하여 음성텍스트정보를 생성하는 자막생성모듈; 및
상기 음성텍스트정보가 상기 음원정보에 싱크되도록 상기 음성텍스트정보를 임플란트하는 자막싱크모듈을 포함하는 것을 특징으로 하는, 동영상파일에 대한 자막데이터 생성장치. - 제5항에 있어서,
상기 수신모듈은 상기 음원정보 중 음성 음원정보만을 필터링하는 것을 특징으로 하는, 동영상파일에 대한 자막데이터 생성장치. - 제6항에 있어서,
상기 음성인식 알고리즘은 등장인물이 복수인 경우, 상기 등장인물의 음색분석을 통해 상기 등장인물마다 구분하여 상기 음성텍스트정보를 생성하는 것을 특징으로 하는, 동영상파일에 대한 자막데이터 생성장치. - 제5항에 있어서,
상기 자막싱크모듈은 등장인물이 복수인 경우, 상기 음성텍스트정보에 상기 등장인물마다 구분하여 각기 다른 색상을 적용하는 것을 특징으로 하는, 동영상파일에 대한 자막데이터 생성장치. - 동영상의 음원정보를 수신하고,
상기 음원정보를 음성인식 알고리즘으로 처리하여 음성텍스트정보를 생성하고,
상기 음성텍스트정보가 상기 음원정보에 싱크되도록 상기 음성텍스트정보를 임플란트하는 것을 특징으로 하는, 동영상파일에 대한 자막데이터 생성방법을 제공하는 명령어들을 저장하는 컴퓨터 판독 가능 매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130141131A KR20150057591A (ko) | 2013-11-20 | 2013-11-20 | 동영상파일에 대한 자막데이터 생성방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130141131A KR20150057591A (ko) | 2013-11-20 | 2013-11-20 | 동영상파일에 대한 자막데이터 생성방법 및 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20150057591A true KR20150057591A (ko) | 2015-05-28 |
Family
ID=53392418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020130141131A KR20150057591A (ko) | 2013-11-20 | 2013-11-20 | 동영상파일에 대한 자막데이터 생성방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20150057591A (ko) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180038318A (ko) * | 2016-10-06 | 2018-04-16 | 주식회사 카카오 | 자막 생성 시스템, 자막 생성 방법, 그리고 콘텐트 생성 프로그램 |
KR20190130774A (ko) * | 2018-05-15 | 2019-11-25 | (주)우리랑코리아 | 언어 교육을 위한 영상의 자막 처리 방법 및 장치 |
KR20200029194A (ko) * | 2018-09-10 | 2020-03-18 | 현대자동차주식회사 | 자막을 출력하는 동영상 재생 장치 및 그 제어 방법 |
KR102178175B1 (ko) * | 2019-12-09 | 2020-11-12 | 김경철 | 사용자 단말 및 그 제어방법 |
KR102178176B1 (ko) * | 2019-12-09 | 2020-11-12 | 김경철 | 사용자 단말, 화상 통화 장치, 화상 통화 시스템 및 그 제어방법 |
KR102178174B1 (ko) * | 2019-12-09 | 2020-11-12 | 김경철 | 사용자 단말, 방송 장치, 이를 포함하는 방송 시스템 및 그 제어방법 |
KR102367579B1 (ko) * | 2020-09-29 | 2022-02-28 | (주)알지비 | 효율적인 동영상 합성 툴을 제공하는 전자 장치 |
KR20220043811A (ko) * | 2020-09-29 | 2022-04-05 | (주)알지비 | 동영상 내의 인물을 고려한 동영상 합성 방법 |
KR20220043925A (ko) * | 2021-01-12 | 2022-04-05 | (주)알지비 | 인물을 고려한 동영상 비주얼 이펙트 합성 방법 |
US11523108B2 (en) | 2019-08-10 | 2022-12-06 | Beijing Bytedance Network Technology Co., Ltd. | Position restriction for inter coding mode |
KR20220165061A (ko) | 2021-06-07 | 2022-12-14 | 숭실대학교산학협력단 | 다중 표현 스위칭 기반 비디오 캡셔닝 방법, 이를 수행하기 위한 기록 매체 및 시스템 |
US11539950B2 (en) | 2019-10-02 | 2022-12-27 | Beijing Bytedance Network Technology Co., Ltd. | Slice level signaling in video bitstreams that include subpictures |
US11758204B2 (en) | 2018-11-28 | 2023-09-12 | Samsung Electronics Co., Ltd. | Electronic device and control method therefor |
US11893813B2 (en) | 2019-02-01 | 2024-02-06 | Samsung Electronics Co., Ltd. | Electronic device and control method therefor |
KR102642029B1 (ko) | 2023-09-11 | 2024-02-28 | 주식회사 인프랩 | 인공지능 기반의 자막 관리 장치, 방법 및 프로그램 |
US11956432B2 (en) | 2019-10-18 | 2024-04-09 | Beijing Bytedance Network Technology Co., Ltd | Interplay between subpictures and in-loop filtering |
-
2013
- 2013-11-20 KR KR1020130141131A patent/KR20150057591A/ko not_active Application Discontinuation
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180038318A (ko) * | 2016-10-06 | 2018-04-16 | 주식회사 카카오 | 자막 생성 시스템, 자막 생성 방법, 그리고 콘텐트 생성 프로그램 |
KR20190130774A (ko) * | 2018-05-15 | 2019-11-25 | (주)우리랑코리아 | 언어 교육을 위한 영상의 자막 처리 방법 및 장치 |
KR20200029194A (ko) * | 2018-09-10 | 2020-03-18 | 현대자동차주식회사 | 자막을 출력하는 동영상 재생 장치 및 그 제어 방법 |
US11758204B2 (en) | 2018-11-28 | 2023-09-12 | Samsung Electronics Co., Ltd. | Electronic device and control method therefor |
US11893813B2 (en) | 2019-02-01 | 2024-02-06 | Samsung Electronics Co., Ltd. | Electronic device and control method therefor |
US11523108B2 (en) | 2019-08-10 | 2022-12-06 | Beijing Bytedance Network Technology Co., Ltd. | Position restriction for inter coding mode |
US11533513B2 (en) | 2019-08-10 | 2022-12-20 | Beijing Bytedance Network Technology Co., Ltd. | Subpicture size definition in video processing |
US12075030B2 (en) | 2019-08-10 | 2024-08-27 | Beijing Bytedance Network Technology Co., Ltd. | Subpicture dependent signaling in video bitstreams |
US12047558B2 (en) | 2019-08-10 | 2024-07-23 | Beijing Bytedance Network Technology Co., Ltd. | Subpicture dependent signaling in video bitstreams |
US11553177B2 (en) | 2019-08-10 | 2023-01-10 | Beijing Bytedance Network Technology Co., Ltd. | Buffer management in subpicture decoding |
US11546593B2 (en) | 2019-10-02 | 2023-01-03 | Beijing Bytedance Network Technology Co., Ltd. | Syntax for subpicture signaling in a video bitstream |
US11539950B2 (en) | 2019-10-02 | 2022-12-27 | Beijing Bytedance Network Technology Co., Ltd. | Slice level signaling in video bitstreams that include subpictures |
US11962771B2 (en) | 2019-10-18 | 2024-04-16 | Beijing Bytedance Network Technology Co., Ltd | Syntax constraints in parameter set signaling of subpictures |
US11956432B2 (en) | 2019-10-18 | 2024-04-09 | Beijing Bytedance Network Technology Co., Ltd | Interplay between subpictures and in-loop filtering |
KR102178176B1 (ko) * | 2019-12-09 | 2020-11-12 | 김경철 | 사용자 단말, 화상 통화 장치, 화상 통화 시스템 및 그 제어방법 |
KR102178174B1 (ko) * | 2019-12-09 | 2020-11-12 | 김경철 | 사용자 단말, 방송 장치, 이를 포함하는 방송 시스템 및 그 제어방법 |
WO2021118180A1 (ko) * | 2019-12-09 | 2021-06-17 | 김경철 | 사용자 단말, 방송 장치, 이를 포함하는 방송 시스템 및 그 제어방법 |
KR102178175B1 (ko) * | 2019-12-09 | 2020-11-12 | 김경철 | 사용자 단말 및 그 제어방법 |
WO2021118179A1 (ko) * | 2019-12-09 | 2021-06-17 | 김경철 | 사용자 단말, 화상 통화 장치, 화상 통화 시스템 및 그 제어방법 |
WO2021118184A1 (ko) * | 2019-12-09 | 2021-06-17 | 김경철 | 사용자 단말 및 그 제어방법 |
KR20220043811A (ko) * | 2020-09-29 | 2022-04-05 | (주)알지비 | 동영상 내의 인물을 고려한 동영상 합성 방법 |
KR102367579B1 (ko) * | 2020-09-29 | 2022-02-28 | (주)알지비 | 효율적인 동영상 합성 툴을 제공하는 전자 장치 |
KR20220043925A (ko) * | 2021-01-12 | 2022-04-05 | (주)알지비 | 인물을 고려한 동영상 비주얼 이펙트 합성 방법 |
KR20220165061A (ko) | 2021-06-07 | 2022-12-14 | 숭실대학교산학협력단 | 다중 표현 스위칭 기반 비디오 캡셔닝 방법, 이를 수행하기 위한 기록 매체 및 시스템 |
KR102642029B1 (ko) | 2023-09-11 | 2024-02-28 | 주식회사 인프랩 | 인공지능 기반의 자막 관리 장치, 방법 및 프로그램 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20150057591A (ko) | 동영상파일에 대한 자막데이터 생성방법 및 장치 | |
US9552807B2 (en) | Method, apparatus and system for regenerating voice intonation in automatically dubbed videos | |
US10176825B2 (en) | Electronic apparatus, control method, and computer program | |
US20080219641A1 (en) | Apparatus and method for synchronizing a secondary audio track to the audio track of a video source | |
CN106791913A (zh) | 数字电视节目同声翻译输出方法及系统 | |
EP2816559A2 (en) | Translation system comprising display apparatus and server and control method thereof | |
CN106340291A (zh) | 一种双语字幕制作方法及系统 | |
KR20070034462A (ko) | 비디오-오디오 동기화 | |
CN105898556A (zh) | 一种外挂字幕的自动同步方法及装置 | |
US11211074B2 (en) | Presentation of audio and visual content at live events based on user accessibility | |
JP2008294584A (ja) | ダイジェスト再生装置及び方法 | |
KR20180119101A (ko) | 방송자막 제작 시스템 및 방법 | |
CN110933485A (zh) | 一种视频字幕生成方法、系统、装置和存储介质 | |
US9666211B2 (en) | Information processing apparatus, information processing method, display control apparatus, and display control method | |
US8615154B2 (en) | Video-audio processing apparatus and video-audio processing method | |
JP2020140326A (ja) | コンテンツ生成システム、及びコンテンツ生成方法 | |
KR100636386B1 (ko) | 실시간 비디오 음성 더빙 장치 및 그 방법 | |
KR101618777B1 (ko) | 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법 | |
JP2004343488A (ja) | 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム | |
CN117596433B (zh) | 一种基于时间轴微调的国际中文教学视听课件编辑系统 | |
KR20110100649A (ko) | 음성을 합성하기 위한 방법 및 장치 | |
KR20160129787A (ko) | 디지털 녹취 파일 녹취록 생성 방법 | |
US10885893B2 (en) | Textual display of aural information broadcast via frequency modulated signals | |
EP2261900A1 (en) | Method and apparatus for modifying the playback rate of audio-video signals | |
KR101781353B1 (ko) | 무결성 디지털 녹취 파일 생성 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WITN | Withdrawal due to no request for examination |