KR102267725B1

KR102267725B1 - 데이터베이스 구축 방법 및 장치

Info

Publication number: KR102267725B1
Application number: KR1020190131372A
Authority: KR
Inventors: 김의성; 김윤호; 정대성
Original assignee: 주식회사 카카오; 주식회사 카카오엔터프라이즈
Priority date: 2019-10-22
Filing date: 2019-10-22
Publication date: 2021-06-22
Also published as: KR20210047583A

Abstract

데이터베이스 구축 방법 및 시스템이 개시된다. 일 실시예에 따른 데이터베이스 구축 방법은 디지털 컨텐츠를 수신하는 단계, 디지털 컨텐츠에 포함된 음성 데이터 및 자막 데이터를 추출하는 단계, 자막 데이터에 포함된 적어도 하나의 프레임에 대응하는 제1 음소 시퀀스를 추정하는 단계, 음성 데이터에 포함된 적어도 하나의 프레임에 대응하는 제2 음소 시퀀스를 추정하는 단계, 음성 데이터에 포함된 적어도 하나의 프레임 중에서, 제1 음소 시퀀스와 제2 음소 시퀀스를 비교하여, 음성 데이터를 자막 데이터와 매칭하는 단계 및 매칭된 음성 데이터 및 자막 데이터를 저장하는 단계를 포함한다.

Description

데이터베이스 구축 방법 및 장치{DATABASE CONSTRUCTION METHOD AND APPARATUS}

아래 실시예들은 데이터베이스 구축 방법에 관한 것으로, 보다 구체적으로는 딥러닝을 이용한 디지털 컨텐츠 멀티미디어 데이터베이스 구축 시스템에 관한 것이다.

음성인식, 음성합성, 음성변환 등의 시스템을 만들기 위한 종래의 데이터베이스 시스템은 성우 또는 특정 분야에 한정된 사람들이 녹음한 데이터를 기반으로 구축되었다. 종래의 데이터베이스 구축 시스템은 한정된 상황에서 녹음이 된 데이터베이스를 기반으로 하기 때문에, 다양한 환경에서 음성인식의 성능이 보장되지 않는다는 문제가 있었다.

또한, 종래의 데이터베이스 구축 시스템은 지속적으로 및/또는 자동적으로 업데이트되지 못함으로써, 신조어 등의 인식률이 현저히 낮은 문제가 있었다.

또한, 종래의 데이터베이스 시스템은 주로 스튜디오에서 녹음된 컨텐츠를 기반으로 구축되었기 때문에 실외 등의 다양한 환경에서 음성 인식률이 현저히 낮은 문제가 있었다.

더욱이, 종래의 데이터베이스 시스템은 표준어 외에 사투리 등에 대한 다양한 내용을 포함하지 못하였고, 또한 한국어 외의 외국어에 대한 음성 인식률이 현저히 낮은 문제가 있었다.

또한, 종래의 데이터베이스 시스템은 연령대별(예를 들면, 어린이 또는 노인)로 구별되는 음성 데이터베이스를 구축하지 못하여, 특정 연령대에서 음성 인식률이 현저히 낮은 문제가 있었다.

실시예들은 방송 및 다양한 디지털 컨텐츠로부터 영상 데이터, 음성 데이터 및 자막 데이터를 추출/활용하여 음성 데이터를 분리/결합/매칭 등을 통해 데이터베이스를 구축하고, 이를 음성인식, 음성합성, 음성변환 등과 같은 다양한 분야에서 활용할 수 있도록 제공하고자 한다.

실시예들은 화자 별, 문장 별, 소리 별, 프로그램 별, 장르 별, 날짜 별로 구축된 데이터베이스를 활용하여, 인기 방송 장면 혹은 사용자가 원하는 장면을 실시간으로 제공하고자 한다.

실시예들은 음성에서 자막에 대응하는 시작 위치와 끝 위치를 딥러닝을 이용한 비터비 알고리즘을 통해 검출하고자 한다.

일 실시예에 따른 데이터베이스 구축 방법은 디지털 컨텐츠를 수신하는 단계; 상기 디지털 컨텐츠에 포함된 음성 데이터 및 자막 데이터를 추출하는 단계; 상기 자막 데이터에 포함된 적어도 하나의 프레임에 대응하는 제1 음소 시퀀스를 추정하는 단계; 상기 음성 데이터에 포함된 적어도 하나의 프레임에 대응하는 제2 음소 시퀀스를 추정하는 단계; 상기 음성 데이터에 포함된 적어도 하나의 프레임 중에서, 상기 제1 음소 시퀀스와 상기 제2 음소 시퀀스를 비교하여, 상기 음성 데이터를 상기 자막 데이터와 매칭하는 단계; 및 상기 매칭된 음성 데이터 및 자막 데이터를 저장하는 단계를 포함한다.

상기 추출하는 단계는 문장 단위로 상기 자막 데이터를 추출하는 단계; 및 상기 자막 데이터에 기초하여 상기 음성 데이터를 추출하는 단계를 포함할 수 있다.

일 실시예에 따른 데이터베이스 구축 방법은 상기 디지털 컨텐츠에 포함된 영상 데이터를 추출하는 단계; 및 상기 영상 데이터를 상기 음성 데이터와 매칭하는 단계를 더 포함할 수 있다.

상기 제1 음소 시퀀스를 추정하는 단계는 G2P(Grapheme-to-Phoneme) 알고리즘에 기초하여, 상기 자막 데이터에 대응하는 제2 음소 시퀀스를 추정하는 단계를 포함할 수 있다.

상기 제2 음소 시퀀스를 추정하는 단계는 음성 특징을 추출하는 단계; 및 비터비 알고리즘에 기초하여, 상기 음성 특징에 대응하는 상기 제1 음소 시퀀스를 추정하는 단계를 포함할 수 있다.

상기 제1 음소 시퀀스와 상기 제2 음소 시퀀스 사이의 유사도가 미리 정해진 임계값 미만인 경우, 상기 음성 데이터를 노이즈 필터링하는 단계를 포함할 수 있다.

상기 저장하는 단계는 딥러닝 알고리즘에 기초하여, 상기 매칭된 음성 데이터 및 자막 데이터를 소리 별 또는 화자 별로 분리하여 저장하는 단계를 포함할 수 있다.

상기 저장하는 단계는 상기 디지털 컨텐츠의 메타 정보에 기초하여, 상기 매칭된 음성 데이터 및 자막 데이터를 분류하여 저장하는 단계를 포함할 수 있다.

상기 분류하여 저장하는 단계는 상기 매칭된 음성 데이터 및 자막 데이터를 날짜 별, 연령 별, 장소 별, 시간 별, 장르 별 또는 감정 별로 분류하여 저장하는 단계를 포함할 수 있다.

상기 디지털 컨텐츠는 텔레비전 방송 또는 라디오 방송을 포함하는 실시간 방송 컨텐츠, 녹화 방송, 스트리밍 방송 또는 오디오 북을 포함하는 녹화 컨텐츠를 포함할 수 있다.

일 실시예에 따른 데이터베이스 구축 시스템은 디지털 컨텐츠를 수신하고, 상기 디지털 컨텐츠에 포함된 음성 데이터 및 자막 데이터를 추출하고, 상기 자막 데이터에 포함된 적어도 하나의 프레임에 대응하는 제1 음소 시퀀스를 추정하고, 상기 음성 데이터에 포함된 적어도 하나의 프레임에 대응하는 제2 음소 시퀀스를 추정하고, 상기 음성 데이터에 포함된 적어도 하나의 프레임 중에서, 상기 제1 음소 시퀀스와 상기 제2 음소 시퀀스를 비교하여, 상기 음성 데이터를 상기 자막 데이터와 매칭하고, 상기 매칭된 음성 데이터 및 자막 데이터를 저장할 수 있다.

상기 프로세서는 문장 단위로 상기 자막 데이터를 추출하고, 상기 자막 데이터에 기초하여 상기 음성 데이터를 추출할 수 있다.

상기 프로세서는 상기 디지털 컨텐츠에 포함된 영상 데이터를 추출하고, 상기 영상 데이터를 상기 음성 데이터와 매칭할 수 있다.

상기 프로세서는 G2P(Grapheme-to-Phoneme) 알고리즘에 기초하여, 상기 자막 데이터에 대응하는 상기 제1 음소 시퀀스를 추정할 수 있다.

상기 프로세서는 음성 특징을 추출하고, 비터비 알고리즘에 기초하여, 상기 음성 특징에 대응하는 상기 제2 음소 시퀀스를 추정할 수 있다.

상기 프로세서는 상기 제1 음소 시퀀스와 상기 제2 음소 시퀀스 사이의 유사도가 미리 정해진 임계값 미만인 경우, 상기 음성 데이터를 노이즈 필터링할 수 있다.

상기 프로세서는 딥러닝 알고리즘에 기초하여, 상기 매칭된 음성 데이터 및 자막 데이터를 소리 별 또는 화자 별로 분리하여 저장할 수 있다.

상기 프로세서는 상기 디지털 컨텐츠의 메타 정보에 기초하여, 상기 매칭된 음성 데이터 및 자막 데이터를 분류하여 저장할 수 있다.

실시예들은 방송 및 다양한 디지털 컨텐츠로부터 영상 데이터, 음성 데이터 및 자막 데이터를 추출/활용하여 음성 데이터를 분리/결합/매칭 등을 통해 데이터베이스를 구축하고, 이를 음성인식, 음성합성, 음성변환 등과 같은 다양한 분야에서 활용할 수 있도록 제공할 수 있다.

실시예들은 화자 별, 문장 별, 소리 별, 프로그램 별, 장르 별, 날짜 별로 구축된 데이터베이스를 활용하여, 인기 방송 장면 혹은 사용자가 원하는 장면을 실시간으로 제공할 수 있다.

실시예들은 음성에서 자막에 대응하는 시작 위치와 끝 위치를 딥러닝을 이용한 비터비 알고리즘(Viterbi Algorithm)을 통해 검출할 수 있다.

도 1은 일 실시예에 따른 딥러닝을 이용한 디지털 컨텐츠 멀티미디어 데이터베이스 구축 시스템을 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 데이터베이스 구축 처리부의 동작을 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 매칭부의 동작을 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 스트리밍 방송에 기초하여 데이터베이스를 구축하는 실시예를 설명하기 위한 도면이다.
도 5는 일 실시예에 따른 데이터베이스 구축 방법을 설명하기 위한 순서도이다.

본 명세서에서 개시되어 있는 특정한 구조적 또는 기능적 설명들은 단지 기술적 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 실시예들은 다양한 다른 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.

제1 또는 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 이해되어야 한다. 예를 들어 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 "~간의에"와 "바로~간의에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

실시예들은 퍼스널 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 스마트 폰, 텔레비전, 스마트 가전 기기, 지능형 자동차, 키오스크, 웨어러블 장치 등 다양한 형태의 제품으로 구현될 수 있다. 이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

도 1은 일 실시예에 따른 딥러닝을 이용한 디지털 컨텐츠 멀티미디어 데이터베이스 구축 시스템을 설명하기 위한 도면이다.

도 1을 참조하면, 일 실시예에 따른 딥러닝을 이용한 디지털 컨텐츠 멀티미디어 데이터베이스 구축 시스템(이하, '데이터베이스 구축 시스템')은 디지털 컨텐츠 처리부(120), 데이터베이스 구축 처리부(130) 및 데이터베이스 저장부(140)를 포함할 수 있다. 도 1의 실시예에서 디지털 컨텐츠 처리부(120), 데이터베이스 구축 처리부(130) 및 데이터베이스 저장부(140)를 별도로 구성하여 도시한 것은 각 기능들을 구별하여 설명하기 위함이다. 따라서 실제로 제품을 구현하는 경우에 이들 모두를 적어도 하나의 프로세서에서 처리하도록 구성할 수도 있으며, 이들 중 일부만을 프로세서에서 처리하도록 구성할 수도 있다.

종래 음성 데이터베이스 구축 시스템은 성우 또는 특정 분야에 한정된 사람들이 녹음한 데이터를 기반으로 데이터베이스를 구축하였으나, 일 실시예에 따른 데이터베이스 구축 시스템은 다양한 디지털 컨텐츠(110)에서 사용되는 음성 데이터를 가공하여 데이터베이스를 구축하기 때문에 다양한 사람, 환경, 내용에 관한 음성 데이터베이스를 구축할 수 있고, 음성인식, 음성합성, 음성변환 등과 같은 다양한 분야에서 활용될 수 있다.

나아가, 일 실시예에 따른 데이터베이스 구축 시스템은 디지털 컨텐츠(110)에 포함된 영상 데이터, 음성 데이터 및 자막 데이터를 추출/활용하여 각 데이터들을 분리/결합/매칭 등을 통해 데이터베이스를 구축하기 때문에 멀티미디어 정보를 빠르게 검색할 수 있는 멀티미디어 정보 데이터베이스를 구축할 수 있다.

여기서, 디지털 컨텐츠(110)는, 예를 들면, 한정하는 것은 아니지만, 텔레비전 방송(위성 방송, IP TV, 무선 방송, 유선 방송, DMB 방송) 또는 라디오 방송(무선 방송, 인터넷 방송, DMB 방송) 등을 포함하는 실시간 방송 컨텐츠, 녹화 방송, 스트리밍 방송 및/또는 오디오 북 등을 포함하는 녹화 컨텐츠 등을 포함할 수 있다.

다만, 일 실시예에 따른 데이터베이스 구축 시스템은 미리 정해진 단위로 영상 데이터, 음성 데이터 및 자막 데이터 중 적어도 하나를 저장할 수 있다. 예를 들어, 사용자가 원하는 장면을 제공하기 위한 데이터베이스를 구축하는 경우에는 생각이나 감정을 말로 표현할 때 완결된 내용을 나타내는 최소 단위인 문장 단위로 영상 데이터, 음성 데이터 및 자막 데이터를 저장할 수 있다. 다만, 미리 정해진 단위로 각 데이터들을 저장하기 위해서는 각 데이터들 사이의 매칭이 선행되어야 할 수 있다. 데이터 매칭이란, 미리 정해진 단위로 분할된 각 데이터들에 있어서, 해당 단위에서 각 데이터들의 시작 지점과 종료 지점을 동기화 또는 정렬하는 것을 의미할 수 있다. 예를 들어, 데이터베이스 구축 시스템은 문장 단위로 영상 데이터, 음성 데이터 및 자막 데이터를 매칭하여 저장할 수 있다. 데이터베이스 구축 시스템은 딥러닝을 이용하여 데이터 매칭을 수행할 수 있다.

디지털 컨텐츠 처리부(120)는 다양한 종류의 디지털 컨텐츠(110)를 입수하고, 입수된 다양한 종류의 디지털 컨텐츠(110)로부터 음성 데이터 및 자막 데이터를 추출할 수 있다. 디지털 컨텐츠(110)는 음성 데이터를 포함하고, 음성 데이터에 대응하는 자막 데이터를 포함할 수 있다. 실시예에 따라, 디지털 컨텐츠(110)는 음성 데이터에 대응하는 영상 데이터를 더 포함할 수 있다.

데이터베이스 구축 처리부(130)는 디지털 컨텐츠(110)에서 추출된 영상 데이터, 음성 데이터 및 자막 데이터 매칭을 수행할 수 있다. 나아가, 데이터베이스 구축 처리부(130)는 매칭된 데이터를 분리할 수 있다. 예를 들어, 데이터베이스 구축 처리부(130)는 딥러닝을 이용하여 자막 데이터와 매칭된 음성 데이터를 소리(예를 들어, 박수 소리, 울음 소리 등)별로, 또는 화자 별로 분리할 수 있다.

데이터베이스 저장부(140)는 매칭된 데이터를 전달받아 저장할 수 있다. 일례로, 데이터베이스 저장부(140)는 데이터베이스 구축 처리부(130)를 통해 소리 별, 화자 별로 분리된 데이터를 전달받아 저장할 수 있다. 나아가, 데이터베이스 저장부(140)는 디지털 컨텐츠의 메타 정보에 기초하여, 매칭된 데이터를 분류하여 저장할 수 있다. 디지털 컨텐츠의 메타 정보는 방송 편성 정보, 시청 가능 연령, 배경 장소, 창작 시간, 장르, 창작자, 창작 회사 등을 포함할 수 있다. 예를 들어, 데이터베이스 저장부(140)는 디지털 컨텐츠의 메타 정보에 기초하여, 매칭된 데이터를 날짜 별, 연령 별, 장소 별, 시간 별, 장르 별, 감정 별로 분류하여 저장할 수 있다.

나아가, 데이터베이스 구축 시스템은 구축된 영상 데이터, 음성 데이터 및 자막 데이터가 다양한 서비스에 활용될 수 있도록 제공하는 서비스 제공부(미도시)를 더 포함할 수 있다. 예를 들어, 서비스 제공부는 내부 또는 외부로부터 음성 데이터의 확인 요청이 있는 경우, 구축된 데이터베이스로부터 해당 음성 데이터 및 자막 데이터를 제공할 수 있다. 또는, 서비스 제공부는 내부 또는 외부로부터 멀티미디어 검색 요청이 있는 경우, 구축된 데이터베이스로부터 멀티미디어 컨텐츠에 대한 검색 서비스를 제공할 수 있다.

데이터베이스 구축 시스템은 자동적으로 구축 및 업그레이드가 이루어질 수 있다. 이를 통해 데이터베이스 구축 시스템은 다양한 상황 별 데이터베이스를 구축할 수 있다. 아래에서, 도 2 내지 도 3을 참조하여 데이터베이스 구축 처리부(130)의 동작을, 도 4를 참조하여 스트리밍 방송에 기초하여 데이터베이스를 구축하는 실시예를, 도 5를 참조하여 데이터베이스 구축 방법을 상세히 설명한다.

도 2는 일 실시예에 따른 데이터베이스 구축 시스템의 동작을 설명하기 위한 도면이다.

도 2를 참조하면, 일 실시예에 따른 디지털 컨텐츠(210), 디지털 컨텐츠 처리부(220), 데이터베이스 구축 처리부(230) 및 데이터베이스 저장부(240)는 각각 도 1을 참조하여 설명한 디지털 컨텐츠(110), 디지털 컨텐츠 처리부(120), 데이터베이스 구축 처리부(130) 및 데이터베이스 저장부(140)의 일 실시예일 수 있다.

일 실시예에 따른 디지털 컨텐츠 처리부(220)는 다양한 종류의 디지털 컨텐츠(210)를 입수하고, 입수된 다양한 종류의 디지털 컨텐츠(210)로부터 음성 데이터(223) 및 자막 데이터(222)를 추출할 수 있다.

데이터베이스 구축 처리부(230)는 매칭부(231) 및 분리부(232)를 포함할 수 있다. 매칭부(231)는 디지털 컨텐츠 처리부(220)에서 추출된 음성 데이터 및 자막 데이터의 동기를 맞출 수 있다. 아래에서 상세히 설명하겠지만, 음성 데이터와 자막 데이터를 미리 정해진 단위로 추출하는 과정에서 각 데이터들 사이의 동기가 어긋날 수 있다. 이를 교정하기 위해 매칭부(231)는 음성 데이터와 자막 데이터를 매칭하여 동기를 맞출 수 있다.

실시예에 따라, 디지털 컨텐츠 처리부(220)는 디지털 컨텐츠(210)로부터 영상 데이터(221)를 더 추출할 수 있다. 매칭부(231)는 음성 데이터를 이용하여, 영상 데이터를 음성 데이터와 매칭할 수 있다.

분리부(232)는 딥러닝을 이용하여 자막 데이터와 매칭된 음성 데이터를 소리(예를 들어, 박수 소리, 울음 소리 등)별로, 또는 화자 별로 분리할 수 있다.

데이터베이스 저장부(240)는 매칭된 데이터를 전달받아 저장할 수 있다. 데이터베이스 저장부(240)는 데이터베이스 구축 처리부(230)를 통해 소리 별, 화자 별로 분리된 데이터를 전달받아 저장할 수 있다. 나아가, 데이터베이스 저장부(240)는 디지털 컨텐츠의 메타 정보에 기초하여, 매칭된 데이터를 분류하여 저장할 수 있다.

보다 구체적으로, 디지털 컨텐츠 처리부(220)는 문장 단위로 자막 데이터(222)를 추출할 수 있고, 각 문장의 자막 데이터(222)의 시작 시간 정보와 종료 시간 정보도 함께 추출할 수 있다. 일례로, 디지털 컨텐츠 처리부(220)는 문장 단위로 자막 데이터(222)를 추출할 때, 각 문장의 시작과 종료에 대응하는 타임 스탬프 정보를 함께 획득할 수 있다.

타임 스탬프 정보는 자막 데이터(222)를 생성할 때 같이 생성될 수 있으며, 통상적으로 자막 데이터(222) 및 타임 스탬프 정보는 사람(예를 들어, 자막 데이터를 생성하는 속기사)이 직접 생성할 수 있다. 따라서, 타임 스탬프 정보는 오차가 존재할 가능성이 높으며, 타임 스탬프 정보에 대응하여 음성 데이터(223)를 추출하는 경우에는 자막 데이터(222)와 음성 데이터(223) 사이의 동기(Synchronization)가 맞지 않을 수 있다. 예를 들어, 자막 데이터(222) 및 그에 대응하는 타임 스탬프가 "(0초)안녕하세요(1초)반갑습니다(2초)오늘의 날씨입니다(3.5초)"일 때, 1초 및 2초 타임 스탬프에 기초하여 추출된 음성 데이터는 "요/반갑습니"일 수 있다. 이하에서, 설명의 편의를 위하여 위 예시를 기준으로 설명한다.

위 예시와 같이 추출된 음성 데이터는 온전한 한 문장을 포함하지 못할 수 있다. 이러한 경우 자막 데이터(222)와 음성 데이터(223) 사이의 동기를 맞추는게 불가능할 수 있다. 따라서, 음성 데이터(223)가 적어도 한 문장을 포함할 수 있도록 전처리 과정이 필요할 수 있다.

일 실시예에 따른 전처리 과정으로, 디지털 컨텐츠 처리부(220)는 문장 단위로 추출된 자막 데이터(222)에 기초하여 음성 데이터(223)가 적어도 한 문장을 포함할 수 있도록 음성 데이터를 추출할 수 있다. 디지털 컨텐츠 처리부(220)는 자막 데이터(222)에 포함된 시간 정보에 기초하여 음성 데이터(223)를 추출할 수 있다. 일례로, 디지털 컨텐츠 처리부(220)는 각 문장의 시작과 종료에 대응하는 시간의 앞 뒤로 미리 정해진 시간 만큼을 부가하고, 이 시간에 대응되는 음성 데이터를 추출할 수 있다. 예를 들어, 디지털 컨텐츠 처리부(220)는 각 문장의 시작과 종료에 대응하는 시간의 앞 뒤로 0.2초 만큼을 부가하고, 이 시간에 대응되는 음성 데이터(223) "세요/반갑습니다/오늘" 를 추출할 수 있다.

매칭부(231)는 디지털 컨텐츠 처리부(220)에서 추출한 자막 데이터(222) "반갑습니다"와 음성 데이터(223) "세요/반갑습니다/오늘" 사이의 매칭을 수행할 수 있다. 이하에서, 도 3을 참조하여 매칭부(231)의 동작을 상세히 설명한다.

도 3은 일 실시예에 따른 매칭부의 동작을 설명하기 위한 도면이다.

도 1 내지 도 2의 설명은 도 3에도 적용 가능할 수 있다. 일 실시예에 따른 영상 데이터(311), 자막 데이터(312) 및 음성 데이터(313)는 각각 도 2를 참조하여 설명한 영상 데이터(211), 자막 데이터(212) 및 음성 데이터(213)의 일 실시예일 수 있다. 또한, 도 2를 참조하여 설명된 매칭부(231)는 도 3의 제1 음소 추출부(320), 제2 음소 추출부(330), 노이즈 필터링부(340), 판단부(350) 및 영상 데이터 매칭부(360)를 포함할 수 있다. 아래에서, 제1 음소 추출부(320)는 G2P 기반 음소 추출부로 지칭될 수 있고, 제2 음소 추출부는 비터비 기반 음소 추출부로 지칭될 수 있다.

도 3을 참조하면, 일 실시예에 따른 자막 데이터(312)는 G2P 기반 음소 추출부(320)에 입력되고, 음성 데이터(313)은 비터비 기반 음소 추출부(330)에 입력될 수 있다.

G2P 기반 음소 추출부(320), 비터비 기반 음소 추출부(330)는 자막 데이터(312)와 음성 데이터(313)를 특징 벡터(feature vector) 형태로 변환할 수 있다.

G2P 기반 음소 추출부(320), 비터비 기반 음소 추출부(330)는 딥러닝 기반 모델일 수 있다. 딥러닝 기반 모델에서, 처리 대상이 되는 데이터는 특징으로 표현되고, 특징은 차원을 가진 벡터로 표현될 수 있다. 이러한 벡터를 특징 벡터라고 할 수 있다.

디지털 컨텐츠 처리부(220) 또는 데이터베이스 구축 처리부(230)는 시간에 따른 자막 데이터(222) 및 음성 데이터(223)를 프레임에 따른 자막 데이터 특징 벡터 및 음성 데이터 특징 벡터로 변환할 수 있다.

이하에서, G2P 기반 음소 추출부(320) 및 비터비 기반 음소 추출부(330)에 입력되는 자막 데이터(312) 및 음성 데이터(313)는 자막 데이터 특징 벡터 및 음성 데이터 특징 벡터를 포함하는 것으로 해석될 수 있다.

일 실시예에 따른 G2P 기반 음소 추출부(320)는 자막 데이터에 대해 G2P(Grapheme-to-Phoneme) 알고리즘을 통해 시간 정보가 없는 음소 시퀀스를 생성하고, 렉시컬 트리(lexical tree)를 생성할 수 있다. 비터비 기반 음소 추출부(330)는 해당 음성의 특징 벡터를 추출하고, 생성된 렉시컬 트리 기반으로, 비터비 알고리즘에 기초하여 최적 음소 시퀀스와 누적 우도 스코어(likelihood)를 추정할 수 있다. 판단부(350)는 최적 음소 시퀀스를 이용하여 문장의 정확한 시간 정보(예를 들어, 시작 시간 정보 및 종료 시간 정보)를 얻을 수 있다. 또한, 노이즈 필터링부(340)는 누적 우도 스코어 값이 미리 정해진 임계값 미만인 경우, 해당 음성 데이터를 노이즈 필터링할 수 있다.

보다 구체적으로, G2P 기반 음소 추출부(320)는 자막 데이터에 포함된 적어도 하나의 프레임에 대응하는 제1 음소 시퀀스를 추정할 수 있다. 음소는 단어의 의미를 구별 짓는 최소의 소리 단위일 수 있고, 음소 시퀀스는 음소들의 배열일 수 있다. G2P 기반 음소 추출부(320)는 문자열을 발음 나는 문자열로 변환하는 동작을 수행할 수 있다. 예를 들어, G2P 기반 음소 추출부(320)는 "무슨 일이 있어야 할까"라는 문자열을 "무슨 이리 이써야 할까" 문자열로 변환할 수 있다.

G2P 기반 음소 추출부(320)는 딥러닝 기반 신경망 모델일 수 있다. G2P 기반 음소 추출부(320)는 예측된 문자열과 결정된 문자열의 차이가 최소화되도록, 신경망의 파라미터들을 학습시킬 수 있다. 인공 신경망 내 레이어들의 노드들은 비선형적으로 서로 영향을 주는 관계일 수 있으며, 각 노드들로부터 출력되는 값들, 노드들 사이의 관계들 등 인공 신경망의 파라미터들은 학습에 의해 최적화될 수 있다.

일 실시예에 따르면, 문자열에 대한 신경망을 학습시키는 동작은 별도의 서버 장치에서 수행될 수 있다. 서버 장치는 미리 구비된 학습 데이터를 이용하거나, 적어도 하나의 사용자로부터 수집된 학습 데이터를 이용할 수 있다. 또는, 서버 장치는 시뮬레이션에 의하여 생성된 학습 데이터를 이용할 수도 있다.

비터비 기반 음소 추출부(330)는 음성 데이터(313)에 포함된 적어도 하나의 프레임에 대응하는 제2 음소 시퀀스를 추정할 수 있다. 비터비 기반 음소 추출부(330)는 비터비 알고리즘에 기초하여 동작할 수 있다. 비터비 알고리즘은 은닉 마르코프 모델(HMM: Hidden Markov Model) 등에서 관측된 사건들의 순서를 야기한 가장 가능성 높은 은닉 상태들의 순서를 찾기 위한 동적 계획법 알고리즘일 수 있다.

비터비 기반 음소 추출부(330)는 프레임에 따른 음성 데이터 특징 벡터를 입력 받아 각 프레임 별로 해당 프레임에 대응하는 음소 시퀀스를 추정할 수 있다. 구체적으로, 비터비 기반 음소 추출부(330)는 수직 차원이 HMM 상태를 나타내고 수평 차원이 스피치의 프레임(예컨대, 10ms)을 나타내는 매트릭스(matrix)를 통한 최적 경로를 결정할 수 있다. HMM 상태들의 최적 시퀀스가 결정될 때, 각 프레임에 대응하는 음소들의 최적 시퀀스가 이용 가능할 수 있다.

매칭부(231)는 판단부(350)를 더 포함할 수 있다. 판단부(350)는 G2P 기반 음소 추출부(320)로부터 자막 데이터(312)에 포함된 적어도 하나의 프레임에 대응하는 제1 음소 시퀀스를 수신할 수 있다. 또한 판단부(350)는 비터비 기반 음소 추출부(330)로부터 음성 데이터(313)에 포함된 적어도 하나의 프레임에 대응하는 제2 음소 시퀀스를 수신할 수 있다. 나아가, 판단부(350)는 제1 음소 시퀀스와 가장 유사한 제2 음소 시퀀스에 대응하는 프레임에 기초하여 음성 데이터를 자막 데이터와 매칭할 수 있다. 예를 들어, 판단부(350)는 제1음소 시퀀스 "반갑슴니다"와 제2 음소 시퀀스 "세요/반갑슴니다/오늘"를 수신할 수 있다. 나아가, 판단부(350)는 제1 음소 시퀀스와 제2 음소 시퀀스 사이의 유사도 판단을 통해 음성 데이터(310)에서 문장의 시작 위치와 끝 위치를 정확히 추출할 수 있다. 예를 들어, 판단부(350)는 제1 음소 시퀀스 "반갑슴니다"와 제2 음소 시퀀스 "세요/반갑슴니다/오늘" 사이의 유사도 판단을 통해 두 시퀀스의 유사도가 임계치 이상으로 판단되는 시퀀스인 "반갑슴니다"를 하나의 문장으로 판단할 수 있고, 이를 통해 문장의 시작 위치와 끝 위치를 정확히 추출할 수 있다.

제1 음소 시퀀스와 제2 음소 시퀀스 사이의 유사도가 미리 정해진 임계값 미만인 경우, 음성 데이터(313)는 노이즈 필터링부(340)에 입력될 수 있다. 노이즈 필터링부(340)는 음성 데이터(313)에 포함된 노이즈를 제거하고, 노이즈가 제거된 음성 데이터를 비터비 기반 음소 추출부(330)에 재입력할 수 있다. 노이즈 필터링부(340)는 딥러닝 기반 음원 분리 알고리즘을 사용하여 음성 데이터(313)에서, 타겟하는 음성과 노이즈를 분리할 수 있다.

영상 데이터 매칭부(360)는 판단부(350)에서 추출한 음성 데이터(310)에 대응하는 영상 데이터를 매칭할 수 있다. 예를 들어, 영상 데이터 매칭부(360)는 음성 데이터(310)의 문장의 시작 위치와 끝 위치에 기초하여 해당 구간에 대응하는 영상 데이터를 매칭할 수 있다.

도 4는 일 실시예에 따른 스트리밍 방송에 기초하여 데이터베이스를 구축하는 실시예를 설명하기 위한 도면이다.

도 4를 참조하면, 일 실시예에 따른 데이터베이스 구축 시스템은 디지털 컨텐츠 처리부(410), 데이터베이스 구축 처리부(420) 및 데이터베이스 저장부(430)를 포함할 수 있다. 일 실시예에 따른 데이터베이스 구축 시스템은 스트리밍 방송에 기초하여 데이터베이스를 구축할 수 있다. 도 1 내지 도 2의 설명은 도 4에도 적용 가능할 수 있고, 중복되는 내용의 설명은 생략할 수 있다.

디지털 컨텐츠 처리부(410)는 스트리밍 방송을 수신하여, 스트리밍 연결(411), 및 스트리밍 분리(412)를 수행할 수 있다. 나아가, 디지털 컨텐츠 처리부(410)는 영상 추출부(413), 음성 추출부(414) 및 자막 추출부(415)를 통해 영상 데이터, 음성 데이터 및 자막 데이터를 추출할 수 있다.

데이터베이스 구축 처리부(420)는 데이터 매칭부(421), 노이즈 필터링부(340) 및 영상 데이터 매칭부(423), 소리 분리부(424) 및 화자 분리부(425)를 포함할 수 있다. 소리 분리부(424) 및 화자 분리부(425)는 딥러닝 알고리즘에 기초하여, 매칭된 음성 데이터 및 자막 데이터를 소리 별 및 화자 별로 분리할 수 있다. 예를 들어, 소리 분리부(424)는 매칭된 데이터에서 박수 소리, 울음 소리 등을 분리할 수 있다. 또한, 화자 분리부(425)는 매칭된 데이터에 복수의 화자가 존재하는 경우, 화자 별로 데이터를 분리할 수 있다.

데이터베이스 저장부(430)는 멀티미디어 데이터베이스(431)에 매칭된 데이터를 전달받아 저장할 수 있다. 데이터베이스 저장부(430)는 소리 분리부(424) 및 화자 분리부(425)를 통해 소리 별, 화자 별로 분리된 데이터를 전달받아 저장할 수 있다. 나아가, 데이터베이스 저장부(430)는 디지털 컨텐츠의 메타 정보에 기초하여, 매칭된 데이터를 분류하여 저장할 수 있다. 디지털 컨텐츠의 메타 정보는 방송 편성 정보(432), 시청 가능 연령, 배경 장소, 창작 시간, 장르, 창작자, 창작 회사 등을 포함할 수 있다. 예를 들어, 데이터베이스 저장부(140)는 방송 편성 정보(432)에 기초하여, 매칭된 데이터를 문장 별, 프로그램 별, 날짜 별, 연령 별, 장소 별, 시간 별, 장르 별, 감정 별로 분류하여 저장할 수 있다.

도 5는 일 실시예에 따른 데이터베이스 구축 방법을 설명하기 위한 순서도이다.

도 5를 참조하면, 일 실시예에 따른 단계들(510 내지 550)은 도 1 내지 도 4를 참조하여 설명한 데이터베이스 구축 시스템에 의해 수행될 수 있다.

단계(510)에서, 데이터베이스 구축 시스템은 디지털 컨텐츠를 수신한다.

단계(520)에서, 데이터베이스 구축 시스템은 디지털 컨텐츠에 포함된 음성 데이터 및 자막 데이터를 추출한다. 데이터베이스 구축 시스템은 문장 단위로 자막 데이터를 추출하고, 자막 데이터에 기초하여 음성 데이터를 추출할 수 있다.

단계(530)에서, 데이터베이스 구축 시스템은 비터비 알고리즘에 기초하여, 음성 데이터를 자막 데이터와 매칭한다.

데이터베이스 구축 시스템은 자막 데이터에 포함된 적어도 하나의 프레임에 대응하는 제1 음소 시퀀스를 추정하고, 음성 데이터에 포함된 적어도 하나의 프레임에 대응하는 제2 음소 시퀀스를 추정하고, 음성 데이터에 포함된 적어도 하나의 프레임 중에서, 제1 음소 시퀀스와 제2 음소 시퀀스를 비교하여, 음성 데이터를 자막 데이터와 매칭할 수 있다. 데이터베이스 구축 시스템은 1 음소 시퀀스와 제2 음소 시퀀스 사이의 유사도가 미리 정해진 임계값 미만인 경우, 음성 데이터를 노이즈 필터링할 수 있다.

단계(540)에서, 데이터베이스 구축 시스템은 매칭된 음성 데이터 및 자막 데이터를 저장한다. 데이터베이스 구축 시스템은 딥러닝 알고리즘에 기초하여, 매칭된 음성 데이터 및 자막 데이터를 소리 별 또는 화자 별로 분리하여 저장할 수 있다. 데이터베이스 구축 시스템은 디지털 컨텐츠의 메타 정보에 기초하여, 매칭된 음성 데이터 및 자막 데이터를 분류하여 저장할 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

디지털 컨텐츠를 수신하는 단계;
상기 디지털 컨텐츠에 포함된 음성 데이터 및 자막 데이터를 추출하는 단계;
상기 자막 데이터에 포함된 적어도 하나의 프레임에 대응하는 제1 음소 시퀀스를 추정하는 단계;
상기 음성 데이터에 포함된 적어도 하나의 프레임에 대응하는 제2 음소 시퀀스를 추정하는 단계;
상기 음성 데이터에 포함된 적어도 하나의 프레임 중에서, 상기 제1 음소 시퀀스와 상기 제2 음소 시퀀스를 비교하여, 상기 음성 데이터를 상기 자막 데이터와 매칭하는 단계; 및
상기 매칭된 음성 데이터 및 자막 데이터를 저장하는 단계
를 포함하고,
상기 추출하는 단계는
미리 정해진 단위에 따라 상기 자막 데이터를 추출하는 단계; 및
상기 추출된 자막 데이터에 포함된 시간 정보에 기초하여 상기 음성 데이터를 추출하는 단계
를 포함하고,
상기 단계들은 적어도 하나의 프로세서에 의해서 수행되는 데이터베이스 구축 방법.
삭제
제1항에 있어서,
상기 디지털 컨텐츠에 포함된 영상 데이터를 추출하는 단계; 및
상기 영상 데이터를 상기 음성 데이터와 매칭하는 단계
를 더 포함하는, 데이터베이스 구축 방법.
제1항에 있어서,
상기 제1 음소 시퀀스를 추정하는 단계는
G2P(Grapheme-to-Phoneme) 알고리즘에 기초하여, 상기 자막 데이터에 대응하는 상기 제1 음소 시퀀스를 추정하는 단계
를 포함하는, 데이터베이스 구축 방법.
제1항에 있어서,
상기 제2 음소 시퀀스를 추정하는 단계는
음성 특징을 추출하는 단계; 및
비터비 알고리즘에 기초하여, 상기 음성 특징에 대응하는 상기 제2 음소 시퀀스를 추정하는 단계
를 포함하는, 데이터베이스 구축 방법.
제1항에 있어서,
상기 매칭하는 단계는
상기 제1 음소 시퀀스와 상기 제2 음소 시퀀스 사이의 유사도가 미리 정해진 임계값 미만인 경우, 상기 음성 데이터를 노이즈 필터링하는 단계
를 포함하는, 데이터베이스 구축 방법.
제1항에 있어서,
상기 저장하는 단계는
딥러닝 알고리즘에 기초하여, 상기 매칭된 음성 데이터 및 자막 데이터를 소리 별 또는 화자 별로 분리하여 저장하는 단계
를 포함하는, 데이터베이스 구축 방법.
제1항에 있어서,
상기 저장하는 단계는
상기 디지털 컨텐츠의 메타 정보에 기초하여, 상기 매칭된 음성 데이터 및 자막 데이터를 분류하여 저장하는 단계
를 포함하는, 데이터베이스 구축 방법.
제8항에 있어서,
상기 분류하여 저장하는 단계는
상기 매칭된 음성 데이터 및 자막 데이터를 날짜 별, 연령 별, 장소 별, 시간 별, 장르 별 또는 감정 별로 분류하여 저장하는 단계
를 포함하는, 데이터베이스 구축 방법.
제 1 항에 있어서,
상기 디지털 컨텐츠는
텔레비전 방송 또는 라디오 방송을 포함하는 실시간 방송 컨텐츠, 녹화 방송, 스트리밍 방송 또는 오디오 북을 포함하는 녹화 컨텐츠를 포함하는, 데이터베이스 구축 방법.
하드웨어와 결합되어 제1항 및 제3항 내지 제10항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
디지털 컨텐츠를 수신하고, 상기 디지털 컨텐츠에 포함된 음성 데이터 및 자막 데이터를 추출하고, 상기 자막 데이터에 포함된 적어도 하나의 프레임에 대응하는 제1 음소 시퀀스를 추정하고, 상기 음성 데이터에 포함된 적어도 하나의 프레임에 대응하는 제2 음소 시퀀스를 추정하고, 상기 음성 데이터에 포함된 적어도 하나의 프레임 중에서, 상기 제1 음소 시퀀스와 상기 제2 음소 시퀀스를 비교하여, 상기 음성 데이터를 상기 자막 데이터와 매칭하고, 상기 매칭된 음성 데이터 및 자막 데이터를 저장하는 프로세서
를 포함하고,
상기 프로세서는
미리 정해진 단위에 따라 상기 자막 데이터를 추출하고, 상기 추출된 자막 데이터에 포함된 시간 정보에 기초하여 상기 음성 데이터를 추출하는 데이터베이스 구축 시스템.
삭제
제12항에 있어서,
상기 프로세서는
상기 디지털 컨텐츠에 포함된 영상 데이터를 추출하고, 상기 영상 데이터를 상기 음성 데이터와 매칭하는, 데이터베이스 구축 시스템.
제12항에 있어서,
상기 프로세서는
G2P(Grapheme-to-Phoneme) 알고리즘에 기초하여, 상기 자막 데이터에 대응하는 상기 제1 음소 시퀀스를 추정하는, 데이터베이스 구축 시스템.
제12항에 있어서,
상기 프로세서는
음성 특징을 추출하고, 비터비 알고리즘에 기초하여, 상기 음성 특징에 대응하는 상기 제2 음소 시퀀스를 추정하는, 데이터베이스 구축 시스템.
제12항에 있어서,
상기 프로세서는
상기 제1 음소 시퀀스와 상기 제2 음소 시퀀스 사이의 유사도가 미리 정해진 임계값 미만인 경우, 상기 음성 데이터를 노이즈 필터링하는, 데이터베이스 구축 시스템.
제12항에 있어서,
상기 프로세서는
딥러닝 알고리즘에 기초하여, 상기 매칭된 음성 데이터 및 자막 데이터를 소리 별 또는 화자 별로 분리하여 저장하는, 데이터베이스 구축 시스템.
제12항에 있어서,
상기 프로세서는
상기 디지털 컨텐츠의 메타 정보에 기초하여, 상기 매칭된 음성 데이터 및 자막 데이터를 분류하여 저장하는, 데이터베이스 구축 시스템.