WO2020045753A1

WO2020045753A1 - 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템 및 방법

Info

Publication number: WO2020045753A1
Application number: PCT/KR2018/015579
Authority: WO
Inventors: 오유철
Original assignee: 주식회사 산타
Priority date: 2017-10-11
Filing date: 2018-12-07
Publication date: 2020-03-05
Also published as: KR20190040891A; KR102143755B1

Abstract

본 발명은 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템에 관한 것으로서, 하나의 시스템 안에서 음성인식 및 번역 서비스를 통합화하여 구현할 수 있게 한 것이다. 이를 위해 본 발명은 클라우드 저장소에 보관중인 영상 콘텐츠로부터 음성파일을 추출하고, 상기 음성파일을 음성인식을 위한 복수의 음성파일로 분할하는 음성 전처리부; 상기 분할된 복수의 음성파일을 음성인식서버로 전송하고, 상기 음성인식서버로부터 상기 복수의 음성파일에 대응하는 복수의 텍스트 및 신뢰값을 수신하여 스토리지에 저장하는 음성텍스트변환부; 및 상기 복수의 음성 파일에 대응하는 복수의 텍스트에 대한 정정을 수행하는 검수부를 포함하는, 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템을 제공한다.

Description

클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템 및 방법

본 발명은 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템에 관한 것이다. 보다 상세하게는 추출된 음성정보를 클라우드 서비스를 통해 텍스트로 변환하고, 변환된 텍스트를 클라우드 서비스를 통해 목적언어로 변환함으로써 하나의 시스템 안에서 음성인식 및 번역 서비스를 통합화하여 구현할 수 있도록 함으로써 다국어로 제작된 영상 콘텐츠를 보다 손쉽게 목적언어로 번역하여 영상 콘텐츠에 자막화할 수 있도록 하고, 클라우드 서비스를 이용한 음성 인식 및 기계 번역의 오류를 검수부에 의해 검수과정을 거쳐 보다 높은 품질의 번역된 영상 콘텐츠를 제공할 수 있도록 하는 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템에 관한 것이다.

최근 들어 온라인을 통한 교육 시장이 성장함에 따라 외국의 좋은 콘텐츠를 들여와 국내에 유통하거나, 국내의 교육 콘텐츠를 외국으로 유통시키는 경우가 증가하고 있다. 현재, 온라인 교육 업체에서 보유한 강의 중 일부는 우리말로 번역되어 화면 및 음성신호와 동기화된 자막을 출력하여 제공하고 있다.

그러나, 디지털 영상 콘텐츠를 접하는 일반 수요자들은 외국어로 제작된 영상 콘텐츠에 익숙하지 않은 경우가 대다수이므로, 이들의 경우, 외국어로 제작된 영상 콘텐츠에 친숙하지 않다는 단점이 있다.

또한, 디지털 영상 콘텐츠 공급자는 자신이 제작한 영상을 해외에 수출할 경우 수출하고자 하는 국가로 번역을 해야 하는 데, 번역에 소요되는 비용과 시간 상의 문제로 수출장벽에 어려움을 겪고 있다.

최근 들어, 클라우드 음성 인식 서비스, 클라우드 번역 서비스 등이 도입됨에 따라 상술한 문제점을 해결할 수 있는 기능이 제안되고 있다.

그러나, 클라우드 자체 서비스는 현재 음성 인식이나 번역 품질에 있어서, 영상 콘텐츠의 수요자 및 공급자의 기대에 미치지 못하여 이용 상에 불편함을 초래하고 있다.

선행기술문헌 : KR 공개특허공보 제2015-0057591호(2015.05.28.공개)

본 발명은 상기와 같은 문제점을 해결하기 위해 안출된 것으로, 특히 영상콘텐츠로부터 출력되는 음성정보를 인식하고 이를 다국어로 번역화하는 서비스를 하나의 시스템으로 통합화하여 보다 용이하게 다국어로 자막화하여 생산할 수 있도록 하고, 음성 인식 및 기계 번역의 오류를 최소화하여 보다 높은 품질의 영상 콘텐츠를 제공할 수 있도록 하는 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템을 제공하는 데 그 목적이 있다.

본 발명의 일 실시예에 따른 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템은 클라우드 저장소에 보관중인 영상 콘텐츠로부터 음성파일을 추출하고, 상기 음성파일을 음성인식을 위한 복수의 음성파일로 분할하는 음성 전처리부; 상기 분할된 복수의 음성파일을 음성인식서버로 전송하고, 상기 음성인식서버로부터 상기 복수의 음성파일에 대응하는 복수의 텍스트 및 신뢰값을 수신하여 스토리지에 저장하는 음성텍스트변환부 및 상기 복수의 음성 파일에 대응하는 복수의 텍스트에 대한 정정을 수행하는 검수부를 포함한다.

본 발명의 다양한 실시예에 따르면, 상기 음성 전처리부는 상기 음성파일에서 음성이 없는 구간을 분석하여, 상기 음성이 없는 구간마다 분할하되, 분할된 음성파일이 미리 결정된 최소길이보다 길도록 상기 음성파일을 분할할 수 있다.

본 발명의 다양한 실시예에 따르면, 상기 음성 전처리부는 상기 음성파일에서 스펙트럼의 변화량을 측정하여, 음성의 안정화 구간을 정하고, 상기 음성의 안정화 구간에 기초하여 문장 단위마다 분할하되, 분할된 음성파일이 미리 결정된 최소길이보다 길도록 상기 음성파일을 분할할 수 있다.

본 발명의 다양한 실시예에 따르면, 상기 음성 전처리부는 종결 어미를 추출하여 추출된 종결어미를 기 저장된 종결어미가 집합된 데이터베이스로부터 추출된 종결어미와의 일치성 여부를 판단하여 문장 단위로 상기 음성파일을 분할할 수 있다.

본 발명의 다양한 실시예에 따르면, 상기 검수부는 상기 복수의 텍스트를 상기 영상 콘텐츠와 함께 출력하고, 사용자로부터 상기 복수의 텍스트 중 적어도 하나의 텍스트에 대한 수정 입력을 수신하고, 상기 수정 입력에 따라 상기 텍스트를 수정하여 검수완료된 텍스트를 생성하는 자막검수부를 포함할 수 있다.

본 발명의 다양한 실시예에 따르면, 상기 자막검수부는 상기 음성텍스트변환부에서 수신한 신뢰값을 기초로 자막처리된 텍스트의 정확성을 판단하고, 상기 자막처리된 텍스트의 정확성이 미리 결정된 수준 이하인 경우, 상기 자막에 대한 수정 입력을 사용자에게 요청할 수 있다.

본 발명의 다양한 실시예에 따른 시스템은 검수완료된 텍스트와 번역할 목적언어를 번역 서버로 전송하여 번역을 요청하고, 상기 요청에 따라 목적언어로 변환된 번역텍스트를 수신하여 스토리지에 저장하는 번역부를 더 포함할 수 있다.

본 발명의 다양한 실시예에 따르면, 상기 검수부는 음성인식서버에 의해 음성정보를 텍스트화한 원어텍스트와 번역서버에 의해 목적언어로 번역된 번역텍스트를 검수하는 번역검수부를 더 포함하고, 상기 번역검수부는 상기 번역텍스트를 상기 원어텍스트 및 상기 영상 콘텐츠와 함께 출력하고, 사용자로부터 상기 번역텍스트에 대한 수정 입력을 받고, 상기 수정 입력에 따라 상기 번역텍스트를 수정할 수 있다.

본 발명의 일 실시예에 따른 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 방법은 클라우드 저장소에 보관중인 영상 콘텐츠로부터 음성파일을 추출하고, 상기 음성파일을 음성인식에 유리하도록 복수의 음성파일로 분할하는 단계; 상기 분할된 복수의 음성파일을 음성인식서버로 전송하고, 상기 음성인식서버로부터 상기 복수의 음성파일에 대응하는 복수의 텍스트 및 신뢰값을 수신하는 단계; 상기 복수의 텍스트를 검수하여 검수완료된 텍스트를 생성하는 단계; 및 상기 검수완료된 텍스트 및 목적언어정보를 번역 서버로 전송하여 번역을 요청하는 단계; 상기 번역서버로부터 목적언어로 변환된 번역 텍스트를 수신하여 스토리지에 저장하는 단계를 포함한다.

본 발명의 다양한 실시예에 따르면, 상기 검수완료된 텍스트를 생성하는 단계는, 상기 텍스트를 상기 영상 콘텐츠와 함께 출력하는 단계; 사용자로부터 상기 텍스트에 대한 수정 입력을 수신하는 단계; 상기 수정 입력에 따라 상기 텍스트를 수정하여 검수완료된 텍스트를 생성하는 단계를 포함할 수 있다.

본 발명의 다양한 실시예에 따르면, 상기 검수완료된 텍스트를 생성하는 단계는, 상기 신뢰값을 기초로 자막처리된 텍스트의 정확성을 판단하고, 상기 자막처리된 텍스트의 정확성이 미리 결정된 수준 이하인 경우, 상기 자막에 대한 수정 입력을 사용자에게 요청하는 단계; 상기 사용자로부터 상기 텍스트에 대한 수정 입력을 수신하는 단계; 상기 수정 입력에 따라 상기 텍스트를 수정하여 검수완료된 텍스트를 생성하는 단계를 포함할 수 있다.

본 발명에 의하면 강의영상으로부터 추출된 음성정보를 클라우드 음성인식 서비스를 통해 텍스트로 변환하고, 변환된 텍스트를 클라우드 번역 서비스를 통해 목적언어로 변환함으로써 하나의 시스템 안에서 음성인식 및 번역 서비스를 통합화하여 구현할 수 있다. 따라서 제작된 영상 콘텐츠를 보다 손쉽게 목적언어로 번역하여 다국어 영상 콘텐츠를 서비스할 수 있다.

또한, 본 발명에 의하면 클라우드 서비스를 이용한 음성 인식 및 기계 번역의 오류를 여러 단계를 걸쳐 수정하여 보다 높은 품질의 번역된 영상 콘텐츠를 제공할 수 있다.

도 1은 본 발명의 일 실시예에 따른 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템의 개념도이다.

도 2는 본 발명의 일 실시예에 따른 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템의 블록도이다.

도 3은 본 발명의 일 실시예에 따른 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 방법의 흐름도이다.

도 4는 본 발명의 일 실시예에 따른 검수부의 블록도이다.

도 5은 본 발명의 일 실시예에 따른 검수부에 의한 예시화면이다.

이하, 본 발명의 일 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성 요소들에 참조 부호를 부가함에 있어서, 동일한 구성 요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 일 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.

이하, 본 발명의 일 실시예에 따른 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템의 프로세스를 설명한다.

도 1을 참조하면, 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템(1)은 입력 단계(10)에서, 번역하고자 하는 영상콘텐츠를 입력 받는다. 이 때, 원본 소실 방지를 위해 스토리지(90)에 원본영상을 저장할 수 있다. 이때, 스토리지(90)는 시스템 내부의 HDD, SSD 등의 저장매체일 수 있으나, 시스템 외부의 클라우드 저장소일 수도 있다.

그 다음, 음성전처리 단계(20)에서, 시스템(1)은 영상으로부터 음성정보를 추출한다. 이 때, 음성만을 추출하여 이후 클라우드 음성인식서버(100)에서 받아들일 수 있는 코딩형태로 변환한다. 이 때, 음성전처리 단계(20)에서 음성인식률 향상을 위해 문장을 분리하거나, 구간 별, 종결어미 등에 따라 음성정보를 전처리하는 단계가 더 포함될 수 있다.

그 다음, 음성변환요청 단계(30)에서 클라우드 음성인식서버(100)로 음성정보를 전송한다. 음성수신단계(40)에서 시스템(1)은 클라우드 음성인식서버(100)에서 음성인식API에 의해 영상콘텐츠로부터 출력되는 원어에 기초하여 변환된 텍스트를 수신한다. 이때, 수신된 텍스트는 스토리지(90)에 저장되며, 시스템(1)은 번역전처리 단계(50)에서 수신된 텍스트를 가공하여 번역요청을 위한 준비를 한다. 이 때, 검수부에 의해 음성 파일의 원어 자막 텍스트의 검수가 수행될 수 있다. 그 다음, 번역요청 단계(60)에서 시스템(1)은 클라우드 번역서버(110)로 번역하고자 하는 목적언어로 번역요청을 전달한다.

그런 다음, 번역 수신 단계(70)에서 시스템(1)은 번역된 텍스트 파일을 받아 스토리지(250)에 저장한다. 이 때, 검수부에 의해 번역텍스트의 검수가 수행될 수 있다. 이후, 시스템(1)은 최종 검수된 텍스트를 영상 콘텐츠에 자막화하여, 번역된 자막과 함께 영상을 제공할 수 있다.

따라서 본 발명에 의하면 강의영상으로부터 추출된 음성정보를 클라우드 음성인식 서비스를 통해 텍스트로 변환하고, 변환된 텍스트를 클라우드 번역 서비스를 통해 목적언어로 변환함으로써 하나의 시스템 안에서 음성인식 및 번역 서비스를 통합화하여 구현할 수 있다. 따라서 제작된 영상 콘텐츠를 보다 손쉽게 목적언어로 번역하여 다국어 영상 콘텐츠를 서비스할 수 있다.

도 2를 참조하면, 본 발명의 일 실시예에 따른 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템(1)의 블록도가 도시된다.

일 실시예에 따른 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템(1)은 음성 전처리부(210), 음성텍스트변환부(220), 검수부(230), 번역부(240), 스토리지(250)를 포함한다.

입력부(미도시)는 사용자가 음성을 추출하여 번역하고자 하는 영상을 스토리지(250)에 탑재한다. 보다 구체적으로, 입력부(미도시)는 영상 콘텐츠의 제목, 주제, 언어정보, 번역할 언어정보, 파일제목, 파일 확장자 등을 포함하는 영상정보를 입력할 수 있도록 하는 입력모듈(미도시)을 포함하여 구성될 수 있다.

입력부(미도시)는 영상 촬영을 위한 카메라 장치 등과 연결될 수 있으며, 카메라 장치로부터 수신한 원본 영상 콘텐츠를 스토리지(250)에 저장할 수 있다. 이때 스토리지(250)는 시스템(1) 내부의 HDD, SSD 등의 물리적 저장창치일 수 있으나, 시스템(1) 외부의 클라우드 스토리지일 수도 있다. 또한, 스토리지(250)는 시스템(1) 내부의 물리적 저장장치와 시스템(1) 외부의 클라우드 스토리지를 결합한 형태일 수 있다.

또 다른 실시예에 따르면, 시스템(1)은 카메라 장치로부터 수신한 원본 영상 콘텐츠를 시스템(1) 내부의 스토리지(250)에 저장함과 동시에 네트워크를 통해 시스템(1) 외부의 클라우드 저장소에 저장할 수 있다.

입력부(미도시)와 스토리지(250) 간의 통신방식은 예컨대 유선의 통신 수단(케이블을 이용함), 무선의 통신 수단(예컨대 블루투스 등), 혹은 이들의 조합 같은 임의의 통신 수단일 수 있다. 또한, 3G통신, 4G 통신, WIFI 통신 등 무선네트워크와 무선네트워크 이외에 일반 유선네트워크를 이용할 수 있다. 여기서, 입력모듈(미도시)과 스토리지(250) 간의 통신방식을 한정하는 것은 아니다.

음성 전처리부(210)는 스토리지(250) 또는 클라우드 저장소에 보관중인 영상 콘텐츠로부터 음성파일을 추출하고, 상기 음성파일을 음성인식을 위한 복수의 음성파일로 분할한다.

예를 들어, 음성 전처리부(210)는 클라우드 저장소에 보관중인 영상 콘텐츠로부터 음성파일을 추출하고 음성파일의 재생시간, 샘플링 레이트를 포함하는 음성정보의 메타데이터를 산출할 수 있다. 보다 구체적으로, 음성 전처리부(20)는 디지털 영상 콘텐츠를 미디어 인코더 어플리케이션을 이용하여 음성 파일로 추출할 수 있다. 일례로, 음성 파일형식은 FLAC 등 무손실 압축 포맷으로 저장될 수 있다. 여기서, 음성파일을 특정한 형식으로 한정하는 것은 아니다.

또한, 음성 전처리부(210)는 음성 구간을 검출하여 음성 구간 별로 문장을 분할할 수 있다. 예를 들어, 음성 전처리부(210)는 음성파일에서 음성이 없는 구간을 분석하여, 음성이 없는 구간마다 분할하되, 분할된 음성파일이 미리 결정된 최소길이보다 길도록 음성파일을 분할할 수 있다. 미리 결정된 최소길이보다 길도록 분할하는 이유는 음성파일의 특징에 따라 음성이 없는 구간 등이 많은 경우 음성파일을 과도하게 분할하는 것을 방지하기 위함이다. 예를 들어 미리 결정된 최소길이는 재생구간 10초를 기준으로 설정할 수 있고, 이때 음성파일이 10초 이하에서 분할되는 것을 방지할 수 있다.

또한, 음성 전처리부(210)는 음성파일이 미리 결정된 최대길이보다 길지 않도록 분할할 수 있다. 예를 들어, 음성파일의 길이가 음성인식 서버에서 인식할 수 있는 파일의 길이보다 긴 경우, 음성파일을 여러 개의 파일로 강제분할할 수 있다. 이때, 음성의 중간에서 파일이 분할될 수 있으므로, 전후에 있는 파일이 서로 재생구간이 일부 중첩될 수 있도록 분할하는 것이 바람직하다. 예를 들어, 제1 음성파일은 분할시점에서 뒤의 3초까지의 재생시점을 포함하는 것으로 하고, 제1 음성파일과 연속되는 제2음성파일은 분할시점에서 앞의 3초까지의 재생시점을 포함하도록 할 수 있다.

또한, 음성 전처리부(210)는 음성파일에서 스펙트럼의 변화량을 측정하여, 음성의 안정화 구간을 정하고, 음성의 안정화 구간에 기초하여 문장 단위마다 분할하되, 분할된 음성파일이 미리 결정된 최소길이보다 길도록 음성파일을 분할할 수 있다. 구체적으로, 음성의 안정화 구간은 스펙트럼의 변화가 적은 부분으로 볼 수 있으므로 시간에 따른 스펙트럼 변화량을 참조하여 음성의 안정화 구간을 정하고 이에 기초하여 음성의 시작 구간을 검출하면 음성인식에 적합한 문장단위로 분할할 수 있다.

또한, 음성 전처리부(210)는 종결 어미를 추출하여 추출된 종결어미를 미리 저장된 종결어미가 집합된 데이터베이스(미도시)로부터 추출된 종결어미와의 일치성 여부를 판단하는 방식 등을 통해 전처리함으로써 클라우드 음성인식서버(100)에서 보다 정확하게 음성을 인식할 수 있다. 이를 위해, 음성 구간 별로 분할된 문장, 종결 어미 등 음성인식률을 향상시킬 수 있는 음성의 특징에 관한 데이터가 스토리지(90)에 저장될 수 있다.

또한, 음성 전처리부(210)는 음성파일에 대해 클라우드 음성인식서버(100)에서 인식할 수 있는 특정한 형태로 변환할 수 있다. 예를 들어, 구글 클라우드 음성인식서버를 이용하는 경우, 5분 이하의 길이를 가진 음성파일로 분할하여, 전송해야 하는데, 음성 전처리부(210)는 음성파일을 이러한 형태에 맞게 변환시킬 수 있다. 다만, 음성 전처리부(210)는 클라우드 음성인식서버(100)의 인식 한계 길이보다 짧은 길이로 음성파일을 분할하는 경우가 많은데, 음성의 안정화 구간에 기초하여 분할하는 경우가 많기 때문이다.

음성텍스트변환부(220)는 전처리된 음성파일과 메타데이터를 클라우드 음성인식서버(100)로 전송하여 음성 인식을 요청한다. 보다 구체적으로, 음성텍스트변환부(220)는 메타데이터와 파일 또는 메타 데이터와 파일의 URL을 JSON 표기법으로 변환하여 클라우드 음성인식서버(100)로 전송한다. 여기서, 데이터 교환형식을 특정한 것으로 한정하는 것은 아니다.

일례로, 전송 요청 데이터에는 인코딩(encoding), 샘플 레이트 헤르츠(sample rate hertz), 언어코드(language code), URI 등을 포함할 수 있다. 이러한 전송 요청 데이터는 음성인식서버(100)가 음성을 보다 정확하게 인식할 수 있는데 도움을 줄 수 있다.

또한, 전송 요청 데이터에는 음성인식서버(100)가 음성을 보다 정확하게 인식할 수 있도록, 해당 내용과 관련있는 음성 키워드가 포함될 수 있다. 예를 들어, 음성파일의 주제가 술에 관한 것이라면, alcohol이라는 음성 키워드가 포함될 수 있고, 음성인식서버(100)는 특정 단어의 인식이 모호한 경우 음성 키워드를 고려하여 인식된 단어를 결정할 수 있다.

음성텍스트변환부(220)는 음성인식 서버(100)에서 변환된 음성파일의 원어 자막 텍스트와 기타 정보를 수신하여 스토리지(250)에 저장한다. 이 때, 클라우드 음성인식서버(100)로부터 JSON 표기법으로 작성된 결과를 수신할 수 있다. 이때, 기타 정보에는 results, alternatives, transcript, confidence 등을 포함할 수 있다. 이때, transcript는 디지털 영상 콘텐츠의 음성 파일로부터 변환된 텍스트 데이터일 수 있고, confidence는 디지털 영상 콘텐츠의 음성 파일로부터 변환된 텍스트의 신뢰도를 나타낸 수치일 수 있다.

수신한 디지털 영상 콘텐츠의 각 언어 코드에 맞는 자막 데이터는 텍스트 형식으로 스토리지(250)에 저장된다. 예컨대, 텍스트 형식은 txt, smi 등의 형식으로 저장될 수 있다. 여기서, 스토리지(250)에 저장되는 텍스트 형식을 한정하는 것은 아니다.

사용자는 수신된 음성파일의 원어 자막 텍스트로부터 번역할 목적언어를 선택하여, 번역하고자 하는 언어를 다국어 데이터베이스(미도시)를 탐색하여 목적언어를 선택할 수 있다. 일례로, 사용자가 '영어'로 처리된 영상 콘텐츠를 '한국어' 자막으로 번역하고자 할 경우, 입력부(미도시)에서 다국어 데이터베이스(미도시)를 탐색하여 목적언어로 '한국어'를 선택할 수 있다.

그런 다음, 번역부(240)는 음성 파일 자막 텍스트와 번역할 목적언어를 클라우드 번역서버(110)로 전송하여 번역을 요청한다. 이 때, 번역부(240)는 클라우드 번역서버(110)로 전송하기 전 하나 또는 그 이상의 완전한 문장을 문장 단위로 끊어서 전송할 수도 있다. 일례로, 번역부(240)는 클라우드 번역서버(110)와의 원활한 통신을 위해 JAVA, PHP, Node.js, Python, C# 등을 통해 구현될 수 있다.

그런 다음, 번역부(240)는 번역 서버(110)로부터 목적언어로 번역된 음성파일의 자막 텍스트를 수신하여 스토리지(250)에 저장한다.

검수부(230)는 클라우드 음성인식서버(100)에 의해 음성정보를 텍스트화한 원어 자막 텍스트와 클라우드 번역서버(110)에 의해 목적언어로 번역된 목적언어 자막 텍스트를 비교하여 검수한다.

이때, 검수부(230)에서의 검수 작업은 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스를 제공하는 전용 애플리케이션을 통해 이루어질 수 있다. 검수부(230)와 관련해서는 도 4 내지 도 5를 참조하여 더 자세히 설명된다.

도 3을 참조하면, 단계 310에서, 시스템(1)은 클라우드 저장소에 보관중인 영상 콘텐츠로부터 음성파일을 추출하고, 단계 320에서, 시스템(1)은 음성파일을 음성인식을 위한 복수의 음성파일로 분할하고, 단계 330에서, 시스템(1)은 분할된 복수의 음성파일을 음성인식서버로 전송하고, 단계 340에서, 시스템(1)은 음성인식서버로부터 복수의 음성파일에 대응하는 복수의 텍스트 및 신뢰값을 수신한다. 단계 310 내지 단계 340은 도 2를 참조하여 설명된 구성들의 기능과 동일하므로, 추가적인 설명은 생략한다.

단계 350에서, 시스템(1)은 복수의 텍스트를 검수하여 검수완료된 텍스트를 생성한다. 예를 들어, 시스템(1)은 복수의 텍스트를 영상 콘텐츠와 함께 출력하고, 사용자로부터 각각의 텍스트에 대한 수정 입력을 수신하고, 수정 입력에 따라 해당 텍스트를 수정하여 검수완료된 텍스트를 생성할 수 있다.

이때, 시스템(1)은 복수의 텍스트 중 수정이 필요한 텍스트인 경우에만 영상 콘텐츠와 함께 출력하여 수정입력을 요청할 수 있다. 예를 들어, 시스템(1)은 복수의 텍스트와 함께 수신된 신뢰값을 기초로 자막처리된 텍스트의 정확성을 판단하고, 자막처리된 텍스트의 정확성이 미리 결정된 수준 이하인 경우, 해당 텍스트에 대한 수정 입력을 사용자에게 요청할 수 있다.

단계 360에서, 시스템(1)은 검수완료된 텍스트 및 목적언어정보를 번역 서버로 전송하여 번역을 요청한다. 예를 들어, 시스템(1)은 목적언어정보를 영어로 설정하고 검수완료된 한국어 텍스트를 번역서버로 전송하여 영어 텍스트로의 번역을 요청할 수 있다.

단계 370에서, 시스템(1)은 번역서버로부터 목적언어로 변환된 번역 텍스트를 수신한다. 예를 들어, 단계 360에서, 검수완료된 한국어 텍스트를 번역서버로 전송하여 영어 텍스트로의 번역을 요청한 경우, 시스템(1)은 번역된 영어 텍스트를 수신하게 된다.

도 3에 도시되지는 않았으나, 시스템(1)은 번역된 텍스트에 대한 검수를 수행할 수 있다. 번역된 텍스트에 대한 검수는 도 5의 (b)를 참조하여 설명된다.

도 4는 본 발명의 일 실시예에 따른 검수부(230)의 구성도를 도시하고, 도 5는 자막검수부(231)와 번역검수부(233)의 일 실시예를 도시한다.

도 4를 참조하면, 검수부(230)는 자막검수부(230) 및 번역검수부(231)을 포함한다.

일반적으로, 기계 음성 인식의 품질은 언어의 종류, 잡음, 음성 파일의 샘플링 레이트 등에 따라 달라지게 되는 데, 본 발명에서는 자막검수부(230)에 의해 임의의 사용자가 음성 파일을 청취하고, 청취된 음성파일로부터 출력되는 원어가 텍스트로 정확하게 변환되었는 지 음성 파일 자막 텍스트를 문장 단위로 끊고, 문장 부호를 추가하는 음성파일 자막 텍스트 편집을 통해 기계 음성 인식으로 인한 오류를 사용자가 검수할 수 있도록 함으로써 그 품질을 향상시킬 수 있도록 한다.

일 실시예에 따른 자막검수부(230)는 복수의 텍스트를 영상 콘텐츠와 함께 출력하고, 사용자로부터 복수의 텍스트 중 적어도 하나의 텍스트에 대한 수정 입력을 수신하고, 수정 입력에 따라 텍스트를 수정하여 검수완료된 텍스트를 생성할 수 있다.

여기서, 검수부(230)는 웹페이지, PC용 어플리케이션 또는 스마트기기의 어플리케이션 등을 통해 구현될 수 있다.

예를 들어, 도 5의 (a)에서 스마트기기의 어플리케이션에서 영상 콘텐츠(511)와 함께 대응하는 텍스트(512), 다시 재생하기 버튼(514), 수정요청을 입력하기 위한 버튼(515), 그리고 다음 텍스트를 확인하기 위한 버튼(516)이 포함된 화면이 도시되었다.

일 실시예에 따르면, 자막검수부(230)는 음성텍스트변환부에서 수신한 신뢰값을 기초로 자막처리된 텍스트의 정확성을 판단하고, 자막처리된 텍스트의 정확성이 미리 결정된 수준 이하인 경우, 자막에 대한 수정 입력을 사용자에게 요청할 수 있다. 예를 들어, 신뢰값(confidence)이 80이하인 경우 자막처리된 텍스트의 정확성을 신뢰할 수 없다고 정한 경우, 텍스트의 신뢰값(confidence)이 80이하인 텍스트마다 사용자에게 수정 입력을 요청할 수 있다.

또한, 기계 번역의 품질은 통계 데이터, 알고리즘의 종류 등에 따라 달라지는 데, 본 발명에 따른 번역검수부(233)는 검수자가 번역된 음성 파일의 자막 텍스트를 검수하여 텍스트가 번역하고자 하는 목적언어로 잘 변환이 되었는 지, 통상적으로 이용되고 있는 관용언어로 구현되었는 지, 일부 문맥 상 매끄럽지 못한 부분 등을 사용자가 검수할 수 있도록 함으로써 기계 번역의 오류를 최소화하고 그 품질을 향상시킬 수 있도록 한다.

일 실시예에 따른 번역부(240)는 검수완료된 텍스트와 번역할 목적언어를 번역 서버로 전송하여 번역을 요청하고, 요청에 따라 목적언어로 변환된 번역텍스트를 수신하여 스토리지에 저장할 수 있다.

이때, 번역검수부(233)는 번역텍스트를 원어텍스트 및 영상 콘텐츠와 함께 출력하고, 사용자로부터 번역텍스트에 대한 수정 입력을 받고, 수정 입력에 따라 번역텍스트를 수정할 수 있다.

예를 들어, 도 5의 (b)에서, 스마트기기의 어플리케이션에서, 원어텍스트(521)와 함께 대응하는 번역텍스트(522), 그리고 수정요청을 입력하기 위한 버튼(525)과 다음 텍스트를 확인하기 위한 버튼(526)이 포함된 화면이 도시되었다.

상술한 바와 같은 검수 프로세스에 따라 진행된 검수부(230)는 사용자, 예를 들어 강의자에 의해 자신이 강의한 영상에서 음성이 텍스트로 정상적으로 자막 처리되었는지를 확인하고 수정할 수 있게 한다. 또한, 필요에 따라 제3 자, 관리자, 또는 전문 번역사에 의해 검수가 될 수 있다.

또한, 본 발명의 다른 실시예에 의하면, 검수부(230)는 검수내용을 점수화하여 번역된 텍스트 파일의 번역품질을 향상시킬 수 있도록 한다.

예를 들어, 검수부(230)는 검수자의 기본 정보를 입력하는 기본정보 입력부(미도시), 검수하고자 하는 검수 대상 파일을 리스트업 하여 리스트업된 검수 대상 파일 중 어느 하나를 선택하도록 하는 검수대상 선택부(미도시), 검수대상 선택부(미도시)에 의해 선택된 검수 대상 파일의 검수사항을 입력하고 이를 저장하도록 하는 검수내용 등록부(미도시), 검수내용 등록부(미도시)에 의해 등록된 검수사항을 저장하는 검수내용 저장부(미도시)를 더 포함할 수 있다.

또한, 검수 품질에 따라 높은 점수를 획득한 사용자를 선별하여 보상하는 보상부(미도시), 검수 내용을 타 검수자와 공유할 수 있도록 하는 검수내용 공유부(미도시)를 더 포함할 수 있다.

또한, 검수부(230)는 검수자의 활동 내역, 평가 점수, 언어 능력 등을 종합적으로 평가한 사전 테스트가 온라인을 통해 이루어질 수 있도록 하는 사전 테스트 진행부(미도시)를 더 포함하고, 사전 테스트 진행부(미도시)에 의해 자체 테스트를 통과한 검수자의 테스트 등급에 따라 검수할 수 있는 음성 파일의 갯수 및 음성 파일의 원어난이도를 조정하여 제공할 수도 있다.

따라서, 본 발명에 의하면 클라우드 서비스를 이용한 음성 인식 및 기계 번역의 오류를 여러 단계를 걸쳐 수정하여 보다 높은 품질의 번역된 영상 콘텐츠를 제공할 수 있다.

이처럼 본 발명에 따른 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템(1)은 클라우드 서비스를 통해 추출된 음성정보를 텍스트로 변환하고, 변환된 텍스트를 번역텍스트로 다시 변환하여 하나의 시스템 안에서 음성인식 및 번역 서비스를 통합화하여 구현할 수 있도록 함으로써 제작된 영상 콘텐츠를 보다 손쉽게 목적언어로 번역하여 자막화할 수 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템으로서,

클라우드 저장소에 보관중인 영상 콘텐츠로부터 음성파일을 추출하고, 상기 음성파일을 음성인식을 위한 복수의 음성파일로 분할하는 음성 전처리부;

상기 분할된 복수의 음성파일을 음성인식서버로 전송하고, 상기 음성인식서버로부터 상기 복수의 음성파일에 대응하는 복수의 텍스트 및 신뢰값을 수신하여 스토리지에 저장하는 음성텍스트변환부; 및

상기 복수의 음성 파일에 대응하는 복수의 텍스트에 대한 정정을 수행하는 검수부를 포함하는, 시스템.
제1 항에 있어서, 상기 음성 전처리부는,

상기 음성파일에서 음성이 없는 구간을 분석하여, 상기 음성이 없는 구간마다 상기 음성파일을 분할하되, 분할된 음성파일이 미리 결정된 최소길이보다 길도록 상기 음성파일을 분할하는, 시스템.
제1 항에 있어서, 상기 음성 전처리부는,

상기 음성파일에서 스펙트럼의 변화량을 측정하여, 음성의 안정화 구간을 정하고, 상기 음성의 안정화 구간에 기초하여 상기 음성파일을 문장 단위마다 분할하되, 분할된 음성파일이 미리 결정된 최소길이보다 길도록 상기 음성파일을 분할하는, 시스템.
제1 항에 있어서, 상기 음성 전처리부는,

상기 음성파일로부터 종결 어미를 추출하여 추출된 종결어미를 기 저장된 종결어미가 집합된 데이터베이스로부터 추출된 종결어미와의 일치성 여부를 판단하여 문장 단위로 상기 음성파일을 분할하는, 시스템.
제1 항에 있어서, 상기 검수부는,

상기 복수의 텍스트를 상기 영상 콘텐츠와 함께 출력하고, 사용자로부터 상기 복수의 텍스트 중 적어도 하나의 텍스트에 대한 수정 입력을 수신하고, 상기 수정 입력에 따라 상기 적어도 하나의 텍스트를 수정하여 검수완료된 텍스트를 생성하는 자막검수부를 포함하는, 시스템.
제5 항에 있어서, 상기 자막검수부는,

상기 음성텍스트변환부에서 수신한 신뢰값을 기초로 상기 복수의 텍스트에 대한 정확성을 판단하고, 상기 복수의 텍스트 중 적어도 하나의 텍스트의 정확성이 미리 결정된 수준 이하인 경우, 상기 적어도 하나의 텍스트에 대한 수정 입력을 사용자에게 요청하는, 시스템.
제5 항에 있어서,

상기 검수완료된 텍스트와 번역할 목적언어를 번역 서버로 전송하여 번역을 요청하고, 상기 요청에 따라 목적언어로 변환된 번역텍스트를 수신하여 스토리지에 저장하는 번역부를 더 포함하는, 시스템.
제5 항에 있어서, 상기 검수부는,

음성인식서버에 의해 음성정보를 텍스트화한 원어텍스트와 번역서버에 의해 목적언어로 번역된 번역텍스트를 비교하여 검수하는 번역검수부를 더 포함하고,

상기 번역검수부는 상기 번역텍스트를 상기 원어텍스트 및 상기 영상 콘텐츠와 함께 출력하고, 사용자로부터 상기 번역텍스트에 대한 수정 입력을 받고, 상기 수정 입력에 따라 상기 번역텍스트를 수정하는, 시스템.
클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 방법으로서,

클라우드 저장소에 보관중인 영상 콘텐츠로부터 음성파일을 추출하고, 상기 음성파일을 음성인식에 유리하도록 복수의 음성파일로 분할하는 단계;

상기 분할된 복수의 음성파일을 음성인식서버로 전송하고, 상기 음성인식서버로부터 상기 복수의 음성파일에 대응하는 복수의 텍스트 및 신뢰값을 수신하는 단계;

상기 복수의 텍스트를 검수하여 검수완료된 텍스트를 생성하는 단계; 및

상기 검수완료된 텍스트 및 목적언어정보를 번역 서버로 전송하여 번역을 요청하는 단계;

상기 번역 서버로부터 목적언어로 변환된 번역 텍스트를 수신하여 스토리지에 저장하는 단계를 포함하는, 방법.
제9 항에 있어서, 상기 검수완료된 텍스트를 생성하는 단계는,

상기 복수의 텍스트를 상기 영상 콘텐츠와 함께 출력하는 단계;

사용자로부터 상기 복수의 텍스트 중 적어도 하나에 대한 수정 입력을 수신하는 단계;

상기 수정 입력에 따라 상기 복수의 텍스트 중 적어도 하나를 수정하여 검수완료된 텍스트를 생성하는 단계를 포함하는, 방법.
제9 항에 있어서, 상기 검수완료된 텍스트를 생성하는 단계는,

상기 신뢰값을 기초로 상기 복수의 텍스트의 정확성을 판단하고, 상기 복수의 텍스트 중 적어도 하나의 텍스트에 대한 정확성이 미리 결정된 수준 이하인 경우, 상기 적어도 하나의 텍스트에 대한 수정 입력을 사용자에게 요청하는 단계;

상기 사용자로부터 상기 적어도 하나의 텍스트에 대한 수정 입력을 수신하는 단계;

상기 수정 입력에 따라 상기 적어도 하나의 텍스트를 수정하여 검수완료된 텍스트를 생성하는 단계를 포함하는, 방법.