KR102044689B1

KR102044689B1 - 방송자막 제작 시스템 및 방법

Info

Publication number: KR102044689B1
Application number: KR1020180025541A
Authority: KR
Inventors: 김정수; 박재우; 노웅래; 지효은; 양경희
Original assignee: 주식회사 소리보기
Priority date: 2017-04-24
Filing date: 2018-03-05
Publication date: 2019-12-04
Also published as: KR20180119101A

Abstract

본 기술은 방송 자막 제작 시스템 및 방법이 개시된다. 본 발명의 구체적인 예에 따르면, 방송 신호에 포함된 음성을 기초로 원자막을 생성하여 저장하고 수신된 방송 신호에 포함된 음성의 문장을 단어별로 분할하고 분할된 각각의 단어에 대해 음성인식알고리즘을 수행하여 텍스트 형태로 변환하여 변환 자막을 생성하고 생성된 변환 자막의 각 단어의 음절에 대한 상관도값을 토대로 텍스트 변환 오류를 정정하고 단어 별 음성인식 알고리즘 수행을 위한 지연 시간을 토대로 텍스트 변환 오류 정정된 변환 자막이 방송 신호의 음성에 동기된 보정 자막을 생성하여 사용자 단말로 전달함에 따라, 방송 신호의 음성에 정확하게 동기된 보정 자막을 생성할 수 있고, 이에 따라 수신된 방송 콘텐츠에 대한 몰입도 및 흥미성을 향상시킬 수 있게 된다.

Description

방송자막 제작 시스템 및 방법{SYSTEM AND METHOD FOR CREATING BROADCAST SUBTITLE}

본 발명은 방송자막 제작 시스템 및 방법에 관한 것으로서, 보다 상세하게는, 방송 신호의 음성을 텍스트 형태로 변환하여 변환 자막을 생성하고 생성된 변환 자막의 텍스트 변환 오류를 정정하고 방송 신호의 음성에 동기되도록 보정함에 따라, 방송 컨텐츠의 음성에 정확하게 동기된 자막을 사용자 단말로 전달할 수 있도록 하는 기술에 관한 것이다.

기존 방송 콘텐츠의 청각장애인을 위한 Closed Caption 자막 데이터는 사전 제작되는 일부 콘텐츠를 제외하고 많은 부분이 실 방송 시에 방송오디오를 속기사가 듣고 이를 속기로 작성한 자막데이터를 방송 신호와 함께 전송하고 있다.

이러한 이유로 실제 오디오와 이에 해당하는 자막 데이터 사이의 시간지연이 1초이상 많게는 3~5초정도 발생하는 것이 일반적인 현상이다.

이러한 지연시간이 일반인에게는 별 문제가 되지 않을 수 있으나 오디오를 듣지 못하는 청각장애인들에게는 상당한 불편함을 가져다 준다.

즉 오디오가 나오는 시간과 자막이 나오는 시간이 차이가 생김에 따라서 누가 말했는지를 정확히 이해하기가 어려운 문제점이 있다.

이에 본 발명의 목적은 방송 신호의 음성으로부터 원자막을 생성하여 저장하고, 음성인식 알고리즘을 이용하여 방송 신호의 음성을 텍스트 형태로 변환하여 변환 자막을 생성하며 생성된 변환 자막의 음절 단위의 상관도값을 토대로 텍스트 변환 오류를 정정하고 각 단어 별 텍스트 변환에 따른 변환 자막과 상기 원자막의 지연 시간을 토대로 자막 위치가 방송 신호의 음성에 동기되도록 보정함에 따라, 텍스트 형태로 변환된 변환 자막과 원 자막과의 상관도값을 토대로 텍스트 변환 시 발생된 변환 자막의 오류를 정정하면서 방송 신호의 음성에 자막을 정확하게 동기시킬 수 있는 방송자막 제작 시스템 및 방법을 제공하고자 함에 있다.

또한 본 발명의 다른 목적은 방송 신호의 음성과 정확하게 동기화된 자막을 실시간으로 사용자 단말로 제공함에 따라, 방송 컨텐츠에 대한 집중도 및 흥미성을 더욱 향상시킬 수 있는 방송자막 제작 시스템 및 방법을 제공하고자 함에 있다.

전술한 목적을 달성하기 위한 본 발명의 일 실시 태양으로 방송자막 제작 시스템은,

사용자 단말; 및

방송 신호에 포함된 음성을 토대로 원자막을 생성하고, 상기 방송 신호에 포함된 음성을 다수의 단어로 분할하고 분할된 각각의 단어에 대해 음성인식 알고리즘을 이용하여 텍스트 형태로 변환하여 변환 자막을 생성하며, 상기 오류 정정된 변환 자막의 각 단어에 대해 음성인식 알고리즘 수행에 따른 지연 시간을 토대로 변환 자막이 방송 신호의 음성에 동기화된 보정 자막을 생성하여 상기 사용자 단말로 전달하는 자막 제작 서버를 포함하는 것을 특징으로 한다.

바람직하게 상기 자막 제작 서버는, 방송국으로부터 송출된 방송 신호에 포함된 음성을 토대로 원 자막을 생성하여 자막 DB로 전송하는 방송신호 수신장치; 상기 방송신호의 음성을 제공받아 음성의 문장을 다수의 단어로 분할하고 분할된 각각의 단어에 대해 음성인식 알고리즘을 수행하여 텍스트 형태로 변환하여 변환 자막을 생성하며, 생성된 각각의 변환 자막의 각 단어에 대해 음절과 원 자막의 음절의 상관도값을 도출하여 도출된 상관도값을 토대로 텍스트 변환 시 발생한 변환 자막의 오류를 정정하고, 변환 자막의 각 단어에 대한 음성인식 알고리즘 수행에 따른 지연 시간을 토대로 오류 정정된 변환 자막이 음성에 동기화된 보정 자막을 생성하는 자막 보정 장치를 포함할 수 있다.

바람직하게 상기 자막 보정 장치는, 상기 방송신호의 음성을 제공받아 음성의 문장을 단어 별로 분할하는 음성 수신부; 분할된 각각의 단어에 대해 음성인식 알고리즘을 이용하여 텍스트 형태로 변환하여 변환 자막을 생성하는 텍스트 변환부; 생성된 각각의 변환 자막의 각 단어와 상기 원자막의 단어에 대해 음절 별 상관도값을 도출하여 도출된 상관도값을 기준으로 대응되는 원자막을 찾아 텍스트 변환 시 발생된 변환 자막의 오류를 정정하는 변환 자막 생성부; 및 상기 오류 정정된 변환 자막의 각 단어에 대해 음성인식 알고리즘 수행에 따른 지연 시간을 토대로 변환 자막이 방송 신호의 음성에 동기화된 보정 자막을 생성하는 보정 자막 생성부를 포함할 수 있다.

바람직하게 상기 보정 자막 생성부는, 음성의 화자인식 알고리즘을 이용하여 화자를 구분하고 각 화자 별로 보정 자막을 생성하도록 구비될 수 있다.

바람직하게 상기 자막 제작 장치는 상기 오류 정정된 변환 자막을 요청된 언어로 번역하여 번역 자막을 생성한 후 생성된 번역 자막을 상기 보정 자막 생성부로 전달하는 번역부를 더 포함할 수 있다.

본 발명의 다른 실시 태양에 의거 자막 제작 서버는, 방송국으로부터 송출된 방송 신호에 포함된 음성을 토대로 원 자막을 생성하여 자막 DB로 전송하는 방송신호 수신장치; 상기 방송신호의 음성을 제공받아 음성의 문장을 다수의 단어로 분할하고 분할된 각각의 단어에 대해 음성인식 알고리즘을 수행하여 텍스트 형태로 변환하여 변환 자막을 생성하며, 생성된 각각의 변환 자막의 각 단어에 대해 음절과 원 자막의 음절의 상관도값을 도출하여 도출된 상관도값을 토대로 텍스트 변환 시 발생한 변환 자막의 오류를 정정하고, 변환 자막의 각 단어에 대한 음성인식 알고리즘 수행에 따른 지연 시간을 토대로 오류 정정된 변환 자막이 방송 신호의 음성에 동기화된 보정 자막을 생성하는 자막 보정 장치를 포함할 수 있다.

바람직하게 상기 자막 보정 장치는, 상기 방송신호의 음성을 제공받아 음성의 문장을 단어 별로 분할하는 음성 수신부; 분할된 각각의 단어에 대해 음성인식 알고리즘을 이용하여 텍스트 형태로 변환하여 변환 자막을 생성하는 텍스트 변환부; 생성된 각각의 변환 자막의 각 단어와 상기 원자막의 단어에 대해 음절 별 상관도값을 도출하여 도출된 상관도값을 기준으로 변환자막에 대응되는 원자막을 찾아 텍스트 변환 시 발생된 변환 자막의 오류를 정정하는 변환 자막 생성부; 및 상기 오류 정정된 변환 자막의 각 단어에 대해 음성인식 알고리즘 수행에 따른 지연 시간을 토대로 변환 자막이 방송 신호의 음성에 동기화된 보정 자막을 생성하는 보정 자막 생성부를 포함할 수 있다.

본 발명의 또 다른 태양에 의거 방송 자막 제작 방법은, 자막 제작 서버에서 방송국을 통해 수신된 방송 신호에 포함된 음성에 대해 원자막을 생성하여 저장하는 단계; 방송 신호로부터 수신된 방송 신호에 포함된 음성에 대한 문장을 단어 별로 분할하고 분할된 단어에 대해 음성 인식 알고리즘을 수용하여 텍스트 형태로 변환하여 변환 자막을 생성하고 생성된 변환 자막의 음절과 원자막의 음절 별 상관도값을 도출하여 도출된 상관도값을 토대로 텍스트 변환 시 발생된 변환 자막에 대한 오류를 정정하는 단계; 오류가 정정된 변환 자막을 상기 원자막에 동기시켜 보정 자막을 생성하는 단계; 및 상기 보정 자막을 셋업 박스를 통해 수신된 방송 신호에 매칭시켜 사용자 단말에 표시하는 단계를 포함하는 것을 특징으로 한다.

바람직하게 보정 자막을 생성하는 단계는, 변환 자막의 단어 별 음성 인식 알고리즘을 수행하는 지연 시간을 토대로 상기 변환 자막이 방송 신호의 음성에 동기화된 보정 자막을 생성되도록 구비될 수 있다.

바람직하게 상기 보정 자막을 생성하는 단계는, 음성의 화자인식 알고리즘을 이용하여 화자를 구분하고 각 화자 별 보정 자막을 생성하도록 구비될 수 있다.

본 발명에 따르면 방송 신호에 포함된 음성을 기초로 원자막을 생성하여 저장하고 수신된 방송 신호에 포함된 음성의 문장을 단어별로 분할하고 분할된 각각의 단어에 대해 음성인식알고리즘을 수행하여 텍스트 형태로 변환하여 변환 자막을 생성하고 생성된 변환 자막의 각 단어의 음절에 대한 상관도값을 토대로 텍스트 변환 오류를 정정하고 단어 별 음성인식 알고리즘 수행을 위한 지연 시간을 토대로 변환 자막이 방송 신호의 음성에 동기된 보정 자막을 생성하여 사용자 단말로 전달함에 따라, 방송 신호의 음성에 정확하게 동기된 보정 자막을 생성할 수 있고, 이에 따라 수신된 방송 콘텐츠에 대한 몰입도 및 흥미성을 향상시킬 수 있는 효과를 얻는다.

본 명세서에서 첨부되는 다음의 도면들은 본 발명의 바람직한 실시 예를 예시하는 것이며, 후술하는 발명의 상세한 설명과 함께 본 발명의 기술사상을 더욱 이해시키는 역할을 하는 것이므로, 본 발명은 그러한 도면에 기재된 사항에만 한정되어 해석되어서는 아니된다.
도 1은 본 발명의 실시 예에 따른 방송 자막 제작 시스템의 구성을 보인 도이다.
도 2는 본 발명의 실시 예에 따른 방송 자막 제작 시스템의 자막 제작 서버의 세부적인 구성을 보인 도이다.
도 3은 본 발명의 실시 예에 따른 방송 자막 제작 시스템의 자막 보정 장치의 세부적인 구성을 보인 도이다.
도 4는 본 발명의 실시 예에 따른 방송 자막 제작 시스템의 원자막을 보인 예시도이다.
도 5는 도 4는 본 발명의 실시 예에 따른 방송 자막 제작 시스템의 변환 자막을 보인 예시도이다.
도 6은 본 발명의 실시 예에 따른 방송 자막 제작 시스템의 변환 자막의 텍스트 오류를 정정하기 위한 상관도값을 보인 예시도이다.
도 7은 본 발명의 실시 예에 따른 방송 자막 제작 시스템 자막 제작 서버가 적용되는 다른 실시 예를 보인 도이다.

이하에서는 도면을 참조하여 본 발명의 실시예들을 보다 상세하게 설명한다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.

따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.

아래에서는 첨부한 도면을 참고하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략한다.

이하에서는 본 발명의 실시 예에 따른 방송자막 제작 시스템 및 방법에 대해 첨부된 도면을 참조하여 구체적으로 설명하기로 한다.

도 1은 본 발명의 실시 예에 따른 방송자막 제작 시스템의 전체적인 구성을 보인 도면으로서, 도 1을 참조하면, 본 발명의 실시 예에 따른 방송자막 제작 시스템은, 크게 자막 제작 서버(S1), 셋업 박스(S2), 및 사용자 단말(S3)로 포함된다.

여기서, 자막 제작 서버(S1)는 방송국으로부터 제공된 방송 신호로부터 획득된 원자막을 저장하고, 방송 신호에 포함된 음성을 텍스트 형태로 변환하여 변환 자막을 생성하며, 원자막과 변환 자막을 동기되도록 변환 자막의 글자 위치를 보정한 후 보정 자막을 사용자 단말(S3)로 전달한다.

여기서, 원자막은 방송국으로부터 제공된 방송 신호의 음성이 속기사에 의해 텍스트 형태로 제작된 자막으로서, 98%의 정확도를 가지나 방송 신호의 음성과 4초 이상의 지연 시간을 가진다. 이에 따라 방송 신호의 음성과 정확하게 동기된 자막의 제작이 필요하다. 이에 본 발명은 음성인식 알고리즘을 통해 제작된 변환 자막과 원 자막의 각 음절 별 상관도값을 토대로 변환 자막의 텍스트 변환 오류를 정정하고 변환 자막과 음성과의 지연 시간을 토대로 변환 자막이 방송 신호의 음성에 동기화된 보정 자막을 생성한다.

또한, 셋업 박스(S2)는 방송국으로부터 제공된 방송 신호를 사용자 인증을 수행한 후 인증 성공된 방송 신호를 사용자 단말(S3)에 표시한다.

셋업 박스(S2)는 TV에서 재생할 수 있는 영상 콘텐츠를 수신하고 사용자 단말(S3)에 장착된 실시간 콘텐츠 인식기에 의거 수신된 영상 콘텐츠의 음성으로부터 어떠한 콘텐츠인 지를 인식한다. 이때 인식 방법은 ACR(Automatic Contents Recognition)이라 하고 여기에는 워터마크 방법이나 핑거프린트 방법, 혹은 TV-단말간 페어링 방법, TV셋탑을 이용한 셋탑과 단말기간의 페어링 방법 등 이며, 이에 한정하지 아니한다.

그리고, 셋업 박스(S2)는 콘텐츠 인식 결과가 자막 제작 서버(S1)으로 전달하고 자막 제작 서버(S1)에서 해당되는 콘텐츠에 상응하는 보정 자막을 생성하여 사용자 단말(S3)로 전달함에 따라 방송 신호의 음성과 정확하게 동기된 자막이 사용자 단말(S3)에 표시된다.

이때 상기 셋업 박스(S2)와 사용자 단말(S3) 간에 근거리 통신망을 이용하여 정보를 송수신하고, 이 경우 근거리 통신망은 블루투스, 지그비 프로, IEEE802.15.4 c/d, 또는 IEEE 802.15. NAN 기반의 지그비 통신망과, IEEE 802. 15. 4, 지그비, Z-wave, INSTEON, 또는 Wavents 기반의 저전력 저속의 WPAN과, 자체 솔루션에 센서 네트워크를 이용한 RFID/USN 통합 플랫폼 기반의 통신망을 적용 가능하며, 이에 한정하지 아니한다.

도 2는 도 1에 도시된 자막 제작 서버의 세부적인 구성을 보인 도면이고 도 3은 도 2에 도시된 자막 보정 장치의 세부적인 구성을 보인 도면이다. 도 2 내지 도 3을 참조하면, 본 발명의 실시 예에 따른 방송자막 제작 시스템의 자막 제작 서버(S1)는 방송국으로부터 제공된 방송 신호로부터 획득된 원자막을 저장하고, 방송 신호에 포함된 음성을 텍스트 형태로 변환하여 변환 자막을 생성하며, 원자막과 변환 자막을 동기되도록 변환 자막의 글자 위치를 보정한 후 보정 자막을 사용자 단말로 전달하도록 구비될 수 있고, 이에 서버(S1)는 방송 신호 수신 장치(100), 자막 DB(200), 자막 보정 장치(300), 및 번역 장치(400)를 포함할 수 있다.

방송 신호 수신 장치(100)는, 방송 신호에 포함된 음성에 대해 속기사에 의해 텍스트 형태로 변환하여 원자막을 생성하고 생성된 원자막을 자막 DB(200)에 제공한다. 이에 자막 DB(200)는 원자막을 해당 방송 콘텐츠 별로 대응시켜 저장한다.

또한, 방송 신호 수신장치(100)의 방송 신호의 음성은 자막 보정 장치(300)로 전달된다.

자막 보정 장치(300)는 방송 신호의 음성을 음성 인식 알고리즘(STT: Speech To Text)을 이용하여 텍스트 형태로 변환하여 변환 자막을 생성하고, 생성된 변환 자막은 사용자 단말(S3)로 전달한다. 이에 자막 보정 장치(300)는 도 3에 도시된 바와 같이, 음성 수신부(310), 텍스트 변환부(320), 변환 자막 생성부(330), 및 보정 자막 생성부(340)를 포함할 수 있다.

음성 수신부(310)는 방송 신호에 포함된 음성을 수신하고, 수신된 음성은 텍스트 변환부(320)로 전달된다.

텍스트 변환부(320)는 수신된 음성의 문장을 단어 별로 분할하고 분할된 각각의 단어를 텍스트 형태로 변환하고, 텍스트 형태로 변환된 단어를 변환 자막 생성부(330)로 전달된다.

변환 자막 생성부(330)는 변환된 텍스트 형태의 단어와 음절 간의 상관도값을 도출하고 도출된 각 단어별 상관도값을 토대로 텍스트 변환된 단어의 오류를 정정하여 변환 자막을 생성하며, 생성된 변환 자막은 보정 자막 생성부(340)로 전달된다. 이때 변환 자막 생성부(330)는 각 단어별 상관도값을 기준으로 변환 자막에 대응되는 원자막을 탐색하여 텍스트 변환 시 발생된 변환 자막의 오류를 정정한다.

보정 자막 생성부(340)는 생성된 변환 자막 데이터와 자막 DB(200)에 기록된 원 자막을 비교하여 비교 결과를 토대로 변환 자막을 원자막에 동기하도록 변환 자막의 위치를 보정하여 보정 자막을 생성한다.

변환 자막의 위치 보정은 각 단어 별 음성 인식 알고리즘을 수행하는 소요 시간을 각각의 지연 시간으로 설정하고 설정된 지연 시간에 대한 평균값을 획득하며 획득된 지연 시간의 평균값만큼 이동함에 따라 1차 위치 보정이 이루어진다. 그리고, 1차 위치 보정된 보정 자막을 이때 방송 신호에 대한 음성과 원자막의 동기화에 대한 정확도가 98%을 가지는 원자막의 지연 시간에 의거 1차 보정된 자막의 위치가 2차 보정된다. 이에 보정 자막 생성부(340)은 2차 보정된 자막 위치를 가지는 보정 자막을 출력한다. 본 발명의 실시 예에서, 설명의 편리성을 위해, 변환 자막의 1차 위치 보정은 각 단어 별 음성 인식 알고리즘을 수행하는 소요 시간을 각각의 지연 시간으로 설정하고 설정된 지연 시간에 대한 평균값을 획득하며 획득된 지연 시간의 평균값만큼 이동하는 것을 예를 들어 설명하고 있으나, 각 단어 별 음성 인식 알고리즘을 수행하는 소요 시간을 각각의 지연 시간을 고려하여 변환 자막의 1차 위치 보정을 수행하는 일련의 과정은 다양한 방안으로 고려될 수 있으며 본 발명의 실시 예에서 이에 한정하지 아니한다.

한편, 상기 보정 자막 생성부(340)는 음성의 화자인식 알고리즘을 이용하여 화자를 구분하고 각 화자 별로 보정 자막을 생성하며, 본 발명의 실시 예에서 다양한 화자인식 알고리즘을 이용하여 화자를 인식하는 일련의 과정은 본 발명의 실시 예와 관련된 기술분야에서 통상의 지식을 가진 자라면 이해할 수 있다.

이에 따라 방송 신호에 포함된 음성에 대한 자막 제작함에 있어, 음성 인식 알고리즘에 따른 지연 시간을 고려하여 변환 자막의 표시 위치가 원자막에 매칭되도록 변환 자막 위치가 보정되므로, 방송 신호에 대한 음성과 보정 자막 위치 동기화에 대한 정확도가 근본적으로 향상된다.

전술한 방송 신호의 음성의 문장을 단어 별로 분할하고 분할된 각각의 단어에 대해 텍스트 형태로 변환한 후 변환된 텍스트 형태의 단어와 음절 간의 상관도 값을 토대로 단어 별 텍스트 변환 시 발생하는 오류를 정정하는 일련의 과정은 도 4 내지 도 6을 참조하여 보다 구체적으로 설명한다.

도 4는 도 2에 도시된 자막 보정 장치(300)에서 원자막을 생성하는 일 례를 보인 도면으로서, 도 4를 참조하면, 자막 보정 장치(300)는 방송신호에 포함된 “우리들은 아름다운 서울 중구에 살고 있습니다” 라는 문장에 대해 원자막을 생성함에 있어, Td의 지연 시간이 경과됨을 확인할 수 있다.

도 5는 도 2에 도시된 자막 보정 장치(300)에서 변환 자막을 생성하는 일 례를 보인 도면으로서, 도 5를 참조하면, 자막 보정 장치(300)는 단어 별로 분할하고 분할된 단어 별로 음성 인식 알고리즘을 이용하여 텍스트 형태로 변환하여 단어 별 변환 자막을 도출하며, 각 단어 별 텍스트 변환 과정을 4개의 STT모듈을 병렬 수행하여 한 문장의 변환 자막이 생성된다. 이에 따라 자막생성시간인 Td를 크게 줄일 수 있다. 즉 STT알고리즘을 병렬 수행함으로써 변환자막 생성 시간을 줄일 수 있음을 보여주고 있다.

이때 각 단어 별 지연 시간은 도 5에 도시된 바와 같이, Td1 내지 Td4 이다. 즉, 각 단어 별 지연 시간은 Td1<Td2<Td3<Td4를 만족하므로 총 문장의 변환 자막의 지연 시간은 Td4이며, 이에 따라 변환 자막을 생성하는 시간은 원자막을 생성하기 위한 지연 시간(Td) 보다 작다는 것을 확인할 수 있다.

도 6은 도 4에 도시된 자막 보정 장치(300)에서 각 단어 별 변환 자막에 대한 상관도값을 도출하는 과정을 보인 예시도로서, 도 6의 (a)에 도시된 바와 같이, “아름다운” 단어의 변환 자막에 대해 음절 별(글자단위)로 이동하면서 상관도가 도출되고, “아름다운” 단어의 변환 자막과 방송 신호에 포함된 “아름다운” 음성이 일치하는 경우 이에 5번째 글자 위치에서 상관도값이 최대값인 4로 도출된다.

(b)에 도시된 바와 같이, “아립다운” 단어의 변환 자막에 대해 음절 별로 이동하면서 원 자막의 각 음절 간의 상관도값이 도출되고, “아립다운” 단어의 변환 자막과 방송 신호에 포함된 “아름다운” 음성이 불일치하는 경우 5번째 글자 위치에서 3의 상관도값이 도출된다. 즉, 상관도값을 토대로 단어 별 변환 자막 중 하나의 음절에서 오류가 발생되었음을 확인할 수 있다. 이에 따라 글자 위치 및 상관도값을 토대로 텍스트 형태로 변환 시 생성된 텍스트 형태의 음절의 오류를 정정하고 변환 자막의 위치를 보정하여 보정 자막이 생성된다.

또한, 설명의 편의에 따라 본 발명과 관련된 구성에 대해서는 설명함에 유의하여야 한다. 필요에 따라 도시된 서버들 외 사용자의 인증 관련, 과금 관련, 광고 관련, 및 번역 관련 등과 같은 다양한 기능을 제공하기 위한 서버들이 추가로 포함될 수 있을 것이다.

즉, 번역 기능을 수행하는 번역 장치(400)는 자막 보정 장치(300)에서 출력된 보정 자막을 기 정해진 번역기를 이용하여 번역한 후 번역 자막을 생성하고 생성된 번역 자막을 사용자 단말(S3)로 전달하는 기능을 수행한다. 이때 변환 자막에 대한 번역은 실시간으로 이루어지며 실시간으로 생성된 번역 자막은 자막 보정 장치(300)에 의거 번역 자막의 위치를 원자막을 토대로 보정하여 사용자 단말(S3)로 전달된다. 여기서, 실시간으로 변환 자막을 번역기를 통해 번역하는 일련의 과정은 본 발명의 실시 예와 관련된 기술분야에서 통상의 지식을 가진 자라면 이해할 수 있다.

또한, 본 발명의 실시 예에서 번역 장치(400)는 설명의 편의 상으로 자막 보정 장치(300)에 종속적으로 구성하는 것을 예시하고 있으나, 자막 보정 장치(300)와 각 기능별로 독립적으로 구성될 수 있으며, 하나 또는 그 이상의 서버에 상기 기능들이 통합되어 구비될 수 있다.

도 7은 본 발명의 실시 예에 따른 화자의 음성인식기를 이용하여 여러 사람이 동시에 얘기하거나 회의를 진행할 때 자동으로 회의록을 작성해주는 시스템으로도 사용할 수 있다.

도 7을 참조하면, 음성인식기를 이용하여 여러 사람이 동시에 얘기하거나 회의를 진행할 때 자동으로 회의록을 작성해주는 시스템으로, 화자인식을 이용하여 말한 사람을 구분해 자동으로 회의록을 작성할 수 있는 자동속기록생성시스템을 더 구성할 수 있다. 여기서 화자 인식 시스템은 음성데이터를 이용하여 특정인을 구분할 수 있는 기술이다. 음성인식시스템은 음성데이터를 이용하여 텍스트로 변환할 수 있는 기능을 갖고 있는 음성인식 알고리즘(STT :Speech To Text)기능을 수행한다. 자동속기록생성부는 STT에 의해서 만들어진 음성인식텍스트 데이터를 화자인식결과에 의해 화자를 구별하여 속기록을 만들어 내는 기능을 수행한다.

이때 자동 속기록 생성부는 텍스트 형태로 변환된 화자의 자막에 대해 음절 별 상관도값을 토대로 텍스트 변환 오류를 정정하고 각 단어 별 텍스트 변환 시 지연 시간의 평균값을 토대로 텍스트 형태로 변환된 화자의 자막을 화자의 원음성과 동기화시켜 기록할 수 있다.

이에 따라, 본 발명을 방송시스템에서 활용된다면, 지연시간을 최소화하면서 정확한 시점에 정확한 방송자막 데이터를 방송할 수 있는 장점이 있다. 기존에 방송된 방송 신호를 활용하여 재생 시간이 1~2분정도로 편집된 짧은 영상을 제공해주는 비디오 클립 서비스 시, 기존의 자막방송의 문자 데이터와 실제 출연자의 음성과 동기화된 서비스가 가능해지는 효과가 있다.

또한 현재 방송된 자막방송데이터는 실제 방송에서 출력되는 소리와 최대 4초 이상의 동기가 차이가 날 수 있는데 이러한 오차를 최소화하여 양질의 방송자막데이터를 제작하여 장애인들에게 혼란을 주지 않는 서비스가 가능하다.

한편, 본 발명의 다른 실시 태양에 따른 방송 자막 제작 방법은, 자막 제작 서버에서 방송국을 통해 수신된 방송 신호에 포함된 음성에 대한 원자막을 생성하여 저장하는 단계; 방송 신호로부터 수신된 방송 신호에 포함된 음성에 대한 문장을 단어 별로 분할하고 분할된 단어에 대해 음성 인식 알고리즘을 이용하여 텍스트 형태로 변환하여 변환 자막을 생성하고 생성된 변환 자막의 음절 별 상관도값을 도출하여 변환 자막에 대한 오류를 정정하는 단계; 오류가 정정된 변환 자막을 원자막에 동기시켜 보정 자막을 생성하는 단계; 및 보정 자막을 셋업 박스를 통해 수신된 방송 신호에 매칭시켜 사용자 단말에 표시하는 단계를 포함할 수 있다. 또한 보정 자막을 생성하는 단계는, 변환 자막의 단어 별 음성 인식 알고리즘을 수행하는 지연 시간에 대한 평균값을 기초로 원자막에 동기되도록 구비될 수 있다. 이러한 상기의 각 단계는, 전술한 자막 제작 서버(S1), 음성 수신부(310), 텍스트 변환부(320), 변환 자막 생성부(330), 및 보정 자막 생성부(340)에서 수행되는 기능으로 자세한 원용은 생략한다.

이상으로 본 발명의 기술적 사상을 예시하기 위한 바람직한 실시예와 관련하여 설명하고 도시하였지만, 본 발명은 이와 같이 도시되고 설명된 그대로의 구성 및 작용에만 국한되는 것이 아니며, 기술적 사상의 범주를 일탈함이 없이 본 발명에 대해 다수의 변경 및 수정이 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서, 그러한 모든 적절한 변경 및 수정과 균등물들도 본 발명의 범위에 속하는 것으로 간주되어야 할 것이다

방송 신호에 포함된 음성을 기초로 원자막을 생성하여 저장하고 수신된 방송 신호에 포함된 음성의 문장을 단어별로 분할하고 분할된 각각의 단어에 대해 음성인식알고리즘을 수행하여 텍스트 형태로 변환하여 변환 자막을 생성하고 생성된 변환 자막의 각 단어의 음절에 대한 상관도값을 토대로 텍스트 변환 오류를 정정하고 단어 별 음성인식 알고리즘 수행을 위한 지연 시간을 토대로 텍스트 변환 오류 정정된 변환 자막이 방송 신호의 음성에 동기된 보정 자막을 생성하여 사용자 단말로 전달함에 따라, 방송 신호의 음성에 정확하게 동기된 보정 자막을 생성할 수 있고, 이에 따라 수신된 방송 콘텐츠에 대한 몰입도 및 흥미성을 향상시킬 수 있는 방송 자막 제작 시스템 및 방법에 대한 운용의 정확성 및 신뢰도 측면, 더 나아가 성능 효율 면에 매우 큰 진보를 가져올 수 있으며, 방송 콘텐츠 수신 장치의 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있는 발명이다.

Claims

삭제
사용자 단말; 및
방송 신호에 포함된 음성을 토대로 원자막을 생성하고, 상기 방송 신호에 포함된 음성을 다수의 단어로 분할하고 분할된 각각의 단어에 대해 음성인식 알고리즘을 이용하여 텍스트 형태로 변환하여 변환 자막을 생성하며, 오류 정정된 변환 자막의 각 단어에 대해 음성인식 알고리즘 수행에 따른 지연 시간을 토대로 변환 자막이 방송 신호의 음성에 동기화된 보정 자막을 생성하여 상기 사용자 단말로 전달하는 자막 제작 서버를 포함하고,
상기 자막 제작 서버는,
방송국으로부터 송출된 방송 신호에 포함된 음성을 토대로 원 자막을 생성하여 자막 DB로 전송하는 방송신호 수신장치; 및
상기 방송신호의 음성을 제공받아 음성의 문장을 다수의 단어로 분할하고 분할된 각각의 단어에 대해 음성인식 알고리즘을 수행하여 텍스트 형태로 변환하여 변환 자막을 생성하며, 생성된 각각의 변환 자막의 각 단어에 대해 음절과 원 자막의 음절의 상관도값을 도출하여 도출된 상관도값을 기준으로 변환 자막에 대응하는 원자막을 찾아 텍스트 변환 시 발생한 변환 자막의 오류를 정정하고, 변환 자막의 각 단어에 대한 음성인식 알고리즘 수행에 따른 지연 시간을 토대로 텍스트 변환 오류가 정정된 변환 자막이 방송 신호의 음성에 동기화된 보정 자막을 생성하는 자막 보정 장치를 포함하는 것을 특징으로 하는 방송 자막 제작 시스템.
제2항에 있어서, 상기 자막 보정 장치는,
상기 방송신호의 음성을 제공받아 음성의 문장을 단어 별로 분할하는 음성 수신부;
분할된 각각의 단어에 대해 음성인식 알고리즘을 이용하여 텍스트 형태로 변환하여 변환 자막을 생성하는 텍스트 변환부;
생성된 각각의 변환 자막의 각 단어와 상기 원자막의 단어에 대해 음절 별 상관도값을 도출하여 도출된 상관도값을 기준으로 변환 자막에 대응하는 원자막을 찾아 텍스트 변환 시 발생된 변환 자막의 오류를 정정하는 변환 자막 생성부; 및
상기 오류 정정된 변환 자막의 각 단어에 대해 음성인식 알고리즘 수행에 따른 지연 시간을 토대로 변환 자막이 방송 신호의 음성에 동기화된 보정 자막을 생성하는 보정 자막 생성부를 포함하는 것을 특징으로 하는 방송 자막 제작 시스템.
제3항에 있어서, 상기 보정 자막 생성부는,
음성의 화자인식 알고리즘을 이용하여 화자를 구분하고 각 화자 별로 보정 자막을 생성하도록 구비되는 것을 특징으로 하는 방송 자막 제작 시스템.
제3항에 있어서, 상기 자막 제작 서버는
상기 오류 정정된 변환 자막을 요청된 언어로 번역하여 번역 자막을 생성한 후 생성된 번역 자막을 상기 보정 자막 생성부로 전달하는 번역 장치를 더 포함하는 것을 특징으로 하는 방송 자막 제작 시스템.
방송국으로부터 송출된 방송 신호에 포함된 음성을 토대로 원 자막을 생성하여 자막 DB로 전송하는 방송신호 수신장치;
상기 방송신호의 음성을 제공받아 음성의 문장을 다수의 단어로 분할하고 분할된 각각의 단어에 대해 음성인식 알고리즘을 수행하여 텍스트 형태로 변환하여 변환 자막을 생성하며, 생성된 각각의 변환 자막의 각 단어에 대해 음절과 원 자막의 음절의 상관도값을 도출하여 도출된 상관도값을 토대로 텍스트 변환 시 발생한 변환 자막의 오류를 정정하고, 변환 자막의 각 단어에 대한 음성인식 알고리즘 수행에 따른 지연 시간을 토대로 오류 정정된 변환 자막이 음성에 동기화된 보정 자막을 생성하는 자막 보정 장치를 포함하는 것을 특징으로 하는 방송 자막 제작 시스템의 자막 제작 서버.
제6항에 있어서, 상기 자막 보정 장치는,
상기 방송신호의 음성을 제공받아 음성의 문장을 단어 별로 분할하는 음성 수신부;
분할된 각각의 단어에 대해 음성인식 알고리즘을 이용하여 텍스트 형태로 변환하여 변환 자막을 생성하는 텍스트 변환부;
생성된 각각의 변환 자막의 각 단어와 상기 원자막의 단어에 대해 음절 별 상관도값을 도출하여 도출된 상관도값을 텍스트 변환 시 발생된 변환 자막의 오류를 정정하는 변환 자막 생성부; 및
상기 오류 정정된 변환 자막의 각 단어에 대해 음성인식 알고리즘 수행에 따른 지연 시간을 토대로 변환 자막이 방송 신호의 음성에 동기화된 보정 자막을 생성하는 보정 자막 생성부를 포함하는 것을 특징으로 하는 방송 자막 제작 시스템의 자막 제작 서버.
제7항에 있어서, 상기 보정 자막 생성부는,
음성의 화자인식 알고리즘을 이용하여 화자를 구분하고 각 화자 별로 보정 자막을 생성하도록 구비되는 것을 특징으로 하는 방송 자막 제작 시스템의 자막 제작 서버.
제7항에 있어서, 상기 자막 제작 서버는
상기 오류 정정된 변환 자막을 요청된 언어로 번역하여 번역 자막을 생성한 후 생성된 번역 자막을 상기 보정 자막 생성부로 전달하는 번역 장치를 더 포함하는 것을 특징으로 하는 방송 자막 제작 시스템의 자막 제작 서버.
자막 제작 서버에서 방송국을 통해 수신된 방송 신호에 포함된 음성에 대해 원자막을 생성하여 저장하는 단계;
방송 신호로부터 수신된 방송 신호에 포함된 음성에 대한 문장을 단어 별로 분할하고 분할된 단어에 대해 음성 인식 알고리즘을 수용하여 텍스트 형태로 변환하여 변환 자막을 생성하고 생성된 변환 자막의 음절과 원자막의 음절 별 상관도값을 도출하여 도출된 상관도값을 토대로 텍스트 변환 시 발생된 변환 자막에 대한 오류를 정정하는 단계;
오류가 정정된 변환 자막을 상기 원자막에 동기시켜 보정 자막을 생성하는 단계; 및
상기 보정 자막을 셋업 박스를 통해 수신된 방송 신호에 매칭시켜 사용자 단말에 표시하는 단계를 포함하는 것을 특징으로 하는 방송 자막 제작 방법.
제10항에 있어서, 상기 보정 자막을 생성하는 단계는,
상기 변환 자막의 단어 별 음성 인식 알고리즘을 수행하는 지연 시간을 토대로 상기 변환 자막이 방송 신호의 음성에 동기화된 보정 자막을 생성되도록 구비되는 것을 특징으로 하는 방송 자막 제작 방법.
제11항에 있어서, 상기 보정 자막을 생성하는 단계는,
음성의 화자인식 알고리즘을 이용하여 화자를 구분하고 각 화자 별로 보정 자막을 생성하도록 구비되는 것을 특징으로 하는 방송 자막 제작 방법.