KR20210009775A - 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치 - Google Patents

실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치 Download PDF

Info

Publication number
KR20210009775A
KR20210009775A KR1020190086773A KR20190086773A KR20210009775A KR 20210009775 A KR20210009775 A KR 20210009775A KR 1020190086773 A KR1020190086773 A KR 1020190086773A KR 20190086773 A KR20190086773 A KR 20190086773A KR 20210009775 A KR20210009775 A KR 20210009775A
Authority
KR
South Korea
Prior art keywords
translation
data
caption
translated
sentence
Prior art date
Application number
KR1020190086773A
Other languages
English (en)
Other versions
KR102229130B1 (ko
Inventor
윤동연
Original Assignee
북스타트 교육 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 북스타트 교육 주식회사 filed Critical 북스타트 교육 주식회사
Priority to KR1020190086773A priority Critical patent/KR102229130B1/ko
Publication of KR20210009775A publication Critical patent/KR20210009775A/ko
Application granted granted Critical
Publication of KR102229130B1 publication Critical patent/KR102229130B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 디지털 방송의 자막 제공 장치에 관한 것으로, 상세하게는 실시간 번역을 통해 디지털 방송에 대한 자막을 제공할 수 있는 디지털 방송의 자막 제공 서비스 장치에 관한 것이다.
또한, 본 발명에 따르면, 사용자 단말의 요청에 의해 스트리밍하는 디지털 방송 데이터로부터 자막을 추출하여 복호화하는 자막 추출부; 상기 자막 추출부에서 추출한 자막 데이터를 형태소 단위로 분석하고 직독직해 기호가 포함된 자막 데이터를 재구성하는 자막 분석부; 상기 자막 분석부에서 재구성한 자막 데이터를 미리 정해진 번역 서비스 장치로 번역 의뢰하는 번역 의뢰부; 상기 번역 의뢰에 의해 번역된 직독직해 번역 자막 데이터를 수신하여 취합하는 번역 결과 취합부; 및 상기 사용자 단말로부터 번역할 언어에 대하여 입력받고 상기 번역 결과 취합부를 통해 취합한 번역된 직독직해 번역 자막 데이터를 상기 디지털 방송 데이터와 동기화하여 송출하는 번역 자막 송출부를 포함하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치가 제공된다.

Description

실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치{APPARATUS FOR PROVIDING OF DIGITAL BROADCASTING USING REAL TIME TRANSLATION}
본 발명은 디지털 방송의 자막 제공 장치에 관한 것으로, 상세하게는 실시간 번역을 통해 디지털 방송에 대한 자막을 제공할 수 있는 디지털 방송의 자막 제공 서비스 장치에 관한 것이다.
최근 방송 신호를 전송하는 방식이 발전함에 따라 디지털 전송 방식을 적용한 디지털 TV가 보급되고 있다.
특히, 위성, 지상파, 케이블을 통해 방송되는 고화질, 고음질의 디지털 방송은 여러 장점들을 가지고 있어서 기존의 아날로그 방송에 비해 고화질, 고음질이고 다양한 부가 정보를 제공할 수 있다.
다양한 부가 서비스 중 하나로서, 디지털 방송은 방송 신호에서 자막 신호를 추출하여 이를 자신이 원하는 언어로 자동 번역함으로써 시청자가 이해 가능한 언어의 자막으로 방송을 시청할 수 있도록 하는 방송자막 기계 번역 시스템에 대한 요구가 증대되고 있는 실정이다.
여기서, 방송 자막이란 방송사에서 송출하는 영상 신호에 자막 신호가 삽입된 것으로서, 최근에는 많은 방송사들이 청각 장애인을 위해 이러한 자막 방송을 시행하고 있다. 미국의 경우에는 1990년도부터 13인치 이상의 텔레비젼에 대해 자막 기능을 의무화하였고, 국내의 경우에도 텔레비젼 방송사 및 CATV에서 자막 방송 프로그램을 확대하고 있으며, CNN, NHK, AFKN 등의 외국어 자막 방송의 지속적인 확대가 예상되고 있다.
그러나, TV 방송자막에서는 뉴스뿐만 아니라 드라마, 교양시사, 오락프로그램 등 다양한 방송 장르에서 구어체와 문어체가 혼용되어 사용되고 있고, 뉴스에서는 모든 분야에 걸쳐 전문용어 및 표현들이 다양하게 나타나기 때문에 상용화 가능한 수준의 높은 번역 성능을 갖는 방송자막 기계번역 시스템을 개발하기에는 기술적으로 상당한 어려움이 있다.
이와 같은 기술적 어려움을 해결하기 위한 것으로, 한국 특허공개 제1997-56985호(공개일: 1997.07.31)에는 TV내에 한국어 및 외국어 번역부를 별도로 구비하여 방송자막 데이터를 사용자의 요구에 따라 모국어 또는 외국어로 디스플레이시켜 시청자들에게 편리한 시청을 제공할 수 있는 '방송자막 번역 기능을 갖는 티브이'가 개시되어 있다.
그러나, 상기 방송자막 번역 기능을 갖는 티브이는 수신되는 방송신호에서 방송 자막 데이터를 추출한 후 사용자의 요구에 따라 자막 데이터를 번역하여 이를 TV화면에 디스플레이하는 방식을 취하고 있기 때문에, 별도로 방송자막 지원이 가능한 텔레비젼을 구입해야 하는 단점이 있다. 또한, 위성 셋탑박스, 비디오 플레이어, DMB 단말기 등 텔레비젼이 아닌 다른 미디어 장치를 통해 방송신호가 입력되는 경우 이에 대한 자막 번역 기능은 제공할 수 없다는 문제점을 갖고 있다.
한국 특허공개 제1997-56985호(공개일: 1997.07.31)
본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 사용자가 원하는 디지털 방송 프로그램과 언어를 선택하면 선택한 디지털 방송 프로그램을 스트리밍하면서 자막을 분석하고 분석한 자막을 원하는 언어로 번역하여 디지털 방송 프로그램과 함께 동기화하여 송출하는 디지털 방송의 자막 제공 서비스 장치를 제공하는 데 그 목적이 있다.
본 발명은 사용자 단말의 요청에 의해 스트리밍하는 디지털 방송 데이터로부터 자막을 추출하여 복호화하는 자막 추출부; 상기 자막 추출부에서 추출한 자막 데이터를 형태소 단위로 분석하고 직독직해 기호가 포함된 자막 데이터를 재구성하는 자막 분석부; 상기 자막 분석부에서 재구성한 자막 데이터를 미리 정해진 번역 서비스 장치로 번역 의뢰하는 번역 의뢰부; 상기 번역 의뢰에 의해 번역된 직독직해 번역 자막 데이터를 수신하여 취합하는 번역 결과 취합부; 및 상기 사용자 단말로부터 번역할 언어에 대하여 입력받고 상기 번역 결과 취합부를 통해 취합한 번역된 직독직해 번역 자막 데이터를 상기 디지털 방송 데이터와 동기화하여 송출하는 번역 자막 송출부를 포함한다.
이러한 본 발명에 따르면, 디지털 방송 프로그램을 시청 시 사용자가 원하는 언어로 번역한 자막을 동시에 시청할 수 있으므로 사용자의 편의성을 극대화할 수 있다. 특히, 디지털 방송 프로그램이 번역되어 데이터베이스화할 때까지 기다릴 필요없이 바로 디지털 방송의 시청이 가능한 효과가 있다.
도 1은 본 발명의 실시 예에 따른 자막 제공 장치의 네트워크 연결 구성도.
도 2는 본 발명의 실시 예에 따른 자막 제공 장치의 세부 구성도.
도 3은 본 발명에 따른 직독직해 기호를 포함한 자막 데이터의 예시도.
도 4는 직독직해 번역 자막 데이터가 제공되는 예시도.
도 5는 한국어 어순 번역 자막 데이터가 제공되는 예시도.
도 6은 도 1의 번역 서비스 장치의 구성도.
이하, 첨부된 도면을 참조하여 본 발명에 따른 실시 예를 상세하게 설명한다. 본 발명의 구성 및 그에 따른 작용 효과는 이하의 상세한 설명을 통해 명확하게 이해될 것이다. 본 발명의 상세한 설명에 앞서, 동일한 구성요소에 대해서는 다른 도면상에 표시되더라도 가능한 동일한 부호로 표시하며, 공지된 구성에 대해서는 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 구체적인 설명은 생략하기로 함에 유의한다.
도 1은 본 발명의 실시 예에 따른 자막 제공 장치의 네트워크 연결 구성도이고, 도 2는 본 발명의 실시예에 따른 자막 제공 장치의 세부 구성도이다.
먼저 도 1을 참조하면, 본 발명의 실시 예에 따른 자막 제공 서비스 장치(100)는 기본적으로 동영상의 영어 자막을 실시간 한글로 번역하여 제공하는 기능을 수행한다.
특히, 본 발명의 실시 예에 따른 자막 제공 서비스 장치(100)는 방송 사업자와 사용자 단말(200)간을 연동하여 방송 사업자가 제공하는 디지털 방송 데이터를 스트리밍하면서 이와 동시에 디지털 방송 데이터의 영어 자막을 한글로 번역하여 실시간으로 제공한다. 이처럼, 본 발명의 실시 예에 따른 자막 제공 서비스 장치(100)는 실시간 번역 기술을 제공함에 특징으로 한다.
방송 사업자는 방송 콘텐츠를 제작, 편집 및 변경하여 방송 수신부(1)로 제공하는 역할을 한다. 방송 사업자는 프로그램 공급자(Program Provider: PP), 지상파 또는 컨텐츠 제공자(Contents Provider: CP) 등을 포함할 수 있다.
방송 사업자에 의하여 제공되는 디지털 방송 데이터는 기존 방송 데이터와 인터넷 상의 다양한 동영상 데이터를 모두 포함할 수 있다. 예컨대, 실시간 방송 데이터, 주문형 비디오(Video On Demand: 이하 VOD) 데이터, 케이블 방송 데이터 등을 포함한다.
디지털 방송 데이터는 일반적으로 방송 수신부(1)를 통해 수신하고 스트리밍 처리부(2)를 거쳐 사용자 단말(200)의 환경에 적합한 포맷으로 데이터 변환된다.
그리고 변환된 형태로 방송 송출부(3)를 통해 사용자 단말(200)로 송출된다.
이때, 사용자 단말(200)로의 송출 방법은 브로드캐스팅(broadcasting) 또는 유니캐스팅(unicasting) 중 하나를 이용하거나 또는 이들의 혼합 방식을 이용할 수 있다.
또는, 디지털 방송 데이터는 VOD(Video On Demand) 서버(4)에 사전 구축해 두었다가, 사용자 단말(200)의 요청에 따라 추출하여 제공될 수 있다.
스트리밍 처리부(2)는 아래의 도 2에서 구체적으로 설명하기로 한다.
이러한 구성을 토대로 본 발명의 실시 예에 따른 자막 제공 서비스 장치(100)는 자막 추출부(110), 자막 분석부(120), 번역 의뢰부(130), 번역 결과 취합부(140), 번역 자막 관리부(150), 번역 자막 송출부(160)를 포함하여 구현할 수 있다.
자막 추출부(110)는 방송 수신부(1)를 통해 스트리밍하는 디지털 방송 데이터로부터 자막을 추출하여 복호화한다. 디지털 방송 데이터에 자막 데이터가 포함되어 있는 경우 이의 추출은 쉽게 수행할 수 있다. 즉, 방송 수신부(1)를 통해 수신한 디지털 방송 데이터는 보통 영상 데이터, 음성 데이터가 포함되어 있고, 이들과 구분되는 텍스트 형태의 자막 데이터가 존재하는 경우 이를 취합하여 하나의 파일로 제공된다. 따라서, 자막 데이터의 추출은 당업자가 용이하게 수행할 수 있다.
자막 추출부(110)는 도 1에 도시한 구성과 같이 방송 수신부(1)의 후단에서 방송 수신부(1)를 통해 스트리밍하는 디지털 방송 데이터로부터 직접 추출하는 것도 가능하지만, 방송 수신부(1)를 통해 스트리밍하는 디지털 방송 데이터를 영상, 음성, 자막으로 분리하는 스트리밍 처리부(2)의 동영상 분리부(21)와 연계하여 추출할 수도 있다.
추출시 자막 데이터에 영상 데이터와 동기화하기 위한 자막 시작 시간도 함께 추출한다.
이때, 자막 시작 시간은 보통 방송 수신부(1)를 통해 영상 데이터와 함께 수신되는 경우 영상 데이터의 재생 시간과 매칭이 잘 이루어지지만, 청각장애인의 시청권을 확보하기 위해 폐쇄 자막(closed caption) 시스템을 이용하여 자막 데이터가 추가 포함된 경우 영상 데이터의 재생 시간 대비 몇 초 정도의 지연될 수 있다.
자막 분석부(120)는 자막 추출부(110)에서 추출한 자막 데이터를 단어, 문자, 부호 등의 형태소 단위로 분석하고, 직독직해 기호를 포함하여 번역을 요청할 하나의 문장 형태로 재구성한다.
이를 좀더 상세히 살펴보면, 자막 분석부(120)는 입력된 자막 데이터를 기초로 형태소를 분석하게 된다.
자막 분석부(120)는 주어, 서술어, 목적어, 보어 및 기타수식어 중 두 개 이상의 조합으로 이루어지는 문장성분을 분석하여 제 1형식 내지 제 5형식 중 어느 하나의 문장형식을 결정하고 이에 따른 문장성분 및 문장형식의 제 1결과데이터를 생성한다.
그리고, 자막 분석부(120)는 문장데이터의 문장성분 및 문장형식이 분석된 제 1결과데이터를 전달받아 명사, 동사, 수식어, 부정사, 동명사, 분사, 비교급, 등위접속사, 접속사, 관계대명사, 관계부사를 포함하는 다수의 품사군 중 어느 하나 또는 이들의 조합으로 문장성분별 분석을 수행하여 문장데이터를 품사별로 분류하는 제 2결과데이터를 생성한다.
아울러 상기 자막 분석부(120)는 제 1결과데이터 및 제 2결과데이터 를 전달받아 해당 품사별로 특정기호를 문장데이터에 표시하여 직독직해 기호를 포함한 자막 데이터를 생성하는데, 이러한 특정 기호는 해당 단어 또는 구절에 밑줄을 그어 표시하거나, 원문자 또는 세모, 화살표 등으로 표시하는데, 본 발명의 일실시예에 따른 기호는 하나의 예시에 불과하며, 이러한 기호표시는 다양하게 채택되어 표시될 수 있다.
도 3은 본 발명에 따른 직독직해 기호를 포함한 자막 데이터의 예시도이다.
도면을 참조하면, 본 발명의 일실시예에 따라 자막 분석부(120)는 문장성분 또는 품사별로 분류하여 특정 기호처리를 수행하는데, 이를 상세하게 설명하면 우선 분류된 문장성분 또는 품사가 동사일 경우 해당 단어 또는 구절의 하부측에 밑줄을 그어 표시한다.
아울러 수식어구(전치사+명사)의 경우 해당 단어 또는 구절의 전방측에 '/' 기호를 표시하며, 부정사의 경우 ' to'부분에는 이를 수용하는 원을 그리고 'to' 뒷부분에는 하부측에 밑줄을 그어 표시한다.
이때 분사구문(V·ing 명사(S), pp 명사)일 경우에는 전술한 바와 같이 밑줄과 원의 기호를 처리하지 않고 해당 단어 또는 구절 상부에 '
Figure pat00001
' 기호를 표시한다.
또한 분류된 문장성분 또는 품사가 분사(V· ing 명사, pp)일 경우 해당 단어V·ing, pp) 또는 구절에서 해당 단어 또는 구절이 수식하는 전방측 또는 후방측의 명사방향으로 상부측에 화살표를 그어 표시한다.
아울러 분류된 문장성분 또는 품사가 비교급일 경우 해당 단어 또는 구절의 'as' 또는 'than' 부분에 이를 수용하는 '△'기호를 표시하며, 분류된 문장성분 또는 품사가 접속사일 경우 해당 단어 또는 구절에 이를 수용하는 '△' 또는 '○'기호를 표시하는데, 접속사가 등위접속사인 경우 '△' 기호를 표시하고 종속접속사인 경우 '○' 기호를 표시한다.
또한 분류된 문장성분 또는 품사가 관계대명사 또는 관계부사일 경우 해당 단어 또는 구절에 이를 수용하는 '○'기호를 표시하고 관계대명사 또는 관계부사 전방방향으로 '
Figure pat00002
'기호를 함께 표시한다.
또한 제 1결과데이터 및 제 2결과데이터를 통해 접속사, 관계대명사 또는 관계부사가 생략된 것으로 판단되는 경우 해당 문장데이터의 생략된 위치 부분에 접속사의 경우 '∨'기호를 표시하고 관계대명사 또는 관계부사일 경우 '
Figure pat00003
'기호를 표시한다.
한편, 번역 의뢰부(130)는 번역할 장치(이하, 번역 서비스 장치)를 미리 정해두고, 자막 분석부(120)에서 분석한 직독직해 기호가 포함된 자막 데이터를 번역 서비스 장치(300)로 전달하여 번역을 의뢰한다.
번역 서비스 장치(300)는 번역 의뢰부(130)를 통해 의뢰된 직독직해 기호가 포함된 자막 데이터를 한글로 자동 번역한다. 이러한 번역 서비스 장치(300)는 외부의 번역업체와 연계되는 구성으로 별개의 독립적인 장치로 구분될 수 있음은 물론, 본 발명의 자막 제공 서비스 장치(100)에 포함될 수도 있다.
한편, 번역 서비스 장치(300)는 입력 문장을 처음부터 끝까지 읽으면서 가능한 분할점 후보들을 모두 추출하여 문장을 분할한다. 여기서, 사용된 분할점 후보들은 문장 부호, 수식어구, 수식어절이다.
여기에서, 문장 부호는 마침표(.), 물음표(?), 느낌표(!), 쉼표(,), 가운뎃 점(·), 쌍점( : ), 쌍반점(;), 빗금(/), 큰따옴표(“ ”), 작은따옴표(‘ ’), 소괄호(( )), 중괄호,({ }), 대괄호([ ]), 붙임표(-), 줄표(--), 물결표(~), 줄임표(......) 등이 있다.
이때, 수식어구나 수식어절은 '/' 기호, '△' 기호 또는 '○'기호로 직독직해 기호가 표기되어 있다.
다만, 번역 서비스 장치(300)는 쉼표인 경우에 명사나 명사절이 이어지면, 분할점 후보에서 제외한다. 이때, 번역 서비스 장치(300)는 쉼표 이후에 이어지는 단어가 전치사 역할을 하는 including인 경우에는 분할점 후보에서 제외하지 않는다.
또한, 번역 서비스 장치(300)는 수식어구의 경우에 앞에 단어가 분사구문인 경우에 분할점 후보에서 제외한다.
즉, 번역 서비스 장치(300)는 '/' 기호의 경우에 앞에 단어가 분사구문으로 '
Figure pat00004
' 기호가 표시되어 있는 경우에 분할점 후보에서 제외한다. 다만 번역부 (3-1)는 '/' 기호의 뒤에 전치사를 앞에 둔 동명사가 위치하는 경우(/전치사+동명사)에는 분할점 후보에서 제외하지 않는다.
또한, 번역 서비스 장치(300)는 동사의 경우에 앞뒤에 가상의 분할점을 추가하여 분할되도록 한다.
즉, 번역 서비스 장치(300)는 동사의 경우에 밑줄이 위치하고 있는바, 밑줄이 있는 경우에 가상의 분할점을 앞과 뒤에 추가한다.
그리고, 번역 서비스 장치(300)는 등위접속사인 경우에 다음에 동사가 아닌 경우에는, 즉 명사등인 경우에는 분할점 후보에서 제외한다.
다만, 번역 서비스 장치(300)는 등위접속사에서 but은 뒤에 동사가 있는 경우에 가상의 분할점을 앞과 뒤에 추가한다.
즉, 번역 서비스 장치(300)는 등위 접속사인 경우에 '△' 기호로 표기되며, '△' 기호이후에 동사를 나타내는 밑줄 기호가 없는 경우에 분할점 후보에서 제외하며, 등위접속사에서 but인 경우에 밑줄 기호가 있는 경우에는 가상의 분할점을 앞과 뒤에 추가한다.
상기 번역 서비스 장치(300)는 수식어절이 관계 대명사나 관계 부사인 경우에 관계 대명사나 관계 부사가 한정하는 한정 부분을 수식어절의 동사를 대체하여 번역한다.
즉, 상기 번역 서비스 장치(300)는 수식어절이 관게 대명사나 관계 부사인 경우에 '○'기호를 표시하고 관계대명사 또는 관계부사 전방방향으로 '
Figure pat00005
'기호를 함께 표시되어 있는바, '○'기호에 '
Figure pat00006
'기호가 있는 경우에 한정 부분으로 수식어절의 동사를 대체하여 번역한다. 도 4와 이와 같이 직독직해 번역 자막 데이터가 제공되는 예시도이다.
한편, 상기 번역 서비스 장치(300)는 직독직해된 번역 자막 데이터를 제공할 뿐만 아니라 한국어 어순에 적합한 번역 자막 데이터를 제공한다.
이때, 상기 번역 서비스 장치(300)는 주어와 관련된 수식어의 경우에 순서가 반대로 될 수 있다.
일예로, 영어 문장이 "On a clear day, a crewmember on a merchant ship sailing across the caribbean Sea peers out at the horizon through his telescope"인 경우에 "맑은 날에는 승무원이 카리브 해를 가로 지르는 상선에서 그의 망원경을 통해 수평선을 응시한다"로 번역하는 경우가 많이 있다.
이러한 잘못된 번역을 방지하기 위하여, 번역 서비스 장치(300)는 동사 앞에 있는 명사들을 추출한다.
이때, 번역 서비스 장치(300)는 의미 요소가 강한 명사들을 추출하며, 번역 서비스 장치(300)는 일예로 승무원, 상선을 선택한다. 이처럼 번역 서비스 장치(300)는 동사 앞에 명사가 적어도 2개이상인 경우에 아래 동작을 진행한다.
그리고, 번역 서비스 장치(300)는 빅데이터에서 승무원과 상선을 입력하여 빅데이터에서 해당 단어를 포함한 문장들을 추출하며, 추출된 문장들에서 승무원에 이어 상선이 표현된 문장 비율을 산출하고, 이와 반대로 상선에 이어 승무원이 표현된 문장 비율을 산출하여 산출된 문장 비율이 큰 순서에 따라 배열된 한국어 어순 번역 자막 데이터를 작성하여 도 6에 도시된 바와 같이 번역 결과 취합부(140)를 통하여 사용자에게 제공한다.
상기 번역 서비스 장치(300)는 일예로 추출된 문장들에서 승무원에 이어 상선이 표현된 문장 비율이 30%이고, 이와 반대로 상선에 이어 승무원이 표현된 문장 비율을 산출하여 산출된 문장 비율이 70%이면 번역 서비스 장치(300)는 "맑은 날에는 카리브 해를 가로 지르는 상선에서 승무원이 수평선을 그의 망원경을 통해 응시한다"로 번역된 한국어 어순 번역 자막 데이터를 생성한다.
즉, 번역 서비스 장치(300)는 이와 같은 과정을 통하여 주어의 의미 단위 독해 이후에, 수식어의 의미 단위를 독해하고, 동사의 의미 단위가 독해되도록 하여 자연스러운 문장이 되도록 한다.
한편, 번역 서비스 장치(300)는 동사 관련하여 번역상의 오류를 수정하기 위한 동사 후처리 과정을 수행한다.
이를 위하여 번역 서비스 장치(300)는 동사의 앞과 뒤의 검색 명사들을 추출하여 빅데이터에서 관련 검색 명사들을 포함한 문장들을 검색하여 추출한다.
그리고, 상기 번역 서비스 장치(300)는 해당 동사의 의미와 유사한 의미의 동사 표현을 동사 대체 후보로 추출하며, 추출된 동사 대체 후보들에 대하여 문장 비율을 산출한 후에 문장 비율이 가장 큰 가장 큰 동사 대체 후보로 해당 동사 표현을 대체한다.
일예로, 번역 서비스 장치(300)는 "A black flag is flying high on its mast."에 대하여 "검은 깃발이 그 돛대에서 높이 달려있다."로 1차 번역하고, "깃발", "돛대"를 1차 번역문의 복수의 대표 명사로 추출한 후에, 이를 빅데이터에서 검색하여 해당 복수의 대표 명사를 포함한 문장들을 수집한다.
이때, 번역 서비스 장치(300)에 의해 수집될 수 있는 문장들은 일예로 "돛대에는 바람이 잘게 찢어놓은 깃발들 찢어진 깃발들이 슬픈 춤을 춘다", " 높게 솟은 돛대 사이로 깃발이 펄럭입니다", "부러진 돛대 끝엔 처참하게 찢긴 깃발이 늘어져 있었다"등이며, 번역 서비스 장치(300)는 해당 동사의 의미와 유사한 의미의 동사 표현을 동사 대체 후보로 추출하여 문장 비율을 산출한다.
상기 번역 서비스 장치(300)는 문장 비율을 산출한 결과, 일예로 "돛대에는 바람이 잘게 찢어놓은 깃발들 찢어진 깃발들이 슬픈 춤을 춘다"에서 추출된 대체 동사 후보인 "슬픈 춤을 춘다"를 포함한 문장비율이 2%, " 높게 솟은 돛대 사이로 깃발이 펄럭입니다"라는 문장에서 추출된 대체 동사 후보인 "펄럭이다"를 포함함 문장 비율이 25%, "돛대 끝엔 처참하게 찢긴 깃발이 늘어져 있었다"라는 표현에 "늘어져 있었다"를 포함한 표현이 8%인 경우에, 문장 비율이 가장 큰 "펄럭이다"로 "달려있다"를 대체한다.
이와 달리, 번역 서비스 장치(300)는 "A black flag is flying high on its mast."에 대하여 "검은 깃발이 그 돛대에서 높이 달려있다."로 1차 번역하고, "깃발", "돛대"를 1차 번역문의 복수의 검색 명사로 추출한 후에, 이를 빅데이터에서 검색하여 해당 복수의 검색 명사를 포함한 문장들을 수집하여 각각의 문장들을 제1 내지 n의 대체 후보 번역문으로 분류한다.
이후에, 번역 서비스 장치(300)는 1차 번역문에서 복수의 기준 대표 단어를 추출하되, 복수의 기준 대표 단어와 복수의 제1 내지 n의 대체 대표 단어 사이의 유사도를 측정하고, 결과를 바탕으로 해당 동사와 제1 내지 n의 동사 대체 후보 사이의 유사도를 추론하여 유사도가 가장 큰 동사 대체 후보를 해당 동사로 대체한다.
해당 동사와 복수의 제1 내지 n의 동사 대체 후보 사이의 유사도의 측정은, 복수의 기준 대표 단어와 복수의 제1 내지 n의 대체 대표 단어 사이에 공통된 단어의 존재 유무를 검사함으로써 이루어질 수 있으며, 아래의 수식(1)에 따라 연산될 수 있다.
(수학식 1)
Figure pat00007
여기서, n은 어느 하나의 대체 후보 번역문으로부터 추출된 복수의 대체 대표 단어의 개수를 나타낸다. 이때, 대체 대표 단어 중 i번째 단어가 기준 대표 단어 및 대체 대표 단어에 공통적으로 존재하는 때 Si 값은 1의 값을 갖는다.
기준 대표 단어 중 i번째 단어가 대체 대표 단어에는 존재하지 않는 때 Si 값은 0의 값을 갖는다.
한편, 번역 결과 취합부(140)는 번역 서비스 장치(300)로부터 번역된 자막 데이터(이하, 번역 자막 데이터-직독직해 번역 자막 데이터와 한국어 어순 번역 자막 데이터를 포함)를 수신하고 이를 취합한다.
이때, 번역 결과 취합부(140)는 번역 자막 데이터의 재생 시간을 디지털 방송 데이터의 음성 신호에 기초하여 매칭할 수 있다. 즉, 디지털 방송 데이터의 음성 신호가 발생하는 구간에 해당 자막 데이터를 매칭하여 취합함으로써 디지털 방송 데이터에 번역 자막 데이터를 동기화한다.
동기화를 위해, 번역 결과 취합부(140)는 번역 자막 데이터를 수신하는 시간과 번역 의뢰부(130)에서 의뢰한 시간을 확인하여 번역 과정에 소요되는 시간을 산출한다. 따라서, 번역 과정에 소요되는 시간이 일정 시간을 경과하여 지연되는 경우 경과한 시간만큼 디지털 방송 데이터의 영상 데이터를 딜레이하도록 요청할 수 있다.
또한, 디지털 방송 데이터에서 원 자막 데이터가 영상 데이터의 재생 시간 대비 몇 초 정도 지연되는 경우(예컨대, 원 자막 데이터가 청각장애인의 시청권 보호를 위해 인력에 의해 실시간으로 입력되는 폐쇄 자막 데이터인 경우), 번역 결과 취합부(140)는 디지털 방송 데이터로부터 추출되는 자막 데이터(즉, 원 자막 데이터)의 재생시간과 영상 데이터의 재생 시간간 지연 시간에 기초하여 영상 데이터의 재생 시간을 딜레이하도록 요청할 수 있다. 즉, 번역 결과 취합부(140)는 원 자막 데이터의 재생 시간과 영상 데이터의 재생 시간간 지연 시간을 산출한 값에 기초하여 그 지연 시간만큼 영상 데이터의 재생 시간을 딜레이하도록 요청할 수 있다.
번역 자막 관리부(150)는 디지털 방송 데이터에 대한 원 자막 데이터와, 번역 결과 취합부(140)를 통해 취합한 번역 자막 데이터를 데이터베이스에 저장하고 추후 활용하기 적합한 파일 형식으로 재구성하는 등 데이터를 관리한다.
번역 자막 송출부(160)는 사용자 단말(200)로부터 번역할 언어에 대하여 입력받으며, 번역 결과 취합부(140)를 통해 취합한 번역 자막 데이터를 스트리밍하는 디지털 방송 데이터와 동기화하여 송출한다.
특히, 번역 결과 취합부(140)에서 디지털 방송 데이터의 영상 데이터에 대한 딜레이 요청이 발생하면, 번역 자막 송출부(160)에서 지연 시간만큼 디지털 방송 데이터의 영상 데이터를 딜레이하여 송출한다.
다음으로 도 2를 참조하면, 스트리밍 처리부(2)는 방송 수신부(도 1의 1)를 통해 스트리밍하는 디지털 방송 데이터를 영상, 음성으로 분리하여 데이터 처리 후 동기화하는 구성을 포함할 수 있다.
이를 위한 구성으로, 스트리밍 처리부(2)는 동영상 분리부(21), 음성신호 특징 분석부(22), 음성시작시간 기록부(23), 통합부(24)를 포함한다.
동영상 분리부(21)는 방송 수신부(도 1의 1)를 통해 스트리밍하는 디지털 방송 데이터로부터 영상 데이터와 음성 데이터를 분리한다. 이러한 동영상 분리부(21)는 구체적으로 방송 수신부를 통해 스트리밍하는 디지털 방송데이터로부터 영상 데이터를 추출하는 영상 추출부(21a), 및 음성 데이터를 추출하는 음성 추출부(21b)로 구성될 수 있다.
음성신호 특징 분석부(22)는 음성 추출부(21b)를 통해 추출한 음성 데이터를 분석하여 동영상 내 음성시작 시간을 검출한다. 음성시작 시간은 자막 데이터를 동기화할 때 자막 시작 시간을 결정하는 데 기준이 된다.
음성 데이터의 분석은 음성신호의 주파수, 피크치(Peak), 에지 검출(edge detection), 노이즈(noise) 분석 등을 활용할 수 있다.
음성시작시간 기록부(23)는 음성신호 특징 분석부(22)를 통해 분석한 정보에 기초하여 영상 내에 음성시작 시간이 판단되는 지점의 시간들을 기록한다.
통합부(24)는 영상 추출부(21a) 및 음성 추출부(21b)를 통해 추출한 영상 데이터 및 음성 데이터를 통합하여 하나의 방송 데이터로 구성한다. 이때, 음성 데이터는 음성시작시간 기록부(23)를 거쳐 음성시작시간이 포함된 형태로 통합된다.
또한, 통합부(24)는 앞서 설명한 자막 제공 서비스 장치(도 1의 100)에서 실시간 번역한 번역 자막 데이터를 수신하여 영상 데이터와 함께 통합할 수 있다.
도 6은 본 발명에 따른 번역 서비스 장치의 구성을 보여주는 도면이다.
도 6을 참조하면, 본 발명에 따른 번역 서비스 장치는 문장 분할기(10), 직독직해 번역기(12), 한국어 어순 번역기(14), 어순 정렬기(16) 및 후처리 수행기(18)를 포함한다.
먼저, 상기 문장 분할기(10)는 입력 문장을 처음부터 끝까지 읽으면서 가능한 분할점 후보들을 모두 추출한다. 여기서, 사용된 분할점 후보들은 문장 부호, 수식어구, 수식어절이다.
여기에서, 문장 부호는 마침표(.), 물음표(?), 느낌표(!), 쉼표(,), 가운뎃 점(·), 쌍점( : ), 쌍반점(;), 빗금(/), 큰따옴표(“ ”), 작은따옴표(‘ ’), 소괄호(( )), 중괄호,({ }), 대괄호([ ]), 붙임표(-), 줄표(--), 물결표(~), 줄임표(......) 등이 있다.
이때, 수식어구나 수식어절은 '/' 기호, '△' 기호 또는 '○'기호로 직독직해 기호가 표기되어 있다.
다만, 문장 분할기(10)는 쉼표인 경우에 명사나 명사절이 이어지면, 분할점 후보에서 제외한다. 이때, 문장 분할기(10)는 쉼표 이후에 이어지는 단어가 전치사 역할을 하는 including인 경우에는 분할점 후보에서 제외하지 않는다.
또한, 문장 분할기(10)는 수식어구의 경우에 앞에 단어가 분사구문인 경우에 분할점 후보에서 제외한다.
즉, 문장 분할기(10)는 '/' 기호의 경우에 앞에 단어가 분사구문으로 '
Figure pat00008
' 기호가 표시되어 있는 경우에 분할점 후보에서 제외한다.
또한, 문장 분할기(10)는 동사의 경우에 앞뒤에 가상의 분할점을 추가하여 구별되도록 한다.
즉, 문장 분할기(10)는 동사의 경우에 밑줄이 위치하고 있는바, 밑줄이 있는 경우에 가상의 분할점을 앞과 뒤에 추가한다.
그리고, 문장 분할기(10)는 등위접속사인 경우에 다음에 동사가 아닌 경우에는, 즉 명사등인 경우에는 분할점 후보에서 제외한다.
다만, 문장 분할기(10)는 등위접속사에서 but은 뒤에 동사가 있는 경우에 가상의 분할점을 앞과 뒤에 추가한다.
즉, 문장 분할기(10)는 등위 접속사인 경우에 '△' 기호로 표기되며, '△' 기호이후에 동사를 나타내는 밑줄 기호가 없는 경우에 분할점 후보에서 제외하며, 등위접속사에서 but인 경우에 밑줄 기호가 있는 경우에는 가상의 분할점을 앞과 뒤에 추가한다.
다음으로, 직독직해 번역기(12)는 문장 분할된 영어 문장을 입력받아 문장 분할된 순서에 따라 번역하여 직독직해 번역 자막 데이터를 생성한다.
여기에서, 직독직해 번역기(12)는 직독직해 기호가 표함된 영어 문장에서 직독직해 기호의 의미 단위 연산을 수행하고, 이를 기초로 하여 의미단위 직독직해를 수행한다.
한국어 어순 번역기(14)는 직독직해 번역기(12)에서 번역된 직독직해 번역 자막 데이터를 입력받아 한국어 어순에 따른 순서로 조정하여 한국어 어순 번역 자막 데이터를 생성한다.
이때, 직독직해 번역기(12)는 수식어절이 관계 대명사나 관계 부사인 경우에 관계 대명사나 관계 부사가 한정하는 한정 부분을 수식어절의 동사로 대체하여 번역한다.
즉, 상기 문장 분할기(10)는 수식어절이 관게 대명사나 관계 부사인 경우에 '○'기호를 표시하고 관계대명사 또는 관계부사 전방방향으로 '
Figure pat00009
'기호를 함께 표시되어 있는바, 직독직해 번역기(12)는 '○'기호에 '
Figure pat00010
'기호가 있는 경우에 한정 부분으로 수식어절의 동사를 대체하여 번역한다.
한편, 상기 한국어 어순 번역기(14)는 주어와 관련된 수식어의 경우에 순서가 반대로 될 수 있다.
일예로, 영어 문장이 "On a clear day, a crewmember on a merchant ship sailing across the caribbean Sea peers out at the horizon through his telescope"인 경우에 "맑은 날에는 승무원이 카리브 해를 가로 지르는 상선에서 그의 망원경을 통해 수평선을 응시한다"로 번역하는 경우가 많이 있다.
이러한 잘못된 번역을 방지하기 위하여, 어순 정렬기(16)는 동사 앞에 있는 명사들을 추출한다.
이때, 어순 정렬기(16)는 의미 요소가 강한 명사들을 추출하며, 어순 정렬기(16)는 일예로 승무원, 상선을 선택한다. 이처럼 어순 정렬기(16)는 동사 앞에 명사가 적어도 2개이상인 경우에 아래 동작을 진행한다.
그리고, 어순 정렬기(16)는 빅데이터에서 승무원과 상선을 입력하여 빅데이터에서 해당 단어를 포함한 문장들을 추출하며, 추출된 문장들에서 승무원에 이어 상선이 표현된 문장 비율을 산출하고, 이와 반대로 상선에 이어 승무원이 표현된 문장 비율을 산출하여 산출된 문장 비율이 큰 순서에 따라 배열된 한국어 어순 번역 자막 데이터를 작성하여 사용자에게 제공한다.
상기 어순 정렬기(16)는 일예로 추출된 문장들에서 승무원에 이어 상선이 표현된 문장 비율이 30%이고, 이와 반대로 상선에 이어 승무원이 표현된 문장 비율을 산출하여 산출된 문장 비율이 70%이면 어순 정렬기(16)는 "맑은 날에는 카리브 해를 가로 지르는 상선에서 승무원이 수평선을 그의 망원경을 통해 응시한다"로 번역된 한국어 어순 번역 자막 데이터를 생성한다.
한편, 후처리 수행기(18)는 동사 관련하여 번역상의 오류를 수정하기 위한 동사 후처리 과정을 수행한다.
이를 위하여 후처리 수행기(18)는 동사의 앞과 뒤의 검색 명사들을 추출하여 빅데이터에서 관련 검색 명사들을 포함한 문장들을 검색하여 추출한다.
그리고, 상기 후처리 수행기(18)는 해당 동사의 의미와 유사한 의미의 동사 표현을 동사 대체 후보로 추출하며, 추출된 동사 대체 후보들에 대하여 문장 비율을 산출한 후에 문장 비율이 가장 큰 가장 큰 동사 대체 후보로 해당 동사 표현을 대체한다.
일예로, 후처리 수행기(18)는 "A black flag is flying high on its mast."에 대하여 "검은 깃발이 그 돛대에서 높이 달려있다."로 1차 번역하고, "깃발", "돛대"를 1차 번역문의 복수의 대표 명사로 추출한 후에, 이를 빅데이터에서 검색하여 해당 복수의 대표 명사를 포함한 문장들을 수집한다.
이때, 후처리 수행기(18)에 의해 수집될 수 있는 문장들은 일예로 "돛대에는 바람이 잘게 찢어놓은 깃발들 찢어진 깃발들이 슬픈 춤을 춘다", " 높게 솟은 돛대 사이로 깃발이 펄럭입니다", "부러진 돛대 끝엔 처참하게 찢긴 깃발이 늘어져 있었다"등이며, 후처리 수행기(18)는 해당 동사의 의미와 유사한 의미의 동사 표현을 동사 대체 후보로 추출하여 문장 비율을 산출한다.
상기 후처리 수행기(18)는 문장 비율을 산출한 결과, 일예로 "돛대에는 바람이 잘게 찢어놓은 깃발들 찢어진 깃발들이 슬픈 춤을 춘다"에서 추출된 대체 동사 후보인 "슬픈 춤을 춘다"를 포함한 문장비율이 2%, " 높게 솟은 돛대 사이로 깃발이 펄럭입니다"라는 문장에서 추출된 대체 동사 후보인 "펄럭이다"를 포함함 문장 비율이 25%, "돛대 끝엔 처참하게 찢긴 깃발이 늘어져 있었다"라는 표현에 "늘어져 있었다"를 포함한 표현이 8%인 경우에, 문장 비율이 가장 큰 "펄럭이다"로 "달려있다"를 대체한다.
이와 달리, 후처리 수행기(18)는 "A black flag is flying high on its mast."에 대하여 "검은 깃발이 그 돛대에서 높이 달려있다 ."로 1차 번역하고, "깃발", "돛대"를 1차 번역문의 복수의 검색 명사로 추출한 후에, 이를 빅데이터에서 검색하여 해당 복수의 검색 명사를 포함한 문장들을 수집하여 각각의 문장들을 제1 내지 n의 대체 후보 번역문으로 분류한다.
이후에, 후처리 수행기(18)는 1차 번역문에서 복수의 기준 대표 단어를 추출하되, 복수의 기준 대표 단어와 복수의 제1 내지 n의 대체 대표 단어 사이의 유사도를 측정하고, 결과를 바탕으로 해당 동사와 제1 내지 n의 동사 대체 후보 사이의 유사도를 추론하여 유사도가 가장 큰 동사 대체 후보를 해당 동사로 대체한다.
해당 동사와 복수의 제1 내지 n의 동사 대체 후보 사이의 유사도의 측정은, 복수의 기준 대표 단어와 복수의 제1 내지 n의 대체 대표 단어 사이에 공통된 단어의 존재 유무를 검사함으로써 이루어질 수 있으며, 아래의 수식(1)에 따라 연산될 수 있다.
(수학식 1)
Figure pat00011
여기서, n은 어느 하나의 대체 후보 번역문으로부터 추출된 복수의 대체 대표 단어의 개수를 나타낸다. 이때, 대체 대표 단어 중 i번째 단어가 기준 대표 단어 및 대체 대표 단어에 공통적으로 존재하는 때 Si 값은 1의 값을 갖는다.
기준 대표 단어 중 i번째 단어가 대체 대표 단어에는 존재하지 않는 때 Si 값은 0의 값을 갖는다.
이상의 설명은 본 발명을 예시적으로 설명한 것에 불과하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술적 사상에서 벗어나지 않는 범위에서 다양한 변형이 가능할 것이다. 따라서 본 발명의 명세서에 개시된 실시 예들은 본 발명을 한정하는 것이 아니다. 본 발명의 범위는 아래의 특허청구범위에 의해 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술도 본 발명의 범위에 포함되는 것으로 해석해야 할 것이다.
1: 방송 수신부 2: 데이터 처리부
3: 방송 송출부 4: VOD 서버
100: 자막 제공 서비스 장치
110: 자막 추출부 120: 자막 분석부
130: 번역 의뢰부 140: 번역 결과 취합부
150: 번역 자막 관리부 160: 번역 자막 송출부
200: 사용자 단말 300: 번역 서비스 장치

Claims (15)

  1. 사용자 단말의 요청에 의해 스트리밍하는 디지털 방송 데이터로부터 자막을 추출하여 복호화하는 자막 추출부;
    상기 자막 추출부에서 추출한 자막 데이터를 형태소 단위로 분석하고 직독직해 기호가 포함된 자막 데이터를 재구성하는 자막 분석부;
    상기 자막 분석부에서 재구성한 자막 데이터를 미리 정해진 번역 서비스 장치로 번역 의뢰하는 번역 의뢰부;
    상기 번역 의뢰에 의해 번역된 직독직해 번역 자막 데이터를 수신하여 취합하는 번역 결과 취합부; 및
    상기 사용자 단말로부터 번역할 언어에 대하여 입력받고 상기 번역 결과 취합부를 통해 취합한 번역된 직독직해 번역 자막 데이터를 상기 디지털 방송 데이터와 동기화하여 송출하는 번역 자막 송출부를 포함하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.
  2. 청구항 1항에 있어서,
    상기 자막 분석부는 입력된 자막 데이터를 기초로 형태소를 분석하여 해당 품사별로 특정기호를 자막 데이터에 표시하여 직독직해 기호가 포함된 자막 데이터를 생성하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.
  3. 청구항 2항에 있어서,
    상기 자막 분석부는 주어, 서술어, 목적어, 보어 및 기타수식어 중 두 개 이상의 조합으로 이루어지는 문장성분을 분석하여 제 1형식 내지 제 5형식 중 어느 하나의 문장형식을 결정하고 이에 따른 문장성분 및 문장형식의 제 1결과데이터를 생성하며, 자막 데이터의 문장성분 및 문장형식이 분석된 제 1결과데이터를 전달받아 명사, 동사, 수식어, 부정사, 동명사, 분사, 비교급, 등위접속사, 접속사, 관계대명사, 관계부사를 포함하는 다수의 품사군 중 어느 하나 또는 이들의 조합으로 문장성분별 분석을 수행하여 자막 데이터를 품사별로 분류하는 제 2결과데이터를 생성하고, 제 1결과데이터 및 제 2결과데이터를 전달받아 해당 품사별로 특정기호를 자막 데이터에 표시하여 직독직해 기호가 포함된 자막 데이터를 생성하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.
  4. 청구항 3항에 있어서,
    상기 자막 분석부가 생성하는 특정 기호는 해당 단어 또는 구절에 밑줄을 그어 표시하거나, 원문자 또는 세모, 화살표로 표시하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.
  5. 청구항 1항에 있어서,
    상기 번역 서비스 장치는 상기 자막 분석부에서 생성된 직독직해 기호가 포함된 자막 데이터를 입력받아 직독직해 번역을 수행하여 직독직해 번역 자막 데이터를 생성하여 상기 번역 결과 취합부로 제공하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.
  6. 청구항 5항에 있어서,
    상기 번역 서비스 장치는 상기 자막 분석부에서 생성된 직독직해 기호가 포함된 자막 데이터를 입력받아 한국어 어순 번역을 수행하여 한국어 어순 번역 자막 데이터를 생성하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.
  7. 청구항 6항에 있어서,
    상기 번역 결과 취합부는 상기 번역 의뢰에 의해 번역된 한국어 어순 번역 자막 데이터를 수신하여 취합하며,
    상기 번역 자막 송출부는 상기 사용자 단말로부터 번역할 언어에 대하여 입력받고 상기 번역 결과 취합부를 통해 취합한 번역된 한국어 번역 자막 데이터를 상기 디지털 방송 데이터와 동기화하여 송출하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.
  8. 청구항 7항에 있어서,
    상기 번역 서비스 장치는 입력 문장을 처음부터 끝까지 읽으면서 가능한 분할점 후보들을 모두 추출하여 문장을 분할하는 문장 분할기;
    상기 문장 분할기에서 문장 분할된 영어 문장을 입력받아 문장 분할된 순서에 따라 번역하여 직독직해 번역 자막 데이터를 생성하는 직독직해 번역기; 및
    상기 직독직해 번역기에서 번역된 직독직해 번역 자막 데이터를 입력받아 한국어 어순에 따른 순서로 조정하여 한국어 어순 번역 자막 데이터를 생성하는 한국어 어순 번역기를 포함하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.
  9. 청구항 8항에 있어서,
    상기 분할점 후보들은 문장 부호, 수식어구 및 수식어절인 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.
  10. 청구항 8항에 있어서,
    상기 한국어 어순 번역 자막 데이터에서 주어와 관련된 수식어의 위치를 정렬하는 어순 정렬기를 더 포함하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.
  11. 청구항 10항에 있어서,
    상기 어순 정렬기는 동사 앞에 있는 명사들을 추출하여, 빅데이터에서 해당 단어를 포함한 문장들을 추출하며, 추출된 문장들에서 명사 순서별 문장 비율을 산출하고, 산출된 문장 비율에 따라 배열된 한국어 어순 번역문을 작성하여 상기 컨텐츠 전송부를 통하여 사용자에게 제공하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.
  12. 청구항 11항에 있어서,
    상기 한국어 어순 번역기의 한국어 어순 번역 자막 데이터의 동사 관련하여 번역상의 오류를 수정하기 위한 동사 후처리 과정을 수행하는 후처리 수행기를 더 포함하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.
  13. 청구항 12항에 있어서,
    상기 후처리 수행기는 복수의 검색 명사들을 추출하여 빅데이터에서 관련 검색 명사들을 포함한 문장들을 검색하여 추출하고, 해당 동사의 의미와 유사한 의미의 동사 표현을 동사 대체 후보로 추출하며, 추출된 동사 대체 후보들에 대하여 문장 비율을 산출한 후에 문장 비율이 가장 큰 가장 큰 동사 대체 후보로 해당 동사 표현을 대체하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.
  14. 청구항 12항에 있어서,
    상기 후처리 수행기는 1차 번역문의 복수의 검색 명사로 추출한 후에, 이를 빅데이터에서 검색하여 해당 복수의 검색 명사를 포함한 문장들을 수집하여 각각의 문장들을 제1 내지 n의 대체 후보 번역문으로 분류하며, 1차 번역문에서 복수의 기준 대표 단어를 추출하되, 복수의 기준 대표 단어와 복수의 제1 내지 n의 대체 대표 단어 사이의 유사도를 측정하고, 결과를 바탕으로 해당 동사와 제1 내지 n의 동사 대체 후보 사이의 유사도를 추론하여 유사도가 가장 큰 동사 대체 후보를 해당 동사로 대체하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.
  15. 제1항에 있어서,
    상기 번역 결과 취합부는
    상기 번역된 직독직해 번역 자막 데이터의 재생 시간을 상기 디지털 방송 데이터의 음성 신호에 기초하여 매칭하는 것을 특징으로 하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.
KR1020190086773A 2019-07-18 2019-07-18 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치 KR102229130B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190086773A KR102229130B1 (ko) 2019-07-18 2019-07-18 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190086773A KR102229130B1 (ko) 2019-07-18 2019-07-18 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치

Publications (2)

Publication Number Publication Date
KR20210009775A true KR20210009775A (ko) 2021-01-27
KR102229130B1 KR102229130B1 (ko) 2021-03-18

Family

ID=74238798

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190086773A KR102229130B1 (ko) 2019-07-18 2019-07-18 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치

Country Status (1)

Country Link
KR (1) KR102229130B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230019731A (ko) * 2021-08-02 2023-02-09 주식회사 케이티디에스 자막 서비스 제공 장치 및 방법
KR102523075B1 (ko) * 2021-12-24 2023-04-20 한혜영 영어 문장 구조를 시각화한 교재

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970056985A (ko) 1995-12-29 1997-07-31 배순훈 방송자막 번역 기능을 갖는 티브이
KR20130034453A (ko) * 2011-09-28 2013-04-05 손인한 기호처리를 통해 문장구조 인식이 용이한 영어문장 직독직해 학습시스템
KR20150137383A (ko) * 2014-05-29 2015-12-09 주식회사 마인미디어 실시간 번역을 통한 디지털 방송의 다국어 자막 제공 서비스 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970056985A (ko) 1995-12-29 1997-07-31 배순훈 방송자막 번역 기능을 갖는 티브이
KR20130034453A (ko) * 2011-09-28 2013-04-05 손인한 기호처리를 통해 문장구조 인식이 용이한 영어문장 직독직해 학습시스템
KR20150137383A (ko) * 2014-05-29 2015-12-09 주식회사 마인미디어 실시간 번역을 통한 디지털 방송의 다국어 자막 제공 서비스 장치 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230019731A (ko) * 2021-08-02 2023-02-09 주식회사 케이티디에스 자막 서비스 제공 장치 및 방법
KR102523075B1 (ko) * 2021-12-24 2023-04-20 한혜영 영어 문장 구조를 시각화한 교재

Also Published As

Publication number Publication date
KR102229130B1 (ko) 2021-03-18

Similar Documents

Publication Publication Date Title
US7130790B1 (en) System and method for closed caption data translation
US11197036B2 (en) Multimedia stream analysis and retrieval
KR101899588B1 (ko) 수어 애니메이션 데이터를 자동으로 생성하는 시스템과 이를 이용한 방송시스템 및 방송방법
US8732783B2 (en) Apparatus and method for providing additional information using extension subtitles file
US8229748B2 (en) Methods and apparatus to present a video program to a visually impaired person
US20030065503A1 (en) Multi-lingual transcription system
TWI332358B (en) Media player apparatus and method thereof
US20140099076A1 (en) Utilizing subtitles in multiple languages to facilitate second-language learning
KR20080019126A (ko) 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막기계번역 장치 및 방법
KR101582574B1 (ko) 실시간 번역을 통한 디지털 방송의 다국어 자막 제공 서비스 장치 및 방법
Dayter Describing lexical patterns in simultaneously interpreted discourse in a parallel aligned corpus of Russian-English interpreting (SIREN)
KR102229130B1 (ko) 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치
AU2014259879B2 (en) Interactive viewing experiences by detecting on-screen text
JP2009157460A (ja) 情報提示装置及び方法
Romero-Fresco Reception studies in live and pre-recorded subtitles for the deaf and hard of hearing
JP5202217B2 (ja) 放送コンテンツから時事性のあるキーワードを抽出する放送受信装置及びプログラム
Fresno et al. Football for all: the quality of the live closed captioning in the Super Bowl LII
Fresno Closed captioning quality in the information society: the case of the American newscasts reshown online
JP5213572B2 (ja) 手話映像生成システム、サーバ、端末装置、情報処理方法、及びプログラム
US20160191959A1 (en) Enhanced timed text in video streaming
US20100066903A1 (en) Method and audio/video device for generating response data related to selected caption data
Chattopadhyay et al. Creation and analysis of a corpus of text rich Indian TV videos
CN112313726A (zh) 通过多媒体教学语言的方法和系统
Mochizuki et al. Development of a Closed Caption TV Corpus Retrieval System to Seek Video Scenes Containing Useful Expressions for Language Learning
KR20080096341A (ko) 대화형 디엠비 방송 제공시스템 및 이의 제공방법

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right