KR102229130B1 - Apparatus for providing of digital broadcasting using real time translation - Google Patents

Apparatus for providing of digital broadcasting using real time translation Download PDF

Info

Publication number
KR102229130B1
KR102229130B1 KR1020190086773A KR20190086773A KR102229130B1 KR 102229130 B1 KR102229130 B1 KR 102229130B1 KR 1020190086773 A KR1020190086773 A KR 1020190086773A KR 20190086773 A KR20190086773 A KR 20190086773A KR 102229130 B1 KR102229130 B1 KR 102229130B1
Authority
KR
South Korea
Prior art keywords
translation
data
caption
translated
sentence
Prior art date
Application number
KR1020190086773A
Other languages
Korean (ko)
Other versions
KR20210009775A (en
Inventor
윤동연
Original Assignee
북스타트 교육 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 북스타트 교육 주식회사 filed Critical 북스타트 교육 주식회사
Priority to KR1020190086773A priority Critical patent/KR102229130B1/en
Publication of KR20210009775A publication Critical patent/KR20210009775A/en
Application granted granted Critical
Publication of KR102229130B1 publication Critical patent/KR102229130B1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 디지털 방송의 자막 제공 장치에 관한 것으로, 상세하게는 실시간 번역을 통해 디지털 방송에 대한 자막을 제공할 수 있는 디지털 방송의 자막 제공 서비스 장치에 관한 것이다.
또한, 본 발명에 따르면, 사용자 단말의 요청에 의해 스트리밍하는 디지털 방송 데이터로부터 자막을 추출하여 복호화하는 자막 추출부; 상기 자막 추출부에서 추출한 자막 데이터를 형태소 단위로 분석하고 직독직해 기호가 포함된 자막 데이터를 재구성하는 자막 분석부; 상기 자막 분석부에서 재구성한 자막 데이터를 미리 정해진 번역 서비스 장치로 번역 의뢰하는 번역 의뢰부; 상기 번역 의뢰에 의해 번역된 직독직해 번역 자막 데이터를 수신하여 취합하는 번역 결과 취합부; 및 상기 사용자 단말로부터 번역할 언어에 대하여 입력받고 상기 번역 결과 취합부를 통해 취합한 번역된 직독직해 번역 자막 데이터를 상기 디지털 방송 데이터와 동기화하여 송출하는 번역 자막 송출부를 포함하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치가 제공된다.
The present invention relates to an apparatus for providing captions for digital broadcasting, and more particularly, to an apparatus for providing captions for digital broadcasting, capable of providing captions for digital broadcasting through real-time translation.
In addition, according to the present invention, there is provided a caption extraction unit for extracting and decoding captions from digital broadcasting data streamed at the request of a user terminal; A caption analysis unit for analyzing caption data extracted by the caption extracting unit in units of morphemes and reconstructing caption data including direct reading symbols; A translation request unit for requesting a translation of the caption data reconstructed by the caption analysis unit to a predetermined translation service device; A translation result aggregator for receiving and collecting the translated subtitle data translated by the translation request; And a translation caption transmission unit that receives the input of the language to be translated from the user terminal and transmits the translated direct reading direct translation caption data collected through the translation result collecting unit in synchronization with the digital broadcasting data. A caption providing service device is provided.

Figure R1020190086773
Figure R1020190086773

Description

실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치{APPARATUS FOR PROVIDING OF DIGITAL BROADCASTING USING REAL TIME TRANSLATION}Service device for providing closed captions for digital broadcasting through real-time translation {APPARATUS FOR PROVIDING OF DIGITAL BROADCASTING USING REAL TIME TRANSLATION}

본 발명은 디지털 방송의 자막 제공 장치에 관한 것으로, 상세하게는 실시간 번역을 통해 디지털 방송에 대한 자막을 제공할 수 있는 디지털 방송의 자막 제공 서비스 장치에 관한 것이다.The present invention relates to an apparatus for providing captions for digital broadcasting, and more particularly, to an apparatus for providing captions for digital broadcasting, capable of providing captions for digital broadcasting through real-time translation.

최근 방송 신호를 전송하는 방식이 발전함에 따라 디지털 전송 방식을 적용한 디지털 TV가 보급되고 있다.As a method of transmitting a broadcast signal has recently been developed, a digital TV to which a digital transmission method is applied is spreading.

특히, 위성, 지상파, 케이블을 통해 방송되는 고화질, 고음질의 디지털 방송은 여러 장점들을 가지고 있어서 기존의 아날로그 방송에 비해 고화질, 고음질이고 다양한 부가 정보를 제공할 수 있다.In particular, high-definition and high-quality digital broadcasting broadcasted through satellite, terrestrial, and cable have several advantages, and can provide high-definition, high-quality sound, and various additional information compared to conventional analog broadcasting.

다양한 부가 서비스 중 하나로서, 디지털 방송은 방송 신호에서 자막 신호를 추출하여 이를 자신이 원하는 언어로 자동 번역함으로써 시청자가 이해 가능한 언어의 자막으로 방송을 시청할 수 있도록 하는 방송자막 기계 번역 시스템에 대한 요구가 증대되고 있는 실정이다.As one of various additional services, digital broadcasting has a demand for a broadcast subtitle machine translation system that extracts the subtitle signal from the broadcast signal and automatically translates it into the desired language so that the viewer can watch the broadcast in a language that can be understood. The situation is increasing.

여기서, 방송 자막이란 방송사에서 송출하는 영상 신호에 자막 신호가 삽입된 것으로서, 최근에는 많은 방송사들이 청각 장애인을 위해 이러한 자막 방송을 시행하고 있다. 미국의 경우에는 1990년도부터 13인치 이상의 텔레비젼에 대해 자막 기능을 의무화하였고, 국내의 경우에도 텔레비젼 방송사 및 CATV에서 자막 방송 프로그램을 확대하고 있으며, CNN, NHK, AFKN 등의 외국어 자막 방송의 지속적인 확대가 예상되고 있다.Here, the broadcast caption refers to a caption signal inserted into an image signal transmitted by a broadcaster, and recently, many broadcasters have implemented such caption broadcasting for the hearing impaired. In the United States, closed captioning has been mandatory for 13-inch or larger TVs since 1990, and in Korea, TV broadcasters and CATV are expanding closed-captioned broadcasting programs, and the continuous expansion of foreign-language closed-caption broadcasting such as CNN, NHK, and AFKN is expected. It is expected.

그러나, TV 방송자막에서는 뉴스뿐만 아니라 드라마, 교양시사, 오락프로그램 등 다양한 방송 장르에서 구어체와 문어체가 혼용되어 사용되고 있고, 뉴스에서는 모든 분야에 걸쳐 전문용어 및 표현들이 다양하게 나타나기 때문에 상용화 가능한 수준의 높은 번역 성능을 갖는 방송자막 기계번역 시스템을 개발하기에는 기술적으로 상당한 어려움이 있다.However, in TV broadcast subtitles, colloquial and written language are mixed and used not only in news, but also in various broadcasting genres such as drama, liberal arts current affairs, and entertainment programs. It is technically difficult to develop a machine translation system for broadcast subtitles with translation capabilities.

이와 같은 기술적 어려움을 해결하기 위한 것으로, 한국 특허공개 제1997-56985호(공개일: 1997.07.31)에는 TV내에 한국어 및 외국어 번역부를 별도로 구비하여 방송자막 데이터를 사용자의 요구에 따라 모국어 또는 외국어로 디스플레이시켜 시청자들에게 편리한 시청을 제공할 수 있는 '방송자막 번역 기능을 갖는 티브이'가 개시되어 있다.In order to solve such technical difficulties, Korean Patent Publication No. 1997-56985 (published date: July 31, 1997) has a separate translation unit for Korean and foreign languages in the TV, so that broadcast subtitle data is provided in the native language or foreign language according to the user's request. A'TV with a broadcast subtitle translation function' that can be displayed to provide convenient viewing to viewers is disclosed.

그러나, 상기 방송자막 번역 기능을 갖는 티브이는 수신되는 방송신호에서 방송 자막 데이터를 추출한 후 사용자의 요구에 따라 자막 데이터를 번역하여 이를 TV화면에 디스플레이하는 방식을 취하고 있기 때문에, 별도로 방송자막 지원이 가능한 텔레비젼을 구입해야 하는 단점이 있다. 또한, 위성 셋탑박스, 비디오 플레이어, DMB 단말기 등 텔레비젼이 아닌 다른 미디어 장치를 통해 방송신호가 입력되는 경우 이에 대한 자막 번역 기능은 제공할 수 없다는 문제점을 갖고 있다.However, since the TV having the broadcast subtitle translation function extracts broadcast subtitle data from the received broadcast signal, translates the subtitle data according to the user's request, and displays it on the TV screen, it is possible to separately support broadcast subtitles. There is a downside to buying a TV. In addition, when a broadcast signal is input through a media device other than a TV such as a satellite set-top box, a video player, and a DMB terminal, there is a problem that a caption translation function cannot be provided.

한국 특허공개 제1997-56985호(공개일: 1997.07.31)Korean Patent Publication No. 1997-56985 (Publication date: 1997.07.31)

본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 사용자가 원하는 디지털 방송 프로그램과 언어를 선택하면 선택한 디지털 방송 프로그램을 스트리밍하면서 자막을 분석하고 분석한 자막을 원하는 언어로 번역하여 디지털 방송 프로그램과 함께 동기화하여 송출하는 디지털 방송의 자막 제공 서비스 장치를 제공하는 데 그 목적이 있다.The present invention was invented to solve the above problems, and when a user selects a desired digital broadcasting program and language, the selected digital broadcasting program is streamed while analyzing subtitles and translating the analyzed subtitles into a desired language to provide a digital broadcasting program and a digital broadcasting program. An object of the present invention is to provide a service device for providing closed captions for digital broadcasting that is synchronized and transmitted together.

본 발명은 사용자 단말의 요청에 의해 스트리밍하는 디지털 방송 데이터로부터 자막을 추출하여 복호화하는 자막 추출부; 상기 자막 추출부에서 추출한 자막 데이터를 형태소 단위로 분석하고 직독직해 기호가 포함된 자막 데이터를 재구성하는 자막 분석부; 상기 자막 분석부에서 재구성한 자막 데이터를 미리 정해진 번역 서비스 장치로 번역 의뢰하는 번역 의뢰부; 상기 번역 의뢰에 의해 번역된 직독직해 번역 자막 데이터를 수신하여 취합하는 번역 결과 취합부; 및 상기 사용자 단말로부터 번역할 언어에 대하여 입력받고 상기 번역 결과 취합부를 통해 취합한 번역된 직독직해 번역 자막 데이터를 상기 디지털 방송 데이터와 동기화하여 송출하는 번역 자막 송출부를 포함한다.The present invention includes a caption extraction unit for extracting and decoding captions from digital broadcasting data streamed at the request of a user terminal; A caption analysis unit for analyzing caption data extracted by the caption extracting unit in units of morphemes and reconstructing caption data including direct reading symbols; A translation request unit for requesting a translation of the caption data reconstructed by the caption analysis unit to a predetermined translation service device; A translation result aggregator for receiving and collecting the translated subtitle data translated by the translation request; And a translation caption transmission unit receiving input from the user terminal for a language to be translated, and transmitting the translated direct-read translation caption data collected through the translation result collecting unit in synchronization with the digital broadcasting data.

이러한 본 발명에 따르면, 디지털 방송 프로그램을 시청 시 사용자가 원하는 언어로 번역한 자막을 동시에 시청할 수 있으므로 사용자의 편의성을 극대화할 수 있다. 특히, 디지털 방송 프로그램이 번역되어 데이터베이스화할 때까지 기다릴 필요없이 바로 디지털 방송의 시청이 가능한 효과가 있다.According to the present invention, when viewing a digital broadcasting program, a user can simultaneously view a subtitle translated into a language desired by the user, thereby maximizing the user's convenience. In particular, there is an effect that digital broadcasting can be viewed immediately without having to wait for a digital broadcasting program to be translated and converted into a database.

도 1은 본 발명의 실시 예에 따른 자막 제공 장치의 네트워크 연결 구성도.
도 2는 본 발명의 실시 예에 따른 자막 제공 장치의 세부 구성도.
도 3은 본 발명에 따른 직독직해 기호를 포함한 자막 데이터의 예시도.
도 4는 직독직해 번역 자막 데이터가 제공되는 예시도.
도 5는 한국어 어순 번역 자막 데이터가 제공되는 예시도.
도 6은 도 1의 번역 서비스 장치의 구성도.
1 is a network connection configuration diagram of a caption providing apparatus according to an embodiment of the present invention.
2 is a detailed configuration diagram of a caption providing apparatus according to an embodiment of the present invention.
3 is an exemplary diagram of caption data including direct reading symbols according to the present invention.
4 is an exemplary diagram in which direct reading direct translation caption data is provided.
5 is an exemplary diagram in which Korean word order translated caption data is provided.
Fig. 6 is a block diagram of the translation service device of Fig. 1;

이하, 첨부된 도면을 참조하여 본 발명에 따른 실시 예를 상세하게 설명한다. 본 발명의 구성 및 그에 따른 작용 효과는 이하의 상세한 설명을 통해 명확하게 이해될 것이다. 본 발명의 상세한 설명에 앞서, 동일한 구성요소에 대해서는 다른 도면상에 표시되더라도 가능한 동일한 부호로 표시하며, 공지된 구성에 대해서는 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 구체적인 설명은 생략하기로 함에 유의한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. The configuration of the present invention and its effect will be clearly understood through the detailed description below. Note that prior to the detailed description of the present invention, the same components are denoted by the same reference numerals as possible even if they are displayed on different drawings, and a detailed description will be omitted when it is determined that the gist of the present invention may be obscure for known configurations. do.

도 1은 본 발명의 실시 예에 따른 자막 제공 장치의 네트워크 연결 구성도이고, 도 2는 본 발명의 실시예에 따른 자막 제공 장치의 세부 구성도이다.1 is a network connection configuration diagram of a caption providing apparatus according to an embodiment of the present invention, and FIG. 2 is a detailed configuration diagram of a caption providing apparatus according to an embodiment of the present invention.

먼저 도 1을 참조하면, 본 발명의 실시 예에 따른 자막 제공 서비스 장치(100)는 기본적으로 동영상의 영어 자막을 실시간 한글로 번역하여 제공하는 기능을 수행한다.First, referring to FIG. 1, the subtitle providing service apparatus 100 according to an exemplary embodiment of the present invention basically performs a function of translating and providing English subtitles of a video into Korean in real time.

특히, 본 발명의 실시 예에 따른 자막 제공 서비스 장치(100)는 방송 사업자와 사용자 단말(200)간을 연동하여 방송 사업자가 제공하는 디지털 방송 데이터를 스트리밍하면서 이와 동시에 디지털 방송 데이터의 영어 자막을 한글로 번역하여 실시간으로 제공한다. 이처럼, 본 발명의 실시 예에 따른 자막 제공 서비스 장치(100)는 실시간 번역 기술을 제공함에 특징으로 한다.In particular, the caption providing service apparatus 100 according to an embodiment of the present invention interlocks between the broadcast operator and the user terminal 200 to stream digital broadcast data provided by the broadcast operator, while simultaneously displaying English subtitles of digital broadcast data in Korean. It is translated into and provided in real time. As such, the caption providing service apparatus 100 according to an embodiment of the present invention is characterized by providing a real-time translation technology.

방송 사업자는 방송 콘텐츠를 제작, 편집 및 변경하여 방송 수신부(1)로 제공하는 역할을 한다. 방송 사업자는 프로그램 공급자(Program Provider: PP), 지상파 또는 컨텐츠 제공자(Contents Provider: CP) 등을 포함할 수 있다.The broadcaster plays a role of producing, editing, and changing broadcast content and providing it to the broadcast receiving unit 1. The broadcaster may include a program provider (PP), a terrestrial or content provider (CP), and the like.

방송 사업자에 의하여 제공되는 디지털 방송 데이터는 기존 방송 데이터와 인터넷 상의 다양한 동영상 데이터를 모두 포함할 수 있다. 예컨대, 실시간 방송 데이터, 주문형 비디오(Video On Demand: 이하 VOD) 데이터, 케이블 방송 데이터 등을 포함한다.Digital broadcast data provided by a broadcaster may include both existing broadcast data and various video data on the Internet. For example, it includes real-time broadcasting data, video on demand (VOD) data, cable broadcasting data, and the like.

디지털 방송 데이터는 일반적으로 방송 수신부(1)를 통해 수신하고 스트리밍 처리부(2)를 거쳐 사용자 단말(200)의 환경에 적합한 포맷으로 데이터 변환된다.In general, digital broadcast data is received through the broadcast receiving unit 1 and converted into a format suitable for the environment of the user terminal 200 through the streaming processing unit 2.

그리고 변환된 형태로 방송 송출부(3)를 통해 사용자 단말(200)로 송출된다.Then, it is transmitted to the user terminal 200 through the broadcast transmission unit 3 in a converted form.

이때, 사용자 단말(200)로의 송출 방법은 브로드캐스팅(broadcasting) 또는 유니캐스팅(unicasting) 중 하나를 이용하거나 또는 이들의 혼합 방식을 이용할 수 있다.In this case, the transmission method to the user terminal 200 may use one of broadcasting or unicasting, or a combination thereof.

또는, 디지털 방송 데이터는 VOD(Video On Demand) 서버(4)에 사전 구축해 두었다가, 사용자 단말(200)의 요청에 따라 추출하여 제공될 수 있다.Alternatively, the digital broadcast data may be pre-built in the video on demand (VOD) server 4 and then extracted and provided according to the request of the user terminal 200.

스트리밍 처리부(2)는 아래의 도 2에서 구체적으로 설명하기로 한다.The streaming processing unit 2 will be described in detail in FIG. 2 below.

이러한 구성을 토대로 본 발명의 실시 예에 따른 자막 제공 서비스 장치(100)는 자막 추출부(110), 자막 분석부(120), 번역 의뢰부(130), 번역 결과 취합부(140), 번역 자막 관리부(150), 번역 자막 송출부(160)를 포함하여 구현할 수 있다.Based on this configuration, the caption providing service apparatus 100 according to an embodiment of the present invention includes a caption extraction unit 110, a caption analysis unit 120, a translation request unit 130, a translation result collection unit 140, and a translation caption. It can be implemented by including the management unit 150 and the translation subtitle transmission unit 160.

자막 추출부(110)는 방송 수신부(1)를 통해 스트리밍하는 디지털 방송 데이터로부터 자막을 추출하여 복호화한다. 디지털 방송 데이터에 자막 데이터가 포함되어 있는 경우 이의 추출은 쉽게 수행할 수 있다. 즉, 방송 수신부(1)를 통해 수신한 디지털 방송 데이터는 보통 영상 데이터, 음성 데이터가 포함되어 있고, 이들과 구분되는 텍스트 형태의 자막 데이터가 존재하는 경우 이를 취합하여 하나의 파일로 제공된다. 따라서, 자막 데이터의 추출은 당업자가 용이하게 수행할 수 있다.The caption extracting unit 110 extracts and decodes captions from digital broadcasting data streamed through the broadcast receiving unit 1. When the digital broadcasting data includes caption data, extraction thereof can be easily performed. That is, the digital broadcasting data received through the broadcast receiving unit 1 usually includes video data and audio data, and if there is textual caption data that is distinguished from these, it is collected and provided as a single file. Therefore, the extraction of subtitle data can be easily performed by a person skilled in the art.

자막 추출부(110)는 도 1에 도시한 구성과 같이 방송 수신부(1)의 후단에서 방송 수신부(1)를 통해 스트리밍하는 디지털 방송 데이터로부터 직접 추출하는 것도 가능하지만, 방송 수신부(1)를 통해 스트리밍하는 디지털 방송 데이터를 영상, 음성, 자막으로 분리하는 스트리밍 처리부(2)의 동영상 분리부(21)와 연계하여 추출할 수도 있다.As shown in FIG. 1, the caption extracting unit 110 may directly extract from digital broadcast data streamed through the broadcast receiving unit 1 at the rear end of the broadcast receiving unit 1, but through the broadcast receiving unit 1 The digital broadcasting data to be streamed may be extracted in connection with the moving picture separation unit 21 of the streaming processing unit 2 that separates the streaming digital broadcasting data into video, audio, and subtitles.

추출시 자막 데이터에 영상 데이터와 동기화하기 위한 자막 시작 시간도 함께 추출한다.When extracting, the caption start time for synchronizing with the image data is also extracted from the caption data.

이때, 자막 시작 시간은 보통 방송 수신부(1)를 통해 영상 데이터와 함께 수신되는 경우 영상 데이터의 재생 시간과 매칭이 잘 이루어지지만, 청각장애인의 시청권을 확보하기 위해 폐쇄 자막(closed caption) 시스템을 이용하여 자막 데이터가 추가 포함된 경우 영상 데이터의 재생 시간 대비 몇 초 정도의 지연될 수 있다.At this time, the caption start time is normally matched with the playing time of the video data when it is received together with the video data through the broadcast receiving unit 1, but a closed caption system is used to secure viewing rights for the hearing impaired. Accordingly, when the subtitle data is additionally included, a delay of several seconds may occur compared to the playback time of the image data.

자막 분석부(120)는 자막 추출부(110)에서 추출한 자막 데이터를 단어, 문자, 부호 등의 형태소 단위로 분석하고, 직독직해 기호를 포함하여 번역을 요청할 하나의 문장 형태로 재구성한다.The caption analysis unit 120 analyzes the caption data extracted by the caption extraction unit 110 into morpheme units such as words, characters, and symbols, and reconstructs the form of a sentence to request translation including a direct reading symbol.

이를 좀더 상세히 살펴보면, 자막 분석부(120)는 입력된 자막 데이터를 기초로 형태소를 분석하게 된다.Looking at this in more detail, the caption analysis unit 120 analyzes the morpheme based on the input caption data.

자막 분석부(120)는 주어, 서술어, 목적어, 보어 및 기타수식어 중 두 개 이상의 조합으로 이루어지는 문장성분을 분석하여 제 1형식 내지 제 5형식 중 어느 하나의 문장형식을 결정하고 이에 따른 문장성분 및 문장형식의 제 1결과데이터를 생성한다.The caption analysis unit 120 analyzes a sentence component consisting of a combination of two or more of a subject, a predicate, an object, a bore, and other formula words to determine any one of the first to fifth formats, and the sentence component and Generate first result data in sentence format.

그리고, 자막 분석부(120)는 문장데이터의 문장성분 및 문장형식이 분석된 제 1결과데이터를 전달받아 명사, 동사, 수식어, 부정사, 동명사, 분사, 비교급, 등위접속사, 접속사, 관계대명사, 관계부사를 포함하는 다수의 품사군 중 어느 하나 또는 이들의 조합으로 문장성분별 분석을 수행하여 문장데이터를 품사별로 분류하는 제 2결과데이터를 생성한다.In addition, the subtitle analysis unit 120 receives the first result data from which the sentence components and sentence format of the sentence data are analyzed, and receives nouns, verbs, modifiers, infinitives, gerunds, participles, comparative grades, equal conjunctions, conjunctions, relative pronouns, and relations. Second result data for classifying sentence data for each part-of-speech is generated by performing sentence component analysis with any one of a plurality of parts-of-speech groups including adverbs or a combination thereof.

아울러 상기 자막 분석부(120)는 제 1결과데이터 및 제 2결과데이터 를 전달받아 해당 품사별로 특정기호를 문장데이터에 표시하여 직독직해 기호를 포함한 자막 데이터를 생성하는데, 이러한 특정 기호는 해당 단어 또는 구절에 밑줄을 그어 표시하거나, 원문자 또는 세모, 화살표 등으로 표시하는데, 본 발명의 일실시예에 따른 기호는 하나의 예시에 불과하며, 이러한 기호표시는 다양하게 채택되어 표시될 수 있다.In addition, the caption analysis unit 120 receives the first result data and the second result data and displays a specific symbol for each part of speech in sentence data to generate caption data including the direct reading symbol. Phrases are underlined or displayed with original characters, triangles, arrows, etc., and symbols according to an embodiment of the present invention are merely an example, and such symbol indications may be variously adopted and displayed.

도 3은 본 발명에 따른 직독직해 기호를 포함한 자막 데이터의 예시도이다.3 is an exemplary diagram of caption data including direct reading symbols according to the present invention.

도면을 참조하면, 본 발명의 일실시예에 따라 자막 분석부(120)는 문장성분 또는 품사별로 분류하여 특정 기호처리를 수행하는데, 이를 상세하게 설명하면 우선 분류된 문장성분 또는 품사가 동사일 경우 해당 단어 또는 구절의 하부측에 밑줄을 그어 표시한다.Referring to the drawings, according to an embodiment of the present invention, the caption analysis unit 120 classifies each sentence component or part-of-speech and performs specific symbol processing. If this is described in detail, first, when the classified sentence component or part-of-speech is a verb Mark the word or phrase by underlining it.

아울러 수식어구(전치사+명사)의 경우 해당 단어 또는 구절의 전방측에 '/' 기호를 표시하며, 부정사의 경우 ' to'부분에는 이를 수용하는 원을 그리고 'to' 뒷부분에는 하부측에 밑줄을 그어 표시한다. In addition, when the modifier (preposition + noun) displays the "/" symbol on the word or the front side of the passage, in the case of the supine 'to' part, and the source to accommodate this "to" later, the underlined lower side Mark it.

이때 분사구문(V·ing 명사(S), pp 명사)일 경우에는 전술한 바와 같이 밑줄과 원의 기호를 처리하지 않고 해당 단어 또는 구절 상부에 '

Figure 112019073584416-pat00001
' 기호를 표시한다.At this time, in the case of the injection phrase (V·ing noun (S), pp noun) , as described above, '
Figure 112019073584416-pat00001
'Sign.

또한 분류된 문장성분 또는 품사가 분사(V· ing 명사, pp)일 경우 해당 단어V·ing, pp) 또는 구절에서 해당 단어 또는 구절이 수식하는 전방측 또는 후방측의 명사방향으로 상부측에 화살표를 그어 표시한다.In addition, if the classified sentence component or part of speech is part of a part (V· ing noun, pp) , an arrow on the upper side in the noun direction of the front or rear side of the word or phrase modified by the corresponding word or phrase in the corresponding word V·ing, pp) or phrase. To mark.

아울러 분류된 문장성분 또는 품사가 비교급일 경우 해당 단어 또는 구절의 'as' 또는 'than' 부분에 이를 수용하는 '△'기호를 표시하며, 분류된 문장성분 또는 품사가 접속사일 경우 해당 단어 또는 구절에 이를 수용하는 '△' 또는 '○'기호를 표시하는데, 접속사가 등위접속사인 경우 '△' 기호를 표시하고 종속접속사인 경우 '○' 기호를 표시한다.In addition, if the classified sentence component or part of speech is comparative, the'△' sign that accepts it is indicated in the'as' or'than' part of the word or phrase, and if the classified sentence element or part of speech is a conjunction, the word or phrase A'△' or'○' sign that accepts this is indicated. If the conjunction is a co-ordinate conjunction, a'△' symbol is displayed, and if the conjunction is a subordinate conjunction, a'○' symbol is displayed.

또한 분류된 문장성분 또는 품사가 관계대명사 또는 관계부사일 경우 해당 단어 또는 구절에 이를 수용하는 '○'기호를 표시하고 관계대명사 또는 관계부사 전방방향으로 '

Figure 112019073584416-pat00002
'기호를 함께 표시한다.In addition, if the classified sentence component or part of speech is a relative pronoun or a relative adverb, mark the word or phrase with a'○' sign to accommodate it, and move forward with the relative pronoun or relative adverb.
Figure 112019073584416-pat00002
'Mark together.

또한 제 1결과데이터 및 제 2결과데이터를 통해 접속사, 관계대명사 또는 관계부사가 생략된 것으로 판단되는 경우 해당 문장데이터의 생략된 위치 부분에 접속사의 경우 '∨'기호를 표시하고 관계대명사 또는 관계부사일 경우 '

Figure 112019073584416-pat00003
'기호를 표시한다.In addition, if it is determined that a conjunction, a relative pronoun, or a relative adverb is omitted through the first result data and the second result data, a'∨' symbol is displayed in the case of a conjunction in the omitted position of the sentence data, and a relative pronoun or a relative adverb If '
Figure 112019073584416-pat00003
'Display the symbol.

한편, 번역 의뢰부(130)는 번역할 장치(이하, 번역 서비스 장치)를 미리 정해두고, 자막 분석부(120)에서 분석한 직독직해 기호가 포함된 자막 데이터를 번역 서비스 장치(300)로 전달하여 번역을 의뢰한다.Meanwhile, the translation request unit 130 pre-determines a device to be translated (hereinafter, a translation service device), and transmits the subtitle data including the direct reading symbol analyzed by the subtitle analysis unit 120 to the translation service device 300. And request a translation.

번역 서비스 장치(300)는 번역 의뢰부(130)를 통해 의뢰된 직독직해 기호가 포함된 자막 데이터를 한글로 자동 번역한다. 이러한 번역 서비스 장치(300)는 외부의 번역업체와 연계되는 구성으로 별개의 독립적인 장치로 구분될 수 있음은 물론, 본 발명의 자막 제공 서비스 장치(100)에 포함될 수도 있다. The translation service device 300 automatically translates the caption data including the direct reading direct mark requested through the translation request unit 130 into Korean. The translation service device 300 may be classified as a separate and independent device as a component linked to an external translation company, and may be included in the caption providing service device 100 of the present invention.

한편, 번역 서비스 장치(300)는 입력 문장을 처음부터 끝까지 읽으면서 가능한 분할점 후보들을 모두 추출하여 문장을 분할한다. 여기서, 사용된 분할점 후보들은 문장 부호, 수식어구, 수식어절이다.Meanwhile, the translation service apparatus 300 divides the sentence by extracting all possible split point candidates while reading the input sentence from start to finish. Here, the split point candidates used are punctuation marks, modifier phrases, and modifier clauses.

여기에서, 문장 부호는 마침표(.), 물음표(?), 느낌표(!), 쉼표(,), 가운뎃 점(·), 쌍점( : ), 쌍반점(;), 빗금(/), 큰따옴표(“ ”), 작은따옴표(‘ ’), 소괄호(( )), 중괄호,({ }), 대괄호([ ]), 붙임표(-), 줄표(--), 물결표(~), 줄임표(......) 등이 있다. Here, the punctuation marks are period (.), question mark (?), exclamation mark (!), comma (,), middle dot (·), colon (: ), colon (;), hatched (/), double quotation mark ( “”), single quotation marks (''), parentheses (( )), curly braces, ({ }), brackets ([ ]), braces (-), dashes (--), tildes (~), ellipsis (.. ....) and so on.

이때, 수식어구나 수식어절은 '/' 기호, '△' 기호 또는 '○'기호로 직독직해 기호가 표기되어 있다.At this time, a modifier or a modifier clause is marked with a'/' sign, a'△' sign, or a'○' sign.

다만, 번역 서비스 장치(300)는 쉼표인 경우에 명사나 명사절이 이어지면, 분할점 후보에서 제외한다. 이때, 번역 서비스 장치(300)는 쉼표 이후에 이어지는 단어가 전치사 역할을 하는 including인 경우에는 분할점 후보에서 제외하지 않는다.However, the translation service device 300 excludes a noun or noun clause from the split point candidate if a noun or noun clause is followed in the case of a comma. In this case, the translation service apparatus 300 does not exclude from the dividing point candidate when the word following the comma is including serving as a preposition.

또한, 번역 서비스 장치(300)는 수식어구의 경우에 앞에 단어가 분사구문인 경우에 분할점 후보에서 제외한다.In addition, in the case of a modifier phrase, the translation service apparatus 300 excludes the word from the split point candidate when the preceding word is an injection phrase.

즉, 번역 서비스 장치(300)는 '/' 기호의 경우에 앞에 단어가 분사구문으로 '

Figure 112019073584416-pat00004
' 기호가 표시되어 있는 경우에 분할점 후보에서 제외한다. 다만 번역부 (3-1)는 '/' 기호의 뒤에 전치사를 앞에 둔 동명사가 위치하는 경우(/전치사+동명사)에는 분할점 후보에서 제외하지 않는다. That is, in the case of the'/' symbol, the translation service device 300 has a word in front of the'/'
Figure 112019073584416-pat00004
If the 'symbol is marked, it is excluded from the candidate for splitting points. However, the translation department (3-1) does not exclude it from candidates for split points in cases where a gerund with a preposition in front of the'/' sign is located (/preposition + synonym).

또한, 번역 서비스 장치(300)는 동사의 경우에 앞뒤에 가상의 분할점을 추가하여 분할되도록 한다.In addition, the translation service device 300 adds virtual division points to the front and back of the verb to be divided.

즉, 번역 서비스 장치(300)는 동사의 경우에 밑줄이 위치하고 있는바, 밑줄이 있는 경우에 가상의 분할점을 앞과 뒤에 추가한다.That is, in the case of the verb, the translation service apparatus 300 adds the virtual splitting points before and after the underline is located in the case of the verb.

그리고, 번역 서비스 장치(300)는 등위접속사인 경우에 다음에 동사가 아닌 경우에는, 즉 명사등인 경우에는 분할점 후보에서 제외한다.In addition, the translation service apparatus 300 excludes from the dividing point candidates in the case of a co-ordinate conjunction, and in the case of a non-verb, that is, a noun or the like.

다만, 번역 서비스 장치(300)는 등위접속사에서 but은 뒤에 동사가 있는 경우에 가상의 분할점을 앞과 뒤에 추가한다.However, the translation service device 300 adds virtual splitting points before and after the verb in the co-ordinate conjunctions when but is followed by a verb.

즉, 번역 서비스 장치(300)는 등위 접속사인 경우에 '△' 기호로 표기되며, '△' 기호이후에 동사를 나타내는 밑줄 기호가 없는 경우에 분할점 후보에서 제외하며, 등위접속사에서 but인 경우에 밑줄 기호가 있는 경우에는 가상의 분할점을 앞과 뒤에 추가한다.That is, the translation service device 300 is marked with a'△' sign in the case of a co-ordinate conjunction, and is excluded from the split point candidate when there is no underscore sign indicating a verb after the'△' sign, and when the co-ordinate conjunction is but If there is an underscore symbol, add virtual splitting points before and after.

상기 번역 서비스 장치(300)는 수식어절이 관계 대명사나 관계 부사인 경우에 관계 대명사나 관계 부사가 한정하는 한정 부분을 수식어절의 동사를 대체하여 번역한다.When the modifier clause is a relational pronoun or a relational adverb, the translation service device 300 translates a limited portion defined by the relational pronoun or relational adverb by replacing the verb in the modifier clause.

즉, 상기 번역 서비스 장치(300)는 수식어절이 관게 대명사나 관계 부사인 경우에 '○'기호를 표시하고 관계대명사 또는 관계부사 전방방향으로 '

Figure 112019073584416-pat00005
'기호를 함께 표시되어 있는바, '○'기호에 '
Figure 112019073584416-pat00006
'기호가 있는 경우에 한정 부분으로 수식어절의 동사를 대체하여 번역한다. 도 4와 이와 같이 직독직해 번역 자막 데이터가 제공되는 예시도이다.That is, when the modifier clause is a related pronoun or a related adverb, the translation service device 300 displays a'○' sign and moves forward with a related pronoun or a related adverb.
Figure 112019073584416-pat00005
'The symbol is marked together, and the'○' symbol is marked with '
Figure 112019073584416-pat00006
'If there is a sign, it is translated by replacing the verb in the modifier clause with a limited part. As shown in FIG. 4, it is an exemplary diagram in which direct-read translation caption data is provided.

한편, 상기 번역 서비스 장치(300)는 직독직해된 번역 자막 데이터를 제공할 뿐만 아니라 한국어 어순에 적합한 번역 자막 데이터를 제공한다.On the other hand, the translation service device 300 not only provides directly read translated caption data, but also provides translated caption data suitable for Korean word order.

이때, 상기 번역 서비스 장치(300)는 주어와 관련된 수식어의 경우에 순서가 반대로 될 수 있다.In this case, the translation service apparatus 300 may reverse the order of modifiers related to the subject.

일예로, 영어 문장이 "On a clear day, a crewmember on a merchant ship sailing across the caribbean Sea peers out at the horizon through his telescope"인 경우에 "맑은 날에는 승무원이 카리브 해를 가로 지르는 상선에서 그의 망원경을 통해 수평선을 응시한다"로 번역하는 경우가 많이 있다.For example, if the English sentence is "On a clear day, a crewmember on a merchant ship sailing across the caribbean Sea peers out at the horizon through his telescope" It is often translated as "to stare at the horizon through".

이러한 잘못된 번역을 방지하기 위하여, 번역 서비스 장치(300)는 동사 앞에 있는 명사들을 추출한다.In order to prevent such erroneous translation, the translation service device 300 extracts nouns in front of the verb.

이때, 번역 서비스 장치(300)는 의미 요소가 강한 명사들을 추출하며, 번역 서비스 장치(300)는 일예로 승무원, 상선을 선택한다. 이처럼 번역 서비스 장치(300)는 동사 앞에 명사가 적어도 2개이상인 경우에 아래 동작을 진행한다.At this time, the translation service device 300 extracts nouns having a strong semantic element, and the translation service device 300 selects a flight attendant or a merchant ship, for example. As such, the translation service apparatus 300 performs the following operation when there are at least two nouns in front of the verb.

그리고, 번역 서비스 장치(300)는 빅데이터에서 승무원과 상선을 입력하여 빅데이터에서 해당 단어를 포함한 문장들을 추출하며, 추출된 문장들에서 승무원에 이어 상선이 표현된 문장 비율을 산출하고, 이와 반대로 상선에 이어 승무원이 표현된 문장 비율을 산출하여 산출된 문장 비율이 큰 순서에 따라 배열된 한국어 어순 번역 자막 데이터를 작성하여 도 6에 도시된 바와 같이 번역 결과 취합부(140)를 통하여 사용자에게 제공한다.In addition, the translation service device 300 extracts sentences including the corresponding word from big data by inputting the crew member and the merchant ship from big data, and calculates the sentence ratio in which the merchant ship is expressed following the crew member from the extracted sentences, and vice versa. Following the merchant ship, the crew calculates the expressed sentence ratio, creates the Korean word order translation subtitle data arranged in the order of the largest sentence ratio, and provides it to the user through the translation result collection unit 140 as shown in FIG. do.

상기 번역 서비스 장치(300)는 일예로 추출된 문장들에서 승무원에 이어 상선이 표현된 문장 비율이 30%이고, 이와 반대로 상선에 이어 승무원이 표현된 문장 비율을 산출하여 산출된 문장 비율이 70%이면 번역 서비스 장치(300)는 "맑은 날에는 카리브 해를 가로 지르는 상선에서 승무원이 수평선을 그의 망원경을 통해 응시한다"로 번역된 한국어 어순 번역 자막 데이터를 생성한다.As an example, the translation service device 300 has a ratio of sentences in which a merchant ship is expressed following a crew member in the extracted sentences is 30%, and on the contrary, a sentence ratio calculated by calculating the sentence ratio expressed by a crew member following a merchant ship is 70%. The backside translation service device 300 generates Korean word order translation caption data translated as "on a clear day, a crew member gazes at the horizon through his telescope on a merchant ship crossing the Caribbean Sea."

즉, 번역 서비스 장치(300)는 이와 같은 과정을 통하여 주어의 의미 단위 독해 이후에, 수식어의 의미 단위를 독해하고, 동사의 의미 단위가 That is, the translation service device 300 reads the semantic unit of the modifier after reading the semantic unit of the subject through this process, and the semantic unit of the verb is 독해되도록To be read 하여 자연스러운 문장이 되도록 한다. So that it becomes a natural sentence.

한편, 번역 서비스 장치(300)는 동사 관련하여 번역상의 오류를 수정하기 위한 동사 후처리 과정을 수행한다.Meanwhile, the translation service device 300 performs a verb post-processing process for correcting a translation error in relation to a verb.

이를 위하여 번역 서비스 장치(300)는 동사의 앞과 뒤의 검색 명사들을 추출하여 빅데이터에서 관련 검색 명사들을 포함한 문장들을 검색하여 추출한다.To this end, the translation service device 300 extracts search nouns before and after the verb, and searches and extracts sentences including related search nouns from big data.

그리고, 상기 번역 서비스 장치(300)는 해당 동사의 의미와 유사한 의미의 동사 표현을 동사 대체 후보로 추출하며, 추출된 동사 대체 후보들에 대하여 문장 비율을 산출한 후에 문장 비율이 가장 큰 가장 큰 동사 대체 후보로 해당 동사 표현을 대체한다.In addition, the translation service device 300 extracts a verb expression having a meaning similar to the meaning of the corresponding verb as a verb replacement candidate, and after calculating the sentence ratio for the extracted verb replacement candidates, the largest verb replacement with the largest sentence ratio Substitute the verb expression as a candidate.

일예로, 번역 서비스 장치(300)는 "A black flag is flying high on its mast."에 대하여 "검은 깃발이 그 돛대에서 높이 달려있다."로 1차 번역하고, "깃발", "돛대"를 1차 번역문의 복수의 대표 명사로 추출한 후에, 이를 빅데이터에서 검색하여 해당 복수의 대표 명사를 포함한 문장들을 수집한다.As an example, translation services device (300) "There is a black flag up high in his mast." About "A black flag is flying high on its mast." Translation 1 car, and the "flag", "Mast" After extracting a plurality of representative nouns of the first translation, they are searched in big data and sentences including the plurality of representative nouns are collected.

이때, 번역 서비스 장치(300)에 의해 수집될 수 있는 문장들은 일예로 "돛대에는 바람이 잘게 찢어놓은 깃발들 찢어진 깃발들이 슬픈 춤을 춘다", " 높게 솟은 돛대 사이로 깃발이 펄럭입니다", "부러진 돛대 끝엔 처참하게 찢긴 깃발이 늘어져 있었다"등이며, 번역 서비스 장치(300)는 해당 동사의 의미와 유사한 의미의 동사 표현을 동사 대체 후보로 추출하여 문장 비율을 산출한다.At this time, the sentences that can be collected by the translation service device 300 are, for example, "The flags that have been torn by the wind and the torn flags dance sadly on the mast", "The flags are fluttering through the high-rise masts", "Broken At the end of the mast, there was a terrible torn flag," and so on, and the translation service device 300 extracts a verb expression having a meaning similar to that of the corresponding verb as a verb replacement candidate and calculates a sentence ratio.

상기 번역 서비스 장치(300)는 문장 비율을 산출한 결과, 일예로 "돛대에는 바람이 잘게 찢어놓은 깃발들 찢어진 깃발들이 슬픈 춤을 춘다"에서 추출된 대체 동사 후보인 "슬픈 춤을 춘다"를 포함한 문장비율이 2%, " 높게 솟은 돛대 사이로 깃발이 펄럭입니다"라는 문장에서 추출된 대체 동사 후보인 "펄럭이다"를 포함함 문장 비율이 25%, "돛대 끝엔 처참하게 찢긴 깃발이 늘어져 있었다"라는 표현에 "늘어져 있었다"를 포함한 표현이 8%인 경우에, 문장 비율이 가장 큰 "펄럭이다"로 "달려있다"를 대체한다.As a result of calculating the sentence ratio, the translation service device 300 includes, for example, "Dance a sad dance", which is an alternative verb candidate extracted from "On the mast, the flags torn by the wind and the torn flags dance sad". The sentence ratio was 2%, and the alternative verb candidate "fluttered" extracted from the sentence "The flag flutters through the high-rise mast". The sentence ratio was 25%, "the end of the mast had a terribly torn flag hanging". If 8% of the expressions include "was stretched" in the expression, then "it depends " with the largest sentence proportion "flutters".

이와 달리, 번역 서비스 장치(300)는 "A black flag is flying high on its mast."에 대하여 "검은 깃발이 그 돛대에서 높이 달려있다."로 1차 번역하고, "깃발", "돛대"를 1차 번역문의 복수의 검색 명사로 추출한 후에, 이를 빅데이터에서 검색하여 해당 복수의 검색 명사를 포함한 문장들을 수집하여 각각의 문장들을 제1 내지 n의 대체 후보 번역문으로 분류한다.Alternatively, the translation service device (300) is the "A black flag is flying high on its mast."" There are black flag hangs high in their masts," as the primary translation, and "flag", "Mast" for After extracting the first translation into a plurality of search nouns, it is searched in big data, and sentences including the plurality of search nouns are collected, and each sentence is classified into first to n alternative candidate translations.

이후에, 번역 서비스 장치(300)는 1차 번역문에서 복수의 기준 대표 단어를 추출하되, 복수의 기준 대표 단어와 복수의 제1 내지 n의 대체 대표 단어 사이의 유사도를 측정하고, 결과를 바탕으로 해당 동사와 제1 내지 n의 동사 대체 후보 사이의 유사도를 추론하여 유사도가 가장 큰 동사 대체 후보를 해당 동사로 대체한다.Thereafter, the translation service apparatus 300 extracts a plurality of reference representative words from the primary translation, but measures the similarity between the plurality of reference representative words and the plurality of first to n alternative representative words, and based on the result. By inferring the degree of similarity between the corresponding verb and the verb substitution candidates of 1 to n, the verb substitution candidate with the greatest similarity is substituted with the corresponding verb.

해당 동사와 복수의 제1 내지 n의 동사 대체 후보 사이의 유사도의 측정은, 복수의 기준 대표 단어와 복수의 제1 내지 n의 대체 대표 단어 사이에 공통된 단어의 존재 유무를 검사함으로써 이루어질 수 있으며, 아래의 수식(1)에 따라 연산될 수 있다.Measurement of the degree of similarity between the corresponding verb and the plurality of first to n replacement candidates may be performed by examining the presence or absence of a common word between the plurality of reference representative words and the plurality of first to n alternative representative words, It can be calculated according to Equation (1) below.

(수학식 1)(Equation 1)

Figure 112019073584416-pat00007
Figure 112019073584416-pat00007

여기서, n은 어느 하나의 대체 후보 번역문으로부터 추출된 복수의 대체 대표 단어의 개수를 나타낸다. 이때, 대체 대표 단어 중 i번째 단어가 기준 대표 단어 및 대체 대표 단어에 공통적으로 존재하는 때 Si 값은 1의 값을 갖는다.Here, n represents the number of a plurality of replacement representative words extracted from any one replacement candidate translation. In this case, when the i-th word among the replacement representative words is commonly present in the reference representative word and the substitute representative word, the Si value has a value of 1.

기준 대표 단어 중 i번째 단어가 대체 대표 단어에는 존재하지 않는 때 Si 값은 0의 값을 갖는다. When the i-th word among the reference representative words does not exist in the substitute representative word, the Si value has a value of 0.

한편, 번역 결과 취합부(140)는 번역 서비스 장치(300)로부터 번역된 자막 데이터(이하, 번역 자막 데이터-직독직해 번역 자막 데이터와 한국어 어순 번역 자막 데이터를 포함)를 수신하고 이를 취합한다.Meanwhile, the translation result aggregating unit 140 receives and aggregates the translated caption data (hereinafter, translated caption data-including direct translation caption data and Korean word order translated caption data) from the translation service device 300.

이때, 번역 결과 취합부(140)는 번역 자막 데이터의 재생 시간을 디지털 방송 데이터의 음성 신호에 기초하여 매칭할 수 있다. 즉, 디지털 방송 데이터의 음성 신호가 발생하는 구간에 해당 자막 데이터를 매칭하여 취합함으로써 디지털 방송 데이터에 번역 자막 데이터를 동기화한다.In this case, the translation result aggregator 140 may match the reproduction time of the translated caption data based on the audio signal of the digital broadcasting data. That is, the translated caption data is synchronized with the digital broadcasting data by matching and collecting the corresponding caption data in the section in which the audio signal of the digital broadcasting data is generated.

동기화를 위해, 번역 결과 취합부(140)는 번역 자막 데이터를 수신하는 시간과 번역 의뢰부(130)에서 의뢰한 시간을 확인하여 번역 과정에 소요되는 시간을 산출한다. 따라서, 번역 과정에 소요되는 시간이 일정 시간을 경과하여 지연되는 경우 경과한 시간만큼 디지털 방송 데이터의 영상 데이터를 딜레이하도록 요청할 수 있다.For synchronization, the translation result aggregating unit 140 checks the time for receiving the translation caption data and the time requested by the translation request unit 130 to calculate the time required for the translation process. Accordingly, when the time required for the translation process is delayed after a predetermined time elapses, it may be requested to delay the image data of the digital broadcast data by the elapsed time.

또한, 디지털 방송 데이터에서 원 자막 데이터가 영상 데이터의 재생 시간 대비 몇 초 정도 지연되는 경우(예컨대, 원 자막 데이터가 청각장애인의 시청권 보호를 위해 인력에 의해 실시간으로 입력되는 폐쇄 자막 데이터인 경우), 번역 결과 취합부(140)는 디지털 방송 데이터로부터 추출되는 자막 데이터(즉, 원 자막 데이터)의 재생시간과 영상 데이터의 재생 시간간 지연 시간에 기초하여 영상 데이터의 재생 시간을 딜레이하도록 요청할 수 있다. 즉, 번역 결과 취합부(140)는 원 자막 데이터의 재생 시간과 영상 데이터의 재생 시간간 지연 시간을 산출한 값에 기초하여 그 지연 시간만큼 영상 데이터의 재생 시간을 딜레이하도록 요청할 수 있다.In addition, when the original caption data is delayed by a few seconds compared to the playback time of the video data in the digital broadcasting data (e.g., when the original caption data is closed caption data input in real time by personnel to protect the viewing rights of the hearing impaired), The translation result aggregator 140 may request to delay the reproduction time of the image data based on a reproduction time of the caption data (ie, original caption data) extracted from the digital broadcasting data and a delay time between the reproduction time of the image data. That is, the translation result aggregator 140 may request to delay the reproduction time of the image data by the delay time based on a value obtained by calculating a delay time between the reproduction time of the original caption data and the reproduction time of the image data.

번역 자막 관리부(150)는 디지털 방송 데이터에 대한 원 자막 데이터와, 번역 결과 취합부(140)를 통해 취합한 번역 자막 데이터를 데이터베이스에 저장하고 추후 활용하기 적합한 파일 형식으로 재구성하는 등 데이터를 관리한다.The translation caption management unit 150 manages data such as storing the original caption data for digital broadcasting data and the translated caption data collected through the translation result collection unit 140 in a database and reconfiguring it into a file format suitable for later use. .

번역 자막 송출부(160)는 사용자 단말(200)로부터 번역할 언어에 대하여 입력받으며, 번역 결과 취합부(140)를 통해 취합한 번역 자막 데이터를 스트리밍하는 디지털 방송 데이터와 동기화하여 송출한다.The translation caption transmission unit 160 receives input of a language to be translated from the user terminal 200, and transmits the translated caption data collected through the translation result collection unit 140 in synchronization with streaming digital broadcasting data.

특히, 번역 결과 취합부(140)에서 디지털 방송 데이터의 영상 데이터에 대한 딜레이 요청이 발생하면, 번역 자막 송출부(160)에서 지연 시간만큼 디지털 방송 데이터의 영상 데이터를 딜레이하여 송출한다.In particular, when a delay request for image data of digital broadcasting data is generated by the translation result collecting unit 140, the translated caption transmitting unit 160 delays and transmits the image data of the digital broadcasting data by a delay time.

다음으로 도 2를 참조하면, 스트리밍 처리부(2)는 방송 수신부(도 1의 1)를 통해 스트리밍하는 디지털 방송 데이터를 영상, 음성으로 분리하여 데이터 처리 후 동기화하는 구성을 포함할 수 있다.Next, referring to FIG. 2, the streaming processing unit 2 may include a configuration for separating digital broadcasting data streamed through the broadcast receiving unit (1 of FIG. 1) into video and audio, processing the data, and then synchronizing it.

이를 위한 구성으로, 스트리밍 처리부(2)는 동영상 분리부(21), 음성신호 특징 분석부(22), 음성시작시간 기록부(23), 통합부(24)를 포함한다.As a configuration for this, the streaming processing unit 2 includes a moving picture separation unit 21, a voice signal characteristic analysis unit 22, a voice start time recording unit 23, and an integration unit 24.

동영상 분리부(21)는 방송 수신부(도 1의 1)를 통해 스트리밍하는 디지털 방송 데이터로부터 영상 데이터와 음성 데이터를 분리한다. 이러한 동영상 분리부(21)는 구체적으로 방송 수신부를 통해 스트리밍하는 디지털 방송데이터로부터 영상 데이터를 추출하는 영상 추출부(21a), 및 음성 데이터를 추출하는 음성 추출부(21b)로 구성될 수 있다.The moving picture separating unit 21 separates video data and audio data from digital broadcast data streamed through the broadcast receiving unit (1 in FIG. 1). Specifically, the moving picture separating unit 21 may include an image extracting unit 21a for extracting image data from digital broadcast data streamed through a broadcast receiving unit, and an audio extracting unit 21b for extracting audio data.

음성신호 특징 분석부(22)는 음성 추출부(21b)를 통해 추출한 음성 데이터를 분석하여 동영상 내 음성시작 시간을 검출한다. 음성시작 시간은 자막 데이터를 동기화할 때 자막 시작 시간을 결정하는 데 기준이 된다.The voice signal feature analysis unit 22 analyzes the voice data extracted through the voice extracting unit 21b to detect a voice start time in the video. The audio start time is the basis for determining the subtitle start time when synchronizing the subtitle data.

음성 데이터의 분석은 음성신호의 주파수, 피크치(Peak), 에지 검출(edge detection), 노이즈(noise) 분석 등을 활용할 수 있다.Voice data can be analyzed using frequency, peak, edge detection, and noise analysis of the voice signal.

음성시작시간 기록부(23)는 음성신호 특징 분석부(22)를 통해 분석한 정보에 기초하여 영상 내에 음성시작 시간이 판단되는 지점의 시간들을 기록한다.The audio start time recording unit 23 records times in the video at the points where the audio start time is determined based on the information analyzed by the audio signal characteristic analysis unit 22.

통합부(24)는 영상 추출부(21a) 및 음성 추출부(21b)를 통해 추출한 영상 데이터 및 음성 데이터를 통합하여 하나의 방송 데이터로 구성한다. 이때, 음성 데이터는 음성시작시간 기록부(23)를 거쳐 음성시작시간이 포함된 형태로 통합된다.The integration unit 24 combines the image data and audio data extracted through the image extraction unit 21a and the audio extraction unit 21b to form one broadcast data. At this time, the voice data is integrated in a form including the voice start time through the voice start time recording unit 23.

또한, 통합부(24)는 앞서 설명한 자막 제공 서비스 장치(도 1의 100)에서 실시간 번역한 번역 자막 데이터를 수신하여 영상 데이터와 함께 통합할 수 있다.In addition, the integrator 24 may receive the translated caption data translated in real time by the caption providing service device (100 of FIG. 1) described above and integrate it together with the image data.

도 6은 본 발명에 따른 번역 서비스 장치의 구성을 보여주는 도면이다.6 is a diagram showing the configuration of a translation service apparatus according to the present invention.

도 6을 참조하면, 본 발명에 따른 번역 서비스 장치는 문장 분할기(10), 직독직해 번역기(12), 한국어 어순 번역기(14), 어순 정렬기(16) 및 후처리 수행기(18)를 포함한다.6, the translation service apparatus according to the present invention includes a sentence splitter 10, a direct reading translator 12, a Korean word order translator 14, a word order sorter 16, and a post-processing unit 18. .

먼저, 상기 문장 분할기(10)는 입력 문장을 처음부터 끝까지 읽으면서 가능한 분할점 후보들을 모두 추출한다. 여기서, 사용된 분할점 후보들은 문장 부호, 수식어구, 수식어절이다.First, the sentence divider 10 extracts all possible split point candidates while reading the input sentence from start to finish. Here, the split point candidates used are punctuation marks, modifier phrases, and modifier clauses.

여기에서, 문장 부호는 마침표(.), 물음표(?), 느낌표(!), 쉼표(,), 가운뎃 점(·), 쌍점( : ), 쌍반점(;), 빗금(/), 큰따옴표(“ ”), 작은따옴표(‘ ’), 소괄호(( )), 중괄호,({ }), 대괄호([ ]), 붙임표(-), 줄표(--), 물결표(~), 줄임표(......) 등이 있다. Here, the punctuation marks are period (.), question mark (?), exclamation mark (!), comma (,), middle dot (·), colon (: ), colon (;), hatched (/), double quotation mark ( “”), single quotation marks (''), parentheses (( )), curly braces, ({ }), brackets ([ ]), braces (-), dashes (--), tildes (~), ellipsis (.. ....) and so on.

이때, 수식어구나 수식어절은 '/' 기호, '△' 기호 또는 '○'기호로 직독직해 기호가 표기되어 있다.At this time, a modifier or a modifier clause is marked with a'/' sign, a'△' sign, or a'○' sign.

다만, 문장 분할기(10)는 쉼표인 경우에 명사나 명사절이 이어지면, 분할점 후보에서 제외한다. 이때, 문장 분할기(10)는 쉼표 이후에 이어지는 단어가 전치사 역할을 하는 including인 경우에는 분할점 후보에서 제외하지 않는다.However, the sentence divider 10 excludes a noun or noun clause from a candidate for a split point if a noun or a noun clause is followed by a comma. In this case, the sentence divider 10 does not exclude from the dividing point candidates when the word following the comma is including serving as a preposition.

또한, 문장 분할기(10)는 수식어구의 경우에 앞에 단어가 분사구문인 경우에 분할점 후보에서 제외한다.In addition, the sentence divider 10 excludes a modifier phrase from the split point candidate when the preceding word is an injection phrase.

즉, 문장 분할기(10)는 '/' 기호의 경우에 앞에 단어가 분사구문으로 '

Figure 112019073584416-pat00008
' 기호가 표시되어 있는 경우에 분할점 후보에서 제외한다.That is, in the case of the'/' symbol, the sentence divider 10 has a word in front of the'/'
Figure 112019073584416-pat00008
If the 'symbol is marked, it is excluded from the candidate for splitting points.

또한, 문장 분할기(10)는 동사의 경우에 앞뒤에 가상의 분할점을 추가하여 구별되도록 한다.In addition, the sentence divider 10 adds virtual splitting points to the front and back in the case of verbs to distinguish them.

즉, 문장 분할기(10)는 동사의 경우에 밑줄이 위치하고 있는바, 밑줄이 있는 경우에 가상의 분할점을 앞과 뒤에 추가한다.That is, the sentence divider 10 adds an underline in the case of a verb, and adds virtual splitting points before and after the underline.

그리고, 문장 분할기(10)는 등위접속사인 경우에 다음에 동사가 아닌 경우에는, 즉 명사등인 경우에는 분할점 후보에서 제외한다.In addition, the sentence divider 10 excludes from the dividing point candidates in the case of a co-ordinate conjunction, and in the case of a non-verb, that is, a noun or the like.

다만, 문장 분할기(10)는 등위접속사에서 but은 뒤에 동사가 있는 경우에 가상의 분할점을 앞과 뒤에 추가한다.However, the sentence divider 10 adds virtual splitting points before and after when the verb is after but in the equal conjunction.

즉, 문장 분할기(10)는 등위 접속사인 경우에 '△' 기호로 표기되며, '△' 기호이후에 동사를 나타내는 밑줄 기호가 없는 경우에 분할점 후보에서 제외하며, 등위접속사에서 but인 경우에 밑줄 기호가 있는 경우에는 가상의 분할점을 앞과 뒤에 추가한다.That is, the sentence divider 10 is marked with a'△' sign in the case of a co-ordinate conjunction, and is excluded from the split point candidate when there is no underscore sign indicating a verb after the'△' sign. If there is an underscore symbol, an imaginary split point is added before and after.

다음으로, 직독직해 번역기(12)는 문장 분할된 영어 문장을 입력받아 문장 분할된 순서에 따라 번역하여 직독직해 번역 자막 데이터를 생성한다.Next, the direct reading direct translation translator 12 receives the divided English sentences and translates them according to the sentence division order to generate the translated subtitle data.

여기에서, From here, 직독직해Direct reading 번역기(12)는 Translator 12 직독직해Direct reading 기호가 Sign 표함된Marked 영어 문장에서 In English sentences 직독직해Direct reading 기호의 의미 단위 연산을 수행하고, 이를 기초로 하여 의미단위 The meaning unit operation of the symbol is performed, and based on this, the meaning unit 직독직해를Direct reading 수행한다. Carry out.

한국어 어순 번역기(14)는 직독직해 번역기(12)에서 번역된 직독직해 번역 자막 데이터를 입력받아 한국어 어순에 따른 순서로 조정하여 한국어 어순 번역 자막 데이터를 생성한다.The Korean word order translator 14 receives the direct read direct translation caption data translated by the direct read direct translation translator 12 and adjusts the order according to the Korean word order to generate the Korean word order translated caption data.

이때, 직독직해 번역기(12)는 수식어절이 관계 대명사나 관계 부사인 경우에 관계 대명사나 관계 부사가 한정하는 한정 부분을 수식어절의 동사로 대체하여 번역한다.At this time, the direct-reading translator 12 translates the qualifier clause by replacing the limited part defined by the relation pronoun or the relation adverb with the verb of the qualifier clause when the modifier clause is a relation pronoun or a relation adverb.

즉, 상기 문장 분할기(10)는 수식어절이 관게 대명사나 관계 부사인 경우에 '○'기호를 표시하고 관계대명사 또는 관계부사 전방방향으로 '

Figure 112019073584416-pat00009
'기호를 함께 표시되어 있는바, 직독직해 번역기(12)는 '○'기호에 '
Figure 112019073584416-pat00010
'기호가 있는 경우에 한정 부분으로 수식어절의 동사를 대체하여 번역한다. That is, when the modifier clause is a related pronoun or a related adverb, the sentence divider 10 displays a'○' sign and moves forward with a related pronoun or a related adverb.
Figure 112019073584416-pat00009
'As the symbol is marked together, the direct reading translator (12) means'○' in the'○' symbol.
Figure 112019073584416-pat00010
'If there is a sign, it is translated by replacing the verb in the modifier clause with a limited part.

한편, 상기 한국어 어순 번역기(14)는 주어와 관련된 수식어의 경우에 순서가 반대로 될 수 있다.Meanwhile, the Korean word order translator 14 may reverse the order of modifiers related to a subject.

일예로, 영어 문장이 "On a clear day, a crewmember on a merchant ship sailing across the caribbean Sea peers out at the horizon through his telescope"인 경우에 "맑은 날에는 승무원이 카리브 해를 가로 지르는 상선에서 그의 망원경을 통해 수평선을 응시한다"로 번역하는 경우가 많이 있다.For example, if the English sentence is "On a clear day, a crewmember on a merchant ship sailing across the caribbean Sea peers out at the horizon through his telescope" It is often translated as "to stare at the horizon through".

이러한 잘못된 번역을 방지하기 위하여, 어순 정렬기(16)는 동사 앞에 있는 명사들을 추출한다.In order to prevent such erroneous translation, the word order sorter 16 extracts nouns in front of the verb.

이때, 어순 정렬기(16)는 의미 요소가 강한 명사들을 추출하며, 어순 정렬기(16)는 일예로 승무원, 상선을 선택한다. 이처럼 어순 정렬기(16)는 동사 앞에 명사가 적어도 2개이상인 경우에 아래 동작을 진행한다.At this time, the word order sorter 16 extracts nouns having strong semantic elements, and the word order sorter 16 selects a crew member and a merchant ship as an example. As such, the word order sorter 16 performs the following operation when there are at least two nouns in front of the verb.

그리고, 어순 정렬기(16)는 빅데이터에서 승무원과 상선을 입력하여 빅데이터에서 해당 단어를 포함한 문장들을 추출하며, 추출된 문장들에서 승무원에 이어 상선이 표현된 문장 비율을 산출하고, 이와 반대로 상선에 이어 승무원이 표현된 문장 비율을 산출하여 산출된 문장 비율이 큰 순서에 따라 배열된 한국어 어순 번역 자막 데이터를 작성하여 사용자에게 제공한다.In addition, the word order sorter 16 extracts sentences containing the word from big data by inputting the crew and the merchant ship from big data, and calculates the proportion of sentences in which the merchant ship is expressed following the crew from the extracted sentences, and vice versa. Following the merchant ship, the flight attendant calculates the expressed sentence ratio, and creates and provides the Korean word order translated subtitle data arranged in the order of the largest sentence ratio to the user.

상기 어순 정렬기(16)는 일예로 추출된 문장들에서 승무원에 이어 상선이 표현된 문장 비율이 30%이고, 이와 반대로 상선에 이어 승무원이 표현된 문장 비율을 산출하여 산출된 문장 비율이 70%이면 어순 정렬기(16)는 "맑은 날에는 카리브 해를 가로 지르는 상선에서 승무원이 수평선을 그의 망원경을 통해 응시한다"로 번역된 한국어 어순 번역 자막 데이터를 생성한다.In the word order sorter 16, the proportion of sentences in which the crew and the merchant ship are expressed in the extracted sentences as an example is 30%, and on the contrary, the sentence ratio calculated by calculating the proportion of the sentences expressed by the crew after the merchant ship is 70%. The word order sorter 16 on the back generates Korean word order translated subtitle data translated as "On a clear day, on a merchant ship crossing the Caribbean Sea, the crew stares at the horizon through his telescope."

한편, 후처리 수행기(18)는 동사 관련하여 번역상의 오류를 수정하기 위한 동사 후처리 과정을 수행한다.On the other hand, the post-processing unit 18 performs a verb post-processing process to correct a translation error in relation to the verb.

이를 위하여 후처리 수행기(18)는 동사의 앞과 뒤의 검색 명사들을 추출하여 빅데이터에서 관련 검색 명사들을 포함한 문장들을 검색하여 추출한다.To this end, the post-processing unit 18 extracts search nouns before and after the verb, and searches and extracts sentences including related search nouns from big data.

그리고, 상기 후처리 수행기(18)는 해당 동사의 의미와 유사한 의미의 동사 표현을 동사 대체 후보로 추출하며, 추출된 동사 대체 후보들에 대하여 문장 비율을 산출한 후에 문장 비율이 가장 큰 가장 큰 동사 대체 후보로 해당 동사 표현을 대체한다.In addition, the post-processing unit 18 extracts a verb expression with a meaning similar to the meaning of the corresponding verb as a verb substitution candidate, calculates the sentence ratio for the extracted verb substitution candidates, and then substitutes the largest verb with the largest sentence ratio. Replace the verb expression as a candidate

일예로, 후처리 수행기(18)는 "A black flag is flying high on its mast."에 대하여 "검은 깃발이 그 돛대에서 높이 달려있다."로 1차 번역하고, "깃발", "돛대"를 1차 번역문의 복수의 대표 명사로 추출한 후에, 이를 빅데이터에서 검색하여 해당 복수의 대표 명사를 포함한 문장들을 수집한다.As an example, the post-processing suhaenggi 18 "has a black flag up high in the mast," with respect to "A black flag is flying high on its mast." Translated first in, and "flag", a "mast" After extracting a plurality of representative nouns of the first translation, they are searched in big data and sentences including the plurality of representative nouns are collected.

이때, 후처리 수행기(18)에 의해 수집될 수 있는 문장들은 일예로 "돛대에는 바람이 잘게 찢어놓은 깃발들 찢어진 깃발들이 슬픈 춤을 춘다", " 높게 솟은 돛대 사이로 깃발이 펄럭입니다", "부러진 돛대 끝엔 처참하게 찢긴 깃발이 늘어져 있었다"등이며, 후처리 수행기(18)는 해당 동사의 의미와 유사한 의미의 동사 표현을 동사 대체 후보로 추출하여 문장 비율을 산출한다.At this time, the sentences that can be collected by the post-processing implementer (18) are, for example, "The flags that are torn by the wind and the torn flags dance sadly on the mast", "The flags are fluttering through the high-rise masts", "Broken At the end of the mast, there was a terrible torn flag," and so on, and the post-processing unit 18 extracts the verb expression with a meaning similar to that of the corresponding verb as a verb replacement candidate and calculates the sentence ratio.

상기 후처리 수행기(18)는 문장 비율을 산출한 결과, 일예로 "돛대에는 바람이 잘게 찢어놓은 깃발들 찢어진 깃발들이 슬픈 춤을 춘다"에서 추출된 대체 동사 후보인 "슬픈 춤을 춘다"를 포함한 문장비율이 2%, " 높게 솟은 돛대 사이로 깃발이 펄럭입니다"라는 문장에서 추출된 대체 동사 후보인 "펄럭이다"를 포함함 문장 비율이 25%, "돛대 끝엔 처참하게 찢긴 깃발이 늘어져 있었다"라는 표현에 "늘어져 있었다"를 포함한 표현이 8%인 경우에, 문장 비율이 가장 큰 "펄럭이다"로 "달려있다"를 대체한다.As a result of calculating the sentence ratio, the post-processing unit 18 includes, for example, "Dance a sad dance", which is an alternative verb candidate extracted from "On the mast, the flags torn by the wind and the torn flags dance sad". The sentence ratio was 2%, and the alternative verb candidate "fluttered" extracted from the sentence "The flag flutters through the high-rise mast". The sentence ratio was 25%, "the end of the mast had a terribly torn flag hanging". If 8% of the expressions include "was stretched" in the expression, then "it depends " with the largest sentence proportion "flutters".

이와 달리, 후처리 수행기(18)는 "A black flag is flying high on its mast."에 대하여 "검은 깃발이 그 돛대에서 높이 달려있다 ."로 1차 번역하고, "깃발", "돛대"를 1차 번역문의 복수의 검색 명사로 추출한 후에, 이를 빅데이터에서 검색하여 해당 복수의 검색 명사를 포함한 문장들을 수집하여 각각의 문장들을 제1 내지 n의 대체 후보 번역문으로 분류한다.Alternatively, the processing suhaenggi 18 is an "A black flag is flying high on its mast.""There is a black flag up high in the mast," as the primary translation, and the "flag", "poles" for after After extracting the first translation into a plurality of search nouns, it is searched in big data, and sentences including the plurality of search nouns are collected, and each sentence is classified into first to n alternative candidate translations.

이후에, 후처리 수행기(18)는 1차 번역문에서 복수의 기준 대표 단어를 추출하되, 복수의 기준 대표 단어와 복수의 제1 내지 n의 대체 대표 단어 사이의 유사도를 측정하고, 결과를 바탕으로 해당 동사와 제1 내지 n의 동사 대체 후보 사이의 유사도를 추론하여 유사도가 가장 큰 동사 대체 후보를 해당 동사로 대체한다.Thereafter, the post-processing unit 18 extracts a plurality of reference representative words from the primary translation, but measures the similarity between the plurality of reference representative words and the plurality of first to n alternative representative words, and based on the result. By inferring the degree of similarity between the corresponding verb and the verb substitution candidates of 1 to n, the verb substitution candidate with the greatest similarity is substituted with the corresponding verb.

해당 동사와 복수의 제1 내지 n의 동사 대체 후보 사이의 유사도의 측정은, 복수의 기준 대표 단어와 복수의 제1 내지 n의 대체 대표 단어 사이에 공통된 단어의 존재 유무를 검사함으로써 이루어질 수 있으며, 아래의 수식(1)에 따라 연산될 수 있다.Measurement of the degree of similarity between the corresponding verb and the plurality of first to n replacement candidates may be performed by examining the presence or absence of a common word between the plurality of reference representative words and the plurality of first to n alternative representative words, It can be calculated according to Equation (1) below.

(수학식 1)(Equation 1)

Figure 112019073584416-pat00011
Figure 112019073584416-pat00011

여기서, n은 어느 하나의 대체 후보 번역문으로부터 추출된 복수의 대체 대표 단어의 개수를 나타낸다. 이때, 대체 대표 단어 중 i번째 단어가 기준 대표 단어 및 대체 대표 단어에 공통적으로 존재하는 때 Si 값은 1의 값을 갖는다.Here, n represents the number of a plurality of replacement representative words extracted from any one replacement candidate translation. In this case, when the i-th word among the replacement representative words is commonly present in the reference representative word and the substitute representative word, the Si value has a value of 1.

기준 대표 단어 중 i번째 단어가 대체 대표 단어에는 존재하지 않는 때 Si 값은 0의 값을 갖는다. When the i-th word among the reference representative words does not exist in the substitute representative word, the Si value has a value of 0.

이상의 설명은 본 발명을 예시적으로 설명한 것에 불과하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술적 사상에서 벗어나지 않는 범위에서 다양한 변형이 가능할 것이다. 따라서 본 발명의 명세서에 개시된 실시 예들은 본 발명을 한정하는 것이 아니다. 본 발명의 범위는 아래의 특허청구범위에 의해 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술도 본 발명의 범위에 포함되는 것으로 해석해야 할 것이다.The above description is merely illustrative of the present invention, and various modifications may be made without departing from the technical spirit of the present invention by those of ordinary skill in the technical field to which the present invention pertains. Therefore, the embodiments disclosed in the specification of the present invention do not limit the present invention. The scope of the present invention should be interpreted by the following claims, and all technologies within the scope equivalent thereto should be interpreted as being included in the scope of the present invention.

1: 방송 수신부 2: 데이터 처리부
3: 방송 송출부 4: VOD 서버
100: 자막 제공 서비스 장치
110: 자막 추출부 120: 자막 분석부
130: 번역 의뢰부 140: 번역 결과 취합부
150: 번역 자막 관리부 160: 번역 자막 송출부
200: 사용자 단말 300: 번역 서비스 장치
1: broadcast receiving unit 2: data processing unit
3: Broadcasting unit 4: VOD server
100: subtitle providing service device
110: subtitle extraction unit 120: subtitle analysis unit
130: translation request unit 140: translation result collection unit
150: translation subtitle management unit 160: translation subtitle transmission unit
200: user terminal 300: translation service device

Claims (15)

사용자 단말의 요청에 의해 스트리밍하는 디지털 방송 데이터로부터 자막을 추출하여 복호화하는 자막 추출부;
상기 자막 추출부에서 추출한 자막 데이터를 형태소 단위로 분석하고 직독직해 기호가 포함된 자막 데이터를 재구성하는 자막 분석부;
상기 자막 분석부에서 재구성한 자막 데이터를 미리 정해진 번역 서비스 장치로 번역 의뢰하는 번역 의뢰부;
상기 번역 의뢰에 의해 번역된 직독직해 번역 자막 데이터를 수신하여 취합하는 번역 결과 취합부; 및
상기 사용자 단말로부터 번역할 언어에 대하여 입력받고 상기 번역 결과 취합부를 통해 취합한 번역된 직독직해 번역 자막 데이터를 상기 디지털 방송 데이터와 동기화하여 송출하는 번역 자막 송출부를 포함하고,
상기 번역 서비스 장치는 입력 문장을 처음부터 끝까지 읽으면서 가능한 분할점 후보들을 모두 추출하여 문장을 분할하는 문장 분할기;
상기 문장 분할기에서 문장 분할된 영어 문장을 입력받아 문장 분할된 순서에 따라 번역하여 직독직해 번역 자막 데이터를 생성하는 직독직해 번역기;
상기 직독직해 번역기에서 번역된 직독직해 번역 자막 데이터를 입력받아 한국어 어순에 따른 순서로 조정하여 한국어 어순 번역 자막 데이터를 생성하는 한국어 어순 번역기 및:
상기 한국어 어순 번역 자막 데이터에서 주어와 관련된 수식어의 위치를 정렬하는 어순 정렬기를 포함하며,
상기 분할점 후보들은 문장 부호, 수식어구 및 수식어절이고, 상기 어순 정렬기는 동사 앞에 있는 명사들을 추출하여, 빅데이터에서 해당 단어를 포함한 문장들을 추출하며, 추출된 문장들에서 명사 순서별 문장 비율을 산출하고, 산출된 문장 비율에 따라 배열된 한국어 어순 번역문을 작성하는 것을 특징으로 하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.
A caption extractor for extracting and decoding captions from digital broadcasting data to be streamed at the request of a user terminal;
A caption analysis unit for analyzing caption data extracted by the caption extracting unit in units of morphemes and reconstructing caption data including direct reading symbols;
A translation request unit for requesting a translation of the caption data reconstructed by the caption analysis unit to a predetermined translation service device;
A translation result aggregator for receiving and collecting the translated subtitle data translated by the translation request; And
A translation caption transmission unit receiving input from the user terminal for a language to be translated and transmitting the translated direct reading translation caption data collected through the translation result collecting unit in synchronization with the digital broadcasting data,
The translation service apparatus includes: a sentence divider for dividing a sentence by extracting all possible segmentation point candidates while reading an input sentence from start to finish;
A direct-reading translator for receiving the divided English sentences from the sentence divider and translating them according to the order in which the sentences were divided to generate direct-reading translated caption data;
A Korean word order translator for generating subtitle data translated in Korean word order by receiving the direct reading direct translation subtitle data translated by the direct reading direct reading translator and adjusting the order according to the Korean word order:
A word order sorter that arranges positions of modifiers related to a subject in the Korean word order translated subtitle data,
The split point candidates are punctuation marks, modifiers, and modifier clauses, and the word order sorter extracts nouns in front of the verb, extracts sentences including the corresponding word from big data, and calculates the sentence ratio for each noun order from the extracted sentences. And creating a Korean word order translation arranged according to the calculated sentence ratio.
청구항 1항에 있어서,
상기 자막 분석부는 입력된 자막 데이터를 기초로 형태소를 분석하여 해당 품사별로 특정기호를 자막 데이터에 표시하여 직독직해 기호가 포함된 자막 데이터를 생성하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.
The method of claim 1,
The caption analysis unit analyzes the morpheme based on the input caption data, displays a specific symbol for each part of speech in the caption data, and generates caption data including the symbol by direct reading, a digital broadcasting caption providing service device through real-time translation.
청구항 2항에 있어서,
상기 자막 분석부는 주어, 서술어, 목적어, 보어 및 기타수식어 중 두 개 이상의 조합으로 이루어지는 문장성분을 분석하여 제 1형식 내지 제 5형식 중 어느 하나의 문장형식을 결정하고 이에 따른 문장성분 및 문장형식의 제 1결과데이터를 생성하며, 자막 데이터의 문장성분 및 문장형식이 분석된 제 1결과데이터를 전달받아 명사, 동사, 수식어, 부정사, 동명사, 분사, 비교급, 등위접속사, 접속사, 관계대명사, 관계부사를 포함하는 다수의 품사군 중 어느 하나 또는 이들의 조합으로 문장성분별 분석을 수행하여 자막 데이터를 품사별로 분류하는 제 2결과데이터를 생성하고, 제 1결과데이터 및 제 2결과데이터를 전달받아 해당 품사별로 특정기호를 자막 데이터에 표시하여 직독직해 기호가 포함된 자막 데이터를 생성하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.
The method of claim 2,
The subtitle analysis unit analyzes a sentence component consisting of a combination of two or more of a subject, a predicate, an object, a bore, and other modal words to determine any one of the first to fifth forms, and the sentence component and sentence form accordingly Generates the first result data, and receives the first result data from which the sentence components and sentence format of the subtitle data are analyzed, and receives the nouns, verbs, modifiers, infinitives, gerunds, participles, comparative grades, equal conjunctions, conjunctions, relative pronouns, and relative adverbs Generates second result data for classifying subtitle data by part of speech by performing sentence component analysis with any one or a combination of a plurality of parts of speech groups including, and receiving the first result data and the second result data A service device for providing captions for digital broadcasting through real-time translation that displays specific symbols for each part-of-speech in the caption data and generates caption data including the symbols by direct reading.
청구항 3항에 있어서,
상기 자막 분석부가 생성하는 특정 기호는 해당 단어 또는 구절에 밑줄을 그어 표시하거나, 원문자 또는 세모, 화살표로 표시하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.
The method of claim 3,
A service device for providing captions for digital broadcasting through real-time translation in which the specific symbol generated by the caption analysis unit is displayed by underlined in a corresponding word or phrase, or displayed as an original character, triangle, or arrow.
청구항 1항에 있어서,
상기 번역 서비스 장치는 상기 자막 분석부에서 생성된 직독직해 기호가 포함된 자막 데이터를 입력받아 직독직해 번역을 수행하여 직독직해 번역 자막 데이터를 생성하여 상기 번역 결과 취합부로 제공하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.
The method of claim 1,
The translation service device receives caption data including the direct reading symbol generated by the caption analysis unit, performs direct reading direct translation, generates the translated caption data directly read, and provides it to the translation result aggregator through real-time translation. Subtitle provision service device.
청구항 5항에 있어서,
상기 번역 서비스 장치는 상기 자막 분석부에서 생성된 직독직해 기호가 포함된 자막 데이터를 입력받아 한국어 어순 번역을 수행하여 한국어 어순 번역 자막 데이터를 생성하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.
The method of claim 5,
The translation service device receives the caption data including the direct reading symbol generated by the caption analysis unit and performs Korean word order translation to generate Korean word order translated caption data.
청구항 6항에 있어서,
상기 번역 결과 취합부는 상기 번역 의뢰에 의해 번역된 한국어 어순 번역 자막 데이터를 수신하여 취합하며,
상기 번역 자막 송출부는 상기 사용자 단말로부터 번역할 언어에 대하여 입력받고 상기 번역 결과 취합부를 통해 취합한 번역된 한국어 번역 자막 데이터를 상기 디지털 방송 데이터와 동기화하여 송출하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.
The method of claim 6,
The translation result collection unit receives and aggregates the translated subtitle data in Korean word order translated by the translation request,
The translation caption transmission unit receives the input of the language to be translated from the user terminal and transmits the translated Korean translated caption data collected through the translation result collecting unit in synchronization with the digital broadcasting data. Device.
삭제delete 삭제delete 삭제delete 삭제delete 청구항 7항에 있어서,
상기 한국어 어순 번역기의 한국어 어순 번역 자막 데이터의 동사 관련하여 번역상의 오류를 수정하기 위한 동사 후처리 과정을 수행하는 후처리 수행기를 더 포함하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.
The method of claim 7,
A service apparatus for providing subtitles for digital broadcasting through real-time translation, further comprising: a post-processing unit performing a verb post-processing process for correcting a translation error in relation to a verb in the Korean word order translation subtitle data by the Korean word order translator.
청구항 12항에 있어서,
상기 후처리 수행기는 복수의 검색 명사들을 추출하여 빅데이터에서 관련 검색 명사들을 포함한 문장들을 검색하여 추출하고, 해당 동사의 의미와 유사한 의미의 동사 표현을 동사 대체 후보로 추출하며, 추출된 동사 대체 후보들에 대하여 문장 비율을 산출한 후에 문장 비율이 가장 큰 가장 큰 동사 대체 후보로 해당 동사 표현을 대체하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.
The method of claim 12,
The post-processor extracts a plurality of search nouns, searches for and extracts sentences including related search nouns from big data, extracts a verb expression with a meaning similar to the meaning of the corresponding verb as a verb substitution candidate, and extracts verb substitution candidates. A service device providing subtitles for digital broadcasting through real-time translation that substitutes the corresponding verb expression as the largest verb substitution candidate with the largest sentence ratio after calculating the sentence ratio for.
청구항 12항에 있어서,
상기 후처리 수행기는 1차 번역문의 복수의 검색 명사로 추출한 후에, 이를 빅데이터에서 검색하여 해당 복수의 검색 명사를 포함한 문장들을 수집하여 각각의 문장들을 제1 내지 n의 대체 후보 번역문으로 분류하며, 1차 번역문에서 복수의 기준 대표 단어를 추출하되, 복수의 기준 대표 단어와 복수의 제1 내지 n의 대체 대표 단어 사이의 유사도를 측정하고, 결과를 바탕으로 해당 동사와 제1 내지 n의 동사 대체 후보 사이의 유사도를 추론하여 유사도가 가장 큰 동사 대체 후보를 해당 동사로 대체하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.
The method of claim 12,
The post-processing unit extracts a plurality of search nouns of the primary translation, searches it in big data, collects sentences including the plurality of search nouns, and classifies each sentence into first to n alternative candidate translations, Extracting a plurality of reference representative words from the primary translation, measuring the similarity between the plurality of reference representative words and a plurality of first to n alternative representative words, and replacing the corresponding verb with the first to n verbs based on the results A service device providing subtitles for digital broadcasting through real-time translation that infers the degree of similarity between candidates and replaces the candidate with the largest similarity with the corresponding verb.
제1항에 있어서,
상기 번역 결과 취합부는
상기 번역된 직독직해 번역 자막 데이터의 재생 시간을 상기 디지털 방송 데이터의 음성 신호에 기초하여 매칭하는 것을 특징으로 하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.
The method of claim 1,
The translation result collection unit
A service apparatus for providing closed captions for digital broadcasting through real-time translation, characterized in that matching the reproduction time of the translated direct reading direct translation caption data based on the audio signal of the digital broadcasting data.
KR1020190086773A 2019-07-18 2019-07-18 Apparatus for providing of digital broadcasting using real time translation KR102229130B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190086773A KR102229130B1 (en) 2019-07-18 2019-07-18 Apparatus for providing of digital broadcasting using real time translation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190086773A KR102229130B1 (en) 2019-07-18 2019-07-18 Apparatus for providing of digital broadcasting using real time translation

Publications (2)

Publication Number Publication Date
KR20210009775A KR20210009775A (en) 2021-01-27
KR102229130B1 true KR102229130B1 (en) 2021-03-18

Family

ID=74238798

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190086773A KR102229130B1 (en) 2019-07-18 2019-07-18 Apparatus for providing of digital broadcasting using real time translation

Country Status (1)

Country Link
KR (1) KR102229130B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102552533B1 (en) * 2021-08-02 2023-07-05 주식회사 케이티디에스 Device and method for providing subtitle service
KR102523075B1 (en) * 2021-12-24 2023-04-20 한혜영 Textbook of visualizing of english sentence structure

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970056985A (en) 1995-12-29 1997-07-31 배순훈 TV with Broadcast Subtitle Translation
KR101302875B1 (en) * 2011-09-28 2013-09-05 손민석 Learning System of English Sentences Having Easy Recognition of Sentence Structure Through Symbolic Processing
KR101582574B1 (en) * 2014-05-29 2016-01-05 주식회사 마인미디어 Apparatus and service method for providing many languages of digital broadcasting using real time translation

Also Published As

Publication number Publication date
KR20210009775A (en) 2021-01-27

Similar Documents

Publication Publication Date Title
US7130790B1 (en) System and method for closed caption data translation
TWI233026B (en) Multi-lingual transcription system
US7698721B2 (en) Video viewing support system and method
US8732783B2 (en) Apparatus and method for providing additional information using extension subtitles file
KR100837358B1 (en) Domain-Adaptive Portable Machine Translation Device for Translating Closed Captions Using Dynamic Translation Resources and method thereof
KR101899588B1 (en) System for automatically generating a sign language animation data, broadcasting system using the same and broadcasting method
US20140099076A1 (en) Utilizing subtitles in multiple languages to facilitate second-language learning
KR101582574B1 (en) Apparatus and service method for providing many languages of digital broadcasting using real time translation
KR102229130B1 (en) Apparatus for providing of digital broadcasting using real time translation
Dayter Describing lexical patterns in simultaneously interpreted discourse in a parallel aligned corpus of Russian-English interpreting (SIREN)
Romero-Fresco Reception studies in live and pre-recorded subtitles for the deaf and hard of hearing
JP2009157460A (en) Information presentation device and method
JP5202217B2 (en) Broadcast receiving apparatus and program for extracting current keywords from broadcast contents
Fresno et al. Football for all: the quality of the live closed captioning in the Super Bowl LII
Fresno Closed captioning quality in the information society: the case of the American newscasts reshown online
JP5213572B2 (en) Sign language video generation system, server, terminal device, information processing method, and program
JP2008022292A (en) Performer information search system, performer information obtaining apparatus, performer information searcher, method thereof and program
Kovacs Smart subtitles for language learning
US8130318B2 (en) Method and audio/video device for generating response data related to selected caption data
US20160191959A1 (en) Enhanced timed text in video streaming
Cavaliere Measuring the perception of the screen translation of Un Posto al Sole
CN112313726A (en) Method and system for teaching language through multimedia
Tamayo Masero Formal Aspects in SDH for Children in Spanish Television: A Descriptive Study
Aura et al. An Analysis of Idiomatic Expressions and Their Equivalence In Indonesian Subtitle In The Spongebob Movie: Sponge On The Run
Mochizuki et al. Development of a Closed Caption TV Corpus Retrieval System to Seek Video Scenes Containing Useful Expressions for Language Learning

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right