KR102229130B1 - Apparatus for providing of digital broadcasting using real time translation - Google Patents
Apparatus for providing of digital broadcasting using real time translation Download PDFInfo
- Publication number
- KR102229130B1 KR102229130B1 KR1020190086773A KR20190086773A KR102229130B1 KR 102229130 B1 KR102229130 B1 KR 102229130B1 KR 1020190086773 A KR1020190086773 A KR 1020190086773A KR 20190086773 A KR20190086773 A KR 20190086773A KR 102229130 B1 KR102229130 B1 KR 102229130B1
- Authority
- KR
- South Korea
- Prior art keywords
- translation
- data
- caption
- translated
- sentence
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/278—Subtitling
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 디지털 방송의 자막 제공 장치에 관한 것으로, 상세하게는 실시간 번역을 통해 디지털 방송에 대한 자막을 제공할 수 있는 디지털 방송의 자막 제공 서비스 장치에 관한 것이다.
또한, 본 발명에 따르면, 사용자 단말의 요청에 의해 스트리밍하는 디지털 방송 데이터로부터 자막을 추출하여 복호화하는 자막 추출부; 상기 자막 추출부에서 추출한 자막 데이터를 형태소 단위로 분석하고 직독직해 기호가 포함된 자막 데이터를 재구성하는 자막 분석부; 상기 자막 분석부에서 재구성한 자막 데이터를 미리 정해진 번역 서비스 장치로 번역 의뢰하는 번역 의뢰부; 상기 번역 의뢰에 의해 번역된 직독직해 번역 자막 데이터를 수신하여 취합하는 번역 결과 취합부; 및 상기 사용자 단말로부터 번역할 언어에 대하여 입력받고 상기 번역 결과 취합부를 통해 취합한 번역된 직독직해 번역 자막 데이터를 상기 디지털 방송 데이터와 동기화하여 송출하는 번역 자막 송출부를 포함하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치가 제공된다.The present invention relates to an apparatus for providing captions for digital broadcasting, and more particularly, to an apparatus for providing captions for digital broadcasting, capable of providing captions for digital broadcasting through real-time translation.
In addition, according to the present invention, there is provided a caption extraction unit for extracting and decoding captions from digital broadcasting data streamed at the request of a user terminal; A caption analysis unit for analyzing caption data extracted by the caption extracting unit in units of morphemes and reconstructing caption data including direct reading symbols; A translation request unit for requesting a translation of the caption data reconstructed by the caption analysis unit to a predetermined translation service device; A translation result aggregator for receiving and collecting the translated subtitle data translated by the translation request; And a translation caption transmission unit that receives the input of the language to be translated from the user terminal and transmits the translated direct reading direct translation caption data collected through the translation result collecting unit in synchronization with the digital broadcasting data. A caption providing service device is provided.
Description
본 발명은 디지털 방송의 자막 제공 장치에 관한 것으로, 상세하게는 실시간 번역을 통해 디지털 방송에 대한 자막을 제공할 수 있는 디지털 방송의 자막 제공 서비스 장치에 관한 것이다.The present invention relates to an apparatus for providing captions for digital broadcasting, and more particularly, to an apparatus for providing captions for digital broadcasting, capable of providing captions for digital broadcasting through real-time translation.
최근 방송 신호를 전송하는 방식이 발전함에 따라 디지털 전송 방식을 적용한 디지털 TV가 보급되고 있다.As a method of transmitting a broadcast signal has recently been developed, a digital TV to which a digital transmission method is applied is spreading.
특히, 위성, 지상파, 케이블을 통해 방송되는 고화질, 고음질의 디지털 방송은 여러 장점들을 가지고 있어서 기존의 아날로그 방송에 비해 고화질, 고음질이고 다양한 부가 정보를 제공할 수 있다.In particular, high-definition and high-quality digital broadcasting broadcasted through satellite, terrestrial, and cable have several advantages, and can provide high-definition, high-quality sound, and various additional information compared to conventional analog broadcasting.
다양한 부가 서비스 중 하나로서, 디지털 방송은 방송 신호에서 자막 신호를 추출하여 이를 자신이 원하는 언어로 자동 번역함으로써 시청자가 이해 가능한 언어의 자막으로 방송을 시청할 수 있도록 하는 방송자막 기계 번역 시스템에 대한 요구가 증대되고 있는 실정이다.As one of various additional services, digital broadcasting has a demand for a broadcast subtitle machine translation system that extracts the subtitle signal from the broadcast signal and automatically translates it into the desired language so that the viewer can watch the broadcast in a language that can be understood. The situation is increasing.
여기서, 방송 자막이란 방송사에서 송출하는 영상 신호에 자막 신호가 삽입된 것으로서, 최근에는 많은 방송사들이 청각 장애인을 위해 이러한 자막 방송을 시행하고 있다. 미국의 경우에는 1990년도부터 13인치 이상의 텔레비젼에 대해 자막 기능을 의무화하였고, 국내의 경우에도 텔레비젼 방송사 및 CATV에서 자막 방송 프로그램을 확대하고 있으며, CNN, NHK, AFKN 등의 외국어 자막 방송의 지속적인 확대가 예상되고 있다.Here, the broadcast caption refers to a caption signal inserted into an image signal transmitted by a broadcaster, and recently, many broadcasters have implemented such caption broadcasting for the hearing impaired. In the United States, closed captioning has been mandatory for 13-inch or larger TVs since 1990, and in Korea, TV broadcasters and CATV are expanding closed-captioned broadcasting programs, and the continuous expansion of foreign-language closed-caption broadcasting such as CNN, NHK, and AFKN is expected. It is expected.
그러나, TV 방송자막에서는 뉴스뿐만 아니라 드라마, 교양시사, 오락프로그램 등 다양한 방송 장르에서 구어체와 문어체가 혼용되어 사용되고 있고, 뉴스에서는 모든 분야에 걸쳐 전문용어 및 표현들이 다양하게 나타나기 때문에 상용화 가능한 수준의 높은 번역 성능을 갖는 방송자막 기계번역 시스템을 개발하기에는 기술적으로 상당한 어려움이 있다.However, in TV broadcast subtitles, colloquial and written language are mixed and used not only in news, but also in various broadcasting genres such as drama, liberal arts current affairs, and entertainment programs. It is technically difficult to develop a machine translation system for broadcast subtitles with translation capabilities.
이와 같은 기술적 어려움을 해결하기 위한 것으로, 한국 특허공개 제1997-56985호(공개일: 1997.07.31)에는 TV내에 한국어 및 외국어 번역부를 별도로 구비하여 방송자막 데이터를 사용자의 요구에 따라 모국어 또는 외국어로 디스플레이시켜 시청자들에게 편리한 시청을 제공할 수 있는 '방송자막 번역 기능을 갖는 티브이'가 개시되어 있다.In order to solve such technical difficulties, Korean Patent Publication No. 1997-56985 (published date: July 31, 1997) has a separate translation unit for Korean and foreign languages in the TV, so that broadcast subtitle data is provided in the native language or foreign language according to the user's request. A'TV with a broadcast subtitle translation function' that can be displayed to provide convenient viewing to viewers is disclosed.
그러나, 상기 방송자막 번역 기능을 갖는 티브이는 수신되는 방송신호에서 방송 자막 데이터를 추출한 후 사용자의 요구에 따라 자막 데이터를 번역하여 이를 TV화면에 디스플레이하는 방식을 취하고 있기 때문에, 별도로 방송자막 지원이 가능한 텔레비젼을 구입해야 하는 단점이 있다. 또한, 위성 셋탑박스, 비디오 플레이어, DMB 단말기 등 텔레비젼이 아닌 다른 미디어 장치를 통해 방송신호가 입력되는 경우 이에 대한 자막 번역 기능은 제공할 수 없다는 문제점을 갖고 있다.However, since the TV having the broadcast subtitle translation function extracts broadcast subtitle data from the received broadcast signal, translates the subtitle data according to the user's request, and displays it on the TV screen, it is possible to separately support broadcast subtitles. There is a downside to buying a TV. In addition, when a broadcast signal is input through a media device other than a TV such as a satellite set-top box, a video player, and a DMB terminal, there is a problem that a caption translation function cannot be provided.
본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 사용자가 원하는 디지털 방송 프로그램과 언어를 선택하면 선택한 디지털 방송 프로그램을 스트리밍하면서 자막을 분석하고 분석한 자막을 원하는 언어로 번역하여 디지털 방송 프로그램과 함께 동기화하여 송출하는 디지털 방송의 자막 제공 서비스 장치를 제공하는 데 그 목적이 있다.The present invention was invented to solve the above problems, and when a user selects a desired digital broadcasting program and language, the selected digital broadcasting program is streamed while analyzing subtitles and translating the analyzed subtitles into a desired language to provide a digital broadcasting program and a digital broadcasting program. An object of the present invention is to provide a service device for providing closed captions for digital broadcasting that is synchronized and transmitted together.
본 발명은 사용자 단말의 요청에 의해 스트리밍하는 디지털 방송 데이터로부터 자막을 추출하여 복호화하는 자막 추출부; 상기 자막 추출부에서 추출한 자막 데이터를 형태소 단위로 분석하고 직독직해 기호가 포함된 자막 데이터를 재구성하는 자막 분석부; 상기 자막 분석부에서 재구성한 자막 데이터를 미리 정해진 번역 서비스 장치로 번역 의뢰하는 번역 의뢰부; 상기 번역 의뢰에 의해 번역된 직독직해 번역 자막 데이터를 수신하여 취합하는 번역 결과 취합부; 및 상기 사용자 단말로부터 번역할 언어에 대하여 입력받고 상기 번역 결과 취합부를 통해 취합한 번역된 직독직해 번역 자막 데이터를 상기 디지털 방송 데이터와 동기화하여 송출하는 번역 자막 송출부를 포함한다.The present invention includes a caption extraction unit for extracting and decoding captions from digital broadcasting data streamed at the request of a user terminal; A caption analysis unit for analyzing caption data extracted by the caption extracting unit in units of morphemes and reconstructing caption data including direct reading symbols; A translation request unit for requesting a translation of the caption data reconstructed by the caption analysis unit to a predetermined translation service device; A translation result aggregator for receiving and collecting the translated subtitle data translated by the translation request; And a translation caption transmission unit receiving input from the user terminal for a language to be translated, and transmitting the translated direct-read translation caption data collected through the translation result collecting unit in synchronization with the digital broadcasting data.
이러한 본 발명에 따르면, 디지털 방송 프로그램을 시청 시 사용자가 원하는 언어로 번역한 자막을 동시에 시청할 수 있으므로 사용자의 편의성을 극대화할 수 있다. 특히, 디지털 방송 프로그램이 번역되어 데이터베이스화할 때까지 기다릴 필요없이 바로 디지털 방송의 시청이 가능한 효과가 있다.According to the present invention, when viewing a digital broadcasting program, a user can simultaneously view a subtitle translated into a language desired by the user, thereby maximizing the user's convenience. In particular, there is an effect that digital broadcasting can be viewed immediately without having to wait for a digital broadcasting program to be translated and converted into a database.
도 1은 본 발명의 실시 예에 따른 자막 제공 장치의 네트워크 연결 구성도.
도 2는 본 발명의 실시 예에 따른 자막 제공 장치의 세부 구성도.
도 3은 본 발명에 따른 직독직해 기호를 포함한 자막 데이터의 예시도.
도 4는 직독직해 번역 자막 데이터가 제공되는 예시도.
도 5는 한국어 어순 번역 자막 데이터가 제공되는 예시도.
도 6은 도 1의 번역 서비스 장치의 구성도.1 is a network connection configuration diagram of a caption providing apparatus according to an embodiment of the present invention.
2 is a detailed configuration diagram of a caption providing apparatus according to an embodiment of the present invention.
3 is an exemplary diagram of caption data including direct reading symbols according to the present invention.
4 is an exemplary diagram in which direct reading direct translation caption data is provided.
5 is an exemplary diagram in which Korean word order translated caption data is provided.
Fig. 6 is a block diagram of the translation service device of Fig. 1;
이하, 첨부된 도면을 참조하여 본 발명에 따른 실시 예를 상세하게 설명한다. 본 발명의 구성 및 그에 따른 작용 효과는 이하의 상세한 설명을 통해 명확하게 이해될 것이다. 본 발명의 상세한 설명에 앞서, 동일한 구성요소에 대해서는 다른 도면상에 표시되더라도 가능한 동일한 부호로 표시하며, 공지된 구성에 대해서는 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 구체적인 설명은 생략하기로 함에 유의한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. The configuration of the present invention and its effect will be clearly understood through the detailed description below. Note that prior to the detailed description of the present invention, the same components are denoted by the same reference numerals as possible even if they are displayed on different drawings, and a detailed description will be omitted when it is determined that the gist of the present invention may be obscure for known configurations. do.
도 1은 본 발명의 실시 예에 따른 자막 제공 장치의 네트워크 연결 구성도이고, 도 2는 본 발명의 실시예에 따른 자막 제공 장치의 세부 구성도이다.1 is a network connection configuration diagram of a caption providing apparatus according to an embodiment of the present invention, and FIG. 2 is a detailed configuration diagram of a caption providing apparatus according to an embodiment of the present invention.
먼저 도 1을 참조하면, 본 발명의 실시 예에 따른 자막 제공 서비스 장치(100)는 기본적으로 동영상의 영어 자막을 실시간 한글로 번역하여 제공하는 기능을 수행한다.First, referring to FIG. 1, the subtitle providing
특히, 본 발명의 실시 예에 따른 자막 제공 서비스 장치(100)는 방송 사업자와 사용자 단말(200)간을 연동하여 방송 사업자가 제공하는 디지털 방송 데이터를 스트리밍하면서 이와 동시에 디지털 방송 데이터의 영어 자막을 한글로 번역하여 실시간으로 제공한다. 이처럼, 본 발명의 실시 예에 따른 자막 제공 서비스 장치(100)는 실시간 번역 기술을 제공함에 특징으로 한다.In particular, the caption providing
방송 사업자는 방송 콘텐츠를 제작, 편집 및 변경하여 방송 수신부(1)로 제공하는 역할을 한다. 방송 사업자는 프로그램 공급자(Program Provider: PP), 지상파 또는 컨텐츠 제공자(Contents Provider: CP) 등을 포함할 수 있다.The broadcaster plays a role of producing, editing, and changing broadcast content and providing it to the
방송 사업자에 의하여 제공되는 디지털 방송 데이터는 기존 방송 데이터와 인터넷 상의 다양한 동영상 데이터를 모두 포함할 수 있다. 예컨대, 실시간 방송 데이터, 주문형 비디오(Video On Demand: 이하 VOD) 데이터, 케이블 방송 데이터 등을 포함한다.Digital broadcast data provided by a broadcaster may include both existing broadcast data and various video data on the Internet. For example, it includes real-time broadcasting data, video on demand (VOD) data, cable broadcasting data, and the like.
디지털 방송 데이터는 일반적으로 방송 수신부(1)를 통해 수신하고 스트리밍 처리부(2)를 거쳐 사용자 단말(200)의 환경에 적합한 포맷으로 데이터 변환된다.In general, digital broadcast data is received through the
그리고 변환된 형태로 방송 송출부(3)를 통해 사용자 단말(200)로 송출된다.Then, it is transmitted to the
이때, 사용자 단말(200)로의 송출 방법은 브로드캐스팅(broadcasting) 또는 유니캐스팅(unicasting) 중 하나를 이용하거나 또는 이들의 혼합 방식을 이용할 수 있다.In this case, the transmission method to the
또는, 디지털 방송 데이터는 VOD(Video On Demand) 서버(4)에 사전 구축해 두었다가, 사용자 단말(200)의 요청에 따라 추출하여 제공될 수 있다.Alternatively, the digital broadcast data may be pre-built in the video on demand (VOD)
스트리밍 처리부(2)는 아래의 도 2에서 구체적으로 설명하기로 한다.The
이러한 구성을 토대로 본 발명의 실시 예에 따른 자막 제공 서비스 장치(100)는 자막 추출부(110), 자막 분석부(120), 번역 의뢰부(130), 번역 결과 취합부(140), 번역 자막 관리부(150), 번역 자막 송출부(160)를 포함하여 구현할 수 있다.Based on this configuration, the caption providing
자막 추출부(110)는 방송 수신부(1)를 통해 스트리밍하는 디지털 방송 데이터로부터 자막을 추출하여 복호화한다. 디지털 방송 데이터에 자막 데이터가 포함되어 있는 경우 이의 추출은 쉽게 수행할 수 있다. 즉, 방송 수신부(1)를 통해 수신한 디지털 방송 데이터는 보통 영상 데이터, 음성 데이터가 포함되어 있고, 이들과 구분되는 텍스트 형태의 자막 데이터가 존재하는 경우 이를 취합하여 하나의 파일로 제공된다. 따라서, 자막 데이터의 추출은 당업자가 용이하게 수행할 수 있다.The
자막 추출부(110)는 도 1에 도시한 구성과 같이 방송 수신부(1)의 후단에서 방송 수신부(1)를 통해 스트리밍하는 디지털 방송 데이터로부터 직접 추출하는 것도 가능하지만, 방송 수신부(1)를 통해 스트리밍하는 디지털 방송 데이터를 영상, 음성, 자막으로 분리하는 스트리밍 처리부(2)의 동영상 분리부(21)와 연계하여 추출할 수도 있다.As shown in FIG. 1, the
추출시 자막 데이터에 영상 데이터와 동기화하기 위한 자막 시작 시간도 함께 추출한다.When extracting, the caption start time for synchronizing with the image data is also extracted from the caption data.
이때, 자막 시작 시간은 보통 방송 수신부(1)를 통해 영상 데이터와 함께 수신되는 경우 영상 데이터의 재생 시간과 매칭이 잘 이루어지지만, 청각장애인의 시청권을 확보하기 위해 폐쇄 자막(closed caption) 시스템을 이용하여 자막 데이터가 추가 포함된 경우 영상 데이터의 재생 시간 대비 몇 초 정도의 지연될 수 있다.At this time, the caption start time is normally matched with the playing time of the video data when it is received together with the video data through the
자막 분석부(120)는 자막 추출부(110)에서 추출한 자막 데이터를 단어, 문자, 부호 등의 형태소 단위로 분석하고, 직독직해 기호를 포함하여 번역을 요청할 하나의 문장 형태로 재구성한다.The
이를 좀더 상세히 살펴보면, 자막 분석부(120)는 입력된 자막 데이터를 기초로 형태소를 분석하게 된다.Looking at this in more detail, the
자막 분석부(120)는 주어, 서술어, 목적어, 보어 및 기타수식어 중 두 개 이상의 조합으로 이루어지는 문장성분을 분석하여 제 1형식 내지 제 5형식 중 어느 하나의 문장형식을 결정하고 이에 따른 문장성분 및 문장형식의 제 1결과데이터를 생성한다.The
그리고, 자막 분석부(120)는 문장데이터의 문장성분 및 문장형식이 분석된 제 1결과데이터를 전달받아 명사, 동사, 수식어, 부정사, 동명사, 분사, 비교급, 등위접속사, 접속사, 관계대명사, 관계부사를 포함하는 다수의 품사군 중 어느 하나 또는 이들의 조합으로 문장성분별 분석을 수행하여 문장데이터를 품사별로 분류하는 제 2결과데이터를 생성한다.In addition, the
아울러 상기 자막 분석부(120)는 제 1결과데이터 및 제 2결과데이터 를 전달받아 해당 품사별로 특정기호를 문장데이터에 표시하여 직독직해 기호를 포함한 자막 데이터를 생성하는데, 이러한 특정 기호는 해당 단어 또는 구절에 밑줄을 그어 표시하거나, 원문자 또는 세모, 화살표 등으로 표시하는데, 본 발명의 일실시예에 따른 기호는 하나의 예시에 불과하며, 이러한 기호표시는 다양하게 채택되어 표시될 수 있다.In addition, the
도 3은 본 발명에 따른 직독직해 기호를 포함한 자막 데이터의 예시도이다.3 is an exemplary diagram of caption data including direct reading symbols according to the present invention.
도면을 참조하면, 본 발명의 일실시예에 따라 자막 분석부(120)는 문장성분 또는 품사별로 분류하여 특정 기호처리를 수행하는데, 이를 상세하게 설명하면 우선 분류된 문장성분 또는 품사가 동사일 경우 해당 단어 또는 구절의 하부측에 밑줄을 그어 표시한다.Referring to the drawings, according to an embodiment of the present invention, the
아울러 수식어구(전치사+명사)의 경우 해당 단어 또는 구절의 전방측에 '/' 기호를 표시하며, 부정사의 경우 ' to'부분에는 이를 수용하는 원을 그리고 'to' 뒷부분에는 하부측에 밑줄을 그어 표시한다. In addition, when the modifier (preposition + noun) displays the "/" symbol on the word or the front side of the passage, in the case of the supine 'to' part, and the source to accommodate this "to" later, the underlined lower side Mark it.
이때 분사구문(V·ing 명사(S), pp 명사)일 경우에는 전술한 바와 같이 밑줄과 원의 기호를 처리하지 않고 해당 단어 또는 구절 상부에 '' 기호를 표시한다.At this time, in the case of the injection phrase (V·ing noun (S), pp noun) , as described above, ' 'Sign.
또한 분류된 문장성분 또는 품사가 분사(V· ing 명사, pp)일 경우 해당 단어V·ing, pp) 또는 구절에서 해당 단어 또는 구절이 수식하는 전방측 또는 후방측의 명사방향으로 상부측에 화살표를 그어 표시한다.In addition, if the classified sentence component or part of speech is part of a part (V· ing noun, pp) , an arrow on the upper side in the noun direction of the front or rear side of the word or phrase modified by the corresponding word or phrase in the corresponding word V·ing, pp) or phrase. To mark.
아울러 분류된 문장성분 또는 품사가 비교급일 경우 해당 단어 또는 구절의 'as' 또는 'than' 부분에 이를 수용하는 '△'기호를 표시하며, 분류된 문장성분 또는 품사가 접속사일 경우 해당 단어 또는 구절에 이를 수용하는 '△' 또는 '○'기호를 표시하는데, 접속사가 등위접속사인 경우 '△' 기호를 표시하고 종속접속사인 경우 '○' 기호를 표시한다.In addition, if the classified sentence component or part of speech is comparative, the'△' sign that accepts it is indicated in the'as' or'than' part of the word or phrase, and if the classified sentence element or part of speech is a conjunction, the word or phrase A'△' or'○' sign that accepts this is indicated. If the conjunction is a co-ordinate conjunction, a'△' symbol is displayed, and if the conjunction is a subordinate conjunction, a'○' symbol is displayed.
또한 분류된 문장성분 또는 품사가 관계대명사 또는 관계부사일 경우 해당 단어 또는 구절에 이를 수용하는 '○'기호를 표시하고 관계대명사 또는 관계부사 전방방향으로 ' '기호를 함께 표시한다.In addition, if the classified sentence component or part of speech is a relative pronoun or a relative adverb, mark the word or phrase with a'○' sign to accommodate it, and move forward with the relative pronoun or relative adverb. 'Mark together.
또한 제 1결과데이터 및 제 2결과데이터를 통해 접속사, 관계대명사 또는 관계부사가 생략된 것으로 판단되는 경우 해당 문장데이터의 생략된 위치 부분에 접속사의 경우 '∨'기호를 표시하고 관계대명사 또는 관계부사일 경우 ' '기호를 표시한다.In addition, if it is determined that a conjunction, a relative pronoun, or a relative adverb is omitted through the first result data and the second result data, a'∨' symbol is displayed in the case of a conjunction in the omitted position of the sentence data, and a relative pronoun or a relative adverb If ' 'Display the symbol.
한편, 번역 의뢰부(130)는 번역할 장치(이하, 번역 서비스 장치)를 미리 정해두고, 자막 분석부(120)에서 분석한 직독직해 기호가 포함된 자막 데이터를 번역 서비스 장치(300)로 전달하여 번역을 의뢰한다.Meanwhile, the
번역 서비스 장치(300)는 번역 의뢰부(130)를 통해 의뢰된 직독직해 기호가 포함된 자막 데이터를 한글로 자동 번역한다. 이러한 번역 서비스 장치(300)는 외부의 번역업체와 연계되는 구성으로 별개의 독립적인 장치로 구분될 수 있음은 물론, 본 발명의 자막 제공 서비스 장치(100)에 포함될 수도 있다. The
한편, 번역 서비스 장치(300)는 입력 문장을 처음부터 끝까지 읽으면서 가능한 분할점 후보들을 모두 추출하여 문장을 분할한다. 여기서, 사용된 분할점 후보들은 문장 부호, 수식어구, 수식어절이다.Meanwhile, the
여기에서, 문장 부호는 마침표(.), 물음표(?), 느낌표(!), 쉼표(,), 가운뎃 점(·), 쌍점( : ), 쌍반점(;), 빗금(/), 큰따옴표(“ ”), 작은따옴표(‘ ’), 소괄호(( )), 중괄호,({ }), 대괄호([ ]), 붙임표(-), 줄표(--), 물결표(~), 줄임표(......) 등이 있다. Here, the punctuation marks are period (.), question mark (?), exclamation mark (!), comma (,), middle dot (·), colon (: ), colon (;), hatched (/), double quotation mark ( “”), single quotation marks (''), parentheses (( )), curly braces, ({ }), brackets ([ ]), braces (-), dashes (--), tildes (~), ellipsis (.. ....) and so on.
이때, 수식어구나 수식어절은 '/' 기호, '△' 기호 또는 '○'기호로 직독직해 기호가 표기되어 있다.At this time, a modifier or a modifier clause is marked with a'/' sign, a'△' sign, or a'○' sign.
다만, 번역 서비스 장치(300)는 쉼표인 경우에 명사나 명사절이 이어지면, 분할점 후보에서 제외한다. 이때, 번역 서비스 장치(300)는 쉼표 이후에 이어지는 단어가 전치사 역할을 하는 including인 경우에는 분할점 후보에서 제외하지 않는다.However, the
또한, 번역 서비스 장치(300)는 수식어구의 경우에 앞에 단어가 분사구문인 경우에 분할점 후보에서 제외한다.In addition, in the case of a modifier phrase, the
즉, 번역 서비스 장치(300)는 '/' 기호의 경우에 앞에 단어가 분사구문으로 '' 기호가 표시되어 있는 경우에 분할점 후보에서 제외한다. 다만 번역부 (3-1)는 '/' 기호의 뒤에 전치사를 앞에 둔 동명사가 위치하는 경우(/전치사+동명사)에는 분할점 후보에서 제외하지 않는다. That is, in the case of the'/' symbol, the
또한, 번역 서비스 장치(300)는 동사의 경우에 앞뒤에 가상의 분할점을 추가하여 분할되도록 한다.In addition, the
즉, 번역 서비스 장치(300)는 동사의 경우에 밑줄이 위치하고 있는바, 밑줄이 있는 경우에 가상의 분할점을 앞과 뒤에 추가한다.That is, in the case of the verb, the
그리고, 번역 서비스 장치(300)는 등위접속사인 경우에 다음에 동사가 아닌 경우에는, 즉 명사등인 경우에는 분할점 후보에서 제외한다.In addition, the
다만, 번역 서비스 장치(300)는 등위접속사에서 but은 뒤에 동사가 있는 경우에 가상의 분할점을 앞과 뒤에 추가한다.However, the
즉, 번역 서비스 장치(300)는 등위 접속사인 경우에 '△' 기호로 표기되며, '△' 기호이후에 동사를 나타내는 밑줄 기호가 없는 경우에 분할점 후보에서 제외하며, 등위접속사에서 but인 경우에 밑줄 기호가 있는 경우에는 가상의 분할점을 앞과 뒤에 추가한다.That is, the
상기 번역 서비스 장치(300)는 수식어절이 관계 대명사나 관계 부사인 경우에 관계 대명사나 관계 부사가 한정하는 한정 부분을 수식어절의 동사를 대체하여 번역한다.When the modifier clause is a relational pronoun or a relational adverb, the
즉, 상기 번역 서비스 장치(300)는 수식어절이 관게 대명사나 관계 부사인 경우에 '○'기호를 표시하고 관계대명사 또는 관계부사 전방방향으로 ' '기호를 함께 표시되어 있는바, '○'기호에 ' '기호가 있는 경우에 한정 부분으로 수식어절의 동사를 대체하여 번역한다. 도 4와 이와 같이 직독직해 번역 자막 데이터가 제공되는 예시도이다.That is, when the modifier clause is a related pronoun or a related adverb, the
한편, 상기 번역 서비스 장치(300)는 직독직해된 번역 자막 데이터를 제공할 뿐만 아니라 한국어 어순에 적합한 번역 자막 데이터를 제공한다.On the other hand, the
이때, 상기 번역 서비스 장치(300)는 주어와 관련된 수식어의 경우에 순서가 반대로 될 수 있다.In this case, the
일예로, 영어 문장이 "On a clear day, a crewmember on a merchant ship sailing across the caribbean Sea peers out at the horizon through his telescope"인 경우에 "맑은 날에는 승무원이 카리브 해를 가로 지르는 상선에서 그의 망원경을 통해 수평선을 응시한다"로 번역하는 경우가 많이 있다.For example, if the English sentence is "On a clear day, a crewmember on a merchant ship sailing across the caribbean Sea peers out at the horizon through his telescope" It is often translated as "to stare at the horizon through".
이러한 잘못된 번역을 방지하기 위하여, 번역 서비스 장치(300)는 동사 앞에 있는 명사들을 추출한다.In order to prevent such erroneous translation, the
이때, 번역 서비스 장치(300)는 의미 요소가 강한 명사들을 추출하며, 번역 서비스 장치(300)는 일예로 승무원, 상선을 선택한다. 이처럼 번역 서비스 장치(300)는 동사 앞에 명사가 적어도 2개이상인 경우에 아래 동작을 진행한다.At this time, the
그리고, 번역 서비스 장치(300)는 빅데이터에서 승무원과 상선을 입력하여 빅데이터에서 해당 단어를 포함한 문장들을 추출하며, 추출된 문장들에서 승무원에 이어 상선이 표현된 문장 비율을 산출하고, 이와 반대로 상선에 이어 승무원이 표현된 문장 비율을 산출하여 산출된 문장 비율이 큰 순서에 따라 배열된 한국어 어순 번역 자막 데이터를 작성하여 도 6에 도시된 바와 같이 번역 결과 취합부(140)를 통하여 사용자에게 제공한다.In addition, the
상기 번역 서비스 장치(300)는 일예로 추출된 문장들에서 승무원에 이어 상선이 표현된 문장 비율이 30%이고, 이와 반대로 상선에 이어 승무원이 표현된 문장 비율을 산출하여 산출된 문장 비율이 70%이면 번역 서비스 장치(300)는 "맑은 날에는 카리브 해를 가로 지르는 상선에서 승무원이 수평선을 그의 망원경을 통해 응시한다"로 번역된 한국어 어순 번역 자막 데이터를 생성한다.As an example, the
즉, 번역 서비스 장치(300)는 이와 같은 과정을 통하여 주어의 의미 단위 독해 이후에, 수식어의 의미 단위를 독해하고, 동사의 의미 단위가 That is, the
한편, 번역 서비스 장치(300)는 동사 관련하여 번역상의 오류를 수정하기 위한 동사 후처리 과정을 수행한다.Meanwhile, the
이를 위하여 번역 서비스 장치(300)는 동사의 앞과 뒤의 검색 명사들을 추출하여 빅데이터에서 관련 검색 명사들을 포함한 문장들을 검색하여 추출한다.To this end, the
그리고, 상기 번역 서비스 장치(300)는 해당 동사의 의미와 유사한 의미의 동사 표현을 동사 대체 후보로 추출하며, 추출된 동사 대체 후보들에 대하여 문장 비율을 산출한 후에 문장 비율이 가장 큰 가장 큰 동사 대체 후보로 해당 동사 표현을 대체한다.In addition, the
일예로, 번역 서비스 장치(300)는 "A black flag is flying high on its mast."에 대하여 "검은 깃발이 그 돛대에서 높이 달려있다."로 1차 번역하고, "깃발", "돛대"를 1차 번역문의 복수의 대표 명사로 추출한 후에, 이를 빅데이터에서 검색하여 해당 복수의 대표 명사를 포함한 문장들을 수집한다.As an example, translation services device (300) "There is a black flag up high in his mast." About "A black flag is flying high on its mast."
이때, 번역 서비스 장치(300)에 의해 수집될 수 있는 문장들은 일예로 "돛대에는 바람이 잘게 찢어놓은 깃발들 찢어진 깃발들이 슬픈 춤을 춘다", " 높게 솟은 돛대 사이로 깃발이 펄럭입니다", "부러진 돛대 끝엔 처참하게 찢긴 깃발이 늘어져 있었다"등이며, 번역 서비스 장치(300)는 해당 동사의 의미와 유사한 의미의 동사 표현을 동사 대체 후보로 추출하여 문장 비율을 산출한다.At this time, the sentences that can be collected by the
상기 번역 서비스 장치(300)는 문장 비율을 산출한 결과, 일예로 "돛대에는 바람이 잘게 찢어놓은 깃발들 찢어진 깃발들이 슬픈 춤을 춘다"에서 추출된 대체 동사 후보인 "슬픈 춤을 춘다"를 포함한 문장비율이 2%, " 높게 솟은 돛대 사이로 깃발이 펄럭입니다"라는 문장에서 추출된 대체 동사 후보인 "펄럭이다"를 포함함 문장 비율이 25%, "돛대 끝엔 처참하게 찢긴 깃발이 늘어져 있었다"라는 표현에 "늘어져 있었다"를 포함한 표현이 8%인 경우에, 문장 비율이 가장 큰 "펄럭이다"로 "달려있다"를 대체한다.As a result of calculating the sentence ratio, the
이와 달리, 번역 서비스 장치(300)는 "A black flag is flying high on its mast."에 대하여 "검은 깃발이 그 돛대에서 높이 달려있다."로 1차 번역하고, "깃발", "돛대"를 1차 번역문의 복수의 검색 명사로 추출한 후에, 이를 빅데이터에서 검색하여 해당 복수의 검색 명사를 포함한 문장들을 수집하여 각각의 문장들을 제1 내지 n의 대체 후보 번역문으로 분류한다.Alternatively, the translation service device (300) is the "A black flag is flying high on its mast."" There are black flag hangs high in their masts," as the primary translation, and "flag", "Mast" for After extracting the first translation into a plurality of search nouns, it is searched in big data, and sentences including the plurality of search nouns are collected, and each sentence is classified into first to n alternative candidate translations.
이후에, 번역 서비스 장치(300)는 1차 번역문에서 복수의 기준 대표 단어를 추출하되, 복수의 기준 대표 단어와 복수의 제1 내지 n의 대체 대표 단어 사이의 유사도를 측정하고, 결과를 바탕으로 해당 동사와 제1 내지 n의 동사 대체 후보 사이의 유사도를 추론하여 유사도가 가장 큰 동사 대체 후보를 해당 동사로 대체한다.Thereafter, the
해당 동사와 복수의 제1 내지 n의 동사 대체 후보 사이의 유사도의 측정은, 복수의 기준 대표 단어와 복수의 제1 내지 n의 대체 대표 단어 사이에 공통된 단어의 존재 유무를 검사함으로써 이루어질 수 있으며, 아래의 수식(1)에 따라 연산될 수 있다.Measurement of the degree of similarity between the corresponding verb and the plurality of first to n replacement candidates may be performed by examining the presence or absence of a common word between the plurality of reference representative words and the plurality of first to n alternative representative words, It can be calculated according to Equation (1) below.
(수학식 1)(Equation 1)
여기서, n은 어느 하나의 대체 후보 번역문으로부터 추출된 복수의 대체 대표 단어의 개수를 나타낸다. 이때, 대체 대표 단어 중 i번째 단어가 기준 대표 단어 및 대체 대표 단어에 공통적으로 존재하는 때 Si 값은 1의 값을 갖는다.Here, n represents the number of a plurality of replacement representative words extracted from any one replacement candidate translation. In this case, when the i-th word among the replacement representative words is commonly present in the reference representative word and the substitute representative word, the Si value has a value of 1.
기준 대표 단어 중 i번째 단어가 대체 대표 단어에는 존재하지 않는 때 Si 값은 0의 값을 갖는다. When the i-th word among the reference representative words does not exist in the substitute representative word, the Si value has a value of 0.
한편, 번역 결과 취합부(140)는 번역 서비스 장치(300)로부터 번역된 자막 데이터(이하, 번역 자막 데이터-직독직해 번역 자막 데이터와 한국어 어순 번역 자막 데이터를 포함)를 수신하고 이를 취합한다.Meanwhile, the translation
이때, 번역 결과 취합부(140)는 번역 자막 데이터의 재생 시간을 디지털 방송 데이터의 음성 신호에 기초하여 매칭할 수 있다. 즉, 디지털 방송 데이터의 음성 신호가 발생하는 구간에 해당 자막 데이터를 매칭하여 취합함으로써 디지털 방송 데이터에 번역 자막 데이터를 동기화한다.In this case, the
동기화를 위해, 번역 결과 취합부(140)는 번역 자막 데이터를 수신하는 시간과 번역 의뢰부(130)에서 의뢰한 시간을 확인하여 번역 과정에 소요되는 시간을 산출한다. 따라서, 번역 과정에 소요되는 시간이 일정 시간을 경과하여 지연되는 경우 경과한 시간만큼 디지털 방송 데이터의 영상 데이터를 딜레이하도록 요청할 수 있다.For synchronization, the translation
또한, 디지털 방송 데이터에서 원 자막 데이터가 영상 데이터의 재생 시간 대비 몇 초 정도 지연되는 경우(예컨대, 원 자막 데이터가 청각장애인의 시청권 보호를 위해 인력에 의해 실시간으로 입력되는 폐쇄 자막 데이터인 경우), 번역 결과 취합부(140)는 디지털 방송 데이터로부터 추출되는 자막 데이터(즉, 원 자막 데이터)의 재생시간과 영상 데이터의 재생 시간간 지연 시간에 기초하여 영상 데이터의 재생 시간을 딜레이하도록 요청할 수 있다. 즉, 번역 결과 취합부(140)는 원 자막 데이터의 재생 시간과 영상 데이터의 재생 시간간 지연 시간을 산출한 값에 기초하여 그 지연 시간만큼 영상 데이터의 재생 시간을 딜레이하도록 요청할 수 있다.In addition, when the original caption data is delayed by a few seconds compared to the playback time of the video data in the digital broadcasting data (e.g., when the original caption data is closed caption data input in real time by personnel to protect the viewing rights of the hearing impaired), The
번역 자막 관리부(150)는 디지털 방송 데이터에 대한 원 자막 데이터와, 번역 결과 취합부(140)를 통해 취합한 번역 자막 데이터를 데이터베이스에 저장하고 추후 활용하기 적합한 파일 형식으로 재구성하는 등 데이터를 관리한다.The translation
번역 자막 송출부(160)는 사용자 단말(200)로부터 번역할 언어에 대하여 입력받으며, 번역 결과 취합부(140)를 통해 취합한 번역 자막 데이터를 스트리밍하는 디지털 방송 데이터와 동기화하여 송출한다.The translation
특히, 번역 결과 취합부(140)에서 디지털 방송 데이터의 영상 데이터에 대한 딜레이 요청이 발생하면, 번역 자막 송출부(160)에서 지연 시간만큼 디지털 방송 데이터의 영상 데이터를 딜레이하여 송출한다.In particular, when a delay request for image data of digital broadcasting data is generated by the translation
다음으로 도 2를 참조하면, 스트리밍 처리부(2)는 방송 수신부(도 1의 1)를 통해 스트리밍하는 디지털 방송 데이터를 영상, 음성으로 분리하여 데이터 처리 후 동기화하는 구성을 포함할 수 있다.Next, referring to FIG. 2, the
이를 위한 구성으로, 스트리밍 처리부(2)는 동영상 분리부(21), 음성신호 특징 분석부(22), 음성시작시간 기록부(23), 통합부(24)를 포함한다.As a configuration for this, the
동영상 분리부(21)는 방송 수신부(도 1의 1)를 통해 스트리밍하는 디지털 방송 데이터로부터 영상 데이터와 음성 데이터를 분리한다. 이러한 동영상 분리부(21)는 구체적으로 방송 수신부를 통해 스트리밍하는 디지털 방송데이터로부터 영상 데이터를 추출하는 영상 추출부(21a), 및 음성 데이터를 추출하는 음성 추출부(21b)로 구성될 수 있다.The moving
음성신호 특징 분석부(22)는 음성 추출부(21b)를 통해 추출한 음성 데이터를 분석하여 동영상 내 음성시작 시간을 검출한다. 음성시작 시간은 자막 데이터를 동기화할 때 자막 시작 시간을 결정하는 데 기준이 된다.The voice signal
음성 데이터의 분석은 음성신호의 주파수, 피크치(Peak), 에지 검출(edge detection), 노이즈(noise) 분석 등을 활용할 수 있다.Voice data can be analyzed using frequency, peak, edge detection, and noise analysis of the voice signal.
음성시작시간 기록부(23)는 음성신호 특징 분석부(22)를 통해 분석한 정보에 기초하여 영상 내에 음성시작 시간이 판단되는 지점의 시간들을 기록한다.The audio start
통합부(24)는 영상 추출부(21a) 및 음성 추출부(21b)를 통해 추출한 영상 데이터 및 음성 데이터를 통합하여 하나의 방송 데이터로 구성한다. 이때, 음성 데이터는 음성시작시간 기록부(23)를 거쳐 음성시작시간이 포함된 형태로 통합된다.The
또한, 통합부(24)는 앞서 설명한 자막 제공 서비스 장치(도 1의 100)에서 실시간 번역한 번역 자막 데이터를 수신하여 영상 데이터와 함께 통합할 수 있다.In addition, the
도 6은 본 발명에 따른 번역 서비스 장치의 구성을 보여주는 도면이다.6 is a diagram showing the configuration of a translation service apparatus according to the present invention.
도 6을 참조하면, 본 발명에 따른 번역 서비스 장치는 문장 분할기(10), 직독직해 번역기(12), 한국어 어순 번역기(14), 어순 정렬기(16) 및 후처리 수행기(18)를 포함한다.6, the translation service apparatus according to the present invention includes a
먼저, 상기 문장 분할기(10)는 입력 문장을 처음부터 끝까지 읽으면서 가능한 분할점 후보들을 모두 추출한다. 여기서, 사용된 분할점 후보들은 문장 부호, 수식어구, 수식어절이다.First, the
여기에서, 문장 부호는 마침표(.), 물음표(?), 느낌표(!), 쉼표(,), 가운뎃 점(·), 쌍점( : ), 쌍반점(;), 빗금(/), 큰따옴표(“ ”), 작은따옴표(‘ ’), 소괄호(( )), 중괄호,({ }), 대괄호([ ]), 붙임표(-), 줄표(--), 물결표(~), 줄임표(......) 등이 있다. Here, the punctuation marks are period (.), question mark (?), exclamation mark (!), comma (,), middle dot (·), colon (: ), colon (;), hatched (/), double quotation mark ( “”), single quotation marks (''), parentheses (( )), curly braces, ({ }), brackets ([ ]), braces (-), dashes (--), tildes (~), ellipsis (.. ....) and so on.
이때, 수식어구나 수식어절은 '/' 기호, '△' 기호 또는 '○'기호로 직독직해 기호가 표기되어 있다.At this time, a modifier or a modifier clause is marked with a'/' sign, a'△' sign, or a'○' sign.
다만, 문장 분할기(10)는 쉼표인 경우에 명사나 명사절이 이어지면, 분할점 후보에서 제외한다. 이때, 문장 분할기(10)는 쉼표 이후에 이어지는 단어가 전치사 역할을 하는 including인 경우에는 분할점 후보에서 제외하지 않는다.However, the
또한, 문장 분할기(10)는 수식어구의 경우에 앞에 단어가 분사구문인 경우에 분할점 후보에서 제외한다.In addition, the
즉, 문장 분할기(10)는 '/' 기호의 경우에 앞에 단어가 분사구문으로 '' 기호가 표시되어 있는 경우에 분할점 후보에서 제외한다.That is, in the case of the'/' symbol, the
또한, 문장 분할기(10)는 동사의 경우에 앞뒤에 가상의 분할점을 추가하여 구별되도록 한다.In addition, the
즉, 문장 분할기(10)는 동사의 경우에 밑줄이 위치하고 있는바, 밑줄이 있는 경우에 가상의 분할점을 앞과 뒤에 추가한다.That is, the
그리고, 문장 분할기(10)는 등위접속사인 경우에 다음에 동사가 아닌 경우에는, 즉 명사등인 경우에는 분할점 후보에서 제외한다.In addition, the
다만, 문장 분할기(10)는 등위접속사에서 but은 뒤에 동사가 있는 경우에 가상의 분할점을 앞과 뒤에 추가한다.However, the
즉, 문장 분할기(10)는 등위 접속사인 경우에 '△' 기호로 표기되며, '△' 기호이후에 동사를 나타내는 밑줄 기호가 없는 경우에 분할점 후보에서 제외하며, 등위접속사에서 but인 경우에 밑줄 기호가 있는 경우에는 가상의 분할점을 앞과 뒤에 추가한다.That is, the
다음으로, 직독직해 번역기(12)는 문장 분할된 영어 문장을 입력받아 문장 분할된 순서에 따라 번역하여 직독직해 번역 자막 데이터를 생성한다.Next, the direct reading
여기에서, From here,
직독직해
한국어 어순 번역기(14)는 직독직해 번역기(12)에서 번역된 직독직해 번역 자막 데이터를 입력받아 한국어 어순에 따른 순서로 조정하여 한국어 어순 번역 자막 데이터를 생성한다.The Korean
이때, 직독직해 번역기(12)는 수식어절이 관계 대명사나 관계 부사인 경우에 관계 대명사나 관계 부사가 한정하는 한정 부분을 수식어절의 동사로 대체하여 번역한다.At this time, the direct-reading
즉, 상기 문장 분할기(10)는 수식어절이 관게 대명사나 관계 부사인 경우에 '○'기호를 표시하고 관계대명사 또는 관계부사 전방방향으로 ' '기호를 함께 표시되어 있는바, 직독직해 번역기(12)는 '○'기호에 ' '기호가 있는 경우에 한정 부분으로 수식어절의 동사를 대체하여 번역한다. That is, when the modifier clause is a related pronoun or a related adverb, the
한편, 상기 한국어 어순 번역기(14)는 주어와 관련된 수식어의 경우에 순서가 반대로 될 수 있다.Meanwhile, the Korean
일예로, 영어 문장이 "On a clear day, a crewmember on a merchant ship sailing across the caribbean Sea peers out at the horizon through his telescope"인 경우에 "맑은 날에는 승무원이 카리브 해를 가로 지르는 상선에서 그의 망원경을 통해 수평선을 응시한다"로 번역하는 경우가 많이 있다.For example, if the English sentence is "On a clear day, a crewmember on a merchant ship sailing across the caribbean Sea peers out at the horizon through his telescope" It is often translated as "to stare at the horizon through".
이러한 잘못된 번역을 방지하기 위하여, 어순 정렬기(16)는 동사 앞에 있는 명사들을 추출한다.In order to prevent such erroneous translation, the
이때, 어순 정렬기(16)는 의미 요소가 강한 명사들을 추출하며, 어순 정렬기(16)는 일예로 승무원, 상선을 선택한다. 이처럼 어순 정렬기(16)는 동사 앞에 명사가 적어도 2개이상인 경우에 아래 동작을 진행한다.At this time, the
그리고, 어순 정렬기(16)는 빅데이터에서 승무원과 상선을 입력하여 빅데이터에서 해당 단어를 포함한 문장들을 추출하며, 추출된 문장들에서 승무원에 이어 상선이 표현된 문장 비율을 산출하고, 이와 반대로 상선에 이어 승무원이 표현된 문장 비율을 산출하여 산출된 문장 비율이 큰 순서에 따라 배열된 한국어 어순 번역 자막 데이터를 작성하여 사용자에게 제공한다.In addition, the
상기 어순 정렬기(16)는 일예로 추출된 문장들에서 승무원에 이어 상선이 표현된 문장 비율이 30%이고, 이와 반대로 상선에 이어 승무원이 표현된 문장 비율을 산출하여 산출된 문장 비율이 70%이면 어순 정렬기(16)는 "맑은 날에는 카리브 해를 가로 지르는 상선에서 승무원이 수평선을 그의 망원경을 통해 응시한다"로 번역된 한국어 어순 번역 자막 데이터를 생성한다.In the
한편, 후처리 수행기(18)는 동사 관련하여 번역상의 오류를 수정하기 위한 동사 후처리 과정을 수행한다.On the other hand, the
이를 위하여 후처리 수행기(18)는 동사의 앞과 뒤의 검색 명사들을 추출하여 빅데이터에서 관련 검색 명사들을 포함한 문장들을 검색하여 추출한다.To this end, the
그리고, 상기 후처리 수행기(18)는 해당 동사의 의미와 유사한 의미의 동사 표현을 동사 대체 후보로 추출하며, 추출된 동사 대체 후보들에 대하여 문장 비율을 산출한 후에 문장 비율이 가장 큰 가장 큰 동사 대체 후보로 해당 동사 표현을 대체한다.In addition, the
일예로, 후처리 수행기(18)는 "A black flag is flying high on its mast."에 대하여 "검은 깃발이 그 돛대에서 높이 달려있다."로 1차 번역하고, "깃발", "돛대"를 1차 번역문의 복수의 대표 명사로 추출한 후에, 이를 빅데이터에서 검색하여 해당 복수의 대표 명사를 포함한 문장들을 수집한다.As an example, the
이때, 후처리 수행기(18)에 의해 수집될 수 있는 문장들은 일예로 "돛대에는 바람이 잘게 찢어놓은 깃발들 찢어진 깃발들이 슬픈 춤을 춘다", " 높게 솟은 돛대 사이로 깃발이 펄럭입니다", "부러진 돛대 끝엔 처참하게 찢긴 깃발이 늘어져 있었다"등이며, 후처리 수행기(18)는 해당 동사의 의미와 유사한 의미의 동사 표현을 동사 대체 후보로 추출하여 문장 비율을 산출한다.At this time, the sentences that can be collected by the post-processing implementer (18) are, for example, "The flags that are torn by the wind and the torn flags dance sadly on the mast", "The flags are fluttering through the high-rise masts", "Broken At the end of the mast, there was a terrible torn flag," and so on, and the
상기 후처리 수행기(18)는 문장 비율을 산출한 결과, 일예로 "돛대에는 바람이 잘게 찢어놓은 깃발들 찢어진 깃발들이 슬픈 춤을 춘다"에서 추출된 대체 동사 후보인 "슬픈 춤을 춘다"를 포함한 문장비율이 2%, " 높게 솟은 돛대 사이로 깃발이 펄럭입니다"라는 문장에서 추출된 대체 동사 후보인 "펄럭이다"를 포함함 문장 비율이 25%, "돛대 끝엔 처참하게 찢긴 깃발이 늘어져 있었다"라는 표현에 "늘어져 있었다"를 포함한 표현이 8%인 경우에, 문장 비율이 가장 큰 "펄럭이다"로 "달려있다"를 대체한다.As a result of calculating the sentence ratio, the
이와 달리, 후처리 수행기(18)는 "A black flag is flying high on its mast."에 대하여 "검은 깃발이 그 돛대에서 높이 달려있다 ."로 1차 번역하고, "깃발", "돛대"를 1차 번역문의 복수의 검색 명사로 추출한 후에, 이를 빅데이터에서 검색하여 해당 복수의 검색 명사를 포함한 문장들을 수집하여 각각의 문장들을 제1 내지 n의 대체 후보 번역문으로 분류한다.Alternatively, the
이후에, 후처리 수행기(18)는 1차 번역문에서 복수의 기준 대표 단어를 추출하되, 복수의 기준 대표 단어와 복수의 제1 내지 n의 대체 대표 단어 사이의 유사도를 측정하고, 결과를 바탕으로 해당 동사와 제1 내지 n의 동사 대체 후보 사이의 유사도를 추론하여 유사도가 가장 큰 동사 대체 후보를 해당 동사로 대체한다.Thereafter, the
해당 동사와 복수의 제1 내지 n의 동사 대체 후보 사이의 유사도의 측정은, 복수의 기준 대표 단어와 복수의 제1 내지 n의 대체 대표 단어 사이에 공통된 단어의 존재 유무를 검사함으로써 이루어질 수 있으며, 아래의 수식(1)에 따라 연산될 수 있다.Measurement of the degree of similarity between the corresponding verb and the plurality of first to n replacement candidates may be performed by examining the presence or absence of a common word between the plurality of reference representative words and the plurality of first to n alternative representative words, It can be calculated according to Equation (1) below.
(수학식 1)(Equation 1)
여기서, n은 어느 하나의 대체 후보 번역문으로부터 추출된 복수의 대체 대표 단어의 개수를 나타낸다. 이때, 대체 대표 단어 중 i번째 단어가 기준 대표 단어 및 대체 대표 단어에 공통적으로 존재하는 때 Si 값은 1의 값을 갖는다.Here, n represents the number of a plurality of replacement representative words extracted from any one replacement candidate translation. In this case, when the i-th word among the replacement representative words is commonly present in the reference representative word and the substitute representative word, the Si value has a value of 1.
기준 대표 단어 중 i번째 단어가 대체 대표 단어에는 존재하지 않는 때 Si 값은 0의 값을 갖는다. When the i-th word among the reference representative words does not exist in the substitute representative word, the Si value has a value of 0.
이상의 설명은 본 발명을 예시적으로 설명한 것에 불과하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술적 사상에서 벗어나지 않는 범위에서 다양한 변형이 가능할 것이다. 따라서 본 발명의 명세서에 개시된 실시 예들은 본 발명을 한정하는 것이 아니다. 본 발명의 범위는 아래의 특허청구범위에 의해 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술도 본 발명의 범위에 포함되는 것으로 해석해야 할 것이다.The above description is merely illustrative of the present invention, and various modifications may be made without departing from the technical spirit of the present invention by those of ordinary skill in the technical field to which the present invention pertains. Therefore, the embodiments disclosed in the specification of the present invention do not limit the present invention. The scope of the present invention should be interpreted by the following claims, and all technologies within the scope equivalent thereto should be interpreted as being included in the scope of the present invention.
1: 방송 수신부 2: 데이터 처리부
3: 방송 송출부 4: VOD 서버
100: 자막 제공 서비스 장치
110: 자막 추출부 120: 자막 분석부
130: 번역 의뢰부 140: 번역 결과 취합부
150: 번역 자막 관리부 160: 번역 자막 송출부
200: 사용자 단말 300: 번역 서비스 장치1: broadcast receiving unit 2: data processing unit
3: Broadcasting unit 4: VOD server
100: subtitle providing service device
110: subtitle extraction unit 120: subtitle analysis unit
130: translation request unit 140: translation result collection unit
150: translation subtitle management unit 160: translation subtitle transmission unit
200: user terminal 300: translation service device
Claims (15)
상기 자막 추출부에서 추출한 자막 데이터를 형태소 단위로 분석하고 직독직해 기호가 포함된 자막 데이터를 재구성하는 자막 분석부;
상기 자막 분석부에서 재구성한 자막 데이터를 미리 정해진 번역 서비스 장치로 번역 의뢰하는 번역 의뢰부;
상기 번역 의뢰에 의해 번역된 직독직해 번역 자막 데이터를 수신하여 취합하는 번역 결과 취합부; 및
상기 사용자 단말로부터 번역할 언어에 대하여 입력받고 상기 번역 결과 취합부를 통해 취합한 번역된 직독직해 번역 자막 데이터를 상기 디지털 방송 데이터와 동기화하여 송출하는 번역 자막 송출부를 포함하고,
상기 번역 서비스 장치는 입력 문장을 처음부터 끝까지 읽으면서 가능한 분할점 후보들을 모두 추출하여 문장을 분할하는 문장 분할기;
상기 문장 분할기에서 문장 분할된 영어 문장을 입력받아 문장 분할된 순서에 따라 번역하여 직독직해 번역 자막 데이터를 생성하는 직독직해 번역기;
상기 직독직해 번역기에서 번역된 직독직해 번역 자막 데이터를 입력받아 한국어 어순에 따른 순서로 조정하여 한국어 어순 번역 자막 데이터를 생성하는 한국어 어순 번역기 및:
상기 한국어 어순 번역 자막 데이터에서 주어와 관련된 수식어의 위치를 정렬하는 어순 정렬기를 포함하며,
상기 분할점 후보들은 문장 부호, 수식어구 및 수식어절이고, 상기 어순 정렬기는 동사 앞에 있는 명사들을 추출하여, 빅데이터에서 해당 단어를 포함한 문장들을 추출하며, 추출된 문장들에서 명사 순서별 문장 비율을 산출하고, 산출된 문장 비율에 따라 배열된 한국어 어순 번역문을 작성하는 것을 특징으로 하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.A caption extractor for extracting and decoding captions from digital broadcasting data to be streamed at the request of a user terminal;
A caption analysis unit for analyzing caption data extracted by the caption extracting unit in units of morphemes and reconstructing caption data including direct reading symbols;
A translation request unit for requesting a translation of the caption data reconstructed by the caption analysis unit to a predetermined translation service device;
A translation result aggregator for receiving and collecting the translated subtitle data translated by the translation request; And
A translation caption transmission unit receiving input from the user terminal for a language to be translated and transmitting the translated direct reading translation caption data collected through the translation result collecting unit in synchronization with the digital broadcasting data,
The translation service apparatus includes: a sentence divider for dividing a sentence by extracting all possible segmentation point candidates while reading an input sentence from start to finish;
A direct-reading translator for receiving the divided English sentences from the sentence divider and translating them according to the order in which the sentences were divided to generate direct-reading translated caption data;
A Korean word order translator for generating subtitle data translated in Korean word order by receiving the direct reading direct translation subtitle data translated by the direct reading direct reading translator and adjusting the order according to the Korean word order:
A word order sorter that arranges positions of modifiers related to a subject in the Korean word order translated subtitle data,
The split point candidates are punctuation marks, modifiers, and modifier clauses, and the word order sorter extracts nouns in front of the verb, extracts sentences including the corresponding word from big data, and calculates the sentence ratio for each noun order from the extracted sentences. And creating a Korean word order translation arranged according to the calculated sentence ratio.
상기 자막 분석부는 입력된 자막 데이터를 기초로 형태소를 분석하여 해당 품사별로 특정기호를 자막 데이터에 표시하여 직독직해 기호가 포함된 자막 데이터를 생성하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.The method of claim 1,
The caption analysis unit analyzes the morpheme based on the input caption data, displays a specific symbol for each part of speech in the caption data, and generates caption data including the symbol by direct reading, a digital broadcasting caption providing service device through real-time translation.
상기 자막 분석부는 주어, 서술어, 목적어, 보어 및 기타수식어 중 두 개 이상의 조합으로 이루어지는 문장성분을 분석하여 제 1형식 내지 제 5형식 중 어느 하나의 문장형식을 결정하고 이에 따른 문장성분 및 문장형식의 제 1결과데이터를 생성하며, 자막 데이터의 문장성분 및 문장형식이 분석된 제 1결과데이터를 전달받아 명사, 동사, 수식어, 부정사, 동명사, 분사, 비교급, 등위접속사, 접속사, 관계대명사, 관계부사를 포함하는 다수의 품사군 중 어느 하나 또는 이들의 조합으로 문장성분별 분석을 수행하여 자막 데이터를 품사별로 분류하는 제 2결과데이터를 생성하고, 제 1결과데이터 및 제 2결과데이터를 전달받아 해당 품사별로 특정기호를 자막 데이터에 표시하여 직독직해 기호가 포함된 자막 데이터를 생성하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.The method of claim 2,
The subtitle analysis unit analyzes a sentence component consisting of a combination of two or more of a subject, a predicate, an object, a bore, and other modal words to determine any one of the first to fifth forms, and the sentence component and sentence form accordingly Generates the first result data, and receives the first result data from which the sentence components and sentence format of the subtitle data are analyzed, and receives the nouns, verbs, modifiers, infinitives, gerunds, participles, comparative grades, equal conjunctions, conjunctions, relative pronouns, and relative adverbs Generates second result data for classifying subtitle data by part of speech by performing sentence component analysis with any one or a combination of a plurality of parts of speech groups including, and receiving the first result data and the second result data A service device for providing captions for digital broadcasting through real-time translation that displays specific symbols for each part-of-speech in the caption data and generates caption data including the symbols by direct reading.
상기 자막 분석부가 생성하는 특정 기호는 해당 단어 또는 구절에 밑줄을 그어 표시하거나, 원문자 또는 세모, 화살표로 표시하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.The method of claim 3,
A service device for providing captions for digital broadcasting through real-time translation in which the specific symbol generated by the caption analysis unit is displayed by underlined in a corresponding word or phrase, or displayed as an original character, triangle, or arrow.
상기 번역 서비스 장치는 상기 자막 분석부에서 생성된 직독직해 기호가 포함된 자막 데이터를 입력받아 직독직해 번역을 수행하여 직독직해 번역 자막 데이터를 생성하여 상기 번역 결과 취합부로 제공하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.The method of claim 1,
The translation service device receives caption data including the direct reading symbol generated by the caption analysis unit, performs direct reading direct translation, generates the translated caption data directly read, and provides it to the translation result aggregator through real-time translation. Subtitle provision service device.
상기 번역 서비스 장치는 상기 자막 분석부에서 생성된 직독직해 기호가 포함된 자막 데이터를 입력받아 한국어 어순 번역을 수행하여 한국어 어순 번역 자막 데이터를 생성하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.The method of claim 5,
The translation service device receives the caption data including the direct reading symbol generated by the caption analysis unit and performs Korean word order translation to generate Korean word order translated caption data.
상기 번역 결과 취합부는 상기 번역 의뢰에 의해 번역된 한국어 어순 번역 자막 데이터를 수신하여 취합하며,
상기 번역 자막 송출부는 상기 사용자 단말로부터 번역할 언어에 대하여 입력받고 상기 번역 결과 취합부를 통해 취합한 번역된 한국어 번역 자막 데이터를 상기 디지털 방송 데이터와 동기화하여 송출하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.The method of claim 6,
The translation result collection unit receives and aggregates the translated subtitle data in Korean word order translated by the translation request,
The translation caption transmission unit receives the input of the language to be translated from the user terminal and transmits the translated Korean translated caption data collected through the translation result collecting unit in synchronization with the digital broadcasting data. Device.
상기 한국어 어순 번역기의 한국어 어순 번역 자막 데이터의 동사 관련하여 번역상의 오류를 수정하기 위한 동사 후처리 과정을 수행하는 후처리 수행기를 더 포함하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.The method of claim 7,
A service apparatus for providing subtitles for digital broadcasting through real-time translation, further comprising: a post-processing unit performing a verb post-processing process for correcting a translation error in relation to a verb in the Korean word order translation subtitle data by the Korean word order translator.
상기 후처리 수행기는 복수의 검색 명사들을 추출하여 빅데이터에서 관련 검색 명사들을 포함한 문장들을 검색하여 추출하고, 해당 동사의 의미와 유사한 의미의 동사 표현을 동사 대체 후보로 추출하며, 추출된 동사 대체 후보들에 대하여 문장 비율을 산출한 후에 문장 비율이 가장 큰 가장 큰 동사 대체 후보로 해당 동사 표현을 대체하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.The method of claim 12,
The post-processor extracts a plurality of search nouns, searches for and extracts sentences including related search nouns from big data, extracts a verb expression with a meaning similar to the meaning of the corresponding verb as a verb substitution candidate, and extracts verb substitution candidates. A service device providing subtitles for digital broadcasting through real-time translation that substitutes the corresponding verb expression as the largest verb substitution candidate with the largest sentence ratio after calculating the sentence ratio for.
상기 후처리 수행기는 1차 번역문의 복수의 검색 명사로 추출한 후에, 이를 빅데이터에서 검색하여 해당 복수의 검색 명사를 포함한 문장들을 수집하여 각각의 문장들을 제1 내지 n의 대체 후보 번역문으로 분류하며, 1차 번역문에서 복수의 기준 대표 단어를 추출하되, 복수의 기준 대표 단어와 복수의 제1 내지 n의 대체 대표 단어 사이의 유사도를 측정하고, 결과를 바탕으로 해당 동사와 제1 내지 n의 동사 대체 후보 사이의 유사도를 추론하여 유사도가 가장 큰 동사 대체 후보를 해당 동사로 대체하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.The method of claim 12,
The post-processing unit extracts a plurality of search nouns of the primary translation, searches it in big data, collects sentences including the plurality of search nouns, and classifies each sentence into first to n alternative candidate translations, Extracting a plurality of reference representative words from the primary translation, measuring the similarity between the plurality of reference representative words and a plurality of first to n alternative representative words, and replacing the corresponding verb with the first to n verbs based on the results A service device providing subtitles for digital broadcasting through real-time translation that infers the degree of similarity between candidates and replaces the candidate with the largest similarity with the corresponding verb.
상기 번역 결과 취합부는
상기 번역된 직독직해 번역 자막 데이터의 재생 시간을 상기 디지털 방송 데이터의 음성 신호에 기초하여 매칭하는 것을 특징으로 하는 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치.The method of claim 1,
The translation result collection unit
A service apparatus for providing closed captions for digital broadcasting through real-time translation, characterized in that matching the reproduction time of the translated direct reading direct translation caption data based on the audio signal of the digital broadcasting data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190086773A KR102229130B1 (en) | 2019-07-18 | 2019-07-18 | Apparatus for providing of digital broadcasting using real time translation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190086773A KR102229130B1 (en) | 2019-07-18 | 2019-07-18 | Apparatus for providing of digital broadcasting using real time translation |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210009775A KR20210009775A (en) | 2021-01-27 |
KR102229130B1 true KR102229130B1 (en) | 2021-03-18 |
Family
ID=74238798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190086773A KR102229130B1 (en) | 2019-07-18 | 2019-07-18 | Apparatus for providing of digital broadcasting using real time translation |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102229130B1 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102552533B1 (en) * | 2021-08-02 | 2023-07-05 | 주식회사 케이티디에스 | Device and method for providing subtitle service |
KR102523075B1 (en) * | 2021-12-24 | 2023-04-20 | 한혜영 | Textbook of visualizing of english sentence structure |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR970056985A (en) | 1995-12-29 | 1997-07-31 | 배순훈 | TV with Broadcast Subtitle Translation |
KR101302875B1 (en) * | 2011-09-28 | 2013-09-05 | 손민석 | Learning System of English Sentences Having Easy Recognition of Sentence Structure Through Symbolic Processing |
KR101582574B1 (en) * | 2014-05-29 | 2016-01-05 | 주식회사 마인미디어 | Apparatus and service method for providing many languages of digital broadcasting using real time translation |
-
2019
- 2019-07-18 KR KR1020190086773A patent/KR102229130B1/en active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
KR20210009775A (en) | 2021-01-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7130790B1 (en) | System and method for closed caption data translation | |
US7698721B2 (en) | Video viewing support system and method | |
US20030065503A1 (en) | Multi-lingual transcription system | |
US8732783B2 (en) | Apparatus and method for providing additional information using extension subtitles file | |
KR101899588B1 (en) | System for automatically generating a sign language animation data, broadcasting system using the same and broadcasting method | |
US20120275761A1 (en) | Utilizing subtitles in multiple languages to facilitate second-language learning | |
KR20080019126A (en) | Domain-adaptive portable machine translation device for translating closed captions using dynamic translation resources and method thereof | |
CN109348145B (en) | Method and device for generating associated bullet screen based on subtitle and computer readable medium | |
TW200818888A (en) | Media player apparatus and method thereof | |
KR101582574B1 (en) | Apparatus and service method for providing many languages of digital broadcasting using real time translation | |
KR102229130B1 (en) | Apparatus for providing of digital broadcasting using real time translation | |
Dayter | Describing lexical patterns in simultaneously interpreted discourse in a parallel aligned corpus of Russian-English interpreting (SIREN) | |
Romero-Fresco | Reception studies in live and pre-recorded subtitles for the deaf and hard of hearing | |
JP2009157460A (en) | Information presentation device and method | |
JP5202217B2 (en) | Broadcast receiving apparatus and program for extracting current keywords from broadcast contents | |
Fresno | Closed captioning quality in the information society: the case of the American newscasts reshown online | |
JP5213572B2 (en) | Sign language video generation system, server, terminal device, information processing method, and program | |
JP2008022292A (en) | Performer information search system, performer information obtaining apparatus, performer information searcher, method thereof and program | |
Kovacs | Smart subtitles for language learning | |
US8130318B2 (en) | Method and audio/video device for generating response data related to selected caption data | |
KR20140122807A (en) | Apparatus and method of providing language learning data | |
US20160191959A1 (en) | Enhanced timed text in video streaming | |
Cavaliere | Measuring the perception of the screen translation of Un Posto al Sole | |
CN112313726A (en) | Method and system for teaching language through multimedia | |
Tamayo Masero | Formal Aspects in SDH for Children in Spanish Television: A Descriptive Study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right |