KR102463283B1 - automatic translation system of video contents for hearing-impaired and non-disabled - Google Patents

automatic translation system of video contents for hearing-impaired and non-disabled Download PDF

Info

Publication number
KR102463283B1
KR102463283B1 KR1020220060224A KR20220060224A KR102463283B1 KR 102463283 B1 KR102463283 B1 KR 102463283B1 KR 1020220060224 A KR1020220060224 A KR 1020220060224A KR 20220060224 A KR20220060224 A KR 20220060224A KR 102463283 B1 KR102463283 B1 KR 102463283B1
Authority
KR
South Korea
Prior art keywords
voice
original
video content
language
sign language
Prior art date
Application number
KR1020220060224A
Other languages
Korean (ko)
Inventor
김남현
Original Assignee
주식회사 엘젠
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엘젠 filed Critical 주식회사 엘젠
Priority to KR1020220060224A priority Critical patent/KR102463283B1/en
Application granted granted Critical
Publication of KR102463283B1 publication Critical patent/KR102463283B1/en

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/009Teaching or communicating with deaf persons
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information

Abstract

The present invention relates to an automatic translation system of video content for both the hearing-impaired and the non-disabled and, more specifically, to an automatic translation system of video content for both the hearing-impaired and the non-disabled, which outputs a sign language to enable the hearing-impaired to enjoy video content and the non-disabled to readily learn the sign language and minimizes mismatch between a mouth shape and a voice on the video when the video is dubbed with the other language to allow a viewer to enjoy the video in a natural way. The automatic translation system of the present invention is used to perform: a voice extraction step of extracting voice information from the video content; a voice recognition step of converting the voice extracted in the voice extraction step into an original language text; a translation step of translating the original language text extracted in the voice recognition step into a selected language; a voice conversion step of converting the text translated in the translation step into a voice; and a dubbing step of combining the voice information derived in the voice conversion step with the original video content.

Description

청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템{automatic translation system of video contents for hearing-impaired and non-disabled}Automatic translation system of video contents for hearing-impaired and non-disabled

본 발명은 청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템에 관한 것으로서, 더욱 상세하게는 수어를 출력하도록 함으로써, 청각 장애인도 영상 콘텐츠를 즐길 수 있을 뿐만 아니라 일반인이 수어를 보다 용이하게 학습할 수 있으며 다른 언어로 더빙 시에도 영상의 입모양과 음성의 불일치를 최소화하여 영상을 자연스럽게 즐길 수 있도록 하는 청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템에 관한 것이다.The present invention relates to a system for automatic translation of video content for both the hearing impaired and the non-disabled, and more specifically, by outputting sign language, not only the hearing impaired can enjoy the video content, but also the general public can more easily learn sign language, The present invention relates to an automatic translation system for video content for the hearing impaired and non-disabled that enables users to enjoy video naturally by minimizing the mismatch between the mouth shape and the voice of the video even when dubbing in another language.

최근 유튜브, 틱톡 등와 같이 사용자가 직접 생성한 콘텐츠를 취급하는 미디어 서비스가 급격히 확산되고 있다.Recently, media services that handle user-generated content such as YouTube and TikTok are rapidly expanding.

이러한 미디어 서비스에 의하여 제공되는 콘텐츠는 동영상이 대부분을 차지하는데, 동영상에 포함된 음성신호를 자막으로 제공하는 기술에 대한 연구와 관심 역시 크게 증가하고 있다.Most of the content provided by these media services is video, and research and interest in technology for providing audio signals included in video as subtitles are also increasing significantly.

통상적으로 동영상의 자막은 작업자가 동영상의 음성을 듣고 작성하거나 동영상의 음성신호에 대한 음성인식(STT: Speech To Text) 결과에 기초하여 획득된다. 전자의 경우 매우 많은 시간과 비용 및 노력이 필요하다. 그리고 양자 모두는 동영상 재생시 획득된 자막을 음성신호와 동기시켜 표시하는 데에는 어려움이 있으며, 미디어 서비스에 따라 획일화된 길이로만 자막을 제공할 수 있는 한계가 있다.In general, the caption of the video is obtained based on the result of a speech recognition (STT: Speech To Text) for the voice signal of the video or the operator listens to the voice of the video. In the former case, very much time, money, and effort are required. Also, in both cases, it is difficult to display the subtitles acquired during video playback in synchronization with the audio signal, and there is a limitation in that subtitles can only be provided with a uniform length depending on the media service.

한편, 인터넷의 발달로 인하여 미디어 서비스에 의하여 제공되는 동영상은 제작된 언어가 아닌 다른 언어를 사용하는 글로벌 사용자들에 의해서도 널리 재생되는데, 동영상의 자막에 대한 번역자막에 대한 관심과 요구가 높다. 일부 미디어 서비스에서는 번역자막이 제공되고 있으나 그 수준이 소비자들을 만족시킬 정도에 이르지 못하였고, 보다 높은 수준의 번역자막을 위해서는 그에 따른 대가를 감수해야만 하는 것이 현실이다.On the other hand, due to the development of the Internet, a video provided by a media service is widely played by global users who speak a language other than the language in which it was produced. Although translated subtitles are provided in some media services, the level has not reached the level that satisfies consumers.

그래서, 이러한 문제점을 해결하기 위하여 도 1 및 도 2에 도시된 바와 같은 한국등록특허 제10-2351400호(2022.01.11.등록)에 기재된 기술이 제안되었는데, 그 기술적 특징은 동영상의 제1 언어의 음성신호로부터 자막문장을 획득하되, 상기 자막문장의 각 어절에 대해 대응되는 음성신호의 시작시간정보 및 종료시간정보를 매칭시켜 제1 타임테이블을 생성하는 단계; 상기 제1 언어의 글자단위의 배수로 설정된 자막 표시단위에 기초하여, 상기 자막문장을 상기 제1 언어의 어절단위로 그루핑된 복수의 자막그룹으로 분할하고, 상기 제1 타임테이블을 참조하여 상기 복수의 자막그룹 각각에 대한 시작 및 종료시간정보를 포함하는 제2 타임테이블을 생성하는 단계; 및 상기 복수의 자막그룹을 상기 음성신호에 동기시켜 상기 동영상과 함께 표시하는 제1 영역, 상기 복수의 자막그룹 리스트를 제공하는 제2 영역 및 자막 관련 사항을 설정하기 위한 제3 영역을 포함하는 GUI를 사용자 단말기로 제공하는 단계를 포함하는 것을 특징으로 한다.So, in order to solve this problem, the technology described in Korean Patent Registration No. 10-2351400 (registered on November 11, 2022) as shown in FIGS. 1 and 2 has been proposed, and its technical characteristics are the generating a first time table by obtaining a subtitle sentence from a voice signal, and matching start time information and end time information of a corresponding voice signal with respect to each word of the subtitle sentence; Based on the subtitle display unit set as a multiple of the character unit of the first language, the subtitle sentence is divided into a plurality of subtitle groups grouped by word unit of the first language, and the plurality of subtitle groups are generating a second timetable including start and end time information for each of the subtitle groups; and a first area for synchronizing the plurality of caption groups with the audio signal and displaying them together with the moving picture, a second area for providing a list of the plurality of caption groups, and a third area for setting caption related matters. It characterized in that it comprises the step of providing to the user terminal.

그런데, 한국등록특허 제10-2351400호(2022.01.11.등록)에 기재된 기술은 동영상에서 음성 정보를 추출하여 특정 언어로 번역하고, 음성 신호에 동기화시켜 제공할 수 있는 장점은 있지만, 외국어로된 동영상을 감상할 때, 자막 정보를 통해 정보를 얻는 것은 시청자에게 동영상에 집중할 수 없도록 하는 문제점이 있다.However, the technology described in Korean Patent No. 10-2351400 (registered on 11/11/2022) has the advantage of extracting voice information from a video, translating it into a specific language, and synchronizing it with a voice signal, but When watching a video, obtaining information through subtitle information has a problem in that the viewer cannot concentrate on the video.

또한, 시청자의 언어로 더빙된 동영상을 제작하기에는 상당한 비용이 소요되는 문제점이 있다.In addition, there is a problem in that a considerable cost is required to produce a video dubbed in the viewer's language.

한국등록특허 제10-2351400호(2022.01.11.등록)Korean Patent No. 10-2351400 (Registered on 11/11/2022)

본 발명은 상기한 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 동영상 콘텐츠에 원어 텍스트 또는 번역 텍스트를 추가하여 언어 학습에 도움이 될 뿐만 아니라 원어 텍스트와 번역 텍스트를 각각 원어 수어와 번역 수어로 변환하여 추가하도록 함으로써, 청각 장애인도 영상 콘텐츠를 즐길 수 있으며 일반인이 수어를 보다 용이하게 학습할 수 있는 청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템을 제공하는 것이다.The present invention has been devised to solve the above problems, and an object of the present invention is not only to help language learning by adding original text or translated text to video content, but also to convert the original text and the translated text into the original sign language and the number of translations, respectively. It is to provide an automatic translation system for video content for the hearing impaired and non-disabled that allows the hearing impaired to enjoy the video content and the general public can more easily learn sign language by converting it into a language and adding it.

그리고, 본 발명의 다른 목적은 동영상 콘텐츠의 음성 신호로부터 텍스트 정보를 추출하고 이렇게 추출한 텍스트 정보를 원하는 언어로 번역한 후, 이를 음성 데이터 베이스에 저장된 음성을 사용하여 자동으로 더빙하도록 함으로써, 저렴한 비용으로 특정 언어로 된 동영상 콘텐츠를 모국어 또는 원하는 언어로 시청할 수 있도록 하는 청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템을 제공하는 것이다.Another object of the present invention is to extract text information from a voice signal of video content, translate the extracted text information into a desired language, and then automatically dub it using the voice stored in the voice database, thereby reducing the cost. It is to provide an automatic translation system for video content for the hearing impaired and non-disabled that allows users to watch video content in a specific language in their native language or in their preferred language.

또한, 본 발명의 또 다른 목적은 특정 언어로 이루어진 동영상 콘텐츠를 다른 언어로 더빙할 때, 번역 과정에서 원본의 언어와 번역본의 언어 사이의 길이 차이가 오차 이내로 이루어지도록 하여 더빙을 하더라도 출력되는 음성의 길이가 영상의 이미지에 대응되도록 하여 자연스러운 더빙 영상을 즐길 수 있게 하는 청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템을 제공하는 것이다.In addition, another object of the present invention is that, when dubbing video content in a specific language into another language, the difference in length between the language of the original and the language of the translated version is made within an error during the translation process so that the output voice is It is to provide an automatic translation system for video content for the hearing impaired and the non-disabled that allows the length to correspond to the image of the video to enjoy a natural dubbing video.

이러한 문제점을 해결하기 위한 본 발명은;The present invention for solving these problems;

영상 콘텐츠에서 음성 정보를 추출하는 음성 추출 단계와, 상기 음성 추출 단계에서 추출된 음성을 원어 텍스트로 변환하고 원어 텍스트를 원어 수어로 변환하는 음성 인식 단계와, 상기 음성 인식 단계에서 추출된 원어 텍스트 정보를 선택된 언어로 번역하고 번역된 텍스트를 선택된 언어의 수어로 변환하는 번역 단계로 이루어지는 것을 특징으로 한다.A voice extraction step of extracting voice information from the video content, a voice recognition step of converting the voice extracted in the voice extraction step into original text and converting the original text into a sign language, and the original text information extracted in the voice recognition step is translated into the selected language and characterized in that it comprises a translation step of converting the translated text into a sign language of the selected language.

여기서, 상기 번역 단계에서 번역된 텍스트를 음성으로 변환하는 음성 변환 단계와, 상기 음성 변환 단계에서 도출된 음성 정보를 원본 영상 콘텐츠에 합치는 더빙 단계를 더 포함하는 것을 특징으로 한다.Here, the step of converting the text translated in the translation step into speech, and a dubbing step of merging the audio information derived in the speech conversion step into the original video content are characterized in that it further comprises.

한편, 상기 음성 인식 단계에서는 각 문장의 시작 및 끝나는 지점을 확인하고, 해당 문장의 전체 음절을 도출하는 것을 특징으로 한다.Meanwhile, in the speech recognition step, the starting and ending points of each sentence are checked, and the entire syllable of the corresponding sentence is derived.

이때, 상기 음성 인식 단계에서는 동영상 콘텐츠에 등장하는 캐릭터의 수를 확인하는 것을 특징으로 한다.In this case, in the voice recognition step, it is characterized in that the number of characters appearing in the video content is checked.

그리고, 상기 번역 단계에서는 다양한 표현으로 다수의 번역문을 생성하고, 다수의 번역문의 음절과 상기 원어 문장의 음절을 비교하여 음설 수의 차이가 소정 범위 이내인 번역물을 선택하는 것을 특징으로 한다.And, in the translation step, a plurality of translations are generated with various expressions, and the syllables of the plurality of translations are compared with the syllables of the original sentence to select a translation having a difference in the number of syllables within a predetermined range.

여기서, 상기 음성 변환 단계에서는 각 문장의 시작 및 끝나는 점을 통하여 원어 문장의 출력 시간을 확인하고, 변환된 음성 정보의 출력 시간이 원어 문장의 출력 시간과 동일한 시간이 되도록 음성의 속도를 조절하는 것을 특징으로 한다.Here, in the speech conversion step, the output time of the original sentence is checked through the start and end points of each sentence, and the speed of the voice is adjusted so that the output time of the converted voice information is the same as the output time of the original sentence. characterized.

이때, 상기 음성 변환 단계에서는 음성 데이터 베이스에 저장된 음성 정보에서 각 캐릭터에 따라 다른 특징의 음성을 매칭하는 것을 특징으로 한다.In this case, the voice conversion step is characterized in that the voice information stored in the voice database is matched with voices having different characteristics according to each character.

한편, 상기 더빙 단계는 영상 콘텐츠에서 원어 음성 정보를 삭제하고, 상기 음성 변환 단계에서 생성된 번역 음성 정보를 시작 및 끝나는 지점이 맞도록 영상 정보에 합치며, 상기 영상 정보에 상기 원어 텍스트, 번역된 텍스트, 원어 수어 및 번역된 수어 정보를 더 포함시키는 것을 특징으로 한다.On the other hand, the dubbing step deletes the original language audio information from the video content, combines the translated audio information generated in the audio conversion step with the video information so that the starting and ending points match, and the original text and the translated text are added to the video information. It is characterized by further including text, original sign language, and translated sign language information.

여기서, 상기 더빙 단계 이후에 외국어 또는 수어를 학습하기 위한 학습단계가 더 수행되되, 상기 학습단계는 사용자가 선택하여 수행하는 구간 반복 학습 과정 또는 비교 학습 과정으로 이루어지는 것을 특징으로 한다.Here, a learning step for learning a foreign language or sign language is further performed after the dubbing step, and the learning step is characterized in that it consists of a section repetition learning process or a comparative learning process selected and performed by a user.

이때, 상기 구간 반복 학습 과정은 상기 더빙 단계를 통하여 도출된 영상 콘텐츠에서 사용자에 의해 선택된 구간을 반복 출력하고, 사용자의 설정에 따라 원어 텍스트, 번역된 텍스트, 원어 수어 및 번역된 수어 정보 중에서 어느 하나 이상을 출력하도록 하는 것을 특징으로 한다.In this case, the section iterative learning process repeatedly outputs a section selected by the user in the video content derived through the dubbing step, and any one of original text, translated text, original sign language, and translated sign language information according to user settings It is characterized in that it outputs an abnormality.

또한, 상기 비교 학습 과정은 사용자의 수어 재현 영상에서 감지한 수어를 원어 텍스트로 변환하는 수어 감지 과정과, 원어 텍스트를 선택된 언어의 텍스트로 번역하는 번역 과정과, 원어 텍스트를 표준 원어 수어로 변환하는 표준 수어 변환 과정과, 사용자의 수어 재현 영상에 원어 텍스트, 번역된 텍스트 및 표준 원어 수어를 동시에 출력하는 비교 출력 과정으로 이루어지는 것을 특징으로 한다.In addition, the comparative learning process includes a sign language detection process for converting the sign language detected in the user's sign language reproduction image into original text, a translation process for translating the original text into text of the selected language, and converting the original text into a standard original sign language It is characterized in that it consists of a standard sign language conversion process and a comparative output process of simultaneously outputting the original text, the translated text, and the standard original sign language to the user's sign language reproduction image.

상기한 구성의 본 발명에 따르면, 동영상 콘텐츠에 원어 텍스트 또는 번역 텍스트를 추가하여 언어 학습에 도움이 될 뿐만 아니라 원어 텍스트와 번역 텍스트를 각각 원어 수어와 번역 수어로 변환하여 추가하도록 함으로써, 청각 장애인도 영상 콘텐츠를 즐길 수 있으며 일반인이 수어를 보다 용이하게 학습할 수 있는 효과가 있다.According to the present invention of the above configuration, by adding the original text or translated text to the video content to help language learning, and by converting the original text and the translated text into the original sign language and the translated sign language, respectively, and adding it, the hearing impaired can also You can enjoy video content, and it has the effect of making it easier for the general public to learn sign language.

그리고, 본 발명은 동영상 콘텐츠의 음성 신호로부터 텍스트 정보를 추출하고 이렇게 추출한 텍스트 정보를 원하는 언어로 번역한 후, 이를 음성 데이터 베이스에 저장된 음성을 사용하여 자동으로 더빙하도록 함으로써, 저렴한 비용으로 특정 언어로 된 동영상 콘텐츠를 모국어 또는 원하는 언어로 시청할 수 있도록 하는 효과가 있다.In addition, the present invention extracts text information from a voice signal of video content, translates the extracted text information into a desired language, and then automatically dubs it using the voice stored in the voice database, so that it can be translated into a specific language at a low cost. It has the effect of allowing you to watch the video content in your native language or in your preferred language.

또한, 본 발명은 특정 언어로 이루어진 동영상 콘텐츠를 다른 언어로 더빙할 때, 번역 과정에서 원본의 언어와 번역본의 언어 사이의 길이 차이가 오차 이내로 이루어지도록 하여 더빙을 하더라도 출력되는 음성의 길이가 영상의 이미지에 대응되도록 하여 자연스러운 더빙 영상을 즐길 수 있게 하는 효과가 있다.In addition, in the present invention, when dubbing video content made in a specific language into another language, the length difference between the original language and the translated version is made within an error during the translation process, so that the length of the output voice is the same as that of the image even after dubbing. It has the effect of allowing you to enjoy a natural dubbing video by making it correspond to the image.

도 1은 종래의 동영상 번역 자막 제공 시스템의 개념도이다.
도 2는 종래의 동영상 번역 자막 제공 시스템의 흐름도이다.
도 3은 본 발명에 따른 청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템의 개념도이다.
도 4는 본 발명에 따른 청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템의 블럭도이다.
도 5는 본 발명에 따른 청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템의 흐름도이다.
도 6은 본 발명의 다른 실시 예에 따른 청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템의 흐름도이다.
도 7은 도 6 실시 예에 따른 청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템의 블럭도이다.
1 is a conceptual diagram of a conventional video translation subtitle providing system.
2 is a flowchart of a conventional video translation subtitle providing system.
3 is a conceptual diagram of a system for automatic translation of video content for both the hearing impaired and the non-disabled according to the present invention.
4 is a block diagram of a system for automatic translation of video content for both the hearing impaired and the non-disabled according to the present invention.
5 is a flowchart of a system for automatic translation of video content for both the hearing impaired and the non-disabled according to the present invention.
6 is a flowchart of a system for automatic translation of video content for the hearing impaired and the non-disabled according to another embodiment of the present invention.
7 is a block diagram of a system for automatic translation of video content for the hearing impaired and the non-disabled according to the embodiment of FIG. 6 .

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시 예를 보다 상세하게 설명한다. 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다. 그리고, 본 발명은 다수의 상이한 형태로 구현될 수 있고, 기술된 실시 예에 한정되지 않음을 이해하여야 한다. Hereinafter, preferred embodiments of the present invention will be described in more detail with reference to the accompanying drawings. The same reference numerals are used for the same components in the drawings, and repeated descriptions of the same components are omitted. And, it should be understood that the present invention may be implemented in many different forms and is not limited to the described embodiments.

도 3은 본 발명에 따른 청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템의 개념도이고, 도 4는 본 발명에 따른 청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템의 블럭도이고, 도 5는 본 발명에 따른 청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템의 흐름도이다고, 도 6은 본 발명의 다른 실시 예에 따른 청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템의 흐름도이고, 도 7은 도 6 실시 예에 따른 청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템의 블럭도이다.3 is a conceptual diagram of a system for automatic translation of video content for the hearing impaired and non-disabled according to the present invention, FIG. 4 is a block diagram of a system for automatic translation of video content for the hearing impaired and non-disabled according to the present invention, and FIG. 5 is a diagram of the present invention 6 is a flowchart of a system for automatic translation of video content for the hearing impaired and non-disabled according to another embodiment of the present invention, and FIG. It is a block diagram of a system for automatic translation of video content for both the hearing impaired and the non-disabled according to an example.

본 발명은 청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템에 관한 것으로 도 3 내지 도 5에 도시된 바와 같이 그 구성은 네트워크망을 통하여 연결되는 사용자 단말기(200)와 원격지에 위치하여 상기 사용자 단말기(200)와 통신으로 연결되는 서버(100)로 이루어질 수 있다.The present invention relates to a system for automatic translation of video content for the hearing impaired and the non-disabled. As shown in FIGS. 3 to 5, the configuration is located at a remote location from the user terminal 200 connected through a network network, and the user terminal ( 200) and the server 100 connected by communication.

여기서, 사용자는 외국어로 되어 있어 모국어로 영상 콘텐츠를 시청하기 원하거나 모국어로 되어 있지만 특정 외국어로 영상 콘텐츠를 시청하기를 원할 경우, 사용자 단말기(200)를 통하여 서버(100)로 영상 콘텐츠를 업로드하여 서버(100)에 구비되는 본 발명인 청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템을 통하여 해당 영상 콘텐츠에 원하는 언어의 더빙을 수행하게 된다.Here, if the user wants to watch video content in his or her mother tongue because it is in a foreign language or wants to watch video content in a specific foreign language despite being in his or her mother tongue, upload the video content to the server 100 through the user terminal 200 and A desired language is dubbed into the corresponding image content through the automatic translation system for the deaf and non-disabled users of the present invention provided in the server 100 .

그래서, 사용자가 사용자 단말기(200)를 통하여 업로드한 영상 콘텐츠를 사용자가 선택한 언어로 더빙하여 사용자 단말기(200)로 전송하게 되고, 사용자는 원하는 언어로 더빙된 영상 콘텐츠를 즐길 수 있게 된다.Therefore, the image content uploaded by the user through the user terminal 200 is dubbed in the user's selected language and transmitted to the user terminal 200, and the user can enjoy the dubbed image content in the desired language.

그리고, 본 발명인 영상 콘텐츠 자동 번역 시스템은 도 5에 도시된 바와 같이, 영상 콘텐츠에서 음성 정보를 추출하는 음성 추출 단계(S100)와 상기 음성 추출 단계(S100)에서 추출된 음성을 원어 텍스트로 변환하는 음성 인식 단계(S200)와 상기 음성 인식 단계(S200)에서 추출된 원어 텍스트 정보를 선택된 언어로 번역하는 번역 단계(S300)와, 상기 번역 단계(S300)에서 번역된 텍스트를 음성으로 변환하는 음성 변환 단계(S400)와 상기 음성 변환 단계(S400)에서 도출된 음성 정보를 원본 영상 콘텐츠에 합치는 더빙 단계(S500)로 이루어진다.And, as shown in FIG. 5, the automatic video content translation system of the present invention converts the audio extracted in the audio extraction step (S100) of extracting audio information from the video content and the audio extraction step (S100) into original text. A translation step (S300) of translating the original text information extracted in the speech recognition step (S200) and the speech recognition step (S200) into a selected language, and a speech conversion of converting the text translated in the translation step (S300) into speech A dubbing step (S500) of combining the audio information derived in the step (S400) and the audio conversion step (S400) with the original video content is performed.

여기서, 상기 서버(100)에는 사용자가 소지하고 있는 스마트폰과 같은 사용자 단말기(200)와 통신으로 연결하기 위한 통신모듈(170)이 구비되어 사용자 단말기(200)로부터 영상 콘텐츠를 수신받게 된다.Here, the server 100 is provided with a communication module 170 for communication with a user terminal 200 such as a smartphone possessed by the user to receive image content from the user terminal 200 .

이때, 상기 음성 추출 단계(S100)에서는 상기 서버(100)에 구비되는 분석모듈(110)을 통하여 수신받은 영상 콘텐츠를 분석하게 되고, 영상 콘텐츠에서 영상 정보와 음향 정보를 분리하게 되는데, 분리된 음향 정보에서 배경음, 효과음, 음성을 추가로 분리하게 된다.At this time, in the audio extraction step ( S100 ), the received image content is analyzed through the analysis module 110 provided in the server 100 , and image information and sound information are separated from the image content. Background sound, sound effect, and voice are further separated from the information.

한편, 상기 서버(100)에는 저장부(180)가 구비되어 상기 분석모듈(110)을 통하여 분리된 영상 정보, 배경음, 효과음, 음성이 각각 저장되는데, 상기 음성 인식 단계(S200)에서는 서버(100)에 구비되는 음성 인식 모듈(120)을 통하여 분리된 음성 정보를 분석하여 텍스트 정보로 변환하게 된다.On the other hand, the server 100 is provided with a storage unit 180 to store image information, background sound, sound effect, and voice separated through the analysis module 110, respectively. In the voice recognition step (S200), the server 100 ), the separated voice information is analyzed and converted into text information through the voice recognition module 120 provided in the .

여기서, 상기 음성 인식 단계(S200)에서는 영상 정보 상에서 각 문장의 시작 및 끝나는 지점을 확인하게 되며, 해당 문장이 가지고 있는 전체 음절의 수를 도출하는데, 텍스트로 변환하는 음성 정보는 하나의 문장일 수도 있고, 다수의 문장이 연결된 상태일 수도 있으며 도출되는 음절의 수는 전체 문장에 대하여 음절수를 도출하게 된다.Here, in the speech recognition step (S200), the start and end points of each sentence are checked on the image information, and the total number of syllables of the corresponding sentence is derived. The voice information converted into text may be a single sentence. Also, a plurality of sentences may be connected, and the number of derived syllables is derived from the number of syllables for the entire sentence.

이때, 상기 음성 인식 단계(S200)에서는 상기 음성 인식 모듈(120)을 통하여 음성 정보를 분석하여 각 문장별로 음성지문(성문, voice print)을 도출할 수 있으며, 이렇게 도출된 음성지문을 통하여 영상 콘텐츠에 등장하는 캐릭터의 수를 확인할 수 있게 된다.At this time, in the voice recognition step (S200), voice information may be analyzed through the voice recognition module 120 to derive a voice fingerprint (voice print) for each sentence, and video content through the voice fingerprint derived in this way You can check the number of characters appearing in .

여기서, 음성지문이 동일한 캐릭터의 것인지를 판단하기 어려운 음성들은 특정 캐릭터의 음성 발화 시점에서의 캐릭터의 외형 및 입모양 등 영상 정보들을 대비하여 판단할 수 있고, 또는 캐릭터 동일성 여부 수동 감지 표시를 하여 사용자가 특정 위치의 음성에 대응한 특정 캐릭터 정보를 입력하거나 수정하게 할 수 있다.Here, the voices for which it is difficult to determine whether the voice fingerprint is of the same character can be determined by comparing the image information such as the appearance and mouth shape of the character at the time of the voice utterance of a specific character, or by manually detecting whether the character is the same may input or modify specific character information corresponding to a voice at a specific location.

그리고, 상기 번역 단계(S300)에서는 서버(100)에 구비되는 번역 모듈(130)을 사용하여 원어 텍스트를 사용자가 선택한 특정 언어로 번역하게 되는데, 상기 번역 모듈(130)은 원어 텍스트를 번역할 때, 하나의 문장이 아닌 동일한 의미를 가지는 다양한 문장을 생성하게 된다.And, in the translation step (S300), the original text is translated into a specific language selected by the user using the translation module 130 provided in the server 100. When the translation module 130 translates the original text , instead of a single sentence, various sentences with the same meaning are generated.

여기서, 상기 번역 단계(S300)에서는 상기 번역 모듈(130)이 생성한 다수개의 문장 각각의 음절수를 도출하고, 상기 번역 모듈(130)이 다수의 번역문의 음절과 상기 원어 문장의 음절을 비교하여 음절의 수가 가장 유사한 번역문을 선택하게 된다.Here, in the translation step (S300), the number of syllables of each of the plurality of sentences generated by the translation module 130 is derived, and the translation module 130 compares the syllables of the plurality of translations with the syllables of the original sentence. The translation with the most similar number of syllables is selected.

이때, 상기 번역 모듈(130)에는 원어 문장의 음절수와 번역된 문장의 음절수와의 오차 범위를 설정하여 오차 이내의 문장만을 선택함으로써, 상기 음성 변환 단계(S400)에서 번역 음성 정보를 생성할 때, 원어 음성 정보와 동일한 길이로 생성하여 영상 정보와 음성 정보와의 싱크가 맞지 않아 이질감이 드는 것을 방지하게 된다.At this time, the translation module 130 sets an error range between the number of syllables in the original sentence and the number of syllables in the translated sentence to select only sentences within the error, thereby generating the translated voice information in the voice conversion step (S400). In this case, it is generated to have the same length as the audio information in the original language, so that the image information and the audio information do not synchronize with each other to prevent a sense of difference.

그 번역 문장을 선택하는 예를 들자면, 영화에서 나오는 대사인 "나 전당포한다. 금이빨은 받아. 금이빨빼고 모조리 씹어먹어줄께"는 26음절로 이루어진 문장이다.As an example of selecting the translation sentence, the line from the movie "I'm a pawnshop. I'll take the gold teeth. I'll chew everything except the gold teeth" is a sentence with 26 syllables.

이 문장을 영어로 번역할 경우, If this sentence is translated into English,

첫번째로는 "I am managing a pawn shop. I'll take the gold teeth. I'll chew everything except you golden teeth"로 번역할 수 있으며 이 경우에 발음은 "아임 매니징 어 폰 샵 아일 테익 더 골드 티이뜨 아일 츄 에브리띵 엑셉트 유어 골든 티이뜨"로 되어 35음절이 된다.The first can be translated as "I am managing a pawn shop. I'll take the gold teeth. I'll chew everything except you golden teeth", in this case the pronunciation is "I am managing a pawn shop are take the gold." It becomes 35 syllables as "Teat Isle Chew Everything Exception Your Golden Teate".

두번째로는 "I run a pawn shop. I'll chew and eat everything except the golden teeth"로 번역할 수 있고, 이 경우에 발음은 "아이 런 어 폰샵 아일 츄 앤 잇 에브리띵 엑셉트 더 골든 티이뜨"로 되어 24음절이 된다.The second one can be translated as "I run a pawn shop. I'll chew and eat everything except the golden teeth", in this case the pronunciation is "I run a pawn shop. I'll chew and eat everything except the golden teeth" ' to make 24 syllables.

따라서, 상기 번역 모듈(130)은 원어 문장의 음절인 26음절과 가장 유사한 24음절인 두번째 번역 문장을 최종 번역 문장으로 선택하게 된다.Accordingly, the translation module 130 selects the second translation sentence, which is 24 syllables most similar to 26 syllables, which are syllables of the original sentence, as the final translation sentence.

추가로 상기 번역 단계(S300)에서는 수동으로 번역문을 작성할 수 있는 에디팅 기능을 더 포함할 수 있는데, 상기 번역 단계(S300)를 자동으로 수행한 후, 설정된 시간동안 별도의 입력이 없을 경우에는 상기 번역 모듈(130)을 통하여 자동으로 작성하고 선택한 번역문을 확정하게 되고, 에디팅 기능 수행을 위한 설정된 입력이 감지될 경우에는 에디팅 기능을 수행하게 된다.In addition, the translation step (S300) may further include an editing function for manually writing a translation. After automatically performing the translation step (S300), if there is no separate input for a set time, The translation is automatically written and selected through the module 130, and when an input set for performing the editing function is detected, the editing function is performed.

여기서, 상기 에디팅 기능을 수행할 경우에는 상기 번역 모듈(130)에서 번역한 다수의 번역문들 중에서 원문의 음절수와의 오차가 설정된 범위가 벗어 나는 번역문의 경우, 붉은색 등으로 하이라이트 표시하여 작업자가 수동으로 번역문을 작성할 때, 작업의 효율성을 높이게 된다.Here, in the case of performing the editing function, among the plurality of translations translated by the translation module 130, in the case of a translation in which the error with the number of syllables in the original text is out of a set range, it is highlighted in red, etc. so that the operator can When you manually write a translation, you increase the efficiency of your work.

한편, 상기 음성 변환 단계(S400)에서는 서버(100)에 구비되는 음성 변환 모듈(140)을 사용하여 번역된 텍스트를 음성으로 변환하게 되는데, 음성으로 변환할 때, 설정된 언어로 변환된 음성 정보의 출력 시간이 원어 음성 정보의 출력 시간과 동일한 시간이 되도록 조절하게 된다.On the other hand, in the speech conversion step (S400), the translated text is converted into speech using the speech conversion module 140 provided in the server 100. When converting to speech, the speech information converted into the set language is The output time is adjusted to be the same as the output time of the original speech information.

즉, 상기 음성 인식 단계(S200)에서 확인한 각 문장의 시작 및 끝나는 점의 정보를 통하여 원어 문장의 출력 시간을 확인할 수 있게 되는데, 상기 번역 모듈(130)을 통하여 확인한 번역된 텍스트의 음절수를 고려하여 출력되는 음성의 속도(번역된 언어로 말하는 속도)를 조절하게 된다.That is, it is possible to check the output time of the original sentence through the information on the start and end points of each sentence confirmed in the speech recognition step (S200). Considering the number of syllables of the translated text checked through the translation module 130 to control the speed of the output voice (the speed of speaking in the translated language).

그래서, 전술한 바와 같이 영상 콘텐츠를 시청할 때, 영상에서의 캐릭터가 말하는 시간과 출력되는 음성 정보의 시간이 동일하도록 하여 사용자가 영상 콘텐츠를 즐길 때 몰입감이 깨지지 않도록 한다.Therefore, as described above, when viewing video content, the time of the character speaking in the video and the time of the output audio information are made to be the same so that the immersion feeling is not broken when the user enjoys the video content.

이때, 상기 음성 변환 단계(S400)에서 각 문장을 음성으로 변환할 때, 서버(100)에 구비되는 음성 데이터 베이스(160)에 저장된 음성 정보에서 특정 음성을 선택하여 사용하게 되는데, 전술한 바와 같이 음성 인식 단계(S200)에서 도출된 캐릭터의 수만큼 각기 다른 특징의 음성을 선택하여 각 캐릭터에 따라 서로 다른 음성을 매칭하도록 한다.At this time, when each sentence is converted into speech in the speech conversion step ( S400 ), a specific speech is selected and used from speech information stored in the speech database 160 provided in the server 100 , as described above. Voices having different characteristics are selected as many as the number of characters derived in the voice recognition step S200 to match different voices according to each character.

또한, 상기 음성 인식 모듈(120)에서 음성을 텍스트로 변환할 때, 음성 정보를 분석하여 해당 문장에서의 음소의 강약, 액센트, 고저 장단, 억양, 지속시간, 휴지기간, 경계, 평균 피치, 피치 곡선, 발화 속도, 발성 유형 등의 특징을 추출하게 된다.In addition, when the voice recognition module 120 converts the voice into text, the voice information is analyzed and the strength, accent, high and low, intonation, duration, pause, boundary, average pitch, pitch of phonemes in the corresponding sentence are analyzed. Characteristics such as curve, utterance rate, and utterance type are extracted.

여기서, 상기 음성 변환 단계(S400)에서는 상기 음성 인식 모듈(120)에서 추출한 각 문장에서의 음성 특징을 반영하여 상기 음성 변환 모듈(140)을 통하여 음성으로 변환하도록 함으로써, 각 문장에 포함된 감정 등을 보다 생생하게 변환할 수 있도록 한다.Here, in the speech conversion step (S400), the speech characteristics in each sentence extracted by the speech recognition module 120 are reflected and converted into speech through the speech conversion module 140, so that emotions included in each sentence, etc. to make it more vivid.

그리고, 상기 더빙 단계(S500)에서는 상기 분석모듈(110)을 통하여 영상 정보에서 분리된 음향 정보인 배경음, 효과음, 음성 중에서 원어 음성 정보를 삭제하고 상기 음성 변환 단계(S400)에서 생성된 번역 음성 정보를 영상 정보에 합치게 된다.In the dubbing step (S500), the original speech information is deleted from the background sound, effect sound, and voice, which are sound information separated from the image information through the analysis module 110, and the translated speech information generated in the speech conversion step (S400) is combined with the video information.

여기서, 상기 더빙 단계(S500)에서는 서버(100)에 구비되는 더빙 모듈(150)을 사용하여 전술한 더빙 과정을 진행하게 되는데, 상기 더빙 모듈(150)은 영상 정보에 번역 음성 정보를 믹싱할 때, 상기 음성 인식 단계(S200)에서 확인한 원어 음성 정보의 시작 및 끝나는 지점에 맞도록 영상 정보에 믹싱하게 된다.Here, in the dubbing step (S500), the above-described dubbing process is performed using the dubbing module 150 provided in the server 100. When the dubbing module 150 mixes the translated voice information with the image information, , is mixed with the video information to match the starting and ending points of the original voice information confirmed in the voice recognition step ( S200 ).

그래서, 최종적으로 영상 정보에 번역 음성 정보를 더빙하여 원본 영상 콘텐츠를 사용자가 원하는 언어로 더빙된 영상 콘텐츠로 변환하게 된다.Therefore, the original video content is converted into video content dubbed in a language desired by the user by finally dubbing the translated audio information into the video information.

한편, 본 발명의 다른 실시 예로, 도 6 및 도 7에 도시된 바와 같이, 영상 콘텐츠에서 음성 정보를 추출하는 음성 추출 단계(S100)와 상기 음성 추출 단계(S100)에서 추출된 음성을 원어 텍스트로 변환하는 음성 인식 단계(S200)와 상기 음성 인식 단계(S200)에서 추출된 원어 텍스트 정보를 선택된 언어로 번역하는 번역 단계(S300)와, 상기 번역 단계(S300)에서 번역된 텍스트를 음성으로 변환하는 음성 변환 단계(S400)와 상기 음성 변환 단계(S400)에서 도출된 음성 정보를 원본 영상 콘텐츠에 합치는 더빙 단계(S500)와 학습단계(S600)로 이루어진다.On the other hand, in another embodiment of the present invention, as shown in FIGS. 6 and 7 , the audio extracted in the audio extraction step ( S100 ) of extracting audio information from the video content and the audio extracted in the audio extraction step ( S100 ) is converted to original text. A speech recognition step (S200) of converting and a translation step (S300) of translating the original text information extracted in the speech recognition step (S200) into a selected language, and converting the text translated in the translation step (S300) into speech It consists of a dubbing step (S500) and a learning step (S600) of combining the audio information derived in the audio conversion step (S400) and the audio conversion step (S400) with the original video content.

여기서, 상기 음성 인식 단계(S200)에서는 도출된 원어 텍스트를 상기 서버(100)에 구비되는 수어 모듈(190)을 통하여 원어의 수어로 변환하는 수어 생성 과정(S210)을 더 수행하게 되며, 상기 번역 단계(S300)에서는 번역된 텍스트를 상기 서버(100)에 구비되는 수어 모듈(190)을 통하여 선택된 언어의 수어로 변환하는 수어 번역 과정(S310)을 더 수행하게 된다.Here, in the speech recognition step (S200), a sign language generation process (S210) of converting the derived original text into a sign language of the original language through the sign language module 190 provided in the server 100 is further performed, and the translation In step S300, a sign language translation process (S310) of converting the translated text into a sign language of the selected language through the sign language module 190 provided in the server 100 is further performed.

이렇게 수어를 텍스트로 변환하거나 텍스트를 수어로 변환하는 기술은 이미 공지된 사항이므로 별도의 설명은 생략하도록 한다.Since the technology for converting sign language into text or text into sign language is already known, a separate description thereof will be omitted.

또한, 상기 더빙 단계(S500)는 영상 콘텐츠에서 원어 음성 정보를 삭제하고, 상기 음성 변환 단계(S400)에서 생성된 번역 음성 정보를 시작 및 끝나는 지점이 맞도록 영상 정보에 합치며, 상기 영상 정보에 상기 원어 텍스트, 번역된 텍스트, 원어 수어 및 번역된 수어 정보를 더 포함시키게 된다.In addition, the dubbing step (S500) deletes the original audio information from the video content, combines the translated audio information generated in the audio conversion step (S400) with the video information so that the start and end points match, and the video information The original text, translated text, original sign language, and translated sign language information are further included.

그래서, 사용자는 상기 서버(100)로부터 수신한 더빙된 영상 콘텐츠를 사용자 단말기(200)를 통하여 출력할 때, 원어 텍스트, 번역 텍스트, 원어 수어 및 번역 수어 중 어느 하나 이상을 같이 출력하도록 하여 다양한 방식으로 영상 콘텐츠를 즐길 수 있게 된다.Therefore, when the user outputs the dubbed video content received from the server 100 through the user terminal 200, the user outputs at least one of the original text, the translated text, the original sign language, and the translated sign language in various ways. to enjoy video content.

그리고, 전술한 바와 같이 상기 더빙 단계(S500) 이후에 외국어 또는 수어를 학습하기 위한 학습단계(S600)가 더 수행되는데, 상기 학습단계(S600)는 구간 반복 학습 과정(S610)과 비교 학습 과정(S620)으로 이루어지고, 사용자는 구간 반복 학습 과정(S610)과 비교 학습 과정(S620) 중 어느 하나를 선택하여 수행하게 된다.And, as described above, after the dubbing step (S500), a learning step (S600) for learning a foreign language or sign language is further performed, and the learning step (S600) is a section repetition learning process (S610) and a comparative learning process ( S620), and the user selects and performs either the section iterative learning process (S610) and the comparative learning process (S620).

여기서, 상기 구간 반복 학습 과정(S610)은 상기 더빙 단계(S500)를 통하여 도출된 영상 콘텐츠에서 사용자에 의해 선택된 구간을 반복 출력하고, 사용자의 설정에 따라 원어 텍스트, 번역된 텍스트, 원어 수어 및 번역된 수어 정보 중에서 어느 하나 이상을 출력하도록 한다.Here, the section repetition learning process (S610) repeatedly outputs the section selected by the user from the video content derived through the dubbing step (S500), and according to the user's settings, the original text, the translated text, the original sign language and the translation Output any one or more of the signed sign language information.

이때, 상기 구간 반복 학습 과정(S610)은 상기 서버(100)와 연동된 상태로 수행될 수도 있지만, 전술한 바와 같이 사용자 단말기(200)에서 더빙된 영상 콘텐츠를 플레이하는 과정에서 사용자에 의해 선택된 구간을 선택된 횟수 만큼 반복하여 플레이하도록 한다.In this case, the section repetition learning process ( S610 ) may be performed while interworking with the server 100 , but as described above, the section selected by the user in the process of playing the dubbed video content in the user terminal 200 . to play repeatedly for the selected number of times.

그래서, 사용자가 외국어, 원어 수어, 번역된 수어를 용이하게 학습할 수 있게 된다.Thus, the user can easily learn a foreign language, a sign language in the original language, and a translated sign language.

또한, 상기 구간 반복 학습 과정(S610)은 서버(100)와 연동되지 않은 상태의 사용자 단말기(200)만으로 수행할 수 있지만, 상기 비교 학습 과정(S620)은 상기 사용자 단말기(200)와 서버(100)가 연동된 상태에서만 수행될 수 있다.In addition, although the section iterative learning process (S610) can be performed only with the user terminal 200 in a state that is not interlocked with the server 100, the comparative learning process (S620) is performed between the user terminal 200 and the server 100 ) can be performed only in the interlocked state.

여기서, 상기 비교 학습 과정(S620)은 사용자의 수어 재현 영상에서 감지한 수어를 원어 텍스트로 변환하는 수어 감지 과정(S621)과 원어 텍스트를 선택된 언어의 텍스트로 번역하는 번역 과정(S622)과 원어 텍스트를 표준 원어 수어로 변환하는 표준 수어 변환 과정(S623)과 사용자의 수어 재현 영상에 원어 텍스트, 번역된 텍스트 및 표준 원어 수어를 동시에 출력하는 비교 출력 과정(S624)으로 이루어진다.Here, the comparison learning process ( S620 ) includes a sign language detection process ( S621 ) of converting a sign language detected in the user's sign language reproduction image into original text, a translation process ( S622 ) of translating the original text into text of the selected language, and the original text text It consists of a standard sign language conversion process (S623) of converting , into a standard original sign language, and a comparison output process (S624) of simultaneously outputting the original text, the translated text, and the standard original sign language to the user's sign language reproduction image.

이때, 사용자가 수어를 재현하는 상황을 촬영한 수어 재현 영상은 상기 사용자 단말기(200)에 구비된 카메라(미도시)를 통하여 실시간으로 촬영하여 상기 서버(100)로 전송할 수도 있고, 미리 촬영된 영상을 서버(100)로 전송할 수도 있다.At this time, the sign language reproduction image in which the user reproduces the sign language may be captured in real time through a camera (not shown) provided in the user terminal 200 and transmitted to the server 100 , or a pre-recorded image may be transmitted to the server 100 .

그리고, 상기 수어 감지 과정(S621)에서는 상기 수어 모듈(190)을 통하여 수신된 수어 재현 영상을 분석하여 원어 텍스트로 변환하게 되고, 표준 수어 변환 과정(S623) 역시 상기 수어 모듈(190)을 통하여 원어 텍스트를 선택된 언어의 수어로 변환하게 된다.And, in the sign language detection process (S621), the sign language reproduction image received through the sign language module 190 is analyzed and converted into original text, and the standard sign language conversion process (S623) is also the original language through the sign language module 190. The text will be converted to the sign language of the selected language.

여기서, 상기 번역 과정(S622)은 전술한 번역 단계(S300)와 동일한 방식으로 진행되므로 별도의 설명은 생략하도록 한다.Here, since the translation process (S622) proceeds in the same manner as the above-described translation step (S300), a separate description will be omitted.

이때, 상기 비교 출력 과정(S624)은 전술한 과정을 거치면서 도출된 원어 텍스트, 번역된 텍스트 및 표준 원어 수어를 상기 더빙 모듈(150)을 통하여 수어 재현 영상에 합치는 과정을 거쳐 상기 사용자 단말기(200)로 전송되고, 상기 사용자 단말기(200)의 디스플레이(미도시)를 통하여 플레이되게 된다.In this case, the comparison output process (S624) is performed by merging the original text, the translated text, and the standard original sign language derived through the above-described process with the sign language reproduction image through the dubbing module 150, and the user terminal ( 200), and is played through a display (not shown) of the user terminal 200 .

그래서, 사용자는 자신이 재현한 수어와 표준 원어 수어를 비교할 수 있어 수어 구현에 어색한 점이 없는지를 확인하여 사용자가 수어를 보다 정확하게 교정할 수 있도록 한다.Therefore, the user can compare the sign language reproduced by the user with the standard original sign language, so that there is no awkwardness in the sign language implementation, so that the user can correct the sign language more accurately.

이상에서 본 발명의 바람직한 실시 예를 설명하였으나, 본 발명의 권리범위는 이에 한정되지 않으며, 본 발명의 실시 예와 실질적으로 균등한 범위에 있는 것까지 본 발명의 권리 범위가 미치는 것으로 본 발명의 정신을 벗어나지 않는 범위 내에서 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것이다.Although preferred embodiments of the present invention have been described above, the scope of the present invention is not limited thereto, and the scope of the present invention extends to those substantially equivalent to the embodiments of the present invention. Various modifications are possible by those of ordinary skill in the art to which the invention pertains without departing from the scope of the invention.

본 발명은 청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템에 관한 것으로서, 더욱 상세하게는 수어를 출력하도록 함으로써, 청각 장애인도 영상 콘텐츠를 즐길 수 있을 뿐만 아니라 일반인이 수어를 보다 용이하게 학습할 수 있으며 다른 언어로 더빙 시에도 영상의 입모양과 음성의 불일치를 최소화하여 영상을 자연스럽게 즐길 수 있도록 하는 청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템에 관한 것이다.The present invention relates to a system for automatic translation of video content for both the hearing impaired and the non-disabled, and more specifically, by outputting sign language, not only the hearing impaired can enjoy the video content, but also the general public can more easily learn sign language, The present invention relates to an automatic translation system for video content for the hearing impaired and non-disabled that enables users to enjoy video naturally by minimizing the mismatch between the mouth shape and the voice of the video even when dubbing in another language.

100 : 서버 110 : 분석모듈
120 : 음성 인식 모듈 130 : 번역 모듈
140 : 음성 변환 모듈 150 : 더빙 모듈
160 : 음성 데이터 베이스 170 : 통신 모듈
180 : 저장부 200 : 사용자 단말기
100: server 110: analysis module
120: speech recognition module 130: translation module
140: voice conversion module 150: dubbing module
160: voice database 170: communication module
180: storage unit 200: user terminal

Claims (11)

영상 콘텐츠에서 음성 정보를 추출하는 음성 추출 단계와,
상기 음성 추출 단계에서 추출된 음성을 원어 텍스트로 변환하고 원어 텍스트를 원어 수어로 변환하는 음성 인식 단계와,
상기 음성 인식 단계에서 추출된 원어 텍스트 정보를 선택된 언어로 번역하고 번역된 텍스트를 선택된 언어의 수어로 변환하는 번역 단계로 이루어지고,
상기 번역 단계에서 번역된 텍스트를 음성으로 변환하는 음성 변환 단계와, 상기 음성 변환 단계에서 도출된 음성 정보를 원본 영상 콘텐츠에 합치는 더빙 단계를 더 포함하며,
상기 음성 인식 단계에서는 각 문장의 시작 및 끝나는 지점을 확인하고, 해당 문장의 전체 음절을 도출하며,
상기 번역 단계에서는 다양한 표현으로 다수의 번역문을 생성하고,
다수의 번역문의 음절과 상기 원어 문장의 음절을 비교하여 음절 수의 차이가 소정 범위 이내인 번역물을 선택하는 것을 특징으로 하는 청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템.
An audio extraction step of extracting audio information from video content;
A voice recognition step of converting the voice extracted in the voice extraction step into original text and converting the original text into sign language;
a translation step of translating the original text information extracted in the speech recognition step into a selected language and converting the translated text into a sign language of the selected language,
A voice conversion step of converting the text translated in the translation step into speech, and a dubbing step of merging the audio information derived in the speech conversion step with the original video content,
In the speech recognition step, the starting and ending points of each sentence are identified, and the entire syllable of the corresponding sentence is derived,
In the translation step, a plurality of translations are generated with various expressions,
A system for automatic translation of video content for the hearing impaired and non-disabled, characterized in that by comparing the syllables of a plurality of translations with the syllables of the original sentence, a translation having a difference in the number of syllables is selected within a predetermined range.
삭제delete 삭제delete 제1항에 있어서,
상기 음성 인식 단계에서는 동영상 콘텐츠에 등장하는 캐릭터의 수를 확인하는 것을 특징으로 하는 청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템.
According to claim 1,
In the voice recognition step, the automatic translation system for video content for the hearing impaired and non-disabled, characterized in that the number of characters appearing in the video content is checked.
삭제delete 제4항에 있어서,
상기 음성 변환 단계에서는 각 문장의 시작 및 끝나는 점을 통하여 원어 문장의 출력 시간을 확인하고,
변환된 음성 정보의 출력 시간이 원어 문장의 출력 시간과 동일한 시간이 되도록 음성의 속도를 조절하는 것을 특징으로 하는 청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템.
5. The method of claim 4,
In the speech conversion step, the output time of the original sentence is checked through the starting and ending points of each sentence,
A combined video content automatic translation system for the hearing impaired and non-disabled, characterized in that the audio speed is adjusted so that the output time of the converted voice information is the same as the output time of the original sentence.
제6항에 있어서,
상기 음성 변환 단계에서는 음성 데이터 베이스에 저장된 음성 정보에서 각 캐릭터에 따라 다른 특징의 음성을 매칭하는 것을 특징으로 하는 청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템.
7. The method of claim 6,
In the voice conversion step, the automatic translation system for video content for the hearing impaired and non-disabled, characterized in that the voices of different characteristics according to each character are matched in the voice information stored in the voice database.
제4항에 있어서,
상기 더빙 단계는 영상 콘텐츠에서 원어 음성 정보를 삭제하고,
상기 음성 변환 단계에서 생성된 번역 음성 정보를 시작 및 끝나는 지점이 맞도록 영상 정보에 합치며,
상기 영상 정보에 상기 원어 텍스트, 번역된 텍스트, 원어 수어 및 번역된 수어 정보를 더 포함시키는 것을 특징으로 하는 청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템.
5. The method of claim 4,
The dubbing step deletes the original language audio information from the video content,
The translated voice information generated in the voice conversion step is combined with the video information so that the starting and ending points are correct,
The system for automatic translation of video content for the hearing impaired and non-disabled, characterized in that the image information further includes the original text, the translated text, the original sign language, and the translated sign language information.
제8항에 있어서,
상기 더빙 단계 이후에 외국어 또는 수어를 학습하기 위한 학습단계가 더 수행되되,
상기 학습단계는 사용자가 선택하여 수행하는 구간 반복 학습 과정 또는 비교 학습 과정으로 이루어지는 것을 특징으로 하는 청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템.
9. The method of claim 8,
A learning step for learning a foreign language or sign language is further performed after the dubbing step,
The learning step is an automatic translation system for video content for the hearing impaired and non-disabled, characterized in that it consists of a section repeat learning process or a comparative learning process that is selected and performed by the user.
제9항에 있어서,
상기 구간 반복 학습 과정은 상기 더빙 단계를 통하여 도출된 영상 콘텐츠에서 사용자에 의해 선택된 구간을 반복 출력하고,
사용자의 설정에 따라 원어 텍스트, 번역된 텍스트, 원어 수어 및 번역된 수어 정보 중에서 어느 하나 이상을 출력하도록 하는 것을 특징으로 하는 청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템.
10. The method of claim 9,
The section iterative learning process repeatedly outputs the section selected by the user from the video content derived through the dubbing step,
A combined image content automatic translation system for the hearing impaired and non-disabled, characterized in that one or more of the original text, the translated text, the original sign language, and the translated sign language information are output according to the user's setting.
제9항에 있어서,
상기 비교 학습 과정은 사용자의 수어 재현 영상에서 감지한 수어를 원어 텍스트로 변환하는 수어 감지 과정과,
원어 텍스트를 선택된 언어의 텍스트로 번역하는 번역 과정과,
원어 텍스트를 표준 원어 수어로 변환하는 표준 수어 변환 과정과,
사용자의 수어 재현 영상에 원어 텍스트, 번역된 텍스트 및 표준 원어 수어를 동시에 출력하는 비교 출력 과정으로 이루어지는 것을 특징으로 하는 청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템.
10. The method of claim 9,
The comparative learning process includes a sign language detection process of converting the sign language detected in the user's sign language reproduction image into original text;
a translation process of translating the original text into text in the selected language;
A standard sign language conversion process for converting the original text into a standard original sign language;
A combined image content automatic translation system for the hearing impaired and non-disabled, characterized in that it comprises a comparative output process of simultaneously outputting the original text, the translated text, and the standard original sign language to the sign language reproduction image of the user.
KR1020220060224A 2022-05-17 2022-05-17 automatic translation system of video contents for hearing-impaired and non-disabled KR102463283B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220060224A KR102463283B1 (en) 2022-05-17 2022-05-17 automatic translation system of video contents for hearing-impaired and non-disabled

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220060224A KR102463283B1 (en) 2022-05-17 2022-05-17 automatic translation system of video contents for hearing-impaired and non-disabled

Publications (1)

Publication Number Publication Date
KR102463283B1 true KR102463283B1 (en) 2022-11-07

Family

ID=84043702

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220060224A KR102463283B1 (en) 2022-05-17 2022-05-17 automatic translation system of video contents for hearing-impaired and non-disabled

Country Status (1)

Country Link
KR (1) KR102463283B1 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160002081A (en) * 2014-06-30 2016-01-07 주식회사 써드아이 Apparatus and method for translating of sign language using speech recognition
KR101830908B1 (en) * 2017-08-08 2018-02-21 박현주 Smart glass system for hearing-impaired communication
KR102178176B1 (en) * 2019-12-09 2020-11-12 김경철 User terminal, video call apparatus, video call sysyem and method of controlling thereof
KR20210085938A (en) * 2019-12-31 2021-07-08 조용구 Sign language translation system and its control method that translates voice of video into 2D and 3D avatar and animation
KR102351400B1 (en) 2021-03-26 2022-01-13 이광선 service method of automatically generating subtitles of video contents
KR20220076651A (en) * 2020-12-01 2022-06-08 사단법인 스마트미디어인재개발원 Gesture recognition based sign language web service

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160002081A (en) * 2014-06-30 2016-01-07 주식회사 써드아이 Apparatus and method for translating of sign language using speech recognition
KR101830908B1 (en) * 2017-08-08 2018-02-21 박현주 Smart glass system for hearing-impaired communication
KR102178176B1 (en) * 2019-12-09 2020-11-12 김경철 User terminal, video call apparatus, video call sysyem and method of controlling thereof
KR20210085938A (en) * 2019-12-31 2021-07-08 조용구 Sign language translation system and its control method that translates voice of video into 2D and 3D avatar and animation
KR20220076651A (en) * 2020-12-01 2022-06-08 사단법인 스마트미디어인재개발원 Gesture recognition based sign language web service
KR102351400B1 (en) 2021-03-26 2022-01-13 이광선 service method of automatically generating subtitles of video contents

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
공개특허공보 제10-2021-0085938호(2021.7.8. 공개) 1부.*
등록특허공보 제10-2178176호(2020.11.12. 공고) 1부.*

Similar Documents

Publication Publication Date Title
US9552807B2 (en) Method, apparatus and system for regenerating voice intonation in automatically dubbed videos
US9318113B2 (en) Method and apparatus for conducting synthesized, semi-scripted, improvisational conversations
US20080195386A1 (en) Method and a Device For Performing an Automatic Dubbing on a Multimedia Signal
US11942093B2 (en) System and method for simultaneous multilingual dubbing of video-audio programs
USRE42647E1 (en) Text-to speech conversion system for synchronizing between synthesized speech and a moving picture in a multimedia environment and a method of the same
CN111462553B (en) Language learning method and system based on video dubbing and sound correction training
JP2008500573A (en) Method and system for changing messages
KR102044689B1 (en) System and method for creating broadcast subtitle
CN110867177A (en) Voice playing system with selectable timbre, playing method thereof and readable recording medium
US20170337913A1 (en) Apparatus and method for generating visual content from an audio signal
Supardi et al. Audio-visual translation techniques: Subtitling and dubbing of movie soundtrack in Frozen: Let it go
CN105679120A (en) Method for making standard mandarin speech micro-courseware based on TTS technology
WO2020124754A1 (en) Multimedia file translation method and apparatus, and translation playback device
KR20110100649A (en) Method and apparatus for synthesizing speech
KR102463283B1 (en) automatic translation system of video contents for hearing-impaired and non-disabled
Georgakopoulou Reduction levels in subtitling: DVD subtitling: a compromise of trends
KR101618777B1 (en) A server and method for extracting text after uploading a file to synchronize between video and audio
KR101920653B1 (en) Method and program for edcating language by making comparison sound
KR20030079497A (en) service method of language study
KR102546559B1 (en) translation and dubbing system for video contents
Ranzato et al. The portrayal of real-life people in audiovisual translation
Lambourne Subtitle respeaking
Matamala Audio subtitling
WO2023167212A1 (en) Computer program, information processing method, and information processing device
JP2005309173A (en) Speech synthesis controller, method thereof and program thereof, and data generating device for speech synthesis

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant