KR20230107059A - 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법 - Google Patents

방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법 Download PDF

Info

Publication number
KR20230107059A
KR20230107059A KR1020220002987A KR20220002987A KR20230107059A KR 20230107059 A KR20230107059 A KR 20230107059A KR 1020220002987 A KR1020220002987 A KR 1020220002987A KR 20220002987 A KR20220002987 A KR 20220002987A KR 20230107059 A KR20230107059 A KR 20230107059A
Authority
KR
South Korea
Prior art keywords
data
translation
text
broadcast
video
Prior art date
Application number
KR1020220002987A
Other languages
English (en)
Inventor
김경철
Original Assignee
김경철
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김경철 filed Critical 김경철
Priority to KR1020220002987A priority Critical patent/KR20230107059A/ko
Publication of KR20230107059A publication Critical patent/KR20230107059A/ko
Priority to KR1020240022327A priority patent/KR20240026475A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8166Monomedia components thereof involving executable data, e.g. software
    • H04N21/8173End-user applications, e.g. Web browser, game

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법에 관한 것으로, 보다 자세하게는 방송인 단말이 송출하는 방송을 영상 데이터와 음성데이터로 분리하여 분리된 음성 데이터를 텍스트 데이터로 변환하고 변환된 텍스트 데이터를 번역 서버가 사용자 설정정보를 기반으로 번역하여 사용자에게 제공하고 제공된 텍스트 번역데이터를 자동으로 읽어주어 음성 데이터로 변환시켜 사용자에게 번역저작물을 제공해주는 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법에 관한 것이다.

Description

방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법{BROADCAST TRANSLATION APPLICATION SERVICE PROVIDING SYSTEM AND METHOD FOR PROVIDING SAME}
본 발명은 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법에 관한 것으로, 보다 자세하게는 방송인 단말이 송출하는 방송을 영상 데이터와 음성데이터로 분리하여 분리된 음성 데이터를 텍스트 데이터로 변환하고 변환된 텍스트 데이터를 번역 서버가 사용자 설정정보를 기반으로 번역하여 사용자에게 제공하고 제공된 텍스트 번역데이터를 자동으로 읽어주어 음성 데이터로 변환시켜 사용자에게 번역저작물을 제공해주는 방송 번역 애플리케이션 서비스 제공 서비스 시스템 및 이를 제공하는 방법에 관한 것이다.
IT 기술의 발달에 따라 다양한 종류의 방송 컨텐츠 전송/공유가 사용자간에 손쉽게 이루어지고 있다. 특히, 글로벌 트렌드에 맞추어 사용자들은 국내 방송 컨텐츠 뿐만 아니라, 다양한 언어로 제작된 해외 방송 컨텐츠를 전송/공유하고 있다.
이렇게 많은 방송 컨텐츠가 제작 되었음에도 불구하고 모든 방송 컨텐츠에 번역 및 더빙이 이루어지고 있지 않아, 방송 컨텐츠를 접하는 사용자에게 불편함을 안겨주었으며 이에 사용자의 편의성을 증대시키고자 실시간 통역 및 번역 서비스를 제공하는 방법에 대한 연구가 필요한 실정이다.
본 발명이 해결하고자 하는 기술적 과제는 방송을 송출하는 방송인 단말이 송출하는 방송을 영상 데이터와 음성 데이터로 분리하여 분리된 음성 데이터를 텍스트 데이터로 변환하고 변환된 텍스트 데이터를 본 발명의 번역 서버가 사용자 설정정보를 기반으로 번역하여 사용자에게 제공하며, 제공된 텍스트 번역데이터를 사용자 단말에 기 설치된 애플리케이션이 자동으로 읽어주어 음성 번역데이터로 변환시켜 사용자에게 번역저작물을 제공함에 그 목적이 있다.
본 발명이 해결하고자 하는 또 다른 기술적 과제는 방송인 단말로부터 수신된 텍스트 데이터를 다국어로 우선적으로 번역하여 텍스트 번역데이터를 생성하고 다국어로 번역된 텍스트 번역데이터 중 사용자 설정정보에 설정된 언어의 텍스트 번역데이터를 추출하여 사용자 단말에 전송하여 복수의 사용자들이 각각 설정한 사용자 설정정보에 따라 번역된 언어의 영상들을 제공할 수 있는 것에 그 목적이 있다.
본 발명이 해결하고자 하는 또 다른 기술적 과제는 방송인 단말이 송출하는 음성데이터를 번역해줄 뿐만 아니라 방송에 편집 또는 삽입된 자막 데이터를 실시간으로 번역해주는 서비스를 제공함에 그 목적이 있다.
본 발명이 해결하고자 하는 또 다른 기술적 과제는 서로 다른 언어를 구사하는 복수의 방송인이 방송을 송출하더라도 상기 복수의 방송인이 송출하는 언어를 감지하고 감지된 언어를 구분하여 이를 실시간으로 번역하여 사용자에게 번역서비스를 제공함에 그 목적이 있다.
본 발명이 해결하고자 하는 또 다른 기술적 과제는 방송인이 송출한 방송을 저장하고 저장한 방송들의 데이터 베이스를 구축하여 실시간으로 방송이 송출된 이후에도 사용자가 언제 어디서든 과거의 방송을 선택하여 시청할 수 있으며, 사용자가 선택한 과거의 방송에도 번역 서비스를 제공할 수 있는 것에 그 목적이 있다.
본 발명이 해결하고자 하는 또 다른 기술적 과제는 서로 다른 언어를 구사하는 복수의 방송인이 서로의 방송을 시청할 때에도 번역 서버가 각각의 방송인이 설정한 사용자 설정정보에 따라 번역해주어 구사하는 언어가 다르더라도 의사소통이 가능할 수 있도록 번역서비스를 제공하는 것에 그 목적이 있다.
한편, 본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
위와 같은 문제점을 해결하기 위하여, 본 발명의 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 사용자 설정정보를 설정하고 상기 사용자 설정정보를 번역 서버에 전송하는 단계, 영상 서버로부터 영상 데이터를 전송 받아 영상데이터를 디스플레이 하는 단계, 텍스트 번역데이터와 상기 영상데이터의 싱크(sync)를 조절하는 단계 및 상기 텍스트 번역데이터를 음성 번역데이터로 변환하여 번역 저작물을 생성하는 단계를 포함할 수 있다.
또한, 상기 텍스트 번역데이터는 상기 번역서버가 상기 텍스트 데이터를 상기 사용자 설정정보를 기반으로 번역된 텍스트 데이터인 것을 특징으로 할 수 있다.
또한, 상기 텍스트 데이터는 상기 방송인 단말이 송출한 방송으로부터 분리된 영상 데이터 및 음성데이터 중 음성데이터를 텍스트형식으로 변환한 데이터인 것을 특징으로 할 수 있다.
또한, 상기 음성 데이터는 마이크 활성화 설정에 의하여 방송 송출이 승인 또는 차단될 수 있는 것을 특징으로 할 수 있다.
또한, 상기 영상 서버와 상기 번역 서버가 합쳐진 영상번역서버는 상기 영상 서버와 상기 번역 서버의 역할을 대신하여 수행할 수 있는 것을 특징으로 할 수 있다.
또한, 상기 영상번역서버는 상기 방송인 단말이 방송을 송출하면 상기 송출된 방송을 영상 데이터와 음성 데이터로 분리하고, 상기 영상 데이터를 사용자에게 전송하며, 상기 분리된 음성 데이터를 텍스트 데이터로 변환하고, 상기 텍스트 데이터를 상기 사용자 설정정보를 기반으로 번역하여 텍스트 번역데이터를 생성하며, 상기 텍스트 번역데이터를 상기 사용자 단말에 전송하는 것을 특징으로 할 수 있다.
상기와 같은 본 발명에 따르면, 본 발명의 번역 시스템이 방송인이 송출한 방송을 영상 데이터와 음성 데이터로 분리하고 분리된 음성 데이터를 텍스트 데이터로 번역하고 번역된 텍스트 번역데이터를 자동으로 읽어 사용자에게 제공함으로써, 사용자가 해외의 다양한 방송컨텐츠를 언어의 장벽 없이 간편하게 즐길 수 있으며, 나아가 글로벌 시대에 다시 한번 발돋움할 수 있는 기틀을 제공할 수 있는 효과가 있다.
또한, 본 발명의 번역 시스템이 방송인 단말로부터 수신된 텍스트 데이터를 다국어로 우선적으로 번역하여 텍스트 번역데이터를 생성하고 다국어로 번역된 텍스트 번역데이터 중 사용자 설정정보에 설정된 언어의 텍스트 번역데이터를 추출하는 방법을 채택함으로써, 수 많은 사용자들이 각자 원하는 언어의 번역을 설정하더라도 일률적으로 또는 신속하게 사용자들에게 번역서비스를 제공할 수 있는 효과가 있다.
또한, 본 발명의 번역시스템은 서로 다른 언어를 구사하는 복수의 방송인이 방송을 송출하더라도 상기 복수의 방송인이 송출하는 언어를 감지하고 감지된 언어를 구분하여 이를 실시간으로 번역해줌으로써, 다양한 언어가 실시간으로 방송에 송출된다 하더라도 사용자가 방송을 이해하는 것에 어려움이 없도록 유도하는 효과가 있다.
또한, 본 발명의 번역 시스템은 방송인이 송출한 방송을 저장하고 저장한 방송들의 데이터 베이스를 구축하여 실시간으로 방송이 송출된 이후에도 사용자가 언제 어디서든 과거의 방송을 선택하여 시청할 수 있으며, 사용자가 선택한 과거의 방송에도 번역 서비스를 제공해줌으로써, 사용자가 언제 어디서든 번역된 라디오 방송 컨텐츠를 즐길 수 있도록 하는 효과가 있다.
또한, 본 발명의 번역 시스템은 서로 다른 언어를 구사하는 복수의 방송인이 서로의 방송을 시청할 때에도 번역 서버가 각각의 방송인이 설정한 사용자 설정정보에 따라 번역해줌으로써, 방송인들 간의 화상 통화, 화상 방송에서도 번역서비스가 이루어져 서로 다른 언어를 구사하더라도 의사소통이 가능할 수 있도록 하는 효과가 있다.
본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해 될 수 있을 것이다.
도 1은 본 발명의 제 1 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법을 구체적으로 나타낸 도면이다.
도 2는 본 발명의 제 2 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법을 구체적으로 나타낸 도면이다
도 3은 본 발명의 제 3 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법을 구체적으로 나타낸 도면이다
도 4는 본 발명의 제 4 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법을 구체적으로 나타낸 도면이다
도5은 본 발명의 제 5실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법을 구체적으로 나타낸 도면이다
도 6은 본 발명의 제 6 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법을 구체적으로 나타낸 도면이다
도 7은 본 발명의 제 7 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법을 구체적으로 나타낸 도면이다
도8은 본 발명의 제 8 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법을 구체적으로 나타낸 도면이다
도 9는 본 발명의 제 9 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법을 구체적으로 나타낸 도면이다
도 10은 본 발명의 제 10 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법을 구체적으로 나타낸 도면이다
도 11은 본 발명의 제 11 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법을 구체적으로 나타낸 도면이다
도 12는 본 발명의 제 12실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법을 구체적으로 나타낸 도면이다.
도 13은 본 발명의 제 13실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법을 구체적으로 나타낸 도면이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시 예에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시 예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.
"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
본 명세서에서 사용되는 "포함한다 (Comprises)" 및/또는 "포함하는 (Comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
한편, 본 발명은 상술한 특정의 실시 예 및 응용 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 구별되어 이해되어서는 안 될 것이다.
본 발명의 방송 번역 애플리케이션 서비스 제공 시스템은 방송을 진행하는 방송인이 송출하는 영상 또는 음성 및 자막을 번역해주어 사용자에게 번역된 영상 또는 음성 및 자막을 제공하는 시스템이며, 이러한 번역 시스템을 사용자에게 제공하는 방법을 이하 자세히 설명하도록 할 것이며, 자세한 설명을 하기 이전에 설명의 이해를 돕고자 방송 번역 애플리케이션 서비스 제공 시스템에 자주 사용되는 용어들을 먼저 살펴보도록 한다.
[번역 서버(100)]
번역 서버(100)는 방송 번역 애플리케이션 서비스 제공 시스템에서 번역 서비스를 제공하는 서버이다. 이하, 이러한 방송 번역 애플리케이션 서비스 제공 시스템에서 번역 서비스를 제공하는 서버를 번역 서버(100)로 약칭하여 표현하도록 한다.
[방송인 단말(10) 또는 사용자 단말(20)]
방송인 단말(10)은 방송을 진행하는 방송인의 단말기이며, 방송을 진행하는 방송인은 일반적인 공중파 또는 케이블 방송을 진행하는 방송인의 단말기일 수 있으며, 1인 방송플랫폼을 통하여 방송을 진행하는 방송인의 단말기일 수도 있다. 다시 말해, 방송인 단말(10)은 공중파 TV나 케이블 방송에서 방송을 진행하는 방송인의 단말뿐만 아니라, 어떠한 방법으로도 영상 또는 음성 및 자막 방송을 할 수 있다면 누구든지 방송인이 될 수 있으며, 이러한 방송인의 단말기도 방송인 단말(10)이 될 수 있다.
방송인 단말(10)은 방송인이 송출하는 단말기역할을 수행하는 것뿐만 아니라 영상 데이터 및 음성 데이터를 분리하고 분리된 음성 데이터를 텍스트 데이터로 변환하는 역할을 수행한다. 이렇게 변환된 텍스트 데이터는 이후에 번역 서버(100)로부터 번역되어 사용자에게 제공된다.
한편, 사용자 단말(20)은 방송을 시청 및 청취하는 사용자의 단말이다. 추가로, 사용자 단말(20)은 번역 서버(100)가 번역 서비스를 제공하는 애플리케이션이 기 설치되어 있는 단말이라는 전제하에 설명하도록 한다.
[영상 서버(200)]
영상 서버(200)는 방송인 단말(10)로부터 분리된 영상 데이터와 자막 데이터를 수신하고, 이를 관리 저장하는 역할을 수행하며 사용자에게 수신된 영상 데이터와 자막 데이터를 제공하는 역할을 수행한다. 구체적으로, 영상 서버(200)는 영상 데이터와 자막 데이터를 관리하고 저장할 뿐만 아니라 실시간으로 사용자에게 제공하거나, 사용자로부터 요청을 받아 기 저장한 영상 데이터와 자막 데이터를 사용자에게 제공해줄 수 있다. 참고로, 영상 서버(200)는 수신 받은 영상데이터에 직접 자막 데이터를 삽입 또는 편집하는 서버로서의 역할도 수행할 수 있다.
[번역 애플리케이션]
번역 애플리케이션은 앞서 언급한 바와 같이 번역 서버(100)가 번역서비스를 제공하기 위한 애플리케이션으로, 간단하게 말하자면 번역 애플리케이션은 사용자로부터 사용자 설정정보를 입력 받는 역할을 수행하며, 번역 서버(100)가 사용자 단말(20)에 번역데이터를 전송하면 이를 사용자 단말(20)에 디스플레이 하는 역할도 수행한다.
[사용자 설정정보]
사용자 설정정보는 번역 애플리케이션의 인터페이스를 통하여 사용자가 선택할 수 있는 정보로서, 사용자가 번역 서버(100)로 하여금 번역 받게 되는 언어정보, 음성번역 형태의 더빙 또는 텍스트번역 형태의 자막과 같은 번역된 데이터의 형태에 대한 정보일 수 있으며, 추가로, 사용자의 성별, 관심사, 언어능력, 난이도 등이 포함될 수도 있다.
[영상, 음성, 텍스트 데이터]
음성 또는 텍스트 데이터는 용어 그대로 소리, 음성의 데이터를 음성데이터라고 하고, 문자 또는 자막 등을 텍스트 데이터라고 한다. 이 두 데이터는 번역되기 이전의 원천적인 데이터이다. 본 발명에서는 주로 방송인이 송출할 때에 발생 및 생성되는 데이터로 표현된다.
추가로, 방송인 단말(10) 또는 사용자 단말(20)로부터 송출되는 음성 데이터는 마이크 권한 설정에 의하여 송출이 승인 또는 차단될 수 있다. 구체적인 예로, 복수의 방송인이 참여한 방송에서 방송인들이 각각의 방송인 단말(10)을 가지고 있다고 가정하였을 때에는 상기 방송을 진행하는 진행자가 방송을 참여한 방송인 단말(10)의 마이크 권한을 승인하거나 차단하여 승인된 방송인 단말(10)만이 음성 데이터를 송출할 수 있도록 할 수 있으며, 누군가가 마이크 권한을 승인하거나 차단할 수 있는 방법 말고도 방송을 송출하는 방송인이 직접 본인의 마이크 권한을 승인하거나 차단할 수 있다.
나아가, 이러한 마이크 권한 설정방법은 어떤 방송인이 음성데이터를 송출하는지를 확인하거나 구분할 수 있어, 복수의 방송인이 서로 다른 언어를 구사하더라도 번역 서버(100)가 서로 다른 언어를 구분하고 번역하는 데에 용이하게 활용될 수 있다.
[텍스트 번역데이터 및 자막 번역데이터]
텍스트 번역데이터는 상기 방송인이 송출한 원천적인 음성 데이터 가 방송인 단말(10)로부터 분리되고, 번역 서버(100)가 분리된 텍스트 데이터를 사용자 설정정보를 기반으로 번역한 데이터이다. 한편, 자막 번역데이터는 영상에서 같이 제공되는 자막의 텍스트를 번역한 데이터이다. 이러한 자막 번역데이터는 텍스트 형태 데이터인 것이 텍스트 번역데이터와 같지만, 이후에 텍스트 번역데이터는 사용자 단말(20)로부터 음성데이터로 변환되어 사용자에게 제공되고, 자막 번역데이터는 텍스트 그대로 번역된 형태로 사용자에게 제공되므로, 이러한 역할의 차이를 토대로 양 자를 구분하여 표현하도록 한다.
<제 1 실시 예>
도 1은 본 발명의 제 1 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법을 구체적으로 나타낸 도면이다.
본 발명의 제 1 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 방송인이 하나의 언어만 사용하고 라디오 방송을 청취 또는 시청하는 사용자가 방송인이 사용하는 언어 이외의 다른 언어를 선택하였을 때에 상황을 나타낸 것이며 이하 자세히 설명하도록 한다.
먼저, 사용자 단말(10)이 번역 애플리케이션을 통하여 사용자 설정정보를 입력하고 번역 서버(100)에 사용자 설정정보를 전송하는 단계(S101)에서 시작한다. 여기서, 사용자 설정정보는 앞서 언급한 바와 같이 번역을 받게 될 언어, 사용자의 성별, 관심사, 언어능력, 난이도 등을 포함한다. 참고로, 사용자 설정정보는 언제든지 변경 및 수정이 가능하고, 번역 서버(100)는 변경된 사용자 설정정보를 통하여 실시간으로 번역 서비스를 제공할 수 있다.
이어서, 사용자 단말(20)이 사용자 설정정보를 입력하고 번역 서버(100)에 사용자 설정정보를 전송한 경우(S101), 방송인 단말(10)은 방송을 송출한다(S102). 여기서, 방송을 송출한다는 표현은 방송인 단말(10)의 촬영장치로부터 촬영된 영상데이터, 방송인이 말을 하여 생성된 음성데이터, 부가적으로 영상물에 삽입된 자막 데이터가 통신망을 통하여 브로드캐스팅(Broadcasting)되는 것을 의미한다.
방송인 단말(10)이 방송을 송출한 경우(S102), 방송인 단말(10)은 송출되는 방송을 영상 데이터와 음성 데이터로 분리한다(S103).
방송인 단말(10)이 송출되는 방송을 영상 데이터와 음성 데이터로 분리 한 경우(S103), 방송인 단말(10)은 분리된 영상 데이터를 영상 서버(200)에 전송한다(S104).
방송인 단말(10)이 분리된 영상 데이터를 영상 서버(200)에 전송 한 경우(S104), 영상 서버(200)는 해당 영상을 선택한 사용자 단말(20)에게 영상 데이터를 전송한다(S105).
영상 서버(200)가 해당 영상을 선택한 사용자 단말(200)에게 영상 데이터를 전송 한 경우(S105), 사용자 단말(20)은 전송 받은 영상 데이터를 디스플레이한다(S106).
사용자 단말(20)이 전송 받은 영상 데이터를 디스플레이 한 경우(S106), 방송인 단말(10)은 S103단계에서 분리한 음성 데이터를 텍스트 데이터로 변환한다(S107).
방송인 단말(10)이 S103 단계에서 분리한 음성 데이터를 텍스트 데이터로 변환한 경우(S107), 방송인 단말(10)은 텍스트 데이터를 번역 서버(100)에 전송한다(S108).
방송인 단말(10)이 텍스트 데이터를 번역 서버(100)에 전송한 경우(S108), 번역 서버(100)는 전송 받은 텍스트 데이터를 사용자 설정정보를 기반으로 번역하여 텍스트 번역데이터를 생성한다(S109). 예를 들어, 방송인 단말(10)이 송출한 음성 데이터가 제 2언어이고 사용자 단말(20)이 사용자 설정정보로서 설정한 언어가 제 1 언어라면, 방송인 단말(10)은 제 2 언어의 음성 데이터를 제 2 언어 텍스트 데이터로 변환하고 변환된 제 2 언어 텍스트 데이터를 번역 서버(100)에게 전송하며 번역 서버(100)는 전송 받은 제 2 언어 텍스트 데이터를 사용자 설정정보(제 1언어)를 기반으로 상기 제 2 언어 텍스트 데이터를 번역하여 제 1언어의 텍스트 번역데이터를 생성한다.
번역 서버(100)가 전송 받은 텍스트 데이터를 사용자 설정정보를 기반으로 번역하여 텍스트 번역데이터를 생성한 경우(S109), 번역 서버(100)는 생성한 텍스트 번역데이터를 사용자 단말(20)에 전송한다(S110).
번역 서버(100)가 생성한 텍스트 번역데이터를 사용자 단말(20)에 전송 한 경우(S110), 사용자 단말(20)은 전송 받은 텍스트 번역데이터와 S106 단계에서 디스플레이한 영상 데이터의 싱크(Sync)를 조절한다(S111).
사용자 단말(20)이 전송 받은 텍스트 번역데이터와 S106 단계에서 디스플레이한 영상 데이터의 싱크(Sync)를 조절한 경우(S111), 텍스트 번역데이터를 음성 번역데이터로 변환하여 번역 저작물을 생성한다(S112). 여기서 번역 저작물은 방송인이 송출한 방송이 사용자가 선택한 언어로 번역되어 제작된 영상 저작물을 말하며, 다시 말해, 번역 저작물은 방송인 단말(10)이 영상 데이터와 음성 데이터를 분리하고 분리된 음성 데이터를 텍스트 데이터로 변환하며 번역 서버(100)가 상기 변환된 텍스트 데이터를 번역하여 텍스트 번역데이터를 생성하고 사용자 단말(20)이 텍스트 번역데이터를 음성 번역데이터로 변환하여, 이렇게 변환된 음성 번역데이터와 상기 영상데이터가 합쳐 제작한 영상 저작물을 말한다.
<제 2 실시 예>
도 2는 본 발명의 제 2 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법을 구체적으로 나타낸 도면이다.
본 발명의 제 2 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 본 발명의 제 1 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법의 S109단계(참고: 도 1)를 구체화 또는 세분화한 방법의 실시 예이다.
이에 따라, 본 발명의 제 2 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 번역 서버(100)가 번역하는 과정 단계 이전에 단계는 생략하고 S201단계부터 설명하도록 한다.
본 발명의 제 2 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 번역서버(100)가 텍스트 데이터를 전송 받은 경우(S108), 번역 서버(100)가 전송 받은 텍스트 데이터를 다국어로 번역하여 텍스트 번역데이터를 생성한다(S201). 여기서, 텍스트 데이터를 다국어로 번역하는 이유는 방송을 시청하는 사용자가 셀 수 없을 만큼 많고 이러한 사용자들이 선택한 언어로 일일이 번역하여 번역 서비스를 제공할 수 없으므로 일단, 텍스트 데이터를 다국어로 번역하고 이후에 사용자들이 선택한 언어로 각각 추출하여 텍스트 번역데이터를 제공하는 방법을 채택하기 위함이다.
번역 서버(100)가 전송 받은 텍스트 데이터를 다국어로 번역하여 텍스트 번역데이터를 생성한 경우(S201), 번역 서버(100)는 텍스트 번역데이터 중에서 사용자 설정정보에 설정된 텍스트 번역데이터를 추출한다(S202).
번역 서버(100)가 텍스트 번역데이터 중에서 사용자 설정정보에 설정된 텍스트 번역데이터를 추출한 경우(S202), 번역 서버(100)는 추출된 텍스트 번역데이터를 사용자 단말(20)에 전송한다(S203).
번역 서버(100)가 추출된 텍스트 번역데이터를 사용자 단말(20)에 전송한 경우(S203), 사용자 단말(20)은 텍스트 번역데이터와 영상 데이터의 싱크(Sync)를 조절한다(S204).
사용자 단말(20)이 텍스트 번역데이터와 영상 데이터의 싱크(Sync)를 조절한 경우(S204), 사용자 단말(20)은 텍스트 번역데이터를 음성 번역데이터로 변환하여 번역 저작물을 생성한다(S205).
<제 3 실시 예>
도 3은 본 발명의 제 3 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법을 구체적으로 나타낸 도면이다.
본 발명의 제 3 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 방송인 단말(10)이 송출하는 방송에서 비추어지는 텍스트인 자막 데이터가 번역 서버(100)로부터 번역되는 과정이 포함된 방법의 실시 예이다.
본 발명의 제 3 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 먼저, 사용자 단말(20)은 사용자 설정정보 입력하고 입력한 사용자 설정정보를 번역 서버(100)에 전송한다(S301).
사용자 단말(20)이 사용자 설정정보를 입력하고 입력한 사용자 설정정보를 번역 서버(100)에 전송한 경우(S301), 방송인 단말(10)은 방송을 송출한다(S302).
방송인 단말(10)이 방송을 송출한 경우(S302), 방송인 단말(10)은 송출되는 방송을 영상 데이터와 음성 데이터로 분리한다(S303).
방송인 단말(10)이 송출되는 방송을 영상 데이터와 음성 데이터로 분리한 경우(S303), 방송인 단말(10)은 영상 데이터를 영상 서버(200)에 전송한다(S304).
방송인 단말(10)이 영상 데이터를 영상 서버(200)에 전송한 경우(S304), 영상 서버(200)는 영상 데이터로부터 자막 데이터를 분리한다(S305). 여기서, S305단계는 방송인 단말(10)이 방송을 송출할 때에 영상 데이터에 자막 데이터가 삽입되어 있다는 전제하에 이루어지는 단계이며, 만일, 방송인 단말(10)이 방송을 송출할 때에 영상 데이터에 자막 데이터를 삽입하지 않았다면, 영상데이터가 영상서버로부터 사용자 단말(20)에 자막 데이터 없이 그대로 디스플레이될 수 있으며, 영상 서버(200)에서 직접 자막데이터를 생성할 수 있다. 다시 말해, S305 단계가 영상 데이터와 자막 데이터를 분리시키는 단계가 아니라 자막 데이터를 생성하는 단계(S305-a: 미도시)로 대체될 수 있다는 것이다.
이어서, 영상 서버(200)가 영상 데이터와 자막 데이터를 분리한 경우, 영상 서버(200)는 영상 데이터를 사용자 단말(20)에 전송한다(S306).
영상 서버(200)가 영상 데이터를 사용자 단말(20)에 전송 한 경우(S306), 사용자 단말(20)은 전송 받은 영상 데이터를 디스플레이한다(S307).
사용자 단말(20)이 전송 받은 영상 데이터를 디스플레이 한 경우(S307), 영상 서버(200)는 S305단계에서 영상 데이터로부터 분리한 자막 데이터를 번역 서버(100)에 전송한다.
영상 서버(200)가 S305 단계에서 영상 데이터로부터 분리한 자막 데이터를 번역 서버(100)에 전송한 경우, 방송인 단말(10)은 음성 데이터를 텍스트 데이터로 변환한다(S309).
방송인 단말(10)이 음성 데이터를 텍스트 데이터로 변환한 경우(S309), 방송인 단말(10)은 변환한 텍스트 데이터를 번역 서버(100)에 전송한다(S310).
방송인 단말(10)이 변환한 텍스트 데이터를 번역 서버(100)에 전송 한 경우(S310), 번역 서버(100)는 자막 또는 텍스트 데이터를 사용자 설정정보를 기반으로 번역하여 자막 또는 텍스트 번역데이터를 생성한다(S311).
번역 서버(100)가 자막 또는 텍스트 데이터를 사용자 설정정보를 기반으로 번역하여 자막 또는 텍스트 번역데이터를 생성한 경우(S311), 번역 서버(100)는 자막 또는 텍스트 번역데이터를 사용자 단말(20)에 전송한다(S312).
번역 서버(100)가 자막 또는 텍스트 번역데이터를 사용자 단말(20)에 전송한 경우(S312), 사용자 단말(20)은 자막 또는 텍스트 번역데이터와 영상 데이터의 싱크(Sync)를 조절한다(S313).
사용자 단말(20)이 자막 또는 텍스트 번역데이터와 영상 데이터의 싱크(Sync)를 조절한 경우(S313), 사용자 단말(20)은 텍스트 번역데이터를 음성 번역데이터로 변환하여 번역 저작물을 생성한다(S314).
<제 4 실시 예>
도 4는 본 발명의 제 4 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법을 구체적으로 나타낸 도면이다.
본 발명의 제 4 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 방송을 진행하는 방송인이 송출하는 음성 데이터의 언어와 사용자가 설정한 사용자 설정정보의 언어가 같을 때의 상황의 실시 예이다. 구체적으로, 사용자 단말(20)에 사용자 설정정보로서 제 1언어가 설정되고, 방송인이 제 1 언어로 방송을 송출하여 번역 서버(100)가 굳이 번역할 필요가 없는 상황의 실시 예이다.
이와 같은 상황에 따르면, 본 발명의 제 4 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 먼저, 사용자 단말(20)이 제 1언어로 사용자 설정정보를 설정하고 설정한 사용자 설정정보를 번역 서버(100)에 전송하는 단계에서 시작한다(S401).
사용자 단말(20)이 제 1 언어로 사용자 설정정보를 설정하고 설정한 사용자 설정정보를 번역 서버(100)에 전송한 경우(S401), 방송인 단말(10)은 방송을 송출한다(S402).
방송인 단말(10)이 방송을 송출한 경우(S402), 방송인 단말(10)은 송출하는 방송을 영상 데이터와 음성 데이터(제 1언어)로 분리한다(S403).
방송인 단말(10)이 송출하는 방송을 영상 데이터와 음성데이터(제 1언어)로 분리한 경우(S403), 방송인 단말(10)은 분리한 영상 데이터를 영상 서버(200)에 전송한다(S404).
방송인 단말(10)이 분리한 영상 데이터를 영상 서버(200)에 전송한 경우(S404), 영상 서버(200)는 전송 받은 영상 데이터를 사용자에게 제공한다(S405).
영상 서버(200)가 전송 받은 영상 데이터를 사용자 단말(20)에 제공한 경우(S405), 사용자 단말(20)은 제공 받은 영상 데이터를 디스플레이한다(S406).
사용자 단말(20)이 제공 받은 영상 데이터를 디스플레이한 경우(S406), 방송인 단말(10)은 음성 데이터를 텍스트 데이터로 변환한다(S407).
방송인 단말(10)이 음성 데이터를 텍스트 데이터로 변환한 경우(S407), 방송인 단말은 텍스트 데이터를 번역 서버(100)에 전송한다(S408).
방송인 단말은 텍스트 데이터를 번역 서버(100)에 전송한 경우(S408), 번역 서버(100)는 방송인이 송출한 음성데이터와 사용자 설정정보에 선택된 언어가 동일한 지 확인한다(S409).
번역 서버(100)는 방송인이 송출한 음성데이터와 사용자 설정정보에 선택된 언어가 동일한 지 확인한 경우(S409), 번역 서버(100)는 방송인 단말(10)에 영상 데이터와 음성 데이터를 분리하지 말라는 요청을 전송한다(S410). 다시 말해, 사용자가 선택한 언어와 방송인이 송출하는 언어가 같으니 원음 그대로의 영상을 사용자에게 제공하고자 S410단계에서 번역서버(100)는 방송인 단말(10)에 방송을 그대로 송출해달라는 의미의 요청을 전송한다.
번역 서버(100)가 방송인 단말(10)에 영상 데이터와 음성 데이터를 분리하지 말라는 요청을 전송한 경우(S410), 방송인 단말(10)은 원본 그대로의 방송을 영상 서버(200)에 송출한다(S411).
방송인 단말(10)이 원본 그대로의 방송을 영상 서버(200)에 송출한 경우(S411), 영상 서버(200)는 해당 방송을 선택한 사용자 단말(20)에게 원본 그대로의 방송을 전송한다(S412).
<제 5 실시 예>
도 5은 본 발명의 제 5 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법을 구체적으로 나타낸 도면이다.
본 발명에 따른 제 5 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방송을 진행하는 방송인이 개인이 아닌 다수이며, 이 다수의 방송인이 모두 다른 언어를 사용하고, 사용자가 선택한 언어마저도 방송인이 사용하는 언어와 다를 때의 상황을 나타낸 것이다. 구체적으로, 사용자 단말(20)에 사용자 설정 정보로서 제 1언어가 선택되고, 두 명의 방송인이 방송을 진행한다고 가정 하였을 때에 제 1 방송인은 제 2 언어, 제 2 방송인은 제 3 언어를 사용하였을 때의 상황이다.
이와 같은 상황에 따라, 본 발명의 제 5 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 먼저, 사용자 단말(20)이 사용자로부터 사용자 설정정보(제 1 언어 선택)를 입력 받고 입력 받은 사용자 설정정보를 번역 서버(100)에 전송하는 단계(S501)에서 시작한다.
사용자 단말(20)이 사용자로부터 사용자 설정정보(제 1 언어 선택)를 입력 받고 입력 받은 사용자 설정정보를 번역 서버(100)에 전송한 경우(S501), 방송인 단말(10)이 방송을 송출한다(S502).
방송인 단말(10)이 방송을 송출한 경우(S052), 방송인 단말(10)이 영상 데이터 및 적어도 둘 이사의 음성 데이터(제 2 언어 및 제 3언어)를 분리한다(S503).
방송인 단말(10)이 영상 데이터 및 적어도 둘 이사의 음성 데이터(제 2 언어 및 제 3언어)를 분리한 경우(S503), 방송인 단말(10)은 분리한 영상 데이터를 영상 서버(200)에 전송한다(S504).
방송인 단말(10)은 분리한 영상 데이터를 영상 서버(200)에 전송한 경우(S504), 영상 서버(200)는 해당 영상을 선택한 사용자 단말에 영상 데이터를 전송한다(S505).
영상 서버(20)가 해당 영상을 선택한 사용자 단말에 영상 데이터를 전송한 경우(S505), 사용자 단말(20)은 전송 받은 영상 데이터를 디스플레이 한다(S506).
사용자 단말(20)이 전송 받은 영상 데이터를 디스플레이 한 경우(S506), 방송인 단말(10)은 S503단계에서 분리한 음성 데이터들을 텍스트 데이터들로 변환한다(S507). 이 때의 변환된 텍스트 데이터들은 제 2 언어 및 제 3 언어로 변환된 텍스트 데이터일 것이다.
방송인 단말(10)이 S503단계에서 분리한 음성 데이터들을 텍스트 데이터들로 변환한 경우(S507), 방송인 단말(10)은 변환한 텍스 데이터들을 번역 서버(100)에 전송한다(S508).
방송인 단말(10)가 변환한 텍스 데이터를 번역 서버(100)에 전송한 경우(S508), 번역 서버(100)는 텍스트 데이터를 제 1언어로 번역하여 텍스트 번역데이터를 생성한다(S509). 이 때의 텍스트 번역데이터는 상기 제 2 언어 및 제 3 언어의 텍스트 데이터가 제 1언어로 번역된 텍스트 데이터이다.
번역 서버(100)가 텍스트 데이터를 제 1언어로 번역하여 텍스트 번역데이터를 생성한 경우(S509), 번역 서버(100)가 생성한 텍스트 번역데이터를 사용자 단말(20)에 전송한다(S510).
번역 서버(100)가 생성한 텍스트 번역데이터를 사용자 단말(20)에 전송한 경우(S510), 사용자 단말(20)은 전송 받은 텍스트 번역데이터와 S506 단계에서 디스플레이한 영상 데이터의 싱크(Sync)를 조절한다(S511).
사용자 단말(20)이 전송 받은 텍스트 번역데이터와 S506 단계에서 디스플레이한 영상 데이터의 싱크(Sync)를 조절한 경우(S511), 사용자 단말(20)은 텍스트 번역데이터를 음성 번역데이터로 변환하여 번역 저작물을 생성한다(S512).
<제 6 실시 예>
도6은 본 발명의 제 6 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법을 구체적으로 나타낸 도면이다.
본 발명의 제 6 실시 예에 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 영상 서버(200)의 역할과 번역 서버(100)의 역할을 같이 수행하는 영상번역 서버(300)가 번역 서비스를 사용자 단말(20)에 제공하는 방법의 실시 예이다.
본 발명의 제 6 실시 예에 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 먼저, 사용자 단말(20)이 사용자로부터 사용자 설정정보를 입력 받고 입력 받은 사용자 설정정보를 번역 서버(100)에 전송하는 단계(S601)에서 시작한다.
사용자 단말(20)이 사용자로부터 사용자 설정정보를 입력 받고 입력 받은 사용자 설정정보를 번역 서버(100)에 전송한 경우(S601), 방송인 단말(10)은 방송을 송출한다(S602).
방송인 단말(10)이 방송을 송출한 경우(S602), 영상번역 서버(300)는 방송인 단말(10)이 송출한 방송을 수신하여 수신된 방송을 영상 데이터와 음성데이터로 분리한다(S603). 여기서 영상번역 서버(300)는 앞서 언급한 바와 같이 영상 서버(200)와 번역 서버(100)의 역할을 모두 수행할 수 있는 서버로 사용자에게 번역서비스를 제공하는 전체 절차를 줄일 수 있도록 또는 영상데이터와 번역된 텍스트 데이터를 용이하게 저장할 수 있도록 구현된 서버이다.
이어서, 영상번역 서버(300)가 방송인 단말(10)이 송출한 방송을 수신하여 수신된 방송을 영상 데이터와 음성데이터로 분리한 경우(S603), 영상번역 서버(300)는 영상 데이터를 사용자 단말(20)에 전송한다(S604).
영상번역 서버(300)는 영상 데이터를 사용자 단말(20)에 전송한 경우(S604), 사용자 단말(20)은 전송 받은 영상 데이터를 디스플레이한다(S605).
사용자 단말(20)은 전송 받은 영상 데이터를 디스플레이한 경우(S605), 영상번역 서버(300) S603단계에서 분리한 음성 데이터를 텍스트 데이터로 변환한다(S606).
영상번역 서버(300) S603단계에서 분리한 음성 데이터를 텍스트 데이터로 변환한 경우(S606), 영상번역 서버(300)는 텍스트 데이터를 사용자 설정정보를 기반으로 번역하여 텍스트 번역데이터를 생성한다(S607).
영상번역 서버(300)가 텍스트 데이터를 사용자 설정정보를 기반으로 번역하여 텍스트 번역데이터를 생성한 경우(S607), 영상번역 서버(300)는 텍스트 번역데이터를 사용자 단말(20)에 전송한다(S608).
영상번역 서버(300)는 텍스트 번역데이터를 사용자 단말(20)에 전송한 경우(S608), 사용자 단말(20)은 전송 받은 텍스트 번역데이터와 S605단계에서 디스플레이한 영상데이터의 싱크(Sync)를 조절한다(S609).
사용자 단말(20)이 전송 받은 텍스트 번역데이터와 S605단계에서 디스플레이한 영상데이터의 싱크(Sync)를 조절한 경우(S609), 사용자 단말(20)은 텍스번역 데이터를 음성 번역데이터로 변환하여 번역 저작물을 생성한다(S610).
< 제 7 실시 예>
도7은 본 발명의 제 7 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법을 구체적으로 나타낸 도면이다.
본 발명의 제 7 실시 예에 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 영상번역 서버(300)가 방송인이 송출한 방송을 저장하고 데이터 베이스를 구축하여 사용자가 원하는 시간에 저장된 방송을 시청할 수 있도록 서비스를 제공하며, 상기 저장된 방송에도 번역 서비스를 제공할 수 있는 방법의 실시 예이다.
본 발명의 제 7 실시 예에 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 먼저, 방송인 단말(10)이 방송을 송출하는 단계에서 시작한다(S701).
방송인 단말(10)이 방송을 송출한 경우, 영상번역 서버(300)는 송출된 방송을 저장 및 데이터베이스를 구축한다(S702).
영상번역 서버(300)가 송출된 방송을 저장 및 데이터베이스를 구축한 경우(S702), 사용자 단말(20)이 영상번역 서버(300)내에 기 저장된 방송을 선택하고 사용자 설정정보를 입력한다(S703).
사용자 단말(20)이 영상번역 서버(300)내에 기 저장된 방송을 선택하고 사용자 설정정보를 입력한 경우(S703), 영상번역 서버(300)가 사용자로부터 선택된 방송의 음성 데이터와 영상 데이터를 분리한다(S704).
영상번역 서버(300)가 사용자로부터 선택된 방송의 음성 데이터와 영상 데이터를 분리한 경우(S704), 영상번역 서버(300)는 분리한 영상 데이터를 사용자 단말(20)에 전송한다(S705).
영상번역 서버(300)가 분리한 영상 데이터를 사용자 단말(20)에 전송한 경우(705), 사용자 단말(20)은 전송 받은 영상 데이터를 디스플레이한다(S706).
사용자 단말(20)이 전송 받은 영상 데이터를 디스플레이한 경우, 영상번역 서버(300)는 S704단계에서 분리된 음성 데이터를 텍스트 데이터로 변환한다(S707).
영상번역 서버(300)가 S704단계에서 분리된 음성 데이터를 텍스트 데이터로 변환한 경우(S707), 영상번역 서버(300)는 텍스트 데이터를 사용자 설정정보를 기반으로 번역하여 텍스트 번역데이터를 생성한다(S708).
영상번역 서버(300)가 텍스트 데이터를 사용자 설정정보를 기반으로 번역하여 텍스트 번역데이터를 생성한 경우(S708), 영상번역 서버(300)는 텍스트 번역데이터를 사용자 단말(20)에 전송한다(S709).
영상번역 서버(300)는 텍스트 번역데이터를 사용자 단말(20)에 전송한 경우(S709), 사용자 단말(20)은 텍스트 번역데이터와 S706단계에서 디스플레이한 영상 데이터의 싱크(Sync)를 조절한다(S710).
사용자 단말(20)이 텍스트 번역데이터와 S706단계에서 디스플레이한 영상 데이터의 싱크(Sync)를 조절한 경우(S710), 사용자 단말(20)은 텍스트 번역데이터를 음성 번역데이터로 변환하여 번역 저작물을 생성한다(S711).
<제 8 실시 예>
도8은 본 발명의 제 8 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법을 구체적으로 나타낸 도면이다.
본 발명의 제 8 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 방송인이 송출하는 음성 데이터를 텍스트 데이터로 변환하여 변환된 텍스트 데이트의 비표준어를 감지하고 이에 대한 표준어를 획득하여 사용자에게 제공하는 실시 예이다.
어떠한 국가든 지역적인 요인과 계층적인 요인으로 언어의 분화가 일어나 사투리, 방언, 비속어, 유행어, 은어 등의 비표준어 발생되고 발생된 비표준어를 표준어와 같이 사용된다. 이러한 비표준어는 해당 언어를 학습하는 사용자에게 학습의 어려움을 주며, 의미소통에서의 혼동을 야기한다.
이에 따라, 본 발명의 제 8 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 사용자에게 방송인이 송출하는 음성 또는 텍스트 데이터가 비표준어인 것을 확인시켜주고, 이에 대한 표준어를 획득하여 주석 처리하여 사용자가 언어를 학습하고 방송을 이해하는 데에 도움을 준다.
이러한 본 발명의 제 8실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 상기 본 발명의 제 6 실시 예의 음성 데이터를 텍스트로 변환하는 단계(S606: 도 6 참고)까지의 과정이 동일하므로 S606단계 이후에 단계부터 설명하도록 한다.
도 8를 참고하면, 본 발명의 제 8실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 먼저, 영상번역 서버(300)가 음성데이터를 텍스트 데이터로 변환한 이후에(S606), 영상번역 서버(300)가 변환된 텍스트 데이터 중에서 비표준어 의심 텍스트 데이터를 감지한다(S801). 여기서 비표준어 의심 데이터들은 사투리, 방언, 비속어, 유행어, 은어 등 통상적으로 표준어에 해당되지 않은 언어이다.
영상번역 서버(300)가 비표준어 의심 텍스트 데이터를 감지한 경우(S801), 영상번역 서버(300)는 비표준어 의심 텍스트 데이터와 동일하게 치환되는 표준어 데이터를 획득한다(S802). 여기서, 획득된 표준어 데이터는 비표준어 의심 텍스트 데이터와 가장 동일하게 치환되는 데이터가 아니라 의미가 비슷하게 치환될 수 있는 복수 개의 후보군 표준어 데이터일 수도 있다.
영상번역 서버(300)가 비표준어 의심 텍스트 데이터와 동일하게 치환되는 표준어 데이터를 획득한 경우(S802), 영상번역 서버(300)는 획득된 표준어 데이터를 비표준어 의심 텍스트 데이터에 타겟팅한다(S803). 여기서, 타켓팅을 하는 이유는 해당 비표준어 의심 데이터에 표준어 데이터를 주석 처리하여 해당 비표준어 의심 데이터를 사용자 단말(20)에 제공될 때에 주석으로 처리된 표준어 데이터를 사용자에게 같이 제공하기 위함이다.
영상번역 서버(300)가 획득된 표준어 데이터를 비표준어 의심 텍스트 데이터에 타겟팅한 경우(S803), 영상번역 서버(300)는 S606단계에서 변환한 텍스트 데이터를 다국어로 번역하여 텍스트 번역데이터를 생성한다(S804).
영상번역 서버(300)가 S606단계에서 변환한 텍스트 데이터를 다국어로 번역하여 텍스트 번역데이터를 생성한 경우(S804), 영상번역 서버(300)는 텍스트 번역데이터 중에서 사용자 설정정보에 설정된 언어의 텍스트 번역데이터를 추출한다(S805).
영상번역 서버(300)가 텍스트 번역데이터 중에서 사용자 설정정보에 설정된 언어의 텍스트 번역데이터를 추출한 경우(S805), 영상번역 서버(300)는 텍스트 번역데이터를 사용자 단말(20)에 전송한다(S806).
영상번역 서버(300)는 텍스트 번역데이터를 사용자 단말(20)에 전송한 경우(S806), 사용자 단말(20)은 텍스트 번역데이터와 영상 데이터의 싱크(Sync)를 조절한다(S807).
사용자 단말(20)이 텍스트 번역데이터와 영상 데이터의 싱크(Sync)를 조절한 경우(S808), 사용자 단말(20)텍스트 번역데이터를 음성 번역데이터로 변환하여 번역 저작물을 생성한다(S808).
<제 9 실시 예>
도 9는 제 9 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법을 구체적으로 나타낸 도면이다.
본 발명의 제 9 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 방송인이 송출하는 음성데이터를 텍스트 데이터로 변환하고 변환된 텍스트 데이터에서 기능어 의심 단어를 감지하고 감지된 기능어 의심 단어와 동일하게 치환되는 구분 기호를 삽입하고 삽입된 구분기호를 기반으로 단락을 지정하며 지정된 단락마다 분할하여 번역데이터를 사용자에게 제공하는 방법의 실시 예이다.
글을 읽거나 누군가의 말을 들을 때에 말과 말, 문장과 문장 사이에 조사, 접속사, 구분기호 없이 글과 말을 이해하는 것은 굉장히 어렵다. 마찬가지로, 방송인이 하는 음성을 텍스트 번역데이터로 번역하여 사용자에게 제공할 때에 방송인이 하는 음성을 조사, 접속사, 구분기호 없이 그대로 번역한 텍스트 데이터만 사용자에게 제공한다면 사용자가 선택한 언어의 번역데이터라 하더라도 조사, 접속사, 구분기호 없이 번역된 텍스트 데이터를 이해하기는 어려울 것이다.
따라서, 번역데이터에는 조사, 접속사, 구분기호가 포함되어 있어야 하며, 이러한 조사, 접속사, 구분기호 즉 말과 말 또는 문장과 문장 사이에서 문법적인 기능을 가지는 것들을 기능어라고 한다.
또한, 이러한 기능어들과 같이 사용되어 사용자의 말과 문장의 이해력을 돕는 기호들을 구분기호라고 하며, 구분기호에는 마침표, 쉼표, 물음표, 느낌표가 있다.
기능어와 구분기호의 사용 예를 이해하려면, "보내며" 와 "보냈다"를 생각하면 이해하기 쉽다. "보내며"는 "보내다"에 기능어"하며" 접속 조사가 합쳐진 말로 이후에 또 다른 문장이 이어질 것을 암시해주며, 이를 테면 "선물을 보내며, 감사의 인사를 전한다"로 표현될 수 있다. 이와 같이 "보내며"는 기능어인 접속 조사가 포함된 단어로 문장을 이어주는 구분기호 "쉼표(,)"가 기능어와 같이 사용될 수 있다. 한편, "보냈다"는 보낸다는 행위와 종결 어미 "-다"가 합쳐진 단어로, 기능어 의심 단어인 "-다"는 문장을 종결 맺어주는 "마침표(.)"와 같이 사용될 수 있다. 참고로, 이전 설명에는 기능어를 조사, 접속사, 구분기호라고 하였지만, 본 발명은 "-다"와 같이 종결어미도 기능어들과 함께 기능어 의심단어로 표현될 수 있음을 이해한다.
본 발명은 이러한 기능어 의심 단어를 감지하고 기능어 의심 단어와 동일하게 치환되는 구분기호(예. 마침표(.), 쉼표(,), 물음표(?) 등)를 삽입하고 삽입된 구분기호를 기반으로 단락을 지정하여 번역데이터 가독성을 향상시키며, 이러한 과정을 도 9를 통하여 상세히 설명하도록 한다.
이러한 본 발명의 제 8실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 상기 본 발명의 제 6 실시 예의 음성 데이터를 텍스트로 변환하는 단계(S606: 도 6 참고)까지의 과정이 동일하므로 S606단계 이후에 단계부터 설명하도록 한다.
도 9를 참고하면, 본 발명의 제 9 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 먼저, 영상번역 서버(300)가 음성데이터를 텍스트 데이터로 변환한 이후에(S606), 영상번역 서버(300)는 기능어 의심 텍스트 데이터를 감지한다(S901).
영상번역 서버(300)가 기능어 의심 텍스트 데이터를 감지한 경우(S901), 영상번역 서버(300)는 기능어 의심 텍스트 데이터와 동일하게 치환되는 구분기호를 삽입한다(S902).
영상번역 서버(300)가 기능어 의심 텍스트 데이터와 동일하게 치환되는 구분기호를 삽입한 경우(S902), 영상번역 서버(300)는 삽입된 구분 기호를 기반으로 단락을 지정한다(S903).
영상번역 서버(300)가 삽입된 구분 기호를 기반으로 단락을 지정한 경우(S903), 영상번역 서버(300)는 지정된 단락마다 분할한다(S904).
영상번역 서버(300)가 지정된 단락마다 분할한 경우(S904), 영상번역 서버(300)는 텍스트 데이터를 사용자 설정정보를 기반으로 번역하여 텍스트 번역데이터를 생성한다.
이 이후의 단계는 기존 텍스트 번역데이터가 생성되고 생성된 텍스트 번역데이터를 사용자 단말(20)에 전송하여 이루어지는 기존의 프로세스와 동일하므로 생략한다.
<제 10 실시 예>
도 10은 본 발명의 제 10실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법을 구체적으로 나타낸 도면이다.
본 발명의 제 10실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 기 설정된 단락 구분 시간만큼 단락을 구분하여 구분한 단락들을 번역하여 사용자에게 제공하는 방법의 실시 예이다.
앞서, 본 발명의 제 9 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 기능어 의심단어를 감지하여 감지된 기능어 의심단어와 동일하게 치환되는 구분기호를 삽입하고 삽입된 구분기호를 기반으로 단락을 지정하였다면, 본 발명의 제 10실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 기 설정된 단락 구분 시간만큼 단락을 지정하여 구분하여 구분된 단락을 분할하고 이를 번역하여 사용자에게 제공하는 방법의 실시 예이며, 예를 들면 기 설정된 단락 구분 시간이 1분이라고 하면, 1분의 시간 동안 방송인이 송출한 음성 데이터를 텍스트 데이터로 변환하고 변환된 텍스트 데이터를 하나의 단락으로 구분을 짓는다는 것이다. 참고로, 기 설정된 단락 구분 시간은 영상번역 서버(300)가 임의로 지정한 단락 구분 시간이거나 사용자가 사용자 설정정보에 입력된 단락 구분 시간일 수도 있다.
이러한 본 발명의 제 8실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 상기 본 발명의 제 6 실시 예의 음성 데이터를 텍스트로 변환하는 단계(S606: 도 6 참고)까지의 과정이 동일하므로 S606단계 이후에 단계부터 설명하도록 한다.
본 발명의 제 10 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 먼저, 영상번역 서버(300)가 음성데이터를 텍스트 데이터로 변환한 이후에(S606), 영상번역 서버(300)가 기 설정된 단락 구분 시간마다 단락을 구분한다(S1001).
영상번역 서버(300)가 기 설정된 단락 구분 시간마다 단락을 구분한 경우(S1001), 영상번역 서버(300)는 텍스트 데이터를 사용자 설정정보를 기반으로 번역하여 텍스트 번역데이터를 생성한다(S1002).
영상번역 서버(300)가 텍스트 데이터를 사용자 설정정보를 기반으로 번역하여 텍스트 번역데이터를 생성한 경우(S1002), 영상번역 서버(100)는 단락이 구분된 텍스트 번역 데이터를 사용자 단말(20)에 전송하여 기존 번역 프로세스대로 번역 서비스를 진행한다.
<제 11 실시 예>
도 11은 본 발명의 제 11 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법을 구체적으로 나타낸 도면이다.
본 발명의 제 11 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 방송을 진행하는 복수의 방송인이 서로의 방송을 시청하면서 대화를 나누거나 방송을 진행할 때에 복수의 방송인들이 서로 다른 언어를 구사할 때에 상황일 수 있으며, 서로 다른 언어를 구사하는 사용자들이 화상통화를 하는 상황이라고 볼 수 있다. 다시 말해, 방송을 송출하는 방송인이나 사용자가 양방향으로 송출하는 텍스트 데이터와 음성데이터가 서로 다른 언어 데이터일 때의 상황을 말한다. 하지만, 본 발명에서는 전자(복수의 방송인이 서로의 방송을 시청하는 상황)를 예시로 들어 설명하도록 한다.
이와 같은 상황에 따르면, 본 발명의 제 11 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 먼저, 제1 방송인 단말(11)과 제 2 방송인 단말(12)이 사용자 설정정보를 입력하고, 제 1 방송인 단말(11)은 제 1언어의 사용자 설정정보, 제 2 방송인 단말(12)은 제 2 언어의 사용자 설정정보를 입력하는 단계(S1101)로부터 시작된다.
제 1 방송인 단말(11)과 제 2 방송인 단말(12)이 각자의 사용자 설정정보를 입력한 경우(S1101), 제 1 방송인 단말(11)과 제 2 방송인 단말(12)은 방송을 송출한다(S1102).
제 1 방송인 단말(11)과 제 2 방송인 단말(12)이 방송을 송출한 경우(S1102), 영상번역 서버(300)는 송출된 방송들을 영상 데이터와 음성데이터로 분리한다(S1102). 참고로, 영상번역 서버(300)는 당연히 제 1 방송인 단말(11)이 송출한 방송과 제 2 방송인 단말(12)이 송출한 방송을 구분할 수 있을 것이며, 구분된 방송들로부터 분리된 영상 데이터와 음성 데이터도 구분되어 저장 관리될 것이다.
이어서, 영상번역 서버(300)가 송출된 방송들을 영상 데이터와 음성데이터로 분리한 경우(S1102), 영상번역 서버(300)는 S1102단계에서 분리한 영상데이터를 제 1 방송인 단말(11)과 제 2 방송인 단말(12)에 전송한다(S1104)
영상번역 서버(300)가 S1102단계에서 분리한 영상데이터를 제 1 방송인 단말(11)과 제 2 방송인 단말(12)에 전송한 경우(S1104), 영상번역 서버(300)는 음성 데이터를 텍스트 데이터로 변환한다(S1105).
영상번역 서버(300)는 음성 데이터를 텍스트 데이터로 변환한 경우(S1105), 영상번역 서버(300)는 변환한 텍스트 데이터를 사용자 설정정보를 기반으로 번역하여 텍스트 번역데이터를 생성한다(S1106).
영상번역 서버(300)가 변환한 텍스트 데이터를 사용자 설정정보를 기반으로 번역하여 텍스트 번역데이터를 생성한 경우(S1106), 영상번역 서버(300)는 텍스트 번역데이터를 제 1 방송인 단말(11)과 제 2 방송인 단말(12)에 전송하되, 각각의 방송인 단말(10)에 설정된 사용자 설정정보를 기반하여 텍스트 번역데이터를 전송한다. 다시 말해, S1107단계에서의 영상번역 서버(300)는 제 1 방송인 단말(11)에 제 1언어의 텍스트 번역데이터를 제 2 방송인 단말(12)에 제 2 언어의 텍스트 번역데이터를 전송한다.
영상번역 서버(300)는 텍스트 번역데이터를 제 1 방송인 단말(11)과 제 2 방송인 단말(12)에 전송하되, 각각의 방송인 단말(10)에 설정된 사용자 설정정보를 기반하여 텍스트 번역데이터를 전송한 경우(S1107), 제 1 방송인 단말(11)과 제 2 방송인 단말(12)은 전송 받은 텍스트 번역데이터와 영상데이터의 싱크(Sync)를 조절한다(S1108).
제 1 방송인 단말(11)과 제 2 방송인 단말(12)이 전송 받은 텍스트 번역데이터와 영상데이터의 싱크(Sync)를 조절한 경우(S1108), 제 1 방송인 단말(11)은 텍스트 번역데이터를 음성 번역데이터로 변환하여 제 1 번역 저작물을 생성하고, 제 2 방송인 단말(12)은 텍스트 번역데이터를 음성 번역데이터로 변환하여 제 2 번역 저작물을 생성하면서(S1109) 본 발명의 제 11 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법이 마무리 된다.
<제 12 실시 예>
도 12는 본 발명의 제 12 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법을 구체적으로 나타낸 도면이다.
본 발명의 제 12 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 사용자 단말(20)이 텍스트 번역데이터를 음성 번역데이터로 변환하여 번역 저작물을 생성할 때(S112: 도 1 참고)에 보다 생동감 있는 음성 번역데이터를 생성하기 위한 서비스 제공 방법이다.
텍스트 데이터를 음성 데이터로 번역하는 대표적인 방법으로는 TTS(Text To Speech: 음성합성 시스템, 이하 TTS로 약칭하여 표현함.)을 활용하는 방법이 있다.
TTS는 컴퓨터의 프로그램을 통해 사람의 목소리를 구현해내는 시스템으로, 성우 없이도 거의 모든 단어와 문장에 대한 음성 데이터를 쉽게 생성할 수 있다.
하지만, 이러한 TTS는 사전 녹음된 음성 데이터를 기반으로 새로운 음성 데이터를 생성하는 시스템인 만큼 억양이 부자연스럽다는 문제점이 발생한다. 예를 들어, 드라마나 영화 속 주인공이 "살려주세요~"라는 음성 데이터를 발생시키고 이를 다시 "살려주세요"라는 텍스트 데이터로 변환시킨 이후에 해당 텍스트 데이터를 TTS를 통하여 다시 음성 데이터로 변환하였다면, 변환된 음성 데이터는 마치 기계음과 같은 "살- 려- 주- 세- 요-"로 출력되어 사용자에게 제공되고, 사용자는 급박한 상황 속에서 누군가의 도움을 요청하는 드라마나 영화 속 주인공의 상황을 제대로 인지 못할 수도 있다.
이렇게 TTS를 통해 변환된 음성 데이터의 부자연스러움은 음성 데이터 속에 '운율'이 부재하기 때문이라고 볼 수 있다. 여기서, 운율은 음성 데이터 중에서 발화(發話)내용을 나타내는 음운 정보 이외의 억양이나 강세로서, 운율은 소리의 크기(에너지), 소리의 높이(주파수), 소리의 길이(지속 시간)에 의해 달라질 수 있다.
소리의 크기는 소리 에너지의 세기로서 쉽게 말해 화자의 크고 작은 목소리로 이해할 수 있으며, 화자의 발화 내용 중에서 특정 부분을 강조하거나 화자의 감정 또는 상황이 드러난다. 예를 들면, 화가 나 있는 화자가 말을 할 때 드러날 수 있는 격양된 소리의 크기는 청자가 말하는 화자의 화난 감정을 충분히 인지할 수 있도록 한다.
소리의 높이는 소리의 주파수로서, 목소리의 떨림과 억양, 음질을 통하여 화자의 감정 또는 상황을 이해할 수 있도록 한다. 예를 들면, 떨림 없는 목소리를 통하여 화자의 자신감을 이해할 수 있고, 목소리의 떨림을 통하여 화자가 긴장을 하였거나 화자가 흐느끼는 슬픈 감정을 이해할 수 있으며, 나아가 소리의 높이를 통하여 화자의 청아한 목소리, 허스키한 목소리를 생동감 있게 이해 할 수 있도록 한다.
소리의 길이는 화자가 한 문장을 말할 때의 시간 또는 발화 지속 시간이라고 볼 수 있으며, 쉽게 말해 화자가 한 문장을 빠르게 말을 하는 지 천천히 말을 하는 지에 대한 것이다. 소리의 길이도 소리의 크기, 소리의 높이와 마찬가지로 화자의 감정 또는 상황을 이해할 수 있도록 한다. 예를 들면, 화자가 청자에게 부탁을 요청할 때에 말을 빨리 하여 본인이 급한 상황에 처했다는 것을 이해할 수 있도록 한다.
이렇듯, 음성 데이터에 운율이 표현되면 말하는 화자의 감정상태, 화자가 처한 상황, 화자가 말하는 목적 등을 청자가 생동감 있게 전달받을 수 있다.
이에 따라 본 발명의 제 12 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 사용자 단말(20)이 텍스트 번역데이터를 음성 번역데이터로 변환하여 번역 저작물을 생성할 때(S112: 도 1 참고)에 상기 음성 번역데이터에 운율 데이터가 포함될 수 있도록 하여 사용자가 보다 생동감 있는 음성 번역데이터를 제공 받을 수 있도록 서비스를 제공한다.
이러한 본 발명의 제 12 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 먼저, 사용자 단말(20)이 사용자 설정정보를 선택하고(S1201), 방송인 단말(10)이 방송을 송출하는 것(S1202)에서 시작한다.
방송인 단말(10)이 방송을 송출한 경우(S1202), 방송인 단말(10)은 송출된 방송에서의 영상 데이터와 음성 데이터를 분리한다(S1203).
방송인 단말(10)이 송출된 방송에서의 영상 데이터와 음성 데이터를 분리한 경우(S1203), 방송인 단말은 영상 데이터를 기반으로 방송인 상태 정보를 획득한다(S1204). 여기서, 방송인 상태 정보는 방송인이 처한 환경, 상황 등의 정보이거나 방송인의 감정 상태에 대한 정보일 수 있다.
이러한 방송인 상태 정보를 획득하기 위하여 방송인 단말(10)에는 피사체의 움직임을 분석하는 동적 분석장치, 배경 이미지를 분석하여 상황을 인식하는 이미지 분석장치, 배경 소리 및 음성을 통하여 상황을 인식하는 음성 분석장치, 사람의 표정을 인식하여 감정을 판단하는 표정 인식장치 등이 포함될 수 있으며, 상기 장치들은 방송인을 둘러싼 방송 배경, 방송인 주변에 울려 퍼지는 배경 음악을 감지하고 분석하여 방송인이 처한 환경, 상황에 대한 정보를 획득할 수 있으며, 방송인의 표정(예: 눈썹의 위치, 동공의 크기, 입의 모양), 방송인의 움직임(예: 공포에 질려 떨고 있는 움직임) 또는 제스쳐(예: 서둘러 움직이라는 손의 제스쳐)를 감지하고 분석하여 방송인의 감정에 대한 정보를 획득할 수 있다.
참고로, 방송인 상태 정보는 같은 감정이더라도 단계 별로 구분하여 저장될 수 있다. 예를 들면, 슬픈 감정에 있어서 조용히 흐느끼는 방송인의 감정을 '1단계'라고 하면, 소리 내어 흐느끼는 방송인의 감정을 '2단계', 소리 내어 오열하는 방송인의 감정을 '3단계'라고 구분되어 방송인 상태정보로 저장될 수 있다는 것이다.
이어서, 방송인 단말(10)이 영상 데이터를 기반으로 방송인 상태 정보를 획득한 경우(S1204), 방송인 단말(10)은 S1203단계에서 분리된 영상 데이터를 영상 서버(200)에 전송한다(S1205).
방송인 단말(10)이 영상 서버(200)에 영상 데이터를 전송한 경우(S1205), 영상 서버(200)는 전송 받은 영상 데이터를 해당 영상을 선택한 사용자 단말(20)에게 전송한다(S1206).
영상 서버(200)가 전송 받은 영상 데이터를 해당 영상을 선택한 사용자 단말(20)에게 전송한 경우(S1206), 사용자 단말(20)은 전송 받은 영상 데이터를 화면상에 디스플레이한다(S1207).
사용자 단말(20)이 전송 받은 영상 데이터를 화면상에 디스플레이 한 경우(S1207), 방송인 단말(10)은 S1203단계에서 분리한 음성 데이터를 텍스트 데이터로 변환한다(S1208).
방송인 단말(10)이 분리한 음성 데이터를 텍스트 데이터로 변환한 경우(S1208), 방송인 단말(10)은 변환된 텍스트 데이터에 방송인 상태 정보를 매핑(S1209)한다. 여기서, 텍스트 데이터에 방송인 상태 정보를 매핑한다는 표현은 텍스트 데이터에 방송인이 처한 상황, 방송인의 감정 상태가 포함된 방송인 상태 정보를 시간 또는 순서에 맞게 매핑 시킨다는 표현으로, 예를 들면, 드라마나 영화 속 주인공이 고통을 받고 쓰러져 "살려주세요"라고 외치고 있다면, 방송인 단말(10)은 이러한 주인공의 감정상태와 주인공이 처한 상황을 분석하여 방송인 상태 정보로서 저장 및 획득하고, 주인공이 외친 "살려주세요"라는 음성 데이터를 텍스트 데이터로 변환하여 "살려주세요"라는 텍스트 데이터에 고통 받고 쓰러져있는 주인공의 상황과 감정이 포함된 방송인 상태 정보가 매핑 된다는 것이다.
이어서, 방송인 단말(10)이 변환된 텍스트 데이터에 방송인 상태 정보를 매핑 한 경우(S1209). 방송인 단말(10)은 텍스트 데이터를 번역 서버(100)에 전송한다(S1210).
방송인 단말(10)이 텍스트 데이터를 번역 서버(100)에 전송 한 경우(S1210), 번역 서버(100)는 전송 받은 텍스트 데이터를 사용자 설정정보를 기반으로 번역하여 텍스트 번역데이터를 생성한다(S1211).
번역 서버(100)가 전송 받은 텍스트 데이터를 사용자 설정정보를 기반으로 번역하여 텍스트 번역데이터를 생성 한 경우(S1211), 번역 서버(100)는 생성한 텍스트 번역데이터를 사용자 단말(20)에 전송한다(S1212).
번역 서버(100)가 생성한 텍스트 번역데이터를 사용자 단말(20)에 전송한 경우(S1212), 사용자 단말(20)은 전송 받은 텍스트 번역데이터와 S1207단계에서 디스플레이한 영상 데이터의 싱크(Sync)를 조절한다(S1213).
사용자 단말(20)이 전송 받은 텍스트 번역데이터와 영상 데이터의 싱크(Sync)를 조절한 경우(S1213), 사용자 단말(20)은 텍스트 번역데이터에 매핑된 방송인 상태 정보와 매칭되는 기 저장된 운율 데이터를 탐색한다(S1214). 여기서 운율 데이터는 소리의 크기, 소리의 높이, 소리의 길이 등이 포함된 운율에 대한 데이터로서, 텍스트 번역데이터에 매핑된 방송인 상태 정보에 따라 구분되어 사용된다. 예를 들면, 텍스트 번역데이터에 매핑된 방송인 상태 정보가 슬픈 감정에 해당한다면, 사용자 단말(20)은 슬픈 감정에 적합한 운율 데이터(예: 소리의 떨림이 있음, 비교적 소리의 길이가 김)를 탐색하여 방송인 상태 정보에 매칭시킨다.
참고로, 운율 데이터가 방송인 상태 정보와 매칭되는 방식은 운율 데이터가 사용자 단말(20)의 방송 번역 애플리케이션에 기 저장되어 있다가 방송인 상태 정보와 매칭시킬 때 방송인 상태 정보와 매칭될 수 있는 운율데이터를 탐색하여 매칭하는 방식이 사용될 수 있으며, 상기 방송 번역 애플리케이션에 운율 데이터가 저장되어 있지 않고, 운율 데이터 생성 알고리즘을 통하여 방송인 상태 정보과 매칭되는 새로운 운율 데이터를 생성하는 방식이 사용될 수도 있다.
사용자 단말(20)이 텍스트 번역데이터에 매핑된 방송인 상태 정보와 매칭되는 기 저장된 운율 데이터를 탐색한 경우(S1214), 사용자 단말(20)은 텍스트 번역데이터를 음성 번역데이터로 변환할 때에 음성 번역데이터에 운율 데이터를 결합시켜, 기계음과 같이 들리던 투박한 음성 번역데이터가 운율이 있어 생동감이 있는 음성 번역데이터가 되도록 한다(S1215).
참고로, 음성 번역데이터에 운율 데이터를 결합 시킬 때에 영상 속 방송인이 실제로 말하는 것과 같이 들리기 위하여 부가적인 효과음이 추가로 결합될 수 있다. 예를 들면, 방송인이 흐느끼며 얘기하고 있을 때에 목소리의 떨림을 나타낼 수 있는 운율 데이터뿐만 아니라 "흑흑", "흐윽 흐윽", "분비물(콧물)을 삼키는 소리"등의 효과음이 음성 번역 데이터에 추가로 결합될 수 있다는 것이다.
<제 13 실시 예>
도 13은 본 발명의 제 13 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법을 구체적으로 나타낸 도면이다.
본 발명의 제 13 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 제 12 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법과 마찬가지로 사용자 단말(20)이 텍스트 번역데이터를 음성 번역데이터로 변환하여 번역 저작물을 생성할 때(S112: 도 1 참고)에 보다 생동감 있는 음성 번역데이터를 생성하기 위한 서비스 제공 방법이다.
본 발명의 제 13 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 앞서 설명한 운율 데이터를 방송인 단말(10)이 분리한 음성데이터 즉, 방송이 송출되면서 생성되는 원천의 음성 데이터에서 운율 데이터를 추출하여 추출한 운율 데이터를 텍스트 번역데이터를 음성 번역데이터로 변환하는 과정에서 활용되도록 하는 방법의 실시 예이다.
본 발명의 제 13 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법은 먼저, 사용자 단말(20)이 사용자 설정정보를 선택한 하고(S1301), 방송인 단말(10)이 방송을 송출하는 것(S1302)에서 시작한다.
방송인 단말(10)이 방송을 송출한 경우(S1302), 방송인 단말(10)은 송출된 방송에서의 영상 데이터와 음성 데이터를 분리한다(S1303).
방송인 단말(10)이 송출된 방송에서의 영상 데이터와 음성 데이터를 분리한 경우(S1303), 방송인 단말(10)은 분리된 영상 데이터를 영상 서버(200)에 전송한다(S1304).
방송인 단말(10)이 영상 서버(200)에 영상 데이터를 전송한 경우(S1304), 영상 서버(200)는 전송 받은 영상 데이터를 해당 영상을 선택한 사용자 단말(20)에게 전송한다(S1305).
영상 서버(200)가 전송 받은 영상 데이터를 해당 영상을 선택한 사용자 단말(20)에게 전송한 경우(S1305), 사용자 단말(20)은 전송 받은 영상 데이터를 화면상에 디스플레이한다(S1306).
사용자 단말(20)이 전송 받은 영상 데이터를 화면상에 디스플레이 한 경우(S1306), 방송인 단말(10)은 S1303 단계에서 분리된 음성데이터로부터 운율 데이터를 추출한다(S1307). 여기서, 운율 데이터에 대한 설명은 앞서 본 발명의 제 12 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법에서 설명하였으므로 생략하도록 한다.
방송인 단말(10)이 S1303 단계에서 분리된 음성데이터로부터 운율 데이터를 추출한 경우(S1307), 방송인 단말(10)은 추출한 운율 데이터를 사용자 단말(20)에 전송한다(S1308).
방송인 단말(10)이 추출한 운율 데이터를 사용자 단말(20)에 전송한 경우(S1308), 방송인 단말(10)은 음성 데이터를 텍스트 데이터로 변환한다(S1309).
방송인 단말(10)이 음성 데이터를 텍스트 데이터로 변환한 경우(S1309), 방송인 단말(10)은 번역 서버(100)에 텍스트 데이터를 전송한다(S1310).
방송인 단말(10)이 번역 서버(100)에 텍스트 데이터를 전송한 경우(S1310), 번역 서버(100)는 전송 받은 텍스트 데이터를 사용자 설정정보를 기반으로 번역하여 텍스트 번역데이터를 생성한다(S1311).
번역 서버(100)가 전송 받은 텍스트 데이터를 사용자 설정정보를 기반으로 번역하여 텍스트 번역데이터를 생성한 경우(S1311), 번역 서버(100)는 생성한 텍스트 번역데이터를 사용자 단말(20)에 전송한다(S1312).
번역 서버(100)가 생성한 텍스트 번역데이터를 사용자 단말(20)에 전송한 경우(S1312), 사용자 단말(20)은 전송 받은 텍스트 번역 데이터와 영상 데이터의 싱크(Sync)를 조절한다(S1313).
사용자 단말(20)이 전송 받은 텍스트 번역 데이터와 영상 데이터의 싱크(Sync)를 조절한 경우(S1313), 사용자 단말(20)은 텍스트 번역데이터를 음성 번역데이터로 변환할 때에 음성 번역데이터에 S1308단계에서 방송인 단말(10)로부터 전송 받은 운율 데이터를 결합시켜, 기계음과 같이 들리던 투박한 음성 번역데이터가 운율이 있어 생동감이 있는 음성 번역데이터가 되도록 하면서(S1314) 본 발명의 제 13 실시 예에 따른 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법이 마무리 된다.
이상 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법에 대한 실시 예를 모두 살펴보았다.
한편, 본 발명은 상술한 특정의 실시 예 및 응용 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 구별되어 이해되어서는 안 될 것이다.
방송인 단말(10)
제 1 방송인 단말(11)
제 2 방송인 단말(12)
사용자 단말(20)
번역 서버(100)
영상 서버(200)
영상번역서버(300)

Claims (6)

  1. 방송에서 송출되는 영상데이터 또는 텍스트 데이터를 번역하여 사용자에게 제공하는 방송 번역 애플리케이션 서비스 제공방법에 있어서,
    사용자 설정정보를 설정하고 상기 사용자 설정정보를 번역 서버에 전송하는 단계;
    영상 서버로부터 영상 데이터를 전송 받아 영상데이터를 디스플레이 하는 단계;
    텍스트 번역데이터와 상기 영상데이터의 싱크(sync)를 조절하는 단계; 및
    상기 텍스트 번역데이터를 음성 번역데이터로 변환하여 번역 저작물을 생성하는 단계;
    를 포함하고,
    방송 번역 애플리케이션 서비스 제공방법.
  2. 제 1항에 있어서,
    상기 텍스트 번역데이터는,
    상기 번역서버가 상기 텍스트 데이터를 상기 사용자 설정정보를 기반으로 번역된 텍스트 데이터인 것을 특징으로 하는,
    방송 번역 애플리케이션 서비스 제공방법.

  3. 제 2 항에 있어서,
    상기 텍스트 데이터는,
    상기 방송인 단말이 송출한 방송으로부터 분리된 영상 데이터 및 음성데이터 중 음성데이터를 텍스트형식으로 변환한 데이터인 것을 특징으로 하는,
    방송 번역 애플리케이션 서비스 제공방법.
  4. 제 1 항에 있어서,
    상기 음성 데이터는,
    마이크 활성화 설정에 의하여 방송 송출이 승인 또는 차단될 수 있는 것을 특징으로 하는,
    방송 번역 애플리케이션 서비스 제공방법.
  5. 제 1 항에 있어서,
    상기 영상 서버와 상기 번역 서버가 합쳐진 영상번역서버는,
    상기 영상 서버와 상기 번역 서버의 역할을 대신하여 수행할 수 있는 것을 특징으로 하는,
    방송 번역 애플리케이션 서비스 제공방법.
  6. 제 5항에 있어서,
    상기 영상번역서버는,
    상기 방송인 단말이 방송을 송출하면 상기 송출된 방송을 영상 데이터와 음성 데이터로 분리하고, 상기 영상 데이터를 사용자에게 전송하며, 상기 분리된 음성 데이터를 텍스트 데이터로 변환하고, 상기 텍스트 데이터를 상기 사용자 설정정보를 기반으로 번역하여 텍스트 번역데이터를 생성하며, 상기 텍스트 번역데이터를 상기 사용자 단말에 전송하는 것을 특징으로 하는,
    방송 번역 애플리케이션 서비스 제공방법.

KR1020220002987A 2022-01-07 2022-01-07 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법 KR20230107059A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020220002987A KR20230107059A (ko) 2022-01-07 2022-01-07 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법
KR1020240022327A KR20240026475A (ko) 2022-01-07 2024-02-16 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220002987A KR20230107059A (ko) 2022-01-07 2022-01-07 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020240022327A Division KR20240026475A (ko) 2022-01-07 2024-02-16 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법

Publications (1)

Publication Number Publication Date
KR20230107059A true KR20230107059A (ko) 2023-07-14

Family

ID=87155326

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020220002987A KR20230107059A (ko) 2022-01-07 2022-01-07 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법
KR1020240022327A KR20240026475A (ko) 2022-01-07 2024-02-16 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020240022327A KR20240026475A (ko) 2022-01-07 2024-02-16 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법

Country Status (1)

Country Link
KR (2) KR20230107059A (ko)

Also Published As

Publication number Publication date
KR20240026475A (ko) 2024-02-28

Similar Documents

Publication Publication Date Title
JP4439740B2 (ja) 音声変換装置及び方法
US5815196A (en) Videophone with continuous speech-to-subtitles translation
KR101899588B1 (ko) 수어 애니메이션 데이터를 자동으로 생성하는 시스템과 이를 이용한 방송시스템 및 방송방법
US10991380B2 (en) Generating visual closed caption for sign language
US20130338997A1 (en) Language translation of visual and audio input
WO1997008895A1 (fr) Systeme de telephone chirologique
JP3670180B2 (ja) 補聴器
JP2003345379A6 (ja) 音声映像変換装置及び方法、音声映像変換プログラム
JP2016091057A (ja) 電子機器
JP2012109901A (ja) 資料提示装置
KR20200090355A (ko) 실시간 번역 기반 멀티 채널 방송 시스템 및 이를 이용하는 방법
JP2018528730A (ja) 動画提供装置、動画提供方法及びそのコンピュータプログラム
Priya et al. Indian and english language to sign language translator-an automated portable two way communicator for bridging normal and deprived ones
WO2024008047A1 (zh) 数字人手语播报方法、装置、设备及存储介质
KR102300589B1 (ko) 수화통역 시스템
KR20230107059A (ko) 방송 번역 애플리케이션 서비스 제공 시스템 및 이를 제공하는 방법
TW201102836A (en) Content adaptive multimedia processing system and method for the same
JP6172770B2 (ja) 要約筆記支援システム、情報配信装置、要約筆記支援方法、及びプログラム
CN112764549B (zh) 翻译方法、装置、介质和近眼显示设备
JPH1141538A (ja) 音声認識文字表示装置
KR101920653B1 (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
CN115171645A (zh) 一种配音方法、装置、电子设备以及存储介质
KR102160117B1 (ko) 장애인을 위한 실시간 방송 컨텐츠 제작 시스템
CN210091177U (zh) 一种实现同步翻译的会议系统
KR20140084463A (ko) 화자 정보를 표시하는 장치 및 방법 그리고, 동영상을 편집하는 서버

Legal Events

Date Code Title Description
E601 Decision to refuse application
E801 Decision on dismissal of amendment