KR102061044B1 - 수화 번역 및 화면 해설 서비스 방법 및 시스템 - Google Patents

수화 번역 및 화면 해설 서비스 방법 및 시스템 Download PDF

Info

Publication number
KR102061044B1
KR102061044B1 KR1020130048710A KR20130048710A KR102061044B1 KR 102061044 B1 KR102061044 B1 KR 102061044B1 KR 1020130048710 A KR1020130048710 A KR 1020130048710A KR 20130048710 A KR20130048710 A KR 20130048710A KR 102061044 B1 KR102061044 B1 KR 102061044B1
Authority
KR
South Korea
Prior art keywords
video
sign language
unit
translation
dvs
Prior art date
Application number
KR1020130048710A
Other languages
English (en)
Other versions
KR20140130335A (ko
Inventor
안준영
양승원
이민제
이상욱
장경미
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to KR1020130048710A priority Critical patent/KR102061044B1/ko
Priority to US14/265,880 priority patent/US9800955B2/en
Publication of KR20140130335A publication Critical patent/KR20140130335A/ko
Application granted granted Critical
Publication of KR102061044B1 publication Critical patent/KR102061044B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/036Insert-editing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/93Regeneration of the television signal or of selected parts thereof
    • H04N5/9305Regeneration of the television signal or of selected parts thereof involving the mixing of the reproduced video signal with a non-recorded signal, e.g. a text signal

Abstract

본 발명은 시청각장애인이 영상 매체를 이용하는데 도움이 될 수 있도록 화면해설과 수화가 포함되는 동영상을 손쉽게 만들 수 있는 수화 번역 및 화면 해설 서비스 방법 및 시스템에 관한 것이다.
본 발명의 실시 예에 따른 수화 번역 및 화면 해설 서비스 방법은 동영상의 자막으로부터 텍스트 형태의 문자열을 추출하는 과정; 사용자가 동영상에 대응하는 텍스트 정보를 입력하는 과정; 상기 자막으로부터 추출된 텍스트 형태의 문자열을 기계어 번역하는 과정; 기계어 번역된 문자열을 데이터베이스화된 수화동영상에 매칭시켜 수화동영상을 생성하는 과정; 상기 동영상에 싱크시켜 수화동영상을 믹싱하는 과정; 상기 동영상에 믹싱된 수화동영상을 편집 툴에 따라 편집하는 과정을 포함한다.

Description

수화 번역 및 화면 해설 서비스 방법 및 시스템{METHOD AND SYSTEM FOR TRANSLATING SIGN LANGUAGE AND DESCRIPTIVE VIDEO SERVICE}
본 발명은 수화 번역 및 화면 해설 서비스 방법 및 시스템에 관한 것으로서, 특히 시청각장애인이 영상 매체를 이용하는데 도움이 될 수 있도록 화면해설과 수화가 포함되는 동영상을 손쉽게 만들 수 있는 수화 번역 및 화면 해설 서비스 방법 및 시스템에 관한 것이다.
시각장애인들은 청각을 통해서만 정보를 전달 받을 수 있다. 시각장애인은 TV와 같은 영상 매체에서 사람의 대사나 효과음을 통해서만 정보를 얻을 수 있다. 그 이유는 움직임 및 행동과 같은 정보는 알 수 없기 때문이다. 이러한 점을 해결하기 위해 방송국 등에서는 화면해설방송과 같은 서비스를 제공할 수 있다.
또한, 청각장애인은 시각적으로 보여지는 수화를 이용하거나 컴퓨터 상의 텍스트나 지면상의 텍스트를 통하여 의사소통을 한다. 그러나 텍스트를 통한 의사 전달은 상이한 문법 및 표현 체계의 차이로 충분히 의미를 담아내지 못하는 경우가 많다. 왜냐하면, 텍스트를 통한 의사전달은 정보 왜곡 및 손실 등의 문제가 발생하기 때문이다.
수화자와 비수화자간의 의사소통은 수화 통역사를 통하는 방식과 텍스트를 통하는 방식 등이 주를 이룬다. 그러나, 통역사를 통한 방식은 현실적으로 비용에 한계가 있다. 따라서, 청각장애인과의 의사소통 시에는 간단한 형태의 텍스트를 주된 매체로 활용하고 있다. 수화와 한국어의 문법 및 표현 체계의 차이 때문에, 수화자는 텍스트로 의미를 전달하는 경우 의미를 충분히 담아내지 못하는 경우가 많다.
청각장애인들은 텍스트 형태의 정보 해석에 있어서 음성 언어에 대한 충분한 학습의 기회를 갖지 못하게 되었다. 따라서, 청각장애인들은 텍스트를 통해 의사소통하는 경우에 이를 분석적으로 해석해야 하는 불편함이 있다.
그러나, 수화 통역사를 거치는 방식으로 널리 사용되는 것이 방송국에서 제작하는 수화방송이다. 그러나, 방송사에서 제작하는 방식은 원본동영상에 맞춰 수화영상을 제작하고 다시 원본동영상에 맞춰 수화를 편집한다. 이후에 방송사의 편집과정은 수화영상을 OSD 형식으로 원본동영상에 삽입하는 과정을 거친다. 하지만, 방송사에서 제작하는 방식은 사람이 직접 대응하는 수화영상을 제작하고 입력하므로 정확도가 높은 장점이 있지만, 방송국에서 제작하고 보급하는 콘텐츠에 한정된다는 단점이 있다.
한편, 이와 같은 단점을 극복하고 누구나 쉽게 동영상에 수화영상을 삽입하고자 하는 노력이 진행 중에 있다. 이를 위하여 동영상에서 오디오 데이터를 추출하고 이를 수화로 자동으로 번역하여 표시하고자 하는 시도가 진행중이다. 하지만, 이와 같은 시도들은 정확도가 떨어지는 문제점이 있다. 예컨대, 오디오 인식률이 일정비율 이상 되어야 한다. 또한, 일정비율 이상의 오디오 인식률을 달성하였다고 하여도 수화영상으로 번역하는 과정에서 오류가 발생할 수가 있다. 또한, 수화는 일반적으로는 한글의 문법체계를 따른다. 하지만, 수화는 조사를 표현하지 않지만, 구분은 할 필요가 있다. 또한, 수화는 복합절 등에서서도 주어 및 목적어 보어 등을 구분해야 하므로, 한글의 문법체계와는 조금은 다른 구조를 가진다.
따라서, 인식된 오디오 데이터로부터 문자를 추출하는 과정에서 오류가 발생한다. 또한, 수화로 번역하는 과정도 오류가 발생할 수 있기 때문에, 번역의 정확성이 떨어지는 문제점이 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 시청각장애인에게 제공되는 영상 매체에 정확도가 높은 화면해설과 수화가 포함되도록 하는 수화 번역 및 화면 해설 서비스 방법 및 시스템을 제공하는데 있다.
상기와 같은 목적을 달성하기 위해 본 발명의 실시예에 따른 수화 번역 및 화면 해설 서비스 방법은 동영상의 자막으로부터 텍스트 형태의 문자열을 추출하는 과정; 상기 자막으로부터 추출된 텍스트 형태의 문자열을 기계어 번역하는 과정; 기계어 번역된 문자열을 데이터베이스화된 수화동영상에 매칭시켜 수화동영상을 생성하는 과정; 상기 동영상에 싱크시켜 수화동영상을 믹싱하는 과정; 상기 동영상에 믹싱된 수화동영상을 편집 툴에 따라 편집하는 과정을 포함한다.
상기와 같은 목적을 달성하기 위해 본 발명의 실시 예에 따른 수화 번역 및 화면 해설 서비스 시스템은 동영상의 자막으로부터 텍스트 형태의 문자열을 추출하고 상기 텍스트 형태의 문자열을 기계어 번역하는 기계어번역부; 상기 기계어번역부에 의해 번역된 문자열을 각각의 수화로 매칭시키고 매칭된 수화동영상들을 연결하여 번역된 수화동영상을 생성하는 수화처리부; 상기 동영상에 자막을 표시하고 상기 동영상에 수화동영상을 믹싱하여 플레이시키도록 구성하는 비디오믹싱부; 상기 오디오믹싱부 및 상기 비디오믹싱부에 의해 처리된 상기 베리어프리 동영상을 저장하는 저장부; 상기 동영상 또는 상기 저장부에 저장된 상기 베리어프리 동영상을 불러와서 플레이시키는 베리어프리툴부를 포함한다.
이상에서 살펴본 바와 같이 본 발명의 실시 예에 따른 수화 번역 및 화면 해설 서비스 방법 및 시스템은 현재 매체의 도움 없이 스스로 프로그램을 시청할 수 있도록 하는 효과가 있다.
본 발명은 입력된 자막에 따라 번역을 수행하고, 잘못된 부분에 대해서는 사용자가 수화동영상 데이터베이스로부터 검색하여 적합한 수화를 편집할 수 있으므로 원본동영상에 일치하는 정확한 수화동영상을 제공할 수 있는 효과가 있다.
도 1은 본 발명의 일실시예에 따른 수화 번역 및 화면 해설 서비스하기 위한 시스템 구성을 나타낸 블록 구성도이다.
도 2는 본 발명의 일실시예에 따라 SAMI 파일의 포맷의 구성의 일예를 나타낸 포맷도이다.
도 3은 본 발명의 일실시예에 따라 문자열을 형태소로 분리하고 형태소에 태그를 붙이는 과정을 나타낸 도면이다.
도 4는 본 발명의 일실시예에 따라 문자열을 수화로 변역하기 위한 신경망 알고리즘의 일예를 나타낸 도면이다.
도 5의 본 발명의 일실시예에 따라 원본동영상과 대응하는 수화동영상을 플레이시키도록 구성한 UI를 나타낸 도면이다.
도 6은 본 발명의 일실시예에 따라 수화 번역하고 화면 해설 서비스를 수행하는 과정을 나타낸 순서도이다.
도 7은 본 발명의 도 6에 따라 기계어 번역하는 과정을 개략적으로 나타낸 순서도이다.
도 8은 본 발명의 일실시예에 따라 베리어프리 동영상을 편집하는 UI를 나타낸 도면이다.
도 9는 본 발명의 일실시예에 따라 수화를 등록할 수 있는 UI를 나타낸 도면이다.
도 10은 본 발명의 일실시예에 따라 수화영상편집 메뉴를 실행시킨 UI 화면을 나타낸 도면이다.
도 11은 본 발명의 다른 실시예에 따라 수화를 편집하는 UI를 나타낸 도면이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예들을 상세히 설명한다. 이때, 첨부된 도면에서 동일한 구성 요소는 가능한 동일한 부호로 나타내고 있음에 유의해야 한다. 또한, 본 발명의 요지를 흐리게 할 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략할 것이다.
한편, 본 명세서와 도면에 개시된 본 발명의 실시 예들은 본 발명의 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.
한편, 본 발명에서 지문자란 손가락으로 시공간에 한글자음과 모음을 표기하여 글모양을 형성하는 것으로 수화로 표현되지 않는 단어, 예컨대, 이름 등을 표기하기 위한 수단이다.
본 발명에서 기계 번역은 인간이 사용하는 자연 언어를 컴퓨터를 이용하여 다른 언어로 번역하는 일을 뜻한다. 특히 본 발명에서는 자연 언어를 수화로 번역하는 것을 의미한다.
본 발명에서 신경망 알고리즘은 생명체의 신경조직에서 착안하여 모델화한 정보처리 시스템으로서 단순한 소자들의 병렬, 분산 연결구조를 가지고 있으며, 외부로부터 받아들이는 입력에 대하여 동적 반응을 일으킴으로써 필요한 출력을 생성한다.
본 발명에서 SAMI(Synchronized Accessible Media Interchange)는 마이크로소프트의 자막 표준 형식이다. SAMI는 HTML을 닮은 마크업 언어(Markup Language)이며 타임 정보를 가지고 있기 때문에 원본동영상과 싱크된다. smi의 확장자를 갖는 파일들은 SAMI 형식을 따라 제작된 것들이다.
본 발명에서 DirectShow 의 SAMI Parser Filter를 이용하면 SAMI 데이터를 텍스트 스트림으로 추출할 수 있다. Renderer Filter를 이용하여 자막이 있는 영상은 자막을 같이 출력하도록 할 수 있다.
본 발명의 VMR(Video Mixing Renderer)은 윈도우(Windows) 플랫폼의 차세대 비디오 렌더링을 대표하는 필터링 기술로 기존의 오버레이 믹서와 비디오 렌더러에 더해져 새로운 믹싱 기능을 제공할 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 구성에 대하여 상세하게 설명하기로 한다.
도 1은 본 발명의 일실시예에 따른 수화 번역 및 화면 해설 서비스하기 위한 시스템 구성을 나타낸 블록 구성도이다. 도 1을 참조하면, 원본동영상에 제공된 텍스트 형태의 자막 데이터 또는 사용자가 직접 입력하여 생성한 자막 데이터로부터 텍스트 형태의 문자열을 추출해 낸다. 예컨대, DirectShow의 SAMI Parser Filter를 이용하면 SAMI 형태의 자막 데이터로부터 문자열을 추출할 수 있다. 또한, Renderer Filter를 이용하여 자막이 있는 영상은 자막으로부터 문자열을 추출한다.
이와 같이 자막으로부터 추출된 텍스트 형태의 문자열은 기계어 번역 과정을 거쳐야한다. 한편, 원본동영상에 자막 파일이 있는 경우에는 자막 파일을 그대로 활용하고, 자막 파일이 없는 경우에는 자막을 원본동영상에 삽입하는 작업을 수행한다. 자막을 삽입하는 과정을 후술하는 UI를 통해 사용자가 입력할 수 있다.
본 발명의 시스템은 기계어번역부(110), 수화처리부(120), DVS(Descriptive Video Service) 처리부(130), 비디오믹싱부(140), 편집부(150), 저장부(160as), 편집부(170) 및 베리어프리툴부(180) 등으로 구성된다. 그리고, 기계어번역부(110)는 형태소분석부(112), 말뭉치주석부(114) 및 신경망 알고리즘부(116)로 구성된다.
말뭉치주석부(114)는 자막에서 문자열을 추출하고 띄어쓰기와 기호를 기준으로 분석할 문자열을 분리하는 역할을 수행한다.
형태소분석부(112)는 말뭉치주석부(114)에서 분석된 문자열을 형태소로 분석한다. 그리고, 형태소분석부(112)를 통해 형태소 형태로 분석된 문자열은 신경망 알고리즘부(116)를 통해 수화에 적합하게 번역된다.
말뭉치주석부(114)는 마크업 언어 형태의 자막 파일로부터 대응하는 문자열을 추출해 낸다. 도 2를 참조하면, 참조번호 201에는 SAMI 파일을 나타내며, 참조번호 202는 SAMI 파일의 포맷의 형태의 일예를 나타내고 있다. 참조번호 202를 참조하면, SAMI 파일의 포맷은 마크업 언어 형태로 표시되며, SAMI 자막 파일은 헤더(Header)와 바디(body) 부분으로 구분된다. 헤더에는 자막 파일의 언어와 자막이 위치하는 위치와 자막의 글자 크기, 자막에 사용된 언어 등이 표시된다. 바디 부분에는 원본동영상과의 싱크 정보가 표시되고, 실질적인 자막에 대응하는 문자열이 표시된다. 이 때, 말뭉치주석부(114)는 자막에서 문자열을 추출하고, 원본동영상에 대응하는 문자열의 싱크 정보를 추출한다.
말뭉치주석부(114)는 자막에서 추출된 문자열을 먼저 띄어쓰기와 기호를 기준으로 분석할 문자열을 띄어쓰기와 문장기호 단위로 분리하고, 분할하는 과정을 수행할 수 있다.
말뭉치주석부(114)가 참조하는 데이터 사전(도시되지 않음)에는 단어에 대한 정보가 저장되어 있고 데이터 사전을 기반으로 문자열에 있는 단어들을 분석할 수 있다. 이 때, 데이터 사전의 데이터가 많을수록 말뭉치에 대한 분리에 대한 정확도가 높아진다. 말뭉치에서 분리된 단어들을 추론하고 추론된 단어들에 대하여 사용자가 동의할 경우, 데이터 사전에 등록할 수 있다.
형태소분석부(112)는 말뭉치주석부(114)에서 분석된 띄어쓰기와 기호에 의해 분석된 정보를 각각의 형태소로 분리하는 작업을 수행할 수 있다.
형태소분석부(112)가 말뭉치주석부(114)에서 처리된 정보를 해당 문자열 또는 단어에 대해 형태소로 분리한다. 이 때, 형태소분석부(112)는 문법 형태소 사전과 어휘 형태소 사전을 검색하여 말뭉치주석부(114)에서 처리된 단어에 대하여 형태소로 분리하고 태그(Tag)를 수행할 수 있다.
형태소분석부(112)는 말뭉치주석부(114)에서 전처리된 문자열을 다시 형태소로 구분하고 태그를 붙일 수 있다. 도 3에는 문자열을 분리하고 분리된 문자열을 다시 형태소로 분리하고 형태소에 태그를 붙이는 과정을 나타낸 도면이 도시되어 있다. 도 3을 참조하면, 먼저, 식별번호 301에 "김연아는 "안녕"이라고 했다."라는 문구가 표시되어 있다. 이 문자열에서 말뭉치주석부(114)에 의해 띄어쓰기와 문장식별기호를 기준으로 문자열을 분리한다. 그럼, [김연아는]["][안녕]["][이라고][했다][.]로 분류할 수 있다. 다시 참조번호 302를 참조하면, 이와 같이 분리된 문자열은 형태소분석부(112)에 의해 다시 형태소 단위로 분리할 수 있다.
형태소로 분리된 문자열은 다시 형태소분석부(112)에 의해 형태소마다 태그가 붙여진다. 품사 태그는 세종 품사 태그를 기준으로 설명하기로 하기로 한다. 후술하는 표에서는 가장 범용적으로 형태소들을 분류한 세종 품사 태그를 나타내었다. 그러나, 품사 태그를 분류함에 있어 세종 품사 태그에 한정되는 것은 아니며, 다른 여러 가지가 품사 태그가 사용될 수 있다.
하기의 표에서 표 1은 세종 품사 태그의 체언이 표시되며, 표 2는 세종 품사 태그의 용언이 표시된다. 표 3은 세종 품사 태그의 수식언이 표시되며, 표 4는 세종 품사 태그의 독립언이 표시된다. 표 5는 세종 품사 태그의 관계언이 표시되며, 표 6은 세종 품사 태그의 의존형태가 표시된다. 그리고 표 7은 세종 품사 태그의 기호가 표시된다.
대분류 소분류 세분류
(1) 체언 명사NN 일반명사NNG고유명사NNP의존명사NNB
대명사NP
수사NR
(2) 용언 동사VV
형용사VA
보조용언VX
지정사VC 긍정지정사VCP부정지정사MAJ
(3) 수식언 관형사MM
부사MA 일반부사MAG
접속부사MAJ
(4) 독립언 감탄사IC
(5) 관계언 격조사JK 주격조사JKS
보격조사JKC
관형격조사JKG
목적격조사JKO
부사격조사JKB
호격조사JKV
인용격조사JKQ
보조사JX
접속조사JC
(6) 의존형태 어미E 선어말어미EP
종결어미EF
연결어미EC
명사형전성어미ETN
관형형전성어미ETM
접두사XP 체언접두사XPN
접미사XS 명사파생접미사XSN
동사파생접미사XSV
형용사파생접미사XSA
(부사파생접미사XSB)
어근XR
(7) 기호 마침표, 물음표, 느낌표 SF
쉼표, 가운뎃점, 콜론, 빗금 SP
따옴표, 괄호표, 줄표 SS
줄임표 SE
붙임표(물결, 숨김, 빠짐) SO
외국어 SL
한자 SH
기타 기호(논리 수학기호, 화폐 기호) 등) SW
명사추정범주 NF
용언추정범주 NV
숫자 SN
분석불능범주 NA
표 1 내지 표 7을 참조하여 도 3에 표시된 형태소들을 태그하면, 우선 [김연아는]에서 김연아는 고유명사이므로 표 1을 참조하여 NNP로 태깅된다. "김연아는"에서 는은 주격조사이며, 표 5를 참조하여 JKS로 태깅된다. ["]에서 "는 문장식별기호 중 따옴표이며, 표 7을 참조하여 SS로 태깅된다. [안녕]은 품사분류로 감탄사와 명사가 있을 수 있다. 이 때, 안녕이라는 단어가 따옴표로 처리되었으므로 이에 대한 품사는 감탄사로 처리한다. 따라서, 안녕은 표 4를 참조하여 IC로 태깅된다. ["]는 문장식별부호 중 따옴표이며, 표 7을 참조하여 SS로 태깅된다. [이라고]에서 이라고는 인용격 조사를 나타내며, 표 5를 참조하여 JKQ로 태깅된다. [했다]는 하와 였과 다로 구분되며, 각각 하는 하다의 어근을 갖는 동사이므로, 표 2를 참조하여 VV로 태깅된다. 였은 시제를 나타내는 선어말 어미로 표 6을 참조하여 EP로 태깅된다. 다는 종결어미로 표 6을 참조하여 EF로 태깅된다. 마지막으로 [.]는 마침표로 표 7을 참조하여 SF로 태깅된다.
신경망 알고리즘부(116)는 전술한 바와 같이 태그된 문자열에 대하여 번역을 수행한다. 도 4는 본 발명의 일실시예에 따라 문자열을 수화로 변역하기 위한 신경망 알고리즘의 일예를 나타낸 도면이다. 도 4를 참조하여 보면, 수많은 문자열을 매칭되는 하나의 수화에 매칭시키는 경우에 있어서, 잘못된 수화에 매칭시키는 일이 발생할 수 있다. 따라서, 단일 문장으로 분석이 수행된 경우에 있어서도 후처리 과정을 수행하여 오차를 최소화한다.
이러한 특성을 바탕으로 번역 작업 이후 사용자의 후처리 과정을 통해 동일한 뜻의 다양한 단어가 수화 단어에 매칭하도록 구현하기 위하여 신경망에 의한 번역을 수행한다. 이 때, 오차값이 수렴하고 수렴한 오차값이 일정값을 유지하면, 신경망에 의한 번역을 종료한다.
도 4에 도시된 다층퍼셉트론(Multilayer Perceptron ; MLP) 구조는 입력층, 은닉층, 출력층의 3층(Three layer)으로 구성 되어 있다. 또한, 활성화함수는 오차를 최소화시킨 결과값을 출력하기 위하여 시그모이드 함수를 사용하였다. 또한 오류역전파 학습 알고리즘(error backpropagation learning algorithm)을 이용하여 학습방법을 구현하였다.
수화처리부(120)는 기계어번역부(110)에 의해 번역된 문자열을 각각의 수화로 매칭시키고 매칭된 수화동영상들을 연결하여 번역된 수화동영상을 생성하고 이 생성된 수화동영상은 문자열에 포함된 싱크 신호와 함께 베리어프리툴부(180)로 전송한다.
DVS 처리부(130)는 앞서 설명한 바와 같이 원본동영상을 시각 장애인에게 음성으로 설명하기 위한 DVS 음성의 입력을 처리한다. 사용자는 원본동영상을 보면서 대응하는 부분에 DVS 음성을 입력한다. 예컨대, DVS 음성은 원본동영상에 대한 상황설명, 상세묘사, 부연설명 등을 통해 해당 동영상에 대한 상황을 쉽게 이해할 수 있도록 하는 음성이다.
DVS 처리부(130)는 입력된 아날로그 형태의 DVS 음성을 수신하여 원본동영상에 싱크시키고, 아날로그 형태의 DVS 음성을 디지털 형태의 DVS 음성 데이터로 변환한다. DVS 처리부(130)는 원본동영상에 매칭되도록 싱크신호와 함께 디지털로 전환된 DVS 음성 데이터를 베리어프리툴부(180)로 전송한다.
비디오믹싱부(140)는 동영상에 OSD(On Screen Display) 방식에 의해 자막을 삽입하거나 또는 도 5의 UI에 표시된 바와 같이 화면을 분할하고 각각 분활된 화면에 베리어프리 동영상을 플레이시키고 분할된 다른 화면에는 싱크된 수화동영상을 플레이시키도록 구성할 수 있다. 이 때, DVS 음성 데이터 및 수화동영상 중 최소 하나가 믹싱된 상태의 동영상을 베리어프리 동영상으로 칭하기로 한다.
그러나, 도 5에 도시된 바와 같이 화면을 각각 분할하여 한쪽에는 베리어프리 동영상을 한쪽에는 수화동영상을 플레이시켜 청각장애인이 큰 화면으로 수화를 볼 수 있도록 하는 것이 바람직할 것이다.
편집부(170)를 통해 사용자가 자막을 입력할 수 있다. 이 때, 앞선 기계어번역부(110)에서 설명된 바와 같이 자막은 자막 제작 규격에 따라 작성되므로 싱크 신호가 포함되어 있다. 다시 말하면, 자막을 제작함에 있어서, 원하는 동영상의 위치에 입력하면 대응하여 자막이 싱크되어 입력된다.
편집부(170)는 잘못 번역된 수화동영상을 오류 편집하거나, 또는 입력이 누락된 수화동영상을 삽입 편집한다. 또한, 편집부(170)를 통해 사용자가 DVS 음성을 편집할 수 있다.
한편, 베리어프리툴부(180)는 원본동영상에 수화동영상을 믹싱한다. 이 때, 수화동영상이 원본동영상에 싱크되어 믹싱된다. 수화동영상에 대한 싱크는 자막에서 추출된 문자열에 포함되어 수화처리부(120)로부터 수신된 싱크 신호에 맞춘다.
그리고 만약 재생 요청이 입력되면, 베리어프리툴부(180)는 비디오믹싱부(140)에서 제공된 플레이부의 틀에 수화동영상이 동기된 베리어프리 동영상과 수화동영상을 각각 배치하고 플레이시킬 수 있다. 그리고, 베리어프리 동영상에 대한 해상도 변경이 필요한 경우에는 해상도를 변경하는 엔코딩을 수행할 수 있다. 그러나, 베리어프리 동영상을 하나의 큰 화면으로 구성하고 그 위에 OSD 형태의 수화동영상을 표시할 수도 있다.
또한, 베리어프리툴부(180)는 오디오믹싱부(150)로 하여금 DVS 처리부(130)로부터 입력된 디지털 상태의 DVS 음성 데이터를 베리어프리 동영상에 싱크를 맞춰 믹싱하도록 한다. 이와 같이 디지털 상태의 DVS 음성 데이터 및 수화동영상이 믹싱된 상태의 베리어프리 동영상을 필요에 따라 저장부(160)에 저장한다.
DVS 음성 또는 수화동영상 중 적어도 하나가 믹싱된 형태의 베리어프리 동영상을 필요에 따라 사용자가 저장부(160)로부터 불러와서 베리어프리툴부(180)에 연결된 편집부(170)가 편집할 수 있다. 그리고, 저장부(160)에 저장된 베리어프리 동영상은 사용자가 불러와서 베리어프리툴부(180)를 통해 플레이시킬 수 있다.
도 6은 본 발명의 일실시예에 따라 수화 번역하고 화면 해설 서비스를 수행하는 과정을 나타낸 순서도이다. 도 6을 참조하면, 기계어번역부(110)는 (S601)과정에서 원본동영상에 제공된 텍스트 형태의 자막 데이터 또는 사용자가 입력하여 생성한 자막 데이터로부터 텍스트 형태의 문자열을 추출해 낸다.
기계어번역부(110)는 (S602)과정에서 자막으로부터 추출된 텍스트 형태의 문자열을 기계어 번역 과정을 거쳐 기계가 인식할 수 있는 언어로 번역하는 과정을 거친다. 이 때, 기계어번역부(110) 내의 말뭉치주석부(114)가 자막으로부터 텍스트 형태의 문자열을 추출하고, 문자열을 띄어쓰기와 문장식별기호를 기준으로 분리한다.
형태소분석부(112)가 분리된 문자열로부터 형태소로 분석하고 태그를 수행하며, 신경망 알고리즘부(116)가 형태소로 분석된 문장에 대한 번역을 수행한다. 이에 대해서는 후술하는 도 9를 참조하여 보다 상세하게 설명하기로 한다.
수화처리부(120)는 (S603)과정에서 기계어번역부(110)에 의해 번역된 문자열을 각각의 데이터베이스화된 수화동영상에 매칭시키고 매칭된 수화들을 연결하여 수화로 번역된 수화동영상을 생성한다. 수화처리부(120)는 (S604)과정에서 상기 생성된 수화동영상과 자막으로부터 추출한 싱크 신호를 함께 베리어프리툴부(180)로 전송한다.
사용자는 (S605)과정에서 베리어프리 동영상을 시청하는 시각 장애인을 위한 DVS 음성을 DVS 처리부(130)로 입력한다. DVS 음성은 플레이되는 동영상에 대한 상황설명, 상세묘사, 부연설명 등을 통해 해당 동영상이 펼쳐지는 상황을 시각 장애인이 쉽게 이해할 수 있도록 돕는 역할을 한다.
DVS 처리부(130)는 (S606)과정에서 입력된 아날로그 형태의 DVS 음성을 수신하여 디지털 형태의 DVS 음성 데이터로 전환한다. DVS 처리부(130)는 (S607)과정에서 디지털 형태로 전환된 DVS 음성 데이터 및 베리어프리 동영상에 싱크시킬 수 있는 싱크 신호를 베리어프리툴부(180)로 전송한다.
한편, 앞서 설명된 (S601)과정 내지 (S604)과정은 수화동영상을 입력하고 이를 베리어프리툴부(180)로 전송하는 과정이며, (S605)과정 내지 (S607)과정은 DVS 음성을 입력하고 이를 베리어프리툴부(180)로 전송하는 과정이다. 그러나, 도면의 설명에서는 설명의 편의를 위하여 기계어 번역하는 (S601)과정 내지 (S604)과정이 먼저 수행되고, DVS 음성을 입력하는 (S605)과정 내지 (S607)과정이 이후에 수행되는 것으로 설명되었으나 실제 적용에 있어서는 (S601)과정 내지 (S604)과 (S605)과정 내지 (S607)은 순서에 상관없이 진행될 수 있다. 예컨대, 사용자가 2명인 경우에는 동시에 다른 사용자에 의해 각각 진행되어 입력될 수도 있으며, 또는 (S605)과정 내지 (S607)이 먼저 수행되고, (S601)과정 내지 (S604)과정이 이후에 수행될 수도 있다. 즉, (S601)과정 내지 (S604)과 (S605)과정 내지 (S607)의 진행 순서는 선택적으로 변경될 수 있다.
한편, 베리어프리툴부(180)는 (S608)과정에서 비디오믹싱부(140)를 통하여 원본동영상에 싱크신호에 따라 수화동영상을 믹싱하고, 오디오믹싱부(150)를 통하여 원본동영상에 싱크신호에 따라 DVS 음성 데이터를 믹싱한다.
베리어프리툴부(180)는 (S609)과정에서 수화동영상과 DVS 음성 데이터 중 적어도 어느 하나가 믹싱된 동영상를 편집하는 것인지에 대하여 판단한다. 예컨대, 사용자로부터 동영상에 대하여 편집 명령이 입력되었는 지에 대하여 판단한다.
상기 (S609)과정에서 판단하여 동영상에 대한 편집 명령이 입력된 것으로 판단되면, 베리어프리툴부(180)는 (S610)과정에서 해당 편집 명령에 따라 원본동영상 또는 베리어프리 동영상에 포함된 DVS 음성 데이터, 수화동영상 또는 자막 중 적어도 어느 하나를 편집할 수 있다. 예컨대, 자막을 편집하게 되면, 대응하여 수화동영상도 대응하여 변경될 수 있다.
상기 (S609)과정에서 판단하여 베리어프리 동영상을 편집하지 않는 것으로 판단되면, 베리어프리툴부(180)는 (S611)과정에서 베리어프리 동영상을 저장할 것인지를 판단한다.
상기 (S611)과정에서 판단하여 베리어프리 동영상을 저장하는 것으로 판단되면, (S612)과정에서 베리어프리 동영상을 저장부(160)에 저장한다.
상기 (S611)과정에서 판단하여 베리어프리 동영상을 저장하지 않는 것으로 판단되면, 베리어프리 동영상을 저장하지 않고 베리어프리툴부(180)를 종료한다.
도 7은 본 발명의 도 6에 따라 기계어 번역하는 과정을 개략적으로 나타낸 순서도이다. 도 7을 참조하면, 우선 말뭉치주석부(114)는 (S701)과정에서 원본동영상과 대응하는 자막 파일을 수신한다. 말뭉치주석부(114)는 자막으로부터 문자열을 추출해 낸다. 또한, 말뭉치주석부(114)는 (S702)과정에서 문자열을 띄어쓰기와 문장식별기호를 기준으로 분리한다.
형태소분석부(112)는 (S703)과정에서 체언에 대하여 분석한다. 체언에는 조사가 붙는 경우가 많으며, 체언과 조사를 각각 분석한다. 예컨대, 앞의 도 2의 예에서는 [김연아는]이 체언분석의 예가 될 수 있을 것이다.
형태소분석부(112)는 (S704)과정에서 용언에 대하여 분석한다. 용언은 어근과 어미로 구분되며, 각각의 어근과 어미에 대하여 분석한다. 예컨대, 앞의 도 2의 예에서는 [했다]가 용언 분석의 예가 될 수 있을 것이다.
한편, 전술한 (S703)과정 및 (S704)과정의 체언분석 및 용언분석은 형태소 분석의 일부분이다. 그리고, (S703)과정 및 (S704)과정은 일반적인 그 순서가 서로 바뀔 수도 있으며, 문장의 구조에 따라서 상기 (S703)과정 및 (S704)과정이 반복적으로 수행될 수도 있다.
형태소분석부(112)는 (S705)과정에서 분석된 형태소들을 문자열 단위로 하나의 문장으로 구성하여 분석한다.
신경망 알고리즘부(116)는 형태소 단위로 단일 문장으로 구성된 문자열을 기계어로 번역한다. 예컨대, 주어와 목적어 동사 등을 구분하여 하나의 문장을 수화로 표현할 수 있도록 번역한다.
도 8은 본 발명에 따른 수화 번역 및 화면 해설 서비스하기 위하여 동영상을 편집하는 UI를 나타낸 도면이다. 도 8을 참조하면, 수화 영상을 합성하기 위하여 수화 어휘에 맞는 수화동영상을 직접 촬영하여 현재 프로젝트에 활용할 수 있도록 데이터베이스(Database ; DB)화하였다. 이 DB화된 수화동영상은 번역된 문자열과 매칭되어 표시된다. 즉, 문자열은 자막 파일에서 추출시 동기신호도 같이 추출하였으므로 비디오믹싱부(140)가 원본동영상에 수화동영상을 믹싱할 때, 동기를 맞추어 믹싱한다.
한편, 전술한 과정에 의해 생성된 수화동영상은 편집부(170)를 통해 편집될 수 있다. 동영상 편집 기능의 주 메뉴 구성으로 왼쪽 상단의 원본동영상 또는 베리어프리 동영상을 재생할 수 있는 플레이어부(802), 상기 플레이어부(802)에 동기되어 플레이되는 오른쪽 상단의 수화영상 재생부(804)와 그 하부에 구성된 각각의 자막번역 메뉴(806), 수화영상편집 메뉴(808), 작업불러오기 메뉴(810), 그리고, 아래쪽의 타임 라인 영역(812)이 있다. 한편, 플레이어부(802) 위에 수화동영상을 OSD 형태로 플레이시킬 수도 있다.
베리어프리 동영상과 동기되어 표시되는 번역된 수화동영상을 검토하여 수화 번역 상태를 확인할 수 있다. 이 때, 베리어프리 동영상과 수화동영상이 맞지 않는 부분이 있는 경우, 타임라인 영역(812)의 수화 탭 중 영상 편집 메뉴에서 등록된 수화 내용을 문자열 형태로 표시되는 자막과 비교하면서 편집할 수 있다.
각각의 수화동영상을 확인하는 중에 수화동영상의 번역이 이상한 장면 또는 누락된 장면이 발견되면, 수화등록 메뉴, 또는 수화영상편집 메뉴(808)를 통해 DB화된 수화동영상을 직접 등록할 수 있다. 도 9에 수화를 등록할 수 있는 UI 화면이 표시되어 있다. 도 9를 참조하면, 수화를 등록하는 UI화면은 사용자가 번역된 수화를 확인한 후 원하는 시간에 수화가 재생될 수 있도록 수동으로 등록하는 기능을 제공한다. 예컨대, 검색한 단어가 왼쪽 리스트에 표시되도록 한다. 한편, 시간, 분, 초, 배속을 입력한 다음 해당 수화동영상에 대응하는 단어의 추가 버튼을 누르면 수화 영상이 추가되고 작업 내역에 저장된다. 예컨대, 베리어프리 동영상의 32분 2초 되는 지점에 '가격표'라는 단어에 대응하는 수화가 누락된 경우 가격표라는 단어 검색을 누르면 해당 가격표에 대응하는 수화가 데이터 사전에 있는 경우 검색된다. 가격표 수화동영상을 베리어프리 동영상에 대응하는 시간대역에 입력한다. 예컨대, 32분 02초를 입력하면, 베리어프리 동영상의 32분 02초 플레이 타임에 입력된다. 이 때, 대응하여 자막은 변경되지 않으며, 필요한 경우 편집하여 변경할 수 있다.
사용자는 수화영상 재생부(804)의 하부에 구현된 자막번역 메뉴(806)를 실행시켜 불러온 원본동영상의 자막에 대하여 번역을 수행할 수 있다. 예컨대, 사용자가 자막번역 메뉴를 실행시키면, 전술한 기계어 번역과정을 과정을 거쳐 문자열이 번역되고 번역된 문자열에 대응하는 수화동영상이 원본동영상과 싱크된 상태로 믹싱되어 수화동영상이 삽입된 동영상이 만들어진다. 플레이어부(802)는 원본동영상 또는 베리어프리 동영상을 플레이시킬 수 있다.
사용자는 수화영상편집 메뉴(808)를 실행시켜 수화동영상이 믹싱된 동영상에 대하여 필요한 정보들을 등록 및 수정할 수 있다. 도 10은 수화영상편집 메뉴를 실행시킨 UI 화면이 표시된다. 도 10을 참조하면, 수화영상편집 메뉴를 실행시켜 수화동영상, VMS 음성, 자막 등을 등록 및 수정할 수 있다. 예컨대, 사용자가 편집 중에 베리어프리 동영상과 매칭되지 않는 부적절한 수화동영상 장면이 발견되거나, 누락된 수화동영상이 발견되는 경우, 부적절한 수화동영상을 적합한 수화동영상으로 대체하거나 삽입할 수 있다. 한국어와 한국 수화의 특성에 의해 자동으로 번역한 문장에는 오류가 발생할 수 있다. 예컨대, "나는 큰 집을 샀다"라는 문장을 번역하게 된다면, [나][크다][집][샀다]로 풀이되며, 이를 그대로 수화로 풀이하면"나는 크다. 집을 샀다"의 의미로 왜곡될 수 있다. 이 문장을 수화로 번역하는 경우, [나][집][사다][집][크다]로 정정되어야 올바른 의미 전달을 할 수 있다. 이와 같이 사용자가 수화동영상이 믹싱된 동영상을 편집하는 중에 원본동영상과 매칭되지 않는 부적절한 수화 장면이 발견되는 경우, 해당 부적절한 수화 장면을 적절한 수화동영상으로 대체할 수 있다. 이 때, 적합한 수화동영상은 데이터 사전에 대응하는 수화동영상이 저장되어 있는 DB로부터 검색 가능하며, 필요한 수화동영상을 찾아 수정이라는 버튼을 눌러 부적절한 수화동영상을 대체할 수 있다.
작업불러오기 메뉴(810)는 이전에 수화동영상이 번역되어 삽입되었거나, DVS(Descriptive Video Service) 음성이 삽입된 베리어프리 동영상을 불러오거나, 또는 수화동영상 및 DVS 음성이 삽입되지 않은 원본동영상을 불러올 수도 있다. 작업불러오기 메뉴(810)를 수행하여 불러온 동영상에 자막을 삽입할 수도 있고, 자막번역하거나, DVS 음성을 믹싱하는 등의 편집을 수행할 수도 있다.
타임라인 영역(812)은 video, 수화, 음성의 3개의 탭으로 구성된다. 타임라인 영역(812)은 일정 시간 간격으로 video, 수화 및 DVS 음성이 출력되는 상태를 썸네일 형태의 캡쳐화면으로 출력하거나, 또는 미리보기 또는 미리듣기 등을 제공한다.
Video 탭은 원본동영상을 썸네일 형태의 캡쳐화면으로 출력하여 보여줌으로써, 사용자가 원본동영상을 쉽게 검색할 수 있도록 한다. 예컨대, 타임라인 영역(812)에 표시된 Video 탭에는 플레이되는 동영상이 썸네일 형태로 표시되므로, 사용자가 동영상의 대략적인 플레이 시간 등을 쉽게 파악할 수 있다.
수화 탭은 수화동영상을 보여주고, 이에 대응하는 자막을 문자열 형태로 표시하여 수화동영상과 대응하는 자막을 비교할 수 있다. 또한, 수화 탭에서는 원본동영상 또는 베리어프리 동영상에 대응하는 자막을 입력할 수 있다. 이 때, 입력되는 자막은 일정한 자막 규격, 예컨대 SAMI(Synchronized Accessible Media Interchange) 규격에 따라 생성할 수 있다.
음성 탭은 DVS 음성에 대하여 미리듣기 기능을 제공하고 베리어프리 동영상과 맞지 않는 부분이 있거나, 또는 DVS 음성 입력이 추가적으로 필요한 경우, 해당 DVS 음성을 입력하고, 수정하거나, 추가적으로 입력할 수 있도록 편집 기능을 제공한다. 음성 탭 부분은 DVS 음성을 입력하고 편집할 수 있는 UI를 제공한다. 사용자가 동영상을 보고 해설이 필요한 부분에 대한 설명을 음성의 형태로 DVS 처리부(130)로 입력하면, DVS 처리부(130)는 아날로그 형태의 DVS 음성을 디지털 음성 DVS 데이터로 변환하여 베리어프리툴부(180)로 전송한다. 베리어프리툴부(180)는 전송된 디지털 형태의 DVS 음성 데이터를 원본동영상에 싱크를 맞춰 삽입하고 필요에 따라 DVS 음성이 데이터가 삽입된 베리어프리 동영상을 저장부(160)에 저장할 수 있다.
도 11은 본 발명의 다른 실시예에 따라 수화를 편집하는 UI를 나타낸 도면이다. 도 11을 참조하면, 앞서 도 8에서 설명한 바와 같이 수화 탭에서는 자막을 입력할 수 있다. 자막은 SAMI(Synchronized Accessible Media Interchange)의 저작도구를 이용하여 제작할 수 있다. 이와 같이 제작된 자막은 DirectShow의 SAMI Parser Filter를 이용하여 문자열을 추출할 수 있다.
원본의 동영상과 자막, 수화 영상, 화면해설 음성과 같은 입력 스트림들을 비디오믹싱부(140) 및 오디오믹싱부(150)를 이용해 믹싱한다. 예컨대, 비디오 믹싱과 오디오 믹싱을 제공하는 DirectShow의 VMR 필터(Filter)를 사용하여 비디오 및 오디오를 원본동영상에 믹싱할 수 있다.
이상에서는 본 발명의 실시 예에 따른 수화 번역 및 화면 해설 서비스 방법 및 시스템에 대하여 본 명세서 및 도면을 통해 바람직한 실시 예들에 대하여 설명하였으며, 비록 특정 용어들이 사용되었으나 이는 단지 본 발명의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위해 일반적인 의미에서 사용된 것일 뿐, 본 발명이 전술한 실시 예에 한정되는 것은 아니다.즉, 본 발명의 기술적 사상에 바탕을 둔 다양한 실시 예가 가능함은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.
110 : 기계어번역부 112 : 형태소분석부
114 : 말뭉치주석부 116 : 신경망 알고리즘부
120 : 수화처리부 130 : DVS 처리부
140 : 비디오믹싱부 150 : 편집부
160 : 저장부 170 : 편집부
180 : 베리어프리툴부

Claims (17)

  1. 수화 번역 및 화면 해설 서비스 방법에 있어서,
    동영상의 자막으로부터 텍스트 형태의 문자열을 추출하는 동작;
    상기 문자열을 기계어 번역하는 동작;
    상기 기계어 번역된 문자열을 데이터베이스화된 수화동영상에 매칭시켜 수화동영상을 생성하는 동작; 및
    상기 동영상에 상기 수화동영상을 싱크시키고 상기 동영상에 싱크된 상기 수화동영상을 믹싱하는 동작을 포함하고
    상기 문자열을 기계어 번역하는 동작은,
    상기 문자열을 띄어쓰기 및 문장 식별 기호에 기초하여 분리하는 동작;
    상기 분리된 문자열을 형태소 단위로 분리하는 동작;
    기 지정된 품사 태그 방식에 기초하여 상기 분리된 형태소 각각에 태그를 붙이는 동작; 및
    상기 태그를 붙인 형태소를 신경망 알고리즘에 입력하여 기계어로 번역하는 동작을 포함하는 것을 특징으로 하는 수화 번역 및 화면 해설 서비스 방법. .
  2. 제1항에 있어서,
    사용자가 상기 동영상을 설명하는 DVS(Descriptive Video Service) 음성을 입력하는 동작; 및
    상기 동영상에 싱크시켜 DVS 음성을 믹싱하는 동작;
    을 더 포함하는 것을 특징으로 하는 수화 번역 및 화면 해설 서비스 방법.
  3. 제2항에 있어서,
    상기 동영상을 저장하는 동작을 더 포함하는 것을 특징으로 하는 수화 번역 및 화면 해설 서비스 방법.
  4. 삭제
  5. 제1항에 있어서,
    상기 형태소 단위로 분리하는 동작은,
    상기 문자열을 분리하는 동작에서 분리된 문자열 중 체언에 대하여 분석하는 동작;
    상기 문자열을 분리하는 동작에서 분리된 문자열 중 용언에 대하여 분석하는 동작;
    상기 분석된 형태소들을 하나의 문장으로 구성하는 동작을 포함하는 것을 특징으로 하는 수화 번역 및 화면 해설 서비스 방법.
  6. 제2항에 있어서,
    상기 수화동영상을 편집 툴에 따라 편집하는 동작; 및
    상기 동영상에 믹싱된 DVS 음성을 편집 툴에 따라 편집하는 동작을 더 포함하고,
    상기 수화동영상 편집 툴은 수화 어휘에 맞는 수화 동작 동영상을 직접 촬영하여 데이터베이스화한 수화동영상들과, 상기 동영상 및 상기 동영상에 믹싱된 수화동영상을 플레이시키는 플레이어 및 상기 플레이어를 통해 표시되는 상기 동영상을 캡쳐한 정지영상의 썸네일을 표시하는 타임라인 영역을 포함하는 것을 특징으로 하는 수화 번역 및 화면 해설 서비스 방법.
  7. 제6항에 있어서,
    상기 타임라인 영역은 DVS 음성 편집 툴을 제공하고 제공된 상기 DVS 음성 편집 툴을 통해 DVS 음성을 플레이시키는 것을 특징으로 하는 수화 번역 및 화면 해설 서비스 방법.
  8. 제6항에 있어서,
    상기 타임라인 영역을 통해 상기 동영상에 싱크시켜 상기 자막을 입력하는 것을 특징으로 하는 수화 번역 및 화면 해설 서비스 방법.
  9. 제6항에 있어서,
    상기 수화동영상 편집 툴에 따라 편집하는 동작은,
    상기 동영상과 동기되어 표시되는 번역된 수화동영상을 확인하는 동작과;
    상기 수화동영상을 상기 자막과 비교하여 편집하는 동작을 포함하는 것을 특징으로 하는 수화 번역 및 화면 해설 서비스 방법.
  10. 동영상의 자막으로부터 텍스트 형태의 문자열을 추출하고 상기 문자열을 기계어 번역하는 기계어번역부;
    상기 기계어번역부에 의해 번역된 문자열을 각각의 수화로 매칭시키고 매칭된 수화동영상들을 연결하여 번역된 수화동영상을 생성하는 수화처리부;
    상기 동영상에 자막을 표시하고 상기 동영상에 수화동영상을 믹싱하여 플레이시키도록 구성하는 비디오믹싱부;
    상기 비디오믹싱부에 의해 처리된 베리어프리 동영상을 저장하는 저장부;
    상기 동영상 또는 상기 베리어프리 동영상을 불러와서 플레이시키는 베리어프리툴부를 포함하며,
    상기 기계어번역부는,
    상기 자막으로부터 문자열을 추출하고, 상기 문자열을 띄어쓰기와 문장 식별 기호 단위로 분리하는 말뭉치주석부;
    상기 분리된 문자열을 형태소 단위로 분리하고, 기 지정된 품사 태그 방식에 기초하여 상기 분리된 형태소 각각에 태그를 붙이는 형태소분석부; 및
    상기 태그를 붙인 형태소를 신경망 알고리즘에 입력하여 상기 형태소에 대한 기계어 번역을 수행하는 신경망 알고리즘부를 포함하는 것을 특징으로 하는 수화 번역 및 화면 해설 서비스 시스템.
  11. 제10항에 있어서,
    상기 베리어프리툴부에 연결되며 상기 동영상 또는 베리어프리 동영상 중 하나를 설명하는 DVS 음성의 입력을 처리하는 DVS 처리부;
    상기 DVS 처리부에서 처리된 DVS 음성을 상기 동영상 또는 상기 베리어프리 동영상 중 하나에 믹싱하는 오디오믹싱부를 더 포함하는 것을 특징으로 하는 수화 번역 및 화면 해설 서비스 시스템.
  12. 제11항에 있어서,
    상기 베리어프리툴부에 연결되어 상기 동영상 또는 상기 저장부에 저장된 상기 베리어프리 동영상 중 하나에 자막을 입력하거나, 편집하고, 상기 저장부에 저장된 상기 베리어프리 동영상에 믹싱된 상기 수화동영상을 편집하며, 상기 저장부에 저장된 베리어프리 동영상에 믹싱된 상기 DVS 음성을 편집하는 편집부를 더 포함하는 것을 특징으로 하는 수화 번역 및 화면 해설 서비스 시스템.
  13. 삭제
  14. 제10항에 있어서,
    상기 신경망 알고리즘부는 활성화함수로서 시그모이드 함수를 사용하는 것을 특징으로 하는 수화 번역 및 화면 해설 서비스 시스템.
  15. 제10항에 있어서,
    상기 신경망 알고리즘부는 학습 방법으로 오류역전파 학습 알고리즘을 이용하는 것을 특징으로 하는 수화 번역 및 화면 해설 서비스 시스템.
  16. 청각 및 시각 장애자를 위한 서비스 방법에 있어서,
    상기 청각 장애자를 위한 동영상의 자막으로부터 문자를 발생하는 동작;
    상기 발생된 문자를 수화 동영상에 매칭시켜 수화동영상을 생성하는 동작;
    상기 청각 장애자를 위한 동영상에 상기 수화 동영상을 동기화시켜 믹싱하는 동작으로 구성되며,
    상기 수화동영상을 생성하는 동작은,
    상기 발생된 문자를 띄어쓰기 및 문장 식별 기호에 기초하여 분리하는 동작;
    상기 분리된 문자를 형태소 단위로 분리하는 동작;
    기 지정된 품사 태그 방식에 기초하여 상기 분리된 형태소 각각에 태그를 붙이는 동작; 및
    상기 태그를 붙인 형태소를 신경망 알고리즘에 입력하여 기계어로 번역하는 동작을 포함하는 것을 특징으로 하는 수화 번역 및 화면 해설 서비스 방법.
  17. 제 16항에 있어서, 상기 믹싱하는 동작에
    상기 수화동영상을 편집 툴에 따라 편집하는 동작을 더 포함하는 것을 특징으로 하는 수화 번역 및 화면 해설 서비스 방법.
KR1020130048710A 2013-04-30 2013-04-30 수화 번역 및 화면 해설 서비스 방법 및 시스템 KR102061044B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020130048710A KR102061044B1 (ko) 2013-04-30 2013-04-30 수화 번역 및 화면 해설 서비스 방법 및 시스템
US14/265,880 US9800955B2 (en) 2013-04-30 2014-04-30 Method and system for sign language translation and descriptive video service

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130048710A KR102061044B1 (ko) 2013-04-30 2013-04-30 수화 번역 및 화면 해설 서비스 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20140130335A KR20140130335A (ko) 2014-11-10
KR102061044B1 true KR102061044B1 (ko) 2020-01-02

Family

ID=52452294

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130048710A KR102061044B1 (ko) 2013-04-30 2013-04-30 수화 번역 및 화면 해설 서비스 방법 및 시스템

Country Status (2)

Country Link
US (1) US9800955B2 (ko)
KR (1) KR102061044B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200132619A (ko) * 2019-05-17 2020-11-25 한국과학기술원 구어에서 수어로의 주의 기반 인공신경망 기계 번역 방법 및 그 장치
KR20230043647A (ko) 2021-09-24 2023-03-31 고려대학교 세종산학협력단 수어 자막 동영상 플랫폼 제공 방법 및 장치

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102025362B1 (ko) * 2013-11-07 2019-09-25 한화테크윈 주식회사 검색 시스템 및 영상 검색 방법
KR101801594B1 (ko) 2014-04-27 2017-11-27 엘지전자 주식회사 방송 신호 송신 장치, 방송 신호 수신 장치, 방송 신호 송신 방법, 및 방송 신호 수신 방법
KR102407630B1 (ko) * 2015-09-08 2022-06-10 삼성전자주식회사 서버, 사용자 단말 및 이들의 제어 방법.
TWI570676B (zh) * 2015-12-28 2017-02-11 國立高雄應用科技大學 手語翻譯系統
US10580457B2 (en) * 2017-06-13 2020-03-03 3Play Media, Inc. Efficient audio description systems and methods
US11190855B2 (en) * 2017-08-30 2021-11-30 Arris Enterprises Llc Automatic generation of descriptive video service tracks
KR102029980B1 (ko) * 2017-08-31 2019-10-08 한국전자통신연구원 대체 텍스트 생성 장치 및 그 방법
US10289903B1 (en) 2018-02-12 2019-05-14 Avodah Labs, Inc. Visual sign language translation training device and method
US10346198B1 (en) 2018-02-12 2019-07-09 Avodah Labs, Inc. Data processing architecture for improved data flow
US10489639B2 (en) 2018-02-12 2019-11-26 Avodah Labs, Inc. Automated sign language translation and communication using multiple input and output modalities
US10304208B1 (en) 2018-02-12 2019-05-28 Avodah Labs, Inc. Automated gesture identification using neural networks
WO2019157344A1 (en) 2018-02-12 2019-08-15 Avodah Labs, Inc. Real-time gesture recognition method and apparatus
KR102598824B1 (ko) * 2018-02-26 2023-11-06 구글 엘엘씨 미리 레코딩된 비디오들에 대한 자동화된 보이스 번역 더빙
US10902219B2 (en) * 2018-11-21 2021-01-26 Accenture Global Solutions Limited Natural language processing based sign language generation
USD912139S1 (en) 2019-01-28 2021-03-02 Avodah, Inc. Integrated dual display sensor
KR20200121603A (ko) * 2019-04-16 2020-10-26 삼성전자주식회사 텍스트를 제공하는 전자 장치 및 그 제어 방법.
CN110457673B (zh) * 2019-06-25 2023-12-19 北京奇艺世纪科技有限公司 一种自然语言转换为手语的方法及装置
KR102098734B1 (ko) * 2019-08-06 2020-04-08 전자부품연구원 대화 상대의 외형을 반영한 수어 영상 제공 방법, 장치 및 단말
KR20210026006A (ko) 2019-08-29 2021-03-10 조용구 영상의 음성을 아바타 및 애니메이션으로 변환하는 수화번역 시스템 및 방법
CN110730360A (zh) * 2019-10-25 2020-01-24 北京达佳互联信息技术有限公司 视频上传、播放的方法、装置、客户端设备及存储介质
US11394905B2 (en) 2019-12-13 2022-07-19 Sony Semiconductor Solutions Corporation Dynamic region of interest and frame rate for event based sensor and imaging camera
US11610356B2 (en) * 2020-07-28 2023-03-21 Samsung Electronics Co., Ltd. Method and electronic device for providing sign language
KR102495597B1 (ko) * 2020-10-16 2023-02-06 숙명여자대학교산학협력단 시각장애인을 위한 온라인 강의 콘텐츠 제공방법 및 그 사용자 단말
US11936940B2 (en) * 2021-05-05 2024-03-19 Disney Enterprises, Inc. Accessibility enhanced content rendering
KR102440894B1 (ko) * 2021-12-10 2022-09-06 주식회사 위아프렌즈 수어 동영상에 자막을 추가하는 시스템용 데이터베이스 구축 방법 및 이를 이용한 데이터베이스 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3953886B2 (ja) * 2002-05-16 2007-08-08 セイコーエプソン株式会社 字幕抽出装置
JP2010032733A (ja) * 2008-07-28 2010-02-12 Asutemu:Kk 手話映像生成システム、サーバ、端末装置、情報処理方法、及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8566075B1 (en) * 2007-05-31 2013-10-22 PPR Direct Apparatuses, methods and systems for a text-to-sign language translation platform
KR101130276B1 (ko) 2010-03-12 2012-03-26 주식회사 써드아이 수화 통역 시스템 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3953886B2 (ja) * 2002-05-16 2007-08-08 セイコーエプソン株式会社 字幕抽出装置
JP2010032733A (ja) * 2008-07-28 2010-02-12 Asutemu:Kk 手話映像生成システム、サーバ、端末装置、情報処理方法、及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200132619A (ko) * 2019-05-17 2020-11-25 한국과학기술원 구어에서 수어로의 주의 기반 인공신경망 기계 번역 방법 및 그 장치
KR102258906B1 (ko) 2019-05-17 2021-06-01 한국과학기술원 구어에서 수어로의 주의 기반 인공신경망 기계 번역 방법 및 그 장치
KR20230043647A (ko) 2021-09-24 2023-03-31 고려대학교 세종산학협력단 수어 자막 동영상 플랫폼 제공 방법 및 장치

Also Published As

Publication number Publication date
KR20140130335A (ko) 2014-11-10
US9800955B2 (en) 2017-10-24
US20150317304A1 (en) 2015-11-05

Similar Documents

Publication Publication Date Title
KR102061044B1 (ko) 수화 번역 및 화면 해설 서비스 방법 및 시스템
KR101990023B1 (ko) 외국어학습을 위한 청크단위 분리 규칙과 핵심어 자동 강세 표시 구현 방법 및 시스템
CN111968649B (zh) 一种字幕纠正方法、字幕显示方法、装置、设备及介质
Gibbon et al. Handbook of multimodal and spoken dialogue systems: Resources, terminology and product evaluation
US20180143956A1 (en) Real-time caption correction by audience
US20180144747A1 (en) Real-time caption correction by moderator
CN105704538A (zh) 一种音视频字幕生成方法及系统
US20050154971A1 (en) Document processing apparatus having an authoring capability for describing a document structure
JP2005504395A (ja) マルチリンガルトランスクリプションシステム
De Linde et al. Processing subtitles and film images: Hearing vs deaf viewers
JP2018112681A (ja) 外国語学習装置
Kapsaskis Subtitling, interlingual
KR20110090675A (ko) 수화 애니메이션 생성을 위한 시스템 및 방법
KR101932340B1 (ko) 원어민 동영상의 자막인지 및 해석기능을 갖는 영어 학습시스템을 이용한 영어 교육방법
Taibi et al. Ain’t that sweet. Reflections on scene level indexing and annotation in the House Corpus Project
US10902219B2 (en) Natural language processing based sign language generation
Wald Concurrent collaborative captioning
Mazur Linguistic and textual aspects of audio description
Cordella Discourse Analysis and Subtitles of Documentaries: the case of" The children of Russia"
Kumar et al. Development of a speech to Indian sign language translator
Putri The translation technique of subtitling and dubbing in original soundtrack movie (Frozen: Let it Go).
Kalantzi et al. Subtitling for the deaf and hard of hearing: A corpus-based methodology for the analysis of subtitles with a focus on segmentation and deletion
Prieels Balancing between language policy and language reality: a corpus-based multivariate study on linguistic norm adherence in Belgian-Dutch subtitling
KR20190122399A (ko) 퍼즐 게임으로 어순을 학습하는 외국어 학습 서비스 제공 방법
Kumar et al. Development of a Speech to Indian Sign Language Translator Check for updates

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant