WO2023106523A1

WO2023106523A1 - 수어 동영상에 자막을 추가하는 시스템용 데이터베이스 구축 방법 및 이를 이용한 데이터베이스 장치

Info

Publication number: WO2023106523A1
Application number: PCT/KR2022/008060
Authority: WO
Inventors: 조계연
Original assignee: 주식회사 위아프렌즈
Priority date: 2021-12-10
Filing date: 2022-06-08
Publication date: 2023-06-15
Also published as: KR102440894B1

Abstract

본 발명은 수어 통역사가 직접 수어 동영상을 보면서 농문화에서 의사소통이 가능한 글로스 단위(Gloss)로 번역한 번역 텍스트를 포함하는 자막 데이터를 입력받고, 이 자막 데이터를 수어 동영상에 바로 자막으로 활용하게 하면서, 텍스트 마이닝을 통해 자막 데이터에서 글로스 단위로 추출된 추출 키워드로 폴더(키워드명 폴더)를 형성하고 추출 키워드를 포함하는 키워드명 폴더에 각각 분할 동영상을 저장한 다음, 비디오 마이닝 기법으로 수어 동영상에서 검색 텍스트를 추출할 때 저장된 키워드명 폴더에서 가장 사용 빈도가 높은 키워드를 추출하여 자막으로 선택하게 함으로써, 수어 통역사가 직접 관여하여 수어 번역의 품질을 높일 수 있을 뿐만 아니라 사용빈도가 높은 키워드 검색을 통해 자막 품질을 한층 더 높일 수 있다.

Description

수어 동영상에 자막을 추가하는 시스템용 데이터베이스 구축 방법 및 이를 이용한 데이터베이스 장치

본 발명은 수어 동영상에 자막을 추가하는 시스템용 데이터베이스 구축 방법 및 이를 이용한 데이터베이스 장치에 관한 것으로, 더욱 상세하게는 수어 통역사가 전송받은 수어 동영상을 청각 장애인의 고유문화인 농문화로 의미 전달을 할 수 있는 글로스(Gloss) 단위로 나눠서 타임 라인의 시작 시각과 종료 시각 그리고 글로스 단위로 번역한 번역 텍스트를 포함하는 자막 데이터를 작성하게 하여 바로 자막으로 활용하거나, 상기 자막 데이터를 이용하여 텍스트 마이닝 기법으로 추출된 키워드를 폴더 이름으로 키워드명 폴더를 형성하고, 이 폴더에 자막 데이터를 기준으로 분할된 분할 영상을 저장하되 각 분할 영상이 추출된 키워드를 포함하는 키워드 폴더에 저장되게 구성함으로써, 수어 동영상에 대해 수어 통역사에게 직접 번역을 의뢰하거나, 비디오 마이닝 기법으로 수어 동영상에 자막을 추가할 때 수어 통역사가 번역한 것을 바탕으로 만들어진 키워드 폴더에서 사용빈도가 높은 분할 영상을 이용하여 키워드 추출이 이루어지게 하여 농문화에 적합한 수어 자막을 제공할 수 있게 한 것이다.

일반적으로 수어는 손이나 표정 그리고 몸짓 등을 사용하여 표현하는 시각언어를 말한다. 이러한 수어는 시각 언어이므로, 수어를 알지 못하는 사람이나 시각적으로 수어를 볼 수 없는 곳에서는 수어로 대화를 나눌 수 없다. 이에, 아래의 (특허문헌 1) 내지 (특허문헌 3)과 같이, 다양한 방식으로 수어로 대화를 나눌 수 있는 장치가 개발되어 있다.

(특허문헌 1) 한국등록특허 제10-1915088호

양면에 디스플레이가 형성되는 본체부; 상기 본체에 형성되며 수화자의 수어 동작을 촬영하는 카메라부; 상기 카메라부에서 획득한 영상을 수신하여 수어 동작을 추출하는 영상가공부와, 수어 동작과 단어가 매칭되어 저장되어 있는 데이터베이스부와, 상기 영상가공부에서 추출된 수어 동작과 상기 데이터베이스부로부터 추출된 수어 동작에 매칭되는 단어를 분석하여 문장을 추출하는 분석부와, 상기 분석부에서 추출된 문장을 상기 디스플레이에서 현시토록 하는 제어부를 포함하는 번역부;를 포함하는 것을 특징으로 하는 수화번역장치에 관한 것이다.

(특허문헌 2) 한국등록특허 제10-2314710호

청각장애인을 위한 수어 통역 서비스 시스템에 관한 것으로, 사용자의 두부에 착용 가능하고, 사용자의 수화 동작 촬영을 통해 손 관절의 움직임을 인식하여 손 관절 움직임 데이터를 생성하고, 상대방의 음성을 인식하여 문자로 표시하며, 외부로부터 수어 통역 데이터를 수신하여 음성으로 출력하는 제1 착용형 장치부; 사용자 손에 착용 가능하고, 손의 움직임을 추적하여 손 움직임 추적 데이터를 생성하는 제2 착용형 장치부; 사용자의 몸에 착용 가능하고, 상기 손 관절 움직임 데이터를 상기 손 움직임 추적 데이터에 기초하여 보정하고, 보정된 수화 동작 데이터를 외부로 송출하여 이에 대한 응답으로 외부로부터 상기 수어 통역 데이터를 수신하여 상기 제1 착용형 장치부로 전송하는 휴대통신 장치부; 및 상기 휴대통신 장치부로부터 상기 수화 동작 데이터를 수신하고, 상기 수화 동작 데이터를 기초로 머신 러닝 알고리즘을 통해 상기 수어 통역 데이터를 생성하여 상기 휴대통신 장치부로 전송하는 클라우드 서버부를 포함하는 청각장애인을 위한 수어 통역 서비스 시스템을 개시한다.

(특허문헌 3) 한국등록특허 제10-2300589호

인공지능(AI) 기반의 수어 통역 시스템에 관한 것으로, 같은 단어에서 파생된 단어들을 하나의 단어로 정의해 놓은 원형 사전, 같거나 비슷한 뜻을 가지는 단어들을 하나의 단어로 정의해 놓은 동의어처리 사전, 형태소 분석된 문장 중 수화번역에 사용되지 않는 불용어를 정의해 놓은 불용어처리 사전, 각 동음이의어에 대해 서로 다른 식별정보가 설정되어 있는 동음이의어 사전이 저장된 사전 저장부와; 입력 문장에 대해 형태소를 구분하기 위한 형태소 분석기와; 상기 구분된 각 형태소에 대하여 상기 사전들과 비교해 번역할 수화문장을 생성하는 수화문장 생성기와; 생성된 수화문장을 구성하는 각 형태소에 매칭되는 수화단어코드가 지시하는 모션 데이터 각각을 저장부에서 추출하는 모션 데이터 추출부와; 추출된 모션 데이터에 따라 수화 전달 아바타의 모션을 표시부 상에 표시 제어하는 아바타 모션 표시부;를 포함함을 특징으로 한다.

하지만, 이러한 기존의 수어 통역 시스템은 다음과 같은 문제가 발생한다.

(1) 카메라 등을 이용하여 수어 내용을 식별하고 이를 바탕으로 번역해서 보여주어야 하므로, 휴대단말 등을 통해 전송되는 수어 동영상에 대해 바로 번역해 줄 수 없는 불편함이 있다.

(2) 또한, 기존의 수어 통역 시스템은 영상의 움직임을 통해 이를 번역함에 따라 잘못 번역할 우려가 있을 뿐만 아니라 정확한 의미 전달에 한계가 있다.

(3) 특히, 기존의 수어 통역 시스템은 단순히 단어와 관절의 움직임 등을 통해 번역이 이루어지게 되므로, 농문화에서 인식할 수 있는 어절 중심으로 번역되어야 할 부분도 단순히 국어 단어 위주로 번역하여 보여줌에 따라 정확한 의미를 전달할 수 없다.

(4) 게다가 수어는 일반 국어의 표준어와 달리 지역과 집단에 따라 사용하는 수어가 다를 수 있을 뿐만 아니라 뜻도 다를 수 있는데, 이러한 차이로 기계식 번역을 하는 기존의 수어 통역 시스템은 수어 번역 의뢰자의 수어 내용과 번역 내용이 전혀 다르게 번역될 우려도 있다.

본 발명은 이러한 점을 고려한 것으로, 수어 통역사가 직접 수어 동영상을 보면서 농문화에서 의사소통이 가능한 글로스 단위(Gloss)로 번역한 번역 텍스트를 포함하는 자막 데이터를 입력받고, 이 자막 데이터를 수어 동영상에 바로 자막으로 활용하게 하면서, 텍스트 마이닝을 통해 자막 데이터에서 글로스 단위로 추출된 추출 키워드로 폴더(키워드명 폴더)를 형성하고 추출 키워드를 포함하는 키워드명 폴더에 각각 분할 동영상을 저장한 다음, 비디오 마이닝 기법으로 수어 동영상에서 검색 텍스트를 추출할 때 저장된 키워드명 폴더에서 가장 사용 빈도가 높은 키워드를 추출하여 자막으로 선택하게 함으로써, 수어 통역사가 직접 관여하여 수어 번역의 품질을 높일 수 있을 뿐만 아니라 사용빈도가 높은 키워드 검색을 통해 자막 품질을 한층 더 높일 수 있게 한 수어 동영상에 자막을 추가하는 시스템용 데이터베이스 구축 방법 및 이를 이용한 데이터베이스 장치를 제공하는데 그 목적이 있다.

특히, 본 발명은 수어 통역사가 자막 데이터를 생성할 때 하나의 입력 수어 동영상 당 1~10개소의 수어로 나눠서 번역이 이루어지게 구성함으로써, 농인이 전달하려고 하는 뜻을 하나의 단어나 어절 단위인 글로스 단위(GLOSS)로 나눠서 전달할 수 있어 더욱더 정확하게 의미 전달이 이루어질 수 있게 한 수어 동영상에 자막을 추가하는 시스템용 데이터베이스 구축 방법 및 이를 이용한 데이터베이스 장치를 제공하는데 다른 목적이 있다.

이러한 목적을 달성하기 위한 본 발명에 따른 수어 동영상에 자막을 추가하는 시스템용 데이터베이스 구축 방법은, 전기·전자통신망을 통해 전송받은 수어 동영상에 대해 수어 통역사에게 번역을 의뢰하게 하는 제1단계(S110); 수어 통역사가 상기 수어 동영상을 보면서 1~10개의 수어로 이루어져서 단어나 어절 그리고 어구를 나타내는 글로스(Gloss) 단위를 기준으로 글로스 단위의 시작 시각과 종료 시각 그리고 상기 글로스 단위로 번역한 번역 텍스트를 포함하는 자막 데이터를 작성하여 저장하게 하는 제2단계(S120); 상기 자막 데이터를 상기 수어 동영상에 자막으로 추가하는 제3단계(S130); 동시에, 상기 자막 데이터에서 번역 텍스트를 분리하는 제4단계(S140); 분리된 번역 텍스트에 대해 텍스트 마이닝 기법을 이용하여 추출 키워드를 추출하는 제5단계(S150); 상기 추출 키워드를 폴더 이름으로 사용하는 키워드명 폴더가 생성되어 있는지 확인하고, 만일 키워드명 폴더가 생성되어 있지 않으면 상기 추출 키워드를 폴더 이름으로 키워드명 폴더를 생성하는 제6단계(S160); 상기 수어 동영상에 대해 상기 자막 데이터로 저장된 상기 시작 시각과 종료 시각으로 분할하여 글로스 단위로 분할 영상으로 만드는 제7단계(S170); 및 상기 각 분할 영상을 각 글로스 단위에서 추출된 추출 키워드를 폴더 이름으로 사용하는 키워드명 폴더에 저장하고, 저장된 키워드명 폴더를 참조하여 비디오 마이닝 기법으로 수어 동영상을 번역하게 해서 검색 키워드를 추출하게 할 때 키워드명 폴더에서 사용빈도가 높은 키워드를 검색 키워드로 검색되게 하여 텍스트로 제공하게 하는 제8단계(S180);를 포함하는 것을 특징으로 한다.

특히, 상기 수어 동영상은, 영상 길이가 1초~20분인 것을 특징으로 한다.

또한, 상기 수어는, 손의 모양인 수형(手形, dez), 손의 위치인 수위(手位, tab), 손의 움직임인 수동(手動, sig), 손바닥의 방향인 수향(手向, orientation), 표정과 몸의 움직임인 비수지신호(非手指信號, non-manual signals) 중 적어도 하나로 이루어진 것을 특징으로 한다.

그리고 상기 각 분할 영상에 해당하는 상기 추출 키워드가 적어도 두 개의 단어로 이루어졌을 때는, 상기 각 단어가 포함된 각 키워드명 폴더에 각각 분할 영상을 저장하게 하는 것을 특징으로 한다.

한편, 상기 수어 동영상에 자막을 추가하는 시스템용 데이터베이스 구축 방법에서, 미리 정해진 시간 간격으로 업데이트가 이루어지게 구성된 것을 특징으로 한다.

마지막으로, 본 발명은 상술한 수어 동영상에 자막을 추가하는 시스템용 데이터베이스 구축 방법으로 구축된 데이터베이스 장치를 포함한다.

본 발명에 따른 수어 동영상에 자막을 추가하는 시스템용 데이터베이스 구축 방법 및 이를 이용한 데이터베이스 장치는 다음과 같은 효과가 있다.

(1) 수어 통역사가 직접 수어 동영상을 보고 번역한 자막 데이터를 바탕으로 수어 동영상에 필요한 자막을 추가하므로, 농문화에서 의미 전달이 이루어지는 글로스(Gloss) 단위로 번역이 이루어지게 되어 자막의 정확도를 높일 수 있다.

(2) 이때, 자막 데이터에 저장되는 번역 텍스트를 농문화에서 의미 전달이 이루어지는 몇 개의 수어로 이루어진 글로스 단위로 나눠서 저장함으로, 의미 전달이 정확하게 이루어질 수 있게 자막을 추가할 수 있다.

(3) 특히, 이처럼 수어 통역사가 번역하여 저장한 번역 텍스트(자막 데이터)를 바로 수어 동영상의 자막으로 활용할 수 있음으로, 텍스트 마이닝을 거치지 않고 직접 통역사의 번역 텍스트를 이용할 수 있어 농문화에서 이루어지는 의미 전달 단위로 더욱 정확하게 의미 전달이 이루어질 수 있다.

(4) 또한, 이처럼 저장된 자막 데이터는 미리 저장된 키워드명 폴더를 참조하여 텍스트 마이닝 기법으로 추출 키워드를 추출하고, 상기 폴더가 없으면 추출된 추출 키워드를 폴더 이름으로 키워드명 폴더를 생성한 다음, 상기 자막 데이터를 기준으로 수어 동영상을 분할한 분할 동영상을 키워드명 폴더에 저장하여 텍스트 마이닝 기법으로 자막을 검색·형성할 때 농문화에서 의미 전달이 이루어지는 단어나 어절 그리고 어구인 키워드명 폴더에서 검색된 키워드를 자막으로 이용함에 따라 이러한 농문화 환경에서 한층 더 정확한 의미 전달이 이루어지게 한다.

(5) 이때, 자막으로 사용되는 키워드는 해당 키워드명 폴더에서 사용빈도가 가장 높은 분할 영상이 선택되게 구성함으로, 많이 사용된 키워드가 추출되게 하여 농문화에서 이루어지는 의미 전달이 한층 더 정확하게 이루어지게 한다.

(6) 한편, 자막 데이터는 몇 개의 수어로 이루어진 글로스 단위로 번역해 놓음으로써, 수어할 때 동작이 느리거나 단어 하나로 뜻을 전달하려고 할 때처럼 완전하게 뜻을 전달할 수 없는 상황에서도 동작의 일부만 입력되어도 의도한 번역 결과를 얻을 수 있다.

(7) 그리고 본 발명은 하루에 3번과 같이 미리 정해놓은 시간 단위마다 업데이트 할 수 있게 구성함으로써, 번역의 정확도를 높여 그만큼 수어로 전달하려고 하는 의미와 자막을 가능한 한 일치하게 제공할 수 있다.

(8) 마지막으로, 상기 수어는, 손의 모양인 수형(手形, dez), 손의 위치인 수위(手位, tab), 손의 움직임인 수동(手動, sig), 손바닥의 방향인 수향(手向, orientation), 표정과 몸의 움직임인 비수지신호(非手指信號, non-manual signals)를 포함하여 구성함으로써, 손이나 신체의 움직임과 더불어 표정 등을 통해 표현하는 의사표시를 자막 데이터화 할 수 있어 자막을 통한 의미전달이 한층 더 정확하게 이루어지게 된다.

[도 1]은 본 발명에 따른 데이터베이스 구축 방법을 설명하기 위한 흐름도이다.

[도 2]는 본 발명에 따른 데이터베이스 구축 방법에서 이용하는 자막 데이터를 예시적으로 보여주는 이미지이다.

[도 3]은 본 발명에 따른 데이터베이스 구축을 위해 자막 데이터에서 글로스 단위로 번역 텍스트를 추출한 것을 예시적으로 보여주는 이미지이다.

[도 4]는 본 발명에 따라 추출된 번역 텍스트에 대해 텍스트 마이닝 기법을 이용하여 키워드 추출한 결과의 일부를 보여주는 이미지이다.

[발명의 실시를 위한 최선의 형태]

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 더욱 상세히 설명하기로 한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 안 되며, 발명자는 그 자신의 발명을 최고의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 따라 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다.

따라서 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원 시점에서 이들을 대체할 수 있는 다양한 균등물과 변형례가 있을 수 있음을 이해하여야 한다.

[데이터베이스 구축 방법]

본 발명에 따른 수어 동영상에 자막을 추가하는 시스템용 데이터베이스 구축 방법에는, [도 1] 내지 [도 4]와 같이, 수어 통역사에게 수어 동영상 번역을 의뢰하면, 청각 장애인의 고유문화인 농문화로 의미 전달을 할 수 있는 글로스(Gloss) 단위로 자막 데이터를 형성하고 이 자막 데이터를 수어 동영상에 자막으로 직접 제공하고, 동시에 이 자막 데이터를 이용해서 텍스트 마이닝 기법으로 추출 키워드를 추출하여 추출된 추출 키워드로 폴더(키워드명 폴더)를 만들어서 자막 데이터를 추출할 때 이용하게 하며, 또한, 이 키워드명 폴더에는 상기 자막 데이터에 따라 분할된 분할 영상을 저장하여 다른 수어 동영상을 비디오 마이닝 기법으로 키워드 추출할 때 이용하게 하되 사용 빈도가 가장 높은 키워드가 추출되게 함으로써, 농문화에서 의미 전달이 가장 잘 이루어질 수 있게 한 것이다.

이하, 이러한 구성에 관해 첨부도면을 참조하여 더욱 상세하게 설명하면 다음과 같다. 여기서, 본 발명에 따른 데이터베이스 구축 방법은 8단계에 걸쳐 수행됨에 따라 각 단계로 나눠서 설명한다.

가. 제1단계

제1단계(S110)는, [도 1]과 같이, 수어 통역사에게 수어 동영상 번역을 의뢰하는 단계이다. 이때, 수어 동영상은 스마트폰이나 PDA와 같은 휴대단말이나 개인용 컴퓨터와 같은 단말을 이용하여 인터넷과 같은 전기·전자통신망을 통해 의뢰하게 한다. 또한, 수어 동영상의 의뢰자는 수어 통역사가 여러 명이 있을 때 자신이 전에 수어 동영상을 의뢰했던 수어 통역사를 지정해서 의뢰하게 하거나, 의뢰인이 살고 있는 지역을 담당하는 수어 통역사를 선택하게 하거나, 임의로 수어 통역사를 지정하게 할 수도 있다.

나. 제2단계

제2단계(S120)는, [도 1] 및 [도 2]와 같이, 전송받은 수어 동영상을 보고 수어 통역사가 번역하여 자막 데이터를 만들어서 저장하게 하는 단계이다.

여기서, 자막 데이터는, [도 2]와 같이, 수어 통역사가 전송받은 수어 동영상을 보면서 청각 장애인의 고유문화인 농문화로 의미 전달을 할 수 있는 글로스(Gloss) 단위로 해서 임의로 나눠서 번역한 데이터를 말한다. 이러한 자막 데이터는 수어 통역사가 의미 전달을 위해 임의로 나눈 시각 즉, 수어 동영상의 타임 라인에서 글로스 단위의 시작과 끝인 시작 시각과 종료 시각 그리고 이 글로스 단위를 번역한 번역 텍스트가 포함된다. 이때, 상기 번역 텍스트는 수어 통역사가 상기 수어 동영상을 보면서 직접 번역한 내용을 입력하게 함으로써, 직접 수어를 보면서 그 상황에 맞도록 정확하게 의미 전달이 이루어질 수 있게 번역이 이루어진다.

[도 2]에서, 'intRequestIdx'는 하나의 수어 동영상에 대해 글로스 단위로 나눈 것을 나타내는 것으로, 'intRequestIdx'가 같은 숫자는 하나의 동영상에 여러 개의 글로스 단위로 구분해서 번역했음을 보여준다. 예를 들어, [도 1]에서 'intRequestIdx'가 '1,503'로 저장되는 하나의 수어 동영상은 수어 통역사가 농문화에서 의미 전달이 적절하게 이루어지도록 8개의 글로스 단위로 구분한 것이고, 각 글로스는 'intRequest Idx' 와 'intOrder' 한 쌍을 식별자로 갖는다. 그리고 각 글로스 단위는 수어 동영상의 타임 라인을 기준으로 'strStartTime(시작 시각)'과 strEndTime(종료 시각)'으로 구분되어 저장되어 있으며, 각 글로스 단위로 번역된 내용은 'strText'로 저장된다.

여기서, 본 발명의 바람직한 실시예에서, 상기 수어는 수어에 이용되는 움직임이나 행동 그리고 표정 등을 모두 포함할 수 있는데, 가장 바람직하게는 손의 모양인 수형(手形, dez), 손의 위치인 수위(手位, tab), 손의 움직임인 수동(手動, sig), 손바닥의 방향인 수향(手向, orientation), 표정과 몸의 움직임인 비수지신호(非手指信號, non-manual signals) 중 적어도 하나로 표현된 것을 의미한다. 이는, 농인이 의미 전달에 사용하는 모든 수단으로 표현하는 의미를 수어 통역사가 직접 보면서 정확한 의미를 파악하여 자막화할 수 있게 하기 위함이다.

그리고 본 발명의 바람직한 실시예에서, 상기 수어는 청각 장애인의 고유문화인 농문화로 의미 전달을 할 수 있는 글로스 단위를 이용하는 것이 바람직하며, 이를 위해, 상기 수어는 1~10개소, 가장 바람직하게는 1~3개소로 이루어지게 구성함으로써, 수어의 한 동작이 하나의 명사와 같이 의미 전달이 되게 하거나, 두 개 또는 세 개의 수어 동작이 하나의 의미 전달이 이루어지는 단위로 활용할 수 있게 한다.

또한, 본 발명의 바람직한 실시예에서, 상기 수어 동영상은 영상 길이가 영상 길이가 1초~20분 정도의 영상을 이용하는 것이 바람직하다. 이는, 수어 통역사가 집중하여 정확한 번역이 가능할 뿐만 아니라 신속하게 자막을 추가하여 농인에게 바로 피드백해 주기 위한 것이다. 물론, 이러한 영상의 길이는 이보다 더 길더라도 처리에 시간이 조금 더 걸릴 뿐, 번역하여 자막을 제공하는 데는 아무런 문제가 없음을 본 발명이 속한 기술분야의 종사자라면 누구든지 쉽게 알 수 있을 것이다.

이러한 상기 자막 데이터는, [도 1]과 같이, 수어 동영상에 자막으로 제공될 뿐만 아니라(제3단계), 텍스트 마이닝 기법을 통해 키워드를 추출하여 이 자막 데이터를 기준으로 수어 동영상을 분할한 분할 동영상을 저장하는 키워드명 폴더를 형성한 다음, 다른 수어 동영상에 대해 비디오 마이닝 기법으로 검색 키워드를 추출할 때 키워드 추출이 이루어지게 하여 자동으로 자막을 생성(제4단계 내지 제8단계)할 때 이용하게 된다.

다. 제3단계

제3단계(S130)는, [도 1]과 같이, 상술한 자막 데이터를 이용하여 수어 동영상에 자막으로 활용하는 단계이다. 이때, 상기 자막 데이터에는 의미 전달 단위(Gloss)인 글로스 단위가 시작하고 끝나는 시작 시각과 종료 시각 그리고 이 글로스 단위에 대해 수어 통역사가 직접 번역한 번역 텍스트가 포함되어 있음으로, 이를 이용해서 수어 동영상에 바로 자막이 생성되게 하여 수어 동영상을 바로 공급할 수 있게 한다.

라. 제4단계

제4단계(S140)는, [도 1]과 같이, 상술한 자막 데이터에서 번역 텍스트만 분리하는 단계이다. 이는, 텍스트 마이닝 기법으로 분리된 번역 테스트에서 추출 키워드를 추출하기 위한 것이다. 이때, 상기 추출 키워드로는 폴더명으로 만들어서 필요한 분할 영상을 저장하게 하고, 후술하는 바와 같이 비디오 마이닝 기법으로 수어 동영상에서 검색 키워드를 추출할 때는 이 폴더에 저장된 데이터를 활용할 수 있게 하기 위함이다. 이에 관해서는 후술하는 단계에서 차례로 설명한다.

마. 제5단계

제5단계(S150)는, [도 1]과 같이, 글로스 단위로 분리된 번역 텍스트에서 각각의 추출 키워드를 추출하는 단계이다. 이때, 상기 추출 키워드는 자막 데이터에서 분리된 번역 텍스트를 텍스트 마이닝 기법을 이용하여 키워드를 추출한다. 여기서, 텍스트 마이닝(Text Mining) 기법은 언어학이나 통계학 그리고 기계 학습 등을 기반으로 자연언어처리 기술을 활용하여 반정형/비정형 텍스트 데이터를 정형화하고, 그 특징을 키워드 형태로 추출하여 의미가 있는 정보를 찾아내는 통상의 기술을 말한다.

이처럼 추출된 추출 키워드는 후술하는 폴더의 폴더명(키워드명)으로 사용될 뿐만 아니라, 다른 동영상을 비디오 마이닝 기법으로 키워드를 추출할 때 사용빈도에 따라 적절한 키워드가 추출되게 하여 자막으로 활용된다. [도 3]은 [도 2]의 자막 데이터에서 분리된 텍스트를, [도 4]는 [도 3]의 텍스트를 본 발명에 따라 텍스트 마이닝 기법을 통해 추출된 추출 키워드의 일부를 보여준다. [도 4]에서, 'keyword'는 본 발명에 따라 텍스트 마이닝 기법으로 추출된 추출 키워드를, 'Frequency'는 상기 추출 키워드를 폴더 이름으로 하여 생성된 키워드명 폴더에 저장된 분할 동영상이 비디오 마이닝 기법을 통해 키워드를 추출할 때 선택된 사용 빈도를 각각 나타낸다.

바. 제6단계

제6단계(S160)는, [도 1]과 같이, 상술한 제5단계(S150)에서 추출된 추출 키워드를 폴더 이름으로 사용하는 폴더(키워드명 폴더)가 생성되어 있는지 확인하는 단계이다. 이는, 이처럼 키워드 명으로 형성된 키워드명 폴더에 후술할 분할 영상을 저장하고, 비디오 마이닝 기법으로 수어 동영상에 대해 키워드를 추출할 때 이들 키워드명 폴더를 이용하여 필요한 분할 영상 등을 검색하여 활용할 수 있게 하기 위함이다.

한편, 상기 제6단계(S160)는, [도 1]과 같이, 이처럼 키워드명 폴더가 생성되어 있는지 확인하고, 만일 키워드명 폴더가 생성되어 있지 않으면 데이터베이스에 키워드명을 가진 폴더를 새로 만들고, 키워드명 폴더가 생성되어 있으면 제7단계(S170)를 수행하게 한다.

사. 제7단계

제7단계(S170)는, [도 1]과 같이, 상술한 자막 데이터와 함께 전송된 수어 동영상을 분할하여 분할 영상으로 만드는 단계이다. 이때, 분할 영상은 수어 동영상의 타임 라인에서 수어 동영상을 글로스 단위로 나눌 때 사용했던 시각 정보, 즉, 각 글로스 단위로 나눌 때 수어가 시작하는 시작 시각과 끝나는 종료 시각을 이용한다. 이에, 상기 각 분할 영상은 자막 데이터에서 종료 시각을 기준으로 분할함에 따라 농문화에서 의미 전달이 이루어지는 글로스 단위로 영상 단위로 분할할 수 있게 된다.

아. 제8단계

제8단계(S180)는, [도 1]과 같이, 상술한 제7단계(S170)에서 분할된 분할 영상을 폴더에 저장하는 단계이다. 이때, 상기 폴더는 자막 데이터에서 이 분할 영상 구간에 해당하는 번역 텍스트를 상술한 제5단계(S150)를 통해 추출된 키워드를 폴더 명으로 사용하는 키워드명 폴더를 말한다. 이에, 상기 각 분할 영상은 그 영상 안에서 이루어지는 수어 내용으로 전달하려고 하는 키워드가 이 분할 영상을 저장한 폴더 이름과 같게 된다.

한편, 본 발명의 바람직한 실시예에서, 상기 분할 영상은 각 분할 영상에 해당하는 텍스트에서 추출된 추출 키워드가 적어도 두 개의 단어를 포함할 때는, 각 단어가 있는 키워드명 폴더를 검색하고, 각 단어가 검색된 키워드명 폴더에 각각 분할 영상을 저장하게 구성하는 것이 바람직하다. 이는, 검색 키워드가 한 단어로 이루어지더라도 이 한 단어가 포함된 글로스 단위의 검색이 가능하게 하기 위함이다.

또한, 본 발명의 바람직한 실시예에서, 상기 데이터베이스는 미리 정해진 시간, 예를 들어서 하루에 3번, 한 시간 단위 등으로 업데이트가 이루어지게 구성함으로써, 입력되어 새로 만들어지는 폴더 개수가 늘어남에 따라 사용빈도가 더욱 높아지게 되어 그만큼 더 정확한 번역이 가능하게 된다.

한편, 본 발명의 바람직한 실시예에서, 상기 키워드명 폴더에서 저장되어 비디오 마이닝 기법을 통해 수어 동영상에서 키워드 추출에 이용되는 분할 동영상은 이처럼 키워드 추출에 사용되는 빈도에 따라 정렬되게 하고, 사용빈도가 많은 것을 기준으로 일정 개수, 예를 들어서 사용 빈도가 높은 순으로 3~10개를 남겨놓고 나머지를 삭제하게 하여 사용 빈도가 높은 분할 영상만을 남겨놓음으로써, 신속하면서도 글로스 단위로 적절하게 번역할 수 있도록 키워드 검색이 이루어지게 구성하는 것이 바람직하다.

마지막으로, 상기 제8단계(S180)에서는, 수어 동영상에 대해 수어 통역사를 거치지 않고 비디오 마이닝 기법을 통해 직접 수어 동영상을 번역하여 자막을 생성할 수 있게 구성된다. 즉, 비디오 마이닝 기법을 통해 수어 동영상에서 키워드를 추출할 때, 본 발명에 따라 미리 생성되어 분할 영상이 저장된 키워드명 폴더를 이용함으로써, 수어 통역사가 청각 장애인의 고유문화인 농문화로 의미 전달을 할 수 있는 글로스 단위로 적절하게 번역된 내용을 자막으로 활용할 수 있을 뿐만 아니라 전달하려고 하는 의미 전달이 더욱더 정확하게 이루어질 수 있게 된다.

[데이터베이스 장치]

본 발명은 이러한 데이터베이스 구축 방법으로 구축된 데이터베이스를 포함한다.

Claims

전기·전자통신망을 통해 전송받은 수어 동영상에 대해 수어 통역사에게 번역을 의뢰하게 하는 제1단계(S110);

수어 통역사가 상기 수어 동영상을 보면서 1~10개의 수어로 이루어져서 단어나 어절 그리고 어구를 나타내는 글로스(Gloss) 단위의 시작 시각과 종료 시각 그리고 상기 글로스 단위로 번역한 번역 텍스트를 포함하는 자막 데이터를 작성하여 저장하게 하는 제2단계(S120);

상기 자막 데이터를 상기 수어 동영상에 자막으로 추가하는 제3단계(S130);

동시에, 상기 자막 데이터에서 번역 텍스트를 분리하는 제4단계(S140);

분리된 번역 텍스트에 대해 텍스트 마이닝 기법을 이용하여 추출 키워드를 추출하는 제5단계(S150);

상기 추출 키워드를 폴더 이름으로 사용하는 키워드명 폴더가 생성되어 있는지 확인하고, 만일 키워드명 폴더가 생성되어 있지 않으면 상기 추출 키워드를 폴더 이름으로 키워드명 폴더를 생성하는 제6단계(S160);

상기 수어 동영상에 대해 상기 자막 데이터로 저장된 상기 시작 시각과 종료 시각으로 분할하여 글로스 단위로 분할 영상으로 만드는 제7단계(S170); 및

상기 각 분할 영상을 각 글로스 단위에서 추출된 추출 키워드를 폴더 이름으로 사용하는 키워드명 폴더에 저장하고, 저장된 키워드명 폴더를 참조하여 비디오 마이닝 기법으로 수어 동영상을 번역하게 해서 검색 키워드를 추출하게 할 때 키워드명 폴더에서 사용빈도가 높은 키워드를 검색 키워드로 검색되게 하여 텍스트로 제공하게 하는 제8단계(S180);를 포함하는 것을 특징으로 하는 수어 동영상에 자막을 추가하는 시스템용 데이터베이스 구축 방법.
제1항에서,

상기 수어 동영상은,

영상 길이가 1초~20분인 것을 특징으로 하는 수어 동영상에 자막을 추가하는 시스템용 데이터베이스 구축 방법.
제1항에서,

상기 수어는

손의 모양인 수형(手形, dez), 손의 위치인 수위(手位, tab), 손의 움직임인 수동(手動, sig), 손바닥의 방향인 수향(手向, orientation), 표정과 몸의 움직임인 비수지신호(非手指信號, non-manual signals) 중 적어도 하나로 이루어진 것을 특징으로 하는 수어 동영상에 자막을 추가하는 시스템용 데이터베이스 구축 방법.
제1항에 있어서,

상기 제8단계(S180)에서,

상기 각 분할 영상에 해당하는 상기 추출 키워드가 적어도 두 개의 단어로 이루어졌을 때는,

상기 각 단어가 포함된 각 키워드명 폴더에 각각 분할 영상을 저장하게 하는 것을 특징으로 하는 수어 동영상에 자막을 추가하는 시스템용 데이터베이스 구축 방법.
제1항에서,

상기 수어 동영상에 자막을 추가하는 시스템용 데이터베이스 구축 방법에서,

미리 정해진 시간 간격으로 업데이트가 이루어지게 구성된 것을 특징으로 하는 수어 동영상에 자막을 추가하는 시스템용 데이터베이스 구축 방법.
제1항 내지 제5항 중 어느 한 항에 의한 수어 동영상에 자막을 추가하는 시스템용 데이터베이스 구축 방법으로 구축된 데이터베이스 장치.