KR102395410B1 - 비마커 방식을 이용한 수어 아바타 제공 시스템 및 그 제공 방법 - Google Patents

비마커 방식을 이용한 수어 아바타 제공 시스템 및 그 제공 방법 Download PDF

Info

Publication number
KR102395410B1
KR102395410B1 KR1020210116994A KR20210116994A KR102395410B1 KR 102395410 B1 KR102395410 B1 KR 102395410B1 KR 1020210116994 A KR1020210116994 A KR 1020210116994A KR 20210116994 A KR20210116994 A KR 20210116994A KR 102395410 B1 KR102395410 B1 KR 102395410B1
Authority
KR
South Korea
Prior art keywords
sign language
avatar
image
feature points
data
Prior art date
Application number
KR1020210116994A
Other languages
English (en)
Inventor
박영선
Original Assignee
주식회사 라젠
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 라젠 filed Critical 주식회사 라젠
Priority to KR1020210116994A priority Critical patent/KR102395410B1/ko
Application granted granted Critical
Publication of KR102395410B1 publication Critical patent/KR102395410B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7343Query language or query format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/009Teaching or communicating with deaf persons

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)

Abstract

본 발명의 일 기술적 측면에 따른 비마커 방식을 이용한 수어 아바타 제공 방법은, 사용자 단말과 연동하여 사용자 단말에게 아바타 기반의 수어 서비스를 제공하는 서비스 서버에서 수행되는 수어 아바타 제공 방법으로서, 수화 영상 소스를 크롤링하여 수집하는 단계, 수집된 수화 영상 소스에 대하여, 의미 단위로 구분하여 수어 영상 및 그에 대한 음성 데이터를 저장하는 단계, 의미 단위로 구분된 수어 영상에 대하여 복수의 수어 특징점을 추출하여 수어 동작 데이터를 생성하는 단계 및 상기 수어 동작 데이터를 아바타에 반영하여 상기 아바타를 이용하여 수어를 표시하는 단계를 포함할 수 있다.

Description

비마커 방식을 이용한 수어 아바타 제공 시스템 및 그 제공 방법 {System and method for providing sign language avatar using non-marker}
본 발명은 비마커 방식을 이용한 수어 아바타 제공 시스템 및 그 제공 방법에 관한 것이다.
기존의 청각장애인은 비장애인과의 소통을 위해 필담 또는 메신저를 이용하였다.
그러나 이러한 방식은 실시간 소통이 불가능하고, 상대적으로 문맹율이 높은 청각장애인 입장에서는 불편하고 어려운 문제가 되었다. 특히, 현재의 코로나 정국에서 이러한 청각장애인에게 발생하는 소통의 격차 문제는 더욱 큰 문제로 대두되고 있다.
이에 따라, 청각 장애인을 위하여 실시간 기반의 수어 변환 기술이 다수 개발되고 있다. 이러한 수어 변환 기술은 손의 움직임을 중심으로 수어의 의미를 해석하는 것이 필요하므로, 종래의 경우에는 수화자의 손에 센싱 장갑 등의 마커 장비을 착용하고 그를 이용하여 손의 움직임 등을 추출하였다.
그러나, 이러한 종래의 경우에는, 마커 장비라는 특수한 장비가 요구되어 수화자의 데이터를 쉽게 획득하기 어려운 점, 손의 움직임 만을 중심으로 수어 변환을 수행하므로, 표정 등에 의한 의미를 취득하기 어려운 점 등의 문제가 있었다.
또한, 종래의 경우, 카메라나 센싱 장갑 등을 이용하여 수화를 평문으로 변환은 가능하였으나, 평문을 청각 장애인에게 제공하기 어려운 문제가 있었다.
한국공개특허 제10-2017-0094668호
본 발명의 일 기술적 측면은 상기한 종래 기술의 문제점을 해결하기 위한 것으로써, 영상 처리를 기반으로 수화 동작에 대하여 특징점을 추출하고, 이러한 특징점을 아바타를 통하여 표시함으로써, 마커 장치 없이도 편리하게 아바타 환경에서 수화를 제공하여 청각 장애인에게 다양한 수화 통역의 환경을 제공할 수 있는, 비마커 방식을 이용한 수어 아바타 제공 서버 및 그 제공 방법을 제공하는 것이다.
또한, 본 발명의 일 기술적 측면에 따르면, 아바타에 수어 특징점을 설정하되, 아바타의 외형(스킨)은 다양하게 설정할 수 있도록 함으로써, 청각장애인에게 다양하고 재미있는 아바타를 이용하여 수화를 제공함으로써 수화 전달력과 흥미를 높이고, 이러한 아바타의 외형을 쉽고 편리하게 다양하게 설정할 수 있도록 할 수 있는, 비마커 방식을 이용한 수어 아바타 제공 서버 및 그 제공 방법을 제공하는 것이다.
본 발명의 상기 목적과 여러 가지 장점은 이 기술분야에 숙련된 사람들에 의해 본 발명의 바람직한 실시예로부터 더욱 명확하게 될 것이다.
본 발명의 다른 일 기술적 측면은, 비마커 방식을 이용한 수어 아바타 제공 방법을 제안한다. 상기 비마커 방식을 이용한 수어 아바타 제공 방법은, 사용자 단말과 연동하여 사용자 단말에게 아바타 기반의 수어 서비스를 제공하는 서비스 서버에서 수행되는 수어 아바타 제공 방법으로서, 수화 영상 소스를 크롤링하여 수집하는 단계, 수집된 수화 영상 소스에 대하여, 의미 단위로 구분하여 수어 영상 및 그에 대한 음성 데이터를 저장하는 단계, 의미 단위로 구분된 수어 영상에 대하여 복수의 수어 특징점을 추출하여 수어 동작 데이터를 생성하는 단계 및 상기 수어 동작 데이터를 아바타에 반영하여 상기 아바타를 이용하여 수어를 표시하는 단계를 포함할 수 있다.
일 실시예에서, 상기 의미 단위로 구분하여 수어 영상 및 그에 대한 음성 데이터를 저장하는 단계는, 수화 영상 소스의 전체 화면에서, 수화 영상이 표시되는 수화 표시 영역을 확인하는 단계, 확인된 수화 표시 영역을 구분하여, 상기 수화 영상으로서 저장하는 단계, 상기 수화 영상 소스에서, 음성 데이터를 식별하여 상기 수화 영상과 연관하여 저장하는 단계 및 상기 음성 데이터에 대한 의미 분석을 기반으로, 의미 단위로 구분하여 수어 영상 및 그에 대한 음성 데이터를 서로 연관하여 저장하는 단계를 포함 할 수 있다.
일 실시예에서, 상기 복수의 수어 특징점을 추출하여 수어 동작 데이터를 생성하는 단계는, 상기 수화 영상을 복수의 프레임으로 프레임 분할하는 단계, 분할된 복수의 프레임에 대하여 흐려짐 보상 처리를 수행하는 단계, 흐려짐 보상 처리 된 복수의 프레임 각각에 대하여, 복수의 수어 특징점을 추출하는 단계 및 추출된 복수의 수어 특징점에 대한 위치 데이터 및 움직임 데이터를 포함하는 수어 동작 데이터를 저장하는 단계를 포함 할 수 있다.
일 실시예에서, 상기 아바타를 이용하여 수어를 표시하는 단계는, 복수의 수어 특징점을 포함하는 아바타를 설정하는 단계 및 상기 수어 동작 데이터를 기초로 상기 아바타의 복수의 수어 특징점의 위치 및 움직임을 설정하여 수어를 표시하는 단계를 포함 할 수 있다.
일 실시예에서, 상기 수어 아바타 제공 방법은, 상기 아바타와 함께, 상기 음성 데이터를 기반으로 하는 음성 안내 또는 스크립트를 제공하는 단계를 더 포함 할 수 있다.
일 실시예에서, 상기 수어 아바타 제공 방법은, 문장을 입력받는 단계, 입력받은 문장을 의미 단위로 구분하는 단계, 구분된 의미 단위에 대응되는 수어 동작 데이터를 선별하는 단계 및 선별된 수어 동작 데이터를 상기 아바타에 적용하여, 상기 아바타를 통하여 입력받은 문장에 대응되는 수어를 표시하는 단계를 포함 할 수 있다.
본 발명의 일 기술적 측면은 비마커 방식을 이용한 수어 아바타 제공 서버를 제안한다. 상기 비마커 방식을 이용한 수어 아바타 제공 서버는, 사용자 단말과 연동하여 사용자 단말에게 아바타 기반의 수어 서비스를 제공하는 서비스 서버로서, 수화 영상 소스에 대하여, 의미 단위로 구분하여 수어 영상 및 그에 대한 음성 데이터를 저장하는 데이터 관리부, 의미 단위로 구분된 수어 영상에 대하여 복수의 수어 특징점을 추출하여 수어 동작 데이터를 생성하는 특징 추출부 및 복수의 수어 특징점을 가지는 아바타를 설정하고, 상기 수어 동작 데이터를 상기 아바타에 적용하여 상기 아바타를 통하여 수어를 표시하는 수어 아바타 제공부를 포함 할 수 있다.
일 실시예에서, 상기 수어 아바타 제공 서버는, 수화 영상 소스를 크롤링하여 수집하고, 수집된 수화 영상 소스를 상기 데이터 관리부에 제공하는 데이터 크롤러를 더 포함 할 수 있다.
일 실시예에서, 상기 데이터 관리부는, 수화 영상 소스의 전체 화면에서, 수화 영상이 표시되는 수화 표시 영역을 구분하여 상기 수화 영상으로서 저장하고, 상기 수화 영상 소스에서, 음성 데이터를 식별하여 상기 수화 영상과 연관하여 저장하며, 상기 음성 데이터에 대한 의미 분석을 기반으로, 상기 수화 영상을 의미 단위로 구분하여 수어 영상을 생성하고, 그에 대한 음성 데이터를 연관하여 저장 할 수 있다.
일 실시예에서, 상기 특징 추출부는, 상기 수화 영상을 복수의 프레임으로 프레임 분할하고, 분할된 복수의 프레임에 대하여 흐려짐 보상 처리를 수행하는 흐려짐 보상 모듈 및 흐려짐 보상 처리 된 복수의 프레임 각각에 대하여, 복수의 수어 특징점을 추출하고, 추출된 복수의 수어 특징점에 대한 위치 데이터 및 움직임 데이터를 포함하는 수어 동작 데이터를 생성하는 특징점 추출 모듈을 포함 할 수 있다.
일 실시예에서, 상기 수어 아바타 제공부는, 상기 수어 동작 데이터에 포함된 복수의 수어 특징점의 위치 및 움직임을, 상기 아바타의 복수의 수어 특징점에 반영하여 상기 아바타가 상기 수화 영상에 대응되는 수화를 표시하도록 할 수 있다.
본 발명의 다른 일 기술적 측면은, 저장 매체를 제안한다. 상기 저장 매체는, 컴퓨터 판독 가능한 인스트럭션들(instructions)을 저장하고 있는 저장 매체에 있어서, 상기 인스트럭션들은, 서비스 서버에 의해 실행될 때, 상기 서비스 서버로 하여금, 수화 영상 소스를 크롤링하여 수집하는 동작, 수집된 수화 영상 소스에 대하여 의미 단위로 구분하여 수어 영상 및 그에 대한 음성 데이터를 저장하는 동작, 의미 단위로 구분된 수어 영상에 대하여 복수의 수어 특징점을 추출하여 수어 동작 데이터를 생성하는 동작 및 상기 수어 동작 데이터를 아바타에 반영하여 상기 아바타를 이용하여 수어를 표시하는 동작을 수행하도록 할 수 있다.
상기한 과제의 해결 수단은, 본 발명의 특징을 모두 열거한 것은 아니다. 본 발명의 과제 해결을 위한 다양한 수단들은 이하의 상세한 설명의 구체적인 실시형태를 참조하여 보다 상세하게 이해될 수 있을 것이다.
본 발명의 일 실시형태에 따르면, 마커 장비가 필요하지 않은 비마커 방식을 기반으로, 영상 처리를 기반으로 수화 동작에 대하여 특징점을 추출하고 이를 아바타를 통하여 표시함으로써, 마커 장치 없이도 편리하게 아바타 환경에서 수화를 제공하여, 보다 직관적이고 실시간으로 수화 통번역을 제공할 수 있는 효과가 있다.
또한, 본 발명의 일 실시형태에 따르면, 아바타의 외형(스킨)은 다양하게 설정할 수 있도록 함으로써, 청각장애인에게 다양하고 재미있는 아바타를 이용하여 수화를 제공함으로써 수화 전달력과 흥미를 높이고, 이러한 아바타의 외형을 쉽고 편리하게 다양하게 설정할 수 있도록 할 수 있는 효과가 있다.
도 1은 본 발명의 실시예에 따른 비마커 방식을 이용한 수어 아바타 제공 시스템을 설명하는 도면이다.
도 2는 도 1에 도시된 서비스 서버의 예시적인 컴퓨팅 운영 환경을 설명하는 도면이다.
도 3은 본 발명의 실시예에 따른 서비스 서버를 도시하는 블록 구성도이다.
도 4는 본 발명의 실시예에 따른 비마커 방식을 이용한 수어 아바타 제공 방법을 설명하는 순서도이다.
도 5는 도 4에 도시된 단계 S430에 대한 일 실시예를 설명하는 순서도이다.
도 6은 본 발명의 일 실시예에 따른 수어 아바타 제공부의 일 실시예를 도시하는 블록 구성도이다.
도 7은 본 발명의 일 실시예에 따른 비마커 방식을 이용한 수어 아바타 제공 방법을 설명하는 순서도이다.
도 8는 본 발명의 다른 일 실시예에 따른 비마커 방식을 이용한 수어 아바타 제공 방법을 설명하는 순서도이다.
도 9 내지 도 10은 데이터 크롤러 및 데이터 관리부의 일 실시예를 설명하기 위한 도면이다.
도 11은 수어 화면과 그에 대응되는 아바타의 예들을 도시하는 도면이다.
도 12는 본 발명의 다른 실시예에 따른 서비스 서버를 도시하는 블록 구성도이다.
도 13 및 도 14는 도 12에 도시된 서비스 서버에서 수행되는 수어 아바타 제공 방법을 설명하는 순서도이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 형태들을 설명한다.
그러나, 본 발명의 실시형태는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명하는 실시 형태로 한정되는 것은 아니다. 또한, 본 발명의 실시형태는 당해 기술분야에서 평균적인 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해서 제공되는 것이다.
즉, 전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다. 도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용된다.
또한, 본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
또한, 이하에서 본 발명에 따른 시스템을 설명하기 위하여 다양한 구성요소 및 그의 하부 구성요소에 대하여 설명하고 있다. 이러한 구성요소 및 그의 하부 구성요소들은, 하드웨어, 소프트웨어 또는 이들의 조합 등 다양한 형태로서 구현될 수 있다. 예컨대, 각 요소들은 해당 기능을 수행하기 위한 전자적 구성으로 구현되거나, 또는 전자적 시스템에서 구동 가능한 소프트웨어 자체이거나 그러한 소프트웨어의 일 기능적인 요소로 구현될 수 있다. 또는, 전자적 구성과 그에 대응되는 구동 소프트웨어로 구현될 수 있다.
본 명세서에 설명된 다양한 기법은 하드웨어 또는 소프트웨어와 함께 구현되거나, 적합한 경우에 이들 모두의 조합과 함께 구현될 수 있다. 본 명세서에 사용된 바와 같은 "부(Unit)", "서버(Server)" 및 "시스템(System)" 등의 용어는 마찬가지로 컴퓨터 관련 엔티티(Entity), 즉 하드웨어, 하드웨어 및 소프트웨어의 조합, 소프트웨어 또는 실행 시의 소프트웨어와 등가로 취급할 수 있다. 또한, 본 발명의 시스템에서 실행되는 각 기능은 모듈단위로 구성될 수 있고, 하나의 물리적 메모리에 기록되거나, 둘 이상의 메모리 및 기록매체 사이에 분산되어 기록될 수 있다.
본 발명의 실시형태를 설명하기 위하여 다양한 순서도가 개시되고 있으나, 이는 각 단계의 설명의 편의를 위한 것으로, 반드시 순서도의 순서에 따라 각 단계가 수행되는 것은 아니다. 즉, 순서도에서의 각 단계는, 서로 동시에 수행되거나, 순서도에 따른 순서대로 수행되거나, 또는 순서도에서의 순서와 반대의 순서로도 수행될 수 있다.
본 명세서에서 '수어'는 청각 장애인을 위하여 사용하는 수어 자체를 의미하고, '수화'는 이러한 수어들의 집합으로 이해할 수 있다.
도 1은 본 발명의 실시예에 따른 3차원 수어동작 학습을 기반으로 수어 서비스를 제공하는 수어 서비스 시스템을 설명하는 도면이다.
수어 서비스 시스템은 사용자 단말(100, 200) 및 서비스 서버(300)를 포함한다.
사용자 단말(100, 200)은 서비스 서버(300)와 연동하여, 서비스 서버(300)로부터 다양한 수화 번역 서비스를 제공받을 수 있다.
서비스 서버(300)는 깊이 정보를 이용한 영상 처리를 기반으로 수화자의 수어 동작에 대하여 3차원으로 특징점을 추출하여 학습을 수행하고 이러한 학습 모델을 기초로 수어 동작을 분석하여, 사용자 단말(100, 200)에게 편리한 수화 번역 환경을 제공할 수 있다.
일 예로, 서비스 서버(300)는 수화자의 얼굴 표정 및 몸동작을 포함하는 비수지 영역과, 수화자의 손의 움직임을 포함하는 수지 영역을 서로 구분하여 학습을 수행하고, 특히, 수지 영역에 대해서는 깊이 정보를 기반으로 3차원으로 학습을 수행함으로, 수어 동작에 대하여 보다 정확한 학습 및 분석을 제공할 수 있다.
일 예로, 서비스 서버(300)는 수어 동작을 아바타를 통하여 표시함으로써, 다양한 아바타 환경에서 수어를 제공할 수 있도록 함으로써 청각 장애인에게 다양한 수화 통역의 환경을 제공하고, 보다 직관적이고 실시간으로 수화 통번역을 제공할 수 있다.
사용자 단말(100, 200)은 수어 영상을 취득할 수 있으며, 이러한 경우, 사용자 단말(100, 200)은 수화자의 동작에서 깊이 데이터(예컨대, 뎁스 맵)을 추출하기 위한 거리 측정 센서(예컨대, LiDAR)를 포함할 수 있다.
일 예로, 사용자 단말(100, 200)로서 다양한 컴퓨팅 단말이 적용 가능하다. 예컨대, 스마트폰(smartphone), 스마트 패드(smartpad), 타블렛 PC(Tablet PC), PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말 등과 같은 핸드헬드(Handheld) 기반의 무선 통신 컴퓨팅 장치 뿐만 아니라, 거치형PC, 노트북과 같은 컴퓨팅 장치가 이용될 수 있다. 또한, 사용자 단말(100, 200)로서 키오스크 등의 스탠드 얼론(Statnd-alone)형 장치가 사용될 수도 있다.
이하, 도 2 내지 도 13을 참조하여, 서비스 서버의 다양한 실시예들에 대하여 설명한다.
도 2는 도 1에 도시된 서비스 서버의 예시적인 컴퓨팅 운영 환경을 설명하는 도면이다.
도 2는 서비스 서버(300)의 실시예들이 구현될 수 있는 적합한 컴퓨팅 환경의 일반적이고 단순화된 설명을 제공하기 위한 것으로, 도 2를 참조하면, 서비스 서버(300)의 일 예로서 컴퓨팅 장치가 도시된다.
컴퓨팅 장치는 적어도 프로세싱 유닛(303)과 시스템 메모리(301)를 포함할 수 있다.
컴퓨팅 장치는 프로그램을 실행할 때 협조하는 복수의 프로세싱 유닛을 포함할 수도 있다. 컴퓨팅 장치의 정확한 구성 및 유형에 의존하여, 시스템 메모리(301)는 휘발성(예컨대, 램(RAM)), 비휘발성(예컨대, 롬(ROM), 플래시 메모리 등) 또는 이들의 조합일 수 있다. 시스템 메모리(301)는 플랫폼의 동작을 제어하기 위한 적합한 운영 체제(302)를 포함하는데, 예컨대 마이크로소프트사로부터의 WINDOWS 운영체제와 같은 것일 수 있다. 시스템 메모리(301)는 프로그램 모듈, 애플리케이션 등의 같은 하나 이상의 소프트웨어 애플리케이션을 포함할 수도 있다.
컴퓨팅 장치는 자기 디스크, 광학적 디스크, 또는 테이프와 같은 추가적인 데이터 저장부(304)를 포함할 수 있다. 이러한 추가적 저장소는 이동식 저장소 및/또는 고정식 저장소 일 수 있다. 컴퓨터 판독가능 저장 매체는 컴퓨터 판독가능 인스트럭션, 데이터 구조, 프로그램 모듈, 또는 기타 데이터와 같은 저장정보를 위한 임의의 방법이나 기법으로 구현되는 휘발성 및 비휘발성, 이동식 및 고정식 매체를 포함할 수 있다. 시스템 메모리(301), 저장부(304)는 모두 컴퓨터 판독가능 저장 매체의 예시일 뿐이다. 컴퓨터 판독가능 저장 매체는 램(RAM), 롬(ROM), EEPROM, 플래시 메모리 또는 다른 메모리 기법, CD-ROM, DVD 또는 다른 광학적 저장소, 자기 테이프, 자기 디스크 저장소 또는 다른 자기적 저장부, 또는 원하는 정보를 저장하고 컴퓨팅 장치(300)에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있는데, 이에 한정되는 것은 아니다.
컴퓨팅 장치의 입력부(305), 예컨대 키보드, 마우스, 펜, 음성 입력 장치, 터치 입력 장치, 및 비교 가능한 입력 장치를 포함할 수 있다. 출력부(306)는, 예컨대 디스플레이, 스피커, 프린터, 및 다른 유형의 출력 장치가 포함될 수도 있다. 이들 장치는 본 기술분야에서 널리 알려진 것이므로 자세한 설명은 생략한다.
컴퓨팅 장치는 예컨대 분산 컴퓨팅 환경에서의 네트워크, 예컨대, 유무선 네트워크, 위성 링크, 셀룰러 링크, 근거리 네트워크, 및 비교가능한 메커니즘을 통해 장치가 다른 장치들과 통신하도록 허용하는 통신부(307)를 포함할 수도 있다. 통신부(307)는 통신 매체의 한가지 예시이며, 통신 매체는 그 안에 컴퓨터 판독 가능 인스트럭션, 데이터 구조, 프로그램 모듈, 또는 다른 데이터를 포함할 수 있다. 예시적으로, 통신 매체는 유선 네트워크나 직접 유선 접속과 같은 유선 매체, 및 음향, RF, 적외선 및 다른 무선 매체와 같은 무선 매체를 포함하는데, 이에 한정되는 것은 아니다.
서비스 서버(300)는 이러한 컴퓨팅 환경에서 구현되는 기능적 구성으로 설명될 수 있다. 이하에서, 도 3 내지 도 8을 참조하여 서비스 서버(300)에 대하여 보다 상세히 설명한다.
도 3은 본 발명의 실시예에 따른 서비스 서버를 설명하는 도면이고, 도 4는 본 발명의 실시예에 따른 3차원 수어동작 학습을 기반으로 하는 수어 서비스 제공 방법을 설명하는 순서도이다.
도 3 및 도 4를 참조하면, 서비스 서버(300)는 데이터 크롤러(310), 특징 추출부(320), 데이터 관리부(330), 음성-문자 변환부(340) 및 수어 아바타 제공부(350)를 포함할 수 있다.
데이터 크롤러(310)는 수화 영상 소스를 크롤링 하여 수집할 수 있다(S410). 예컨대, 데이터 크롤러(310)는 수어가 제공되는 뉴스, 폐쇄형 영상 등에 대하여 크롤링 수행하여, 클러치 방식으로 실시간으로 데이터 수집할 수 있다
수화 영상 소스란, 수화 영상과 그에 대한 음성 데이터 또는 문자 스크립트를 포함하는 영상 소스를 의미한다.
일 예로, 데이터 크롤러(310)는 크롤러를 이용하여 인터넷 상에 저장된 영상을 탐지하고, 영상 내에 수화 영역이 존재하는지를 판단할 수 있다. 영상 내에 수화 영상이 존재하면, 데이터 크롤러(310)는 그를 수화 영상 소스로서 수집할 수 있다.
데이터 관리부(330)는, 데이터 크롤러(310)에서 수집한 수화 영상 소스에 대하여, 의미 단위로 구분하여 수화 영상 및 그에 대한 음성 데이터를 저장할 수 있다(S410).
이를 위하여, 데이터 관리부(330)는, 음성-문자 변환부(340)와 연동하여 수화 영상에 대한 음성 데이터를 인식하여 각 의미 단위로 구분하고, 구분된 의미 단위에 대응되는 수화 영상의 일부를 수어 영상으로서 저장할 수 있다. 즉, 수어 영상은 구분된 의미 단위에 대응되는 수어 영상을 의미한다.
일 실시예에서, 데이터 관리부(330)는 수화 영역을 식별하여 수어 영상을 생성할 수 있다. 도 9는 크롤링된 수화 영상 소스를, 도 10은 데이터 관리부에 의한 동작을 설명하는 예를 도시하며, 이를 참조하여 설명한다. 도 9와 같은 수화 영상 소스에 대해, 데이터 관리부(330)는, 수화 영상 소스의 전체 화면에서, 수화 영상이 표시되는 수화 표시 영역(FLA)을 확인할 수 있다. 이후, 데이터 관리부(330)는, 확인된 수화 표시 영역(FLA)을 구분하여 수화 영상(도 10의 그림 a)으로서 저장할 수 있다. 데이터 관리부(330)는, 수화 영상 소스에서, 음성 데이터를 식별하여 수화 영상과 연관하여 저장할 수 있다. 예컨대, 데이터 관리부(330)는, 음성 데이터에 대한 의미 분석을 기반으로, 의미 단위로 구분하여 수화 영상 및 그에 대한 음성 데이터를 서로 연관하여 저장할 수 있다.
이러한 의미 단위는, 단어 또는 짧은 문장 단위로 설정될 수 있다. 예를 들어, '안녕하세요'라는 음성이 인식되면, 데이터 관리부(330)는 '안녕하세요'라는 음성이 나오는 동안 이루어진 수어 동작을 하나의 수어 영상으로서 저장할 수 있다.
이와 같이, 데이터 관리부(330)는, 각각의 의미 단위별로 그에 대한 수어 영상을 저장하고, 또한 그러한 의미 단위에 대응되는 음성 데이터 또는 그에 대한 스크립트 데이터를 연관하여 저장할 수 있다.
특징 추출부(320)는, 데이터 관리부(330)에 의하여 저장된 수어 동작데이터(즉, 수어 영상과 그와 연관된 음성 또는 스크립트 데이터)를 기초로, 수어 표현을 위한 수어 특징점을 추출할 수 있다.
수어 특징점은, 수어를 표시하는데 사용되는 개체(예컨대, 손가락, 팔, 어깨, 얼굴 등)에 대하여 각각 추출된 특징점을 의미한다. 도 10의 그림 (b)에는 이러한 수어 특징점의 일 예들이 개시되어 있아. 예컨대, 수어 특징점은, 손의 모양 및 움직임을 식별하기 위한 손가락, 손바닥 등을 구성하는 관절 등을 포함할 수 있다. 또한, 수화자의 표정을 인식하기 위한 안면 인식을 위한 특징점을 포함할 수 있다.
특징 추출부(320)는, 이러한 의미 단위로 구분된 수어 영상에 대하여 복수의 수어 특징점을 추출하여 수어 동작 데이터를 생성할 수 있다(S430).
여기에서, 수어 동작 데이터는, 각 수어 영상에서의 수어 특징점의 위치 및 움직임에 대한 데이터를 의미한다. 즉, 수어 동작 데이터는 수어 특징점의 변화에 대한 데이터가 되며, 이러한 수어 동작 데이터를 아바타에 적용함으로써, 아바타가 수어를 수행하도록 할 수 있다.
특징 추출부(320)는 흐려짐 보상 전처리를 우선 처리한 후, 특징점을 추출할 수 있다. 즉, 특징 추출부(320)는 수어 영상에 대하여 흐려짐 보상 전처리를 수행하고, 흐려짐 보상 전처리가 수행된 수어 영상에서 3차원으로 특정되는 복수의 수어 특징점을 추출할 수 있다. 이는, 동영상에서 수화자의 움직임이 빠른 경우, 수어 학습의 대상이 되는 객체-예컨대, 손가락 등-의 형상에 잔상이 반영될 수 있기 때문이다. 따라서, 특징 추출부(320)는 딥 러닝 기반으로 흐려짐 보상 전처리를 수행할 수 있다.
특징 추출부(320)는, 추출된 특징점(수어 특징점)을 기초로, 수어 특징점에 대한 위치 및 움직임에 대한 수어 동작 데이터를 생성할 수 있다.
수어 아바타 제공부(350)는 수어를 표시하는 아바타를 표시할 수 있다. 즉, 청각 장애인에게 수어를 전달하기 위한 매체로서 수어 아바타 제공부(350)는 아바타를 제공할 수 있다.
수어 아바타 제공부(350)는 수어 동작 데이터를 아바타에 반영하여 상기 아바타를 이용하여 수어를 표시 할 수 있다(S440). 즉, 수어 아바타 제공부(350)는, 아바타를 대상으로 수어 동작 데이터를 설정하고, 선별된 수어 동작 데이터를 아바타에 적용하여 상기 아바타를 통하여 수어를 표시할 수 있다(S450).
구체적으로, 수어 아바타 제공부(350)는, 복수의 수어 특징점을 포함하는 아바타를 설정할 수 있다. 수어 아바타 제공부(350)는, 수어 동작 데이터를 기초로, 아바타의 복수의 수어 특징점의 위치 및 움직임을 설정하여 수어를 표시할 수 있다.
일 실시예예서, 수어 아바타 제공부(350)는 입력받은 문장에 대응되는 수어를 표시하도록 할 수 있다. 예컨대, 수어 아바타 제공부(350)는, 문장을 입력받고, 입력받은 문장을 의미 단위로 구분할 수 있다. 이러한 의미 단위 구분은 타 구성요소와 연동하여 구현될 수도 있다. 수어 아바타 제공부(350)는, 데이터 관리부(330)에 저장된 수어 데이터를 이용하여, 구분된 의미 단위에 대응되는 수어 동작 데이터를 선별하는 단계; 및
음성-문자 변환부(340)는 특징 추출부(320)와 연동하여, 문자와 수어 간의 변경을 제공할 수 있다(S430).
일 예로, 음성-문자 변환부(340)는 음성을 입력받고, 입력받은 음성을 텍스트 문장로 변환할 수 있다. 음성-문자 변환부(340)는, 변환된 텍스트 문장에 대하여 의미 단위를 분석할 수 있다.
음성-문자 변환부(340)는, 아바타와 함께, 상기 음성 데이터를 기반으로 하는 음성 안내 또는 스크립트를 제공 할 수 있다(S450).
일 실시예에서, 특징 추출부(320)는, 흐려짐 보상 모듈(321) 및 특징점 추출 모듈(322)을 포함할 수 있다. 이러한 실시예에 대하여, 도 5를 더 참조하여 설명한다.
도 5를 더 참조하면, 흐려짐 보상 모듈(321)은 데이터 관리부(330)로부터 수어 영상을 획득하고, 수어 영상을 복수의 프레임으로 프레임 분할하고(S431), 분할된 복수의 프레임에 대하여, 흐려짐 보상 처리를 수행할 수 있다(S432).
일 실시예에서, 흐려짐 보상 모듈(321)은 딥 러닝 기반으로 빅 데이터에 대한 학습을 수행하여 흐려짐 보상 처리를 수행할 수 있다. 예컨대, 흐려짐 보상 모듈(321)은, CDGAN (Deep Convolutional GAN)을 기반으로, 흐려짐 보상 학습을 수행할 수 있다(S432).
일 예로, 흐려짐 보상 모듈(321)은 실제 이미지를 입력받고, 그에 대한 임의의 흐려짐 처리를 수행한 흐려짐 이미지를 다수 생성하여 학습 데이터를 생성할 수 있다. 이러한 과정에서, 흐려짐 보상 모듈(321)은 판별자와 생성자를 바탕으로, 실제 이미지와 그에 대한 흐려짐 이미지의 쌍에 대한 대규모 빅 데이터에 대한 반복학습을 수행할 수 있다. 그에 따라, 흐려짐 보상 모듈(321)은, 입력된 흐려진 이미지에 대한 흐려짐 보상이 처리된 이미지, 즉, 선명화 된 이미지를 출력할 수 있다.
특징점 추출 모듈(322)은, 흐려짐 보상 모듈(321)로부터 흐려짐 보상 처리 된 복수의 프레임을 입력받는다. 특징점 추출 모듈(322)은, 흐려짐 보상 처리 된 복수의 프레임 각각에 대하여, 영상 처리를 기반으로 복수의 수어 특징점을 추출할 수 있다(S433).
여기에서, 수어 특징점은, 전술한 바와 같이, 수화를 해석하기 위하여 사용되는 요소에 대하여 특징점을 추출한 것으로서, 예컨대, 손 및 팔의 동작을 결정하기 위한 손 및 팔의 각 마디에 대한 특징점과, 얼굴의 표정을 인식하기 위한 얼굴의 각 특징점을 포함할 수 있다. 이의 일 예로서, 도 11의 그림 (a)는 수어 특징점이 추출되기 전의 데이터를, 그림 (b)는 수어 특징점이 추출된 데이터의 일 예를 도시하고 있다. 이와 같이, 특징점 추출 모듈(322)은, 각 프레임에서의 손, 팔, 어깨를 식별하고, 또한 얼굴을 식별하여 각각 특징점들을 추출할 수 있다.
특징점 추출 모듈(322)은, 추출한 특징점에 대한 정보-예컨대, 특징점의 위치 및 움직임에 대한 정보-를 포함시켜, 수어 동작 데이터를 생성할 수 있다.
도 6은 본 발명의 일 실시예에 따른 수어 아바타 제공부의 일 실시예를 도시하는 블록 구성도이고, 도 7은 이에 대한 순서도이다.
도 6 및 도 7을 참조하면, 수어 아마타 제공부(350)는 아바타 설정모듈(351), 수어동작 획득모듈(352) 및 수어 표시모듈(353)을 포함할 수 있다.
아바타 설정모듈(351)은 복수의 특징점을 가지는 아바타를 설정할 수 있다(S710).
아바타 설정모듈(351)은 아바타의 외형, 디자인, 특징점의 위치 등을 설정할 수 있으며, 이를 통하여 다양한 아바타를 제공할 수 있다. 예컨대, 아바타 설정모듈(351)은 아바타를 아이언 맨으로 설정하거나, 토르로 설정하는 등과 같이, 아바타의 외형 표시에 대한 설정을 변경할 수 있다.
수어동작 획득모듈(352)은 데이터 관리부(330)와 연동하여, 수어 동작 데이터를 획득할 수 있다.
일 예로, 수어동작 획득모듈(352)은 문장을 입력받고, 그에 대응되도록 아바타를 표시할 수 있다. 이를 위하여, 수어동작 획득모듈(352)은, 입력된 문장을 의미 단위로 구분할 수 있다(S720).
이후, 수어동작 획득모듈(352)은 구분된 의미 단위에 각각 대응되는 수어 동작 데이터를 데이터 관리부(330)로부터 획득할 수 있다(S720). 여기에서, 수어 동작 데이터는, 아바타의 복수의 특징점에 대한 위치 데이터 및 움직임 데이터를 포함함은 기 설명한 바와 같다.
수어 표시모듈(353)은 획득된 수어 동작 데이터를 아바타에 적용하여 수어를 표시하도록 할 수 있다(S740).
일 실시예에서, 수어 표시모듈(353)은 수화자의 동영상을 그대로 따라서 아바타가 표시하도록 동작할 수 있다. 도 8은 이에 대한 순서도로서 도 6 및 도 8을 참조하여 설명한다.
아바타 설정모듈(351)은, 복수의 특징점을 가지는 아바타를 설정할 수 있다(S810).
수어동작 획득모듈(352)은 데이터 관리부(330)와 연동하여, 수어 동작 데이터를 획득할 수 있다(S820). 예컨대, 데이터 관리부(330)는 수화자의 동영상을 실시간으로 분석하여 각각의 의미 단위별로 식별하여 수어 동작 데이터를 생성할 수 있고, 수어동작 획득모듈(352)은 이러한 실시간으로 생성되는 수어 동작 데이터를 수신할 수 있다(S820).
수어 표시모듈(353)은 수신된 수어 동작 데이터를 아바타에 적용하여 수어를 표시하도록 할 수 있다(S830).
도 11의 그림 (a)는 이러한 수화자의 실시간 동영상을, 그림 (b)는 수화자의 동영상에 대하여 도출된 특징점의 예를, 그림 (c)는 그러한 특징점을 아바타에 적용한 예를 각각 예시하고 있다.
일 실시예에서, 서비스 서버(300)는 수어 동작에 대한 학습을 기반으로, 아바타를 이용한 수어 서비스를 제공할 수 있다. 이러한 일 실시예에 대해서 도 12 내지 도 13를 참조하여 설명한다.
도 12 및 도 13을 참조하면, 서비스 서버(1300)는 데이터 크롤러(1310), 수어 학습부(1320), 데이터 관리부(1330), 음성-문자 변환부(1340) 및 수어 아바타 제공부(1350)를 포함할 수 있다.
데이터 크롤러(1310), 데이터 관리부(1330), 음성-문자 변환부(1340) 및 수어 아바타 제공부(1350)에 대해서는, 도 3 내지 도 11을 참조하여 상술한 바로부터 쉽게 이해할 수 있으므로, 여기서는 그 설명을 생략한다.
수어 학습부(1320)는 수어 학습 모델을 구축하고, 구축된 수어 학습 모델을 이용하여 수어 영상에서 수화자의 수어 동작을 판별할 수 있다(S1420).
수어 학습부(1320)는 흐려짐 보상 전처리를 우선 처리하여 수어 학습모델을 구축할 수 있다. 즉, 수어 학습부(1320)는 수어 영상에 대하여 흐려짐 보상 전처리를 수행하고, 흐려짐 보상 전처리가 수행된 수어 영상에서 복수의 수어 특징점을 추출할 수 있다. 이는, 동영상에서 수화자의 움직임이 빠른 경우, 수어 학습의 대상이 되는 객체-예컨대, 손가락 등-의 형상에 잔상이 반영될 수 있기 때문이다. 따라서, 수어 학습부(1320)는 딥 러닝 기반으로 흐려짐 보상 전처리를 수행할 수 있다.
수어 학습부(1320)는, 복수의 수어 특징점 간의 관계성과 스크립트 간의 연관성을 기초로 수어 동작을 판독하는 학습 모델을 구축할 수 있다.
수어 학습부(1320)는, 구축된 학습 모델을 기초로, 수어 동작에 대응되는 의미 단위를 매칭하여 출력할 수 있다.
음성-문자 변환부(1340)는 수어 학습부(1320)와 연동하여, 음성 또는 문자 간의 변환을 수행할 수 있다(S1430).
일 예로, 음성-문자 변환부(1340)는 음성을 입력받고, 입력받은 음성을 텍스트 문장로 변환할 수 있다.
다른 예로, 음성-문자 변환부(1340)는 텍스트을 입력받고, 입력받은 텍스트를 음성으로 변환할 수 있다.
수어 아바타 제공부(350)는 수어를 표시하는 아바타를 표시할 수 있다. 즉, 청각 장애인에게 수어를 전달하기 위한 매체로서 수어 아바타 제공부(350)는 아바타를 제공할 수 있다.
수어 아바타 제공부(350)는, 아바타를 대상으로 수어 동작 데이터를 설정하고, 선별된 수어 동작 데이터를 아바타에 적용하여 상기 아바타를 통하여 수어를 표시할 수 있다(S1450).
일 실시예에서, 수어 학습부(1320)는, 흐려짐 보상 모듈(1321), 특징점 추출 모듈(1322), 수어동작 학습 모듈(1323) 및 수어 매칭모듈(1324)를 포함할 수 있다. 이러한 실시예에 대하여, 도 14를 더 참조하여 설명한다.
도 14를 더 참조하면, 흐려짐 보상 모듈(321)은 수어 영상을 복수의 프레임으로 프레임 분할하고, 분할된 복수의 프레임에 대하여, 흐려짐 보상 처리를 수행할 수 있다(S1510).
일 실시예에서, 흐려짐 보상 모듈(1321)은 딥 러닝 기반으로 빅 데이터에 대한 학습을 수행하여 흐려짐 보상 처리를 수행할 수 있다. 예컨대, 흐려짐 보상 모듈(321)은, CDGAN (Deep Convolutional GAN)을 기반으로, 흐려짐 보상 학습을 수행할 수 있음은 기 설명한 바와 같다.
특징점 추출 모듈(1322)은, 흐려짐 보상 모듈(1321)로부터 흐려짐 보상 처리 된 복수의 프레임을 입력받는다. 특징점 추출 모듈(1322)은, 흐려짐 보상 처리 된 복수의 프레임 각각에 대하여, 영상 처리를 기반으로 복수의 수어 특징점을 추출할 수 있다(S1520).
수어동작 학습 모듈(323)은 추출된 특징점과 그에 대하여 좌표 정보를 반영하여 특징점을 특정할 수 있다.
수어동작 학습 모듈(323)은 3차원으로 특정되는 복수의 수어 특징점 간의 관계성과 스크립트 간의 연관성을 기초로 수어 동작을 판독할 수 있다(S1540).
이를 위하여 수어동작 학습 모듈(323)로서 딥 러닝 기반의 학습 모델이 사용될 수 있으며, 예컨대, 순환 신경망 기반의 학습 모델(예컨대, LSTM 모델)을 이용하여 각 의미 단위에 대한 수어 특징점을 학습할 수 있다.
수어 매칭모듈(324)은, 스크립트에 대응되는 수어 동작을 매칭하여 출력할 수 있다(S1540).
수어 매칭모듈(324)은, 일반 문법과 수어 문법 간의 변환을 수행할 수 있다. 이는 수화 문법의 경우, 일반적인 국문법과 차이가 있기 때문이다
따라서, 수어 매칭모듈(324)은, 국문법과 수화 문법 간의 변환 기능, 즉, 자동화된 문법 변환 기능을 제공할 수 있다.
예컨대, 수어 매칭모듈(324)은, 국문법으로 입력 문장이 입력되면, 입력 문장을 그에 대응되는 수화 문법으로 변환할 수 있다. 수어 매칭모듈(324)은, 수어동작 학습 모듈(323)과 연동하여, 변환된 수화 문법에 대응되는 수어 동작을 선별할 수 있고, 선별된 수어 동작에 대응되는 수어 동작 특징점을 선별할 수 있다. 이후, 선별된 수어 동작 특징점을 아바타를 통하여 표현하도록 함으로써, 일반 문장과 수어 간의 변환을 정확하게 구사할 수 있다.
이러한 수어 매칭모듈(1324)은, 수어동작 학습 모듈(1323)과 일체로 구현되거나 또는 수어동작 학습 모듈(1323)의 일 기능일 수 있다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고 후술하는 특허청구범위에 의해 한정되며, 본 발명의 구성은 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 그 구성을 다양하게 변경 및 개조할 수 있다는 것을 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 쉽게 알 수 있다.
100 : 사용자 단말
300 : 서비스 서버
301 : 시스템 메모리 302 : 운영체제
303 : 프로세싱 유닛 304 : 저장부
305 : 입력부 306 : 출력부
307 : 통신부
310 : 데이터 크롤러 320 : 특징 추출부
330 : 데이터 관리부 340 : 음성-문자 변환부
350 : 수어 아바타 제공부
321 : 흐려짐 보상 모듈 322 : 특징점 추출 모듈

Claims (12)

  1. 사용자 단말과 연동하여 사용자 단말에게 아바타 기반의 수어 서비스를 제공하는 서비스 서버에서 수행되는 수어 아바타 제공 방법으로서,
    수화 영상 소스를 크롤링하여 수집하는 단계;
    수집된 수화 영상 소스에 대하여, 의미 단위로 구분하여 수어 영상 및 그에 대한 음성 데이터를 저장하는 단계;
    의미 단위로 구분된 수어 영상에 대하여 복수의 수어 특징점을 추출하여 수어 동작 데이터를 생성하는 단계;
    상기 수어 동작 데이터를 아바타에 반영하여 상기 아바타를 이용하여 수어를 표시하는 단계;
    상기 아바타와 함께, 상기 음성 데이터를 기반으로 하는 음성 안내 또는 스크립트를 제공하는 단계;
    문장을 입력받는 단계;
    입력받은 문장을 의미 단위로 구분하는 단계;
    구분된 의미 단위에 대응되는 수어 동작 데이터를 선별하는 단계; 및
    선별된 수어 동작 데이터를 상기 아바타에 적용하여, 상기 아바타를 통하여 입력받은 문장에 대응되는 수어를 표시하는 단계;
    를 포함하고,
    상기 의미 단위로 구분하여 수어 영상 및 그에 대한 음성 데이터를 저장하는 단계는,
    수화 영상 소스의 전체 화면에서, 수화 영상이 표시되는 수화 표시 영역을 확인하는 단계;
    확인된 수화 표시 영역을 구분하여, 상기 수화 영상으로서 저장하는 단계;
    상기 수화 영상 소스에서, 음성 데이터를 식별하여 상기 수화 영상과 연관하여 저장하는 단계; 및
    상기 음성 데이터에 대한 의미 분석을 기반으로, 상기 수화 영상을 의미 단위로 구분하여 수어 영상을 저장하고, 그에 대한 음성 데이터를 연관하여 저장하는 단계;
    를 포함하고,
    상기 복수의 수어 특징점을 추출하여 수어 동작 데이터를 생성하는 단계는,
    상기 수화 영상을 복수의 프레임으로 프레임 분할하는 단계;
    분할된 복수의 프레임에 대하여 흐려짐 보상 처리를 수행하는 단계;
    흐려짐 보상 처리 된 복수의 프레임 각각에 대하여, 복수의 수어 특징점을 추출하는 단계; 및
    추출된 복수의 수어 특징점에 대한 위치 데이터 및 움직임 데이터를 포함하는 수어 동작 데이터를 생성하는 단계
    를 포함하며,
    상기 복수의 수어 특징점을 추출하여 수어 동작 데이터를 생성하는 단계 이전에,
    DCGAN(Deep Convolutional GAN)을 기반으로 흐려짐 보상 학습을 수행하는 단계
    를 포함하고,
    상기 아바타를 이용하여 수어를 표시하는 단계는
    복수의 수어 특징점을 포함하는 아바타를 설정하는 단계; 및
    상기 수어 동작 데이터를 기초로, 상기 아바타의 복수의 수어 특징점의 위치 및 움직임을 설정하여 수어를 표시하는 단계;
    를 포함하고,
    상기 흐려짐 보상 처리 된 복수의 프레임 각각에 대하여, 복수의 수어 특징점을 추출하는 단계는,
    흐려짐 보상 처리 된 복수의 프레임에 대해 수화자의 얼굴 표정 및 몸동작을 포함하는 비수지 영역과, 수화자의 손의 움직임을 포함하는 수지 영역을 서로 구분하여 학습을 수행하되, 수지 영역은 깊이 정보를 기반으로 3차원 학습을 수행하고,
    상기 깊이 정보는 거리 측정 센서를 포함하는 사용자 단말로부터 촬영된 상기 수화 영상으로부터 추출된 것이고,
    상기 추출된 복수의 수어 특징점에 대한 위치 데이터 및 움직임 데이터를 포함하는 수어 동작 데이터를 생성하는 단계는
    상기 복수의 수어 특징점 간의 관계성과 스크립트 간의 연관성을 기초로 수어 동작에 대한 LSTM(Long Short-Term Memory) 학습 모델을 이용하여 학습을 수행하는 단계; 및
    상기 LSTM(Long Short-Term Memory) 학습 모델을 기반으로 상기 스크립트에 대응되는 수어 동작 데이터를 매칭하는 단계;
    를 포함하고,
    상기 복수의 수어 특징점을 포함하는 아바타를 설정하는 단계는,
    상기 아바타의 외형 표시에 대한 설정을 변경하는 단계;
    를 포함하며,
    상기 문장을 입력받는 단계는,
    국문법으로 입력된 문장을 수화 문법으로 변환하는, 비마커 방식을 이용한 수어 아바타 제공 방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
KR1020210116994A 2021-09-02 2021-09-02 비마커 방식을 이용한 수어 아바타 제공 시스템 및 그 제공 방법 KR102395410B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210116994A KR102395410B1 (ko) 2021-09-02 2021-09-02 비마커 방식을 이용한 수어 아바타 제공 시스템 및 그 제공 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210116994A KR102395410B1 (ko) 2021-09-02 2021-09-02 비마커 방식을 이용한 수어 아바타 제공 시스템 및 그 제공 방법

Publications (1)

Publication Number Publication Date
KR102395410B1 true KR102395410B1 (ko) 2022-05-10

Family

ID=81592081

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210116994A KR102395410B1 (ko) 2021-09-02 2021-09-02 비마커 방식을 이용한 수어 아바타 제공 시스템 및 그 제공 방법

Country Status (1)

Country Link
KR (1) KR102395410B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102660366B1 (ko) * 2023-11-15 2024-04-25 주식회사 케이엘큐브 수어 조립 장치 및 그의 동작 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160109708A (ko) * 2015-03-12 2016-09-21 주식회사 디지털스케치 수화 번역기, 시스템 및 방법
KR20170094668A (ko) 2016-02-11 2017-08-21 한국전자통신연구원 양방향 수화 번역 장치 및 장치가 수행하는 양방향 수화 번역 방법
KR20200049404A (ko) * 2018-10-31 2020-05-08 강병진 장애인을 위한 동시통역 서비스 제공 시스템 및 그 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160109708A (ko) * 2015-03-12 2016-09-21 주식회사 디지털스케치 수화 번역기, 시스템 및 방법
KR20170094668A (ko) 2016-02-11 2017-08-21 한국전자통신연구원 양방향 수화 번역 장치 및 장치가 수행하는 양방향 수화 번역 방법
KR20200049404A (ko) * 2018-10-31 2020-05-08 강병진 장애인을 위한 동시통역 서비스 제공 시스템 및 그 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102660366B1 (ko) * 2023-11-15 2024-04-25 주식회사 케이엘큐브 수어 조립 장치 및 그의 동작 방법

Similar Documents

Publication Publication Date Title
US11397462B2 (en) Real-time human-machine collaboration using big data driven augmented reality technologies
CN110991427B (zh) 用于视频的情绪识别方法、装置和计算机设备
KR102544453B1 (ko) 정보 처리 방법, 장치 및 저장 매체
US20080170748A1 (en) Controlling a document based on user behavioral signals detected from a 3d captured image stream
KR102124466B1 (ko) 웹툰 제작을 위한 콘티를 생성하는 장치 및 방법
CN111860362A (zh) 生成人脸图像校正模型及校正人脸图像的方法和装置
Kang et al. Development of head detection and tracking systems for visual surveillance
Madhuri et al. Vision-based sign language translation device
CN104808794A (zh) 一种唇语输入方法和系统
Adhikary et al. A vision-based system for recognition of words used in indian sign language using mediapipe
CN111144360A (zh) 多模信息识别方法、装置、存储介质及电子设备
KR102395410B1 (ko) 비마커 방식을 이용한 수어 아바타 제공 시스템 및 그 제공 방법
Chakraborty et al. Indian sign language classification (ISL) using machine learning
KR102527589B1 (ko) 여론 획득과 단어 점도 모델의 훈련 방법 및 기기, 서버와 매체
JP6855737B2 (ja) 情報処理装置、評価システムおよびプログラム
CN112328088A (zh) 图像的呈现方法和装置
Javaid et al. Manual and non-manual sign language recognition framework using hybrid deep learning techniques
KR102399683B1 (ko) 3차원 수어동작 학습을 기반으로 수어 서비스를 제공하는 수어 서비스 시스템 및 그를 이용한 수어 서비스 제공 방법
US9952671B2 (en) Method and apparatus for determining motion
US11210335B2 (en) System and method for judging situation of object
Melnyk et al. Towards computer assisted international sign language recognition system: a systematic survey
Kumar et al. Enhancing Communication with Gesture Recognition for People with Disabilities
CN112115740A (zh) 用于处理图像的方法和装置
Varghese et al. An Intelligent Voice Assistance System for Visually Impaired using Deep Learning
CN116304146B (zh) 图像处理方法及相关装置

Legal Events

Date Code Title Description
AMND Amendment
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant