KR102644927B1

KR102644927B1 - 수어 통역 서비스를 제공하는 온라인 다방향 소통 시스템

Info

Publication number: KR102644927B1
Application number: KR1020230134650A
Authority: KR
Inventors: 한규범; 최용훈
Original assignee: 한규범
Priority date: 2023-10-10
Filing date: 2023-10-10
Publication date: 2024-03-06

Abstract

수어의 특수성에 따른 의사소통의 단절을 해소하기 위해 수어 사용자와 수어 비사용자가 서로 대화를 나눌 수 있도록 수어 통역 서비스를 제공하는 온라인 다방향 소통 시스템이 개시된다. 이를 위하여 수어 동영상이 포함된 언어정보를 송신하는 제1 단말기와, 음성 또는 문자가 포함된 번역정보를 수신받는 제2 단말기와, 상기 제1 단말기와 제2 단말기를 통해 화상대화를 진행할 수 있도록 제1 단말기와 제2 단말기를 중계하고, 상기 제1 단말기로부터 수신된 언어정보를 분석하여 수어 동영상이 포함된 언어편집정보를 생성하고, 상기 언어편집정보를 외부로 송신하며, 외부로부터 수신된 번역정보를 제2 단말기로 송신하는 WebRTC 서버, 및 상기 WebRTC 서버로부터 수신된 언어편집정보를 신체 추적 프로그램을 통해 분석하여 신체 데이터를 생성하고, 상기 신체 데이터를 미리 학습된 인공지능 엔진으로 분석하여 신체 데이터에 매칭된 수어 액션에 대한 텍스트를 추출하고 상기 텍스트로 번역정보를 생성하며, 상기 번역정보를 WebRTC 서버로 송신하는 인공지능 서버를 포함하는 온라인 다방향 소통 시스템을 제공한다. 본 발명에 의하면, 수어 사용자의 손동작뿐만 아니라 몸동작까지 분석하여 수어의 의미를 분석할 수 있으므로, 수어 번역의 정확도가 향상된다.

Description

수어 통역 서비스를 제공하는 온라인 다방향 소통 시스템 {MULTI-DIRECTIONAL ONLINE COMMUNICATION SYSTEM PROVIDING SIGN LANGUAGE INTERPRETATION SERVICES}

본 발명은 수어를 미리 지정한 언어로 통역해 주는 수어 통역 서비스를 제공하는 온라인 다방향 소통 시스템에 관한 것으로, 보다 상세하게는 수어의 특수성에 따른 의사소통의 단절을 해소하기 위해 수어 사용자와 수어 비사용자가 서로 대화를 나눌 수 있도록 수어 통역 서비스를 제공하는 온라인 다방향 소통 시스템에 관한 것이다.

수화 언어(이하, '수어'라고 약칭함)는 손의 모양과 움직임, 몸동작 및 표정 등으로 표현하는 청각 장애인의 의사전달 방법이다. 그러나 대부분의 청인들은 수어를 이해하지 못하기 때문에 청각 장애인과 의사소통을 하기 위해 통역사를 필요로 한다. 그러나, 통역사의 수가 절대적으로 부족하기 때문에 청각 장애인들이 일상 생활에서 상시적인 통역사의 도움을 받는다는 것은 현실적으로 많은 어려움이 존재한다.

또한, 수어는 손의 모양과 움직임을 이용하는 의사 표시 방법일 뿐 아니라 청각 장애인들이 이해하는 고유의 언어이다. 그리고 청각 장애인에게 국어, 영어 등 청인이 사용하는 언어는 외국어와 마찬가지이기 때문에 신문, 웹페이지 등 시각적인 문자로 내용을 전달하는 매체일지라도 청각 장애인들이 읽고 이해하기 어려운 점이 있다.

다시 말하면 청각 장애인이 의사소통을 위해서 사용할 수 있는 수단은 문자와 수어를 들 수 있다. 하지만 소리를 듣는 능력이 떨어지는 청각 장애인은 소리를 표현하는 문자를 이해하는 것이 매우 어렵기 때문에 문자를 읽고 그 의미를 이해(해독)하는 능력도 떨어진다.

통상적으로 청각 장애인이 정상인에 비하여 독해능력 향상 속도가 1/3 수준에 불과한 것으로 보고되어 있다. 즉, 청각 장애인에게 수어는 문자보다 강력한 의사소통수단 및 정보전달수단이다. 특히 선천적인 청각 장애인의 경우 청각 장애인을 위한 모국어 교육을 별도로 받지 않으면 모국어의 읽기 및 의미해독에 큰 어려움이 있기 때문에 수어는 의사소통에 더욱 중요한 수단이 된다.

오늘날 컴퓨터나 스마트폰의 보급 및 인터넷의 사용이 보편화 됨에 따라 청인들은 온라인을 이용하여 인터넷 뱅킹, e-러닝, 민원업무 해결 등 다양한 서비스를 선택할 수 있고 이를 통해 많은 정보를 습득할 수 있지만, 문자로 표현된 온라인상의 정보의 해독이 어려운 청각 장애인들은 청인에 비해 정보의 접근 및 취득에 큰 차별을 느낄 수 있다.

최근 이에 따라 모든 공공기관 및 민간 웹사이트의 운영주체는 청각 장애인 등 취약계층이 웹사이트를 통하여 원하는 서비스를 이용할 수 있도록 이른바 웹 접근성(web accessibility)을 높이고, 이를 의무적으로 준수하여야 한다.

즉, 웹사이트에서의 정보전달은 대부분 음성과 문자로 표현되는 말과 글로 이루어져서 수어를 주로 사용하는 청각 장애인의 교육/학습권, 노동권, 문화향유권, 정보접근권 등을 제한하고, 이러한 제한은 청각 장애인들이 사회에서 청인처럼 활동하는 것을 어렵게 하므로 말과 글로 표현된 정보를 수어로 바꾸어 표현 및 전달하여야 한다.

한편, 수어를 사용하는 청각장애인의 경우, 바리스타, 플로리스트, 택시 운전기사 등의 취업 분야에서 활발하게 취직이 행해지고 있으며, 나아가 공인회계사, 보험계리사, 손해사정사, 준학예사, 호텔경영사, 호텔관리사 및 호텔 서비스사, 변리사, 군무원, 외무공무원 등 다양한 직종군에서 취직이 확대되도록 다방면의 부처에서 노력이 진행되고 있다.

그러나, 수어는 배워야 이해가 가능한 것으로, 많은 이들이 알지 못하는 직장 내에서는 많은 타인과의 의사소통의 어려움을 발생시키고 조직 내 구성원과 상호작용하는데 문제점을 유발하며, 업무의 저하를 발생시킨다.

이 때문에, 취업의 폭을 확대하고 청각장애인의 자립도를 높이려고 하는 노력에도 불구하고 많은 청각장애인들의 취업률이 현저히 낮은 상태이다.

더욱이, 공공기관은 방문하는 청각 장애인을 위하여 의무적으로 통역사를 배정, 행정 서비스를 제공하여야 하지만 통역사 부족 등의 이유로 그 효과는 미미한 상태이다.

따라서, 청각 장애인들이 수어로 의사를 전달하면 이를 통역하여 답변을 즉시 전달할 수 있는 통역 시스템의 개발이 필요한 실정이다.

대한민국 등록특허 제10-2408941호(2022.06.14 공고) 대한민국 등록특허 제10-1542130호(2015.08.06 공고) 대한민국 등록특허 제10-2304608호(2021.09.24 공고) 대한민국 공개특허 제10-2021-0073856호(2021.06.21 공개)

따라서, 본 발명의 목적은 수어 사용자와 수어 비사용자가 온라인을 통해 서로 대화를 나눌 수 있도록 수어를 수어 비사용자가 사용하는 언어로 통역해 주고 상기 언어를 수어로 통역해 줄 수 있는 온라인 다방향 소통 시스템을 제공하는데 있다.

상술한 본 발명의 목적을 달성하기 위하여, 본 발명의 일 실시예에서는 수어 동영상이 포함된 언어정보를 송신하는 제1 단말기와, 음성 또는 문자가 포함된 번역정보를 수신받는 제2 단말기와, 상기 제1 단말기와 제2 단말기를 통해 화상대화를 진행할 수 있도록 제1 단말기와 제2 단말기를 중계하고, 상기 제1 단말기로부터 수신된 언어정보를 분석하여 수어 동영상이 포함된 언어편집정보를 생성하고, 상기 언어편집정보를 외부로 송신하며, 외부로부터 수신된 번역정보를 제2 단말기로 송신하는 WebRTC 서버, 및 상기 WebRTC 서버로부터 수신된 언어편집정보를 신체 추적 프로그램을 통해 분석하여 신체 데이터를 생성하고, 상기 신체 데이터를 미리 학습된 인공지능 엔진으로 분석하여 신체 데이터에 매칭된 수어 액션에 대한 텍스트를 추출하고 상기 텍스트로 번역정보를 생성하며, 상기 번역정보를 WebRTC 서버로 송신하는 인공지능 서버를 포함하는 온라인 다방향 소통 시스템을 제공한다.

본 발명에 의하면, 수어 사용자의 손동작뿐만 아니라 몸동작까지 분석하여 수어의 의미를 분석할 수 있으므로, 수어 번역의 정확도가 향상된다.

또한, 본 발명은 수어를 교육받지 않은 사람도 수어 사용자와 원활한 대화를 진행할 수 있다. 그리고 본 발명은 수어를 미리 지정된 외국어로 번역하여 제공할 수 있으므로, 수어 사용자가 타국의 언어 사용자와도 원활한 대화를 진행할 수 있다.

아울러, 본 발명은 수어동작에 대한 손의 중요 포인트와 팔 및 다리의 중요 포인트를 개별적으로 조합하여 수어 번역을 위한 추가적인 데이터의 생성이 가능하며, 이를 통해 수어의 인식률을 향상시킬 수 있다.

도 1은 본 발명에 따른 온라인 다방향 소통 시스템을 설명하기 위한 구성도이다.
도 2는 본 발명의 일 실시예에 따른 온라인 다방향 소통 시스템을 나타내는 블록도이다.
도 3은 본 발명의 다른 실시예에 따른 온라인 다방향 소통 시스템을 나타내는 블록도이다.

이하, 첨부도면을 참조하여 본 발명의 바람직한 실시예들에 의한 수어 통역 서비스를 제공하는 온라인 다방향 소통 시스템(이하, '온라인 다방향 소통 시스템'이라 약칭함)을 상세하게 설명한다.

도 1은 본 발명에 따른 온라인 다방향 소통 시스템을 설명하기 위한 구성도이다.

도 1을 참조하면, 본 발명에 따른 온라인 다방향 소통 시스템은 대화 참여자인 수어 사용자가 비수어 사용자와 대화를 나누기 위해 사용하는 제1 단말기(100)와, 대화 참여자인 비수어 사용자가 수어 사용자와 대화를 나누기 위해 사용하는 제2 단말기(200)와, 수어 사용자와 수어 비사용자가 서로 대화를 나눌 수 있도록 제1 단말기(100)와 제2 단말기(200)를 중계하여 언어정보와 번역정보를 송수신하는 WebRTC 서버(300)와, 상기 WebRTC 서버(300)로부터 수신된 언어편집정보를 분석하여 번역정보를 생성하고 상기 번역정보를 WebRTC 서버(300)로 회신하는 인공지능(Artificial Intelligence : AI) 서버(400)를 포함한다.

이때, 제1 단말기(100) 및 제2 단말기(200)는 유무선 통신 네트워크(이하, '통신 네트워크'라고 약칭함)를 통해 WebRTC 서버(300)와 연결되고, 상기 WebRTC 서버(300)는 통신 네트워크를 통해 AI 서버(400)와 연결된다.

이하, 도면을 참조하여 각 구성요소별로 보다 구체적으로 설명한다.

도 2는 본 발명의 일 실시예에 따른 온라인 다방향 소통 시스템을 나타내는 블록도이다. 도 1 및 도 2를 참조하면, 본 발명에 따른 온라인 다방향 소통 시스템은 제1 단말기(100)를 포함한다.

상기 제1 단말기(100)는 수어 동영상이 포함된 제1 언어정보를 송신하는 것으로, 수어 사용자로부터 입력받은 신호에 따라 수어 사용자의 영상을 촬영하여 수어 동영상을 생성하고, 상기 수어 동영상이 포함된 제1 언어정보를 생성하며, 상기 제1 언어정보를 통신 네트워크를 통해 WebRTC 서버(300)로 제공한다. 그리고 제1 단말기(100)는 수어통역 앱이 설치될 수 있다.

상기 제1 단말기(100)는 자체 설치된 수어통역 앱을 통해 WebRTC 서버(300)에 접속할 수 있고, 상기 수어통역 앱을 통해 제1 단말기(100)의 사용자가 선택한 제2 단말기(200)로 화상연결을 요청할 수 있으며, 수어통역 앱이 설치된 제2 단말기(200)의 요청 수락 시 제1 단말기(100)는 제2 단말기(200)와 수어통역 앱을 통해 온라인으로 연결되어 대화를 수행할 수 있게 된다.

이러한 제1 단말기(100)는 수어 동영상을 촬영할 수 있도록 카메라 등의 영상촬영모듈이 구비되며, 번역정보를 출력할 수 있도록 디스플레이 액정 등의 영상출력모듈이 구비된다.

이때, 제1 단말기(100)의 수어통역 앱은 영상촬영모듈과 영상출력모듈을 연계시켜 수어 동영상의 입력과 동시에 수어 동영상이 영상출력모듈로 출력되도록 하는 기능을 제공할 수 있다. 이를 통해, 제1 단말기(100)의 사용자는 자신의 수어 모습을 직접 보면서 수어 동영상을 촬영할 수 있게 된다.

도 3은 본 발명의 다른 실시예에 따른 온라인 다방향 소통 시스템을 나타내는 블록도이다. 상기 제2 단말기(200)의 사용자가 음성 또는 문자가 포함된 제2 언어정보를 제2 단말기(200)에 입력하면, 제1 단말기(100)는 상기 제2 언어정보를 수어 동영상으로 확인할 수 있게 된다. 이러한 제1 언어정보와 제2 언어정보에는 화자의 연령, 성별, 거주지역, 국적 중 어느 하나 이상의 개인정보가 선택적으로 더 포함될 수 있다.

보다 구체적으로, 제1 단말기(100)의 수어통역 앱은 제1 단말기(100)의 영상출력모듈을 통해 본인 언어정보 출력화면과, 상대방 언어정보 출력화면으로 이분할 된 수화 통역 화면을 출력할 수 있다. 이때, 제1 단말기(100)의 사용자가 수어 동영상을 제1 언어정보로 입력하면 본인 언어정보 출력화면에서는 수어 동영상이 출력되며, 제2 단말기(200)의 사용자가 음성 또는 문자를 제2 언어정보로 입력하면 제1 단말기(100) 사용자의 선택에 따라 상대방 언어정보 출력화면에서는 수어 동영상만 단독으로 출력되거나 수어 동영상 및 문자가 함께 출력될 수 있다.

이에 따라, 제1 단말기(100)의 사용자는 자신의 수어 동영상을 확인하면서 제2 단말기(200)의 사용자가 입력한 제2 언어정보를 수어 동영상으로 확인할 수 있다.

필요에 따라, 제1 단말기(100)의 수어통역 앱은 미리 사용자로부터 수어배움지역, 거주지역, 국적 중 어느 하나 이상을 입력받거나 수어 사용자의 실시간 위치를 수집하여 제1 문화권 정보를 생성할 수 있으며, 상기 제1 문화권 정보를 WebRTC 서버(300)로 전송할 수 있다.

도 1 내지 도 3을 참조하면, 본 발명에 따른 온라인 다방향 소통 시스템은 제2 단말기(200)를 포함한다.

상기 제2 단말기(200)는 도 2에 도시된 바와 같이 WebRTC 서버(300)로부터 수어 동영상이 포함된 제1 번역정보를 수신받는 것으로, 제1 단말기(100)의 사용자가 수어 동영상이 포함된 제1 언어정보를 제1 단말기(100)에 입력하면 상기 수어 동영상을 음성 또는 문자로 확인할 수 있도록 음성 또는 문자가 포함된 제1 번역정보를 WebRTC 서버(300)로부터 수신받아 출력한다.

상기 제2 단말기(200)는 도 3에 도시된 바와 같이 수어 사용자와의 대화를 위해 수어 비사용자로부터 음성 또는 문자를 입력받고, 상기 음성 또는 문자가 포함된 제2 언어정보를 생성하며, 상기 제2 언어정보를 WebRTC 서버(300)로 송신한다. 이때, 제2 언어정보에는 수어 비사용자의 연령, 성별, 거주지역, 국적, 모국어 등이 선택적으로 더 포함될 수 있다.

특히, 음성 언어와 마찬가지로 수어도 지역마다 차이가 있기 때문에 AI 서버(400)는 언어정보 또는 언어편집정보에 포함된 수어 사용자의 개인정보나 문화권 정보에 따라 수어 동영상의 번역을 다르게 처리할 수 있다.

상기 제2 단말기(200)는 자체 설치된 수어통역 앱을 통해 WebRTC 서버(300)에 접속할 수 있고, 상기 수어통역 앱을 통해 제2 단말기(200)의 사용자가 선택한 제1 단말기(100)로 화상연결을 요청할 수 있으며, 수어통역 앱이 설치된 제1 단말기(100)의 요청 수락 시 제2 단말기(200)는 제1 단말기(100)와 수어통역 앱을 통해 온라인으로 연결되어 대화를 수행할 수 있게 된다.

이러한 제2 단말기(200)는 수어 비사용자로부터 음성을 입력받을 수 있도록 마이크 등의 음성인식모듈이 구비되고, 문자를 입력받을 수 있도록 문자입력모듈이 구비되며, 번역정보를 출력할 수 있도록 디스플레이 액정 등의 영상출력모듈이 구비된다.

보다 구체적으로, 제2 단말기(200)의 수어통역 앱은 제2 단말기(200)의 영상출력모듈을 본인 언어정보 출력화면과, 상대방 언어정보 출력화면으로 이분할 된 수화 통역 화면을 출력할 수 있다. 이때, 제2 단말기(200)의 사용자가 음성 또는 문자를 제2 언어정보로 입력하면 본인 언어정보 출력화면에서는 문자가 출력되며, 제2 단말기(200)를 사용하는 사용자의 선택에 따라 상대방 언어정보 출력화면에서는 음성 또는 문자가 단독으로 출력되거나 상대방의 수어 동영상이 함께 출력될 수 있다.

이에 따라, 제2 단말기(200)의 사용자는 자신의 대화내용을 문자로 확인하면서 제1 단말기(100)의 사용자가 입력한 제1 언어정보를 음성 또는 문자로 확인할 수 있다.

또한, 제2 단말기(200)의 수어통역 앱을 통해 상대방 언어정보 출력화면에 수어 동영상이 함께 출력되면, 수어가 어떠한 글자를 의미하는 것인지 확인하는 기회를 제공하고, 수어 사용자와 대화를 하면서 알지 못했던 수어를 배우거나 이해할 수 있으며, 수어 사용자와의 친밀감을 높일 수 있다.

필요에 따라, 제2 단말기(200)의 수어통역 앱은 모국어, 거주지역, 국적 중 어느 하나 이상을 입력받거나 사용자의 실시간 위치를 수집하여 제2 문화권 정보를 생성할 수 있으며, 상기 제2 문화권 정보를 WebRTC 서버(300)로 전송할 수 있다.

도 1 내지 도 3을 참조하면, 본 발명에 따른 온라인 다방향 소통 시스템은 WebRTC 서버(300)를 포함한다.

상기 WebRTC(WEB Real-Time Communication) 서버는 제1 단말기(100)와 제2 단말기(200)를 중계하는 것으로, 제1 단말기(100)의 사용자와 제2 단말기(200)의 사용자가 웹에서 별도의 플러그인 없이 실시간 통신(RTC)을 통해 화상대화를 진행할 수 있는 환경을 제공한다.

또한, WebRTC 서버(300)는 도 2에 도시된 바와 같이 제1 단말기(100)로부터 제1 언어정보가 수신되면, 제1 단말기(100)로부터 수신된 제1 언어정보를 분석하여 수어 동영상이 포함된 언어편집정보를 생성하고, 상기 언어편집정보를 외부인 AI 서버(400)로 송신하며, 외부인 AI 서버(400)로부터 수신된 제1 번역정보를 제2 단말기(200)로 송신한다.

아울러, WebRTC 서버(300)는 도 3에 도시된 바와 같이 제2 단말기(200)로부터 제2 언어정보가 수신되면, 제2 단말기(200)로부터 수신된 제2 언어정보를 분석하여 음성 또는 문자를 추출하여 음성 또는 문자가 포함된 언어편집정보를 생성하고, 상기 언어편집정보를 AI 서버(400)로 송신하며, AI 서버(400)로부터 수신된 제2 번역정보를 제1 단말기(100)로 송신한다.

필요에 따라, WebRTC 서버(300)가 AI 서버(400)로 송신하는 언어편집정보에는 사용자의 개인정보가 포함될 수 있다. 또한, WebRTC 서버(300)는 AI 서버(400)로 제1 문화권 정보와 제2 문화권 정보를 전송할 수 있다.

이와 같이, WebRTC 서버(300)는 제1 단말기(100)와 제2 단말기(200)로부터 전송된 언어정보의 분석을 통해 상기 언어정보에서 수어 모션이 감지된 수어 동영상이 포함되어 있으면 수어 동영상이 포함된 언어편집정보를 생성하고, 상기 언어정보에 음성 또는 문자가 포함되어 있으면 이를 추출하여 음성 또는 문자가 포함된 언어편집정보를 생성한다.

필요에 따라, WebRTC 서버(300)는 수어 동영상을 편집하여 배경 화면이 삭제된 수어 동영상이 포함된 언어편집정보를 생성할 수 있다.

도 1 내지 도 3을 참조하면, 본 발명에 따른 온라인 다방향 소통 시스템은 AI 서버(400)를 포함한다.

상기 AI 서버(400)는 제1 단말기(100)의 사용자와 제2 단말기(200)의 사용자가 서로의 언어를 이해할 수 있도록 수어를 음성 또는 문자로 변환시켜 주고, 음성 또는 문자를 수어로 변환시켜 주는 통역서버로, WebRTC 서버(300)로부터 수신된 언어편집정보를 분석하여 번역정보를 생성하며, 상기 번역정보를 WebRTC 서버(300)로 송신한다.

이러한 AI 서버(400)는 도 2에 도시된 바와 같이 WebRTC 서버(300)로부터 수신된 언어편집정보를 기반으로 신체 데이터를 생성하고, 상기 신체 데이터를 미리 학습된 AI 엔진(430)으로 분석하여 신체 데이터에 매칭된 수어 액션에 대한 텍스트를 추출하며, 추출된 텍스트로 제1 번역정보를 생성한다.

제1 실시 양태로서, 본 발명에 따른 AI 서버(400)는 WebRTC 서버(300)로부터 제1 단말기 사용자의 개인정보가 제공되면, 상기 개인정보가 반영되도록 언어편집정보의 수어 동영상을 분석하여 제1 단말기로 입력된 수어 동영상에 대한 텍스트를 추출하며, 상기 텍스트로 번역정보를 생성한다.

제2 실시 양태로서, 본 발명에 따른 AI 서버(400)는 WebRTC 서버(300)로부터 제2 단말기 사용자의 개인정보가 제공되면, 상기 개인정보가 반영되도록 언어편집정보의 음성 또는 문자를 분석하여 제2 단말기로 입력된 음성 또는 문자에 대한 수어영상을 추출하며, 추출된 수어영상으로 번역정보를 생성한다.

제3 실시 양태로서, 본 발명에 따른 AI 서버(400)는 WebRTC 서버(300)로부터 제1 문화권 정보와 제2 문화권 정보가 수신되면, 문화권에 따른 수어 차이가 반영되도록 신체 데이터와 상기 제1 문화권 정보를 미리 학습된 AI 엔진(430)으로 분석하여 신체 데이터와 제1 문화권 정보에 매칭된 수어 액션에 대한 텍스트를 추출하고, 추출된 텍스트를 상기 제2 문화권 정보에 적합한 텍스트로 보완하며, 보완된 텍스트로 음성 또는 문자가 포함된 번역정보를 생성한다.

제4 실시 양태로서, 본 발명에 따른 AI 서버(400)는 WebRTC 서버(300)로부터 수신된 언어편집정보에 음성이 포함되면, 상기 음성의 언어 종류, 억양, 악센트를 분석하여 제2 문화권 정보를 생성하고, 추출된 텍스트를 상기 제2 문화권 정보에 적합한 텍스트로 보완하며, 보완된 텍스트로 음성 또는 문자가 포함된 번역정보를 생성한다.

특정 양태로서, 본 발명에 따른 AI 서버(400)는 인터페이스부(410) 및 수어 해석부를 포함하여 구성될 수 있다. 이때, 수어 해석부는 신체데이터 처리부(420)와 AI 엔진(430) 및 번역정보 생성부(440)가 포함될 수 있다.

상기 인터페이스부(410)는 WebRTC 서버(300)로부터 수신된 언어편집정보를 검색하여 수어 동영상을 검출하는 것으로, 수어 동영상이 존재하면 언어편집정보를 가공하고, 수어 동영상이 존재하지 않으면 수어 해석부에 가공하지 않은 상태 그대로 언어편집정보를 제공한다.

이러한 인터페이스부(410)는 수어 동영상이 검출된 언어편집정보를 MediaPipe 등의 신체 추적 프로그램을 통해 분석하여 신체 데이터를 생성하고, 상기 신체 데이터를 신체데이터 처리부(420)로 제공한다. 이를 위해, 인터페이스부(410)는 신체데이터 처리부(420)에 연결된다.

필요에 따라, 인터페이스부(410)는 신체 데이터와 함께 언어편집정보에 포함된 개인정보나 제1 문화권 정보를 신체데이터 처리부(420)로 제공할 수 있다.

상기 신체 추적 프로그램은 수어 사용자의 몸짓과 표정도 수어의 의미를 파악하는데 활용할 수 있도록 양손 포즈 데이터와, 전신 포즈 데이터, 및 표정 데이터를 포함된 신체 데이터를 생성할 수 있다. 이때, 양손 포즈 데이터와 전신 포즈 데이터 및 표정 데이터는 포인트 좌표를 포함한다. 또한, 전신 포즈 데이터에는 팔꿈치 부분의 접히는 방향의 내각, 몸통과 팔 사이의 내각, 몸통과 다리 사이의 내각, 무릎 부분의 접히는 방향의 내각이 더 포함될 수 있다.

보다 구체적으로, 신체 추적 프로그램은 동작 추출모듈과, 좌표 추출모듈을 포함하여 구성될 수 있으며, 선택적으로 배경 분리모듈이 더 포함될 수 있다.

상기 배경 분리모듈은 WebRTC 서버(300)로부터 수신된 언어편집정보에 수어 동영상이 포함되어 있는 경우에 상기 수어 동영상을 이미지화 하고, 이미지에서 움직임 추적 사전 훈련 모델을 통해 수어 사용자의 동작과 배경을 분리하여 수어 사용자의 동작만 딥러닝을 통해 추출함으로써 배경 제거 동영상을 생성한다.

상기 동작 추출모듈은 배경 분리모듈로부터 배경 제어 동영상을 수집하며, 상기 배경 제거 동영상을 통해 양손 포즈 영상을 추출하고, 전신 포즈 영상을 추출하며, 얼굴 표정 영상을 추출한다.

상기 좌표 추출모듈은 동작 추출모듈로부터 양손 포즈 영상, 전신 포즈 영상, 얼굴 표정 영상을 수집하며, 상기 양손 포즈 영상에 따른 포인트 좌표를 추출하고, 상기 전신 포즈 영상에 따른 포인트 좌표를 추출하며, 상기 얼굴 표정 영상에 따른 포인트 좌표를 추출한다.

이때, 좌표 추출모듈은 양손 포즈 영상을 바디 트레킹(body tracking)을 적용한 딥러닝 모델을 통해 분석하여 좌,우 양손 각각에서 21개의 손 포인트 좌표를 추출하고, 상기 손 포인트 좌표가 포함된 양손 포즈 데이터를 생성한다.

또한, 좌표 추출모듈은 전신 포즈 영상을 바디 트레킹(body tracking)을 적용한 딥러닝 모델을 통해 분석하여 몸통과, 팔, 다리에서 미리 지정된 수십개의 포인트 좌표를 추출하며, 몸통과 팔 및 다리의 포인트 좌표가 포함된 전신 포즈 데이터를 생성한다.

필요에 따라, 좌표 추출모듈은 팔의 포인트 좌표를 분석하여 팔꿈치 부분의 접히는 방향의 제1 내각을 검출하고, 다리의 포인트 좌표를 분석하여 무릎 부분의 접히는 방향의 제2 내각을 검출하고, 몸통의 포인트 좌표와 팔의 포인트 좌표를 함께 분석하여 몸통과 팔 사이의 제3 내각을 검출하고, 몸통의 포인트 좌표와 다리의 포인트 좌표를 함께 분석하여 몸통과 다리 사이의 제4 내각을 검출하고, 제1 내각 내지 제4 내각이 포함된 전신 포즈 데이터를 생성한다.

아울러, 좌표 추출모듈은 얼굴 표정 영상을 바디 트레킹(body tracking)을 적용한 딥러닝 모델을 통해 분석하여 눈, 코, 입술에서 20~70개의 포인트 좌표를 추출하며, 눈과 코 및 입술의 포인트 좌표가 포함된 표정 데이터를 생성한다.

다시 말해, 인터페이스부(410)는 언어편집정보를 신체 추적 프로그램을 통해 분석하여 손의 움직임에 따른 포인트 좌표를 측정하고, 얼굴표정에 따른 포인트 좌표를 측정하며, 팔과 다리의 움직임에 따른 포인트 좌표를 측정하고, 각 포인트 좌표를 기반으로 신체 데이터를 생성한다.

필요에 따라, 인터페이스부(410)는 AI 서버(400)에 구비되는 대신 WebRTC 서버(300)와 AI 서버(400)의 사이에서 별도의 서버로 구현될 수 있다. 이 경우, 인터페이스부(410)는 외부인 AI 서버(400)로 신체 데이터를 송신한 후 상기 신체 데이터를 기반으로 생성된 제1 번역정보가 AI 서버(400)로부터 수신되면 상기 제1 번역정보를 WebRTC 서버(300)로 송신한다.

또한, 인터페이스부(410)는 수어 동영상이 미 검출된 언어편집정보를 AI 서버(400)로 송신하며, 상기 언어편집정보를 기반으로 생성된 제2 번역정보가 수신되면 상기 제2 번역정보를 WebRTC 서버(300)로 송신한다.

상기 신체데이터 처리부(420)는 인터페이스부(410)가 제공한 신체 데이터를 미리 학습된 AI 엔진(430)으로 분석하여 신체 데이터에 매칭된 수어 액션에 대한 텍스트를 추출한다. 필요에 따라, 신체데이터 처리부(420)는 수어 사용자의 개인정보나 문화권에 따른 수어 차이가 반영되도록 인터페이스부(410)가 제공한 신체 데이터와 함께 개인정보 또는 제1 문화권 정보를 미리 학습된 AI 엔진(430)으로 분석하여 신체 데이터와 함께 개인정보 또는 제1 문화권 정보에 매칭된 수어 액션에 대한 텍스트를 추출한다.

상기 번역정보 생성부(440)는 상기 신체데이터 처리부(420)로부터 추출된 텍스트를 사용하여 음성 또는 문자가 포함된 번역정보를 생성한다. 또한, 번역정보 생성부(440)는 추출된 텍스트를 제2 문화권 정보에 적합한 텍스트로 보완하며, 보완된 텍스트로 음성 또는 문자가 포함된 번역정보를 생성할 수 있다.

필요에 따라, 번역정보 생성부(440)는 제2 단말기(200)의 사용자가 미리 지정한 언어로 상기 텍스트를 번역하여 제1 번역정보를 생성할 수 있다. 이때, 번역정보 생성부(440)가 사용하는 기본언어와 제2 단말기(200)의 사용자가 미리 지정한 언어가 서로 다른 경우, 번역정보 생성부(440)는 통신 네트워크를 연결된 외부의 외국어 번역 엔진과 연동하여 텍스트를 제2 단말기(200)의 사용자가 미리 지정한 언어로 외국어 번역을 수행한다.

한편, AI 서버(400)는 도 3에 도시된 바와 같이 인터페이스부(410), 및 상기 인터페이스부(410)로부터 제공된 언어편집정보를 분석하여 형태소별로 분류하고 각 형태소에 매칭된 수어영상을 추출한 후 편집하여 제2 번역정보를 생성하며 상기 제2 번역정보를 인터페이스부(410)로 제공하는 수어 생성부를 포함하여 구성될 수 있다. 이를 위해, 수어 생성부는 형태소 분석기(450)와, 수어영상 DB(460), 및 번역정보 생성부(470)가 포함될 수 있다.

상기 인터페이스부(410)는 음성 또는 문자가 포함된 언어편집정보가 WebRTC 서버(300)로부터 수신되면, 이를 형태소 분석기(450)로 제공한다. 이를 위해, 인터페이스부(410)는 형태소 분석기(450)에 연결된다. 필요에 따라, 인터페이스부(410)는 언어편집정보와 함께 개인정보나 제2 문화권 정보를 형태소 분석기(450)로 제공할 수 있다.

상기 형태소 분석기(450)는 인터페이스부(410)가 제공한 언어편집정보를 분석하여 언어편집정보에 포함된 음성 또는 문자를 형태소별로 분류한다. 필요에 따라, 형태소 분석기(450)는 인터페이스부(410)가 제공한 언어편집정보와 함께 개인정보나 제2 문화권 정보를 분석하여 언어편집정보에 포함된 음성 또는 문자를 표준언어 텍스트로 변환하고, 상기 표준언어 텍스트를 형태소별로 분류한다.

상기 수어영상 데이터베이스(DB, 460)는 형태소별로 매칭된 수어영상이 저장된다. 이러한 수어영상 DB는 단어 또는 문장 단위로 수어를 구현한 수어영상을 포함할 수 있다. 이때, 상기 수어영상은 자체적으로 제작되거나 오픈 데이터를 통해 제공되는 CSV 포맷 파일 등을 통해 마련될 수 있으며, 모두 수정이 가능하도록 형성될 수 있다.

상기 번역정보 생성부(470)는 형태소 분석기(450)로부터 제공된 형태소별로 매칭된 수어영상을 수어영상 DB(460)를 통해 추출하며, 형태소별 수어영상을 편집하여 제2 번역정보를 생성한다.

필요에 따라, AI 서버(400)는 각 형태소에 매칭된 수어영상을 미리 설치된 수어영상 DB(460)에서 추출하고, 상기 수어영상을 기반으로 애니메이션 영상을 생성하며, 상기 애니메이션 영상이 포함된 번역정보를 생성할 수 있다. 이를 위해, 번역정보 생성부(470)는 수어영상 DB(460)를 통해 추출된 형태소별 수어영상을 기반으로 애니메이션 영상을 생성하며, 상기 애니메이션 영상이 포함된 번역정보를 생성한다.

이상에서 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술분야의 숙련된 당업자는 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

100 : 제1 단말기 200 : 제2 단말기(200)
300 : WebRTC 서버 400 : 인공지능 서버
410 : 인터페이스부 420 : 신체데이터 처리부
430 : AI 엔진 440 : 번역정보 생성부
450 : 형태소 분석기 460 : 수어영상 데이터베이스
470 : 번역정보 생성부

Claims

수어 동영상이 포함된 언어정보를 송신하는 제1 단말기;
음성 또는 문자가 포함된 번역정보를 수신받는 제2 단말기;
상기 제1 단말기와 제2 단말기를 통해 화상대화를 진행할 수 있도록 제1 단말기와 제2 단말기를 중계하고, 상기 제1 단말기로부터 수신된 언어정보를 분석하여 수어 동영상이 포함된 언어편집정보를 생성하고, 상기 언어편집정보를 외부로 송신하며, 외부로부터 수신된 번역정보를 제2 단말기로 송신하는 WebRTC 서버; 및
상기 WebRTC 서버로부터 수신된 언어편집정보를 신체 추적 프로그램을 통해 분석하여 신체 데이터를 생성하고, 상기 신체 데이터를 미리 학습된 인공지능 엔진으로 분석하여 신체 데이터에 매칭된 수어 액션에 대한 텍스트를 추출하고 상기 텍스트로 번역정보를 생성하며, 상기 번역정보를 WebRTC 서버로 송신하는 인공지능 서버를 포함하며,
상기 제1 단말기는 미리 사용자로부터 수어배움지역, 거주지역, 국적 중 어느 하나 이상을 입력받아 제1 문화권 정보를 생성하고, 상기 제1 문화권 정보를 WebRTC 서버로 전송하는 수어통역 앱이 설치되고,
상기 제2 단말기는 미리 사용자로부터 모국어, 거주지역, 국적 중 어느 하나 이상을 입력받아 제2 문화권 정보를 생성하고, 상기 제2 문화권 정보를 WebRTC 서버로 전송하는 수어통역 앱이 설치된 것을 특징으로 하는 온라인 다방향 소통 시스템.
제1 항에 있어서,
상기 제2 단말기는 음성 또는 문자가 포함된 언어정보를 WebRTC 서버로 송신하고,
상기 제1 단말기는 수어 동영상이 포함된 번역정보를 WebRTC 서버로부터 수신받고,
상기 WebRTC 서버는 상기 제2 단말기로부터 수신된 언어정보를 분석하여 음성 또는 문자를 추출하여 음성 또는 문자가 포함된 언어편집정보를 생성하고, 상기 언어편집정보를 상기 인공지능 서버로 송신하며, 인공지능 서버로부터 수신된 번역정보를 제1 단말기로 송신하고,
상기 인공지능 서버는 WebRTC 서버로부터 수신된 언어편집정보를 미리 설치된 형태소 분석기를 통해 분석하여 형태소별로 분류하고, 각 형태소에 매칭된 수어영상을 미리 설치된 수어영상 데이터베이스에서 추출한 후 편집하여 번역정보를 생성하며, 상기 번역정보를 WebRTC 서버로 송신하는 것을 특징으로 하는 온라인 다방향 소통 시스템.
제2 항에 있어서, 상기 인공지능 서버는
상기 수어영상 데이터베이스에서 추출한 수어영상을 기반으로 애니메이션 영상을 생성하며, 상기 애니메이션 영상이 포함된 번역정보를 생성하는 것을 특징으로 하는 온라인 다방향 소통 시스템.
제1 항에 있어서, 상기 신체 데이터는
양손 포즈 데이터와, 전신 포즈 데이터, 및 표정 데이터를 포함하는 것을 특징으로 하는 온라인 다방향 소통 시스템.
제4 항에 있어서, 상기 전신 포즈 데이터는
팔꿈치 부분의 접히는 방향의 내각, 몸통과 팔 사이의 내각, 몸통과 다리 사이의 내각, 무릎 부분의 접히는 방향의 내각이 포함된 것을 특징으로 하는 온라인 다방향 소통 시스템.
제1 항에 있어서, 상기 인공지능 서버는
상기 제2 단말기의 사용자가 미리 지정한 언어로 상기 텍스트를 번역하여 번역정보를 생성하는 것을 특징으로 하는 온라인 다방향 소통 시스템.
제1 항에 있어서, 상기 인공지능 서버는
손의 움직임에 따른 포인트 좌표를 측정하고, 얼굴표정에 따른 포인트 좌표를 측정하며, 팔과 다리의 움직임에 따른 포인트 좌표를 측정하고, 각 포인트 좌표를 기반으로 신체 데이터를 생성하는 것을 특징으로 하는 온라인 다방향 소통 시스템.
삭제
제1 항에 있어서, 상기 인공지능 서버는
문화권에 따른 수어 차이가 반영되도록 신체 데이터와 상기 제1 문화권 정보를 미리 학습된 AI 엔진으로 분석하여 신체 데이터와 제1 문화권 정보에 매칭된 수어 액션에 대한 텍스트를 추출하고, 추출된 텍스트를 상기 제2 문화권 정보에 적합한 텍스트로 보완하며, 보완된 텍스트로 음성 또는 문자가 포함된 번역정보를 생성하는 것을 특징으로 하는 온라인 다방향 소통 시스템.
제2 항에 있어서, 상기 인공지능 서버는
상기 WebRTC 서버로부터 제공된 언어편집정보에 음성이 포함된 경우에 상기 음성의 언어 종류, 억양, 악센트를 분석하여 제2 문화권 정보를 생성하고, 추출된 텍스트를 상기 제2 문화권 정보에 적합한 텍스트로 보완하며, 보완된 텍스트로 음성 또는 문자가 포함된 번역정보를 생성하는 것을 특징으로 하는 온라인 다방향 소통 시스템.