WO2024053967A1

WO2024053967A1 - 디스플레이 기반 커뮤니케이션 시스템

Info

Publication number: WO2024053967A1
Application number: PCT/KR2023/013179
Authority: WO
Inventors: 장준수; 김현진; 이지수
Original assignee: 주식회사 바토너스
Priority date: 2022-09-05
Filing date: 2023-09-04
Publication date: 2024-03-14

Abstract

본 개시는, 수어를 이용한 커뮤니케이션을 위한 커뮤니케이션 보조 장치에 있어서, 영상 데이터의 분석된 사용자의 움직임으로부터 수어 문장을 추출하는 수어 인식 모듈 및 추출된 수어 문장을 표시하는 투명 디스플레이를 포함하는 커뮤니케이션 보조 장치를 제공한다.

Description

디스플레이 기반 커뮤니케이션 시스템

본 개시는 커뮤니케이션 시스템 에 관한 것으로서, 구체적으로는 디스플레이에 기반한 커뮤니케이션 시스템 에 관한 것이다.

청각 장애인들은 청력이 저하되거나 청각 기능이 상실된 사람들을 총칭하는 표현이다. 청각 장애인들은 청력의 장애 정도에 따라, 크게 세 가지의 방식으로 의사 소통할 수 있다. 첫 번째로, 청력 장애의 정도가 낮은 경우, 청력 보조장치 등을 이용하여 청력을 보강하여 비장애인들과 구화로 의사 소통이 가능하다. 두 번째로 상대의 입 모양을 보고 무슨 말인지 유추하는 독화법을 이용하여 비장애인들과 의사 소통할 수 있다. 그리고 마지막으로 수어를 이용하여 비장애인들과 의사 소통을 할 수 있다.

청각 장애인들은 기존에도 의사소통에 어려움을 겪었으며, 2020년부터 유행하기 시작한 COVID-19로 인하여 더욱 의사소통의 어려움이 심화되었다. 예를 들어, COVID-19확산으로 인하여 접수 및 상담 창구 등에 비말 차단용 투명 가림막이 설치됨으로써, 청각 장애인은 상대의 말 소리를 알아듣기 힘들어졌다. 또한, 특히 투명 가림막이 오염되었을 경우, 독화법 또는 수어를 사용하는 청각 장애인은 입모양 또는 수어 동작을 제대로 볼 수 없어, 의사소통에 어려움이 가중되었다.

또한 수어 사용자들은 대다수 서비스들이 수어 기반으로 수행되지 않는 바, 수어 사용자의 서비스 접근성을 높이기 위한 다양한 기술적 발전이 요구된다.

본 개시는 수어 커뮤니케이션의 정확성 및 편이성을 증대시키기 위한 디스플레이에 기반한 수어 커뮤니케이션 시스템을 제공하는 것을 목적으로 한다.

본 개시에서, 수어를 이용한 커뮤니케이션을 위한 커뮤니케이션 보조 장치에 있어서, 영상 데이터의 분석된 사용자의 움직임으로부터 수어 문장을 추출하는 수어 인식 모듈 및 상기 추출된 수어 문장을 표시하는 디스플레이를 포함하는 커뮤니케이션 보조 장치가 제공된다.

일 실시예에 따르면, 상기 커뮤니케이션 보조 장치는, 음성 데이터를 텍스트 데이터로 변환하는 STT 모듈 및 음성 데이터를 수어 데이터로 변환하는 수어 생성 모듈을 더 포함하는 것을 특징으로 할 수 있다.

일 실시예에 따르면, 상기 커뮤니케이션 보조 장치는, 상기 디스플레이로 상기 사용자가 선택가능한 단어 카드를 제공하는 단어 카드 선택 모듈을 더 포함하고, 상기 수어 인식 모듈은 선택된 단어 카드에 기초하여 상기 수어 문장을 추출하는 것을 특징으로 할 수 있다.

일 실시예에 따르면, 상기 커뮤니케이션 보조 장치는, 사용자가 텍스트를 입력하기 위한 사용자 인터페이스를 상기 디스플레이에 제공하는 텍스트 입력 모듈을 더 포함하고, 상기 수어 인식 모듈이 상기 수어 문장의 추출을 실패했을 때, 상기 텍스트 입력 모듈이 활성화되는 것을 특징으로 할 수 있다.

일 실시예에 따르면, 상기 커뮤니케이션 보조 장치는, 상기 커뮤니케이션 보조 장치를 외부 디바이스와 통신적으로 연결되도록 제어하는 통신 모듈을 더 포함하고, 상기 수어 인식 모듈이 상기 수어 문장의 추출을 실패했을 때, 상기 통신 모듈이 상기 커뮤니케이션 보조 장치를 상기 외부 디바이스와 연결되도록 제어하는 것을 특징으로 할 수 있다.

일 실시예에 따르면, 상기 수어 인식 모듈은, 상기 영상 데이터를 복수의 세그먼트로 분할하고, 상기 복수의 세그먼트의 글로스 각각의 인식 정확도를 결정하고, 상기 복수의 세그먼트의 글로스들 중, 상기 인식 정확도가 소정의 값보다 큰 글로스에 기초하여 수어 문장을 추출하는 것을 특징으로 할 수 있다.

일 실시예에 따르면, 상기 인식 정확도는, 세그먼트의 글로스와 유사 글로스의 유사도에 기초하여 결정되고, 상기 유사 글로스는 상기 세그먼트의 글로스와 가장 유사한 글로스인 것을 특징으로 할 수 있다.

일 실시예에 따르면, 상기 수어 인식 모듈은, 상기 영상 데이터로부터 사용자의 관절 부위를 탐지함으로써, 사용자의 움직임 추적을 위한 스켈레톤 정보를 추출하고, 상기 스켈레톤 정보에 따른 사용자의 글로스와, 상기 유사 글로스를 비교하는 것을 특징으로 할 수 있다.

일 실시예에 따르면, 상기 디스플레이는, 상기 복수의 세그먼트의 글로스들의 인식 정확도가 모두 소정의 값보다 작은 경우, 수어 문장의 재전송을 요청하는 메시지를 표시하는 것을 특징으로 할 수 있다.

일 실시예에 따르면, 상기 수어 인식 모듈은, 상기 인식 정확도가 소정의 값보다 큰 글로스 및 이전 대화 내용에 기초하여 수어 문장을 추출하는 것을 특징으로 할 수 있다.

일 실시예에 따르면, 상기 수어 인식 모듈은, 상기 복수의 세그먼트의 글로스들이 인식 정확도가 소정의 값보다 큰 제1 글로스와 인식 정확도가 소정의 값보다 작은 제2 글로스를 포함할 경우, 제1 글로스에 기초하여, 상기 제2 글로스를 대신하는 복수의 글로스 후보를 결정하고, 상기 복수의 글로스 후보 중 선택된 글로스 후보와 제1 글로스에 기초하여 수어 문장을 추출하는 것을 특징으로 할 수 있다.

일 실시예에 따르면, 상기 수어 인식 모듈은, 상기 복수의 세그먼트의 글로스들이 인식 정확도가 소정의 값보다 큰 제1 글로스와 인식 정확도가 소정의 값보다 작은 제2 글로스를 포함할 경우, 제1 글로스 및 이전 대화 내용에 기초하여, 상기 제2 글로스를 대신하는 복수의 글로스 후보를 결정하고, 상기 복수의 글로스 후보 중 선택된 글로스 후보와 제1 글로스에 기초하여 수어 문장을 추출하는 것을 특징으로 할 수 있다.

일 실시예에 따르면, 상기 수어 인식 모듈은, 상기 제2 글로스와의 유사도에 따라, 상기 복수의 글로스 후보의 우선순위를 결정하고, 상기 디스플레이는, 상기 우선순위에 따라, 상기 복수의 글로스 후보를 표시하는 것을 특징으로 할 수 있다.

일 실시예에 따르면, 상기 디스플레이는 투명 디스플레이인 것을 특징으로 할 수 있다.

일 실시예에 따르면, 상기 커뮤니케이션 보조 장치는 사용자의 음성 또는 숭 영상을 입력 받는 입력 장치와 함께 커뮤니케이션 시스템을 구성할 수 있다.

본 개시에서, 상기 커뮤니케이션 보조 장치의 각종 기능 및 명령을 구현하는 프로그램과 상기 프로그램이 저장된 기록 매체가 제공된다.

본 개시의 커뮤니케이션 보조 장치에 의하여, 수어에 기반한 커뮤니케이션의 정확성 및 편이성이 향상될 수 있다. 특히, 수어 사용자의 커뮤니케이션 정확성 및 편이성이 향상됨으로써, 수어 사용자가 전문 수어 통역사의 도움 없이도 불편함 없이 비장애인에게 제공되는 서비스를 제공받을 수 있다.

또한, 본 개시의 수어 인식 보조를 위한 디바이스에 의하여, 사용자가 수어 입력의 시작과 종료를 용이하게 제어할 수 있다. 따라서, 사용자가 자신이 원하는 시간에 수어 영상을 커뮤니케이션 보조 장치에 입력함으로써, 수어 커뮤니케이션의 편이성이 증대될 수 있다.

도 1은 수어를 이용한 커뮤니케이션을 위한 영상 표시 장치와 이를 포함하는 시스템을 도시한다.

도 2 및 3은 커뮤니케이션 보조 장치의 이용 양태를 설명한다.

도 4는 디스플레이에 입력되는 영상의 일 실시 예를 나타낸다.

도 5는 인식 정확도에 기반한 수어 문장의 유추 방법에 대한 일 예를 설명한다.

도 6은 수어 영상으로부터 추출된 스켈레톤 정보의 일 예이다.

본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 개시를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다. 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다. 후술하는 예시적 실시예들에 대한 상세한 설명은, 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 실시예를 실시할 수 있기에 충분하도록 상세히 설명된다. 다양한 실시예들은 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 개시의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 실시예의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 예시적 실시예들의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다.

본 개시에서 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 개시의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

본 개시의 어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있으나, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어"있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 개시의 실시예에 나타나는 구성부들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성단위로 이루어짐을 의미하지 않는다. 즉, 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 포함한 것으로 각 구성부 중 적어도 두개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수 개의 구성부로 나뉘어져 기능을 수행할 수 있고 이러한 각 구성부의 통합된 실시예 및 분리된 실시예도 본 개시의 본질에서 벗어나지 않는 한 본 개시의 권리범위에 포함된다.

본 개시에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 개시를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 개시에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 즉, 본 개시에서 특정 구성을 "포함"한다고 기술하는 내용은 해당 구성 이외의 구성을 배제하는 것이 아니며, 추가적인 구성이 본 개시의 실시 또는 본 개시의 기술적 사상의 범위에 포함될 수 있음을 의미한다.

본 개시의 일부의 구성 요소는 본 개시에서 본질적인 기능을 수행하는 필수적인 구성 요소는 아니고 단지 성능을 향상시키기 위한 선택적 구성 요소일 수 있다. 본 개시는 단지 성능 향상을 위해 사용되는 구성 요소를 제외한 본 개시의 본질을 구현하는데 필수적인 구성부만을 포함하여 구현될 수 있고, 단지 성능 향상을 위해 사용되는 선택적 구성 요소를 제외한 필수 구성 요소만을 포함한 구조도 본 개시의 권리범위에 포함된다.

이하, 도면을 참조하여 본 개시의 실시 형태에 대하여 구체적으로 설명한다. 본 명세서의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 명세서의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략하고, 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

본 개시에서는 디스플레이에 기반하여 수어 및 AAC로 의사소통하는 방법 및 시스템이 제공된다. 본 개시에서 디스플레이에 기반한 수어 및 AAC 의사소통 방법의 다양한 실시 예를 제공함으로써, 수어 및 AAC 이용자의 의사소통 능력이 강화될 수 있다.

여기서 '수어'란 손으로 하는 언어를 의미한다. 그리고 'AAC'는 보완 대체 의사소통 (Augmentative and alternative communication)을 의미한다. 구체적으로, 'AAC'는 문장 또는 단어를 표현하는 이미지를 이용하여 언어 능력이 부족한 사람의 의사 표현 능력을 향상시키는 것을 목적으로 한다. 상기 수어 및 AAC는 음성을 이용한 의사소통이 어려운 사람들이 이용하는 의사소통 방식이다. 수어 문장은 수어의 표제어가 되는 글로스 (gloss) 단위로 나눌 수 있다. 글로스란 수어의 최소 단위의 단어, 즉 수어 의미소를 의미한다.

이하, 본 개시에 따른 영상 표시 장치는 2인 이상의 사람의 커뮤니케이션을 보조하기 위하여 사용된다. 본 개시에서, 설명의 편의를 위하여, 자신의 의사를 표시하는 화자를 "사용자"로, 사용자의 의사를 전달받는 청자를 "상대방"로 설명하였다. 따라서, 대화에서 "사용자"와 "상대방"의 위치는 서로 바뀔 수 있다.

도 1은 수어를 이용한 커뮤니케이션을 위한 영상 표시 장치 (110)와 이를 포함하는 시스템(100)을 도시한다.

커뮤니케이션 시스템 (100)은 커뮤니케이션 보조 장치 (110), 음성 입력부 (130), 영상 입력부 (140), 및 수어 인식 보조 방치 (150)을 포함할 수 있다.

커뮤니케이션 보조 장치 (110)는 디스플레이 (112)를 포함할 수 있다. 디스플레이 (112)는 투명 디스플레이로 구현될 수 있다. 따라서, 2인 이상의 사용자는 커뮤니케이션 보조 장치 (110)의 디스플레이 (112)로부터 서로 반대편에 위치하면서, 상대방과 수어 및 AAC 로 의사 소통할 수 있다. 또는 디스플레이 (112)가 일반 디스플레이로 구현되는 경우, 복수의 커뮤니케이션 보조 장치 (110)가 통신적으로 연결되어, 원거리에 위치한 2인 이상의 사용자들은 수어 및 AAC로 의사소통할 수 있다. 따라서 비대면 환경에서, 음성 커뮤니케이션에 불편을 느끼는 사람은 커뮤니케이션 보조 장치 (110)를 통해, 수어 및/또는 AAC로 상대방에게 문장을 전달할 수 있다.

디스플레이 (112)는 사용자의 특성 (의사소통 방식) 에 따라, 다른 화면 UI/UX (User Interface / User eXperience) 를 표시할 수 있다. 그리고 디스플레이 (112)는 기존의 대화 내용을 일정 부분 디스플레이 (112)에 계속 표시함으로써, 사용자들이 기존의 대화 내용을 언제든지 손쉽게 열람할 수 있다.

커뮤니케이션 보조 장치 (110)는 수어를 이용한 커뮤니케이션을 원활하게 하기 위하여, 추가적으로 소정의 모듈을 포함할 수 있다. 구체적으로, 커뮤니케이션 보조 장치 (110)는 STT (Speech to Text) 모듈 (114), 수어 생성 모듈 (116), 수어 인식 모듈 (118), 단어 카드 선택 모듈 (120), 텍스트 입력 모듈 (122) 및 통신 모듈 (124) 중 일부를 포함할 수 있다.

STT 모듈 (114)은 음성 데이터를 텍스트 데이터로 변환할 수 있다. 구체적으로, STT 모듈 (114)은 음성 입력부 (130)에서 입력된 음성 데이터를 텍스트 데이터로 변환하고, 그 텍스트 데이터를 디스플레이 (112)에 전송할 수 있다. 그리고 디스플레이 (112)는 텍스트 데이터를 표시할 수 있다.

수어 생성 모듈 (116)은 음성 데이터를 수어 데이터로 변환할 수 있다. 구체적으로, 수어 생성 모듈 (116)은 음성 입력부 (130)에서 입력된 음성 데이터를 수어 데이터로 변환하고, 그 수어 데이터를 디스플레이 (112)에 전송할 수 있다. 그리고 디스플레이 (112)는 수어 데이터에 따른 수어 영상을 표시할 수 있다.

수어 인식 모듈 (118)은 영상 데이터의 사용자의 움직임을 분석하고, 사용자의 움직임으로부터 사용자가 의도한 수어 문장을 추출한다. 그리고 수어 인식 모듈 (118)은 추출된 수어 문장을 텍스트 데이터로 변환하고, 그 텍스트 데이터를 디스플레이 (112)에 전송할 수 있다. 그리고 디스플레이 (112)는 텍스트 데이터를 표시할 수 있다.

단어 카드 선택 모듈 (120)은 사용자가 간단한 의미 표현을 AAC로 표현할 수 있도록 단어 카드를 디스플레이 (112) 상에 제공할 수 있다. 따라서, 사용자는 음성, 텍스트, 및 수화로 의사소통함과 동시에 단어 카드 선택 모듈 (120)에서 제공하는 단어 카드를 선택함으로써, 자신의 의도를 상대방에게 더 정확히 전달할 수 있다. 여기서, 단어 카드는 단어가 시각화된 영상을 포함하므로, 상대방은 단어 카드의 영상을 보고 사용자의 의사를 파악할 수 있다. 예를 들어, 단어 카드 선택 모듈 (120)은 행복함, 지루함, 슬픔, 짜증남, 화남 등과 같은 사용자의 기분을 나타내는 단어 카드를 제공할 수 있고, 사용자의 선택에 따라 디스플레이 (112) 상에 단어 카드에 포함된 영상을 표시할 수 있다. 따라서 상대방은 사용자가 입력한 텍스트 또는 수어 영상과 함께, 단어 카드에 포함된 영상을 참조하여, 사용자의 의사를 용이하게 파악할 수 있다.

텍스트 입력 모듈 (122)은 사용자가 직접 텍스트를 입력하기 위한 텍스트 입력 UI (User Interface)를 디스플레이 (112) 상에 제공할 수 있다. 사용자가 수어나 AAC로 자신의 정확한 의사를 제공하기 어려움을 느끼는 경우, 텍스트 입력 모듈 (122)의 텍스트 입력 UI를 이용하여 상대방에게 직접 텍스트를 전달할 수 있다.

통신 모듈 (124)은 커뮤니케이션 보조 장치 (110)가 외부 디바이스와 통신적으로 연결될 수 있도록 할 수 있다. 만약 상호 의사소통에 곤란함이 있을 때는 통신 모듈 (124)을 이용하여 수어통역사 등 제3자가 대화에 참여할 수 있다.

음성 입력부 (130)는 마이크와 같이 음성 정보를 입력 받는 디바이스로 구현될 수 있다. 그리고 영상 입력부 (140)는 카메라와 같이 영상 정보를 입력 받는 디바이스로 구현될 수 있다. 또한 제어 디바이스 (150)는 수어 영상 촬영의 시작 및 종료를 제어하기 위하여 사용될 수 있다.

도 2 는 커뮤니케이션 보조 장치 (110)의 이용 양태의 일 실시 예를 설명한다.

도 2에 따르면, 투명 디스플레이로 구현된 커뮤니케이션 보조 장치 (110)가 책상의 가운데에 위치하고, 책상의 반대편에 2인의 사용자 (200, 202)가 위치한다. 따라서, 사용자 (200, 202)는 바로 대면하지 않고, 커뮤니케이션 보조 장치 (110)를 이용하여, 커뮤니케이션할 수 있다. 그러므로 사용자 (200, 202) 간에 감염을 방지할 뿐만 아니라, 커뮤니케이션 보조 장치 (110)의 데이터 입력, 변환 및 표시 기능을 이용하여, 커뮤니케이션에 어려움을 느끼는 사람이 손쉽게 상대방에게 자신의 의사를 전달할 수 있다.

도 3 은 커뮤니케이션 보조 장치 (110)의 이용 양태의 다른 일 실시 예를 설명한다.

도 3에 따르면, 투광성이 없는 일반 디스플레이로 구현된 제1 커뮤니케이션 보조 장치 (300)와 제2 커뮤니케이션 보조 장치 (310)가 각 책상의 가운데에 위치한다. 사용자 (200)은 제1 커뮤니케이션 보조 장치 (300)를 이용하고, 사용자 (202)은 제2 커뮤니케이션 보조 장치 (310)를 이용할 수 있다. 제1 커뮤니케이션 보조 장치 (300)와 제2 커뮤니케이션 보조 장치 (310)은 서로 통신적으로 연결되어 사용자들 (200, 202)은 서로 의사소통할 수 있다. 그러므로 도 2의 실시 예와 마찬가지로 사용자 (200, 202) 간에 감염을 방지할 뿐만 아니라, 커뮤니케이션 보조 장치들 (300, 310)의 데이터 입력, 변환 및 표시 기능을 이용하여, 커뮤니케이션에 어려움을 느끼는 사람이 손쉽게 상대방에게 자신의 의사를 전달할 수 있다. 도 3의 제1 커뮤니케이션 보조 장치 (300)와 제2 커뮤니케이션 보조 장치 (310)은 도 1의 커뮤니케이션 보조 장치 (110)와 동일한 구성을 가질 수 있다.

도 4은 디스플레이 (112)에 입력되는 영상의 일 실시 예를 나타낸다.

도 4에서, 디스플레이 (112)는 투명 디스플레이로 구현될 수 있다. 이 때, 상대방은 사용자의 모습을 그대로 볼 수 있다. 또한, 디스플레이 (112)는 좌측에 커뮤니케이션 보조 장치 (110)가 제공하는 다양한 기능을 표시할 수 있다. 커뮤니케이션 보조 장치 (110)의 기능은 아이콘으로 표시되며, 사용자는 아이콘을 누름으로써, 그 아이콘에 대응되는 기능이 활성화될 수 있다. 또한, 디스플레이 (112)는 우측에 기존 대화 내용을 표시할 수 있다. 따라서, 기존의 대화 내용이 디스플레이 (112)에 계속 표시됨으로써, 사용자들은 기존의 대화 내용을을 언제든지 손쉽게 열람할 수 있다. 디스플레이 (112)에서 기능 아이콘 및 대화 내용의 위치는 실시 예 따라 다르게 결정될 수 있다.

이하, 사용자가 수어를 이용하여 커뮤니케이션할 때, 수어 문장을 적절한 텍스트로 변환하는 방법의 실시 예가 제공된다.

실제 수어 사용자가 수어 문장을 커뮤니케이션 보조 장치 (110)에 입력할 경우, 글로스 단위로 수어가 분석됨으로써, 그 분석 결과가 도출된다. 이 때, 사용자의 수어 동작이 부정확하거나, 주변 환경에 의하여 수어 동작 영상이 왜곡된 경우, 글로스가 다른 의미로 인식될 수 있다. 따라서, 수어 문장이 사용자의 의도와 다르게 해석될 수 있다.

본 개시는, 이를 해결하기 위하여 각각의 글로스의 인식 정확도를 계산하여, 특정 글로스의 인식 정확도가 소정의 값 이하로 판단된 경우, 특정 글로스에 대한 해당 결과값을 무시하고 인식 정확도가 높은 다른 수어 글로스에 기초하여 전체 수어 문장의 의미를 유추하는 방법을 제공할 수 있다. 이러한 인식 정확도에 기반한 상기 수어 문장의 의미를 유추하는 방법은 수어 인식 모듈 (118)에 적용될 수 있다.

본 개시에서 인식 정확도란, 현재 글로스 및 현재 글로스와 이미 학습되어 있는 가장 유사한 최유사 글로스 간의 유사도를 나타낸다. 즉, 현재 글로스가 특정 최유사 글로스에 거의 일치할 경우, 인식 정확도는 100%에 가깝게 결정될 수 있다. 반대로, 현재 글로스가 어떠한 글로스에도 명확히 대응되지 않을 경우, 인식 정확도는 낮게 결정될 수 있다.

상기 소정의 값은 10~90% 사이의 임의의 값이다. 소정의 값이 낮을 수록, 수어 인식 모듈 (118)은 인식 정확도가 낮은 글로스도 이용하여 수어 문장을 생성할 수 있게 되어, 오류 발생률이 증가할 수 있다. 반대로, 소정의 값이 높을 수록, 수어 인식 모듈 (118)은 인식 정확도가 높은 글로스만으로 수어 문장을 생성하게 되어, 오류 발생률이 감소할 수 있다. 그러나 너무 많은 글로스가 필터링됨으로써, 전체 수어 문장의 추론 및 완성이 어려워질 수 있다. 따라서, 수어 문장 해석의 오류를 줄이면서 편이성을 증대시키기 위하여, 소정의 값이 적절한 범위에서 결정될 것이 요구된다.

단계 510에서, '화장실은 어디에 있나요?' 라는 의미의 수어 문장이 입력된다. 상기 수어 문장은 "화장실"을 의미하는 글로스와 "어디" 를 의미하는 글로스로 구성된다. 하지만 이 경우 "화장실", "어디" 라는 각각의 수어 표현 중 어느 하나가 잘못 인식될 경우, 수어 문장은 전혀 다른 의미로 번역될 수 있다. 도 5에서는 "어디"에 해당되는 수어 동작이 부정확한 것으로 가정하여 인식 정확도에 기반한 수어 문장의 유추 방법이 설명된다.

단계 520 및 530에서는 인식 정확도에 기반하지 않은, 기존의 수어 문장 구성 방법이 설명된다. 단계 520에서, 앞서 설명된 바와 같이, "어디" 에 해당되는 수어 동작이 부정확할 경우, 상기 수어 동작은 "먹다"로 잘못 인식될 수 있다. 따라서 단계 530에서, 수어 문장은 '화장실을 먹나요?' 라고 번역될 수 있다.

이를 해결하기 위하여, 단계 540 및 550에서는, 인식 정확도가 50% 이상인 수어 글로스들만 사용하여 수어 문장의 의미가 유추될 수 있다.

단계 540에서, 두 글로스에 대한 인식 정확도가 계산될 수 있다. 이 때, 두 글로스와 가장 유사한 단어가 판단된다. 예를 들어, "화장실"에 대응되는 글로스의 가장 유사한 단어는 "화장실"로 정확히 인식되고, "어디"에 대응되는 글로스의 가장 유사한 단어는 "먹다"로 잘못 인식될 수 있다. 그리고 각 글로스와 가장 유사한 단어 간의 인식 정확도가 계산된다. 예를 들어, "화장실"에 대응되는 글로스의 인식 정확도가 80%이고, "먹다"에 대한 인식 정확도가 35%로 계산될 수 있다.

단계 550에서, 인식 정확도가 50%보다 높은 글로스에 기반하여 전체 수어 문장이 유추된다. 따라서, 인식 정확도가 50% 이하인 "먹다"는 수어 문장 유추 프로세스에서 무시된다. 즉, 인식 정확도가 50% 이상인 "화장실" 수어를 기반으로 수어 문장의 의미가 유추될 수 있다. 예를 들어, "화장실 어디에 있나요?", "화장실 안내해주세요."와 같은 문장 후보가 제안될 수 있다. 그리고 사용자의 선택에 따라, 수어 문장이 텍스트로 번역될 수 있다.

일 실시 예에 따르면, 수어 문장의 모든 글로스의 인식 정확도가 소정의 값 미만일 경우에는, 수어 문장의 의미가 유추되지 않는다. 그리고 커뮤니케이션 보조 장치 (110)는 수어 문장의 재전송을 요청할 수 있다. 예를 들어, 디스플레이 (112)는 "수어를 제대로 인식하지 못하였습니다. 다시 한번 수어를 해주세요" 와 같은 메세지를 표시할 수 있다.

일 실시 예에 따르면, 수어 인식 모듈 (118)은 복수의 세그먼트의 글로스들이 인식 정확도가 소정의 값보다 큰 제1 글로스와 인식 정확도가 소정의 값보다 작은 제2 글로스를 포함할 경우, 제1 글로스에 기초하여, 상기 제2 글로스를 대신하는 복수의 글로스 후보를 결정할 수 있다. 또는 상기의 경우, 수어 인식 모듈 (118)은 제1 글로스 및 이전 대화 내용에 기초하여, 상기 제2 글로스를 대신하는 복수의 글로스 후보를 결정할 수 있다. 그리고 수어 인식 모듈 (118)은 상기 복수의 글로스 후보 중 선택된 글로스 후보와 제1 글로스에 기초하여 수어 문장을 추출할 수 있다. 이 때, 수어 인식 모듈 (118)은 제2 글로스와의 유사도에 따라, 상기 복수의 글로스 후보들의 우선순위를 결정하고, 디스플레이 (112)는, 우선순위에 따라, 복수의 글로스 후보를 표시할 수 있다.

일 실시 예에 따르면, 수어 인식 모듈 (118)은 기존의 대화 내용을 고려하여, 수어 문장의 의미를 유추할 수 있다. 예를 들어, 수어 문장에서 인식 정확도가 50% 이상인 글로스가 "화장실" 밖에 없을 경우, 기존의 대화 내용을 고려하여 "화장실" 을 포함하는 수어 문장을 완성할 수 있다.

일 실시 예에 따르면, 사용자가 "화장실이 어디있습니까?" 라는 질문을 수어로 했을 경우, 수어 인식 모듈 (118)은 사용자의 성별을 영상을 통하여 인식하고, 남자인 경우 남자 화장실 위치를 안내하며, 여자의 경우 여자 화장실 위치를 안내할 수 있다.

이하, 글로스의 인식 정확도의 도출 방법이 설명된다.

우선, 영상 입력부 (140)를 통하여 사용자의 수어 영상을 입력받는다. 그리고, 수어 인식 모듈 (118)은 인공지능 기술을 이용하여, 해당 수어 영상의 사용자가 인식되고, 사용자의 관절 부위를 탐지함으로써, 사용자의 움직임 추적을 위한 스켈레톤 정보를 추출한다. 본원의 도 6은 수어 영상으로부터 추출된 스켈레톤 정보의 일 예이다. 그리고, 수어 인식 모듈 (118)은 스켈레톤 정보에 따른 사용자의 움직임과, 기존에 저장된 특정 의미를 가진 글로스의 움직임을 비교할 수 있다. 그리고 양자 간의 유사 정도가 현재 글로스의 인식 정확도로 결정된다.

수어 인식 모듈 (118)은 글로스로부터 글로스를 추론하기 위한 AI 학습 모델과, 글로스로부터 자연어 문장을 추론하기 위한 AI 학습 모델을 포함할 수 있다. AI 학습 모델은 CNN (Convolution Neural Network) 및 Transformer 모델로 구성될 수 있다. AI 학습 모델은 수어 동작과 글로스로 구성된 학습 데이터와 글로스와 자연어 문장으로 구성된 학습 데이터에 의하여 학습될 수 있다.

상기 학습 데이터는 독자적인 데이터 증강 기법들(shift, resize, frame manipulation 등)을 이용하여, 데이터의 양이 최대 100배 이상까지 증강될 수 있다. 또한 각 수어 번역 단계에서 과적합을 방지하기 위해, 번역 대상이 아닌 동작 데이터들과, 일반적인 자연어 모델의 결과가 AI 학습 모델의 학습에 사용될 수 있다.

AI 학습 모델의 학습은 연속된 글로스들에 기초하여 수행된다. 구체적으로, 연속된 글로스들은 복수의 세그먼트로 분할될 수 있다. 그리고 학습 단계에서 각각의 세그먼트에 대한 레이블(label)의 확률이 계산된다. 또한 학습되지 않은 동작에 대하여 미확인 레이블 UNK (Unknown Label)이 할당된다.

그리고 수어 인식 모듈 (118)은 학습된 AI 학습 모델을 이용하여 영상의 글로스의 의미를 추론할 수 있다. 이 때, 수어 인식 모듈 (118)은 입력된 수어 영상을 복수의 세그먼트로 분할할 수 있다. 그리고 수어 인식 모듈 (118)은 각 세그먼트의 수어 표현 확률 중 가장 순위가 높은 표현을 결정할 수 있다. 수어 인식 모듈 (118)은 각 동작 별 수어 표현을 모두 파악한 후에는 전체 수어 표현들을 일반 자연어 문장으로 번역할 수 있다. 수어 인식 모듈 (118)의 추론 결과는 수어 표현들의 배열과 일반 자연어 문장 문자열 두 개를 출력할 수 있다.

이하, 제어 디바이스 (150)가 설명된다.

수어를 인식하기 위해서는 사용자가 수어를 시작하는 시점과 수어를 끝내는 시점을 인식하는 것이 중요하다. 수어 영상 촬영은 제어 디바이스 (150)의 시작 버튼에 신호를 입력하여 시작될 수 있다. 그리고 수어 영상 촬영은 양 손이 모두 카메라 밖으로 사라지고 1초가 지나면 자동적으로 종료될 수 있다. 촬영이 종료되면, 촬영된 수어 영상을 토대로 수어 표현에 대한 추론이 진행될 수 있다.

상기 제어 디바이스 (150)는 개인용 스마트폰일 수 있다. 이 때 스마트폰은 리모트 컨트롤러로 사용될 수 있다. 또는 제어 디바이스 (150)는 촬영 혹은 녹음 버튼을 포함하는 전용 디바이스일 수 있다. 제어 디바이스 (150)를 활용하여, 수어 영상 인식의 시작과 종료가 제어될 수 있다. 사용자 경험 향상을 위해 사용자가 소유하고 있는 스마트폰 맞춤 원격제어 웹 페이지가 개발될 수 있다. 그리고 제어 디바이스 (150)로 태블릿 및 pc 환경 내의 앱 페이지, 혹은 실물 공간에 비치된 qr마커 등을 촬영하는 것으로 상기 웹페이지에 쉽게 접속되도록 할 수 있다.

qr마커를 촬영하여 사용자 인가(authorization)가 수행될 경우, 비치된 pc 혹은 태블릿의 아이디로 자동 로그인되도록 할 수 있다. 그렇지 않은 경우, 각자 고유한 ID/PW로 로그인하여 각자 고유하게 접속할 수 있다. 또한 중복 접속을 방지하기 위해, 먼저 접속한 디바이스가 있다면 다른 디바이스는 접속이 되지 않도록 동시 접속이 제한될 수 있다.

제어 디바이스 (150)의 촬영 버튼을 누를 경우, 태블릿 또는 PC에서 촬영 버튼을 누른 것과 똑같은 프로세스가 진행될 수 있다. 제어 디바이스 (150)의 녹음 버튼을 누를 경우, 마찬가지로 태블릿 또는 PC에서 녹음 버튼을 누른 것과 똑같은 프로세스가 진행될 수 있다. 단 촬영의 주체는 사용자 앞에 비치된 PC 혹은 태블릿이고, 음성 녹음의 주체는 사용자가 들고 있는 스마트폰의 마이크가 사용될 수 있다. 영상 촬영 및 음성 녹음의 주체는 변경될 수 있다.

또는 제어 디바이스 (150)은 발 버튼으로 구현될 수 있다. 이 때, 발 버튼을 이용하여 수어 인식의 시작과 종료 지점이 결정될 수 있다.

일 실시 예에 따르면, 수어 인식의 시작 시점과 종료 시점은, 제어 디바이스 (150)와 상관없이, 특정 손 모양의 인식을 통해서 결정될 수 있다. 예를 들어, 손이 아래 화면 밖에서 갑자기 위로 올려 화면 안에 들어왔을 때 수어 인식이 시작될 수 있다. 또한 손이 화면 안에서 아래로 내려가며 밖으로 나갔을 때 수어 인식이 종료될 수 있다.

본 개시의 다양한 실시 예는 모든 가능한 조합을 나열한 것이 아니고 본 개시의 대표적인 양상을 설명하기 위한 것이며, 다양한 실시 예에서 설명하는 사항들은 독립적으로 적용되거나 또는 둘 이상의 조합으로 적용될 수도 있다.

또한, 본 개시의 다양한 실시 예는 하드웨어, 펌웨어(firmware), 소프트웨어, 또는 그들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 범용 프로세서(general processor), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다. 예를 들어, 종단 혹은 엣지(Edge)에서 사용될 수 있는 비 일시적 컴퓨터 판독가능한 매체에 저장된 프로그램의 형식이나, 엣지 혹은 클라우드에서 사용될 수 있는 비 일시적 컴퓨터 판독 가능한 매체에 저장된 프로그램의 형식으로도 구현될 수 있음은 자명하다.

예를 들어, 본 개시의 일 실시예에 따른 정보 표시 방법은 비-일시적 컴퓨터 판독가능한 매체에 저장된 프로그램 형태로서 구현될 수 있으며, 상기에서 설명한 방향성 기반의 블록 단위로 위상 펼침을 수행하는 방법도 컴퓨터 프로그램의 형태로서 구현될 수 있다.

본 개시의 범위는 다양한 실시 예의 방법에 따른 동작이 장치 또는 컴퓨터 상에서 실행되도록 하는 소프트웨어 또는 머신-실행 가능한 명령들(예를 들어, 운영체제, 애플리케이션, 펌웨어(firmware), 프로그램 등), 및 이러한 소프트웨어 또는 명령 등이 저장되어 장치 또는 컴퓨터 상에서 실행 가능한 비-일시적 컴퓨터-판독가능 매체(non-transitory computer-readable medium)를 포함한다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로, 본 발명의 범위는 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

Claims

수어를 이용한 커뮤니케이션을 위한 커뮤니케이션 보조 장치에 있어서,

영상 데이터의 분석된 사용자의 움직임으로부터 수어 문장을 추출하는 수어 인식 모듈; 및

상기 추출된 수어 문장을 표시하는 디스플레이를 포함하는 커뮤니케이션 보조 장치.
제1항에 있어서,

상기 커뮤니케이션 보조 장치는,

음성 데이터를 텍스트 데이터로 변환하는 STT 모듈; 및

음성 데이터를 수어 데이터로 변환하는 수어 생성 모듈을 더 포함하는 커뮤니케이션 보조 장치.
제1항에 있어서,

상기 커뮤니케이션 보조 장치는,

상기 디스플레이로 상기 사용자가 선택가능한 단어 카드를 제공하는 단어 카드 선택 모듈을 더 포함하고,

상기 수어 인식 모듈은 선택된 단어 카드에 기초하여 상기 수어 문장을 추출하는 것을 특징으로 하는 커뮤니케이션 보조 장치.
제1항에 있어서,

상기 커뮤니케이션 보조 장치는,

사용자가 텍스트를 입력하기 위한 사용자 인터페이스를 상기 디스플레이에 제공하는 텍스트 입력 모듈을 더 포함하고,

상기 수어 인식 모듈이 상기 수어 문장의 추출을 실패했을 때, 상기 텍스트 입력 모듈이 활성화되는 것을 특징으로 하는 커뮤니케이션 보조 장치.
제1항에 있어서,

상기 커뮤니케이션 보조 장치는,

상기 커뮤니케이션 보조 장치를 외부 디바이스와 통신적으로 연결되도록 제어하는 통신 모듈을 더 포함하고,

상기 수어 인식 모듈이 상기 수어 문장의 추출을 실패했을 때, 상기 통신 모듈이 상기 커뮤니케이션 보조 장치를 상기 외부 디바이스와 연결되도록 제어하는 것을 특징으로 하는 커뮤니케이션 보조 장치.
제1항에 있어서,

상기 수어 인식 모듈은,

상기 영상 데이터를 복수의 세그먼트로 분할하고,

상기 복수의 세그먼트의 글로스 각각의 인식 정확도를 결정하고,

상기 복수의 세그먼트의 글로스들 중, 상기 인식 정확도가 소정의 값보다 큰 글로스에 기초하여 수어 문장을 추출하는 것을 특징으로 하는 커뮤니케이션 보조 장치.
제6항에 있어서,

상기 인식 정확도는,

세그먼트의 글로스와 유사 글로스의 유사도에 기초하여 결정되고, 상기 유사 글로스는 상기 세그먼트의 글로스와 가장 유사한 글로스인 것을 특징으로 하는 커뮤니케이션 보조 장치.
제7항에 있어서,

상기 수어 인식 모듈은,

상기 영상 데이터로부터 사용자의 관절 부위를 탐지함으로써, 사용자의 움직임 추적을 위한 스켈레톤 정보를 추출하고, 상기 스켈레톤 정보에 따른 사용자의 글로스와, 상기 유사 글로스를 비교하는 것을 특징으로 하는 커뮤니케이션 보조 장치.
제6항에 있어서,

상기 디스플레이는,

상기 복수의 세그먼트의 글로스들의 인식 정확도가 모두 소정의 값보다 작은 경우, 수어 문장의 재전송을 요청하는 메시지를 표시하는 것을 특징으로 하는 커뮤니케이션 보조 장치.
제6항에 있어서,

상기 수어 인식 모듈은,

상기 인식 정확도가 소정의 값보다 큰 글로스 및 이전 대화 내용에 기초하여 수어 문장을 추출하는 것을 특징으로 하는 커뮤니케이션 보조 장치.
제6항에 있어서,

상기 수어 인식 모듈은,

상기 복수의 세그먼트의 글로스들이 인식 정확도가 소정의 값보다 큰 제1 글로스와 인식 정확도가 소정의 값보다 작은 제2 글로스를 포함할 경우, 제1 글로스에 기초하여, 상기 제2 글로스를 대신하는 복수의 글로스 후보를 결정하고,

상기 복수의 글로스 후보 중 선택된 글로스 후보와 제1 글로스에 기초하여 수어 문장을 추출하는 것을 특징으로 하는 커뮤니케이션 보조 장치.
제6항에 있어서,

상기 수어 인식 모듈은,

상기 복수의 세그먼트의 글로스들이 인식 정확도가 소정의 값보다 큰 제1 글로스와 인식 정확도가 소정의 값보다 작은 제2 글로스를 포함할 경우, 제1 글로스 및 이전 대화 내용에 기초하여, 상기 제2 글로스를 대신하는 복수의 글로스 후보를 결정하고,

상기 복수의 글로스 후보 중 선택된 글로스 후보와 제1 글로스에 기초하여 수어 문장을 추출하는 것을 특징으로 하는 커뮤니케이션 보조 장치.
제11 항에 있어서,

상기 수어 인식 모듈은,

상기 제2 글로스와의 유사도에 따라, 상기 복수의 글로스 후보의 우선순위를 결정하고,

상기 디스플레이는,

상기 우선순위에 따라, 상기 복수의 글로스 후보를 표시하는 것을 특징으로 하는 커뮤니케이션 보조 장치.
제1 항에 있어서,

상기 디스플레이는 투명 디스플레이인 것을 특징으로 하는 커뮤니케이션 보조 장치.