KR20210100832A - 사용자의 감정상태를 판단하는 인공지능 기반 수어통역 서비스 제공 시스템 및 방법 - Google Patents

사용자의 감정상태를 판단하는 인공지능 기반 수어통역 서비스 제공 시스템 및 방법 Download PDF

Info

Publication number
KR20210100832A
KR20210100832A KR1020200014674A KR20200014674A KR20210100832A KR 20210100832 A KR20210100832 A KR 20210100832A KR 1020200014674 A KR1020200014674 A KR 1020200014674A KR 20200014674 A KR20200014674 A KR 20200014674A KR 20210100832 A KR20210100832 A KR 20210100832A
Authority
KR
South Korea
Prior art keywords
user
language
sign language
artificial intelligence
sensor data
Prior art date
Application number
KR1020200014674A
Other languages
English (en)
Inventor
박영세
Original Assignee
박영세
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 박영세 filed Critical 박영세
Priority to KR1020200014674A priority Critical patent/KR20210100832A/ko
Publication of KR20210100832A publication Critical patent/KR20210100832A/ko

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/009Teaching or communicating with deaf persons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/014Hand-worn input/output arrangements, e.g. data gloves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/015Input arrangements based on nervous system activity detection, e.g. brain waves [EEG] detection, electromyograms [EMG] detection, electrodermal response detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Neurosurgery (AREA)
  • Neurology (AREA)
  • Dermatology (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

사용자의 감정상태를 판단하는 인공지능 기반 수어통역 서비스 제공 시스템 및 방법이 제공된다. 본 발명의 다양한 실시예에 따른 인공지능 기반 수어통역 서비스 제공 방법은, 사용자의 손에 장착된 하나 이상의 센서로부터 상기 사용자의 제스처 동작에 대응하는 센서 데이터를 수신하는 단계, 기 학습된 제1 인공지능 모델을 이용하여 상기 수신된 센서 데이터를 텍스트화된 언어로 번역하는 단계 및 상기 번역된 언어를 출력하는 단계를 포함하고, 상기 기 학습된 제1 인공지능 모델은, 하나 이상의 제스처 동작에 대응하는 센서 데이터 및 이에 대응하는 수어 정보를 포함하는 학습 데이터를 이용하여 학습된 것일 수 있다.

Description

사용자의 감정상태를 판단하는 인공지능 기반 수어통역 서비스 제공 시스템 및 방법{SYSTEM AND METHOD FOR PROVIDING SIGN LANGUAGE TRANSLATION SERVICE BASED ON ARTIFICIAL INTELLIGENCE THAT JUDGES EMOTIONAL STATS OF THE USER}
본 발명은 다양한 실시예는 사용자의 감정상태를 판단하는 인공지능 기반 수어통역 서비스 제공 시스템 및 방법과 수어통역 서비스를 제공하는 장치 및 컴퓨터프로그램에 관한 것이다.
국내 청각장애인의 수는 2017년 기준 30만명이 넘었으며 2013년 기준 전 세계에서 5억명(전체 인구의 5%)에 달하는 인구가 청각장애를 겪고 있다.
일반적으로, 청각 장애인과 비장애인간의 의사소통을 위해서는 전문 수어(또는 수화) 통역사가 필요하나, 전문 수어 통역사의 부족으로 인해, 청각장애인은 교육권, 노동권, 정보접근권 등 다양한 국민의 기본 권리를 충분히 누리지 못하고 있다.
예를 들어, 관공서, 병원, 경찰, 법원 등에서는 전문 수어 통역사를 고용하지 못하기 때문에, 청각 장애인과 비장애인 상호간의 의사소통이 어려워 많은 피해가 발생한다.
또한, 청각 장애인은 위급 상황 시 재난 경보를 듣지 못하거나 택배나 배달 등을 사용하지 못하는 등 다양한 사회적 서비스로부터 소외되어 왔다.
종래에는 이러한 문제점을 극복하기 위하여, 청각 장애인과 비장애인 간의 수어 통역 서비스를 통해 청각 장애인의 수어 동작을 인식하여 비장애인에게 제공하고, 비장애인의 음성 및 텍스트 언어를 청각 장애인에게 제공하였다.
그러나, 종래의 수어 통역 서비스는 영상 분석에 기반하여 수어 동작을 인식하는 것이기 때문 즉, 수어 영상을 이미지 분석하여, 어떤 수어를 하는지 동작을 파악하고 이에 기반한 수어 통역을 수행하기 때문에, 별도의 카메라 장치를 이용하여 손을 촬영해야 하는 불편함이 있어 실생활 활용이 어렵고, 또한 이미지 처리에 따른 로드(예: 시스템 리소스 등)가 큰 문제가 있다.
또한, 종래의 수어 통역 서비스는 한국 수어와 한국어는 다른 언어이나, 이에 대한 이해 부족으로 언어적 통역이 정확하게 되지 못하고, 의사소통 과정에서 실제 감정과 느낌이 없이 단순히 의미만이 전달되기 때문에 대화하는 상호간의 감정적인 표현을 전달하는 것이 어렵다는 문제가 있다.
한국등록특허 제10-1130276호(2012.03.19)
본 발명이 해결하고자 하는 과제는 청각 장애인으로부터 수어 동작을 감지하는 센서 데이터를 수집하고, 센서 데이터와 인공 지능을 이용하여 보다 정확한 언어로 변환 출력할 수 있는 사용자의 감정상태를 판단하는 인공지능 기반 수어통역 서비스 제공 시스템 및 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 인공지능 기반 수어통역 서비스 제공방법은, 컴퓨터에 의하여 수행되는 방법에 있어서, 사용자의 손에 장착된 하나 이상의 센서로부터 상기 사용자의 제스처 동작에 대응하는 센서 데이터를 수신하는 단계, 기 학습된 제1 인공지능 모델을 이용하여 상기 수신된 센서 데이터를 텍스트화된 언어 로 번역하는 단계 및 상기 번역된 언어를 출력 하는 단계를 포함하고, 상기 기 학습된 제1 인공지능 모델은, 하나 이상의 제스처 동작에 대응하는 센서 데이터 및 이에 대응하는 수어 정보를 포함하는 학습 데이터를 이용하여 학습 된 것일 수 있다.
상술한 과제를 해결하기 위한 본 발명의 다른 실시예에 따른 인공지능 기반 수어통역 서비스 제공장치는, 하나 이상의 인스트럭션을 저장하는 메모리 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 사용자의 손에 장착된 하나 이상의 센서로부터 상기 사용자의 제스처 동작에 대응하는 센서 데이터를 수신하는 단계, 기 학습된 제1 인공지능 모델을 이용하여 상기 수신된 센서 데이터를 텍스트화된 언어 로 번역하는 단계 및 상기 번역된 언어를 출력 하는 단계를 포함하는 인공지능 기반 수어통역 서비스 제공방법을 수행할 수 있다.
상술한 과제를 해결하기 위한 본 발명의 또 다른 실시예에 따른 인공지능 기반 수어통역 서비스 제공 컴퓨터프로그램은, 하드웨어인 컴퓨터와 결합되어, 사용자의 손에 장착된 하나 이상의 센서로부터 상기 사용자의 제스처 동작에 대응하는 센서 데이터를 수신하는 단계, 기 학습된 제1 인공지능 모델을 이용하여 상기 수신된 센서 데이터를 텍스트화된 언어 로 번역하는 단계 및 상기 번역된 언어를 출력 하는 단계를 포함하는 인공지능 기반 수어통역 서비스 제공방법을 수행할 수 있도록 컴퓨터에서 독출가능한 기록매체에 저장될 수 있다.
상술한 과제를 해결하기 위한 본 발명의 또 다른 실시예에 따른 인공지능 기반 수어통역 서비스 제공 시스템은, 사용자의 손에 장착된 하나 이상의 센서로부터 상기 사용자의 제스처 동작에 대응하는 센서 데이터를 수신하는 단계, 기 학습된 제1 인공지능 모델을 이용하여 상기 수신된 센서 데이터를 텍스트화된 언어 로 번역하는 단계 및 상기 번역된 언어를 출력 하는 단계를 포함하는 인공지능 기반 수어통역 서비스 제공방법을 수행하는 사용자 단말, 사용자의 손에 장착되는, 하나 이상의 센서 및 상기 사용자의 제스처 동작을 음성 또는 텍스트로 통역하여 출력하는 출력장치를 포함할 수 있다.
본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명의 다양한 실시예에 따르면, 사용자의 손에 장착된 하나 이상의 센서로부터 수집된 센서 데이터를 이용하여 사용자의 제스처(예: 청각 장애인의 수어 동작)을 인식함으로써, 영상 인식 대비 정확한 결과값을 도출할 수 있다는 이점이 있다.
또한, 센서 데이터로부터 인식된 수어 동작을 번역하여 다양한 형태(예: 텍스트, 음성, 영상 등)로 출력함으로써, 다양한 사용 환경에서 적용될 수 있는 수어통역 서비스를 제공할 수 있다는 이점이 있다.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 인공지능 기반 수어통역 서비스 제공 시스템의 구성도이다.
도 2는 본 발명의 다른 실시예에 따른 인공지능 기반 수어통역 서비스 제공장치의 하드웨어 구성도이다.
도 3은 본 발명의 또 다른 실시예에 따른 인공지능 기반 수어통역 서비스 제공방법의 순서도이다.
도 4는 다양한 실시예에서, 사용자의 감정상태에 따라 번역된 언어를 출력하는 방법을 설명하기 위한 순서도이다.
도 5a 및 5b는 다양한 실시예에서, 사용자 단말에 번역된 언어가 출력되는 형태를 도시한 도면이다.
도 6은 다양한 실시예에서, 제1 사용자의 제스처 동작에 따라 번역된 언어가 제2 사용자에게 제공되는 형태를 도시한 도면이다.
도 7은 다양한 실시예에서 제2 사용자의 언어 입력에 따라 번역된 언어가 제1 사용자에게 제공되는 형태를 도시한 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
명세서에서 사용되는 "부" 또는 “모듈”이라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부" 또는 “모듈”은 어떤 역할들을 수행한다. 그렇지만 "부" 또는 “모듈”은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부" 또는 “모듈”은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부" 또는 “모듈”은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부" 또는 “모듈”들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부" 또는 “모듈”들로 결합되거나 추가적인 구성요소들과 "부" 또는 “모듈”들로 더 분리될 수 있다.
공간적으로 상대적인 용어인 "아래(below)", "아래(beneath)", "하부(lower)", "위(above)", "상부(upper)" 등은 도면에 도시되어 있는 바와 같이 하나의 구성요소와 다른 구성요소들과의 상관관계를 용이하게 기술하기 위해 사용될 수 있다. 공간적으로 상대적인 용어는 도면에 도시되어 있는 방향에 더하여 사용시 또는 동작시 구성요소들의 서로 다른 방향을 포함하는 용어로 이해되어야 한다. 예를 들어, 도면에 도시되어 있는 구성요소를 뒤집을 경우, 다른 구성요소의 "아래(below)"또는 "아래(beneath)"로 기술된 구성요소는 다른 구성요소의 "위(above)"에 놓여질 수 있다. 따라서, 예시적인 용어인 "아래"는 아래와 위의 방향을 모두 포함할 수 있다. 구성요소는 다른 방향으로도 배향될 수 있으며, 이에 따라 공간적으로 상대적인 용어들은 배향에 따라 해석될 수 있다.
본 명세서에서, 컴퓨터는 적어도 하나의 프로세서를 포함하는 모든 종류의 하드웨어 장치를 의미하는 것이고, 실시 예에 따라 해당 하드웨어 장치에서 동작하는 소프트웨어적 구성도 포괄하는 의미로서 이해될 수 있다. 예를 들어, 컴퓨터는 스마트폰, 태블릿 PC, 데스크톱, 노트북 및 각 장치에서 구동되는 사용자 클라이언트 및 애플리케이션을 모두 포함하는 의미로서 이해될 수 있으며, 또한 이에 제한되는 것은 아니다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.
본 명세서에서 설명되는 각 단계들은 컴퓨터에 의하여 수행되는 것으로 설명되나, 각 단계의 주체는 이에 제한되는 것은 아니며, 실시 예에 따라 각 단계들의 적어도 일부가 서로 다른 장치에서 수행될 수도 있다.
도 1은 본 발명의 일 실시예에 따른 인공지능 기반 수어통역 서비스 제공 시스템의 구성도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 인공지능 기반 수어통역 서비스 제공 시스템은, 수어통역 서비스 제공장치(100), 사용자 단말(200) 및 외부 서버(300)를 포함할 수 있다.
여기서, 도 1에 도시된 인공지능 기반 수어통역 서비스 제공 시스템은 일 실시예에 따른 것이고, 그 구성 요소가 도 1에 도시된 실시예에 한정되는 것은 아니며, 필요에 따라 부가, 변경 또는 삭제될 수 있다.
일 실시예에서, 수어통역 서비스 제공장치(100)는 제1 사용자(예: 청각 장애인)과 제2 사용자(예: 비장애인) 간의 양방향 수어번역 서비스를 제공할 수 있다. 예를 들어, 수어통역 서비스 제공장치(100)는 제1 사용자의 수어 동작에 대응되는 언어를 텍스트화하여 제2 사용자에게 텍스트 또는 음성으로 제공할 수 있고, 제2 사용자의 음성 또는 텍스트 언어를 수어 동작으로 변환하여 제1 사용자에게 제공할 수 있다.
일 실시예에서, 수어통역 서비스 제공 장치(100)는 사용자의 손에 장착된 하나 이상의 센서(예: 도 6의 10)로부터 사용자의 제스처 동작(예: 수어 동작)에 대응하는 센서 데이터를 수신할 수 있다. 예를 들어, 수어통역 서비스 제공 장치(100)는, 장갑 형태로 형성되며 하나 이상의 센서를 포함하는 웨어러블 디바이스로부터 사용자가 손가락을 움직임으로써 감지되는 센서 데이터를 수신할 수 있다. 그러나, 이에 한정되지 않는다.
일 실시예에서, 수어통역 서비스 제공장치(100)는 센서 데이터를 분석하여 제스처 동작을 인식하고, 인식한 제스처 동작을 언어로 번역할 수 있다.
다양한 실시예에서, 수어통역 서비스 제공 장치(100)는 기 학습된 인공지능 모델을 이용하여 센서 데이터를 분석하고, 분석한 센서 데이터를 텍스트화된 언어로 번역할 수 있다.
여기서, 기 학습된 인공지능 모델은 하나 이상의 제스처 동작에 대응하는 센서 데이터 및 이에 대응하는 수어 정보를 포함하는 학습 데이터로써 학습한 모델을 의미할 수 있다.
보다 구체적으로, 수어통역 서비스 제공 장치(100)는 센서 데이터를 파라미터화(예: 숫자, 벡터, 행렬 및 텐서)하고, 파라미터화된 센서 데이터를 입력받아 이에 대응하는 언어(번역된 언어)를 출력으로 하는 학습 데이터를 획득할 수 있다. 또한, 수어통역 서비스 제공 장치(100)는 학습 데이터를 이용하여 인공지능 모델(예: 인공신경망)을 학습시킬 수 있다(예: 딥러닝). 이후, 수어통역 서비스 제공 장치(100)는 센서 데이터를 인공지능 모델을 이용하여 직접적으로 언어로 번역할 수 있다.
다양한 실시예에서, 수어통역 서비스 제공 장치(100)는 파라미터화 된 센서 데이터와 기 매칭된 제스처 동작 및 제스처 동작에 따른 의미 정보를 이용하여 센서 데이터를 언어로 번역할 수 있다.
보다 구체적으로, 수어통역 서비스 제공 장치(100)는 센서 데이터를 파라미터화(예: 숫자, 벡터, 행렬 및 텐서)하고, 제스처 동작별 파라미터화된 센서 데이터 값과 이에 대응하는 언어(번역된 언어)를 매칭하여 저장할 수 있다. 이후, 수어통역 서비스 제공 장치(100)는 인공지능 모델을 이용하여 센서 데이터에 대응하는 손의 모양 및 손의 움직임 등을 판단할 수 있고, 판단된 손의 모양 및 손의 움직임에 대응하는 제스처 동작과 이에 대응되는 언어를 매칭함으로써, 수어 번역을 수행할 수 있다.
즉, 개시된 실시 예에 따른 인공지능 모델은 센서 데이터에 기반하여 사용자의 제스쳐 동작을 인식 및 판단하는 데 활용될 수도 있고, 실시 예에 따라 센서 데이터에 기반하여 사용자의 수어 동작을 직접적으로 번역하는 데 활용될 수도 있다. 실시 예에 따라서, 인공지능 모델은 센서 데이터를 텍스트화된 언어로 번역하는 과정의 적어도 일부 또는 전부에서 활용될 수 있으며, 또한 복수의 인공지능 모델이 번역 과정의 적어도 일부를 각각 수행할 수도 있다.
일 실시예에서, 수어통역 서비스 제공 장치(100)는 센서 데이터로부터 번역된 언어를 출력할 수 있다. 예를 들어, 수어통역 서비스 제공 장치(100)는 번역된 언어를 음성, 텍스트 형태로 출력할 수 있다. 예를 들어, 수어통역 서비스 제공 장치(100)는 우선 사용자의 동작에 기반한 센서 데이터를 텍스트화된 언어로 번역하고, 이를 디스플레이로 출력하거나, 음성으로 변환하여 스피커를 통해 출력할 수 있다.
일 실시예에서, 수어통역 서비스 제공 장치(100)는 사용자로부터 음성 또는 텍스트화된 언어정보를 수신하고, 수신된 언어 정보에 대응하는 수어 영상을 출력할 수 있다.
일 실시예에서, 사용자 단말(200)은 사용자 단말(200)의 적어도 일부분에 디스플레이를 포함할 수 있으며, 네트워크(400)를 통해 인공지능 기반 수어통역 서비스 제공장치(100)에서 제공되는 각종 사용자 인터페이스(User interface, UI)(예: 번역된 언어 출력 UI)를 디스플레이 상에 출력할 수 있다. 예를 들어, 사용자 단말(200)은 스마트폰, 태블릿 PC, 노트북 데스크탑 및 키오스크 중 적어도 하나를 포함할 수 있다. 그러나, 이에 한정되지 않는다.
다양한 실시예에서, 사용자 단말(200)은 장갑 형태로 형성되어 사용자의 손에 착용될 수 있으며, 하나 이상의 센서(예: 자이로 센서, 가속도 센서 등과 같은 관성 측정 센서와 혈류량 측정 센서, 심박 센서와 같은 생체 정보 측정 센서 등)를 포함하는 웨어러블 디바이스를 포함하며, 웨어러블 디바이스에 포함된 하나 이상의 센서로부터 감지된 센서 데이터를 전달받아 네트워크(400)를 통해 인공지능 기반 수어통역 서비스 제공장치(100)에 제공할 수 있다. 그러나, 이에 한정되지 않고, 웨어러블 디바이스는 손목 시계 형태로 형성되어 사용자의 손목을 감는 형태로 착용될 수 있다.
일 실시예에서, 외부 서버(300)는 네트워크(400)를 통해 인공지능 기반 수어통역 서비스 제공장치(100)와 유무선 연결될 수 있으며, 인공지능 기반 수어통역 서비스 제공장치(100)로부터 제공되는 각종 데이터(예: 센서 데이터 및 번역된 언어 데이터)를 저장할 수 있다.
또한, 외부 서버(300)는 인공지능 기반 수어통역 서비스 제공장치(100)에서 이용되는 제스처 동작과 이에 대응하는 언어 정보 데이터를 저장할 수 있으며, 인공지능 기반 수어통역 서비스 제공장치(100)로부터 특정 제스처 동작에 대한 데이터 제공 요청을 수신하는 경우, 특정 제스처 동작과 관련된 데이터와 이에 대한 언어 정보 데이터를 제공할 수 있다.
여기서, 도 1에 도시된 인공지능 기반 수어통역 서비스 제공 시스템은 인공지능 기반 수어통역 서비스 제공장치(100)에서 제공되는 각종 데이터가 외부 서버(300)에 저장되는 형태로 기재되어 있으나, 이에 한정되지 않고, 인공지능 기반 수어통역 서비스 제공장치(100)는 별도의 외부 서버(300)를 구비하지 않고, 인공지능 기반 수어통역 서비스 제공장치(100) 내에 구비된 저장 장치를 이용하여 각종 데이터를 저장할 수 있다. 이하, 도 2를 참조하여, 인공지능 기반 수어통역 서비스 제공장치(100)의 하드웨어 구성에 대하여 설명하도록 한다.
도 2는 본 발명의 다른 실시예에 따른 인공지능 기반 수어통역 서비스 제공장치의 하드웨어 구성도이다.
도 2를 참조하면, 본 발명의 다른 실시예에 따른 인공지능 기반 수어통역 서비스 제공장치(100)(이하, "컴퓨팅 장치(100)")는 프로세서(110) 및 메모리(120)를 포함할 수 있다. 다양한 실시예에서, 컴퓨팅 장치(100)는 네트워크 인터페이스(또는 통신 인터페이스)(미도시), 스토리지(미도시), 버스(bus)(미도시)를 더 포함할 수 있다.
일 실시예에서, 프로세서(110)는 컴퓨팅 장치(100)의 각 구성의 전반적인 동작을 제어할 수 있다. 프로세서(110)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), 또는 본 발명의 기술 분야에 잘 알려진 임의의 형태의 프로세서를 포함하여 구성될 수 있다.
다양한 실시예에서, 프로세서(110)는 본 발명의 실시예들에 따른 방법을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 다양한 실시예에서, 프로세서(110)는 하나 이상의 코어(core, 미도시) 및 그래픽 처리부(미도시) 및/또는 다른 구성 요소와 신호를 송수신하는 연결 통로(예: 버스(bus) 등)를 포함할 수 있다.
다양한 실시예에서, 프로세서(110)는 프로세서(110) 내부에서 처리되는 신호(또는, 데이터)를 일시적 및/또는 영구적으로 저장하는 램(RAM: Random Access Memory, 미도시) 및 롬(ROM: Read-Only Memory, 미도시)을 더 포함할 수 있다. 또한, 프로세서(110)는 그래픽 처리부, 램 및 롬 중 적어도 하나를 포함하는 시스템온칩(SoC: system on chip) 형태로 구현될 수 있다.
일 실시예에서, 프로세서(110)는 메모리(120)에 저장된 하나 이상의 인스트럭션(instruction)을 실행함으로써, 도 3 내지 7과 관련하여 설명될 방법(인공지능 기반 수어통역 서비스 제공방법)을 수행할 수 있다. 예를 들어, 프로세서(110)는 메모리(120)에 저장된 하나 이상의 인스트럭션을 실행함으로써, 사용자의 손에 장착된 하나 이상의 센서로부터 사용자의 제스처 동작에 대응하는 센서 데이터를 수신하는 동작, 기 학습된 제1 인공지능 모델을 이용하여 수신된 센서 데이터를 텍스트화된 언어로 번역하는 동작 및 번역된 언어를 출력하는 동작을 포함하는 인공지능 기반 수어통역 서비스 제공방법을 수행할 수 있다.
일 실시예에서, 메모리(120)는 각종 데이터, 명령 및/또는 정보를 저장할 수 있다. 메모리(120)에는 프로세서(110)의 처리 및 제어를 위한 프로그램들(하나 이상의 인스트럭션들)을 저장할 수 있다. 메모리(120)에 저장된 프로그램들은 기능에 따라 복수 개의 모듈들로 구분될 수 있다.
다양한 실시예에서, 본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수 있다.
본 발명의 구성 요소들은 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 애플리케이션)으로 구현되어 매체에 저장될 수 있다. 본 발명의 구성 요소들은 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있으며, 이와 유사하게, 실시 예는 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 이하, 도 3을 참조하여, 컴퓨팅 장치(100)가 수행하는 인공지능 기반 수어통역 서비스 제공방법에 대하여 설명하도록 한다.
도 3은 본 발명의 또 다른 실시예에 따른 인공지능 기반 수어통역 서비스 제공방법의 순서도이다.
도 3을 참조하면, S110 단계에서, 컴퓨팅 장치(100)는 사용자의 손에 장착된 하나 이상의 센서(예: 도 6의 10)로부터 사용자의 제스처 동작(예: 수어 동작)에 대응하는 센서 데이터를 수신할 수 있다.
예를 들어, 컴퓨팅 장치(100)는 장갑 형태로 사용자의 손에 착용되는 웨어러블 디바이스 또는 손목 시계 형태로 사용자의 손목에 착용되는 웨어러블 디바이스에 포함된 하나 이상의 센서(예: 관성 측정 센서 및 생체 정보 측정 센서 등)로부터 사용자의 손 움직임에 대한 각종 관성 데이터(예: 자이로 센서 데이터, 가속도 센서 데이터) 및 생체 정보 데이터(예: 뇌파, 심박, 체온, 호흡, 혈류량 데이터)를 수신할 수 있다. 그러나, 이에 한정되지 않고, 컴퓨팅 장치(100)는 사용자의 손 뿐만 아니라 머리, 팔, 몸 및 다리에 각각 장착되는 하나 이상의 센서로부터 사용자의 제스처 동작에 대응하는 센서 데이터를 수신할 수 있다.
S120 단계에서, 컴퓨팅 장치(100)는 S110 단계에서 수신한 센서 데이터를 분석하여 사용자의 제스처 동작을 인식할 수 있고, 인식한 제스처 동작을 이용하여 센서 데이터를 언어로 번역할 수 있다.
여기서, 제스처 동작은 사용자의 손의 움직임, 손가락의 움직임 뿐만 아니라, 손의 위치, 사용자의 자세 및 포즈를 의미할 수 있다.
일 실시예에서, 컴퓨팅 장치(100)는 하나 이상의 제스처 동작에 대응하는 센서 데이터 및 이에 대응하는 수어 정보를 포함하는 학습 데이터를 이용하여 학습된 제1 인공지능 모델을 이용하여, 센서 데이터로부터 사용자의 제스처 동작 및 제스처 동작에 따른 언어를 인식할 수 있고, 인식된 언어를 텍스트화된 언어로 번역할 수 있다. 그러나, 이에 한정되지 않는다.
다양한 실시예에서, 컴퓨팅 장치(100)는 별도의 저장 장치(예: 컴퓨팅 장치(100) 내에 구비되는 저장 장치 또는 외부 서버(300))로부터 기 설정된 수의 샘플 언어 정보 및 이에 대응하는 제스처 정보를 획득할 수 있고, 제1 인공지능 모델을 이용하여 센서 데이터에 대응하는 샘플 언어 정보를 선택함으로써, 센서 데이터를 텍스트화된 언어로 번역할 수 있다. 여기서, 샘플 언어와 이에 대응하는 제스처 동작은 사용자가 자신이 주로 사용하는 동작 및 표현을 이용하여 직접 설정할 수 있다.
보다 구체적으로, 컴퓨팅 장치(100)는 일상생활에서 자주 사용하는 기 설정된 수(예: 30가지)의 문장, 표현과 이에 대응하는 동작(예: 문장 및 표현을 가리키는 수어 동작이나 각각의 표현마다 커스터마이즈된 제스처 동작)을 저장할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 사용자의 엄지손가락 만이 펼쳐지는 동작과 "안녕하세요", 사용자의 검지 손가락 만이 펼쳐지는 동작과 "감사합니다"를 매칭하여 사전에 저장할 수 있다.
이후, 컴퓨팅 장치(100)는 센서 데이터를 통해 특정 수어 동작이 감지되면, 기 저장된 데이터 중 특정 수어 동작과 대응되는 문장 및 표현을 선택하고, 이를 텍스트화된 언어로 번역할 수 있다. 예를 들어, 사용자로부터 감지된 수어 동작이 검지 손가락 만이 펼쳐지는 동작인 경우, 기 저장된 정보를 이용하여 "감사합니다"의 텍스트를 출력할 수 있다. 그러나, 이에 한정되지 않는다. 실시 예에 따라서, 컴퓨팅 장치(100)는 내장된 스피커 장치 혹은 사용자에게 장착된 소정의 스피커 장치를 통하여 텍스트가 변환된 음성을 출력할 수 있다.
다양한 실시예에서, 컴퓨팅 장치(100)는 제스처 동작과 이에 대응하는 터치 패턴을 각각 매칭하여 저장할 수 있다. 컴퓨팅 장치(100)는 사용자로부터 입력된 터치 패턴에 대응되는 제스처 동작을 인식하고, 인식한 제스처 동작에 따라 인식된 언어를 텍스트화된 언어로 번역할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 제스처 동작과 이에 대응하는 터치 패턴을 각각 매칭(예: 좌우로 드래그하는 터치 패턴과 "안녕하세요", 상하로 드래그하는 터치 패턴과 "감사합니다")하여 저장할 수 있다. 이후, 사용자로부터 좌우로 드래그하는 터치 패턴이 입력되는 경우, 사용자로부터 입력된 터치 패턴이 "안녕하세요"를 가리키는 제스처 동작임을 인식하고, "안녕하세요"를 텍스트화된 언어로 번역할 수 있다.
여기서, 컴퓨팅 장치(100)는 사용자의 제스처 동작을 간략화 하여 제스처 동작에 대응되는 터치 패턴을 사전에 설정할 수 있으며, 사용자의 편의에 따라 자유롭게 터치 패턴을 변경 및 수정할 수 있다. 이를 위해, 컴퓨팅 장치(100)는 제스처 동작과 이에 대응하는 터치 패턴을 설정하기 위한 UI를 사용자 단말(200)로 제공할 수 있다.
S130 단계에서, 컴퓨팅 장치(100)는 S120단계에서 번역된 언어를 출력할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 사용자 단말(200)로 번역된 언어를 출력하는 UI를 제공할 수 있으며, 번역된 언어를 출력하는 UI를 통해 S120단계에서 번역된 언어를 디스플레이 상에 출력할 수 있다. 그러나, 이에 한정되지 않는다.
다양한 실시예에서, 컴퓨팅 장치(100)는 하나 이상의 센서로부터 얻은 센서 데이터를 이용하여 사용자의 감정상태를 판단하고, 판단된 감정상태에 따라 번역된 언어의 출력 형태를 결정할 수 있다. 이하, 도 4를 참조하여 설명하도록 한다
도 4는 다양한 실시예에서, 사용자의 감정상태에 따라 번역된 언어를 출력하는 방법을 설명하기 위한 순서도이다.
도 4를 참조하면, S210단계에서 컴퓨팅 장치(100)는 사용자의 신체에 부착된 하나 이상의 센서로부터 사용자의 생체정보를 수집할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 사용자가 착용한 웨어러블 디바이스에 포함된 하나 이상의 센서(예: 근전도 센서, 심박 센서)로부터 뇌파, 심박, 체온, 호흡, 혈류량 정보를 포함하는 생체 정보를 수집할 수 있다. 그러나, 이에 한정되지 않는다.
S220단계에서, 컴퓨팅 장치(100)는 S210단계에서 수집한 사용자의 생체정보를 이용하여 사용자의 감정상태를 판단할 수 있다. 예를 들어, 사용자의 심박수가 기준 값 이상인 경우, 사용자의 감정상태를 감정 격앙 상태로 판단할 수 있고, 심박수가 기준 값 미만인 경우, 사용자의 감정상태를 평온 상태로 판단할 수 있다.
다양한 실시예에서, 컴퓨팅 장치(100)는 S210단계에서 수집한 사용자의 생체정보와 기 학습된 제2 인공지능 모델을 이용하여 사용자의 감정상태를 판단할 수 있다.
여기서, 기 학습된 제2 인공지능 모델은 하나 이상의 제스처 동작에 대응하는 센서 데이터 및 이에 대응하는 감정정보 데이터를 포함하는 학습 데이터를 이용하여 학습된 모델일 수 있다.
또한, 여기서, 센서 데이터로부터 텍스트화된 언어를 번역하는 인공지능 모델(예: 제1 인공지능 모델)과 사용자의 감정상태를 판단하는 인공지능 모델(예: 제2 인공지능 모델)은 서로 다른 학습 데이터를 이용하여 학습된 모델인 것으로 기재되어 있으나, 이에 한정되지 않고, 제1 인공지능 모델 및 제2 인공지능 모델은 동일한 하나의 인공지능 모델이며, 하나의 인공지능 모델을 이용하여 텍스트화된 언어를 번역하는 동작과 사용자의 감정상태를 판단하는 동작을 모두 수행할 수 있다.
다양한 실시예에서, 컴퓨팅 장치(100)는 제2 인공지능 모델을 이용하여 인식된 사용자의 제스처 동작에 기초하여, 사용자의 감정상태를 판단할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 인공지능 모델을 통해 인식된 사용자의 제스처 동작이 “감사”인 경우, “감사”의 제스처 동작을 통해 사용자의 감정상태가 “기쁨” 상태임을 판단할 수 있다. 즉, 컴퓨팅 장치(100)는 사용자의 수어를 번역한 내용에 기반하여, 사용자의 감정상태를 유추할 수 있다. 예를 들어, 사용자의 수어 내용이 “감사”를 표현하는 내용이면, 이에 맞도록 기쁨의 감정을 담아 텍스트 혹은 음성으로 출력할 수 있다.
다양한 실시예에서, 컴퓨팅 장치(100)는 제2 인공지능 모델을 이용하여 인식된 사용자의 제스처 동작에 기초하여, 사용자의 감정상태를 판단할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 인공지능 모델을 통해 인식된 사용자의 제스처 동작이 “기쁨”의 감정을 포함하는 것으로 판단되는 경우, 이를 통해 사용자의 감정상태가 “기쁨” 상태임을 판단할 수 있다.
구체적으로, 비장애인이 말을 할 때 동일한 문장을 말하더라도 목소리의 크기, 높낮이, 톤, 말하는 속도, 강세, 호흡 등에 따라 상이한 감정이 담길 수 있고, 이를 듣는 타인이 감정을 파악할 수 있다.
마찬가지로, 청각장애인이 수어를 할 때에도, 제스처의 크기, 속도, 강약, 구체적인 손의 모양, 손의 떨림, 주저함, 같은 동작의 반복 등 다양한 요소에 기반하여 청각장애인의 감정을 파악할 수 있다.
이에 따라, 개시된 실시 예에 따른 제2 인공지능 모델은, 사용자의 제스처 혹은 이에 대응하는 센서 데이터와, 이에 따른 사용자의 감정정보가 라벨링된 학습 데이터를 통하여 학습될 수 있고, 이를 통해 사용자의 동작에 따른 감정을 인식 및 판단할 수 있다.
이를 통해, 컴퓨팅 장치(100)는 사용자의 제스처에 따라 수신되는 센서 데이터에 기반하여 사용자의 수어를 번역할 수 있을 뿐 아니라, 이에 대응하는 사용자의 감정에 대한 정보도 함께 파악할 수 있다.
즉, 컴퓨팅 장치(100)는 사용자의 제스쳐 동작, 사용자의 수어 동작을 번역한 내용 및 사용자의 생체 정보 중 적어도 하나를 이용하여 사용자의 감정상태를 판단할 수 있으며, 이에 제한되지 않는다.
다양한 실시예에서, 컴퓨팅 장치(100)는 UI를 통해 사용자로부터 사용자의 감정상태를 가리키는 정보를 직접 입력 받을 수 있다.
S230단계에서, 컴퓨팅 장치(100)는 번역된 언어를 출력하되, S220단계에서 판단된 사용자의 감정상태에 따라 번역된 언어가 출력되는 형태를 설정할 수 있다.
다양한 실시예에서, 컴퓨팅 장치(100)는 S220단계에서 판단된 사용자의 감정상태와 번역된 언어를 텍스트 형태로 함께 출력할 수 있다.
예를 들어, 컴퓨팅 장치(100)는 사용자의 감정상태를 텍스트 형태로 출력하는 제1 영역(21)과 번역된 언어가 텍스트 형태로 출력되는 제2 영역(22)을 포함하는 UI(20)(예: 도 5a)를 사용자 단말(200)로 제공할 수 있으며, UI(20)에 포함된 제1 영역(21) 및 제2 영역(22)을 통해 사용자의 감정상태와 번역된 언어를 텍스트 형태로 함께 출력할 수 있다.
다양한 실시예에서, 컴퓨팅 장치(100)는 UI(20)의 제1 영역(21)을 통해 S220단계에서 판단된 사용자의 감정상태를 출력하되, 사용자의 감정상태에 대응되는 이미지 또는 이모티콘을 출력할 수 있다.
다양한 실시예에서, 컴퓨팅 장치(100)는 UI(20)를 통해 번역된 언어만을 텍스트 형태로 출력하되, 사용자의 감정상태를 이용하여 번역된 언어의 텍스트의 속성을 설정할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 사용자의 감정상태에 따라 번역된 언어의 텍스트 크기, 폰트의 종류 및 색상을 설정할 수 있다. 그러나, 이에 한정되지 않는다.
다양한 실시예에서, 컴퓨팅 장치(100)는 번역된 언어가 음성 데이터 형태로 출력되는 경우, S220단계에서 판단된 사용자의 감정상태와 번역된 언어를 음성 데이터 형태로 함께 출력할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 사용자의 감정상태와 번역된 언어를 음성 데이터로 변환하고, 음성 데이터로 변환된 사용자의 감정상태와 번역된 언어를 사용자 단말(200)의 스피커 장치를 통해 출력할 수 있다.
다양한 실시예에서, 컴퓨팅 장치(100)는 번역된 언어가 음성 데이터 형태로 출력되는 경우, 스피커 장치(예: 도 6의 400)를 통해 음성 데이터 형태의 번역된 언어를 출력하되, 사용자의 감정상태를 이용하여 음성 데이터의 어조를 설정할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 사용자의 감정상태에 따라 음성 데이터의 톤, 뉘앙스, 음성 데이터 출력 속도 및 소리의 크기를 설정할 수 있다. 그러나, 이에 한정되지 않는다.
구체적으로, 컴퓨팅 장치(100)는 판단된 사용자의 감정상태와, 각각의 감정상태가 판단된 시점에 대응하는 사용자의 수어 동작 번역내용을 매칭하고, 이에 기반하여 음성 변환을 수행할 수 있다. 또한, 컴퓨팅 장치(100)는 사용자의 감정상태 외에 사용자의 수어 동작(제스처)의 속도나 강세에 기반해서도 음성을 변환할 수 있다.
예를 들어, 사용자가 "나는 너에게 실망했다" 와 같은 수어 동작을 하였을 때, "너에게" 부분의 동작을 강하게 수행한 경우 해당 부분에 강세를 두도록 음성을 변환하고, "실망했다" 부분의 제스처 동작 혹은 해당 시점에 인식된 생체정보로부터 "화남"의 감정이 인식된 경우 해당 부분의 음성을 화난 음성으로 변환할 수 있다.
또한, 사용자가 특정 부분의 수어 동작을 빠르게 수행하는 경우 해당 부분의 번역된 음성을 빠르게 재생할 수 있고, 마찬가지로 동작이 느려지거나, 주저하거나, 반복되거나, 행동이 커지거나 작아지는 경우 이를 반영하여 음성의 재생 속도나 크기를 조절할 수 있다.
전술한 인공지능 기반 수어통역 서비스 제공방법은 도면에 도시된 순서도를 참조하여 설명하였다. 간단한 설명을 위해 인공지능 기반 수어통역 서비스 제공방법은 일련의 블록들로 도시하여 설명하였으나, 본 발명은 상기 블록들의 순서에 한정되지 않고, 몇몇 블록들은 본 명세서에 도시되고 시술된 것과 상이한 순서로 수행되거나 또는 동시에 수행될 수 있다. 또한, 본 명세서 및 도면에 기재되지 않은 새로운 블록이 추가되거나, 일부 블록이 삭제 또는 변경된 상태로 수행될 수 있다. 이하, 도 5 내지 7을 참조하여, 번역된 언어가 출력되는 대상에 따라 번역된 언어를 출력하는 형태에 대하여 설명하도록 한다.
도 6은 다양한 실시예에서, 제1 사용자의 제스처 동작에 따라 번역된 언어가 제2 사용자에게 제공되는 형태를 도시한 도면이다.
도 6을 참조하면, 다양한 실시예에서, 컴퓨팅 장치(100)는 번역된 언어가 출력되는 대상이 제2 사용자(예: 비장애인)인 경우, 번역된 언어를 텍스트 형태로 제2 사용자의 사용자 단말의 디스플레이 상에 출력하거나 사용자 단말의 스피커 장치(400)를 통해 음성 형태로 출력할 수 있다.
예를 들어, 컴퓨팅 장치(100)는 제1 사용자(예: 청각 장애인)의 손에 장착된 하나 이상의 센서(10)로부터 제1 사용자의 제스처 동작(예: 수어 동작)에 대응하는 센서 데이터를 수신할 수 있고, 수신한 센서 데이터를 분석(예: 인공지능 모델을 이용한 분석)하여, 제1 사용자가 수행한 제스처 동작과 제스처 동작이 가리키는 언어를 판단할 수 있다.
이후, 컴퓨팅 장치(100)는 판단한 제스처 동작이 가리키는 언어를 텍스트화하여 사용자 단말(200)로 제공함으로써, 사용자 단말(200)에 구비된 디스플레이를 통해 텍스트화된 언어를 출력할 수 있다. 예를 들어, 도 5a에 도시된 바와 같이 컴퓨팅 장치(100)는 사용자의 감정상태를 출력하는 제1 영역(21) 및 번역된 텍스트 언어를 출력하는 제2 영역(22)을 포함하는 UI를 사용자 단말(200)로 제공할 수 있으며, UI를 통해 텍스트화된 언어 및 사용자의 감정 상태를 출력할 수 있다.
또한, 컴퓨팅 장치(100)는 텍스트화된 언어를 음성 데이터로 변환할 수 있으며, 음성 데이터로 변환된 언어를 사용자 단말(200)에 포함되거나 사용자 단말(200)과 유무선으로 연결된 스피커 장치(400)를 통해 출력할 수 있다.
여기서, 컴퓨팅 장치(100)가 번역된 언어를 출력하는 방식은 제2 사용자가 자신의 사용자 단말을 통해 기 설정된 방식에 따라 텍스트 형태로 출력하거나 음성 형태로 출력할 수 있고, 별도의 설정이 없는 경우에는 텍스트 형태로 출력하는 방식과 음성 형태로 출력하는 방식을 함께 적용할 수 있다.
도 7은 다양한 실시예에서 제2 사용자의 언어 입력에 따라 번역된 언어가 제1 사용자에게 제공되는 형태를 도시한 도면이다.
도 7을 참조하면, 번역된 언어가 출력되는 대상이 제1 사용자(예: 청각 장애인)인 경우, 컴퓨팅 장치(100)는 제2 사용자(예: 비장애인)의 사용자 단말(200)을 통해 입력된 음성 또는 텍스트화된 언어 정보를 수어 영상으로 변환하여 디스플레이 상에 출력할 수 있다.
예를 들어, 컴퓨팅 장치(100)는 제2 사용자의 사용자 단말(200)을 통해 음성 또는 텍스트화된 언어 정보를 얻기 위한 UI를 제공할 수 있으며, UI를 통해 제2 사용자로부터 입력된 언어 정보(예: 마이크 장치(2)로부터 입력되는 음성 언어 정보 및 키보드를 통해 입력된 텍스트화된 언어 정보)을 얻을 수 있다.
이후, 컴퓨팅 장치(100)는 기 저장된 복수의 수어 영상 중 제2 사용자로부터 입력된 언어 정보에 대응하는 수어 영상을 선택하고, 선택한 수어 영상을 제1 사용자의 사용자 단말로 제공하여 수어 영상이 출력되도록 할 수 있다. 여기서, 컴퓨팅 장치(100)는 단어별 또는 표현별로 수어 영상을 기 저장할 수 있으며, 기 저장된 단어별 또는 표현별로 수어 영상을 조합하여 제2 사용자로부터 입력된 언어 정보에 대응하는 수어 영상(예: 2D 영상 또는 3D 영상)을 생성할 수 있다. 예를 들어, 도 5b에 도시된 바와 같이, 컴퓨팅 장치(100)는 사용자로부터 입력된 언어 정보에 대응하는 수어 영상이 출력되는 제3 영역(23)을 포함하는 UI(20)를 사용자 단말(200)로 제공할 수 있으며, UI를 통해 사용자로부터 입력된 언어 정보에 대응하는 수어 영상을 출력할 수 있다.
다양한 실시예에서, 컴퓨팅 장치(100)는 GAN(Generative Adversarial Networks)을 이용하여 제2 사용자로부터 입력된 언어 정보에 대응하는 수어 영상을 생성할 수 있다. 이 경우, 수어 영상은 제2 사용자의 얼굴을 이용하여 제2 사용자가 수어 동작을 하는 것처럼 생성될 수도 있다. 그러나, 이에 한정되지 않는다.
다양한 실시예에서, 컴퓨팅 장치(100)는 제2 사용자로부터 입력된 언어 정보에 제2 사용자의 감정상태 정보(예: 감정상태를 가리키는 텍스트 또는 이모티콘 등)가 포함되는 경우, 제2 사용자의 감정상태 정보에 따라 수어 영상이 출력되는 방식을 설정하거나, 수어 영상을 편집(예: 수어 영상 내에서 수어 동작을 수행하는 캐릭터(또는 사람)의 표정을 변경)할 수 있다.
다양한 실시예에서, 컴퓨팅 장치(100)는 제2 사용자로부터 입력된 언어 정보에 대응하는 수어 영상을 출력하는 UI(20)를 제1 사용자의 사용자 단말(200)로 제공하되, 제1 사용자의 사용자 단말(200)이 절전 상태 또는 대기 상태인 경우(예: 디스플레이가 절전 상태이거나 Off 상태인 경우), 사용자 단말(200)에 포함된 진동 센서가 동작하도록 제어하는 제어 신호를 출력할 수 있다. 즉, 진동 센서의 진동 신호를 통해 제1 사용자(예: 청각 장애인)이 누군가 자신에게 말을 걸고 있다는 것을 인지하도록 할 수 있다.
실시 예에 따라, 제1 사용자의 이름에 대한 정보가 미리 저장되고, 주변의 음성에서 제1 사용자의 이름이 인식되는 경우, 컴퓨팅 장치(100)는 진동을 통해 제1 사용자에게 알림을 제공할 수 있다.
다양한 실시예에서, 컴퓨팅 장치(100)는 제2 사용자로부터 입력된 언어 정보와 함께 기 설정된 음성 신호가 입력되는 경우, 제2 사용자로부터 입력된 언어 정보에 대응하는 수어 영상을 출력하는 UI(20)와 함께 사용자 단말(200)에 포함된 진동 센서가 동작하도록 하는 제어 신호를 출력할 수 있다. 예를 들어, 제2 사용자로부터 입력된 언어 정보와 함께 자동차의 경적 신호, 사고음 신호, 사용자 단말의 위급상황 알림 신호, 벨소리 신호, 알람 신호, 초인종 신호 등 기 설정된 신호가 입력되는 경우, 사용자 단말(200)이 진동을 울리도록 제어하여 제1 사용자가 주변 상황을 인지하도록 유도할 수 있다.
실시 예에 따라, 상술한 진동 모듈은 사용자가 손에 착용한 웨어러블 장비에 내장될 수 있다. 이를 통해, 사용자는 손에 착용한 장갑 혹은 시계 형태(단, 이에 제한되지 않음)의 웨어러블 장비의 진동을 통해 외부에서 사용자를 부르는 소리나, 사용자가 인지해야 할 주변의 다양한 소리들에 대한 정보를 얻을 수 있다.
즉, 본 발명의 다양한 실시예에 따른 인공지능 기반 수어통역 서비스 제공방법은 제1 사용자(예: 청각 장애인)과 제2 사용자(예: 비장애인) 간의 양방향 수어통역 서비스를 제공함으로써, 관공서, 음식점, 편의점 등 일상생활에 있어서 자유 이용하는 장소, 농아인 학교와 같은 특수 학교 등 다양한 장소에 적용될 수 있다.
또한, 본 발명의 다양한 실시예에 따른 인공지능 기반 수어통역 서비스 제공방법은 텍스트나 음성 데이터 형태로 입력된 언어 정보에 대응되는 수어 영상이 출력되기 때문에, 다양한 이유로 수어를 배우고자 하는 사람들에게 교육 자료로도 활용될 수 있다.
이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.
100 : 인공지능 기반 수어통역 서비스 제공장치(컴퓨팅 장치)
200 : 사용자 단말
300 : 외부 서버
400 : 네트워크

Claims (10)

  1. 컴퓨터에 의하여 수행되는 방법에 있어서,
    사용자의 손에 장착된 하나 이상의 센서로부터 상기 사용자의 제스처 동작에 대응하는 센서 데이터를 수신하는 단계;
    기 학습된 제1 인공지능 모델을 이용하여 상기 수신된 센서 데이터를 텍스트화된 언어로 번역하는 단계; 및
    상기 번역된 언어를 출력하는 단계를 포함하고,
    상기 기 학습된 제1 인공지능 모델은,
    하나 이상의 제스처 동작에 대응하는 센서 데이터 및 이에 대응하는 수어 정보를 포함하는 학습 데이터를 이용하여 학습된 것인,
    인공지능 기반 수어통역 서비스 제공방법.
  2. 제1 항에 있어서,
    상기 번역된 언어를 출력하는 단계는,
    상기 사용자의 감정상태를 판단하는 단계; 및
    상기 판단된 사용자의 감정상태에 대한 정보를 상기 번역된 언어와 함께 출력하는 단계를 더 포함하는,
    인공지능 기반 수어통역 서비스 제공방법.
  3. 제2 항에 있어서,
    상기 사용자의 감정상태를 판단하는 단계는,
    상기 사용자의 신체에 부착된 하나 이상의 센서로부터 상기 사용자의 생체정보를 수집하는 단계; 및
    상기 수집된 생체정보에 기반하여 상기 사용자의 감정상태를 판단하는 단계를 포함하는,
    인공지능 기반 수어통역 서비스 제공방법.
  4. 제2 항에 있어서,
    상기 사용자의 감정상태를 판단하는 단계는,
    기 학습된 제2 인공지능 모델을 이용하여 상기 수신된 센서 데이터에 대응하는 상기 사용자의 감정상태를 판단하는 단계를 포함하고,
    상기 기 학습된 제2 인공지능 모델은,
    하나 이상의 제스처 동작에 대응하는 센서 데이터 및 이에 대응하는 감정정보 데이터를 포함하는 학습 데이터를 이용하여 학습된 것인,
    인공지능 기반 수어통역 서비스 제공방법.
  5. 제2 항에 있어서,
    상기 번역된 언어를 출력하는 단계는,
    상기 번역된 언어를 음성으로 변환하는 단계;
    상기 변환된 음성에 상기 판단된 사용자의 감정상태를 반영하여 상기 변환된 음성의 어조를 설정하는 단계; 및
    상기 음성을 출력하는 단계를 포함하는,
    인공지능 기반 수어통역 서비스 제공방법.
  6. 제1 항에 있어서,
    상기 번역하는 단계는,
    기 설정된 수의 샘플 언어 정보 및 이에 대응하는 제스처 정보를 획득하는 단계; 및
    상기 제1 인공지능 모델을 이용하여, 상기 수신된 센서 데이터에 대응하는 샘플 언어 정보를 선택하는 단계를 포함하는,
    인공지능 기반 수어통역 서비스 제공방법.
  7. 제1 항에 있어서,
    음성 또는 텍스트화된 언어정보를 수신하는 단계;
    상기 수신된 언어정보에 대응하는 수어 영상을 획득하는 단계; 및
    상기 수어 영상을 출력하는 단계를 더 포함하는,
    인공지능 기반 수어통역 서비스 제공방법.
  8. 하나 이상의 인스트럭션을 저장하는 메모리; 및
    상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고,
    상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    제1 항의 방법을 수행하는, 장치.
  9. 하드웨어인 컴퓨터와 결합되어, 제1 항의 방법을 수행할 수 있도록 컴퓨터에서 독출가능한 기록매체에 저장된 컴퓨터프로그램.
  10. 제1 항의 방법을 수행하는 사용자 단말;
    사용자의 손에 장착되는, 하나 이상의 센서; 및
    상기 사용자의 제스처 동작을 음성 또는 텍스트로 통역하여 출력하는 출력장치; 를 포함하는,
    인공지능 기반 수어통역 서비스 제공 시스템.
KR1020200014674A 2020-02-07 2020-02-07 사용자의 감정상태를 판단하는 인공지능 기반 수어통역 서비스 제공 시스템 및 방법 KR20210100832A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200014674A KR20210100832A (ko) 2020-02-07 2020-02-07 사용자의 감정상태를 판단하는 인공지능 기반 수어통역 서비스 제공 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200014674A KR20210100832A (ko) 2020-02-07 2020-02-07 사용자의 감정상태를 판단하는 인공지능 기반 수어통역 서비스 제공 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20210100832A true KR20210100832A (ko) 2021-08-18

Family

ID=77464528

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200014674A KR20210100832A (ko) 2020-02-07 2020-02-07 사용자의 감정상태를 판단하는 인공지능 기반 수어통역 서비스 제공 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR20210100832A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102589845B1 (ko) * 2022-10-20 2023-10-17 주식회사 인피닉 수어 영상 번역 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101130276B1 (ko) 2010-03-12 2012-03-26 주식회사 써드아이 수화 통역 시스템 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101130276B1 (ko) 2010-03-12 2012-03-26 주식회사 써드아이 수화 통역 시스템 및 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102589845B1 (ko) * 2022-10-20 2023-10-17 주식회사 인피닉 수어 영상 번역 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램

Similar Documents

Publication Publication Date Title
US11854527B2 (en) Electronic device and method of controlling speech recognition by electronic device
US10433052B2 (en) System and method for identifying speech prosody
US10702991B2 (en) Apparatus, robot, method and recording medium having program recorded thereon
US11837249B2 (en) Visually presenting auditory information
US9031293B2 (en) Multi-modal sensor based emotion recognition and emotional interface
EP3198589B1 (en) Method and apparatus to synthesize voice based on facial structures
US10902743B2 (en) Gesture recognition and communication
US20200075007A1 (en) Voice interaction system, voice interaction method, program, learning model generation apparatus, and learning model generation method
JP2019008570A (ja) 情報処理装置、情報処理方法及びプログラム
KR102351008B1 (ko) 감정 인식 장치 및 감정 인식 방법
US12105876B2 (en) System and method for using gestures and expressions for controlling speech applications
KR20210100831A (ko) 인공지능 기반 수어통역 서비스 제공 시스템 및 방법
CN111149172B (zh) 情绪管理方法、设备及计算机可读存储介质
WO2021153101A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP6712028B1 (ja) 認知機能判定装置、認知機能判定システム及びコンピュータプログラム
KR20210100832A (ko) 사용자의 감정상태를 판단하는 인공지능 기반 수어통역 서비스 제공 시스템 및 방법
JP2000194252A (ja) 理想行動支援装置及びその方法及びそのシステム並びに記憶媒体
KR20190067663A (ko) 웨어러블 수화통역장치
US20240055014A1 (en) Visualizing Auditory Content for Accessibility
Popescu et al. A platform that aims to help people to learn how to interact with robotic platforms
WO2024218485A1 (en) Mood- and mental state-aware interaction with multimodal large language models
KR20240060405A (ko) 언어장애인의 음성 인식을 보조하는 전자장치 및 방법
JP2024139712A (ja) 情報変換システム、情報処理装置、情報処理方法、情報変換方法及びプログラム
JP2021086354A (ja) 情報処理システム、情報処理方法、及びプログラム
CN114566186A (zh) 具有说话者表示的系统、电子装置和相关方法