KR20230079846A

KR20230079846A - Ar 스마트 글래스 및 스마트 글래스의 출력 제어 방법

Info

Publication number: KR20230079846A
Application number: KR1020210167010A
Authority: KR
Inventors: 정기하; 박정남; 고성범
Original assignee: 엑스퍼트아이엔씨 주식회사
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2023-06-07

Abstract

실시예에 따른 AR 스마트 글래스 및 스마트 글래스의 출력 제어 방법은 AI STT(Speech-To-Text) 엔진을 상대방의 대화를 인지할 수 있도록 하고, 제스처와 표정으로 전달되는 중요한 비언어적 의사소통정보를 텍스트와 함께 제공할 수 있다. 또한, 청력에 문제가 있는 사람들이 전시관 및 공공기관 서비스를 수화 통역사 없이 제공받을 수 있도록 한다. 또한, 내국인들의 해외여행이나 외국인들의 국내 여행시 실시예를 통한 통역 지원 서비스를 제공한다. 아울러, 실시간 다국어 필사 서비스를 제공하여 다국적 비지니스 회의 시 회의 참석자 모두의 의사소통 영역을 확대하고, 외국인을 상대로 증강현실 대화형 언어교육 서비스를 제공할 수 있다. 또한, 영화관, 문화공연장, 강의 및 컨퍼런스 장에서 AR 스마트 글래스를 통해 컨텐츠를 전달할 수 있도록 한다.

Description

AR 스마트 글래스 및 스마트 글래스의 출력 제어 방법 {AUGMENTED REALITY SMART GLASS AND METHOD FOR CONTROLLING THE OUTPUT OF SMART GLASSES}

본 개시는 증강현실 컨텐츠를 출력하는 스마트 글래스에 관한 것으로 구체적으로, 청각장애인들이 일상생활에서 언어장벽 없이 의사소통과 핸즈 프리 활동이 가능하도록 AI STT(Speech-To-Text) 엔진을 AR 스마트글라스에 탑재하여 상대방의 대화를 인지할 수 있도록 하고, 제스처와 표정으로 전달되는 중요한 비언어적 의사소통정보를 함께 제공하는 AR 스마트 글래스에 관한 것이다.

본 명세서에서 달리 표시되지 않는 한, 이 섹션에 설명되는 내용들은 이 출원의 청구항들에 대한 종래 기술이 아니며, 이 섹션에 포함된다고 하여 종래 기술이라고 인정되는 것은 아니다.

증강현실 산업은 헤드 마운트 디스플레이(HMD) 및 헤드업디스플레이(HUD) 장치의 성능 향상과 함께 연평균 55.7% 성장으로 2013년에는 613억 달러 규모를 예상하는 급격히 성장하고 있는 산업이다. 최근에는 HMD와 HUD의 장단점을 고려한 몰입형과 착용이 편리한 하드웨어의 빠른 성장률에 따른 더 큰 시장규모를 형성하고 있다.

특히, 스마트 글래스의 경우 디스플레이 기술의 발달로 곡면 디자인 표현이 가능하고, 고휘도와 소비전력이 낮은 OLED 기술 적용이 가능하게 되어 기존 HUD 장치의 단점이었던 좁은 시야와 화면을 개선하게 되었다. 또한, 양안의 디스플레이를 통해 넓은 시야를 제공하고 가벼운 착용으로 사용할 수 있는 스마트 글래스는 증강현실 산업에 적용성이 높다.

청각장애는 전체 장애 중 14.4% 정도로 국내에서 두번째로 많은 장애 유형이다. 청각장애는 생리적 청각 결손에 의한 청각 손실로 소리를 전혀 들을 수 없는 경우와 잔존 청력이 있다 하더라도 소리만으로는 의사소통이 불가능한 경우 및 잔존 청력을 사용하여 의사소통이 가능한 경우를 모두 포함한다.

등록되지 않은 청각장애인의 인구와 고령화에 따른 65세 이상 노년층은 전체 장애 중 22.7%로 지속적으로 증가하고 있어, 청력저하로 어려움을 겪는 인구는 청각장애 등록 인원의 3배에 이를 것으로 전문가들은 판단하고 있다.

아울러, 차별 없는 평등한 사회 구현을 위한 정부 및 관련 부처의 정책 추진사업에 힘입어 국내 배리어프리(barrier free) 환경 구축에 대한 시장 환경이 점차 능동적으로 변화하고 있으며, 주로 영화, 공연예술이나 전시, 방송 등 문화 콘텐츠 영역에서의 배리어프리 시범사업이 지속적으로 추진되고 있다. 배리어프리 관련 사업은 시·청각장애인의 미디어 접근권 향상을 위해 활성화되어야 하는 장애인의 당연한 권리로, 배리어프리에 대한 사회적 인식이 점차 확대되고 있으며 정부·국회 등도 이점에 공감하여 관련 정책과 법적 제도들이 마련되고 있어, 관련 시장의 점진적 확대가 예상된다.

청각장애인의 의사소통 방식은 크게 말하는 사람의 입모양을 주시하며 이해하는 구화방식, 사물의 형상을 손으로 표현하는 수화방식, 상대방과 서로 글자를 써가며 소통하는 필담방식이 있다. 보건복지부가 2017년 조사한 자료에 따르면 청각장애인의 주 의사소통 방법은 말(88%), 수화(3.8%) 외에 필담, 몸짓 등 다양한 것으로 나타났다. 최근에는 보청기, 인공와우 수술, 언어치료 등을 통해 주로 말로 소통하는 비율이 꾸준히 증가하고 있으나, 의사 소통 시 상대방의 대화 내용과 비언어적 의사소통 정보까지 정확하게 인지하는 것은 어려운 실정이다.

1. 한국 특허등록 제10-1830908호 (2018.02.13) 2. 한국 특허공개 제10-2020-0087940호 (2020.07.22)

실시예에 따른 AR 스마트 글래스 및 스마트 글래스의 출력 제어 방법은 AI STT(Speech-To-Text) 엔진을 상대방의 대화를 인지할 수 있도록 하고, 제스처와 표정으로 전달되는 중요한 비언어적 의사소통정보를 텍스트와 함께 제공할 수 있다. 또한, 청력에 문제가 있는 사람들이 전시관 및 공공기관 서비스를 수화 통역사 없이 제공받을 수 있도록 한다.

또한, 내국인들의 해외여행이나 외국인들의 국내 여행시 실시예를 통한 통역 지원 서비스를 제공한다. 아울러, 실시간 다국어 필사 서비스를 제공하여 다국적 비지니스 회의 시 회의 참석자 모두의 의사소통 영역을 확대하고, 외국인을 상대로 증강현실 대화형 언어교육 서비스를 제공할 수 있다. 또한, 영화관, 문화공연장, 강의 및 컨퍼런스 장에서 AR 스마트 글래스를 통해 컨텐츠를 전달할 수 있도록 한다.

실시예에 따른 AR 스마트 글래스는 입력되는 음성 신호에서 키워드를 추출하는 키워드 추출모듈; 음성신호를 텍스트로 변환하는 변환 모듈; 상대방의 표정, 목소리 크기, 억양을 포함하는 비언어 정보를 분석하는 분석모듈; 및 텍스트와 비언어 정보로부터 분석된 사용자 의도 정보 및 텍스트를 포함하는 출력 컨텐츠를 디스플레이 하는 출력 제어 모듈; 을 포함한다.

다른 실시예에 따른 AR 스마트 글래스의 출력 제어 방법은 (A) 추출모듈에서 입력되는 음성 신호에서 키워드를 추출하는 단계; (B) 변환 모듈에서 음성신호를 텍스트로 변환하는 단계; (C) 분석 모듈에서 상대방의 표정, 목소리 크기, 억양을 포함하는 비언어 정보를 분석하는 단계; 및 (D) 출력 제어 모듈에서 비언어 정보로부터 분석된 사용자 의도 정보 및 텍스트를 포함하는 출력 컨텐츠를 디스플레이 하는 단계; 를 포함한다.

이상에서와 같은 AR 스마트 글래스는 청각장애인들이 일상생활에서 언어장벽 없이 의사소통과 핸즈 프리 활동이 가능하도록 한다. 또한, 음성데이터를 활용하여 실시예에 따른 AR 스마트 글래스를 이용하는 모든 청각장애인들은 비장애인들이 시력이 불편할 때 안경을 착용하듯이, 청력이 불편할 때 스마트 자막 안경을 착용하여, 타인을 의식하지 않고 사회활동에 참여할 수 있다. 이로써, 청각장애인의 사회활동 참여를 확대하여 새로운 고용 창출을 활성화시킬 수 있다.

또한, 듣고 대화하는 것이 아니라, 보고 대화할 수 있는 인간중심의 정보통신기술 복지(ICT Welfare)를 제공하여 장애인들과 주변 구성원들의 삶의 질을 향상시킬 수 있다.

또한, 음성인식 정확도를 향상시키고 임베디드STT(Speech-To-Text) 엔진을 통해 인터넷이 불가능한 상황에서도 음성인식을 가능하게 한다. 아울러, 청강생이나 참가자들이 실시예에 따른 스마트 글래스를 이용하는 경우 눈앞에 하나의 디스플레이를 두어 시야 전환의 영향을 줄일 수 있도록 한다.

본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.

도 1은 인터넷이 가능한 환경에서의 실시예에 따른 AR 스마트 글래스를 통한 텍스트 출력 시스템의 구성을 나타낸 도면
도 2는 인터넷이 불가한 환경에서 실시예에 따른 AR 스마트 글래스를 통한 텍스트 출력 시스템 구성을 나타낸 도면
도 3a은 실시예에 따른 AR 스마트 글래스의 데이터 처리 블록을 나타낸 도면
도 3b는 실시예에 따른 음성인식 인공지능 솔루션 시스템 구조를 나타낸 도면
도 4는 실시예에 따른 STT 엔진의 구조도
도 5는 실시예에 따른 AR 스마트 글래스의 하드웨어 구성을 나타낸 도면
도 6은 실시예에 따른 AR 스마트 글래스의 출력 제어를 위한 데이터 처리과정을 나타낸 도면
도 7은 실시예에 따른 스마트 글래스 애플리케이션 구현을 위한 데이터 처리 블록을 나타낸 도면
도 8은 실시예에 따른 AR 스마트 글래스의 시연 모습과 사용자 UI를 나타낸 도면

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 도면부호는 동일 구성 요소를 지칭한다.

본 발명의 실시 예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시 예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 1은 인터넷이 가능한 환경에서의 실시예에 따른 AR 스마트 글래스를 통한 텍스트 출력 시스템의 구성을 나타낸 도면이고, 도 2는 인터넷이 불가한 환경에서 실시예에 따른 AR 스마트 글래스를 통한 텍스트 출력 시스템 구성을 나타낸 도면이다.

도 1및 도2를 참조하면, 실시예에 따른 AR 스마트 글래스를 통한 텍스트 출력 시스템은 AR 스마트 글래스(100), 클라우드 서버 및 STT(Speech-To-Text) 엔진을 포함하여 구성될 수 있다. 실시예에서 인터넷이 가능한 환경에서는 온라인으로 클라우드 서버에 접속하여 실시간 음성인식이 가능하도록 한다. 또한,

인터넷이 불가한 환경에서는 AR 스마트 글라스에 임베디드로 탑재된 엔진으로 음성인식을 가능하게 한다. 실시예에 따른 AR 스마트 글라스 착용자는 시야를 항상 상대방에 둘 수 있어 편안하게 대화할 수 있고 상대방의 제스처와 표정으로 전달되는 중요한 비언어적 의사소통을 수행할 수 있다. 또한, 양손이 자유로운 일상생활이 가능하고 하이브리드 방식으로 독립형과 클라우드 환경에서 모두 사용 가능하여, 통신 불가 환경에서도 음성인식이 가능하도록 한다. 또한, 실시예에 따른 AR 스마트 글래스를 통한 텍스트 출력 시스템은 텍스트 등의 출력 컨텐츠를 사용자 시각에 최적화한 색상과 크기로 조절할 수 있다.

도 3a은 실시예에 따른 AR 스마트 글래스의 데이터 처리 블록을 나타낸 도면이다.

도 3a를 참조하면, 실시예에 따른 AR 스마트 글래스(100)은 키워드 추출모듈(110), 변환 모듈(120), 분석모듈(130) 및 출력 제어모듈(140)을 포함하여 구성될 수 있다. 본 명세서에서 사용되는 '모듈' 이라는 용어는 용어가 사용된 문맥에 따라서, 소프트웨어, 하드웨어 또는 그 조합을 포함할 수 있는 것으로 해석되어야 한다. 예를 들어, 소프트웨어는 기계어, 펌웨어(firmware), 임베디드코드(embedded code), 및 애플리케이션 소프트웨어일 수 있다. 또 다른 예로, 하드웨어는 회로, 프로세서, 컴퓨터, 집적 회로, 집적 회로 코어, 센서, 멤스(MEMS; Micro-Electro-Mechanical System), 수동 디바이스, 또는 그 조합일 수 있다.

키워드 추출모듈(110)은 입력되는 음성 신호에서 키워드를 추출한다. 예컨대, 키워드 추출모듈(110)은 특정 음성을 검출하여 호출어 및 명령어로 사용하는 핵심어 인식(Key word spotting)을 수행한다. 실시예에서는 핵심어 인식(Keyword spotting)과정에서 사람의 음성을 입력 받아 입력된 음성에 미리 정해진 특정 단어(keyword) 또는 복수 개의단어들 중 어느 것이 포함되어 있는지 판단하고, 포함되어 있는 단어를 식별해 낸다. 실시예에서 키워드 추출 모듈(110)은 입력 음성이 들어오면 음성신호 전처리 과정에서 주파수, 데시벨, 노이즈를 포함하는 음성의 특징 파라미터를을 추출한다. 구체적으로, 키워드 추출모듈(110)은 음성데이터가 훈련용일 경우 훈련용 음성데이터로부터 단어 동적 프로그래밍 신경 회로망(DPNN, Dynamic Programming Neural Network)을 학습시키고, 구성된 단어 모델을 이용하여 핵심어(keyword) 모델 및 필터링할 넌 키워드 모델(non-keyword)을 구축한다.

또한, 키워드 추출모듈(110)은 도 3b에 도시된 음성인식 AI 솔루션 시스템을 포함하여, AR 스마트 글래스 사용자와 대화하는 사용자 음성을 인식한다. 실시예에서 키워드 추출모듈(110)은 상대방 음성으로부터 실시간 음성을 인식한 후 전사된 데이터를 기계학습하고, 신조어, 미등록어 등을 추가 학습해 정확한 음성인식 결과를 제공한다. 또한, 키워드 추출모듈(110)은 일반 데이터 및 AI 학습용 데이터를 가공하고, 정형 및 비정형 소스의 방대한 데이터를 처리할 수 있다.

변환 모듈(120)은 음성신호를 텍스트로 변환한다. 실시예에서 변환 모듈(120)은 STT(Speech to Text)엔진을 포함하여 스마트 글래스에 임베디드 된 STT엔진을 통해 통신이 불가능한 환경에서도 음성의 텍스트 변환을 가능하게 한다. 실시예에 따른 변환 모듈(120)은 학습서버 및 학습 데이터 셋을 구축한다. 예컨대, 변환 모듈(120)은 온라인 환경에서의 STT 실행을 위한 실시간 서버 구축하고, 학습을 위한 데이터 셋 데이터 베이스(Dataset DB)는 분석기 명령 기반 데이터셋(Dataset)과 자체 보유한 데이터셋(Dataset)을 모두 구축한다. 또한, STT 모델을 구축하여 외부와 통신이 가능한 상태로 STT 기능이 안정적으로 구동될 수 있도록 한다.

분석모듈(130)은 상대방의 표정, 목소리 크기, 억양을 포함하는 비언어 정보를 분석한다. 비언어 정보는 표정, 제스처, 신체접촉, 자세, 목소리 등을 통해 화자의 생각과 감정을 표출하는 언어 외의 정보로서, 실시예에서는 AR 스마트 글래스에 구성된 센서 및 카메라를 통해 비언어 정보를 수집할 수 있다. 이후, 분석모듈(130)은 수집된 비언어 정보에 기 매칭된 의도정보를 추출한다. 예컨대, 스마트 글래스에서 수집된 상대방의 표정 정보가 미소에 해당하는 경우, 미소에 기 매칭된 긍정, 동의, 칭찬 등으로 의도정보를 추출할 수 있다. 또한, 목소리가 일정 데시벨 이상이고, 상대방의 갑작스러운 표정변화가 인식된 경우, 해당 비언어 정보와 매칭된 긴급, 위험 등의 의도정보를 추출할 수 있다. 또한, 분석모듈(130)은 NLU (Natural Language Understanding) 엔진을 포함하여, NLU 엔진에서 음성인식 결과 텍스트로부터 사용자의 의도를 추출할 수 있다. 또한, 분석모듈(130)은 비언어 정보 분석 이후, 분석된 비언어 정보와 비언어 정보와 함께 발화된 음성인식 결과 텍스트로부터 사용자의 의도를 추출할 수 있다. 이때, 분석모듈(130)은 NLU 엔진 및 비언어 정보에 미리 매칭된 의도 정보를 모두 이용한다.

출력 제어모듈(140)은 텍스트 및 비언어 정보로부터 분석된 의도 정보를 포함하는 출력 컨텐츠를 디스플레이 한다. 또한, 실시예에서 출력 제어 모듈(140)은 스마트 글래스의 상태 정보가 연극, 영화 등의 전시 관람 중인 관람 모드로 변경되는 경우, 배우의 목소리, 조명 및 음향 큐 정보에 따라 타임코드를 생성하고, 생성된 타임코드에 따라 자막을 출력할 수 있다.

실시예에서 출력 제어 모듈(140)은 자막의 색, 크기, 위치를 포함하는 자막 출력 세부정보를 사용자 설정, 외부 환경정보 및 사용자 시력정보에 따라 조정하고, 출력되는 자막과 렌즈 너머로 보이는 무대의 최적 출력 위치를 탐색하여 상기 탐색된 최적 출력 위치에 따라 자막 및 무대를 디스플레이 할 수 있다. 예컨대, 출력 제어모듈(140)은 사용자의 시력과 색맹여부에 따라 출력되는 자막의 색과 크기 및 무대의 크기를 조정할 수 있다. 실시예에서는 사용자가 자신의 시력 및 색맹 정보를 스마트 글래스에 미리 입력하여 스마트 글래스에 출력되는 컨텐츠의 색과 크기를 조정할 수 있도록 한다.

또한, 출력 제어 모듈(140)은 외부 조도에 따라 텍스트, 자막, 사용자 의도정보를 포함하는 출력 컨텐츠의 최적 밝기 및 색을 조정할 수 있다. 예컨대, 출력 제어 모듈(140)은 외부 조도에 따른 최적 출력 조도를 미리 설정하고, 설정된 최적 출력 조도로 스마트 글래스의 출력 조도를 제어할 수 있다.

도 4는 실시예에 따른 STT 엔진의 구조도이다.

도 4를 참조하면, 실시예에 따른 임베디드 STT 엔진은 16kHz Sampling Rate, 16bit Resolution, Mono Channel, Raw PCM Format의 4,500시간 발화 데이터(Speech Data) 등 방대한 데이터를 사전 학습하였으며, 음성인식을 빠르게 적용하기 위한 전이학습 방식을 활용하여 적은 양의 데이터 학습만으로도 양질의 음성인식 서비스를 제공하도록 한다. 실시예에 따른 STT 엔진은 심층신경망 기반의 음성인식 엔진으로, 전용 클러스터 서버를 통한 적응 학습으로 양질의 음성인식 서비스를 제공할 수 있다. 또한, 딥러닝(Deep Learning)에 의해 고도화된 음향모델 적응 학습을 기반으로 하여, 일반적으로 사용되는 음성인식 알고리즘인 HMM(Hidden Markov Model) 또는 기존 Fully connected DNN(Deep Neural Network) 기반 음향모델보다 개선된 음성인식 성능을 보이는 LSTM(Long Short-Term Memory)기술을 적용한 베이스라인(baseline) 음향모델을 기반으로 적응 학습 환경을 제공한다. 또한, 실시예에 따른 STT 엔진은 언어별 다양한 상황에 대한 다중 화자 음성데이터를 자체 보유하여, 다국어 음성데이터를 기반으로 학습된 다국어 음성인식을 수행할 수 있다. 이를 통해 실시예에서는 내국인들의 해외여행이나 외국인들의 국내 여행 시 AR 스마트 글래스에서 인식된 음성을 설정된 언어의 텍스트로 통역하여 통역된 텍스트를 출력할 수 있다. 아울러, 다국적 비지니스 회의 시, 스마트 글래스에서 인식된 다국어 음성 각각을 인식된 언어의 개별 텍스트로 각각 변환하여 출력하거나, 다국어 음성 각각을 설정된 한가지 언어의 텍스트로 변환하여 출력할 수 있다. 구체적으로, 스마트 글래스에 영어, 일본어, 불어, 러시어가 인식되는 경우, 이를 영어, 일본어, 불어, 러시아어 텍스트 각각으로 변환하거나, 인식되는 모든 언어를 한국어 텍스트로 변환하여 출력할 수 있다. 이를 통해 실시예에 따른 AR 스마트 글래스는 내국인들의 해외여행이나 외국인들의 국내 여행시 실시예를 통한 통역 지원 서비스를 제공하고, 실시간 다국어 필사 서비스를 제공함으로써 다국적 비지니스 회의 시 회의 참석자 모두의 의사소통 영역을 확대하고, 외국인을 상대로 증강현실 대화형 언어교육 서비스를 제공할 수 있다.

도 5는 실시예에 따른 AR 스마트 글래스의 하드웨어 구성을 나타낸 도면이다.

도 5를 참조하면, AR 스마트 글래스는 내부배터리, 터치패드, 마이크로 USB 연결부, 자동 초점 HD 카메라, 안전인증 렌즈, 소음제거 마이크, 풀컬러 시스루 디스플레이, 스테레오 스피커, 터치패드, 소음제거 마이크, 스토리지 슬롯, 디스플레이 엔진, 쿼드 코어 ARM CPU, 안드로이드 OS, 1GB 시스템 RAM, GB 내부 플래시 스토리지, 외부 SD 카드 지원, 듀얼 노이즈 캔슬링, 음성 제어기, 내부/외부 근접 센서 및 바깥쪽을 향한 주변 광 센서 등을 포함하여 구성될 수 있다. 실시예에 따른 AR 스마트 글래스는 각 눈에 하나씩 장착된 한 쌍의 작고 효율적인 마이크로 LED 프로젝터로 구동되는 초 슬림, 쌍안 도파관은 상황에 맞는 정보가 포함된 선명한 비디오를 생성하고, 1미크론 크기의 마이크로 LED는 단색 및 풀 컬러 솔루션 모두에서 사용할 수 있는 최고 밀도 픽셀 어레이를 제공한다. 또한, 사용자의 스마트폰 통합 기능을 제공하는 핸즈 프리 작동을 향상시키는 온 보드 프로세서를 장착하여, 휴대폰 및 내장 LTE 셀룰러 옵션과 무선으로 통신하고, 음성을 사용하거나 터치패드를 탭하면 디스플레이가 활성화되어 개별적 연결이 가능하도록 한다.

이하에서는 AR 스마트 글래스의 출력 제어 방법에 대해서 차례로 설명한다. 실시예에 따른 AR 스마트 글래스의 출력 제어 방법의 작용(기능)은 AR 스마트 글래스의 기능과 본질적으로 같은 것이므로 도 1 내지 도 5와 중복되는 설명은 생략하도록 한다.

도 6은 실시예에 따른 AR 스마트 글래스의 출력 제어를 위한 데이터 처리과정을 나타낸 도면이다.

도 6을 참조하면, S100 단계에서는 추출모듈에서 입력되는 음성 신호에서 키워드를 추출한다. S200 단계에서는 변환 모듈에서 음성신호를 텍스트로 변환한다. S300 단계에서는 분석 모듈에서 상대방의 표정, 목소리 크기, 억양을 포함하는 비언어 정보를 분석한다. S400 단계에서는 출력 제어 모듈에서 상기 비언어 정보로부터 분석된 사용자 의도 정보 및 텍스트를 포함하는 출력 컨텐츠를 출력한다. 실시예에서 S400 단계에서는 내국인들의 해외여행이나 외국인들의 국내 여행 시 AR 스마트 글래스에서 인식된 음성을 설정된 언어의 텍스트로 통역하여 출력할 수 있다. 아울러, S400 단계에서는 다국적 비지니스 회의 시, 인식된 다국어 각각을 텍스트로 변환하여 출력할 수 있다.

도 7은 실시예에 따른 스마트 글래스 애플리케이션 구현을 위한 데이터 처리 블록을 나타낸 도면이다.

도 7을 참조하면, 실시예에 따른 스마트 글래스 어플리케이션은 인터페이스를 구축하여, 사용자가 터치를 통하여 웨이크 업(Wake-Up)을 통한 앱 실행 및 슬립(Sleep) 모드 해제를 가능하게 한다. 또한, 사용자는 개인이 디스플레이에 표시되는 문자의 크기와 색상을 터치패드 및 음성으로 설정할 수 있도록 하고, 음성 명령 또는 터치패드를 스윕 하거나 탭을 통해 설정 가능하도록 한다. 아울러, 야외에서 햇볕이 잘 드는 조건 및 실내조명 조건에서도 사용하기 위해 출력 색상 팔레트를 최적화할 수 있는 색상 테마를 배경에 구현할 수 있고 AI STT와 API 인터페이스를 구현 가능하도록 한다.

도 8은 실시예에 따른 AR 스마트 글래스의 시연 모습과 사용자 UI를 나타낸 도면이다.

도 8을 참조하면, 실시예에 따른 AR 스마트 글래스는 스마트 글래스에 출력되는 출력 컨텐츠의 색과 크기를 주변 환경과 사용자의 시력 및 사용자 설정에 따라 제어할 수 있다. 이상에서와 같은 AR 스마트 글래스는 청각장애인들이 일상생활에서 언어장벽 없이 의사소통과 핸즈 프리 활동이 가능하도록 한다. 또한, 음성데이터를 활용하여 실시예에 따른 AR 스마트 글래스를 이용하는 모든 청각장애인들은 비장애인들이 시력이 불편할 때 안경을 착용하듯이, 청력이 불편할 때 스마트 자막 안경을 착용하여, 타인을 의식하지 않고 사회활동에 참여할 수 있다. 이로써, 청각장애인의 사회활동 참여를 확대하여 새로운 고용 창출을 활성화시킨다. 또한, 듣고 대화하는 것이 아니라, 보고 대화할 수 있는 인간중심의 정보통신기술 복지(ICT Welfare)를 제공하여 장애인들과 주변 구성원들의 삶의 질을 향상시킬 수 있다. 또한, 음성인식 정확도를 향상시키고 임베디드STT(Speech-To-Text) 엔진을 통해 인터넷이 불가능한 상황에서도 음성인식을 가능하게 한다. 아울러, 청강생이나 참가자들의 눈앞에 하나의 디스플레이를 두어 시야 전환의 영향을 줄일 수 있도록 한다.

개시된 내용은 예시에 불과하며, 특허청구범위에서 청구하는 청구의 요지를 벗어나지 않고 당해 기술분야에서 통상의 지식을 가진 자에 의하여 다양하게 변경 실시될 수 있으므로, 개시된 내용의 보호범위는 상술한 특정의 실시예에 한정되지 않는다.

Claims

AR 스마트 글래스에 있어서,
입력되는 음성 신호에서 키워드를 추출하는 키워드 추출모듈;
음성신호를 텍스트로 변환하는 변환 모듈;
상대방의 표정, 목소리 크기, 억양을 포함하는 비언어 정보를 분석하는 분석모듈; 및
상기 텍스트와 비언어 정보로부터 분석된 사용자 의도 정보 및 텍스트를 포함하는 출력 컨텐츠를 디스플레이 하는 출력 제어 모듈; 을 포함하는 AR 스마트 글래스.
제 1항에 있어서, 상기 키워드 추출 모듈; 은
특정 음성을 검출하여 호출어 및 명령어로 사용하는 핵심어 인식(Key word spotting)을 수행하는 것을 특징으로 하는 AR 스마트 글래스.
제 1항에 있어서, 상기 분석모듈; 은
NLU (Natural Language Understanding) 엔진에서 음성인식 결과 텍스트로부터 사용자의 의도를 추출하는 것을 특징으로 하는 AR 스마트 글래스.
제 3항에 있어서, 상기 분석모듈; 은
비언어 정보 분석 이후, 분석된 비언어 정보와 상기 비언어 정보와 함께 발화된 음성인식 결과 텍스트로부터 사용자의 의도를 추출하는 것을 특징으로 하는 AR 스마트 글래스.
제 1항에 있어서, 상기 출력 제어 모듈; 은
연극, 영화를 포함하는 전시 관람 중인 경우, 배우의 목소리, 조명 및 음향 큐 정보에 따라 타임코드를 생성하고, 생성된 타임코드에 따라 자막을 출력하는 것을 특징으로 하는 AR 스마트 글래스.
제 5항에 있어서, 상기 출력 제어 모듈; 은
자막의 색, 크기, 위치를 포함하는 자막 출력 세부정보를 사용자 설정에 따라 조정하고, 출력되는 자막과 렌즈 너머로 보이는 무대의 최적 출력 위치를 탐색하여 상기 탐색된 최적 출력 위치에 따라 자막 및 무대를 디스플레이 하는 것을 특징으로 하는 AR 스마트 글래스.
제 1항에 있어서, 상기 출력 제어 모듈;
외부 조도에 따라 텍스트, 자막, 사용자 의도정보를 포함하는 AR 출력 컨텐츠의 최적 밝기 및 색을 조정하는 것을 특징으로 하는 AR 스마트 글래스.
AR 스마트 글래스의 출력 제어 방법에 있어서,
(A) 추출모듈에서 입력되는 음성 신호에서 키워드를 추출하는 단계;
(B) 변환 모듈에서 음성신호를 텍스트로 변환하는 단계;
(C) 분석 모듈에서 상대방의 표정, 목소리 크기, 억양을 포함하는 비언어 정보를 분석하는 단계; 및
(D) 출력 제어 모듈에서 상기 비언어 정보로부터 분석된 사용자 의도 정보 및 텍스트를 포함하는 출력 컨텐츠를 디스플레이 하는 단계; 를 포함하는 스마트 글래스의 출력 제어 방법.
제 8항에 있어서, 상기 (D)의 단계; 는
내국인들의 해외여행이나 외국인들의 국내 여행 시 AR 스마트 글래스에서 인식된 음성을 설정된 언어의 텍스트로 통역하여 출력하는 것을 특징으로 하는 스마트 글래스의 출력 제어 방법.
제 8항에 있어서, 상기 (D)의 단계; 는
다국적 비지니스 회의 시, 인식된 다국어 각각의 음성을 선택된 한가지 언어의 텍스트로 변환하거나, 인식된 다국어 음성을 각 언어에 해당하는 개별 텍스트 각각으로 변환하여 출력하는 것을 특징으로 하는 스마트 글래스의 출력 제어 방법.