KR102667192B1

KR102667192B1 - 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치 및 그의 운용 방법

Info

Publication number: KR102667192B1
Application number: KR1020230086138A
Authority: KR
Inventors: 최치원; 김태련
Original assignee: 주식회사 피앤씨솔루션
Priority date: 2023-07-04
Filing date: 2023-07-04
Publication date: 2024-05-22

Abstract

본 발명은 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치에 관한 것으로서, 보다 구체적으로는 오프라인에서 동작할 수 있는 인공지능 모델을 탑재한, 증강현실 글래스 장치로서, 상기 증강현실 글래스 장치를 착용한 착용자로부터 복수의 모달리티(modality)로 된 멀티모달의 입력 정보를 수신하는 입력부; 상기 입력 정보를 전달받아 모달에 따라 처리하되, 음성으로 된 데이터를 처리하는 음성 모델, 이미지로 된 데이터를 처리하는 이미지 모델, 및 텍스트로 된 데이터를 처리하는 언어 모델을 포함하는 데이터 분석부; 상기 데이터 분석부로부터 상기 입력 정보를 처리한 분석 결과를 전달받아 상기 착용자에게 피드백할 출력 정보를 생성하되, 분석 결과에 따른 음성을 생성하는 음성 합성 모델, 분석 결과에 따른 이미지를 생성하는 이미지 생성 모델, 및 분석 결과에 따른 텍스트를 생성하는 언어 생성 모델을 포함하는 데이터 생성부; 상기 데이터 생성부가 생성한 출력 정보를 출력해 상기 착용자에게 전달하는 복수의 출력 장치를 포함하는 출력부; 및 상기 입력 정보에 포함된 착용자의 요청이 처리되도록 상기 데이터 분석부와 상기 데이터 생성부를 제어하되, 상기 입력부에서 수신한 입력 정보의 모달에 따라 상기 입력 정보를 처리할 수 있는 모델에 상기 입력 정보를 전달하고, 상기 출력 정보의 종류에 따라 상기 출력 정보를 상기 착용자에게 피드백할 수 있는 출력 장치로 전달하는 멀티모달 AI 솔루션부를 포함하는 것을 그 구성상의 특징으로 한다.
또한, 본 발명은 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치의 운용 방법에 관한 것으로서, 보다 구체적으로는 오프라인에서 동작할 수 있는 인공지능 모델을 탑재한 증강현실 글래스 장치의 운용 방법으로서, (1) 증강현실 글래스 장치를 착용한 착용자로부터 복수의 모달리티(modality)로 된 멀티모달의 입력 정보를 수신하는 단계; (2) 상기 입력부에서 수신한 입력 정보의 모달에 따라 상기 입력 정보를 처리할 수 있는 모델에 상기 입력 정보를 전달하는 단계; (3) 상기 입력 정보를 전달받아 모달에 따라 처리하되, 음성으로 된 데이터를 처리하는 음성 모델, 이미지로 된 데이터를 처리하는 이미지 모델, 및 텍스트로 된 데이터를 처리하는 언어 모델을 포함하는 데이터 분석부에서 상기 입력 정보를 처리하는 단계; (4) 상기 데이터 분석부로부터 상기 입력 정보를 처리한 분석 결과를 전달받아 상기 착용자에게 피드백할 출력 정보를 생성하되, 분석 결과에 따른 음성을 생성하는 음성 합성 모델, 분석 결과에 따른 이미지를 생성하는 이미지 생성 모델, 및 분석 결과에 따른 텍스트를 생성하는 언어 생성 모델을 포함하는 데이터 생성부에서 상기 출력 정보를 생성하는 단계; (5) 상기 출력 정보의 종류에 따라 상기 출력 정보를 상기 착용자에게 피드백할 수 있는 출력 장치로 전달하는 단계; 및 (6) 상기 출력 장치가 상기 출력 정보를 출력해 상기 착용자에게 전달하는 단계를 포함하며, 상기 단계 (3) 및 단계 (4)에서는, 멀티모달 AI 솔루션부가 상기 입력 정보에 포함된 착용자의 요청이 처리되도록 상기 데이터 분석부와 상기 데이터 생성부를 제어하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치 및 그의 운용 방법에 따르면, 오프라인에서 동작할 수 있는 인공지능 모델이 탑재된 증강현실 글래스 장치를 착용한 착용자로부터 복수의 모달리티(modality)로 된 멀티모달의 입력 정보를 수신하고, 멀티모달 AI 솔루션부의 제어 하에 음성 모델, 이미지 모델, 언어 모델 등으로 입력 정보를 처리하고, 음성 생성 모델, 이미지 생성 모델, 언어 모델 등에서 출력 정보를 생성해 다양한 모달리티로 착용자에게 전달함으로써, 오프라인 환경에서 멀티모달 AI를 사용할 수 있으므로 보안 요구 조건이 높은 산업 또는 군사 분야에서도 활용할 수 있다.

Description

오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치 및 그의 운용 방법{AUGMENTED REALITY GLASSES THAT PROCESSES MULTI-MODAL DATA OFFLINE AND PROVIDES RESULTS, AND ITS OPERATING METHOD}

본 발명은 증강현실 글래스 장치 및 그의 운용 방법에 관한 것으로서, 보다 구체적으로는 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치 및 그의 운용 방법에 관한 것이다.

이 부분에 기술된 내용은 단순히 본 발명의 일실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.

챗지피티(ChatGPT, 챗GPT)는 GPT-3.5와 GPT-4를 기반으로 하는 대화형 인공지능 서비스이다. 챗지피티의 출현으로 대화형 인공지능에 관한 관심과 함께 LLM(Large Language Model)에의 관심도 크게 높아졌다. 또한, 챗지피티를 활용하는 다양한 기술이 시도되고 있다.

최근에는 META의 LLM인 LLaMA가 공개된 이후 alpaca, vicuna, dolly-v2 등 다양한 파생 모델들이 출시되고, 고가의 비용과 오랜 시간을 들여야만 운영할 수 있던 것들이 이제는 스마트폰이나 라즈베리파이 등의 모바일에서도 이용할 수 있을 만큼 경량화되었으며, 상용으로 사용할 수 있는 모델도 등장했다.

이미지 분야에서도 마찬가지로, NovelAI가 그린 그림이 화제를 얻는 등 급속도로 발전하고 있는데, 2022년에 출시된 OpenAI의 DALL-E와 비교하면 속도 및 퀄리티 등 모든 것들이 월등히 좋아졌다.

이러한 인공지능 서비스들은, 온라인 상태에서 서버 등이 결과를 제공하는 방식으로 이루어지며, 결과를 얻기 위해 입력한 입력 정보와 제공받은 결과, 그에 대한 사용자의 피드백 등이 모두 인공지능 서비스의 성능을 향상시키는데 활용될 수 있다.

한편, 증강현실 글래스의 개발과 보급이 이루어짐에 따라 다양한 용도로 증강현실 글래스가 사용되고 있으며 특히, 산업 및 군사 분야에서 증강현실 글래스가 적극적으로 도입 및 활용되고 있다. 이처럼 증강현실 글래스의 이용이 늘어나면서 장치의 기능이 다양화되고, 증강현실 글래스를 위한 여러 가지 애플리케이션 등이 설치되기도 한다. 또한, 증강현실 글래스에 인공지능 기술을 적용하면 다양한 기능을 구현할 수 있고, 대화형 인공지능 서비스가 인터페이스로 활용될 수 있으므로 이에 대한 연구가 필요한 상황이다. 그러나 온라인 상태에서 서버와 통신하여 제공되는 인공지능 서비스는, 보안이 중요한 산업 및 군사 분야에서는 적용되기 어려운 한계가 있다.

한편, 본 발명과 관련된 선행기술로서, 공개특허 제10-2019-0093966호(발명의 명칭: HMD 장치 및 그 동작 방법, 공개일자: 2019년 08월 12일) 등이 개시된 바 있다.

전술한 배경 기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지 기술이라 할 수는 없다.

본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 오프라인에서 동작할 수 있는 인공지능 모델이 탑재된 증강현실 글래스 장치를 착용한 착용자로부터 복수의 모달리티(modality)로 된 멀티모달의 입력 정보를 수신하고, 멀티모달 AI 솔루션부의 제어 하에 음성 모델, 이미지 모델, 언어 모델 등으로 입력 정보를 처리하고, 음성 생성 모델, 이미지 생성 모델, 언어 모델 등에서 출력 정보를 생성해 다양한 모달리티로 착용자에게 전달함으로써, 오프라인 환경에서 멀티모달 AI를 사용할 수 있으므로 보안 요구 조건이 높은 산업 또는 군사 분야에서도 활용할 수 있는, 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치 및 그의 운용 방법을 제공하는 것을 그 목적으로 한다.

다만, 본 발명이 이루고자 하는 기술적 과제는 상기한 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있고, 명시적으로 언급하지 않더라도 과제의 해결수단이나 실시 형태로부터 파악될 수 있는 목적이나 효과도 이에 포함됨은 물론이다.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치는,

오프라인에서 동작할 수 있는 인공지능 모델을 탑재한, 증강현실 글래스 장치로서,

상기 증강현실 글래스 장치를 착용한 착용자로부터 복수의 모달리티(modality)로 된 멀티모달의 입력 정보를 수신하는 입력부;

상기 입력 정보를 전달받아 모달에 따라 처리하되, 음성으로 된 데이터를 처리하는 음성 모델, 이미지로 된 데이터를 처리하는 이미지 모델, 및 텍스트로 된 데이터를 처리하는 언어 모델을 포함하는 데이터 분석부;

상기 데이터 분석부로부터 상기 입력 정보를 처리한 분석 결과를 전달받아 상기 착용자에게 피드백할 출력 정보를 생성하되, 분석 결과에 따른 음성을 생성하는 음성 합성 모델, 분석 결과에 따른 이미지를 생성하는 이미지 생성 모델, 및 분석 결과에 따른 텍스트를 생성하는 언어 생성 모델을 포함하는 데이터 생성부;

상기 데이터 생성부가 생성한 출력 정보를 출력해 상기 착용자에게 전달하는 복수의 출력 장치를 포함하는 출력부; 및

상기 입력 정보에 포함된 착용자의 요청이 처리되도록 상기 데이터 분석부와 상기 데이터 생성부를 제어하되, 상기 입력부에서 수신한 입력 정보의 모달에 따라 상기 입력 정보를 처리할 수 있는 모델에 상기 입력 정보를 전달하고, 상기 출력 정보의 종류에 따라 상기 출력 정보를 상기 착용자에게 피드백할 수 있는 출력 장치로 전달하는 멀티모달 AI 솔루션부를 포함하는 것을 그 구성상의 특징으로 한다.

바람직하게는, 상기 데이터 분석부는,

상기 멀티모달 AI 솔루션부의 제어에 따라 상기 음성 모델, 이미지 모델 및 언어 모델 사이에 데이터를 상호 교환하여, 상기 입력 정보에 포함된 착용자의 요청을 분석하고 처리할 수 있다.

바람직하게는, 상기 출력 장치는,

증강현실 디스플레이, 스피커, 햅틱 액추에이터, 촉각 재현 장치 및 열감 재현 장치를 포함하는 군에서 선택된 적어도 하나를 포함할 수 있다.

더욱 바람직하게는, 상기 멀티모달 AI 솔루션부는,

상기 출력 정보의 종류와 상기 증강현실 글래스 장치의 설정에 따라 상기 출력 장치를 선택해 전달할 수 있다.

바람직하게는, 상기 멀티모달 AI 솔루션부는,

프롬프트를 통해 대화 형식으로 상기 착용자의 요청을 처리하되, 상기 출력부가 출력 정보를 착용자에게 피드백한 다음, 피드백에 대응해 상기 입력부에서 입력되는 입력 정보를 처리할 때, 이전 출력 결과의 문맥을 고려해 상기 착용자와의 상호작용을 통해 처리되도록, 상기 데이터 분석부와 상기 데이터 생성부를 제어할 수 있다.

바람직하게는,

상기 착용자의 요청에 따라, 상기 입력 정보를 연산 서버에 송신하고 상기 연산 서버에서 출력된 정보를 수신하는 통신부를 더 포함할 수 있다.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치의 운용 방법은,

오프라인에서 동작할 수 있는 인공지능 모델을 탑재한 증강현실 글래스 장치의 운용 방법으로서,

(1) 증강현실 글래스 장치를 착용한 착용자로부터 복수의 모달리티(modality)로 된 멀티모달의 입력 정보를 수신하는 단계;

(2) 상기 입력부에서 수신한 입력 정보의 모달에 따라 상기 입력 정보를 처리할 수 있는 모델에 상기 입력 정보를 전달하는 단계;

(3) 상기 입력 정보를 전달받아 모달에 따라 처리하되, 음성으로 된 데이터를 처리하는 음성 모델, 이미지로 된 데이터를 처리하는 이미지 모델, 및 텍스트로 된 데이터를 처리하는 언어 모델을 포함하는 데이터 분석부에서 상기 입력 정보를 처리하는 단계;

(4) 상기 데이터 분석부로부터 상기 입력 정보를 처리한 분석 결과를 전달받아 상기 착용자에게 피드백할 출력 정보를 생성하되, 분석 결과에 따른 음성을 생성하는 음성 합성 모델, 분석 결과에 따른 이미지를 생성하는 이미지 생성 모델, 및 분석 결과에 따른 텍스트를 생성하는 언어 생성 모델을 포함하는 데이터 생성부에서 상기 출력 정보를 생성하는 단계;

(5) 상기 출력 정보의 종류에 따라 상기 출력 정보를 상기 착용자에게 피드백할 수 있는 출력 장치로 전달하는 단계; 및

(6) 상기 출력 장치가 상기 출력 정보를 출력해 상기 착용자에게 전달하는 단계를 포함하며,

상기 단계 (3) 및 단계 (4)에서는,

멀티모달 AI 솔루션부가 상기 입력 정보에 포함된 착용자의 요청이 처리되도록 상기 데이터 분석부와 상기 데이터 생성부를 제어하는 것을 그 구성상의 특징으로 한다.

바람직하게는, 상기 단계 (3)에서는,

본 발명에서 제안하고 있는 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치 및 그의 운용 방법에 따르면, 오프라인에서 동작할 수 있는 인공지능 모델이 탑재된 증강현실 글래스 장치를 착용한 착용자로부터 복수의 모달리티(modality)로 된 멀티모달의 입력 정보를 수신하고, 멀티모달 AI 솔루션부의 제어 하에 음성 모델, 이미지 모델, 언어 모델 등으로 입력 정보를 처리하고, 음성 생성 모델, 이미지 생성 모델, 언어 모델 등에서 출력 정보를 생성해 다양한 모달리티로 착용자에게 전달함으로써, 오프라인 환경에서 멀티모달 AI를 사용할 수 있으므로 보안 요구 조건이 높은 산업 또는 군사 분야에서도 활용할 수 있다.

더불어, 본 발명의 다양하면서도 유익한 장점과 효과는 상술한 내용에 한정되지 않으며, 본 발명의 구체적인 실시 형태를 설명하는 과정에서 보다 쉽게 이해될 수 있을 것이다.

도 1은 본 발명의 일실시예에 따른 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치의 전체 구성을 도시한 도면.
도 2는 본 발명의 일실시예에 따른 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치의 전체적인 모습을 도시한 도면.
도 3은 본 발명의 일실시예에 따른 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치에서, 멀티모달 AI 솔루션의 구현을 위한 세부적인 구성을 도시한 도면.
도 4는 본 발명의 일실시예에 따른 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치에서, 입력 정보가 처리되는 과정을 설명하기 위해 도시한 도면.
도 5는 본 발명의 일실시예에 따른 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치에서, 출력 정보가 생성되는 과정을 설명하기 위해 도시한 도면.
도 6은 본 발명의 일실시예에 따른 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치의 운용 방법의 흐름을 도시한 도면.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

이하의 실시예는 본 발명의 이해를 돕기 위한 상세한 설명이며, 본 발명의 권리 범위를 제한하는 것이 아니다. 따라서 본 발명과 동일한 기능을 수행하는 동일 범위의 발명 역시 본 발명의 권리 범위에 속할 것이다.

또한, 본 발명의 각 실시예에 포함된 각 구성, 과정, 공정 또는 방법 등은 기술적으로 상호간 모순되지 않는 범위 내에서 공유될 수 있다.

또한, 본 발명에 있어서 단말, 장치 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말, 장치 또는 디바이스와 연결된 서버에서 대신 수행될 수 있다. 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말, 장치 또는 디바이스에서 수행될 수도 있다.

특히, 본 발명의 각 실시예에 따른 시스템을 실행시키기 위한 수단으로는 애플리케이션(Application), 또는 웹 서버일 수 있으며, 이 애플리케이션, 또는 웹 서버를 기록한 기록매체를 읽을 수 있는 수단인 단말로는, 일반적인 데스크톱이나 노트북 등의 일반 PC뿐만 아니라, 스마트 폰, 태블릿 PC, 등의 모바일 단말기를 포함할 수 있다.

이하, 첨부된 도면을 참고하여 본 발명의 실시예들을 상세히 설명하도록 한다.

도 1은 본 발명의 일실시예에 따른 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치(100)의 전체 구성을 도시한 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치(100)는, 광학 디스플레이부(10), 입력부(20), 출력부(30), 멀티모달 AI 솔루션(40), 통신부(50), 센서부(60) 및 제어부(70)를 포함하여 구성될 수 있다.

도 2는 본 발명의 일실시예에 따른 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치(100)의 전체적인 모습을 도시한 도면이다. 도 1 및 도 2에 도시된 바와 같이, 증강현실 글래스 장치(100)는, 사용자가 머리에 착용해 증강현실을 제공받는 착용형 디스플레이 장치일 수 있다.

이하에서는, 도 1 및 도 2를 참고하여 증강현실 글래스 장치(100)의 각 구성에 대해 상세히 설명하도록 한다.

광학 디스플레이부(10)는, 착용자의 눈 전방에 배치되어 현실 세계의 광의 적어도 일부를 투과하는 동시에, 디스플레이(11)에서 출력되는 영상 광의 적어도 일부를 착용자의 눈 방향으로 전달하여 착용자에게 증강현실을 제공할 수 있다. 즉, 광학 디스플레이부(10)는, 증강현실 글래스 장치(100)를 착용한 착용자의 양안의 전방에 배치되며, 증강현실 글래스 장치(100)의 AR 또는 XR(eXtended Reality, 확장 현실) 글라스에 해당하는 구성으로서, 도 1에 도시된 바와 같이 디스플레이(11) 및 광학계(12)를 포함하여 구성될 수 있다.

디스플레이(11)는, 영상 정보가 착용자에게 제공될 수 있도록 영상 광을 출력할 수 있다. 보다 구체적으로, 디스플레이(11)는, 영상 정보가 착용자에게 제공될 수 있도록, 이하에서 상세히 설명할 광학계(12)에 결합해, 광학계(12)에 의해 착용자의 눈 방향으로 전달되는 영상 광을 출력하며, 양안 디스플레이(11)를 위해 한 쌍의 디스플레이(11)로 구성될 수 있다. 디스플레이(11)는 OLED, LCoS(Liquid Crystal on Silicon) 등 다양하게 구성될 수 있다.

광학계(12)는, 증강현실 글래스 장치(100)를 착용한 착용자의 양안의 전방에 배치되어 실제 세계의 광과 영상 광의 결합에 의한 증강현실을 제공할 수 있다. 보다 구체적으로, 광학계(12)는, 착용자의 시야를 통한 실제 세계(real world)의 광의 적어도 일부를 투과시키고, 디스플레이(11)에서 출력되는 영상 광의 적어도 일부를 착용자의 눈 방향으로 전달하여 증강현실을 제공할 수 있다. 즉, 광학계(12)는 증강현실 글래스 장치(100)를 착용한 착용자가 증강현실을 경험할 수 있도록 구성될 수 있다. 또한, 광학계(12)는 복수의 렌즈와 미러 등으로 구성되며 다양한 방식으로 구현될 수 있는데, 예를 들어 광학 회절 방식, 도파관 방식, 빔 스플리터 방식, 핀 미러 방식 등으로 구현될 수 있다.

입력부(20)는, 착용자로부터 입력 정보를 수신할 수 있는 다양한 입력 장치를 포함하여 구성될 수 있다. 입력 장치는 음성을 입력받는 마이크, 이미지나 동영상을 입력받는 카메라를 포함할 수 있으며, 증강현실 글래스 장치(100)와 연결된 실물 또는 가상의 키보드나 마우스, 컨트롤러 등을 포함할 수도 있다. 또한, 입력부(20)는, 추후 상세히 설명할 센서부(60)에 포함된 GPS 모듈, IMU 센서, 카메라, 가스 센서, 조도 센서, 홍채 인식 센서, 온도 센서, 착용자의 생체정보를 측정하는 생체 센서, 착용자의 제스처를 인식하는 제스처 센서, 터치 센서, 촉감 센서, 열감 센서 등 다양한 센서에서 수집된 정보를 입력 정보로 수신할 수도 있다. 입력부(20)는, 이러한 입력 장치를 통해 멀티모달의 입력 정보를 수신할 수 있다.

출력부(30)는, 착용자에게 출력 정보를 전달할 수 있는 다양한 출력 장치를 포함하여 구성될 수 있다. 출력 장치는 증강현실 영상을 출력하는 광학 디스플레이부(10)의 디스플레이(11), 음향을 출력하는 스피커를 포함할 수 있으며, 햅틱 액추에이터, 촉감과 질감 등을 전달하는 촉각 재현 장치, 열감과 냉감을 전달하는 열감 재현 장치 등을 포함할 수 있다. 출력부(30)는, 이러한 다양한 출력 장치를 통해 멀티모달의 출력 정보를 착용자에게 전달할 수 있다.

멀티모달 AI 솔루션(40)은, 복수의 인공지능 모델을 내장하고 증강현실 글래스 장치(100)에 탑재되어, 증강현실 글래스 장치(100)가 오프라인 상태에서 외부 서버와의 통신 없이 멀티모달의 입력 정보를 처리하고 다양한 형태의 출력 정보를 착용자에게 전달할 수 있다. 멀티모달 AI 솔루션(40)에 대해서는 추후 도 3을 참조하여 상세히 설명하도록 한다.

통신부(50)는, 착용자의 요청에 따라, 입력 정보를 연산 서버에 송신하고 연산 서버에서 출력된 정보를 수신할 수 있다. 즉, 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치(100)는, 오프라인에서 멀티모달 AI 솔루션(40)의 동작을 통해 착용자가 인공지능 서비스를 이용할 수 있도록 하지만, 착용자의 요청이 있으면 통신부(50)를 통해 외부의 연산 서버와 통신하여 작업을 처리할 수 있다.

증강현실 글래스 장치(100)는 착용자가 머리에 착용해야 하는 특성상 무게가 가벼워야 하고, 그 형태에도 제약이 있으므로 스마트폰 수준의 성능을 벗어나기 어렵다. 따라서 오프라인 상태에서 처리할 수 있는 인공지능 연산의 범위에는 한계가 있다(2023년 현재 스마트폰에서는 70억 개 단어 LLM에서 입력 정보를 처리하는 데 10초 걸림). 통신부(50)를 이용해 고성능의 연산 서버에서 인공지능 연산을 처리하면, 더 큰 모델을 더 빠르게 처리할 수 있는 장점이 있다(2023년 현재 연산 서버에서는 650억 개 단어 LLM에서 입력 정보를 처리하는 데 5초 걸림). 다만, 통신망을 통한 데이터 송수신에 따른 보안 문제가 발생할 수 있는 한계가 있으므로, 착용자의 요청이 있을 때만 연산 서버와의 통신을 처리할 수 있다.

한편, 통신부(50)는, 증강현실 글래스 장치(100)의 일측에 설치되며, 다른 증강현실 글래스 장치(100)나 연산 서버를 비롯한 외부의 서버 등과 각종 신호 및 데이터를 송수신할 수 있다. 여기서, 통신부(50)가 사용하는 네트워크는, 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN) 또는 부가가치 통신망(Value Added Network; VAN) 등과 같은 유선 네트워크나 이동 통신망(mobile radio communication network), 위성 통신망, 블루투스(Bluetooth), Wibro(Wireless Broadband Internet), HSDPA(High Speed Downlink Packet Access), LTE(Long Term Evolution), 3/4/5/6G(3/4/5/6th Generation Mobile Telecommunication) 등과 같은 모든 종류의 무선 네트워크로 구현될 수 있다.

센서부(60)는, 적어도 하나 이상의 센서를 포함할 수 있으며, 보다 구체적으로 GPS 모듈, IMU 센서, 카메라, 가스 센서, 조도 센서, 홍채 인식 센서, 온도 센서, 생체 센서, 제스처 센서, 터치 센서, 촉감 센서, 열감 센서 등을 포함할 수 있다. 센서부(60)의 여러 종류의 센서는 입력부(20)가 멀티모달 데이터를 수신할 수 있는 입력 장치의 역할을 할 수 있다.

한편, 증강현실 글래스 장치(100)는, 멀티모달 AI 솔루션(40)의 사용자 이용 히스토리와 설정 정보 등을 저장하고, 홍채 인식 센서를 이용해 착용자가 인식되면 인식된 사용자 인식 정보에 대응해 저장된 사용자 이용 히스토리와 설정 정보를 불러와 적용할 수 있다. 따라서 여러 사용자가 하나의 증강현실 글래스 장치(100)를 사용하더라도, 자신의 설정 정보를 저장해두고 홍채 인식 센서를 이용한 사용자 인식을 통해 사용자마다 저장된 정보를 불러와 이용할 수 있으며, 사용자 이용 히스토리를 통해 이전의 대화에 이어서 인공지능 서비스를 대화 형식으로 이용할 수 있다.

제어부(70)는, 증강현실 글래스 장치(100)의 전체적인 구동을 제어할 수 있다. 특히, 제어부(70)는, 멀티모달 AI 솔루션(40)과 증강현실 글래스 장치(100)의 다른 구성이 유기적으로 연결되어 증강현실 글래스 장치(100)에서 다양한 모달리티의 입력 정보를 입력해 인공지능 서비스를 통한 결과를 착용자가 받아볼 수 있도록 제어할 수 있다. 실시예에 따라서, 제어부(70)는, 조도 센서에서 수집한 외부 조도 정보를 이용해 증강현실 영상 광의 밝기 등을 조절하여, 밝은 환경에서도 증강현실 영상 광이 선명하게 보이도록 자동으로 조절할 수 있다.

도 3은 본 발명의 일실시예에 따른 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치(100)에서, 멀티모달 AI 솔루션(40)의 구현을 위한 세부적인 구성을 도시한 도면이다. 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치(100)는, 오프라인에서 동작할 수 있는 인공지능 모델을 탑재한 증강현실 글래스 장치(100)로서, 입력부(110), 데이터 분석부(120), 데이터 생성부(130), 출력부(140) 및 멀티모달 AI 솔루션부(150)를 포함하여 구성될 수 있다.

최근 LLM이 크게 주목받으면서, 고가의 비용과 오랜 시간을 들여야만 운영할 수 있는 인공지능 서비스가 스마트폰 등의 모바일에서도 이용할 수 있을 만큼 경량화되고 있다. 또한, 미세조정(fine tuning)을 이용한 특화 LLM도 쉽게 만들 수 있게 되었다. 따라서 모델 경량화 및 최적화를 통해 증강현실 글래스 장치(100)에서도 사용할 수 있는 고성능의 인공지능 모델을 구현할 수 있다.

본 발명의 일실시예에 따른 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치(100)는, 이처럼 경량화 및 최적화된 고성능의 인공지능 모델을 탑재하되, 음성 모델(121), 이미지 모델(122), 언어 모델(123), 음성 합성 모델(131), 이미지 생성 모델(132), 언어 생성 모델(133) 등의 복수의 인공지능 모델을 탑재하고, 멀티모달 AI 솔루션부(150)가 복수의 인공지능 모델 사이의 데이터 전달과 상호작용을 제어해, 오프라인에서도 멀티모달 인공지능 서비스를 이용할 수 있다. 특히, 본 발명의 일실시예에 따른 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치(100)는 언어 모델(123) 및 언어 생성 모델(133)을 탑재하고 있으므로, 자연스러운 대화체 음성, 텍스트 언어로 착용자가 요청 사항을 입력하면, 그에 대한 응답을 대화 형식으로 제공받을 수 있다.

도 4는 본 발명의 일실시예에 따른 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치(100)에서, 입력 정보가 처리되는 과정을 설명하기 위해 도시한 도면이고, 도 5는 본 발명의 일실시예에 따른 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치(100)에서, 출력 정보가 생성되는 과정을 설명하기 위해 도시한 도면이다.

이하에서는, 도 3 내지 도 5를 참조하여 본 발명의 일실시예에 따른 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치(100)의 각 구성에 대해 상세히 설명하도록 한다.

입력부(110)는, 증강현실 글래스 장치(100)를 착용한 착용자로부터 복수의 모달리티로 된 멀티모달의 입력 정보를 수신할 수 있다. 이때, 입력부(110)는 프롬프트를 통해 대화 형식으로 착용자로부터 입력 정보를 수신할 수 있다.

즉, 입력부(110)는 증강현실 글래스 장치(100)의 다양한 입력 장치로부터 입력 정보를 수신할 수 있는데, 음성(마이크 이용), 텍스트(제스처, 가상 키보드 등 이용), 이미지나 영상(카메라 이용) 등 다양한 모달리티로 된 입력 정보를 수신할 수 있다. 예를 들어, “지속 가능한 재료를 사용한 건축 디자인 이미지를 보여줘. 구조나 컬러, 재질은 이미지를 참고해 줘.”와 같은 내용의 착용자 음성을 마이크를 통해 입력받고, 착용자가 제시하는 이미지는 카메라를 통해 입력받을 수 있다. 이와 같이, 입력 정보는 음성(마이크)과 이미지(카메라)의 두 가지 모달리티로 된 멀티모달 데이터일 수 있다.

데이터 분석부(120)는, 입력 정보를 전달받아 모달에 따라 처리하되, 음성으로 된 데이터를 처리하는 음성 모델(121), 이미지로 된 데이터를 처리하는 이미지 모델(122), 및 텍스트로 된 데이터를 처리하는 언어 모델(123)을 포함할 수 있다. 보다 구체적으로, 데이터 분석부(120)는, 멀티모달 AI 솔루션부(150)의 제어에 따라 음성 모델(121), 이미지 모델(122) 및 언어 모델(123) 사이에 데이터를 상호 교환하여, 입력 정보에 포함된 착용자의 요청을 분석하고 처리할 수 있다.

도 4에 도시된 바와 같이, 데이터 분석부(120)는 음성과 이미지로 된 멀티모달 입력 정보를 전달받고, 음성 데이터는 음성 모델(121), 이미지 데이터는 이미지 모델(122)에 각각 전달할 수 있다. 음성 모델(121)은 착용자 음성을 인식해 키워드를 추출하거나, 텍스트화(Sound to Text: STT)할 수 있다. 이미지 모델(122)은 이미지 분류, 이미지 내의 객체 탐지, 세그멘테이션 등의 방식으로 이미지를 분석해 데이터화 할 수 있다. 음성 모델(121)과 이미지 모델(122)의 분석 결과는 언어 모델(123)에 전달되어, 언어 모델(123)이 착용자의 요청 사항을 분석해 그에 대응한 연산을 처리할 수 있다.

전술한 바와 같은 예에서, 언어 모델(123)은 “지속 가능한 재료를 사용한 건축 디자인 이미지를 보여줘. 구조나 컬러, 재질은 이미지를 참고해 줘.”라는 텍스트의 분석 결과와 착용자가 제공한 이미지의 분석 결과를 전달받고, 텍스트의 내용과 이미지의 분석 결과를 조합해 착용자의 요청 사항을 포함하는 분석 결과를 생성할 수 있다. 이때, 음성 모델(121), 이미지 모델(122), 언어 모델(123)은 서로 데이터를 주고받는 등 상호작용을 하여, 착용자의 요청 사항을 추출할 수 있으며, 요청 사항에 따른 웹 검색, 제어부(70)와의 상호작용 등을 할 수 있고, 요청 사항에 맞는 최적의 결과 도출을 위해 이하에서 상세히 설명할 데이터 생성부(130)와 상호작용할 수 있다.

데이터 생성부(130)는, 데이터 분석부(120)로부터 입력 정보를 처리한 분석 결과를 전달받아 착용자에게 피드백할 출력 정보를 생성하되, 분석 결과에 따른 음성을 생성하는 음성 합성 모델(131), 분석 결과에 따른 이미지를 생성하는 이미지 생성 모델(132), 및 분석 결과에 따른 텍스트를 생성하는 언어 생성 모델(133)을 포함할 수 있다. 보다 구체적으로, 데이터 생성부(130)는, 멀티모달 AI 솔루션부(150)의 제어에 따라 데이터 분석부(120)의 언어 모델(123)이 추출한 요청 사항에 따라, 음성, 이미지 등을 생성할 수 있다.

도 5에 도시된 바와 같이, 데이터 생성부(130)는 데이터 분석부(120)로부터 착용자의 요청 사항을 포함하는 분석 결과를 전달받고, 언어 생성 모델(133)이 분석 결과에 따른 문장을 텍스트로 생성할 수 있다. 생성된 텍스트는 음성 합성 모델(131)에 전달되어 음성으로 구현(Text to Sound: TTS)될 수 있다. 또한, 이미지의 합성이 필요한 경우에는 이미지 생성 모델(132)이 분석 결과를 전달받아 이미지를 생성할 수 있다.

전술한 바와 같은 예에서, 언어 생성 모델(133)은 “지속 가능한 재료를 사용한 모던한 디자인의 별장입니다.”라는 착용자의 프롬프트에 대응한 응답을 텍스트로 생성하고, 생성한 텍스트는 음성 합성 모델(131)에서 음성으로 합성될 수 있다. 또한, 이미지 생성 모델(132)은 데이터 분석부(120)로부터 분석 결과를 전달받아 착용자의 요청 사항에 맞는 이미지를 생성할 수 있다. 데이터 생성부(130)는 착용자의 요청 사항에 맞는 데이터를 생성하기 위해 데이터 분석부(120)와 여러 번 상호작용할 수 있다.

출력부(140)는, 데이터 생성부(130)가 생성한 출력 정보를 출력해 착용자에게 전달하는 복수의 출력 장치를 포함할 수 있다. 여기서, 출력 장치는, 증강현실 디스플레이(11), 스피커, 햅틱 액추에이터, 촉각 재현 장치 및 열감 재현 장치를 포함하는 군에서 선택된 적어도 하나를 포함할 수 있다. 즉, 도 5에 도시된 바와 같이, 음성 합성 모델(131)에서 합성된 음성은 스피커를 통해 착용자에게 전달될 수 있으며, 이미지 생성 모델(132)에서 생성된 이미지는 광학 디스플레이부(10)를 통해 증강현실 영상으로 착용자에게 제공될 수 있다.

멀티모달 AI 솔루션부(150)는, 입력 정보에 포함된 착용자의 요청이 처리되도록 데이터 분석부(120)와 데이터 생성부(130)를 제어하되, 입력부(110)에서 수신한 입력 정보의 모달에 따라 입력 정보를 처리할 수 있는 모델에 입력 정보를 전달하고, 출력 정보의 종류에 따라 출력 정보를 착용자에게 피드백할 수 있는 출력 장치로 전달할 수 있다. 즉, 도 3에 도시된 바와 같이, 멀티모달 AI 솔루션부(150)는, 입력부(110), 데이터 분석부(120), 데이터 생성부(130), 출력부(140)의 상호작용을 제어하고, 데이터의 모달리티에 따라 데이터를 적절하게 할당하는 역할을 하여, 증강현실 글래스 장치(100)에서 멀티모달 AI 솔루션(40)을 구현하는 역할을 할 수 있다.

보다 구체적으로, 멀티모달 AI 솔루션부(150)는, 프롬프트를 통해 대화 형식으로 착용자의 요청을 처리하되, 출력부(140)가 출력 정보를 착용자에게 피드백한 다음, 피드백에 대응해 입력부(110)에서 입력되는 입력 정보를 처리할 때, 이전 출력 결과의 문맥을 고려해 착용자와의 상호작용을 통해 처리되도록, 데이터 분석부(120)와 데이터 생성부(130)를 제어할 수 있다. 즉, 멀티모달 AI 솔루션부(150)는, 언어 모델(123) 및 언어 생성 모델(133)에 의해 프롬프트를 통해 대화 형식으로 착용자와 상호작용할 수 있다. 이때, 프롬프트는 대화 형식으로 명령을 수신하고 실행 결과를 제공하기 위한 채널 또는 그 대화를 의미하며, 광학 디스플레이부(10)를 통한 증강현실 영상이나 마이크/스피커를 통한 음성으로 구현될 수 있다.

한편, 멀티모달 AI 솔루션부(150)는, 출력 정보의 종류와 증강현실 글래스 장치(100)의 설정에 따라 출력 장치를 선택해 전달할 수 있다. 즉, 출력 정보가 음성이더라도, 증강현실 글래스 장치(100)가 청각 신호를 제한하도록 설정되어 있다면 해당 음성에 대응하는 텍스트를 광학 디스플레이부(10)에 전달할 수 있다.

이와 같은 멀티모달 AI 솔루션(40)을 통해, 업무 자동화, 시각 장애인을 위한 서비스, 시청각 장애인을 위한 서비스 등을 구현할 수 있다. 예를 들어, 전술한 지속 가능한 재료를 사용한 건축 디자인의 사례와 같이, 멀티모달 AI 솔루션(40)은 착용자의 요청을 처리하여 사람보다 빠르게 결과물을 도출할 수 있으며, 이러한 결과물을 토대로 사람이 심화 개발을 함으로써 개발 속도를 높이는 등 업무 효율화를 달성할 수 있다.

또한, 시각 장애인의 경우, 카메라로 풍경을 인식하면 이미지 모델(122)이 풍경을 분석하고 언어 생성 모델(133)이 분석된 풍경 내용을 문장으로 서술해 텍스트를 생성할 수 있으며, 음성 합성 모델(131)이 생성된 텍스트를 음성으로 합성해 스피커를 통해 착용자에게 전달할 수 있다. 그러면 시각 장애인은 눈이 보이지 않더라도 현재 눈앞의 풍경에 대한 설명을 스피커로 들을 수 있다. 또한, 시청각 장애인의 경우, 위의 시각 장애인과 같은 시나리오에서 출력부(140)를 촉각 재현 장치로 하여 착용자에게 피드백해 줄 수 있다.

도 6은 본 발명의 일실시예에 따른 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치(100)의 운용 방법의 흐름을 도시한 도면이다. 도 6에 도시된 바와 같이, 본 발명의 일실시예에 따른 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치(100)의 운용 방법은, 오프라인에서 동작할 수 있는 인공지능 모델을 탑재한 증강현실 글래스 장치(100)의 운용 방법으로서, 증강현실 글래스 장치(100)에서 각 단계가 수행될 수 있으며, 증강현실 글래스 장치(100)를 착용한 착용자로부터 복수의 모달리티로 된 멀티모달의 입력 정보를 수신하는 단계(S110), 입력부(110)에서 수신한 입력 정보의 모달에 따라 입력 정보를 처리할 수 있는 모델에 입력 정보를 전달하는 단계(S120), 입력 정보를 전달받아 모달에 따라 처리하되, 음성으로 된 데이터를 처리하는 음성 모델(121), 이미지로 된 데이터를 처리하는 이미지 모델(122), 및 텍스트로 된 데이터를 처리하는 언어 모델(123)을 포함하는 데이터 분석부(120)에서 입력 정보를 처리하는 단계(S130), 데이터 분석부(120)로부터 입력 정보를 처리한 분석 결과를 전달받아 착용자에게 피드백할 출력 정보를 생성하되, 분석 결과에 따른 음성을 생성하는 음성 합성 모델(131), 분석 결과에 따른 이미지를 생성하는 이미지 생성 모델(132), 및 분석 결과에 따른 텍스트를 생성하는 언어 생성 모델(133)을 포함하는 데이터 생성부(130)에서 출력 정보를 생성하는 단계(S140), 출력 정보의 종류에 따라 출력 정보를 착용자에게 피드백할 수 있는 출력 장치로 전달하는 단계(S150) 및 출력 장치가 출력 정보를 출력해 착용자에게 전달하는 단계(S160)를 포함하여 구현될 수 있다.

각각의 단계들과 관련된 상세한 내용들은, 앞서 본 발명의 일실시예에 따른 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치(100)와 관련하여 충분히 설명되었으므로, 상세한 설명은 생략하기로 한다.

전술한 바와 같이, 본 발명에서 제안하고 있는 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치(100) 및 그의 운용 방법에 따르면, 오프라인에서 동작할 수 있는 인공지능 모델이 탑재된 증강현실 글래스 장치(100)를 착용한 착용자로부터 복수의 모달리티로 된 멀티모달의 입력 정보를 수신하고, 멀티모달 AI 솔루션부(150)의 제어 하에 음성 모델(121), 이미지 모델(122), 언어 모델(123) 등으로 입력 정보를 처리하고, 음성 생성 모델, 이미지 생성 모델(132), 언어 모델(123) 등에서 출력 정보를 생성해 다양한 모달리티로 착용자에게 전달함으로써, 오프라인 환경에서 멀티모달 AI를 사용할 수 있으므로 보안 요구 조건이 높은 산업 또는 군사 분야에서도 활용할 수 있다.

한편, 본 발명은 다양한 통신 단말기로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터에서 판독 가능한 매체를 포함할 수 있다. 예를 들어, 컴퓨터에서 판독 가능한 매체는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD_ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다.

이와 같은 컴퓨터에서 판독 가능한 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 이때, 컴퓨터에서 판독 가능한 매체에 기록되는 프로그램 명령은 본 발명을 구현하기 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예를 들어, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명된 각 구성요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명된 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

10: 광학 디스플레이부
11: 디스플레이
12: 광학계
20: 입력부
30: 출력부
40: 멀티모달 AI 솔루션
50: 통신부
60: 센서부
70: 제어부
100: 증강현실 글래스 장치
110: 입력부
120: 데이터 분석부
121: 음성 모델
122: 이미지 모델
123: 언어 모델
130: 데이터 생성부
131: 음성 합성 모델
132: 이미지 생성 모델
133: 언어 생성 모델
140: 출력부
150: 멀티모달 AI 솔루션부
S110: 증강현실 글래스 장치를 착용한 착용자로부터 복수의 모달리티로 된 멀티모달의 입력 정보를 수신하는 단계
S120: 입력부에서 수신한 입력 정보의 모달에 따라 입력 정보를 처리할 수 있는 모델에 입력 정보를 전달하는 단계
S130: 입력 정보를 전달받아 모달에 따라 처리하되, 음성으로 된 데이터를 처리하는 음성 모델, 이미지로 된 데이터를 처리하는 이미지 모델, 및 텍스트로 된 데이터를 처리하는 언어 모델을 포함하는 데이터 분석부에서 입력 정보를 처리하는 단계
S140: 데이터 분석부로부터 입력 정보를 처리한 분석 결과를 전달받아 착용자에게 피드백할 출력 정보를 생성하되, 분석 결과에 따른 음성을 생성하는 음성 합성 모델, 분석 결과에 따른 이미지를 생성하는 이미지 생성 모델, 및 분석 결과에 따른 텍스트를 생성하는 언어 생성 모델을 포함하는 데이터 생성부에서 출력 정보를 생성하는 단계
S150: 출력 정보의 종류에 따라 출력 정보를 착용자에게 피드백할 수 있는 출력 장치로 전달하는 단계
S160: 출력 장치가 출력 정보를 출력해 착용자에게 전달하는 단계

Claims

오프라인에서 동작할 수 있는 경량화 된 복수의 인공지능 모델을 탑재하여 보안이 중요한 산업 또는 군사 분야에서 대화형 인공지능 서비스를 사용할 수 있는, 증강현실 글래스 장치(100)로서,
착용자의 눈 전방에 배치되어 현실 세계의 광의 적어도 일부를 투과하는 동시에, 디스플레이(11)에서 출력되는 영상 광의 적어도 일부를 착용자의 눈 방향으로 전달하여 착용자에게 증강현실을 제공하는 광학 디스플레이부(10);
상기 증강현실 글래스 장치(100)를 착용한 착용자로부터 프롬프트를 통해 대화 형식으로 입력 장치를 통해 복수의 모달리티(modality)로 된 멀티모달의 입력 정보를 수신하는 입력부(110);
상기 입력 정보를 전달받아 모달에 따라 처리하되, 음성으로 된 데이터를 처리해 키워드 추출 또는 텍스트화하는 음성 모델(121), 이미지로 된 데이터를 처리해 이미지 분류, 이미지 내의 객체 탐지 및 세그멘테이션을 포함하는 방식으로 이미지를 분석해 데이터화하는 이미지 모델(122), 및 텍스트로 된 데이터를 처리하되 상기 음성 모델(121) 및 이미지 모델(122)의 분석 결과를 전달받아 착용자의 요청 사항을 분석하고 상기 요청 사항에 대응한 연산을 처리하는 언어 모델(123)을 포함하는 데이터 분석부(120);
상기 데이터 분석부(120)로부터 상기 입력 정보를 처리한 분석 결과를 전달받아 상기 착용자에게 피드백할 출력 정보를 생성하되, 상기 데이터 분석부(120)로부터 상기 요청 사항을 포함하는 분석 결과를 전달받고 분석 결과에 따른 텍스트를 생성하는 언어 생성 모델(133), 분석 결과에 따른 음성을 생성하되, 상기 언어 생성 모델(133)에서 생성된 텍스트를 전달받아 음성으로 구현하는 음성 합성 모델(131), 및 이미지의 합성이 필요한 경우에 상기 데이터 분석부(120)로부터 분석 결과를 전달받고 분석 결과에 따른 이미지를 생성하는 이미지 생성 모델(132)을 포함하는 데이터 생성부(130);
상기 데이터 생성부(130)가 생성한 출력 정보를 출력해 상기 착용자에게 전달하는 복수의 출력 장치를 포함하는 출력부(140); 및
상기 입력 정보에 포함된 착용자의 요청이 처리되도록 상기 데이터 분석부(120)와 상기 데이터 생성부(130)를 제어하되, 상기 입력부(110)에서 수신한 입력 정보의 모달에 따라 상기 입력 정보를 처리할 수 있는 모델에 상기 입력 정보를 전달하고, 상기 출력 정보의 종류에 따라 상기 출력 정보를 상기 착용자에게 피드백할 수 있는 출력 장치로 전달하는 멀티모달 AI 솔루션부(150)를 포함하며,
상기 입력 장치는,
음성을 입력받는 마이크, 이미지나 동영상을 입력받는 카메라, 상기 증강현실 글래스 장치(100)와 연결된 실물 또는 가상의 키보드, 마우스 및 컨트롤러를 포함하는 군에서 선택된 적어도 하나를 포함하고,
상기 출력 장치는,
증강현실 디스플레이(11), 스피커, 햅틱 액추에이터, 촉각 재현 장치 및 열감 재현 장치를 포함하는 군에서 선택된 적어도 하나를 포함하고,
상기 데이터 분석부(120)는,
상기 멀티모달 AI 솔루션부(150)의 제어에 따라 상기 음성 모델(121), 이미
지 모델(122) 및 언어 모델(123) 사이에 데이터를 상호 교환하여, 상기 입력 정보에 포함된 착용자의 요청을 분석하고 처리하며,
상기 멀티모달 AI 솔루션부(150)는,
상기 출력 정보의 종류와 상기 증강현실 글래스 장치(100)의 설정에 따라 상기 출력 장치를 선택해 전달하며,
상기 멀티모달 AI 솔루션부(150)는,
상기 프롬프트를 통해 대화 형식으로 상기 착용자의 요청을 처리하되, 상기 출력부(140)가 출력 정보를 착용자에게 피드백한 다음, 피드백에 대응해 상기 입력부(110)에서 입력되는 입력 정보를 처리할 때, 이전 출력 결과의 문맥을 고려해 상기 착용자와의 상호작용을 통해 처리되도록, 상기 데이터 분석부(120)와 상기 데이터 생성부(130)를 제어하며,
상기 멀티모달 AI 솔루션부(150)는,
상기 언어 모델(123) 및 언어 생성 모델(133)에 의해 상기 프롬프트를 통해 자연스러운 대화체 음성, 텍스트 언어를 사용하는 대화 형식으로 착용자와 상호작용하며,
상기 프롬프트는,
대화 형식으로 명령을 수신하고 실행 결과를 제공하기 위한 채널 또는 대화를 의미하며, 상기 광학 디스플레이부(10)를 통한 증강현실 영상, 또는 마이크와 스피커를 통한 음성으로 구현되며,
상기 증강현실 글래스 장치(100)의 일측에 설치되며, 상기 착용자의 요청에 따라, 상기 입력 정보를 연산 서버에 송신하고 상기 연산 서버에서 출력된 정보를 수신하는 통신부(50)를 더 포함하되, 상기 통신부(50)는 착용자의 요청이 있을 때만 상기 연산 서버와의 통신을 처리하며,
적어도 하나 이상의 센서를 포함하는 센서부(60)를 더 포함하되, 상기 센서부(60)에 포함되는 센서는 멀티모달 데이터를 수신하는 상기 입력 장치의 역할을 하며,
상기 증강현실 글래스 장치(100)의 전체적인 구동을 제어하는 제어부(70)를 더 포함하되, 상기 제어부(70)는, 조도 센서에서 수집한 외부 조도 정보를 이용해 증강현실 영상 광의 밝기를 조절하여, 밝은 환경에서도 상기 증강현실 영상 광이 선명하게 보이도록 자동으로 조절하며,
상기 증강현실 글래스 장치(100)는,
멀티모달 AI 솔루션(40)의 사용자 이용 히스토리와 설정 정보를 저장하고, 상기 센서부(60)에 포함된 홍채 인식 센서를 이용해 착용자가 인식되면 인식된 사용자 인식 정보에 대응해 저장된 사용자 이용 히스토리와 설정 정보를 불러와 적용하여, 여러 사용자가 하나의 상기 증강현실 글래스 장치(100)를 사용할 때 상기 홍채 인식 센서를 이용한 사용자 인식을 통해 사용자마다 저장된 사용자 이용 히스토리를 통해 이전의 대화에 이어서 인공지능 서비스를 대화 형식으로 이용할 수 있는 것을 특징으로 하는, 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치(100).
삭제
삭제
삭제
삭제
삭제
오프라인에서 동작할 수 있는 경량화 된 복수의 인공지능 모델을 탑재하여 보안이 중요한 산업 또는 군사 분야에서 대화형 인공지능 서비스를 사용할 수 있는 증강현실 글래스 장치(100)의 운용 방법으로서,
(1) 증강현실 글래스 장치(100)를 착용한 착용자로부터 프롬프트를 통해 대화 형식으로 입력 장치를 통해 복수의 모달리티(modality)로 된 멀티모달의 입력 정보를 수신하는 단계;
(2) 상기 단계 (1)에서 수신한 입력 정보의 모달에 따라 상기 입력 정보를 처리할 수 있는 모델에 상기 입력 정보를 전달하는 단계;
(3) 상기 입력 정보를 전달받아 모달에 따라 처리하되, 음성으로 된 데이터를 처리해 키워드 추출 또는 텍스트화하는 음성 모델(121), 이미지로 된 데이터를 처리해 이미지 분류, 이미지 내의 객체 탐지 및 세그멘테이션을 포함하는 방식으로 이미지를 분석해 데이터화하는 이미지 모델(122), 및 텍스트로 된 데이터를 처리하되 상기 음성 모델(121) 및 이미지 모델(122)의 분석 결과를 전달받아 착용자의 요청 사항을 분석하고 상기 요청 사항에 대응한 연산을 처리하는 언어 모델(123)을 포함하는 데이터 분석부(120)에서 상기 입력 정보를 처리하는 단계;
(4) 상기 데이터 분석부(120)로부터 상기 입력 정보를 처리한 분석 결과를 전달받아 상기 착용자에게 피드백할 출력 정보를 생성하되, 상기 데이터 분석부(120)로부터 상기 요청 사항을 포함하는 분석 결과를 전달받고 분석 결과에 따른 텍스트를 생성하는 언어 생성 모델(133), 분석 결과에 따른 음성을 생성하되, 상기 언어 생성 모델(133)에서 생성된 텍스트를 전달받아 음성으로 구현하는 음성 합성 모델(131), 및 이미지의 합성이 필요한 경우에 상기 데이터 분석부(120)로부터 분석 결과를 전달받고 분석 결과에 따른 이미지를 생성하는 이미지 생성 모델(132)을 포함하는 데이터 생성부(130)에서 상기 출력 정보를 생성하는 단계;
(5) 상기 출력 정보의 종류에 따라 상기 출력 정보를 상기 착용자에게 피드백할 수 있는 출력 장치로 전달하는 단계; 및
(6) 상기 출력 장치가 상기 출력 정보를 출력해 상기 착용자에게 전달하는 단계를 포함하며,
상기 단계 (3) 및 단계 (4)에서는,
멀티모달 AI 솔루션부(150)가 상기 입력 정보에 포함된 착용자의 요청이 처리되도록 상기 데이터 분석부(120)와 상기 데이터 생성부(130)를 제어하며,
상기 입력 장치는,
음성을 입력받는 마이크, 이미지나 동영상을 입력받는 카메라, 상기 증강현실 글래스 장치(100)와 연결된 실물 또는 가상의 키보드, 마우스 및 컨트롤러를 포함하는 군에서 선택된 적어도 하나를 포함하고,
상기 출력 장치는,
증강현실 디스플레이(11), 스피커, 햅틱 액추에이터, 촉각 재현 장치 및 열감 재현 장치를 포함하는 군에서 선택된 적어도 하나를 포함하고,
상기 단계 (3)에서는,
상기 멀티모달 AI 솔루션부(150)의 제어에 따라 상기 음성 모델(121), 이미지 모델(122) 및 언어 모델(123) 사이에 데이터를 상호 교환하여, 상기 입력 정보에 포함된 착용자의 요청을 분석하고 처리하며,
상기 단계 (5)에서는,
상기 출력 정보의 종류와 상기 증강현실 글래스 장치(100)의 설정에 따라 상기 출력 장치를 선택해 전달하며,
상기 멀티모달 AI 솔루션부(150)는,
상기 프롬프트를 통해 대화 형식으로 상기 착용자의 요청을 처리하되, 상기 단계 (6)에서 출력 정보를 착용자에게 피드백한 다음, 피드백에 대응해 상기 단계 (1)에서 입력되는 입력 정보를 처리할 때, 이전 출력 결과의 문맥을 고려해 상기 착용자와의 상호작용을 통해 처리되도록, 상기 데이터 분석부(120)와 상기 데이터 생성부(130)를 제어하며,
상기 멀티모달 AI 솔루션부(150)는,
상기 언어 모델(123) 및 언어 생성 모델(133)에 의해 상기 프롬프트를 통해 자연스러운 대화체 음성, 텍스트 언어를 사용하는 대화 형식으로 착용자와 상호작용하며,
상기 프롬프트는,
대화 형식으로 명령을 수신하고 실행 결과를 제공하기 위한 채널 또는 대화를 의미하며, 광학 디스플레이부(10)를 통한 증강현실 영상, 또는 마이크와 스피커를 통한 음성으로 구현되며,
상기 증강현실 글래스 장치(100)는,
착용자의 눈 전방에 배치되어 현실 세계의 광의 적어도 일부를 투과하는 동시에, 디스플레이(11)에서 출력되는 영상 광의 적어도 일부를 착용자의 눈 방향으로 전달하여 착용자에게 증강현실을 제공하는 광학 디스플레이부(10);
상기 증강현실 글래스 장치(100)의 일측에 설치되며, 상기 착용자의 요청에 따라, 상기 입력 정보를 연산 서버에 송신하고 상기 연산 서버에서 출력된 정보를 수신하는 통신부(50);
적어도 하나 이상의 센서를 포함하는 센서부(60); 및
상기 증강현실 글래스 장치(100)의 전체적인 구동을 제어하는 제어부(70)를 더 포함하되,
상기 통신부(50)는, 착용자의 요청이 있을 때만 상기 연산 서버와의 통신을 처리하며,
상기 센서부(60)에 포함되는 센서는 멀티모달 데이터를 수신하는 상기 입력 장치의 역할을 하며,
상기 제어부(70)는, 조도 센서에서 수집한 외부 조도 정보를 이용해 증강현실 영상 광의 밝기를 조절하여, 밝은 환경에서도 상기 증강현실 영상 광이 선명하게 보이도록 자동으로 조절하며,
상기 증강현실 글래스 장치(100)는,
멀티모달 AI 솔루션(40)의 사용자 이용 히스토리와 설정 정보를 저장하고, 상기 센서부(60)에 포함된 홍채 인식 센서를 이용해 착용자가 인식되면 인식된 사용자 인식 정보에 대응해 저장된 사용자 이용 히스토리와 설정 정보를 불러와 적용하여, 여러 사용자가 하나의 상기 증강현실 글래스 장치(100)를 사용할 때 상기 홍채 인식 센서를 이용한 사용자 인식을 통해 사용자마다 저장된 사용자 이용 히스토리를 통해 이전의 대화에 이어서 인공지능 서비스를 대화 형식으로 이용할 수 있는 것을 특징으로 하는, 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치(100)의 운용 방법.
삭제