KR102211445B1

KR102211445B1 - 인공지능 기반 시청각 통합 정보 제공 시스템

Info

Publication number: KR102211445B1
Application number: KR1020200127624A
Authority: KR
Inventors: 유승수
Original assignee: (주)멀틱스
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-02-03

Abstract

본 발명은 인공지능 기반 시청각 통합 정보 제공 시스템에 관한 것으로, 카메라, RGB 카메라 또는 뎁스 카메라를 이용하여 촬상된 광학정보를 이용하여 영상을 생성하는, 수어 영상 생성부(110)와; 상기 수어 영상 생성부(110)의 영상 정보로부터 수어 동작 정보(2D, 3D 좌표)를 추출하는, 동작 정보 추출부(120)와; 상기 동작 정보 추출부(120)로부터 동작 정보(2D, 3D 좌표)를 입력받아 이를 기초로하여 수어 동작에 매칭되는 언어 정보(단어 또는 문장, 언어 정보)를 출력하는, AI 수어 동작 분석부(130)와; 상황에 맞는 반응 수어 영상을 디스플레이(150)에 전송하는 제1 시나리오 관리부(140, AI 시나리오 관리 엔진)와; 상기 제1 시나리오 관리부(140, AI 시나리오 관리 엔진)로부터 전송되는 상황별 반응 수어 영상을 화상으로 출력하는 화상 표출부(150)와; 음성 파일 생성부(210)와; 상기 음성 파일 생성부(210)의 음성 파일을 해석하여 음성 파일에 매칭되는 언어 정보(단어 또는 문장, 언어 정보)를 출력하는, AI 음성 분석부(230)와; 상황에 맞는 답변 음성을 음성 출력부(250)에 전송하는 제2 시나리오 관리부(240, AI 시나리오 관리 엔진)와; 상기 제2 시나리오 관리부(240, AI 시나리오 관리 엔진)로부터 전송되는 상황에 맞는 답변 음성을 음성으로 출력하는 음성출력부(250); 를 포함하여 구성되는 것을 특징으로 하는 인공지능 기반 시청각 통합 정보 제공 시스템에 관한 것이다.

Description

인공지능 기반 시청각 통합 정보 제공 시스템 { AI Based Audiovisual Information System }

본 발명은 인공지능 기반 시청각 통합 정보 제공 시스템에 관한 것이다.

공개 특허 제10-2019-0092777호는, 도 4에 도시된 바와 같이, 사용자 손에 착용하는 글러브형 모션인식 장치로서, 글러브 형상의 본체; 상기 본체의 손가락 관절 부분에 장착된 복수 개의 스트레인 게이지 모듈을 구비하여 상기 본체의 손가락 관절 부분의 굽힘 정도를 인식하는 제1 센서부; 상기 본체의 손가락 끝부분에 장착된 복수 개의 압력센서를 구비하여 상기 손가락 끝부분에 접촉하는 압력을 인식하는 제2 센서; 상기 제1 센서부의 출력 패턴을 기초로 손의 모양(제1 동작)을 인식하고 상기 제2 센서부의 출력을 기초로 상기 손가락의 끝부분의 접촉 여부(제2 동작)를 인식하여 상기 적어도 하나의 제1 동작과 적어도 하나의 제2 동작이 기설정된 조합인 경우에 이벤트가 발생한 것으로 인식하는 제어부를 포함하는 것을 특징으로 하는 글러브형 모션인식 장치를 제공한다. 종래 기술은 시각 장애인 청각 장애인 모두의 의사소통 정보 제공에 있어서 효율적이지 못한 단점이 있었다.

본 발명은 청각 장애인으로부터 수어를 인식하여 상황에 맞는 답변 수어 영상을 생성하여 표출하고, 시각장애인으로부터 음성 정보를 입력받아 상황에 맞는 음성 정보를 표출할 수 있는 인공지능 기반 시청각 통합 정보 제공 시스템을 제공하기 위한 것이다.

본 발명에 따른 인공지능 기반 시청각 통합 정보 제공 시스템은, 카메라, RGB 카메라 또는 뎁스 카메라를 이용하여 촬상된 광학정보를 이용하여 영상을 생성하는, 수어 영상 생성부(110)와; 상기 수어 영상 생성부(110)의 영상 정보로부터 수어 동작 정보(2D, 3D 좌표)를 추출하는, 동작 정보 추출부(120)와;;

상기 동작 정보 추출부(120)로부터 동작 정보(2D, 3D 좌표)를 입력받아 이를 기초로하여 수어 동작에 매칭되는 언어 정보(단어 또는 문장, 언어 정보)를 출력하는, AI 수어 동작 분석부(130)와; 상황별 반응 수어 영상을 기억하고 있으며, 상기 AI 수어 동작 분석부(130)에서 전달되는 언어 정보(단어 또는 문장, 언어 정보)를 해석하여 상황을 판단(선정)하고, 그 상황에 맞는 반응 수어 영상을 디스플레이(150)에 전송하는 제1 시나리오 관리부(140, AI 시나리오 관리 엔진)와;

상기 제1 시나리오 관리부(140, AI 시나리오 관리 엔진)로부터 전송되는 상황별 반응 수어 영상을 화상으로 출력하는 화상 표출부(150)와; 마이크로폰에서 감지된 음성정보를 기초로 하여 음성파일을 생성하는, 음성 파일 생성부(210)와;

상기 음성 파일 생성부(210)의 음성 파일을 해석하여 음성 파일에 매칭되는 언어 정보(단어 또는 문장, 언어 정보)를 출력하는, AI 음성 분석부(230)와; 상기 AI 음성 분석부(230)에서 전달되는 언어 정보(단어 또는 문장, 언어 정보)를 해석하여 상황을 판단(선정)하고, 그 상황에 맞는 답변 음성을 음성 출력부(250)에 전송하는 제2 시나리오 관리부(240, AI 시나리오 관리 엔진)와;

상기 제2 시나리오 관리부(240, AI 시나리오 관리 엔진)로부터 전송되는 상황에 맞는 답변 음성을 음성으로 출력하는 음성출력부(250);를 포함하여 구성되는 것을 특징으로 한다.

본 발명에 따르는 경우, 청각 장애인으로부터 수어를 인식하여 상황에 맞는 답변 수어 영상을 생성하여 표출하고, 시각장애인으로부터 음성 정보를 입력받아 상황에 맞는 음성 정보를 표출할 수 있는 인공지능 기반 시청각 통합 정보 제공 시스템이 제공된다.

도 1은 본 발명의 인공지능 기반 시청각 통합 정보 제공 시스템 전체 구성도.
도 2는 본 발명의 수어 동작(청각장애인)과 관련된 제1 시나리오 관리부 생세 구성도.
도 3은 본 발명의 음성 동작(시각장애인)과 관련된 제2 시나리오 관리부 생세 구성도,
도 4, 도 5는 본 발명의 인공지능 기반 시청각 통합 정보 제공 시스템 전체 구성도.
도 6은 본 발명의 AI 수어 동작 분석 과정을 보이는 도면.
도 7(a, b)는 본 빌명의 손과 얼굴 주요점을 보이는 도면.

이하에서 본 발명의 일실시예에 따른 인공지능 기반 시청각 통합 정보 제공 시스템에 대하여 첨부된 도면을 참조하여 상세하게 설명한다. 도 1은 본 발명의 인공지능 기반 시청각 통합 정보 제공 시스템 전체 구성도, 도 2는 본 발명의 수어 동작(청각장애인)과 관련된 제1 시나리오 관리부 상세 구성도, 도 3은 본 발명의 음성 동작(시각장애인)과 관련된 제2 시나리오 관리부 생세 구성도, 도 4, 도 5는 본 발명의 인공지능 기반 시청각 통합 정보 제공 시스템 전체 구성도, 도 6은 본 발명의 AI 수어 동작 분석 과정을 보이는 도면이고, 도 7(a, b)는 본 빌명의 손과 얼굴 주요점을 보이는 도면이다.

도 1 내지 도 5에 도시된 바와 같이, 본 발명의 일실시예에 따른 인공지능 기반 시청각 통합 정보 제공 시스템은, 청각 장애인 서비스와 관련하여 수어 영상 생성부(110)와 동작 정보 추출부(120)와 AI 수어 동작 분석부(130)와 제1 시나리오 관리부(140, AI 시나리오 관리 엔진)와 화상 표출부(150)를 포함하여 구성된다.

또한, 본 발명의 일실시예에 따른 인공지능 기반 시청각 통합 정보 제공 시스템은, 시각 장애인 서비스와 관련하여 음성 파일 생성부(210)와 AI 음성 분석부(230)와 제2 시나리오 관리부(240, AI 시나리오 관리 엔진)와 음성출력부(250)를 포함하여 구성된다.

도 1 내지 도 5에 도시된 바와 같이, 본 발명의 일실시예에 따른 인공지능 기반 시청각 통합 정보 제공 시스템에 있어서, 수어 영상 생성부(110)는 카메라, RGB 카메라 또는 뎁스 카메라를 이용하여 촬상된 광학정보를 이용하여 영상을 생성한다. 동작 정보 추출부(120)는 수어 영상 생성부(110)의 영상 정보로부터 수어 동작 정보(2D, 3D 좌표)를 추출한다.

도 1 내지 도 5에 도시된 바와 같이, AI 수어 동작 분석부(130)는 동작 정보 추출부(120)로부터 동작 정보(2D, 3D 좌표)를 입력받아 이를 기초로하여 수어 동작에 매칭되는 언어 정보(단어 또는 문장, 언어 정보)를 출력한다.

도 1 내지 도 5에 도시된 바와 같이, 제1 시나리오 관리부(140, AI 시나리오 관리 엔진)는, 상황별 반응 수어 영상을 기억하고 있으며, AI 수어 동작 분석부(130)에서 전달되는 언어 정보(단어 또는 문장, 언어 정보)를 해석하여 상황을 판단(선정)하고, 그 상황에 맞는 반응 수어 영상을 화상 표출부(150)에 전송한다. 화상 표출부(150)는 제1 시나리오 관리부(140, AI 시나리오 관리 엔진)로부터 전송되는 상황별 반응 수어 영상을 화상으로 출력한다.

예를들어, 제1 시나리오 관리부(140)는 AI 수어 동작 분석부(130)에서 전달되는 언어 정보를 해석한 결과를, 청각 장애인이 여권 발행처가 어디 인지를 질문하고 있는지, 특정 부서 A의 위치가 몇층인지를 문의하고 있는지, 화장실의 위치를 문의 하고 있는 중의 하나로 분류하고 여기에 대응하는 수어 영상을 화상 표출부(150)를 이용하여 표출한다.

도 1 내지 도 5에 도시된 바와 같이, 본 발명의 일실시예에 따른 인공지능 기반 시청각 통합 정보 제공 시스템에 있어서, 음성 파일 생성부(210)는 마이크로폰에서 감지된 음성정보를 기초로 하여 음성파일을 생성한다. AI 음성 분석부(230)는, 음성 파일 생성부(210)의 음성 파일을 해석하여 음성 파일에 매칭되는 언어 정보(단어 또는 문장, 언어 정보)를 출력한다.

도 1 내지 도 5에 도시된 바와 같이, 제2 시나리오 관리부(240, AI 시나리오 관리 엔진)는, AI 음성 분석부(230)에서 전달되는 언어 정보(단어 또는 문장, 언어 정보)를 해석하여 상황을 판단(선정)하고, 그 상황에 맞는 답변 음성을 음성 출력부(250)에 전송한다. 음성출력부(250)는, 제2 시나리오 관리부(240, AI 시나리오 관리 엔진)로부터 전송되는 상황에 맞는 답변 음성을 음성으로 출력한다.

도 1, 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 인공지능 기반 시청각 통합 정보 제공 시스템에 있어서, 제1 시나리오 관리부(140, AI 시나리오 관리 엔진)는 제1 메모리부(141)와 제1 상황판단부(143)와 답변 수어 영상 선택부(145)와 수어 영상 전송부(147)를 포함하여 구성된다.

여기서, 제1 메모리부(141)는, 상황별 시나리오 리스트와 시나리오별 답변 수어 영상을 저장한다. 제1 상황판단부(143)는, AI 수어 동작 분석부(130)에서 입력되는 문장(Text) 또는 단어를 기초로 하여 제1 메모리부(141)에 입력되어 있는 시나리오(예를들어, 여권발행처 문의, 부서 A 위치 문의, 화장실 문의, 항의 민원, 주차 방법 문의 ... ) 중 하나로 분류한다.

답변 수어 영상 선택부(145)는, 상황판단부(143)의 판단 결과를 기초로 하여 제1 메모리부(141)에 저장된 답변 수어영상 중 하나를 선택한다. 수어 영상 전송부(147)는, 답변 수어 영상 선택부(145)에서 선택된 답변 수어 영상을 상기 화상 표출부(150)에 전송한다.

제1 메모리부(141)는, 상황별 시나리오 리스트와 시나리오별 답변 수어 영상을 저장한다. 예를들어, 여권 발행처를 안내하는 수어 영상, 특정 부서 A의 위치를 안내하는 영상, 화장실의 위치를 안내하는 영상 등을 미리 생성하여 저장하고 있다.

상황판단부(143)는, 예를들어 제1 시나리오 관리부(140)는 AI 수어 동작 분석부(130)에서 전달되는 언어 정보를 해석한 결과를, 청각 장애인이 여권 발행처가 어디 인지를 질문하고 있는지, 특정 부서 A의 위치가 몇층인지를 문의하고 있는지, 화장실의 위치를 문의 하고 있는 중의 하나로 분류할 수 있다.

도 1, 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 인공지능 기반 시청각 통합 정보 제공 시스템에 있어서, 제1 시나리오 관리부(240, AI 시나리오 관리 엔진)는 제2 메모리부(241)와 제2 상황판단부(243)와 답변 내용 선택부(245)와 음성 전송부(247)를 포함한다.

제2 메모리부(241)는, 시나리오(상황) 리스트와 각각의 시나리오에 상응하는 시나리오별 답변 내용들을 저장한다.

제2 상황판단부(243)는 AI 음성 분석부(230)에서 입력되는 문장(Text) 또는 단어를 기초로 하여 제2 메모리부(241)에 입력되어 있는 시나리오(예를들어, 여권발행처 문의, 부서 A 위치 문의, 화장실 문의, 항의 민원, 주차 방법 문의 ... ) 중 하나로 분류한다.

답변 내용 선택부(245)와, 상기 제2 상황판단부(243)의 판단 결과를 기초로 하여 제2 메모리부(241)에 저장된 답변 내용 (또는 음성)들 중 하나를 선택한다. 음성 전송부(247)는 답변 내용 선택부(245)에서 선택된 내용을 기초로 하여 생성된 음성정보를 상기 음성 출력부(250)에 전송한다.

도 1, 도 6에 도시된 바와 같이, 동작 정보 추출부(120)는, 수어 영상으로부터 손동작에 관한 2차원 좌표(X_tn, Y_tn, 지점 n = 1, 2, 3,...N, t = 스트림 이산 시간) 또는 3차원 좌표(X_tn, Y_tn, Z_tn)를 생성한다. AI 수어 동작 분석부(130)는, 키포인트 이미지 변환부(131)와 인공지능 인식부(135)를 포함한다.

동작 정보 추출부(120)는, 수어 영상으로부터 딥 러닝 기법에 의해 생성된 2차원 좌표(X_tn, Y_tn, 지점 n = 1, 2, 3,...N, t = 스트림 이산 시간) 또는 3차원 좌표(X_tn, Y_tn, Z_tn) 중에서 선택된 하나의 위치 좌표뿐 아니라, 위치 좌표의 신뢰도를 평가한 신뢰성 지수(C_tn)을 더 포함하여 구성될 수 있다. 예를들어, 지점들의 상호 위치를 분석한 결과 하나의 특정 지점의 좌표가 상식적의 인체(골격)의 거동이 불가능한 지점에 있다고 판단될 때 그 특정 지점의 좌표에 신뢰도 지수는 낮게 부여되고, 이러한 신뢰도가 분석 결과에 영향을 미치도록 할 수 있다.

여기서, 키포인트 이미지 변환부(131)는, 하나의 2차원 또는 3차원 좌표(X, Y)를 포함하는 하나의 키 포인트를 하나의 RGB 색소로 변환하고, 제1 축(n축)을 따라서 하나의 프레임(하나의 시간, t)에서 추출된 주요지점들의 키포인트들이 변환된 RGB 색소들(R_tn,i= i = 1, 2, 3,...N, t = 고정)을 배치하고, 상기 제1 축(n, 주요지점 축)과 직교하는 제2 축(t, 시간 축)을 따라서, 하나의 주요지점에서 다른 시간에 얻어진 키 포인트들이 변환된 RGB 색소들(R_tn,i= 고정, t = 1, 2, 3, ..., T)을 배치한다. 그리고, RGB 색소들로 이루어진 2차원 매트릭스 형태의 키포인트 이미지(Image, R_tn,i= i = 1, 2, 3,...N, t = 1, 2, 3, ..., T) 매트릭스를 생성한다. 인공지능 인식부(135)는, 키포인트 이미지 변환부(131)로부터 입력되는 RGB 형태의 키포인트 이미지를 기초로하여, 매칭되는 단어 및 문장을 출력한다.

도 1, 도 7에 도시된 바와 같이, 수어 영상 생성부(110)의 수어 영상은, 손가락 마디들과 손가락 끝지점 손 바닥 일부 지점을 포함하는 양손의 영상 뿐 아니라, 인중, 코, 양 눈, 턱 중앙, 입술을 포함하는 비수지(얼굴)의 영상을 포함한다. 동작 정보 추출부(120)는, 수어 영상으로부터 손동작 및 비수지(얼굴) 주요지점의 2차원 좌표(X_tn, Y_tn, 지점 n = 1, 2, 3,...N, t = 스트림 이산 시간) 또는 3차원 좌표(X_tn, Y_tn, Z_tn)를 생성하는 것이 인식률 상승 측면에서 유리하다.

여기서, 주요지점은, 손가락 마디들과, 손가락 끝지점, 손 바닥 일부 지점을 포함하는 일측 손당 21개의 지점, 양손 42개의 지점과, 인중, 코, 양 눈, 턱 중앙, 입술의 위치에 해당하는 지점을 포함하는 비수지 70지점인 것이 바람직하다.

본 발명은 상기에서 언급한 바람직한 실시예와 관련하여 설명됐지만, 본 발명의 범위가 이러한 실시예에 한정되는 것은 아니며, 본 발명의 범위는 이하의 특허청구범위에 의하여 정하여지는 것으로 본 발명과 균등 범위에 속하는 다양한 수정 및 변형을 포함할 것이다.

아래의 특허청구범위에 기재된 도면부호는 단순히 발명의 이해를 보조하기 위한 것으로 권리범위의 해석에 영향을 미치지 아니함을 밝히며 기재된 도면부호에 의해 권리범위가 좁게 해석되어서는 안될 것이다.

110 : 수어 영상 생성부 120 : 동작 정보 추출부
130 : AI 수어 동작 분석부 131 : 키포인트 이미지 변환부
135 : 인공지능 인식부 140 : 제1 시나리오 관리부
141 : 제1 메모리부 143 : 제1 상황판단부
145 : 답변 수어 영상 선택부 147 : 수어 영상 전송부
150 : 화상 표출부 210 : 음성 파일 생성부
230 : AI 음성 분석부 240 : 제2 시나리오 관리부
241 : 제2 메모리부 243 : 제2 상황판단부
245 : 답변 내용 선택부 247 : 음성 전송부
250 : 음성 출력부

Claims

카메라, RGB 카메라 또는 뎁스 카메라를 이용하여 촬상된 광학정보를 이용하여 영상을 생성하는, 수어 영상 생성부(110)와;
상기 수어 영상 생성부(110)의 영상 정보로부터 수어 동작 정보(2D, 3D 좌표)를 추출하는, 동작 정보 추출부(120)와;
상기 동작 정보 추출부(120)로부터 동작 정보(2D, 3D 좌표)를 입력받아 이를 기초로하여 수어 동작에 매칭되는 언어 정보(단어 또는 문장, 언어 정보)를 출력하는, AI 수어 동작 분석부(130)와;
상황별 반응 수어 영상을 기억하고 있으며, 상기 AI 수어 동작 분석부(130)에서 전달되는 언어 정보(단어 또는 문장, 언어 정보)를 해석하여 상황을 판단(선정)하고, 그 상황에 맞는 반응 수어 영상을 화상 표출부(150)에 전송하는 제1 시나리오 관리부(140, AI 시나리오 관리 엔진)와;
상기 제1 시나리오 관리부(140, AI 시나리오 관리 엔진)로부터 전송되는 상황별 반응 수어 영상을 화상으로 출력하는 화상 표출부(150)와;

마이크로폰에서 감지된 음성정보를 기초로 하여 음성파일을 생성하는, 음성 파일 생성부(210)와;
상기 음성 파일 생성부(210)의 음성 파일을 해석하여 음성 파일에 매칭되는 언어 정보(단어 또는 문장, 언어 정보)를 출력하는, AI 음성 분석부(230)와;
상기 AI 음성 분석부(230)에서 전달되는 언어 정보(단어 또는 문장, 언어 정보)를 해석하여 상황을 판단(선정)하고, 그 상황에 맞는 답변 음성을 음성 출력부(250)에 전송하는 제2 시나리오 관리부(240, AI 시나리오 관리 엔진)와;
상기 제2 시나리오 관리부(240, AI 시나리오 관리 엔진)로부터 전송되는 상황에 맞는 답변 음성을 음성으로 출력하는 음성출력부(250);
를 포함하여 구성되는 것을 특징으로 하는 인공지능 기반 시청각 통합 정보 제공 시스템.
제1항에 있어서,
상기 제1 시나리오 관리부(140, AI 시나리오 관리 엔진)는,

상황별 시나리오 리스트와 시나리오별 답변 수어 영상을 저장하는 제1 메모리부(141)와,

상기 AI 수어 동작 분석부(130)에서 입력되는 문장(Text) 또는 단어를 기초로 하여 제1 메모리부(141)에 입력되어 있는 시나리오(예를들어, 여권발행처 문의, 부서 A 위치 문의, 화장실 문의, 항의 민원, 주차 방법 문의 ... ) 중 하나로 분류하는, 제1 상황판단부(143)와,

상기 상황판단부(143)의 판단 결과를 기초로 하여 제1 메모리부(141)에 저장된 답변 수어영상 중 하나를 선택하는 답변 수어 영상 선택부(145)와,

상기 답변 수어 영상 선택부(145)에서 선택된 답변 수어 영상을 상기 화상 표출부(150)에 전송하는 수어 영상 전송부(147),를 포함하여 구성되는 것을 특징으로 하는 인공지능 기반 시청각 통합 정보 제공 시스템.
제1항에 있어서,
상기 제1 시나리오 관리부(240, AI 시나리오 관리 엔진)는,

시나리오(상황) 리스트와 각각의 시나리오에 상응하는 시나리오별 답변 내용들을 저장하는 제2 메모리부(241)와,

상기 AI 음성 분석부(230)에서 입력되는 문장(Text) 또는 단어를 기초로 하여 제2 메모리부(241)에 입력되어 있는 시나리오(예를들어, 여권발행처 문의, 부서 A 위치 문의, 화장실 문의, 항의 민원, 주차 방법 문의 ... ) 중 하나로 분류하는, 제2 상황판단부(243)와,

상기 제2 상황판단부(243)의 판단 결과를 기초로 하여 제2 메모리부(241)에 저장된 답변 내용 (또는 음성)들 중 하나를 선택하는 답변 내용 선택부(245)와,

상기 답변 내용 선택부(245)에서 선택된 내용을 기초로 하여 생성된 음성정보를 상기 음성 출력부(250)에 전송하는 음성 전송부(247),를 포함하여 구성되는 것을 특징으로 하는 인공지능 기반 시청각 통합 정보 제공 시스템.
제2항에 있어서,
상기 동작 정보 추출부(120)는,
상기 수어 영상으로부터 손동작에 관한 2차원 좌표(X_tn, Y_tn, 지점 n = 1, 2, 3,...N, t = 스트림 이산 시간) 또는 3차원 좌표(X_tn, Y_tn, Z_tn)를 생성하는 것을 특징으로 하는 인공지능 기반 시청각 통합 정보 제공 시스템.
제4항에 있어서,
수어 영상 생성부(110)의 수어 영상은,
손가락 마디들과 손가락 끝지점 손 바닥 일부 지점을 포함하는 양손의 영상 뿐 아니라, 인중, 코, 양 눈, 턱 중앙, 입술을 포함하는 비수지(얼굴)의 영상을 포함하고,

상기 동작 정보 추출부(120)는,
상기 수어 영상으로부터 손동작 및 비수지(얼굴) 주요지점의 2차원 좌표(X_tn, Y_tn, 지점 n = 1, 2, 3,...N, t = 스트림 이산 시간) 또는 3차원 좌표(X_tn, Y_tn, Z_tn)를 생성하는 것을 특징으로 하는 인공지능 기반 시청각 통합 정보 제공 시스템.
제5항에 있어서,
상기 주요지점은,
손가락 마디들과, 손가락 끝지점, 손 바닥 일부 지점을 포함하는 일측 손당 21개의 지점, 양손 42개의 지점과,

인중, 코, 양 눈, 턱 중앙, 입술의 위치에 해당하는 지점을 포함하는 비수지 70개 지점인 것을 특징으로 하는 인공지능 기반 시청각 통합 정보 제공 시스템.
제4항에 있어서,
상기 동작 정보 추출부(120)는,
상기 수어 영상으로부터 딥 러닝 기법에 의해 생성된 2차원 좌표(X_tn, Y_tn, 지점 n = 1, 2, 3,...N, t = 스트림 이산 시간) 또는 3차원 좌표(X_tn, Y_tn, Z_tn) 중에서 선택된 하나의 위치 좌표뿐 아니라,
상기 위치 좌표의 신뢰도를 평가한 신뢰성 지수(C_tn)을 더 포함하여 구성되는 것을 특징으로 하는 인공지능 기반 시청각 통합 정보 제공 시스템.