KR102212298B1 - 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼 시스템 및 그 동작 방법 - Google Patents
인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼 시스템 및 그 동작 방법 Download PDFInfo
- Publication number
- KR102212298B1 KR102212298B1 KR1020200148794A KR20200148794A KR102212298B1 KR 102212298 B1 KR102212298 B1 KR 102212298B1 KR 1020200148794 A KR1020200148794 A KR 1020200148794A KR 20200148794 A KR20200148794 A KR 20200148794A KR 102212298 B1 KR102212298 B1 KR 102212298B1
- Authority
- KR
- South Korea
- Prior art keywords
- communication
- artificial intelligence
- unit
- user
- communication terminal
- Prior art date
Links
- 230000006854 communication Effects 0.000 title claims abstract description 294
- 238000004891 communication Methods 0.000 title claims abstract description 293
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 97
- 208000032041 Hearing impaired Diseases 0.000 title claims abstract description 52
- 238000006243 chemical reaction Methods 0.000 claims description 47
- 230000005236 sound signal Effects 0.000 claims description 27
- 238000013519 translation Methods 0.000 claims description 23
- 230000033001 locomotion Effects 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 18
- 238000005516 engineering process Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 5
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 230000014509 gene expression Effects 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 claims description 3
- 230000002250 progressing effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 206010011878 Deafness Diseases 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 206010012289 Dementia Diseases 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
Abstract
본 발명은 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼 시스템에 관한 것으로, 해결하고자 하는 과제는 청각장애인, 노인 등 사회적 취약계층뿐만 아니라 이들과 비장애인 간 전세계 모든 사용자를 대상으로 국가나 언어에 관계 없이 빠른 소통이 가능하며, 다양한 교육, 게임 등을 콘텐츠를 제공 받아 남녀노소 없이 이용하는데 있다.
일례로, 제1 통신단말에 설치되고, 제1 통신단말을 통해 생성되는 제1 사용자의 영상신호와 음성신호를 서버로 실시간 전송하고, 서버로부터 실시간 수신되는 제2 사용자의 영상신호와 음성신호를 출력하는 제1 커뮤니케이션 실행부; 제2 통신단말에 설치되고, 제2 통신단말을 통해 생성 및 입력되는 제2 사용자의 영상신호와 텍스트데이터를 서버로 실시간 전송하고, 서버로부터 실시간 수신되는 제1 사용자의 영상신호와 음성신호를 출력하는 제2 커뮤니케이션 실행부; 및 제1 통신단말과 제2 통신단말 상호 간에 영상신호가 실시간 송수신되도록 하되, 제1 통신단말로부터 수신되는 음성신호를 텍스트데이터로 변환하여 제2 통신단말로 전송하고, 제2 통신단말로부터 수신되는 영상신호 내 제2 사용자의 수화언어제스처 및 텍스트데이터 중 적어도 하나를 음성신호로 변환하여 제1 통신단말로 전송하는 인공지능 중계 서버부를 포함하는 화상 커뮤니케이션 플랫폼 시스템을 개시한다.
일례로, 제1 통신단말에 설치되고, 제1 통신단말을 통해 생성되는 제1 사용자의 영상신호와 음성신호를 서버로 실시간 전송하고, 서버로부터 실시간 수신되는 제2 사용자의 영상신호와 음성신호를 출력하는 제1 커뮤니케이션 실행부; 제2 통신단말에 설치되고, 제2 통신단말을 통해 생성 및 입력되는 제2 사용자의 영상신호와 텍스트데이터를 서버로 실시간 전송하고, 서버로부터 실시간 수신되는 제1 사용자의 영상신호와 음성신호를 출력하는 제2 커뮤니케이션 실행부; 및 제1 통신단말과 제2 통신단말 상호 간에 영상신호가 실시간 송수신되도록 하되, 제1 통신단말로부터 수신되는 음성신호를 텍스트데이터로 변환하여 제2 통신단말로 전송하고, 제2 통신단말로부터 수신되는 영상신호 내 제2 사용자의 수화언어제스처 및 텍스트데이터 중 적어도 하나를 음성신호로 변환하여 제1 통신단말로 전송하는 인공지능 중계 서버부를 포함하는 화상 커뮤니케이션 플랫폼 시스템을 개시한다.
Description
본 발명의 실시예는 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼 시스템 및 그 동작 방법에 관한 것이다.
기존의 화상 커뮤니케이션 플랫폼을 비장애인을 위주로 제작되어 청력이 약하거나 청력에 장애를 갖고 있는 장애인들의 사용이 불가능했다.
또한, 전세계적으로 화상 커뮤니케이션 플랫폼을 이용하기 위해서는 대부분 영어를 대표 언어로 선택하여 상호 간 소통해야 했다.
특히, 현재에는 사회 취약계측인 노인, 치매환자, 청각장애인 등이 커뮤니케이션 플랫폼을 통해 상호 소통하기 위한 별도의 시스템이 마련되지 않아 이들의 인터넷 상에서 상호 소통 위한 어떠한 장치도 마련되어 있지 않다.
이에 따라, 정각장애인, 노인 등 사회적 취약계층뿐만 아니라 전세계 모든 사용자를 대상으로 국가나 언어에 관계 없이 빠른 소통이 가능하며, 다양한 교육, 게임 등을 콘텐츠를 제공 받아 남녀노소 없이 이용할 수 있는 플랫폼의 개발이 필요한 실정이다.
본 발명의 실시예는, 청각장애인, 노인 등 사회적 취약계층뿐만 아니라 이들과 비장애인 간 전세계 모든 사용자를 대상으로 국가나 언어에 관계 없이 빠른 소통이 가능하며, 다양한 교육, 게임 등을 콘텐츠를 제공 받아 남녀노소 없이 이용할 수 있는 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼 시스템을 제공한다.
본 발명의 일 실시예에 따른 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼 시스템은, 제1 통신단말에 설치되고, 제1 통신단말을 통해 생성되는 제1 사용자의 영상신호와 음성신호를 서버로 실시간 전송하고, 서버로부터 실시간 수신되는 제2 사용자의 영상신호와 음성신호를 출력하는 제1 커뮤니케이션 실행부; 제2 통신단말에 설치되고, 제2 통신단말을 통해 생성 및 입력되는 제2 사용자의 영상신호와 텍스트데이터를 서버로 실시간 전송하고, 서버로부터 실시간 수신되는 제1 사용자의 영상신호와 음성신호를 출력하는 제2 커뮤니케이션 실행부; 및 제1 통신단말과 제2 통신단말 상호 간에 영상신호가 실시간 송수신되도록 하되, 제1 통신단말로부터 수신되는 음성신호를 텍스트데이터로 변환하여 제2 통신단말로 전송하고, 제2 통신단말로부터 수신되는 영상신호 내 제2 사용자의 수화언어제스처 및 텍스트데이터 중 적어도 하나를 음성신호로 변환하여 제1 통신단말로 전송하는 인공지능 중계 서버부를 포함한다.
또한, 상기 제1 커뮤니케이션 실행부 및 상기 제2 커뮤니케이션 실행부는, 상기 인공지능 중계 서버부로부터 게임, 퀴즈 및 교육 중 적어도 하나의 콘텐츠를 제공 받아 실행하기 위한 콘텐츠 실행부; 커뮤니케이션 채널을 개설하고, 커뮤니케이션 채널의 개설자가 다른 사용자의 커뮤니케이션 채널에 대한 참여, 이동 및 삭제를 관리하고, 상기 콘텐츠 실행부와 연동하여 커뮤니케이션 채널 내에서 콘텐츠의 진행과 관리를 위한 커뮤니케이션 채널 관리부; 및 비장애인과 청각장애인에 대한 선택에 따라 제1 사용자와 제2 사용자를 구분하여 커뮤니케이션 채널에 사용자를 참여시키고, 제1 사용자로 구분되면 상기 제1 커뮤니케이션부 실행부의 화상 커뮤니케이션 서비스를 제공하도록 동작하고, 제2 사용자로 구분되면 상기 제2 커뮤니케이션 실행부의 화상 커뮤니케이션 서비스를 제공하도록 동작하는 커뮤니케이션 실행부를 포함할 수 있다.
또한, 상기 인공지능 중계 서버부는, 제1 통신단말과 제2 통신단말 간의 통신을 위한 통신부; 음성신호를 텍스트로 변환하는 STT(Speech To Text) 변환 모듈, 딥러닝 기술을 기반으로 영상신호 내 수화언어제스처를 인식하고, 인식된 수화언어제스처를 텍스트데이터로 변환하는 MTT(Motion To Text) 변환 모듈, 및 텍스트데이터를 음성신호로 변환하는 TTS(Text To Speech) 변환 모듈을 포함하며, 상기 통신부와 연결된 인공지능 엔진부; 및 게임, 퀴즈 및 교육 중 적어도 하나의 콘텐츠를 상기 콘텐츠 제공부로 제공하는 콘텐츠 데이터베이스부를 포함할 수 있다.
또한, 상기 인공지능 중계 서버부는, 상기 제1 커뮤니케이션 실행부 및 상기 제2 커뮤니케이션 실행부 간에 송수신되는 커뮤니케이션 기록 데이터를 커뮤니케이션 종료 후 영상, 음성 및 텍스트 정보를 포함하는 커뮤니케이션 기록 파일로 저장하고, 저장된 커뮤니케이션 기록 파일을 제1 통신단말 및 제2 통신단말로 각각 전송한 후 삭제 관리하는 커뮤니케이션 기록 보호 관리부를 더 포함할 수 있다.
또한, 상기 제1 커뮤니케이션 실행부 및 상기 제2 커뮤니케이션 실행부는, 제1 사용자 및 제2 사용자 간의 국가 또는 언어를 선택 받아 번역 서비스를 설정하기 위한 번역 서비스 신청부를 더 포함하고, 상기 인공지능 엔진부는, 상기 번역 서비스 신청부를 통해 설정된 사용자의 각 국가 또는 언어에 따라 텍스트데이터에 포함된 언어를 번역하는 번역 모듈을 더 포함할 수 있다.
또한, 상기 제2 커뮤니케이션 실행부는, 청각장애인의 사용자로부터 거주지역정보, 성별정보, 연령정보, 신체정보 및 음성정보 중 적어도 하나 청각장애인정보를 등록 받는 청각장애인정보 등록부를 더 포함하고, 상기 인공지능 엔진부는, 인공지능 목소리 데이터베이스로부터 상기 청각장애인정보 등록부를 통해 등록된 청각장애인정보와 매칭되는 인공지능 목소리를 선택하고, 선택된 인공지능 목소리를 상기 TTS(Text To Speech) 변환 모듈에 적용시켜 선택된 인공지능 목소리로 음성이 재생되도록 할 수 있다.
또한, 상기 인공지능 엔진부는, 상기 커뮤니케이션 실행부의 화상 커뮤니케이션 서비스 제공 간에 수신되는 제2 사용자의 음성, 영상신호에 포함된 제2 사용자의 표정 및 행동에 대한 빅데이터를 각각 구축하고, 구축된 빅데이터를 기반으로 상기 MTT 변환 모듈을 통해 변환 결과를 검증하는 MTT 변환 검증 모듈을 더 포함할 수 있다.
또한, 상기 인공지능 엔진부는, 텍스트데이터를 수화언어제스처데이터로 변환하는 TTM(Text To Motion) 변환 모듈을 더 포함할 수 있다.
또한, 상기 제2 커뮤니케이션 실행부는, 다수의 수화언어 식별코드 리스트를 선택 가능하게 제공하고, 상기 수화언어 식별코드 중 사용자에 의해 선택된 식별코드에 대한 수화언어 단축키를 설정하여 저장하되, 상기 수화언어 단축키의 활성화 시 기 설정된 상기 수화언어 단축키를 직접 입력 받거나, 상기 수화언어 단축키에 대한 항목을 선택 가능하게 제공하는 수화언어 단축키 서비스 제공부를 더 포함하고, 상기 인공지능 엔진부는, 상기 수화언어 식별코드가 등록되어 상기 수화언어 단축키 서비스 제공부를 통해 수신된 수화언어 식별코드를 텍스트로 변환한 후 음성신호로 상기 TTS 변환 모듈로 전달하는 CTT(Code To Text) 변환 모듈을 더 포함할 수 있다.
본 발명의 다른 실시예에 따른 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼 동작 방법은, 제1 통신단말에 설치된 제1 커뮤니케이션 실행부가, 제1 통신단말을 통해 생성되는 제1 사용자의 영상신호와 음성신호를 서버로 실시간 전송하고, 서버로부터 실시간 수신되는 제2 사용자의 영상신호와 음성신호를 출력하는 단계; 제2 통신단말에 설치된 제2 커뮤니케이션 실행부가, 제2 통신단말을 통해 생성 및 입력되는 제2 사용자의 영상신호와 텍스트데이터를 서버로 실시간 전송하고, 서버로부터 실시간 수신되는 제1 사용자의 영상신호와 음성신호를 출력하는 단계; 및 인공지능 중계 서버부가, 제1 통신단말과 제2 통신단말 상호 간에 영상신호가 실시간 송수신되도록 하되, 제1 통신단말로부터 수신되는 음성신호를 텍스트데이터로 변환하여 제2 통신단말로 전송하고, 제2 통신단말로부터 수신되는 영상신호 내 제2 사용자의 수화언어제스처 및 텍스트데이터 중 적어도 하나를 음성신호로 변환하여 제1 통신단말로 전송하는 단계를 포함한다.
본 발명에 따르면, 청각장애인, 노인 등 사회적 취약계층뿐만 아니라 이들과 비장애인 간 전세계 모든 사용자를 대상으로 국가나 언어에 관계 없이 빠른 소통이 가능하며, 다양한 교육, 게임 등을 콘텐츠를 제공 받아 남녀노소 없이 이용할 수 있는 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼 시스템을 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼 시스템의 전체 구성 관계를 나타낸 개요도이다.
도 2는 본 발명의 일 실시예에 따른 제1 커뮤니케이션 실행부의 구성을 나타낸 블록도이다.
도 3은 본 발명의 일 실시예에 따른 제2 커뮤니케이션 실행부의 구성을 나타낸 블록도이다.
도 4는 본 발명의 일 실시예에 따른 제1 및 제2 커뮤니케이션 실행부의 실행 화면 구성 예시를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 인공지능 중계 서버부의 구성을 나타낸 블록도이다.
도 6은 도 5에 도시된 인공지능 중계 서버부의 상세 구성 및 구성 관계를 나타낸 블록도이다.
도 7은 본 발명의 다른 실시예에 따른 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼의 동작 방법에 대한 전체 단계 구성을 나타낸 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 제1 커뮤니케이션 실행부의 구성을 나타낸 블록도이다.
도 3은 본 발명의 일 실시예에 따른 제2 커뮤니케이션 실행부의 구성을 나타낸 블록도이다.
도 4는 본 발명의 일 실시예에 따른 제1 및 제2 커뮤니케이션 실행부의 실행 화면 구성 예시를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 인공지능 중계 서버부의 구성을 나타낸 블록도이다.
도 6은 도 5에 도시된 인공지능 중계 서버부의 상세 구성 및 구성 관계를 나타낸 블록도이다.
도 7은 본 발명의 다른 실시예에 따른 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼의 동작 방법에 대한 전체 단계 구성을 나타낸 흐름도이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "변환 모듈" 등의 용어는 적어도 하나 이상의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
도 1은 본 발명의 일 실시예에 따른 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼 시스템의 전체 구성 관계를 나타낸 개요도이고, 도 2는 본 발명의 일 실시예에 따른 제1 커뮤니케이션 실행부의 구성을 나타낸 블록도이고, 도 3은 본 발명의 일 실시예에 따른 제2 커뮤니케이션 실행부의 구성을 나타낸 블록도이고, 도 4는 본 발명의 일 실시예에 따른 제1 및 제2 커뮤니케이션 실행부의 실행 화면 구성 예시를 나타낸 도면이고, 도 5는 본 발명의 일 실시예에 따른 인공지능 중계 서버부의 구성을 나타낸 블록도이며, 도 6은 도 5에 도시된 인공지능 중계 서버부의 상세 구성 및 구성 관계를 나타낸 블록도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼 시스템(1000)은 제1 커뮤니케이션 실행부(100), 제2 커뮤니케이션 실행부(200) 및 인공지능 중계 서버부(300) 중 적어도 하나를 포함할 수 있다.
상기 제1 커뮤니케이션 실행부(100)는, 제1 통신단말(10)에 설치되고, 제1 통신단말(10)을 통해 생성되는 제1 사용자(비장애인)의 영상신호와 음성신호를 인공지능 중계 서버부(300)로 실시간 전송하고, 인공지능 중계 서버부(300)로부터 실시간 수신되는 제2 사용자(청각장애인, 노인 등의 사회적 취약계층)의 영상신호와 음성신호를 실시간 출력할 수 있다.
이를 위해 제1 커뮤니케이션 실행부(100)는 제1 콘텐츠 실행부(110), 제1 커뮤니케이션 채널 관리부(120), 제1 커뮤니케이션 서비스 실행부(130) 및 제1 번역 서비스 신청부(140) 중 적어도 하나를 포함할 수 있다.
상기 제1 콘텐츠 실행부(110)는, 인공지능 중계 서버부(300)로부터 게임, 퀴즈 및 교육 중 적어도 하나의 콘텐츠를 제공 받아 실행할 수 있다. 이러한 제1 콘텐츠 실행부(110)는 인공지능 중계 서버부(300)를 통해 제2 통신단말(20)의 제2 콘텐츠 실행부(210)와 연결되어 다양한 게임, 퀴즈, 교육 등의 콘텐츠를 함께 실행함으로써 공유할 수 있으며, 해당 콘텐츠는 애니메이션, VR, AR 등 다양한 방식과 형식으로 제공될 수 있다.
상기 제1 커뮤니케이션 채널 관리부(120)는, 제1 및 제2 사용자 간에 커뮤니케이션 채널을 개설 및 형성하고, 해당 커뮤니케이션 채널의 개설자가 다른 사용자의 커뮤니케이션 채널에 대한 참여, 이동 및 삭제를 관리하고, 제1 콘텐츠 실행부(110)와 연동하여 해당 커뮤니케이션 채널 내에서 콘텐츠의 진행 관리 역할을 수행할 수 있다. 예를 들어, 채팅방 개설자가 링크 기능 등을 활용하여 해당 채팅방에 다른 사용자를 초대할 수 있으며, 개설된 채팅방 간을 이동하여 각각의 채팅방에서의 다양한 활동이 가능하도록 하며, 대화가 완료된 채팅방은 삭제할 수 있으며, 불건전한 대화, 채팅 수칙을 위반한 사용자를 강제 퇴장시키는 권한이 부여될 수 있다. 또한, 도 4에 도시된 바와 같이 하나의 큰 플랫폼 내에 다중 채팅방을 생성 및 관리하며, 각각의 사용자들이 채팅방마다 배치되어 각 채팅방 내부에서 여러 콘텐츠나 이벤트에 참여할 수 있다. 또한, 교육 콘텐츠의 경우 1명의 선생님(채팅방 개설자)이 다수의 채팅방을 개설한 후 각 채팅방에서 동작되는 과목마다 사용자(학생)을 배치해 채팅방 별로 관리할 수 있다.
상기 제1 커뮤니케이션 서비스 실행부(130)는, 비장애인과 청각장애인에 대한 선택에 따라 제1 사용자와 제2 사용자를 구분하여 커뮤니케이션 채널에 사용자를 참여시키고, 제1 사용자로 구분되면 상기 제1 커뮤니케이션부 실행부(100)의 화상 커뮤니케이션 서비스를 제공하도록 동작할 수 있다. 즉, 제1 및 제2 커뮤니케이션 실행부(100, 200)은 통신단말 내에 어플리케이션 또는 웹 프로그램 형태로 설치되어 사용자가 비장애인인지 또는 청각장애인(또는 노인 등 사회적 취약계층)인지에 따라 제1 커뮤니케이션 실행부(100)의 버전 또는 모드로서 동작할지 재2 커뮤니케이션 실행부(200)의 버전 또는 모드로서 동작할 지가 결정되며, 이는 최초 실행 시 사용자 자신이 비장애인인지 아니면 청각장애인인지를 설정하면 그에 따른 버전 또는 모드의 커뮤니케이션 실행이 이루어질 수 있다.
상기 제1 번역 서비스 신청부(140)는, 제1 사용자 및 제2 사용자 간의 국가 또는 언어를 선택 받아 번역 서비스를 설정할 수 있다. 예를 들어, 제1 사용자는 대한민국 국적으로 한국어를 사용하고, 제2 사용자는 미국 국적으로 영어를 사용하는 경우, 각각의 사용자는 사용자 자신의 국적 및 언어를 선택하고, 필요에 따라 상대방의 국적과 언어를 선택할 수 있으며, 이때 상대방의 국적과 언어는 해당자가 직접 설정할 수도 있다. 이를 통해 각각 설정된 국적 및 언어는 인공지능 중계 서버부(300)로 전달되어 제1 및 제2 사용자의 커뮤니케이션 시 적절한 번역이 이루어지도록 한다.
본 실시예에 따른 제1 통신단말(10)은, TV, 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 태블릿 PC, 전자북 단말기, 디지털방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), MP3 플레이어, 디지털 카메라, 네비게이션(Navigation) 디바이스 일 수 있으나, 이에 한정되지 않는다.
또한, 제1 통신단말(10)은 다양한 입력 장치로부터 영상을 획득할 수 있다. 예를 들어, 카메라(Camera), 웹캠(Web Cam), 마이크(Microphone), 스마트 폰 등을 포함하는 장치로부터 제1 사용자의 영상과 음성을 획득할 수 있으며, 인공지능 중계 서버부(300)로부터 유무선 통신을 통해 영상, 음성, 텍스트 등의 신호와 정보를 각각 입력 받을 수 있다.
상기 제2 커뮤니케이션 실행부(200)는, 제2 통신단말(20)에 설치되고, 제2 통신단말(20)을 통해 생성 및 입력되는 제2 사용자(청각장애인, 노인 등의 사회적 취약계층)의 영상신호와 텍스트데이터를 인공지능 중계 서버부(300)로 실시간 전송하고, 인공지능 중계 서버부(300)로부터 실시간 수신되는 제1 사용자(비장애인)의 영상신호와 음성신호를 출력할 수 있다.
이를 위해 제2 커뮤니케이션 실행부(200)는 제2 콘텐츠 실행부(210), 제2 커뮤니케이션 채널 관리부(220), 제2 커뮤니케이션 서비스 실행부(230), 제2 번역 서비스 신청부(240), 청각장애인정보 등록부(250) 및 수화언어 단축키 서비스 제공부(260) 중 적어도 하나를 포함할 수 있다.
상기 제2 콘텐츠 실행부(210)는, 인공지능 중계 서버부(300)로부터 게임, 퀴즈 및 교육 중 적어도 하나의 콘텐츠를 제공 받아 실행할 수 있다. 이러한 제2 콘텐츠 실행부(210)는 인공지능 중계 서버부(300)를 통해 제1 통신단말(10)의 제1 콘텐츠 실행부(110)와 연결되어 다양한 게임, 퀴즈, 교육 등의 콘텐츠를 함께 실행함으로써 공유할 수 있으며, 해당 콘텐츠는 애니메이션, VR, AR 등 다양한 방식과 형식으로 제공될 수 있다.
상기 제2 커뮤니케이션 채널 관리부(220)는 제1 및 제2 사용자 간에 커뮤니케이션 채널을 개설 및 형성하고, 해당 커뮤니케이션 채널의 개설자가 다른 사용자의 커뮤니케이션 채널에 대한 참여, 이동 및 삭제를 관리하고, 제2 콘텐츠 실행부(210)와 연동하여 해당 커뮤니케이션 채널 내에서 콘텐츠의 진행 관리 역할을 수행할 수 있다. 예를 들어, 채팅방 개설자가 링크 기능 등을 활용하여 해당 채팅방에 다른 사용자를 초대할 수 있으며, 개설된 채팅방 간을 이동하여 각각의 채팅방에서의 다양한 활동이 가능하도록 하며, 대화가 완료된 채팅방은 삭제할 수 있으며, 불건전한 대화, 채팅 수칙을 위반한 사용자를 강제 퇴장시키는 권한이 부여될 수 있다.
상기 제2 커뮤니케이션 서비스 실행부(230)는, 비장애인과 청각장애인에 대한 선택에 따라 제1 사용자와 제2 사용자를 구분하여 커뮤니케이션 채널에 사용자를 참여시키고, 제2 사용자로 구분되면 제2 커뮤니케이션 실행부(200)의 화상 커뮤니케이션 서비스를 제공하도록 동작할 수 있다. 즉, 제1 및 제2 커뮤니케이션 실행부(100, 200)은 통신단말 내에 어플리케이션 또는 웹 프로그램 형태로 설치되어 사용자가 비장애인인지 또는 청각장애인(또는 노인 등 사회적 취약계층)인지에 따라 제1 커뮤니케이션 실행부(100)의 버전 또는 모드로서 동작할지 재2 커뮤니케이션 실행부(200)의 버전 또는 모드로서 동작할 지가 결정되며, 이는 최초 실행 시 사용자 자신이 비장애인인지 아니면 청각장애인인지를 설정하면 그에 따른 버전 또는 모드의 커뮤니케이션 실행이 이루어질 수 있다.
상기 제2 번역 서비스 신청부(240)는, 제1 사용자 및 제2 사용자 간의 국가 또는 언어를 선택 받아 번역 서비스를 설정할 수 있다. 예를 들어, 제2 사용자는 대한민국 국적으로 한국어를 사용하고, 제1 사용자는 미국 국적으로 영어를 사용하는 경우, 각각의 사용자는 사용자 자신의 국적 및 언어를 선택하고, 필요에 따라 상대방의 국적과 언어를 선택할 수 있으며, 이때 상대방의 국적과 언어는 해당자가 직접 설정할 수도 있다. 이를 통해 각각 설정된 국적 및 언어는 인공지능 중계 서버부(300)로 전달되어 제1 및 제2 사용자의 커뮤니케이션 시 적절한 번역이 이루어지도록 한다.
상기 청각장애인정보 등록부(250)는, 청각장애인의 사용자 즉 제2 사용자로부터 거주지역정보, 성별정보, 연령정보, 신체정보(키, 몸무게, 얼굴생김새 등) 및 음성정보(부정확한 발음의 음성) 중 적어도 하나 청각장애인정보를 등록 받을 수 있다. 이는, 발성이 불가능 또는 불완전하여 정확한 대화 음성을 낼 수 없는 제2 사용자의 목소리를 인공지능 목소리로 생성하여 제공하기 위한 기본조건정보로서, 해당 조건정보들을 인공지능 중계 서버부(300)로 전달하면, 해당 조건정보와 매칭되는 준비된 목소리가 지정되어 해당 목소리로 상대방인 제1 사용자가 들을 수 있도록 한다.
상기 수화언어 단축키 서비스 제공부(260)는, 다수의 수화언어 식별코드 리스트를 선택 가능하게 제공하고, 수화언어 식별코드 중 사용자에 의해 선택된 식별코드에 대한 수화언어 단축키를 설정하여 저장하되, 수화언어 단축키의 활성화 시 기 설정된 수화언어 단축키를 직접 입력 받거나, 수화언어 단축키에 대한 항목을 선택 가능하게 제공할 수 있다.
즉, 미리 등록된 수화언어 별 식별코드가 주어지고, 각 식별코드 별 매칭된 단축키가 제공되며, 이 중 즐겨찾기 형태로 설정하고 싶은 항목이 선택되면, 선택된 해당 항목의 수화언어 식별코드와 해당 코드의 단축키가 즐겨찾기로 설정되어 채팅 시 즐겨찾기로 설정된 단축키를 입력하면 해당 수화언어에 대한 데이터가 인공지능 중계 서버부(300)로 전달될 수 있다. 또한, 수화언어 단축키 활성화 버튼을 선택하면 제2 사용자가 기 등록해 놓은 항목들이 표시되고 이 중 원하는 항목을 선택하면 해당 수화언어에 대한 데이터가 인공지능 중계 서버부(300)로 전달될 수 있다. 제2 사용자는 텍스트 또는 수화언어로 대화를 지속해야 함에 따라 상황에 따라서는 수화를 하지 못하거나 텍스트를 입력하지 못하는 경우가 발생될 수 있는데, 이러한 경우 준비된 간단한 메시지를 빠르게 입력하여 원하는 의사표현을 바로 쉽고 빠르게 전달할 수 있다.
본 실시예에 따른 제2 통신단말(20)은, TV, 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 태블릿 PC, 전자북 단말기, 디지털방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), MP3 플레이어, 디지털 카메라, 네비게이션(Navigation) 디바이스 일 수 있으나, 이에 한정되지 않는다.
또한, 제2 통신단말(20)은 다양한 입력 장치로부터 영상을 획득할 수 있다. 예를 들어, 카메라(Camera), 웹캠(Web Cam), 마이크(Microphone), 스마트 폰 등을 포함하는 이미지 센서를 구비한 장치로부터 제2 사용자의 영상과 음성을 획득할 수 있으며, 인공지능 중계 서버부(300)로부터 유무선 통신을 통해 영상, 음성, 텍스트 등의 신호와 정보를 각각 입력 받을 수 있다
상기 인공지능 중계 서버부(300)는, 제1 통신단말(10)과 제2 통신단말(20) 상호 간에 영상신호가 실시간 송수신되도록 하되, 제1 통신단말(10)로부터 수신되는 음성신호를 텍스트데이터로 변환하여 제2 통신단말(20)로 전송하고, 제2 통신단말(20)로부터 수신되는 영상신호 내 제2 사용자의 수화언어제스처 및 텍스트데이터 중 적어도 하나를 음성신호로 변환하여 제1 통신단말(10)로 실시간 전송될 수 있도록 한다.
이를 위해 인공지능 중계 서버부(300)는 통신부(310), 인공지능 엔진부(320), 콘텐츠 데이터베이스부(330) 및 커뮤니케이션 기록 보호 관리부(340) 중 적어도 하나를 포함할 수 있다.
상기 통신부(310)는 제1 통신단말(10)과 제2 통신단말(20) 간의 인터넷 네트워크를 통해 통신 프로세스를 처리할 수 있다. 여기서 인터넷 네트워크의 유선 통신망의 일 예로는, LAN(Local Area Network), WAN(Wide Area Network)등의 폐쇄형 네트워크일 수 있으며, 인터넷과 같은 개방형 네트워크인 것이 바람직하다. 인터넷은 TCP/IP 프로토콜 및 그 상위계층에 존재하는 여러 서비스, 즉 HTTP(HyperText Transfer Protocol), Telnet, FTP(File Transfer Protocol), DNS(Domain Name System), SMTP(Simple Mail Transfer Protocol), SNMP(Simple Network Management Protocol), NFS(Network File Service), NIS(Network Information Service)를 제공하는 전세계적인 개방형 컴퓨터 네트워크 구조를 의미한다. 또한, 무선 통신망의 일 예로는, 이동통신을 위한 기술표준들 또는 통신방식(예를 들어, GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), CDMA2000(Code Division Multi Access 2000), EV-DO(Enhanced Voice-Data Optimized or Enhanced Voice-Data Only), WCDMA(Wideband CDMA), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced) 등)에 따라 구축된 이동 통신망을 포함할 수 있으나, 특별히 한정하는 것은 아니다. 상기 인공지능 엔진부(320)는, 통신부(310)와 연결되고, 제1 사용자(비장애인)과 제2 사용자(청각장애인 청각장애인, 노인 등 사회적 취약계층) 간에 화상 커뮤니케이션이 가능하도록 음성변환, 텍스트변환, 모션인식, 번역 등의 다양한 기능을 제공하는 소프트웨어 모듈이 탑재되어 동작될 수 있다.
이를 위해, 인공지능 엔진부(320)는 STT(Speech To Text) 변환 모듈(321), MTT(Motion To Text) 변환 모듈(322), TTS(Text To Speech) 변환 모듈(323), 번역 모듈(324), 인공지능 목소리 변환 모듈(325), TTM(Text To Motion) 변환 모듈(327) 및 CTT(Code To Text) 변환 모듈(328) 중 적어도 하나를 포함할 수 있다.
상기 STT(Speech To Text) 모듈(321)은 음성신호를 텍스트로 변환할 수 있으며, 이러한 음성-텍스트 변환 기술은 주지관용의 기술이므로 보다 상세한 설명은 생략한다.
상기 MTT(Motion To Text) 변환 모듈(322)은, 딥러닝 기술(특히, CNN(Convolution Neutral Network))을 기반으로 영상신호 내 수화언어제스처(또는 수화언어모션)을 인식하고, 인식된 수화언어제스처(또는 수화언어모션)를 텍스트데이터로 변환할 수 있다. 제스처 또는 모션 등 트래킹 솔루션에 대한 인식률을 향상시키기 위하여 라이다 센서, 레이더 센서, 초음파 센서, 주파수 센서 등 다양한 모션 인식 센서를 부가적으로 제2 통신단말(20)에 연결시켜 사용할 수 있다.
상기 TTS(Text To Speech) 변환 모듈(323)은 텍스트데이터를 음성신호로 변환할 수 있으며, 텍스트-음성 변환 기술은 주지관용의 기술이므로 보다 상세한 설명은 생략한다.
상기 번역 모듈(324)은 제1 및 제2 번역 서비스 신청부(140, 240)를 통해 설정된 제1 및 제2 사용자의 각 국가 또는 언어에 따라 텍스트데이터에 포함된 언어를 번역할 수 있다. 즉, 음성신호나 수화언어제스처 모두 중간단계 또는 최종단계에서 텍스트 변환 과정을 거치게 되는데, 이때 변환된 텍스트의 언어를 기 설정된 국가의 언어로 번역하여 처리할 수 있다.
상기 인공지능 목소리 변환 모듈(325)은, 인공지능 목소리 데이터베이스로부터 청각장애인정보 등록부(250)를 통해 등록된 청각장애인정보(거주지역정보, 성별정보, 연령정보, 신체정보(키, 몸무게, 얼굴생김새 등) 및 음성정보(부정확한 발음의 음성))와 매칭되는 인공지능 목소리를 선택하고, 선택된 인공지능 목소리를 TTS(Text To Speech) 변환 모듈(323)에 적용시켜 선택된 인공지능 목소리로 음성이 재생되도록 할 수 있다. 이는, 발성이 불가능 또는 불완전하여 정확한 대화 음성을 낼 수 없는 제2 사용자의 목소리를 인공지능 목소리로 생성하여 제공하기 위한 기본조건정보로서, 해당 조건정보와 매칭되는 준비된 목소리가 지정되어 해당 목소리로 상대방인 제1 사용자가 들을 수 있도록 한다.
상기 MTT 변환 검증 모듈(326)은, 제1 및 제2 커뮤니케이션 실행부(100, 200)의 화상 커뮤니케이션 서비스 제공 간에 수신되는 제2 사용자의 음성신호 및 영상신호에 포함된 제2 사용자의 표정 및 행동에 대한 빅데이터를 각각 구축하고, 구축된 빅데이터를 기반으로 MTT 변환 모듈(322)을 통해 변환 결과를 검증할 수 있다. 이는, 제2 사용자의 수화언어제스처에 대한 인식 정확도를 더욱 높이기 위한 수단으로, 제2 사용자 별 또는 등록된 모든 제2 사용자에 대하여 인식한 음성(특정 단어에 대한 발음), 표정(웃음, 찡그림, 놀람, 화남)과 수화와 관계 없는 행동이나 제스처에 대한 정보들을 수집하고, 이를 빅데이터화한 후 MTT 변환 모듈(322)에서 인식한 대화내용과 상반되는 부분이 있는지, 대화내용의 분위기와 흐름에 맞는지를 검증할 수 있으며, 검증 시 음성과 표정을 기반으로 하거나, 표정과 행동(제스처)를 기반으로 하거나, 음성과 행동(제스처)를 기반으로 하거나, 또는 음성, 표정, 행동(제스처) 등의 조합을 기준으로 각 기준들에 대한 공통적인 특성이 잡히는지를 다중 반복 판별하여 제2 사용자의 수화언어제스처에 대한 인식 정확도를 더욱 높일 수 있따.
상기 TTM(Text To Motion) 변환 모듈(327)은 텍스트데이터를 수화언어제스처데이터로 변환할 수 있다. 좀 더 구체적으로는, 기 구축된 텍스트-수화 데이터베이스를 참고하여, 텍스트의 내용에 맞는 수화언어데이터를 불러와 해당 수화언어를 표현할 그래픽정보를 제공할 수 있다. 이는, 상황에 따라 제1 및 제2 사용자 간의 소통이 어려운 부분이 발생할 수 있는데, 이를 보완하기 위하여 제2 사용자가 쉽게 알아들을 수 있는 수화로 번역해 대화하기 위한 것이다.
상기 CTT(Code To Text) 변환 모듈(328)은, 수화언어 식별코드가 등록되어 수화언어 단축키 서비스 제공부(260)를 통해 수신된 수화언어 식별코드를 텍스트로 변환한 후 음성신호로 TTS 변환 모듈(323)로 전달할 수 있다. 즉, 수화언어에 대한 식별코드가 입력되면, 이와 매칭된 텍스트데이터를 찾아 변환한 후 이를 음성신호로 변환하여 제공할 수 있다.
상기 콘텐츠 데이터베이스부(330)는 게임, 퀴즈 및 교육 중 적어도 하나의 콘텐츠를 제1 및 제2 콘텐츠 제공부(110, 120)로 제공할 수 있다. 이를 통해, 제1 및 제2 사용자가 소통뿐만 아니라, 다양한 게임, 퀴즈, 교육 등의 콘텐츠를 함께 실행 및 공유할 수 있으며, 해당 콘텐츠는 애니메이션, VR, AR 등 다양한 방식과 형식으로 제공될 수 있다.
상기 커뮤니케이션 기록 보호 관리부(340)는, 제1 커뮤니케이션 실행부(100) 및 제2 커뮤니케이션 실행부(200) 간에 송수신되는 커뮤니케이션 기록 데이터를 커뮤니케이션 종료 후 영상, 음성 및 텍스트 정보를 포함하는 커뮤니케이션 기록 파일로 저장하고, 저장된 커뮤니케이션 기록 파일을 제1 통신단말(100) 및 제2 통신단말(100)로 각각 전송한 후 삭제 관리함으로써, 개인정보뿐만 아니라, 미팅 간에 발생된 비밀정보 또는 비밀문서 등에 대한 보호 관리가 이루어질 수 있다.
본 실시예에 따른 인공지능 중계 서버부(300)는, 하드웨어적으로 통상적인 웹 서버와 동일한 구성을 가지며, 소프트웨어적으로는 C, C++, Java, Visual Basic, Visual C 등과 같은 다양한 형태의 언어를 통해 구현되어 여러 가지 기능을 하는 프로그램 모듈을 포함할 수 있다. 또한, 일반적인 서버용 하드웨어에 도스(dos), 윈도우(window), 리눅스(linux), 유닉스(unix), 매킨토시(macintosh) 등의 동작 체제에 따라 다양하게 제공되고 있는 웹 서버 프로그램을 이용하여 구현될 수 있으며, 제1 및 제2 통신단말(10, 20)에 설치된 제1 및 제2 커뮤니케이션 실행부(100, 200)를 통해 각종 신호 및 데이터를 송수신할 수 있다.
도 7은 본 발명의 다른 실시예에 따른 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼의 동작 방법에 대한 전체 단계 구성을 나타낸 흐름도이다.
도 7을 참조하면, 본 발명의 다른 실시예에 따른 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼의 동작 방법(S1000)은, 제1 통신단말(10)에 설치된 제1 커뮤니케이션 실행부(100)가, 제1 통신단말(10)을 통해 생성되는 제1 사용자의 영상신호와 음성신호를 인공지능 중계 서버부(300)로 실시간 전송하고, 인공지능 중계 서버부(300)로부터 실시간 수신되는 제2 사용자의 영상신호와 음성신호를 출력하는 제1 커뮤니케이션 실행 단계(S100), 제2 통신단말(20)에 설치된 제2 커뮤니케이션 실행부(200)가, 제2 통신단말(20)을 통해 생성 및 입력되는 제2 사용자의 영상신호와 텍스트데이터를 서버로 실시간 전송하고, 인공지능 중계 서버부(300)로부터 실시간 수신되는 제1 사용자의 영상신호와 음성신호를 출력하는 제2 커뮤니케이션 실행 단계(S200), 및 인공지능 중계 서버부(300)가, 제1 통신단말(10)과 제2 통신단말(20) 상호 간에 영상신호가 실시간 송수신되도록 하되, 제1 통신단말(10)로부터 수신되는 음성신호를 텍스트데이터로 변환하여 제2 통신단말(20)로 전송하고, 제2 통신단말(20)로부터 수신되는 영상신호 내 제2 사용자의 수화언어제스처 및 텍스트데이터 중 적어도 하나를 음성신호로 변환하여 제1 통신단말(10)로 전송하는 인공지능 중계 서버 실행 단계(S300)를 포함한다.
이러한 본 발명의 다른 실시예에 따른 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼의 동작 방법(S1000)은 상술한 본 발명의 일 실시예에 따른 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼 시스템(1000)의 동작 구성과 효과는 대동소이하므로, 그에 대한 보다 구체적인 설명은 생략하도록 한다.
이상에서 설명한 것은 본 발명에 의한 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼 시스템을 실시하기 위한 하나의 실시예에 불과한 것으로서, 본 발명은 상기 실시예에 한정되지 않고, 이하의 특허청구범위에서 청구하는 바와 같이 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 정신이 있다고 할 것이다.
1000: 화상 커뮤니케이션 플랫폼 시스템
100: 제1 커뮤니케이션 실행부
110: 제1 콘텐츠 실행부
120: 제1 커뮤니케이션 채널 관리부
130: 제1 커뮤니케이션 서비스 실행부
140: 제1번역 서비스 신청부
200: 제2 커뮤니케이션 실행부
210: 제2 콘텐츠 실행부
220: 제2 커뮤니케이션 채널 관리부
230: 제2 커뮤니케이션 서비스 실행부
240: 제2 번역 서비스 신청부
250: 청각장애인정보 등록부
260: 수화언어 단축키 서비스 제공부
300: 인공지능 중계 서버부
310: 통신부
320: 인공지능 엔진부
321: SST 변환 모듈
322: MTT 변환 모듈
323: TTS 변환 모듈
324: 번역 모듈
325: 인공지능 목소리 변환 모듈
326: MTT 변환 검증 모듈
327: TTM 변환 모듈
328: CTT 변환 모듈
330: 콘텐츠 데이터베이스부
340: 커뮤니케이션 기록 보호 관리부
S1000: 화상 커뮤니케이션 플랫폼 동작 방법
S100: 제1 커뮤니케이션 실행 단계
S200: 제2 커뮤니케이션 실행 단계
S300: 인공지능 중계 서버 실행 단계
100: 제1 커뮤니케이션 실행부
110: 제1 콘텐츠 실행부
120: 제1 커뮤니케이션 채널 관리부
130: 제1 커뮤니케이션 서비스 실행부
140: 제1번역 서비스 신청부
200: 제2 커뮤니케이션 실행부
210: 제2 콘텐츠 실행부
220: 제2 커뮤니케이션 채널 관리부
230: 제2 커뮤니케이션 서비스 실행부
240: 제2 번역 서비스 신청부
250: 청각장애인정보 등록부
260: 수화언어 단축키 서비스 제공부
300: 인공지능 중계 서버부
310: 통신부
320: 인공지능 엔진부
321: SST 변환 모듈
322: MTT 변환 모듈
323: TTS 변환 모듈
324: 번역 모듈
325: 인공지능 목소리 변환 모듈
326: MTT 변환 검증 모듈
327: TTM 변환 모듈
328: CTT 변환 모듈
330: 콘텐츠 데이터베이스부
340: 커뮤니케이션 기록 보호 관리부
S1000: 화상 커뮤니케이션 플랫폼 동작 방법
S100: 제1 커뮤니케이션 실행 단계
S200: 제2 커뮤니케이션 실행 단계
S300: 인공지능 중계 서버 실행 단계
Claims (9)
- 제1 통신단말에 설치되고, 제1 통신단말을 통해 생성되는 제1 사용자의 영상신호와 음성신호를 인공지능 중계 서버부로 실시간 전송하고, 상기 인공지능 중계 서버부로부터 실시간 수신되는 제2 사용자의 영상신호와 음성신호를 출력하는 제1 커뮤니케이션 실행부;
제2 통신단말에 설치되고, 제2 통신단말을 통해 생성 및 입력되는 제2 사용자의 영상신호와 텍스트데이터를 상기 인공지능 중계 서버부로 실시간 전송하고, 상기 인공지능 중계 서버부로부터 실시간 수신되는 제1 사용자의 영상신호와 텍스트데이터를 출력하는 제2 커뮤니케이션 실행부; 및
제1 통신단말과 제2 통신단말 상호 간에 영상신호가 실시간 송수신되도록 하되, 제1 통신단말로부터 수신되는 음성신호를 텍스트데이터로 변환하여 제2 통신단말로 전송하고, 제2 통신단말로부터 수신되는 영상신호 내 제2 사용자의 수화언어제스처 및 텍스트데이터 중 적어도 하나를 음성신호로 변환하여 제1 통신단말로 전송하는 상기 인공지능 중계 서버부를 포함하고,
상기 제1 커뮤니케이션 실행부 및 상기 제2 커뮤니케이션 실행부는,
상기 인공지능 중계 서버부로부터 게임, 퀴즈 및 교육 중 적어도 하나의 콘텐츠를 제공 받아 실행하기 위한 콘텐츠 실행부;
커뮤니케이션 채널을 개설하고, 커뮤니케이션 채널의 개설자가 다른 사용자의 커뮤니케이션 채널에 대한 참여, 이동 및 삭제를 관리하고, 상기 콘텐츠 실행부와 연동하여 커뮤니케이션 채널 내에서 콘텐츠의 진행과 관리를 위한 커뮤니케이션 채널 관리부; 및
비장애인과 청각장애인에 대한 선택에 따라 제1 사용자와 제2 사용자를 구분하여 커뮤니케이션 채널에 사용자를 참여시키고, 제1 사용자로 구분되면 상기 제1 커뮤니케이션 실행부의 화상 커뮤니케이션 서비스를 제공하도록 동작하고, 제2 사용자로 구분되면 상기 제2 커뮤니케이션 실행부의 화상 커뮤니케이션 서비스를 제공하도록 동작하는 커뮤니케이션 실행부를 각각 포함하는 것을 특징으로 하는 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼 시스템.
- 삭제
- 제1 항에 있어서,
상기 인공지능 중계 서버부는,
제1 통신단말과 제2 통신단말 간의 통신을 위한 통신부;
음성신호를 텍스트로 변환하는 STT(Speech To Text) 변환 모듈, 딥러닝 기술을 기반으로 영상신호 내 수화언어제스처를 인식하고, 인식된 수화언어제스처를 텍스트데이터로 변환하는 MTT(Motion To Text) 변환 모듈, 및 텍스트데이터를 음성신호로 변환하는 TTS(Text To Speech) 변환 모듈을 포함하며, 상기 통신부와 연결된 인공지능 엔진부; 및
게임, 퀴즈 및 교육 중 적어도 하나의 콘텐츠를 상기 콘텐츠 실행부로 제공하는 콘텐츠 데이터베이스부를 포함하는 것을 특징으로 하는 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼 시스템.
- 제3 항에 있어서,
상기 인공지능 중계 서버부는,
상기 제1 커뮤니케이션 실행부 및 상기 제2 커뮤니케이션 실행부 간에 송수신되는 커뮤니케이션 기록 데이터를 커뮤니케이션 종료 후 영상, 음성 및 텍스트 정보를 포함하는 커뮤니케이션 기록 파일로 저장하고, 저장된 커뮤니케이션 기록 파일을 제1 통신단말 및 제2 통신단말로 각각 전송한 후 삭제 관리하는 커뮤니케이션 기록 보호 관리부를 더 포함하는 것을 특징으로 하는 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼 시스템.
- 제3 항에 있어서,
상기 제1 커뮤니케이션 실행부 및 상기 제2 커뮤니케이션 실행부는,
제1 사용자 및 제2 사용자 간의 국가 또는 언어를 선택 받아 번역 서비스를 설정하기 위한 번역 서비스 신청부를 더 포함하고,
상기 인공지능 엔진부는,
상기 번역 서비스 신청부를 통해 설정된 사용자의 각 국가 또는 언어에 따라 텍스트데이터에 포함된 언어를 번역하는 번역 모듈을 더 포함하는 것을 특징으로 하는 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼 시스템.
- 제3 항에 있어서,
상기 제2 커뮤니케이션 실행부는,
청각장애인의 사용자로부터 거주지역정보, 성별정보, 연령정보, 신체정보 및 음성정보 중 적어도 하나의 청각장애인정보를 등록 받는 청각장애인정보 등록부를 더 포함하고,
상기 인공지능 엔진부는,
인공지능 목소리 데이터베이스로부터 상기 청각장애인정보 등록부를 통해 등록된 청각장애인정보와 매칭되는 인공지능 목소리를 선택하고, 선택된 인공지능 목소리를 상기 TTS(Text To Speech) 변환 모듈에 적용시켜 선택된 인공지능 목소리로 음성이 재생되도록 하는 인공지능 목소리 변환 모듈을 더 포함하는 것을 특징으로 하는 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼 시스템.
- 제3 항에 있어서,
상기 인공지능 엔진부는,
상기 제1 커뮤니케이션 실행부 및 제2 커뮤니케이션 실행부의 화상 커뮤니케이션 서비스 제공 간에 수신되는 제2 사용자의 음성, 영상신호에 포함된 제2 사용자의 표정 및 행동에 대한 빅데이터를 각각 구축하고, 구축된 빅데이터를 기반으로 상기 MTT 변환 모듈을 통해 변환 결과를 검증하는 MTT 변환 검증 모듈을 더 포함하는 것을 특징으로 하는 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼 시스템.
- 제3 항에 있어서,
상기 인공지능 엔진부는,
텍스트데이터를 수화언어제스처데이터로 변환하는 TTM(Text To Motion) 변환 모듈을 더 포함하는 것을 특징으로 하는 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼 시스템.
- 제1 통신단말에 설치된 제1 커뮤니케이션 실행부가, 제1 통신단말을 통해 생성되는 제1 사용자의 영상신호와 음성신호를 인공지능 중계 서버부로 실시간 전송하고, 상기 인공지능 중계 서버부로부터 실시간 수신되는 제2 사용자의 영상신호와 음성신호를 출력하는 제1 커뮤니케이션 실행 단계;
제2 통신단말에 설치된 제2 커뮤니케이션 실행부가, 제2 통신단말을 통해 생성 및 입력되는 제2 사용자의 영상신호와 텍스트데이터를 상기 인공지능 중계 서버부로 실시간 전송하고, 상기 인공지능 중계 서버부로부터 실시간 수신되는 제1 사용자의 영상신호와 텍스트데이터를 출력하는 제2 커뮤니케이션 실행 단계; 및
상기 인공지능 중계 서버부가, 제1 통신단말과 제2 통신단말 상호 간에 영상신호가 실시간 송수신되도록 하되, 제1 통신단말로부터 수신되는 음성신호를 텍스트데이터로 변환하여 제2 통신단말로 전송하고, 제2 통신단말로부터 수신되는 영상신호 내 제2 사용자의 수화언어제스처 및 텍스트데이터 중 적어도 하나를 음성신호로 변환하여 제1 통신단말로 전송하는 인공지능 중계 서버 실행 단계를 포함하고,
상기 제1 커뮤니케이션 실행 단계 및 상기 제2 커뮤니케이션 실행 단계는,
콘텐츠 실행부가, 상기 인공지능 중계 서버부로부터 게임, 퀴즈 및 교육 중 적어도 하나의 콘텐츠를 제공 받아 실행하기 위한 콘텐츠 실행 단계;
커뮤니케이션 채널 관리부가, 커뮤니케이션 채널을 개설하고, 커뮤니케이션 채널의 개설자가 다른 사용자의 커뮤니케이션 채널에 대한 참여, 이동 및 삭제를 관리하고, 상기 콘텐츠 실행부와 연동하여 커뮤니케이션 채널 내에서 콘텐츠의 진행과 관리를 위한 커뮤니케이션 채널 관리 단계; 및
커뮤니케이션 실행부가, 비장애인과 청각장애인에 대한 선택에 따라 제1 사용자와 제2 사용자를 구분하여 커뮤니케이션 채널에 사용자를 참여시키고, 제1 사용자로 구분되면 상기 제1 커뮤니케이션 실행 단계에서 화상 커뮤니케이션 서비스를 제공하도록 동작하고, 제2 사용자로 구분되면 상기 제2 커뮤니케이션 실행 단계에서 화상 커뮤니케이션 서비스를 제공하도록 동작하는 커뮤니케이션 실행 단계를 포함하는 것을 특징으로 하는 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼 동작 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200148794A KR102212298B1 (ko) | 2020-11-09 | 2020-11-09 | 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼 시스템 및 그 동작 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200148794A KR102212298B1 (ko) | 2020-11-09 | 2020-11-09 | 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼 시스템 및 그 동작 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102212298B1 true KR102212298B1 (ko) | 2021-02-05 |
Family
ID=74558982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200148794A KR102212298B1 (ko) | 2020-11-09 | 2020-11-09 | 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼 시스템 및 그 동작 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102212298B1 (ko) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113660449A (zh) * | 2021-10-20 | 2021-11-16 | 中兴通讯股份有限公司 | 手势通信方法、装置、存储介质及电子装置 |
CN113780013A (zh) * | 2021-07-30 | 2021-12-10 | 阿里巴巴(中国)有限公司 | 一种翻译方法、设备和可读介质 |
KR102368233B1 (ko) * | 2021-02-18 | 2022-03-03 | 주식회사 라젠 | 플러그 인 기반의 화상 커뮤니케이션 플랫폼 시스템 및 그를 이용한 화상 커뮤니케이션 제공 방법 |
KR102371038B1 (ko) * | 2021-06-04 | 2022-03-04 | 이승진 | 다국어 번역 지원이 가능한 채팅시스템 및 제공방법 |
KR102487847B1 (ko) | 2022-07-19 | 2023-01-16 | 주식회사 엘젠 | 청각장애인용 통화 서비스 제공 시스템 및 방법 |
KR20240011020A (ko) | 2022-07-18 | 2024-01-25 | 경북보건대학교 산학협력단 | 텔레비전을 이용한 화상 커뮤니케이션장치 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110030985A (ko) * | 2009-09-18 | 2011-03-24 | 주식회사 케이티 | 영상 채팅 방식을 이용한 텍스트-음성 통화 서비스 방법 및 시스템 |
KR20150045335A (ko) | 2013-10-18 | 2015-04-28 | 삼성전자주식회사 | 수화 동작을 인식하여 문자로 변환하는 방법 및 그 장치 |
KR102174922B1 (ko) * | 2019-08-06 | 2020-11-05 | 한국전자기술연구원 | 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치 및 음성-수어 번역 장치 |
-
2020
- 2020-11-09 KR KR1020200148794A patent/KR102212298B1/ko active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110030985A (ko) * | 2009-09-18 | 2011-03-24 | 주식회사 케이티 | 영상 채팅 방식을 이용한 텍스트-음성 통화 서비스 방법 및 시스템 |
KR20150045335A (ko) | 2013-10-18 | 2015-04-28 | 삼성전자주식회사 | 수화 동작을 인식하여 문자로 변환하는 방법 및 그 장치 |
KR102174922B1 (ko) * | 2019-08-06 | 2020-11-05 | 한국전자기술연구원 | 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치 및 음성-수어 번역 장치 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102368233B1 (ko) * | 2021-02-18 | 2022-03-03 | 주식회사 라젠 | 플러그 인 기반의 화상 커뮤니케이션 플랫폼 시스템 및 그를 이용한 화상 커뮤니케이션 제공 방법 |
KR102371038B1 (ko) * | 2021-06-04 | 2022-03-04 | 이승진 | 다국어 번역 지원이 가능한 채팅시스템 및 제공방법 |
WO2022255850A1 (ko) * | 2021-06-04 | 2022-12-08 | 이승진 | 다국어 번역 지원이 가능한 채팅시스템 및 제공방법 |
CN113780013A (zh) * | 2021-07-30 | 2021-12-10 | 阿里巴巴(中国)有限公司 | 一种翻译方法、设备和可读介质 |
CN113660449A (zh) * | 2021-10-20 | 2021-11-16 | 中兴通讯股份有限公司 | 手势通信方法、装置、存储介质及电子装置 |
CN113660449B (zh) * | 2021-10-20 | 2022-03-01 | 中兴通讯股份有限公司 | 手势通信方法、装置、存储介质及电子装置 |
KR20240011020A (ko) | 2022-07-18 | 2024-01-25 | 경북보건대학교 산학협력단 | 텔레비전을 이용한 화상 커뮤니케이션장치 |
KR102487847B1 (ko) | 2022-07-19 | 2023-01-16 | 주식회사 엘젠 | 청각장애인용 통화 서비스 제공 시스템 및 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102212298B1 (ko) | 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼 시스템 및 그 동작 방법 | |
US20220284896A1 (en) | Electronic personal interactive device | |
US10885318B2 (en) | Performing artificial intelligence sign language translation services in a video relay service environment | |
US9053096B2 (en) | Language translation based on speaker-related information | |
US7774194B2 (en) | Method and apparatus for seamless transition of voice and/or text into sign language | |
US20040186743A1 (en) | System, method and software for individuals to experience an interview simulation and to develop career and interview skills | |
El-Gayyar et al. | Translation from Arabic speech to Arabic Sign Language based on cloud computing | |
CN107315742A (zh) | 具有人机对话功能的拟人化口语翻译方法及系统 | |
JP7229821B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
US9110888B2 (en) | Service server apparatus, service providing method, and service providing program for providing a service other than a telephone call during the telephone call on a telephone | |
Samonte et al. | BridgeApp: An assistive mobile communication application for the deaf and mute | |
CN116524791A (zh) | 一种基于元宇宙的唇语学习辅助训练系统及其应用 | |
KR20150113652A (ko) | 언어권 인식을 이용한 자동 번역 메신저가 탑재된 스마트기기 | |
KR102534275B1 (ko) | 어학 학습 단말, 이를 포함하는 어학 학습 시스템 및 방법 | |
WO2021159734A1 (zh) | 一种数据处理方法、装置、设备及介质 | |
KR102408941B1 (ko) | 수어 통역을 제공하는 양방향 대화 시스템 | |
Roberson | Interpreting: An Overview | |
EP2590392A1 (en) | Service server device, service provision method, and service provision program | |
Amato | Interpreting on the phone: interpreter's participation in healthcare and medical emergency service calls | |
US20180300316A1 (en) | System and method for performing message translations | |
Hilzensauer | Information technology for deaf people | |
Daengsi | VoIP quality measurement: recommendation of MOS and enhanced objective measurement method for standard Thai spoken language | |
US11848026B2 (en) | Performing artificial intelligence sign language translation services in a video relay service environment | |
Jones et al. | WeCanTalk: A new multi-language, multi-modal resource for speaker recognition | |
Amarasekara et al. | Real-time interactive voice communication-For a mute person in Sinhala (RTIVC) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |