KR20230111889A

KR20230111889A - 인공지능에 의한 독순술을 이용하여 발화자의 언어 및 국적을 식별하는 시스템 및 방법

Info

Publication number: KR20230111889A
Application number: KR1020220007891A
Authority: KR
Inventors: 서문산성
Original assignee: 주식회사 인포다이스
Priority date: 2022-01-19
Filing date: 2022-01-19
Publication date: 2023-07-26

Abstract

본 발명은 인공지능에 의한 독순술을 이용하여 발화자의 언어 및 국적을 식별하는 시스템 및 방법에 관한 것으로, 보다 상세하게는 특정 장소에 출입하는 사람들의 얼굴 및 입술 움직임을 인공지능에 의해 분석하여 언어 및 국적을 식별하여 통계를 생성하는 시스템 및 방법에 관한 것이다.
본 발명은 별도의 앙케이트 조사 없이 특정 장소에 출입하는 사람들의 사용 언어 및 국적에 대한 자료를 단시간에 얻을 수 있는 잇점이 있다.

Description

인공지능에 의한 독순술을 이용하여 발화자의 언어 및 국적을 식별하는 시스템 및 방법{IDENTIFYING SYSTEM FOR SPEAKER'S LANGUAGE AND NATIONALITY BY USING LIP READING OF AI AND IDENTIFYING METHOD BY THE SAME}

본 발명은 인공지능에 의한 독순술을 이용하여 발화자의 언어 및 국적을 식별하는 시스템 및 방법에 관한 것으로, 보다 상세하게는 특정 장소에 출입하는 사람들의 얼굴 및 입술 움직임을 인공지능에 의해 분석하여 언어 및 국적을 식별하여 통계를 생성하는 시스템 및 방법에 관한 것이다.

독순술(讀脣術, Lip Reading)은 상대방의 입술 움직임과 얼굴 표정을 보고 대화 내용을 파악하는 방법이다. 즉, 독순술은 청각장애인이나 독순술사가 상대방의 입술의 움직임과 얼굴 표정을 전반적으로 분석하여 상대방이 무슨 말을 하고 있는지 알아듣는 것을 말한다. 독순술의 기본 원리는 입 모양을 눈으로 읽어서 그 조합이 어떤 단어를 발음하고 있었던 것인지 유추한 다음, 가능한 단어 조합을 찾아 최대한 그 문맥에 맞는 문장으로 완성시키는 것인데, 여기에 덧붙여 얼굴 표정과 같은 부가적인 요소들을 더 조합해 해석의 정확도와 시간을 최적화할 수 있다.

이러한 독순술에 인공지능을 결합시킨 독순술 프로그램에 대한 연구가 활발히 이루어지고 있다. 립넷(Lipnet)이나 워치, 리슨, 어텐드 앤드 스펠(Watch, Listen, Attend and Spell, WLAS)은 유명한 독순술 프로그램의 일 예들이다. 특히, WLAS(Watch, Listen, Attend and Spell)의 AI 시스템은 5,000 시간 동안 TV 프로그램을 시청하면서 말하는 사람의 입술 모양만으로 어떤 말을 하는지 익히는 훈련을 했다. 200개의 임의 문장을 가지고 테스트를 한 결과 전문 독순술사의 정확도는 12.8%였던 반면, WLAS는 46.8%라는 놀라운 성적을 기록했다. 인공지능이 인간보다 거의 4배 정도로 뛰어난 독순술 능력을 보여준 것이다. 인공지능에 의한 독순술을 이용한 기술이 많은 분야에서 응용되고 있다.

관광지와 같이 특정 장소에 출입하는 사람들의 국적을 조사하여 통계 자료를 만들면 향후 관광 사업의 방향을 조정할 수 있고, 관광객의 국적에 맞는 서비스를 제공할 수 있다. 이러한 통계 자료를 만들기 위해서는 많은 조사원들이 관광객에 대해 앙케이트 조사를 하는 방법이 있지만, 많은 수의 관광객에 대해 앙케이트 조사를 한다는 것은 쉬운 일이 아니다. WLAS와 같은 인공지능의 기술을 이용하여 특정 장소에 출입하는 사람들의 사용 언어를 인식하는 기술은 좀 더 연구가 필요한 실정이다.

대한민국 등록특허공보 제10-1144158호 대한민국 등록특허공보 제10-1035768호

본 발명은 상술한 바와 같은 문제점을 해결하기 위한 것으로, 다국어를 독순술로 학습한 인공지능에 의해 특정 장소에 출입하는 사람들의 사용 언어 및 국적을 식별하는 시스템을 제공하는 것을 목적으로 한다.

상기와 같은 목적을 달성하기 위하여 본 발명은 발화자의 얼굴 및 입술의 움직임을 트래킹하는 카메라 모듈; 및 발화자의 얼굴 및 입술 모양을 인지하고 해석하는 서버 모듈;을 포함하는 것을 특징으로 한다.

여기서, 상기 카메라 모듈은, 발화자의 얼굴 및 입술의 움직임을 트래킹하여 촬영하는 트래킹 촬영부; 및 촬영된 얼굴 및 입술의 움직임 데이터를 상기 서버 모듈로 송신하는 카메라 통신부;를 포함하는 것이 바람직하다.

여기서, 상기 서버 모듈은, 관리자가 설정한 언어를 인공지능에 의해 얼굴 및 입술 움직임을 보고 언어를 학습하는 인공지능 학습부; 상기 카메라 통신부에서 송신한 데이터를 수신하는 서버 통신부; 상기 서버 통신부에서 전송받은 얼굴 및 입술의 움직임 데이터를 기반으로 얼굴 및 입술 모양 데이터를 추출하여 수학적 벡터 데이터로 변환하는 입술모양 추출부; 상기 입술모양 추출부에서 변환한 수학적 벡터 데이터를 상기 인공지능 학습부에서 학습한 내용과 비교하여 상기 발화자의 대화 내용을 분석하여 상기 발화자의 사용 언어 및 국적을 판단하는 입술모양 해석부; 및 상기 입술모양 해석부에서 판단한 복수의 발화자의 사용 언어 및 국적을 기반으로 복수의 발화자가 위치한 장소에 출입한 사람들에 대한 통계를 생성하는 통계 생성부;를 포함하는 것이 바람직하다.

또한, 상기와 같은 목적을 달성하기 위하여 본 발명은 해당 장소에 있는 사람들의 얼굴 및 입술의 움직임을 트래킹하여 발화 중에 있는 발화자를 지정하여 촬영하는 제1 단계; 상기 발화자의 촬영된 얼굴 및 입술 움직임 데이터를 실시간으로 서버 모듈로 전송하는 제2 단계; 전송된 데이터를 기반으로 얼굴 및 입술 모양 데이터를 추출하고 인공지능에 의해 학습된 데이터와 비교하여 발화자의 사용 언어 및 국적을 판단하는 제3 단계; 상기 제1 단계, 제2 단계 및 제3 단계를 반복하여 상기 해당 장소에 있는 복수의 발화자의 얼굴 및 입술 움직임 데이터를 분석하고 상기 해당 장소를 출입하는 사람들의 사용 언어 및 국적에 대한 통계를 생성하는 제4 단계를 포함하는 것을 특징으로 한다.

상기한 바와 같이 본 발명은 별도의 앙케이트 조사 없이 특정 장소에 출입하는 사람들의 사용 언어 및 국적에 대한 자료를 단시간에 얻을 수 있는 잇점이 있다.

도 1은 본 발명의 일 실시예에 의한 인공지능에 의한 독순술을 이용하여 발화자의 언어 및 국적을 식별하는 시스템의 개략도이다.
도 2는 본 발명의 일 실시예에 의한 카메라 모듈의 개략도이다.
도 3은 본 발명의 일 실시예에 의한 서버 모듈의 개략도이다.
도 4는 본 발명의 일 실시예에 의한 인공지능에 의한 독순을 이용하여 발화자의 언어 및 국적을 식별하는 방법의 순서도이다.

하기에 나타난 도면에서 동일한 참조부호는 동일한 구성요소를 지칭하며, 도면상에서 각 구성요소의 크기는 설명의 명료성과 편의상 과장되어 있을 수 있다. 한편, 이하에 설명되는 실시예는 단지 예시적인 것에 불과하며, 이러한 실시예로부터 다양한 변형이 가능하다. 이하에서, 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 “...부”, “모듈” 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미한다.

이하에서는 본 발명의 실시예에 의한 인공지능에 의한 독순술을 이용하여 발화자의 언어 및 국적을 식별하는 시스템의 구성에 대해 도면을 참조하여 설명한다. 도 1은 본 발명의 일 실시예에 의한 인공지능에 의한 독순술을 이용하여 발화자의 언어 및 국적을 식별하는 시스템의 개략도이다. 도 1을 참조하면, 인공지능에 의한 독순술을 이용하여 발화자의 언어 및 국적을 식별하는 시스템은 카메라 모듈(100) 및 서버 모듈(200)을 포함하여 구성될 수 있다.

카메라 모듈(100)은 특정 장소에 있는 발화자의 얼굴 및 입술의 움직임을 트래킹하고 촬영하여 서버 모듈(200)로 전송한다. 도 2는 본 발명의 일 실시예에 의한 카메라 모듈의 개략도이다. 도 2를 참조하면, 카메라 모듈은(100)은 트래킹 촬영부(110) 및 카메라 통신부(120)를 포함하여 구성될 수 있다.

트래킹 촬영부(110)는 발화자의 얼굴 및 입술의 움직임을 트래킹하여 촬영한다. 트래킹 촬영부(110)는 움직임을 감지하는 센서를 구비하여 사람의 움직임에 반응하며, 사람의 얼굴을 인식하는 센서를 구비하여 사람의 얼굴과 특히 입술의 움직임을 포착하여 촬영을 개시한다. 트래킹 촬영부(110)에 사용되는 카메라는 팬(pan), 틸트(tilt), 줌(zoom) 기능이 있는 PTZ 카메라를 사용할 수 있으며, 얼굴과 입술 부위를 확대해서 촬영할 수 있다. PTZ란 Pan Tilt Zoom의 줄임말로 원격으로 회전, 줌 조정이 가능한 카메라를 말하는데, 발화자의 움직임을 관찰하거나 필요한 부분에 회전, 줌을 함으로써 얼굴 영역을 쉽게 모니터링할 수 있다.

카메라 통신부(120)는 상기 트래킹 촬영부(110)에서 촬영된 발화자의 얼굴 및 입술의 움직임 데이터를 서버 모듈(200)로 전송한다. 카메라 통신부(120)는 유무선 네트워크를 구비한다. 상기 네트워크는 복수 개의 단말기 및 서버들과 같은 각각의 노드 상호간에 정보 교환이 가능한 연결 구조를 의미하며, 이러한 네트워크의 일 예에는, 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, 5G 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), wifi 네트워크, 블루투스(Bluetooth) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함될 수 있다.

서버 모듈(200)은 발화자의 얼굴 및 입술의 움직임에 대한 데이터를 전송받아 발화자의 얼굴 및 입술 모양을 인지하고 해석하여 통계를 생성한다. 도 3은 본 발명의 일 실시예에 의한 서버 모듈의 개략도이다. 도 3을 참조하면, 서버 모듈(200)은 인공지능 학습부(210), 서버 통신부(220), 입술모양 추출부(230), 입술모양 해석부(240) 및 통계 생성부(250)를 포함하여 구성될 수 있다.

인공지능 학습부(210)는 관리자가 설정한 언어를 인공지능에 의해 얼굴 및 입술 움직임을 보고 언어를 학습한다. 인공지능 학습부(210)의 언어 학습은 자막이 있고 발화자의 얼굴과 입술을 볼 수 있는 토크쇼나 뉴스 프로그램을 인공지능이 얼굴 및 입술 움직임을 통해 시청하게 하고, 인공지능이 분석한 문장을 자막과 비교하여 인공지능의 독순술 학습 능력을 개선시킬 수 있다. 관리자는 통계가 필요한 국가의 TV 시청 자료를 입수하여 인공지능 학습부(210)를 학습시킬 수 있다. 특히, 영어와 같이 여러 국가에서 사용되는 언어에 대해서는 각 국가별로 사용되는 영어의 특징을 인공지능 학습부(210)가 익힐 수 있도록 좀 더 많은 시간의 학습이 필요할 수도 있다.

서버 통신부(220)는 카메라 통신부(120)에서 송신한 발화자의 얼굴 및 입술 움직임 데이터를 수신하여 입술모양 추출부(230)로 전송한다. 서버 통신부(220)는 카메라 통신부(120)와 같이 유무선 네트워크를 구비한다.

입술모양 추출부(230)는 서버 통신부(220)에서 전송받은 발화자의 얼굴 및 입술 움직임 데이터에서 얼굴 및 입술 데이터를 추출하여 수학적 벡터 데이터로 변환한다. 인공지능이 독순술에 의해 얼굴 및 입술의 움직임 데이터를 해석하기 위해서는 얼굴 및 입술이 변화되는 모양의 위치 정보를 벡터로 나타내서 수치화해야 한다. 입술모양 추출부(230)는 발화자가 말을 하면서 발화자의 얼굴 및 입술에서 나타나는 움직임의 변화를 좌표 상에 벡터로 수치화하여 인공지능이 해석할 수 있게 한다.

입술모양 해석부(240)는 입술모양 추출부(230)에서 변환한 수학적 벡터 데이터를 인공지능 학습부(210)에서 학습한 내용과 비교하여 상기 발화자의 대화 내용을 분석하여 발화자의 사용 언어 및 국적을 판단한다. 입술모양 해석부(240)는 발화자의 수학적 벡터 데이터와 인공지능 학습부(210)에서 학습한 내용을 비교하여 문자로 나타내어 발화자가 사용하는 언어를 식별하고, 사용 언어를 통해 발화자의 국적을 판단한다.

통계 생성부(250)는 입술모양 해석부(240)에서 판단한 복수의 발화자의 사용 언어 및 국적을 기반으로 발화자가 위치한 장소에 출입한 사람들에 대한 통계를 생성한다. 통계는 시간대별로 작성할 수 있고, 관리자는 원하는 시간대와 범위를 설정할 수 있다.

본 발명의 인공지능에 의한 독순술을 이용하여 발화자의 언어 및 국적을 식별하는 시스템은 특정 장소에 출입하는 사람들을 대상으로 단시간에 사람들의 사용 언어와 국적을 식별하는 것이기 때문에, 각각의 발화자에 대해 시간을 할당하여 정해진 시간이 종료하면 다른 발화자에게로 트래킹 촬영부(110)가 이동하게 된다. 본 발명은 특정 장소에 출입하는 사람들을 대상으로 발화자의 사용 언어와 국적을 식별하는 시스템이기 때문에 사람들의 이동만 있고 발화자가 많지 않을 수도 있다. 이런 경우 통계 기법을 사용하여 적은 양의 발화자를 통해 전체적인 수치를 예측할 수 있다. 통계 생성부(250)는 발화자의 수가 충분하지 않을 때는 통계 기법을 사용하여 발화자의 사용 언어와 국가를 예측할 수 있다.

이하에서는 본 발명의 실시예에 의한 인공지능에 의한 독순술을 이용하여 발화자의 언어 및 국적을 식별하는 방법에 대해 도면을 참조하여 설명한다. 도 4는 본 발명의 일 실시예에 의한 인공지능에 의한 독순을 이용하여 발화자의 언어 및 국적을 식별하는 방법의 순서도이다.

제1 단계(S10) : 해당 장소에 있는 사람들의 얼굴 및 입술의 움직임을 트래킹하여 발화 중에 있는 발화자를 지정하여 촬영하는 단계

제2 단계(S20) : 상기 발화자의 촬영된 얼굴 및 입술 움직임 데이터를 실시간으로 서버 모듈로 전송하는 단계

제3 단계(S30) : 전송된 데이터를 기반으로 얼굴 및 입술 모양 데이터를 추출하고 인공지능에 의해 학습된 데이터와 비교하여 발화자의 사용 언어 및 국적을 판단하는 단계

제4 단계(S40) : 상기 제1 단계, 제2 단계 및 제3 단계를 반복하여 상기 해당 장소에 있는 복수의 발화자의 얼굴 및 입술 움직임 데이터를 분석하고 상기 해당 장소를 출입하는 사람들의 사용 언어 및 국적에 대한 통계를 생성하는 단계

제1 단계(S10)는 트래킹 촬영부(110)가 해당 장소에 있는 사람들에 대해 발화 중에 있는 사람을 감지하여 발화자의 얼굴과 입술에 줌을 하여 촬영을 시작하는 단계이다. 트래킹 촬영부(110)는 움직임 감지 센서와 얼굴 인식 센서를 구비하기 때문에 센서에 의해 사람과 얼굴을 감지하고 얼굴과 입술의 움직임을 촬영할 수 있다.

제 2단계(S20)는 상기 트래킹 촬영부(120)에서 촬영된 발화자의 얼굴 및 입술 움직임 데이터가 카메라 통신부(120)에 의해 서버 모듈(200)의 서버 통신부(220)로 전송되는 단계이다. 데이터 전송은 실시간으로 이루어지고 촬영된 데이터는 개인정보 보호를 위해 별도로 저장되지 않는다.

제3 단계(S30)는 입술모양 추출부(230)가 트래킹 촬영부(120)에서 촬영된 얼굴 및 입술의 움직임 데이터를 기반으로 얼굴 및 입술 모양 데이터를 추출하여 수학적 벡터 데이터로 변환하며, 입술모양 추출부(230)에서 변환한 수학적 벡터 데이터를 인공지능 학습부(210)에서 학습한 내용과 비교하여 발화자의 대화 내용을 분석하여 발화자의 사용 언어 및 국적을 판단하는 단계이다. 사용 언어 및 국적 판단이 완료된 자료는 데이터 암호화하고 일정 시간이 지나면 삭제되도록 처리할 수 있다. 데이터 암호화(Data Encryption)는 데이터의 실제 내용을 허가된 사용자만 확인할 수 있도록 은폐하는 기술인데, 대칭키 암호화 방식, 공개키 암호화 방식, 일방향 암호화 방식 등이 있다. 발화자의 대화 내용, 사용 언어 및 국적에 대한 정보는 보호가 필요한 개인정보로서 상기의 암호화 방식 중 바람직한 하나의 방식을 정하여 암호화할 수 있다.

제4 단계(S40)는 복수의 발화자의 대화 내용을 발췌하기 위해 상기 단계를 반복하며, 특정 장소에 있는 사람들에 대해 가능한 많은 수의 사람들의 얼굴 및 입술 움직임 데이터를 분석하고 해당 특정 장소에 출입하는 사람들의 사용 언어 및 국적을 통계 기법에 의해 수치화하는 단계이다.

카메라 모듈(100)은 복수 개일 수 있고, 예를 들어, 제1 구역에 설치된 제1 카메라 모듈, 제1 구역에 인접한 제2 구역에 설치된 제2 카메라 모듈일 수 있다.

서버 모듈(200)은 발화자의 얼굴형과 체형을 인식하여 발화자를 구분하는 체형 인식부(미도시) 및 발화자 정보 전달부(미도시)를 구비할 수 있다. 제1 카메라 모듈에서 전송받은 발화자의 얼굴 및 입술의 움직임 정보가 충분하지 않아 발화자의 대화 정보가 다시 필요한 경우, 체형 인식부에 저장된 발화자의 정보는 발화자 정보 전달부를 통하여 제2 카메라 모듈(100)로 전송된다. 상기 체형 인식부는 제1 카메라 모듈이 제1 구역에 있는 사람들의 체형과 열굴형을 스캔하여 전송된 정보를 분류하고 분석하여 상기 발화자 정보 전달부에 전송하고, 상기 발화자 정보 전달부에서 발화자의 체형과 얼굴형에 의해 제2 카메라 모듈로 발화자의 정보를 전달할 수 있다.

예를 들어, 제1 카메라 모듈은 제1 구역의 발화자에 대해 트래킹을 하여 얼굴 및 입술의 움직임을 촬영하며, 발화자가 제1 구역 내에서 대화를 하지 않고 제2 구역으로 이동하여 촬영을 하지 못하는 경우 발화자 정보 전달부를 통해 판별을 필요로 하는 발화자의 정보를 제2 카메라 모듈로 전달하여 제2 카메라 모듈이 판별을 필요로 하는 발화자의 얼굴 및 입술의 움직임만을 촬영하도록 한다.

한편, 카메라 모듈(100)은 제2 구역에 인접한 제3 구역에 설치된 제3 카메라 모듈을 더욱 구비할 수 있다. 제2 구역에서도 발화자가 대화를 하지 않고 제3 구역으로 이동하여 촬영을 하지 못하는 경우, 발화자 정보 전달부를 통해 판별을 필요로 하는 발화자의 정보를 제3 카메라 모듈로 전달하여 제3 카메라 모듈이 판별을 필요로 하는 발화자의 얼굴 및 입술의 움직임만을 촬영하도록 한다. 여기서, 판별을 하지 못한 발화자를 데이터 처리하고, 판별이 완료된 발화자의 데이터는 처리하지 않아 처리 프로세스를 간편화할 수 있다. 또한, 판별을 필요로 하는 발화자 정보를 다음 카메라 모듈로 전달할 때 체형 인식부에서 인식된 발화자 정보를 사용할 수 있다. 이것은 중복 카운팅을 방지하기 위한 것이다. 즉, 체형 인식부는 제1 구역에 위치한 모든 사람들의 얼굴과 체형을 식별하여 저장하고 그 정보를 발화자 정보 전달부에 전송한다. 따라서, 제1 구역에 있는 사람이 제2 구역이나 제3 구역으로 이동하더라도 모든 사람들의 사용 언어와 국적을 식별할 수 있도록 한다.

서버 모듈(200)은 발화자와 같이 대화하거나 같이 이동하는 발화자의 일행을 인식하는 그룹 분석부(미도시)를 더 포함할 수 있다. 그룹 분석부는 카메라 모듈(100)에 의해 촬영된 일행 중에서 이동하는 동안의 일행의 근접거리, 일행 중에서 서로 대화 여부를 판단하여, 일행 전원에 대하여 그룹으로 분류한다. 특정 그룹의 발화자의 일행 중 일부가 대화를 하지 않아 얼굴 및 입술의 움직임에 대한 촬영을 하지 못하는 경우, 상기 특정 그룹에 속하는 발화자의 사용 언어 및 국적에 의거하여 대화를 하지 않은 발화자의 사용 언어 및 국적을 상기 특정 그룹의 발화자와 동일하게 추정할 수 있다. 일반적으로 동일한 그룹은 동일 언어를 사용하는 경우가 많으므로, 상기와 같이 하여 특정 그룹의 일행 중 일부의 사용 언어 및 국적을 추정할 수 있다.

본 발명은 상기 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 제조될 수 있으며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

100 : 카메라 모듈
110 : 트래킹 촬영부
120 : 카메라 통신부
200 : 서버 모듈
210 : 인공지능 학습부
220 : 서버 통신부
230 : 입술모양 추출부
240 : 입술모양 해석부
250 : 통계 생성부

Claims

발화자의 얼굴 및 입술의 움직임을 트래킹하는 카메라 모듈; 및
발화자의 얼굴 및 입술 모양을 인지하고 해석하는 서버 모듈;을 포함하는 것을 특징으로 하는 인공지능에 의한 독순술을 이용하여 발화자의 언어 및 국적을 식별하는 시스템.
청구항 1에 있어서,
상기 카메라 모듈은, 발화자의 얼굴 및 입술의 움직임을 트래킹하여 촬영하는 트래킹 촬영부; 및 촬영된 얼굴 및 입술의 움직임 데이터를 상기 서버 모듈로 송신하는 카메라 통신부;를 포함하며,
상기 서버 모듈은, 관리자가 설정한 언어를 인공지능에 의해 얼굴 및 입술 움직임을 보고 언어를 학습하는 인공지능 학습부; 상기 카메라 통신부에서 송신한 데이터를 수신하는 서버 통신부; 상기 서버 통신부에서 전송받은 얼굴 및 입술의 움직임 데이터를 기반으로 얼굴 및 입술 모양 데이터를 추출하여 수학적 벡터 데이터로 변환하는 입술모양 추출부; 상기 입술모양 추출부에서 변환한 수학적 벡터 데이터를 상기 인공지능 학습부에서 학습한 내용과 비교하여 상기 발화자의 대화 내용을 분석하여 상기 발화자의 사용 언어 및 국적을 판단하는 입술모양 해석부; 및 상기 입술모양 해석부에서 판단한 복수의 발화자의 사용 언어 및 국적을 기반으로 복수의 발화자가 위치한 장소에 출입한 사람들에 대한 통계를 생성하는 통계 생성부;를 포함하는 것을 특징으로 하는 인공지능에 의한 독순술을 이용하여 발화자의 언어 및 국적을 식별하는 시스템.
청구항 1 또는 2의 시스템에 의해 인공지능에 의한 독순술을 이용하여 발화자의 언어 및 국적을 식별하는 방법으로서,
해당 장소에 있는 사람들의 얼굴 및 입술의 움직임을 트래킹하여 발화 중에 있는 발화자를 지정하여 촬영하는 제1 단계;
상기 발화자의 촬영된 얼굴 및 입술 움직임 데이터를 실시간으로 서버 모듈로 전송하는 제2 단계;
전송된 데이터를 기반으로 얼굴 및 입술 모양 데이터를 추출하고 인공지능에 의해 학습된 데이터와 비교하여 발화자의 사용 언어 및 국적을 판단하는 제3 단계;
상기 제1 단계, 제2 단계 및 제3 단계를 반복하여 상기 해당 장소에 있는 복수의 발화자의 얼굴 및 입술 움직임 데이터를 분석하고 상기 해당 장소를 출입하는 사람들의 사용 언어 및 국적에 대한 통계를 생성하는 제4 단계를 포함하는 인공지능에 의한 독순술을 이용하여 발화자의 언어 및 국적을 식별하는 방법.