KR20220056389A - Ai 얼굴 분석과 p2p 커넥션을 통한 온라인 실시간 수업 환경의 개선 방법 - Google Patents

Ai 얼굴 분석과 p2p 커넥션을 통한 온라인 실시간 수업 환경의 개선 방법 Download PDF

Info

Publication number
KR20220056389A
KR20220056389A KR1020200140928A KR20200140928A KR20220056389A KR 20220056389 A KR20220056389 A KR 20220056389A KR 1020200140928 A KR1020200140928 A KR 1020200140928A KR 20200140928 A KR20200140928 A KR 20200140928A KR 20220056389 A KR20220056389 A KR 20220056389A
Authority
KR
South Korea
Prior art keywords
face
students
student
teacher
online class
Prior art date
Application number
KR1020200140928A
Other languages
English (en)
Inventor
권의현
이동규
최재권
Original Assignee
권의현
이동규
최재권
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 권의현, 이동규, 최재권 filed Critical 권의현
Priority to KR1020200140928A priority Critical patent/KR20220056389A/ko
Publication of KR20220056389A publication Critical patent/KR20220056389A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • G06K9/62
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Signal Processing (AREA)
  • Psychiatry (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Social Psychology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

비대면 온라인 수업 시스템에 있어서, 교사가 진행하는 온라인 수업의 강의 영상을 생성하는 교사 클라이언트, 온라인 수업에 참여하는 학생들의 수강 영상을 생성하는 학생 클라이언트들, 학생 클라이언트들 및 교사 클라이언트 중 어느 하나로부터 전송되는 영상을 다른 클라이언트들에 송출하는 미디어 서버, 및 온라인 수업에서의 교사 및 학생들 간의 상호작용을 관리하는 메인 서버를 포함하고, 메인 서버는, 학생 클라이언트들을 조별로 분류하고, 학생 클라이언트들은, 각 학생 클라이언트가 속하는 조의 나머지 학생 클라이언트들의 수강 영상 및 강의 영상을 학생들에게 제공하고, 교사 클라이언트는, 학생들 중 집중력 부족으로 판정되는 미집중 학생들의 미집중 수강 영상을 교사에게 제공하는, 비대면 온라인 수업 시스템이 개시된다.

Description

AI 얼굴 분석과 P2P 커넥션을 통한 온라인 실시간 수업 환경의 개선 방법{TECHNIQUE FOR IMPROVING ENVIRONMENT OF REALTIME ONLINE CLASS BY AI FACE ANALYSIS AND P2P CONNECTION}
본 발명은 AI 얼굴 분석과 P2P 커넥션을 통한 온라인 실시간 수업 환경의 개선 방법에 관한 것이다. 보다 상세하게는, 본 발명은 AI 얼굴 분석에 의해 전체 학생의 영상 대신 집중력이 부족한 학생의 영상만을 교사에게 제공하고, 조별로 이루어지는 P2P 커넥션에 의해 조원들의 영상을 각 학생에게 제공하는 비대면 온라인 수업 시스템에 관한 것이다.
기존의 오프라인 대면 수업을 대체하여 온라인 비대면 수업이 이루어지고 있다. 온라인 비대면 수업에서는 교사와 학생들이 각자의 단말을 통해 서로의 영상을 실시간으로 공유할 수 있다.
참여자들이 물리적으로 분리되어 있는 온라인 비대면 수업의 특성상 오프라인 대면 수업에서와 같은 교사와 학생들 간의 유기적인 소통이 이루어지기 어려울 수 있다. 교사와 학생들 간의 소통을 위해, 온라인 비대면 수업에서는 교사의 수업 영상과 학생들의 수강 영상이 미디어 서버를 통해 각자의 단말 내지 클라이언트로 스트리밍될 수 있다.
다만, 학생들 전체의 수강 영상이 스트리밍되어 교사에게 전달되는 경우, 교사가 학생들의 수강 영상을 일일이 확인하며 집중 상태를 확인하기에는 수업 진행에 차질이 생길 우려가 있어, 온라인 비대면 수업에서 교사가 학생 관리 및 수업 진행을 동시에 하기가 어려울 수 있다. 특히, 모든 학생들의 수강 영상이 미디어 서버를 통해 스트리밍되는 경우 서버 비용이 과도하게 소요될 수 있다.
또한, 학생들 역시 오프라인 대면 수업 대비 온라인 비대면 수업에 집중하기가 어려울 수 있다. 다른 학생들의 수강 영상이 스트리밍되기는 하지만, 학생 수가 일정 범위를 벗어날 경우 4~6인 정도의 조별 토론이 아닌 이상 학생이 수업의 현장감을 느끼기는 어려울 수 있고, 다른 학생들과의 토론이 있는 경우에도 다수의 음성이 중복되어 원활한 진행이 어려울 수 있다.
따라서, 오프라인 대면 수업 대비 온라인 비대면 수업에서 발생하는 위와 같은 교사 측면의 문제점, 학생들 측면의 문제점 및 스트리밍 비용 측면의 문제점을 해결하기 위해 온라인 수업 시스템을 개선할 것이 요구될 수 있다.
특허문헌: 한국공개특허공보 제10-2020-0033700호(2020.03.30.)
본 발명에 의해 해결하고자 하는 기술적 과제는, 온라인 비대면 수업에서 발생하는 교사 측면, 학생 측면 및 비용 측면의 문제점들을 해결하기 위한 비대면 온라인 수업 시스템을 제공하는 것이다.
전술한 기술적 과제를 해결하기 위한 수단으로서, 본 발명의 일 측면에 따른 비대면 온라인 수업 시스템은, 교사가 진행하는 온라인 수업의 강의 영상을 생성하는 교사 클라이언트; 상기 온라인 수업에 참여하는 학생들의 수강 영상을 생성하는 학생 클라이언트들; 상기 학생 클라이언트들 및 상기 교사 클라이언트 중 어느 하나로부터 전송되는 영상을 다른 클라이언트들에 송출하는 미디어 서버; 및 상기 온라인 수업에서의 상기 교사 및 상기 학생들 간의 상호작용을 관리하는 메인 서버를 포함하고, 상기 메인 서버는, 상기 학생 클라이언트들을 조별로 분류하고, 상기 학생 클라이언트들은, 각 학생 클라이언트가 속하는 조의 나머지 학생 클라이언트들의 수강 영상 및 상기 강의 영상을 상기 학생들에게 제공하고, 상기 교사 클라이언트는, 상기 학생들 중 집중력 부족으로 판정되는 미집중 학생들의 미집중 수강 영상을 상기 교사에게 제공한다.
본 발명에 따른 비대면 온라인 수업 시스템에 의하면, P2P 커넥션 등을 통한 학생 클라이언트들 간의 연결 방식 및 미디어 서버를 통한 수업 영상의 스트리밍 방식이 혼합되어 학생들에게 보다 높은 집중도를 제공하는 조별 토론형 수업이 이루어질 수 있다.
즉, 메인 서버에 의해 학생 클라이언트들의 조별로 분류되어, 학생들의 수강 영상이 조별로 일부 학생들 간에만 공유될 수 있으므로, 전체 학생들의 수강 영상을 공유하는 경우 대비 수업의 현장감이 향상될 수 있고, 토론 수업을 진행하는 경우에도 조별로만 음성이 공유되어 음성 중복에 의한 불편이 감소할 수 있다.
또한, 학생들 전체가 수강 영상을 공유하는 대신 P2P 커넥션 등을 통해 조별로 일부 학생들끼리 수강 영상을 공유하는 경우, 교사의 수업 영상만이 미디어 서버를 통한 스트리밍으로 학생들에게 제공될 수 있으므로, 모든 학생들의 수강 영상을 스트리밍하는 경우에 비해 서버 비용이 큰 폭으로 절감될 수 있다. 특히, 조별로 일부 학생들 간에만 수강 영상을 공유할 경우 학생들 전체가 풀 메쉬 형태로 연결되는 경우 대비 네트워크 대역폭의 소모량이 감소할 수 있으므로, 조별 학생들 사이에서 보다 높은 화질로 수강 영상이 공유될 수 있다.
한편, 전체 학생들의 수강 영상이 미디어 서버를 통한 스트리밍으로 교사에게 제공되는 대신, AI 얼굴 분석에 의해 학생들 중 집중력 부족으로 판정되는 학생들의 수강 영상만이 교사에게 제공될 수 있으므로, 교사는 전체 학생들의 수강 상태를 일일이 확인할 필요 없이 AI 얼굴 분석에 의해 제공되는 학생들만을 확인하면 되므로, 온라인 수업이 보다 원활하게 진행될 수 있다.
도 1은 일부 실시예에 따른 비대면 온라인 수업 시스템이 동작하는 과정을 설명하기 위한 도면이다.
도 2는 일부 실시예에 따른 비대면 온라인 수업 시스템을 구성하는 요소들을 나타내는 블록도이다.
도 3은 일부 실시예에 따른 P2P 커넥션이 조별로 설정되는 방식을 설명하기 위한 도면이다.
도 4는 일부 실시예에 따른 미디어 서버가 질문이 있는 학생의 수강 영상을 스트리밍하는 과정을 설명하기 위한 도면이다.
도 5는 일부 실시예에 따른 학생들 중 집중력 부족으로 판정되는 학생들의 수강 영상이 교사에게 제공되는 방식을 설명하기 위한 도면이다.
도 6은 일부 실시예에 따른 수강 영상으로부터 학생들의 얼굴 위치 데이터, 얼굴 랜드마크 데이터 및 얼굴 각도 데이터를 추출하는 신경망 구조를 설명하기 위한 도면이다.
도 7은 일부 실시예에 따른 집중력 분석 데이터를 추출하는 과정을 설명하기 위한 도면이다.
도 8은 일부 실시예에 따른 랜드마크 CNN에 의해 추출되는 얼굴 랜드마크 데이터를 설명하기 위한 도면이다.
이하에서는 도면을 참조하여 본 발명의 실시예들이 상세하게 설명될 것이다. 이하에서의 설명은 실시예들을 구체화하기 위한 것일 뿐, 본 발명에 따른 권리범위를 제한하거나 한정하기 위한 것은 아니다. 본 발명에 관한 기술 분야에서 통상의 지식을 가진 자가 발명의 상세한 설명 및 실시예들로부터 용이하게 유추할 수 있는 것은 본 발명에 따른 권리범위에 속하는 것으로 해석되어야 한다.
본 발명에서 사용되는 용어는 본 발명에 관한 기술 분야에서 널리 사용되는 일반적인 용어로 기재되었으나, 본 발명에서 사용되는 용어의 의미는 해당 분야에 종사하는 기술자의 의도, 새로운 기술의 출현, 심사기준 또는 판례 등에 따라 달라질 수 있다. 일부 용어는 출원인에 의해 임의로 선정될 수 있고, 이 경우 임의로 선정되는 용어의 의미가 상세하게 설명될 것이다. 본 발명에서 사용되는 용어는 단지 사전적 의미만이 아닌, 명세서의 전반적인 맥락을 반영하는 의미로 해석되어야 한다.
본 발명에서 사용되는 '구성된다' 또는 '포함한다' 와 같은 용어는 명세서에 기재되는 구성 요소들 또는 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 일부 구성 요소들 또는 단계들은 포함되지 않는 경우, 및 추가적인 구성 요소들 또는 단계들이 더 포함되는 경우 또한 해당 용어로부터 의도되는 것으로 해석되어야 한다.
본 발명에서 사용되는 '제 1' 또는 '제 2' 와 같은 서수를 포함하는 용어는 다양한 구성 요소들 또는 단계들을 설명하기 위해 사용될 수 있으나, 해당 구성 요소들 또는 단계들은 서수에 의해 한정되지 않아야 한다. 서수를 포함하는 용어는 하나의 구성 요소 또는 단계를 다른 구성 요소들 또는 단계들로부터 구별하기 위한 용도로만 해석되어야 한다.
이하에서는 도면을 참조하여 본 발명의 실시예들이 상세하게 설명될 것이다. 본 발명에 관한 기술 분야에서 통상의 지식을 가진 자에게 널리 알려져 있는 사항들에 대해서는 자세한 설명이 생략된다.
도 1은 일부 실시예에 따른 비대면 온라인 수업 시스템이 동작하는 과정을 설명하기 위한 도면이다.
도 1을 참조하면, 비대면 온라인 수업 시스템에서 온라인 수업이 진행되는 가상의 교실 환경(110) 및 P2P 커넥션 및 미디어 서버를 통한 스트리밍으로 교사 클라이언트와 학생 클라이언트들이 서로 연결되는 연결 상태(120)가 도시되어 있다.
가상의 교실 환경(110)은 온라인 수업을 보다 현장감 있게 하기 위한 그래픽 유저 인터페이스(GUI)로 구현될 수 있다. 예를 들면, 학생들은 학생 클라이언트들을 통해 자신의 아바타를 활용하여 가상의 교실 환경(110)에서 조별 수업을 위한 조를 형성할 수 있다.
연결 상태(120)는 비대면 온라인 수업 시스템에서 P2P 커넥션 및 미디어 서버를 통한 스트리밍이 조합되어 있음을 나타낼 수 있다. 조별로 분류되는 학생들은 각 조의 내부에서 P2P 커넥션을 통해 서로 연결될 수 있고, 교사의 수업 영상은 미디어 서버를 통한 스트리밍으로 전체 학생들에게 전달될 수 있다. 이와 같은 P2P 커넥션 및 스트리밍의 조합에 의하면, 모든 학생들의 수강 영상이 미디어 서버를 통해 스트리밍되지 않으므로, 비대면 온라인 수업 시스템을 위한 스트리밍 서버 비용이 절감될 수 있다.
각 학생은 미디어 서버를 통한 스트리밍으로 교사의 수업 영상을 제공받을 수 있고, P2P 커넥션을 통해 조원들의 수강 영상을 제공받을 수 있다. 따라서, 각 학생은 조원들과 함께 있다고 느끼게 되어 오프라인 대면 수업에서와 같이 실제로 수업 현장에 있는 느낌을 받을 수 있다. 또한, 학생들이 조별로 분류되어 조원들끼리만 연결되어 수강 영상을 공유하게 되므로, 조별 토론이 진행되는 경우에도 다른 조원들의 음성에 의해 방해받지 않고 보다 원활한 토론이 진행될 수 있다.
종래의 방식과는 달리, 교사는 미디어 서버를 통해 스트리밍되는 전체 학생들의 수강 영상을 제공받지 않을 수 있다. 다만, 도시된 바와 같이 AI 얼굴 분석에 의해 학생들 중 일부가 집중하지 못하고 있다고 판정되는 경우, 해당 학생의 수강 영상이 별도의 P2P 커넥션을 통해 교사에게 제공될 수 있으므로, 교사는 모든 학생들의 수강 영상을 일일이 확인하지 않고서도 수업을 진행할 수 있으며, AI 얼굴 분석에 의한 일부 학생들만을 확인하는 방식으로 보다 효율적으로 온라인 수업을 진행할 수 있다.
도 2는 일부 실시예에 따른 비대면 온라인 수업 시스템을 구성하는 요소들을 나타내는 블록도이다.
도 2를 참조하면, 비대면 온라인 수업 시스템(200)은 교사 클라이언트(210), 학생 클라이언트들(220), 미디어 서버(230) 및 메인 서버(240)를 포함할 수 있다. 다만 이에 제한되는 것은 아니고, 도 2에 도시되는 요소들 외에 다른 범용적인 요소들이 비대면 온라인 수업 시스템(200)에 더 포함될 수 있다.
비대면 온라인 수업 시스템(200)은 교사 및 학생들에게 도 1에 예시된 바와 같은 온라인 수업 환경을 제공할 수 있다. 예를 들면, 비대면 온라인 수업 시스템(200)에서의 기능들은 모바일 또는 웹 애플리케이션의 형태로 구현될 수 있고, 교사 및 학생들은 교사 클라이언트(210) 및 학생 클라이언트들(220)의 애플리케이션을 통해 비대면 온라인 수업 시스템(200)에 액세스할 수 있다.
교사 클라이언트(210) 및 학생 클라이언트들(220)은 비대면 온라인 수업 시스템(200)을 구현하는 모바일 또는 웹 애플리케이션을 실행하기 위한 컴퓨팅 디바이스일 수 있다. 예를 들면, 교사 클라이언트(210) 및 학생 클라이언트들(220)은 메모리 및 프로세서를 구비하여 각종 애플리케이션들을 실행하는 PC, 스마트폰 및 태블릿 등의 전자 디바이스일 수 있다.
교사 클라이언트(210) 및 학생 클라이언트들(220)은 교사의 수업 영상 및 학생들의 수강 영상을 생성하기 위한 촬영 수단을 구비할 수 있고, 생성된 영상들과 AI 얼굴 분석에 관한 데이터를 미디어 서버(230) 및 메인 서버(240)를 거쳐 주고받기 위한 데이터 통신 수단을 구비할 수 있다.
미디어 서버(230)는 교사의 수업 영상을 학생 클라이언트들(220)에 송출하기 위한 스트리밍 서버일 수 있고, 교사의 허가하에 학생의 질문 영상을 다른 학생들에게 송출할 수도 있다. 메인 서버(240)는 비대면 온라인 수업 시스템(200)을 구현하는 애플리케이션에서의 기능들을 수행할 수 있다.
보다 상세하게는, 비대면 온라인 수업 시스템(200)에서 교사 클라이언트(210), 학생 클라이언트들(220), 미디어 서버(230) 및 메인 서버(240)는 다음과 같이 구성될 수 있다.
교사 클라이언트(210)는 교사가 진행하는 온라인 수업의 강의 영상을 생성할 수 있다. 교사는 노트북 캠 또는 스마트폰 카메라 등과 같은 촬영 수단을 구비하는 교사 클라이언트(210)를 통해 강의 영상을 생성할 수 있다. 강의 영상은 교사의 실시간 수업 영상이거나 교사가 설정하는 시각 자료일 수 있다.
학생 클라이언트들(220)은 온라인 수업에 참여하는 학생들의 수강 영상을 생성할 수 있다. 학생들이 PC, 태블릿 또는 스마트폰 등의 학생 클라이언트들(220)을 통해 온라인 수업에 참여하는 경우 학생 클라이언트들(220)에 구비되는 촬영 수단이 학생들의 수강 영상을 생성할 수 있다.
미디어 서버(230)는 학생 클라이언트들(220) 및 교사 클라이언트(210) 중 어느 하나로부터 전송되는 영상을 다른 클라이언트들에 송출할 수 있다. 예를 들면, 미디어 서버(230)는 교사 클라이언트(210)에 의해 생성되는 강의 영상을 학생 클라이언트들(220)에 송출할 수 있고, 또는 질문이 있는 학생의 학생 클라이언트로부터 질문 영상을 교사 클라이언트(210) 및 다른 학생 클라이언트들(220)에 송출할 수 있다.
메인 서버(240)는 온라인 수업에서의 교사 및 학생들 간의 상호작용을 관리할 수 있다. 메인 서버(240)는 비대면 온라인 수업 시스템(200)을 구현하는 애플리케이션 또는 프로그램을 관리할 수 있고, 학생들의 조 형성, 조별 P2P 커넥션의 형성, 질문이 있는 학생의 판정 및 집중력 분석 데이터에 기반한 집중력 부족 학생의 판정 등을 수행할 수 있다.
메인 서버(240)는, 학생 클라이언트들(220)을 조별로 분류할 수 있다. 예를 들면, 도 1에 도시된 바와 같이 16인의 학생들이 4인 1조의 4개조로 분류될 수 있고, 조의 생성 및 조원의 참가는 아바타를 활용한 그래픽 유저 인터페이스에 의해 수행될 수 있다.
학생 클라이언트들(220)은, 각 학생 클라이언트가 속하는 조의 나머지 학생 클라이언트들의 수강 영상 및 강의 영상을 학생들에게 제공할 수 있다. 예를 들면, 4인으로 구성되는 조의 조원은 본인의 학생 클라이언트를 통해 나머지 조원 3인의 수강 영상을 제공받을 수 있고, 동시에 교사의 강의 영상을 제공받을 수 있다. 이와 같은 조별 분류에 의하면 조원들의 수업 현장감 상승, 조별 토론시 다수 음성의 겹침 방지 및 수강 영상 공유의 대역폭 감소와 같은 효과들이 수반될 수 있다.
교사 클라이언트(210)는, 학생들 중 집중력 부족으로 판정되는 미집중 학생들의 미집중 수강 영상을 교사에게 제공할 수 있다. 학생 클라이언트들(220)에서 수행되는 AI 얼굴 분석에 의해 미집중 상태로 판정되는 학생이 존재하는 경우, 메인 서버(240)는 해당 학생의 학생 클라이언트 및 교사 클라이언트 간의 P2P 커넥션을 형성할 수 있고, 이를 통해 교사에게 미집중 학생의 수강 영상이 제공되어, 교사가 전체 학생들을 일일이 확인하지 않아도 어떤 학생이 집중을 못하고 있는지를 효율적으로 확인할 수 있다.
도 3은 일부 실시예에 따른 P2P 커넥션이 조별로 설정되는 방식을 설명하기 위한 도면이다.
도 3을 참조하면, 메인 서버(240)가 기존 학생들(221, 222, 223)의 조에 신규 학생(224)을 추가하는 과정이 도시되어 있다. 학생들(221~224)의 학생 클라이언트들 간의 P2P 커넥션은 메인 서버(240)에 의해 형성될 수 있다. P2P 커넥션은 예를 들면 WebRTC 기술을 이용한 연결을 의미할 수 있다.
P2P 커넥션이 설정된 이후에는 학생들(221~224)의 수강 영상이 서로의 학생 클라이언트들에서 공유될 수 있다. 다만, 교사 클라이언트(210)에서 생성되는 강의 영상은 P2P 커넥션이 아닌 미디어 서버(230)를 통한 스트리밍에 의해 학생들(221~224)에게 전달될 수 있다.
즉, 메인 서버(240)는, 학생 클라이언트들(220)을 분류하는 각 조에 속하는 학생 클라이언트들의 상호간에 P2P 커넥션을 설정하고, 학생 클라이언트들(220)은, P2P 커넥션을 통해 송출되는 나머지 학생 클라이언트들의 수강 영상 및 미디어 서버(230)를 통해 송출되는 강의 영상을 학생들에게 제공할 수 있다.
그에 따르면, 전체 학생들이 아닌 자신의 조원들만의 수강 영상이 공유될 수 있어 온라인 수업 환경이 보다 오프라인 현장에 가깝게 느껴질 수 있고, 조별 토론이 진행되더라도 조원들의 수강 영상만이 공유되므로 다수의 다른 학생들의 음성이 중복되는 것이 방지될 수 있으며, 조원 외 나머지 학생들의 수강 영상을 공유할 필요가 없으므로, 수강 영상의 공유로 인한 네트워크 대역폭이 저감되어 조원들의 수강 영상이 저화질로 전환되지 않고 고화질로 유지될 수 있다.
구체적으로, 위와 같은 미디어 서버(230)에 의한 스트리밍 방식과 P2P 커넥션 방식의 조합에 의하면, 기존에 온라인 수업에 참여하는 학생들의 전체 수강 영상을 미디어 서버(230)로 스트리밍하던 방식 대비 스트리밍 비용이 대폭 감소할 수 있고, 전체 학생들을 모두 P2P 커넥션으로 연결하는 대신 조원들만이 연결될 수 있으므로, 6인의 학생들만 HD 화질로 연결되더라도 약 7.5 Mbps의 대역폭이 요구되고, 약 3 Mbps의 일반 가정집의 데이터 처리 속도를 상회하게 되어 화질이 대폭 저하되고, 학생들의 수강 영상을 공유하는 의미가 퇴색되던 문제가 해결될 수 있다.
한편, 온라인 수업에 참여하는 학생들을 구분하는 조들은 교사 클라이언트(210)를 통해 교사가 생성할 수 있고, 또는 학생들 중 어느 한 명이 생성할 수도 있다. 예를 들면, 도 1에서와 같이 4인 1조의 조들이 생성될 수 있다.
조들이 생성된 이후, 온라인 수업에 참여하는 학생들은 어떤 조에 참여할지를 직접 선택할 수 있다. 예를 들면, 비대면 온라인 수업 시스템(200)을 구현하는 애플리케이션이 그래픽 유저 인터페이스(GUI)를 제공하는 경우, 학생들(221~224)은 애플리케이션의 GUI 상에서 자신의 아바타를 이동시켜 각 조에 참여할 수 있다. 즉, 비대면 온라인 수업 시스템(200)에서 P2P 커넥션의 설정은 아바타를 활용한 그래픽 유저 인터페이스(GUI)에 의해 수행될 수 있다.
예시로서, 신규 학생(224)의 아바타가 도 1에서와 같은 가상의 교실 환경(110)에서 학생들(221~223)의 조에서 남는 자리에 앉는 경우, 메인 서버(240)는 신규 학생(224)의 학생 클라이언트에 학생들(221~223)의 학생 클라이언트들의 목록을 전달할 수 있고, 이를 활용하여 신규 학생(224)의 학생 클라이언트에서는 학생들(221~223)의 학생 클라이언트들과의 WebRTC P2P 커넥션이 설정될 수 있다.
도 4는 일부 실시예에 따른 미디어 서버가 질문이 있는 학생의 수강 영상을 스트리밍하는 과정을 설명하기 위한 도면이다.
도 4를 참조하면, 손을 들고 있는 학생의 클라이언트(225)가 감지되는 경우 메인 서버(240)가 교사의 허가 하에 손을 들고 있는 학생의 질문 영상을 미디어 서버(230)를 통해 나머지 학생들의 클라이언트(226)에 전달하는 방식이 도시되어 있다.
즉, 비대면 온라인 수업 시스템(200)에서, 메인 서버(240)는, 수강 영상에서 3초 이상 손을 들고 있는 학생이 감지되고, 손을 들고 있는 학생에 대한 교사의 허가가 있는 경우, 손을 들고 있는 학생의 학생 클라이언트(225)를 미디어 서버(230)에 접속하고, 미디어 서버(230)는, 손을 들고 있는 학생의 수강 영상을 교사 클라이언트(210) 및 학생 클라이언트들(226)에 송출할 수 있다.
비대면 온라인 수업 시스템(200)이 위와 같이 구성되는 경우, 미디어 서버(230)를 통한 스트리밍이 교사의 수업 영상만을 제공하는 경우에도, 즉 모든 학생들의 수강 영상이 미디어 서버(230)를 통해 스트리밍되지 않는 경우에도, 질문이 있는 학생의 질문 영상이 교사 및 다른 학생들에게 전달될 수 있으므로, 스트리밍 비용을 절감하면서도 교사와 학생들 간의 의사소통이 원활하게 이루어질 수 있다.
특히, 모션 인지 기술의 적용에 의해 학생 클라이언트들(220)에 의해 손을 들고 있는지 여부가 감지될 수 있으므로, 질문을 위한 허가 절차가 보다 원활하게 진행될 수 있다.
도 5는 일부 실시예에 따른 학생들 중 집중력 부족으로 판정되는 학생들의 수강 영상이 교사에게 제공되는 방식을 설명하기 위한 도면이다.
도 5를 참조하면, AI 얼굴 분석에 의해 학생 클라이언트들(220)에서 추출되는 학생들의 집중력 분석 데이터가 교사 클라이언트(210)로 전달되는 과정이 도시되어 있다. 도 5에서는 메인 서버(240)가 개입하지 않는 것으로 도시되어 있으나, 필요에 따라 분석 데이터가 전달되는 과정에서 메인 서버(240)가 중간 절차를 수행할 수도 있다.
예를 들면, 학생 클라이언트들(220)은, 수강 영상으로부터 학생들에 대한 집중력 분석 데이터를 추출하여 메인 서버(240)에 전송하고, 메인 서버(240)는, 집중력 분석 데이터에 기초하여 미집중 학생들을 판정하고, 미집중 학생들의 학생 클라이언트들 및 교사 클라이언트(210) 간에 추가 P2P 커넥션을 설정하고, 교사 클라이언트(210)는, 추가 P2P 커넥션을 통해 송출되는 미집중 수강 영상을 교사에게 제공할 수 있다.
위와 같은 비대면 온라인 수업 시스템(200)에서의 AI 얼굴 분석에 의하면, 학생 클라이언트들(220)이 학생들의 수강 영상을 분석하여 어떤 학생이 집중력이 저하되었는지를 판정하여 메인 서버(240)에 전송할 수 있고, 추가 P2P 커넥션에 의해 집중력이 저하된 학생의 영상이 교사 클라이언트(210)에 전달될 수 있어, 교사가 전체 학생들의 수강 영상을 일일이 확인하지 않더라도 집중력이 저하되어 관심이 필요한 학생을 적절하게 확인하고 그에 필요한 조치를 취하는 것이, 수업 진행을 방해하지 않으면서도 수행될 수 있다.
도시된 바와 같이, 학생 클라이언트들(220)에서는 AI 얼굴 탐지로서 학생들에 대한 집중력 분석 데이터를 추출하는 과정이 2단계로 수행될 수 있다. 즉, AI 얼굴 탐지 과정은 CNN(Convolutional Neural Network)을 활용하여 학생들의 수강 영상으로부터 얼굴의 위치, 얼굴의 랜드마크 및 얼굴의 각도를 추출하는 첫번째 단계와, 첫 단계에서 추출된 데이터들에 기초하여 집중력 분석 데이터를 추출하는 두번째 단계로 구성될 수 있다.
즉, AI 얼굴 탐지 과정의 첫번째 단계에서, 학생 클라이언트들(220)은, 수강 영상으로부터 추출되는 학생들의 얼굴 위치 데이터, 얼굴 랜드마크 데이터 및 얼굴 각도 데이터에 기초하여 집중력 분석 데이터를 추출할 수 있다.
도 6은 일부 실시예에 따른 수강 영상으로부터 학생들의 얼굴 위치 데이터, 얼굴 랜드마크 데이터 및 얼굴 각도 데이터를 추출하는 신경망 구조를 설명하기 위한 도면이다.
도 6을 참조하면, 수강 영상으로부터 얼굴 위치 데이터를 추출하는 첫번째 단계(610) 및 얼굴 위치 데이터에 기초하여 얼굴 랜드마크 데이터 및 얼굴 각도 데이터를 추출하는 두번째 단계(620)가 도시되어 있다. 도시된 바와 같이, 비대면 온라인 수업 시스템(200)의 AI 얼굴 탐지 과정의 첫번째 단계(610) 및 두번째 단계(620)는 모두 CNN과 같은 인공 신경망을 활용하여 수행될 수 있다.
AI 얼굴 탐지 과정의 첫번째 단계(610)에서, 학생 클라이언트들(220)은, 수강 영상으로부터 학생들의 얼굴 중심 좌표(cx, cy), 얼굴 너비(w) 및 얼굴 높이(h)를 추출하는 위치 CNN(611)을 활용하여 얼굴 위치 데이터를 추출할 수 있다.
구체적으로, 학생 클라이언트들(220)의 촬영 수단에 의해 수강 영상이 생성되면, 해당 영상의 학생 화면이 128*128의 크기로 조정되어, 위치 CNN(611)의 입력으로 사용될 수 있다. 위치 CNN(611)은 오브젝트 검출 네트워크(Object Detection Network)로서, 싱글 샷 디텍터(Single Shot Detector) 모델에 해당할 수 있다.
128*128의 크기의 컬러별로 3*128*128의 피쳐 맵에 대해 다수의 컨볼루션 연산이 수행되며 피쳐 맵의 크기가 8*8까지 축소될 수 있고, 위치 CNN(611)의 후반부의 16*16 피쳐 맵 및 8*8 피쳐 맵이 최종적으로 얼굴 중심 좌표(cx, cy), 얼굴 너비(w) 및 얼굴 높이(h)의 추출에 사용될 수 있다.
16*16 피쳐 맵 및 8*8 피쳐 맵에 대해서는 각각 2개, 5개의 디텍터들이 사용될 수 있고, 각 디텍터는 예측값과 실제 얼굴의 위치를 변환하는 사전 정의된 앵커(anchor)에 의해 얼굴 위치 탐지를 수행할 수 있고, 디텍터들은 전체 이미지 크기 대비 0.3배 내지 1.0배의 크기를 갖는 얼굴을 탐지하는 것에 특화될 수 있다.
디텍터들로부터 832개의 얼굴 위치 후보들이 출력될 수 있고, 그 중에서 컨피던스(confidence)가 가장 높게 예측된 하나의 후보를 추출하여, 임계치와의 비교를 통해 얼굴 중심 좌표(cx, cy), 얼굴 너비(w) 및 얼굴 높이(h)가 추출될 수 있다. 다만, 임계치를 초과하는 후보가 존재하지 않는 경우, 수강 영상의 화면 상에서 얼굴이 탐지되지 않은 것으로 결정될 수 있다.
이후, AI 얼굴 탐지 과정의 두번째 단계(620)에서, 학생 클라이언트들(220)은, 얼굴 위치 데이터에 기초하여 학생들의 고개가 회전한 각도를 요(yaw), 피치(pitch) 및 롤(roll)로 구분하여 추출하는 각도 CNN(621)을 활용하여 얼굴 각도 데이터를 추출할 수 있고, 얼굴 위치 데이터에 기초하여 학생들의 얼굴에서 68개의 랜드마크들을 추출하는 랜드마크 CNN(622)을 활용하여 얼굴 랜드마크 데이터를 추출할 수 있다.
구체적으로, 얼굴 중심 좌표(cx, cy), 얼굴 너비(w) 및 얼굴 높이(h)를 포함하는 얼굴 위치 데이터에 기초하여 수강 영상의 학생 화면에서 얼굴 부위가 추출될 수 있고, 이후 112*112의 크기로 축소될 수 있다. 112*112의 크기로 축소된 이미지는 다시 각도 CNN(621) 및 랜드마크 CNN(622)에 입력될 수 있다. 각도 CNN(621) 및 랜드마크 CNN(622)에서는 신경망 레이어들 및 네트워크들을 거쳐 각각 요(yaw), 피치(pitch) 및 롤(roll)의 3방향 고개 회전 각도 및 68개의 얼굴 랜드마크들이 출력될 수 있다.
전술한 바와 같이, 첫번째 단계(610)에서 추출되는 얼굴 위치 데이터, 및 두번째 단계(620)에서 추출되는 얼굴 각도 데이터 및 얼굴 랜드마크 데이터는, 이후 각 학생의 집중력 분석 데이터를 산출하기 위한 기초가 될 수 있다. 한편, 위치 CNN(611), 각도 CNN(621) 및 랜드마크 CNN(622)는 모두 AI 얼굴 분석을 수행하기 위해 미리 학습되어 비대면 온라인 수업 시스템(200)의 애플리케이션에 저장될 수 있다.
도 7은 일부 실시예에 따른 집중력 분석 데이터를 추출하는 과정을 설명하기 위한 도면이다.
도 7을 참조하면, 집중력 분석 데이터를 추출하기 위해 활용되는 입력 정보(710)는 얼굴 위치 데이터, 얼굴 랜드마크 데이터 및 얼굴 각도 데이터를 포함할 수 있고, 분석의 결과물에 해당하는 출력 정보(720)는 집중력 분석 데이터를 의미할 수 있다.
즉, 집중력 분석 데이터는, 학생들이 자리를 비웠을 확률(U R ), 눈을 감고 있을 확률(CER), 고개를 돌린 확률 및 집중력이 흐트러진 정도(FOCUS POINT)를 포함할 수 있다.
학생들이 자리를 비웠을 확률(U R )은 수강 영상에서 얼굴이 감지되는 빈도에 기초하여 산출될 수 있다. 즉, 학생 클라이언트들(220)은, 수강 영상에서 5초 동안 학생들의 얼굴이 감지된 프레임 수에 기초하여 자리를 비웠을 확률(721)을 산출할 수 있다.
5초 동안 학생들의 얼굴이 감지된 프레임 수(DFC, Detected Frame Count)에 의하면 얼굴 감지 가중치(W detected )가 산출될 수 있고, 다시 얼굴 감지 가중치(W detected )에 기초하여 자리를 비웠을 확률(U R )이 아래와 같이 산출될 수 있다.
수학식 1
Figure pat00001
수학식 1에서와 같이, 얼굴 감지 가중치(W detected )는 5초 동안 학생들의 얼굴이 감지된 프레임 수(DFC)의 3승에 비례하므로, 학생 클라이언트들(220)의 컴퓨터 성능 등의 이유로 짧은 시간 동안 얼굴이 감지되지 않더라도 자리 비움으로 오작동하는 것이 방지될 수 있다. 동일한 방식으로, 얼굴이 비감지된 프레임 수(UFC, Undetected Frame Count) 또한 산출될 수 있고, 이후 자리를 비웠을 확률(U R )은 DFCUFC의 비율로서 위와 같이 도출될 수 있다.
눈을 감고 있을 확률(CER)은 얼굴 랜드마크 데이터에서 도출되는 눈 관련 데이터에 기초하여 산출될 수 있다. 즉, 학생 클라이언트들(220)은, 학생들의 눈 너비 및 눈 높이에 대한 눈 크기 비율(EAR), 평소 눈 크기(AUE), 감았을 때 눈 크기(BUE) 및 얼굴 각도 데이터에 기초하여 눈을 감고 있을 확률(CER)을 산출할 수 있다. 눈을 감고 있을 확률(CER)의 구체적인 산출 방식은 도 8에서 후술될 수 있다.
도 8은 일부 실시예에 따른 랜드마크 CNN에 의해 추출되는 얼굴 랜드마크 데이터를 설명하기 위한 도면이다.
도 8을 참조하면, 랜드마크 CNN(622)에 의해 추출되는 얼굴 랜드마크 데이터(800) 및 얼굴 랜드마크 데이터(800)의 왼쪽 눈 부분(810) 및 오른쪽 눈 부분(820)이 도시되어 있다. 68개로 구성되는 얼굴 랜드마크 데이터(800)는 CMU Brandon Amos의 얼굴 랜드마크를 의미할 수 있다.
우선 아래와 같이, 왼쪽 눈 부분(810)에서 왼쪽 눈 높이(L h ) 및 왼쪽 눈 너비(L w )가 계산될 수 있고, 오른쪽 눈 부분(820)에서 오른쪽 눈 높이(R h ) 및 오른쪽 눈 너비(R w )가 계산될 수 있다.
수학식 2
Figure pat00002
수학식 2에서, dist(X,Y)는 랜드마크 X 및 랜드마크 Y 사이의 거리를 의미할 수 있다. 이후, 평균 눈 높이(Eye Height)는 왼쪽 눈 높이(L h ) 및 오른쪽 눈 높이(R h )의 평균으로 계산될 수 있고, 평균 눈 너비(Eye Width)는 왼쪽 눈 너비(L w ) 및 오른쪽 눈 너비(R w )의 평균으로 계산될 수 있다. 이와 같은 평균 눈 높이(Eye Height) 및 평균 눈 너비(Eye Width)에 의하면, 아래와 같이 눈 크기 비율(EAR, Eye Aspect Ratio)이 계산될 수 있다.
수학식 3
Figure pat00003
평균 눈 높이(Eye Height) 또는 평균 눈 너비(Eye Width)와 같은 직접적인 수치가 아닌, 눈 크기 비율(EAR)이 활용되는 이유는, 화면과 학생 간의 거리를 고려하여 거리에 따라 높이나 너비는 변할 수 있으나 비율은 일정하다는 것일 수 있다.
다만, 단순히 눈 크기 비율(EAR)을 사용하게 되면, 학생마다 눈의 크기가 다르다는 점, 및 눈을 감고 있는 것이 자고 있는 것을 의미하는 것은 아니라는 점에 의해, 눈을 감고 있을 확률(CER)의 정확도에 문제가 생길 수 있다.
즉, 평균적인 눈 크기를 기준으로 눈의 개폐 여부를 확인하게 되면 눈이 작은 학생은 눈을 뜨고 있어도 눈을 감고 있는 것으로 판단되는 오류가 생길 수 있다. 따라서, 학생별로 기준이 되는 눈 크기가 다르게 설정되어야 하며, 이 때 통계적 분석의 이상치(Outlier) 제거 기법을 이용하여, 학생마다 다른 기준치에 의해 눈의 개폐 여부가 판단될 수 있다. 또한, 눈을 감고 있는 것은 눈을 깜빡이고 있는 경우를 포함하므로, 순간적인 깜빡임에 근거하여 눈을 감고 있을 확률(CER)이 왜곡되지 않도록, 여기서도 이상치 제거 기법이 활용될 수 있다.
이를 위해, 학생이 눈을 깜빡이지 않는 평소의 5초 동안의 눈 크기 비율(EAR)의 값 및 학생이 자연스럽게 눈을 깜빡이는 때의 5초 동안의 눈 크기 비율(EAR)의 값이 수집될 수 있고, 그 데이터 집합이 다시 4사분위로 구분될 수 있다. 4사분위로 구분되는 데이터 집합에서는 사분위 범위 및 이상치 범위가 아래와 같이 정의될 수 있다.
수학식 4
Figure pat00004
수학식 4에서와 같이, 사분위 범위는 데이터 집합의 3사분위 경계값(75%)에서 1사분위 경계값(25%)까지의 범위를 의미할 수 있고, 이상치 범위는 다시 사분위 범위에 근거하여 결정될 수 있다.
이상치 제거 기법의 목적은 눈을 감았을 때의 이상치를 제거하기 위한 것이므로, 1사분위 이상치 범위만이 사용될 수 있다. 사분위 범위는 학생의 평소 눈 크기(AUE, Average User Eye)를 의미할 수 있고, 이상치 범위는 학생이 눈을 감았을 때의 눈 크기(BUE, Blink User Eye)를 의미할 수 있다. 이에 따르면, 학생별로 상이한 눈 크기를 반영하여 각 학생이 자고 있는지 여부가 판단될 수 있으며, 단순히 학생이 눈을 깜빡이고 있는 것이 지속적으로 눈을 감고 자고 있는 것과 구별될 수 있다.
한편, 위와 같은 과정들은 학생이 정면을 바라보고 있다는 가정 하에 이루어지는 것으로서, 학생이 고개를 위로 들거나 아래로 내리고 있다면 각도에 따라 눈을 감고 있는지 여부가 잘못 판단될 수 있으므로, 눈을 감고 있을 확률(CER)을 구하는 과정에 얼굴 각도 데이터가 아래와 같이 반영될 수 있다.
수학식 5
Figure pat00005
수학식 5에서와 같이, 눈을 감고 있을 확률(CER)은 최종적으로, 학생의 얼굴 각도 데이터의 피치(Pitch)에 의해 결정되는 가중치(CEW, Closed Eye Weight), 평소 눈 크기(AUE), 감았을 때 눈 크기(BUE) 및 눈 크기 비율(EAR)에 의해 결정될 수 있다.
이상에서 도 7의 출력 정보(720)에서의 집중력 분석 데이터로서 자리를 비웠을 확률(U R ) 및 눈을 감고 있을 확률(CER)이 설명되었으며, 이하에서는 고개를 돌린 확률 및 집중력이 흐트러진 정도(FOCUS POINT)가 설명될 수 있다.
고개를 돌린 확률은 얼굴 각도 데이터에 기초하여 산출될 수 있다. 즉, 학생 클라이언트들(220)은, 특정 시간 동안의 얼굴 각도 데이터의 평균치에 기초하여 고개를 돌린 확률을 산출할 수 있다. 이 경우에서도, 학생의 짧은 움직임에 의해 고개 돌림으로 판정되는 것을 방지하기 위해 특정 시간 동안의 평균치가 이용될 수 있다.
집중력이 흐트러진 정도(FOCUS POINT)는 퍼지 알고리즘(Fuzzy algorithm)의 변형에 기초하여 산출될 수 있다. 즉, 학생 클라이언트들(220)은, 학생들의 눈 너비 및 눈 높이에 대한 눈 크기 비율(EAR)에 기초하는 제1 집중력 수치(F1), 눈 크기 비율의 변화율(ΔEAR)에 기초하는 제2 집중력 수치(F2) 및 학생들의 입 크기 비율(Γ)에 기초하는 제3 집중력 수치(F3)에 대한 가중 평균으로 집중력이 흐트러진 정도(FOCUS POINT)를 산출할 수 있다.
제1 집중력 수치(F1)는 눈 크기 비율(EAR)로 모델링될 수 있다. 학생이 호기심 또는 매력 등을 느낄 때 눈 크기와 눈 크기 비율(EAR)이 변경된다는 점에 착안하여, 제1 집중력 수치(F1)는 아래와 같이 도출될 수 있다.
수학식 6
Figure pat00006
수학식 6에 따르면, 눈 크기 비율(EAR)에 대한 1차식으로 0.8의 값까지 제1 집중력 수치(F1)가 선형적으로 증가하다가, 이후 0.8의 값으로 유지되고, 다시 제1 집중력 수치(F1)가 1의 값까지 선형적으로 증가할 수 있다. 한편, 경계가 되는 눈 크기 비율(EAR)의 수치는 학생의 눈 최소 크기와 눈 최대 크기에 관한 수치들에 의해 결정될 수 있다.
제2 집중력 수치(F2)는 눈 크기 비율의 변화율(ΔEAR)에 의해 모델링될 수 있다. 온라인 수업 중에는 자연스러운 눈의 움직임이 나오지만, 사진이나 그림이 띄워지면 눈 크기 비율의 변화율(ΔEAR)이 낮아질 것이라는 점에 착안하여, 제2 집중력 수치(F2)는 아래와 같이 모델링될 수 있다.
수학식 7
Figure pat00007
수학식 7에서도, 제2 집중력 수치(F2)는 최초 구간에서 눈 크기 비율의 변화율(ΔEAR)에 대한 1차식에 따라 0.8의 수치까지 선형적으로 증가하고, 이후 0.8의 수치로 유지되며, 다시 1의 수치까지 선형적으로 증가할 수 있다.
제3 집중력 수치(F3)는 입 크기 비율(Γ)에 기초하여 모델링될 수 있다. 원근감에 의한 오차를 제거하기 위해 입 크기 대신 입 크기 비율(Γ)이 사용될 수 있다. 수업 중에 학생이 하품을 하거나 잡담을 하는 것은 입의 움직임이 감지됨과 동시에 집중력이 낮아졌음을 의미한다는 점에서, 제3 집중력 수치(F3)는 다음과 같이 모델링될 수 있다.
수학식 8
Figure pat00008
수학식 8에서와 같이, 제3 집중력 수치(F3)는 입 크기 비율(Γ)에 대한 2차 함수로 모델링될 수 있다. 이는 입의 경우 눈보다 변화값이 크기 때문에 1차 함수로 모델링하게 되면 작은 변화에 과도하게 민감하게 되기 때문이다. 작은 변화에 보다 둔감해지기 위해, 입 크기 비율(Γ)에 대한 2차식으로 제3 집중력 수치(F3)가 모델링될 수 있다.
수학식 6 내지 8에서와 같이 제1 집중력 수치(F1), 제2 집중력 수치(F2) 및 제3 집중력 수치(F3)가 산출되는 경우, 이들을 활용하여 종합적인 집중력 수치로서 최종적으로 집중력이 흐트러진 정도(FOCUS POINT)가 산출될 수 있다. 다만, 제1 집중력 수치(F1), 제2 집중력 수치(F2) 및 제3 집중력 수치(F3)에 대해서는 가중치들이 적용될 수 있다.
입 크기 비율(Γ)은 하품 또는 잡담을 나타낼 수 있어 집중력 저하를 가장 잘 나타낼 수 있다는 점에서, 입 크기 비율(Γ)에 의한 제3 집중력 수치(F3)에 대해 가장 높은 가중치(w3)가 적용될 수 있다.
눈 크기 비율(EAR)은 사람마다 눈을 크게 뜨는 경우에 차이가 있고, 너무 작아질 경우 눈을 감고 있을 확률(CER)에 반영될 수 있으므로, 제1 집중력 수치(F1)에 대해서는 두번째로 높은 가중치(w1)가 적용될 수 있다.
눈 크기 비율의 변화율(ΔEAR)은 그림이나 사진을 놓지 않는 이상 집중력에 크게 영향을 주는 요소가 아니므로, 제2 집중력 수치(F2)에 대해서는 가장 낮은 가중치(w2)가 적용될 수 있다.
위와 같은 제1 집중력 수치(F1), 제2 집중력 수치(F2) 및 제3 집중력 수치(F3)에 대한 가중치들(w1, w2, w3)에 의하면, 집중력이 흐트러진 정도(FOCUS POINT)가 아래와 같이 계산될 수 있다.
수학식 9
Figure pat00009
이상에서 본 발명의 실시예들이 상세하게 설명되었으나 본 발명에 따른 권리범위가 이에 한정되는 것은 아니고, 다음의 청구범위에 기재되어 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명에 따른 권리범위에 포함되는 것으로 해석되어야 한다.

Claims (13)

  1. 비대면 온라인 수업 시스템에 있어서,
    교사가 진행하는 온라인 수업의 강의 영상을 생성하는 교사 클라이언트;
    상기 온라인 수업에 참여하는 학생들의 수강 영상을 생성하는 학생 클라이언트들;
    상기 학생 클라이언트들 및 상기 교사 클라이언트 중 어느 하나로부터 전송되는 영상을 다른 클라이언트들에 송출하는 미디어 서버; 및
    상기 온라인 수업에서의 상기 교사 및 상기 학생들 간의 상호작용을 관리하는 메인 서버를 포함하고,
    상기 메인 서버는, 상기 학생 클라이언트들을 조별로 분류하고,
    상기 학생 클라이언트들은, 각 학생 클라이언트가 속하는 조의 나머지 학생 클라이언트들의 수강 영상 및 상기 강의 영상을 상기 학생들에게 제공하고,
    상기 교사 클라이언트는, 상기 학생들 중 집중력 부족으로 판정되는 미집중 학생들의 미집중 수강 영상을 상기 교사에게 제공하는, 비대면 온라인 수업 시스템.
  2. 제 1 항에 있어서,
    상기 메인 서버는, 상기 학생 클라이언트들을 분류하는 각 조에 속하는 학생 클라이언트들의 상호간에 P2P 커넥션을 설정하고,
    상기 학생 클라이언트들은, 상기 P2P 커넥션을 통해 송출되는 상기 나머지 학생 클라이언트들의 수강 영상 및 상기 미디어 서버를 통해 송출되는 상기 강의 영상을 상기 학생들에게 제공하는, 비대면 온라인 수업 시스템.
  3. 제 2 항에 있어서,
    상기 P2P 커넥션의 설정은 아바타를 활용한 그래픽 유저 인터페이스(GUI)에 의해 수행되는, 비대면 온라인 수업 시스템.
  4. 제 1 항에 있어서,
    상기 메인 서버는, 상기 수강 영상에서 3초 이상 손을 들고 있는 학생이 감지되고, 상기 손을 들고 있는 학생에 대한 상기 교사의 허가가 있는 경우, 상기 손을 들고 있는 학생의 학생 클라이언트를 상기 미디어 서버에 접속하고,
    상기 미디어 서버는, 상기 손을 들고 있는 학생의 수강 영상을 상기 교사 클라이언트 및 상기 학생 클라이언트들에 송출하는, 비대면 온라인 수업 시스템.
  5. 제 1 항에 있어서,
    상기 학생 클라이언트들은, 상기 수강 영상으로부터 상기 학생들에 대한 집중력 분석 데이터를 추출하여 상기 메인 서버에 전송하고,
    상기 메인 서버는, 상기 집중력 분석 데이터에 기초하여 상기 미집중 학생들을 판정하고, 상기 미집중 학생들의 학생 클라이언트들 및 상기 교사 클라이언트 간에 추가 P2P 커넥션을 설정하고,
    상기 교사 클라이언트는, 상기 추가 P2P 커넥션을 통해 송출되는 상기 미집중 수강 영상을 상기 교사에게 제공하는, 비대면 온라인 수업 시스템.
  6. 제 5 항에 있어서,
    상기 학생 클라이언트들은, 상기 수강 영상으로부터 추출되는 상기 학생들의 얼굴 위치 데이터, 얼굴 랜드마크 데이터 및 얼굴 각도 데이터에 기초하여 상기 집중력 분석 데이터를 추출하는, 비대면 온라인 수업 시스템.
  7. 제 6 항에 있어서,
    상기 학생 클라이언트들은, 상기 수강 영상으로부터 상기 학생들의 얼굴 중심 좌표, 얼굴 너비 및 얼굴 높이를 추출하는 위치 CNN을 활용하여 상기 얼굴 위치 데이터를 추출하는, 비대면 온라인 수업 시스템.
  8. 제 7 항에 있어서,
    상기 학생 클라이언트들은,
    상기 얼굴 위치 데이터에 기초하여 상기 학생들의 고개가 회전한 각도를 요(yaw), 피치(pitch) 및 롤(roll)로 구분하여 추출하는 각도 CNN을 활용하여 상기 얼굴 각도 데이터를 추출하고,
    상기 얼굴 위치 데이터에 기초하여 상기 학생들의 얼굴에서 68개의 랜드마크들을 추출하는 랜드마크 CNN을 활용하여 상기 얼굴 랜드마크 데이터를 추출하는, 비대면 온라인 수업 시스템.
  9. 제 6 항에 있어서,
    상기 집중력 분석 데이터는, 상기 학생들이 자리를 비웠을 확률, 눈을 감고 있을 확률, 고개를 돌린 확률 및 집중력이 흐트러진 정도를 포함하는, 비대면 온라인 수업 시스템.
  10. 제 9 항에 있어서,
    상기 학생 클라이언트들은, 상기 수강 영상에서 5초 동안 상기 학생들의 얼굴이 감지된 프레임 수에 기초하여 상기 자리를 비웠을 확률을 산출하는, 비대면 온라인 수업 시스템.
  11. 제 9 항에 있어서,
    상기 학생 클라이언트들은, 상기 학생들의 눈 너비 및 눈 높이에 대한 눈 크기 비율, 평소 눈 크기, 감았을 때 눈 크기 및 상기 얼굴 각도 데이터에 기초하여 상기 눈을 감고 있을 확률을 산출하는, 비대면 온라인 수업 시스템.
  12. 제 9 항에 있어서,
    상기 학생 클라이언트들은, 특정 시간 동안의 상기 얼굴 각도 데이터의 평균치에 기초하여 상기 고개를 돌린 확률을 산출하는, 비대면 온라인 수업 시스템.
  13. 제 9 항에 있어서,
    상기 학생 클라이언트들은, 상기 학생들의 눈 너비 및 눈 높이에 대한 눈 크기 비율에 기초하는 제1 집중력 수치, 상기 눈 크기 비율의 변화율에 기초하는 제2 집중력 수치 및 상기 학생들의 입 크기 비율에 기초하는 제3 집중력 수치에 대한 가중 평균으로 상기 집중력이 흐트러진 정도를 산출하는, 비대면 온라인 수업 시스템.
KR1020200140928A 2020-10-28 2020-10-28 Ai 얼굴 분석과 p2p 커넥션을 통한 온라인 실시간 수업 환경의 개선 방법 KR20220056389A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200140928A KR20220056389A (ko) 2020-10-28 2020-10-28 Ai 얼굴 분석과 p2p 커넥션을 통한 온라인 실시간 수업 환경의 개선 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200140928A KR20220056389A (ko) 2020-10-28 2020-10-28 Ai 얼굴 분석과 p2p 커넥션을 통한 온라인 실시간 수업 환경의 개선 방법

Publications (1)

Publication Number Publication Date
KR20220056389A true KR20220056389A (ko) 2022-05-06

Family

ID=81584617

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200140928A KR20220056389A (ko) 2020-10-28 2020-10-28 Ai 얼굴 분석과 p2p 커넥션을 통한 온라인 실시간 수업 환경의 개선 방법

Country Status (1)

Country Link
KR (1) KR20220056389A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115050126A (zh) * 2022-05-31 2022-09-13 广州宏途数字科技有限公司 一种智慧宿舍安全管理方法、装置及存储介质
CN117423131A (zh) * 2023-10-18 2024-01-19 广东融粤宝信息科技有限公司 一种基于云计算的远程教育系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200033700A (ko) 2018-09-20 2020-03-30 김한문 개인 수준별 교육이 가능한 1:n 그룹수업을 위한 화상 다중 분할 교육 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200033700A (ko) 2018-09-20 2020-03-30 김한문 개인 수준별 교육이 가능한 1:n 그룹수업을 위한 화상 다중 분할 교육 시스템

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115050126A (zh) * 2022-05-31 2022-09-13 广州宏途数字科技有限公司 一种智慧宿舍安全管理方法、装置及存储介质
CN115050126B (zh) * 2022-05-31 2023-08-08 广州宏途数字科技有限公司 一种智慧宿舍安全管理方法、装置及存储介质
CN117423131A (zh) * 2023-10-18 2024-01-19 广东融粤宝信息科技有限公司 一种基于云计算的远程教育系统

Similar Documents

Publication Publication Date Title
US11546550B2 (en) Virtual conference view for video calling
CN107292271B (zh) 学习监控方法、装置及电子设备
KR102509398B1 (ko) 비디오 회의에서의 감정 인식
US11856328B2 (en) Virtual 3D video conference environment generation
CN111754596A (zh) 编辑模型生成、人脸图像编辑方法、装置、设备及介质
CN110889672A (zh) 一种基于深度学习的学生打卡及上课状态的检测系统
US20230123005A1 (en) Real-time video dimensional transformations of video for presentation in mixed reality-based virtual spaces
US20230146178A1 (en) Attention based audio adjustment in virtual environments
KR20220056389A (ko) Ai 얼굴 분석과 p2p 커넥션을 통한 온라인 실시간 수업 환경의 개선 방법
CN114463828B (zh) 基于人证统一的监考方法及系统、电子设备和存储介质
DE112021003160T5 (de) Mixed-reality-telekonferenz an mehreren orten
US11847307B2 (en) Intelligent content display for network-based communications
Otsuka Multimodal conversation scene analysis for understanding people’s communicative behaviors in face-to-face meetings
DE112019005601T5 (de) Informationsverarbeitungsvorrichtung und -verfahren und programm
Wolff et al. Communicating eye gaze across a distance without rooting participants to the spot
JP6859641B2 (ja) 評価システム、情報処理装置およびプログラム
KR20220057892A (ko) 시선 기반 콘텐츠 교육 방법 및 이를 수행하기 위한 컴퓨팅 장치
US20230060798A1 (en) System and Method for Attention Detection and Visualization
Sakthivel et al. Online Education Pedagogy Approach
Gupta et al. An adaptive system for predicting student attentiveness in online classrooms
WO2024142291A1 (ja) コミュニケーション可視化システム
CN114040145B (zh) 一种视频会议人像显示方法、系统、终端及存储介质
JP7465040B1 (ja) コミュニケーション可視化システム
WO2021172434A1 (ja) 情報処理装置
Phiri et al. Ensuring Integrity in Online Exams with AI Anti-Cheat System

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application