KR102494800B1 - 인공신경망을 이용한 화상회의 방법 - Google Patents

인공신경망을 이용한 화상회의 방법 Download PDF

Info

Publication number
KR102494800B1
KR102494800B1 KR1020210045068A KR20210045068A KR102494800B1 KR 102494800 B1 KR102494800 B1 KR 102494800B1 KR 1020210045068 A KR1020210045068 A KR 1020210045068A KR 20210045068 A KR20210045068 A KR 20210045068A KR 102494800 B1 KR102494800 B1 KR 102494800B1
Authority
KR
South Korea
Prior art keywords
neural network
artificial neural
information
image information
input
Prior art date
Application number
KR1020210045068A
Other languages
English (en)
Other versions
KR20220139000A (ko
Inventor
김난희
Original Assignee
알서포트 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 알서포트 주식회사 filed Critical 알서포트 주식회사
Priority to KR1020210045068A priority Critical patent/KR102494800B1/ko
Publication of KR20220139000A publication Critical patent/KR20220139000A/ko
Application granted granted Critical
Publication of KR102494800B1 publication Critical patent/KR102494800B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

본 발명은 인터넷을 통하여 상호 연결된 컴퓨터(10)에 의하여 수행되는 화상회의에 관한 것으로, 다수의 정규화된 화상정보와 이에 대응되는 분류정보 또는 설정정보를 기반으로 인공신경망의 기계학습을 수행하고, 이를 활용하여 컴퓨터(10)의 음성 입출력 등을 자동으로 설정할 수 있도록 한 것이다.
본 발명을 통하여, 화상회의가 수행되는 공간의 특성을 인공신경망(40)을 통하여 신속하고 정확하게 파악하고, 입력 음량 및 출력 음량 등의 설정정보(50)를 최적화할 수 있다.

Description

인공신경망을 이용한 화상회의 방법{REMOTE MEETING METHOD USING ARTIFICIAL NEURAL NETWORK}
본 발명은 인터넷을 통하여 상호 연결된 컴퓨터(10)에 의하여 수행되는 화상회의에 관한 것으로, 다수의 정규화된 화상정보와 이에 대응되는 분류정보 또는 설정정보를 기반으로 인공신경망의 기계학습을 수행하고, 이를 활용하여 컴퓨터(10)의 음성 입출력 등을 자동으로 설정할 수 있도록 한 것이다.
인터넷 통신의 속도 및 개인용 컴퓨터(10)의 성능 향상으로 인하여, 전용 통신선과 고가의 영상장비 및 신호처리 시스템의 구축 없이도 인터넷 및 개인용 컴퓨터(10)를 통한 다자간 화상회의가 가능하게 되었으며, 특히, 특허 제1771400호에서와 같이, 화상회의에 참여하는 컴퓨터(10)에 탑재된 브라우저가 화상회의를 목적으로 개설된 웹페이지(21)에 접속하는 방식으로 화상회의의 진행이 가능하게 되어, 사용자 편의가 비약적으로 향상된 바 있다.
또한, 고속 이동통신망 및 무선랜 등 무선망의 보급이 확대되고 무선망 접속 및 고속, 대용량 정보처리가 가능한 스마트폰 및 태블릿PC 등의 휴대형 정보기기 사용이 보편화되면서, 컴퓨터(10) 및 인터넷을 기반으로 하는 화상회의의 수행에 있어서 시간적, 공간적 제약이 극적으로 완화되고 있다.
즉, 탁상용 컴퓨터(10)를 기반으로 사무실 또는 회의실 등 고정된 공간에서 수행되던 종래의 화상회의에서 탈피하여, 무선망 접속이 가능한 다양한 정보기기가 화상회의에 활용됨에 따라, 가정은 물론 공공장소 또는 야외 등 다양한 환경에서 화상회의가 수행될 수 있는 것이다.
전술한 바와 같이, 회상회의 수행에 있어서의 시간적, 공간적 제약이 완화되고, 다양한 장소에서 화상회의가 진행됨에 따라, 컴퓨터(10)를 통한 화상회의 수행에 있어서의 입출력 설정에 대한 기민하고 탄력적인 조정이 요구된다.
인터넷을 통하여 상호 연결된 컴퓨터(10)에 의하여 수행되는 화상회의에 있어서 유통되는 핵심 정보는 영상정보와 음성정보라 할 수 있으며, 이중 음성정보는 입력측은 물론 출력측 모두에서 주변 상황에 상당한 영향을 받는다 할 수 있다.
주변 소음이 차단되고 정숙한 환경이 조성되는 회의실 등의 공간에 위치한 컴퓨터(10)를 통하여 화상회의가 수행되는 경우, 당해 컴퓨터(10) 사용자 음성의 입력 또는 상대방 컴퓨터(10)에서 전송된 음성의 출력에 있어서, 입력 음량 또는 출력 음량을 상대적으로 낮은 수준으로 설정하는 것이 사용자에게 안락한 청음감을 제공하고 음향 왜곡을 방지함에 있어서 유리하지만, 주변 소음의 유입이 불가피한 실외 또는 다중이용시설 등의 경우 전반적인 음량을 상향하거나, 특정 대역에 대한 조정 또는 입력 음량과 출력 음량간 격차를 부여하는 등의 조치가 필요할 수 있다.
종래기술에 있어서 이러한 입력 음량 또는 출력 음량의 조절은 사용자가 키보드, 마우스 또는 터치스크린 등 컴퓨터(10)의 입력장치를 조작함으로써 수행되었으며, 주로 회의실 또는 사무실 등에 설치된 탁상용 컴퓨터(10)에 의하여 화상회의가 수행되는 종래기술에 있어서의 공간적 조건을 고려할 때, 일단 적정 수준으로 설정된 입력 및 출력 음량에 대한 변동 내지 조정 필요성이 크지 않았다.
그러나, 전술한 바와 같이, 스마트폰 또는 태블릿PC 등의 휴대형 정보기기가 화상회의를 수행하는 컴퓨터(10)로서 활용되고 다양한 장소에서 화상회의가 수행됨을 물론, 화상회의 참여자의 이동 상황에서도 화상회의가 진행되는 등, 화상회의 수행 공간에 다양성 및 변동성이 부여됨에 따라, 입력 음량 및 출력 음량에 대한 조정이 빈번하게 요구되는 실정이다.
따라서, 종래기술에 의한 화상회의 참여자는 컴퓨터(10)의 입력장치를 조작하여 입력 음량 및 출력 음량을 수시로 조절할 필요가 있으며, 이는 사용자 불편을 야기할 뿐 아니라, 회의 참여자간 원활한 소통을 방해하고 화상회의 몰입도를 심각하게 훼손하는 요소로 작용하였다.
본 발명은 전술한 문제점을 감안하여 창안된 것으로, 인공신경망을 이용한 화상회의 방법에 있어서, 다수의 학습용 정규화상정보(33) 및 분류정보(35)가 인공신경망(40)에 입력되어 기계학습이 수행되는 분류학습단계(S11)와, 화상회의 참여 컴퓨터(10)로 입력된 원시화상정보(31)가 정규화상정보(33)로 변환되는 정규화단계(S20)와, 정규화상정보(33)가 인공신경망(40)에 입력되고 인공신경망(40)에서 분류정보(35)가 출력되는 분류도출단계(S31)와, 분류정보(35)에 대응되는 설정정보(50)가 컴퓨터(10)에 탑재된 회의프로그램에 적용되는 대응설정단계(S41)로 이루어짐을 특징으로 하는 인공신경망을 이용한 화상회의 방법이다.
또한, 본 발명은 인공신경망을 이용한 화상회의 방법에 있어서, 다수의 학습용 정규화상정보(33) 및 설정정보(50)가 인공신경망(40)에 입력되어 기계학습이 수행되는 설정학습단계(S12)와, 화상회의 참여 컴퓨터(10)로 입력된 원시화상정보(31)가 정규화상정보(33)로 변환되는 정규화단계(S20)와, 정규화상정보(33)가 인공신경망(40)에 입력되고 인공신경망(40)에서 설정정보(50)가 출력되는 설정도출단계(S32)와, 설정정보(50)가 컴퓨터(10)에 탑재된 회의프로그램에 적용되는 직접설정단계(S42) 로 이루어짐을 특징으로 하는 인공신경망을 이용한 화상회의 방법이다.
또한, 본 발명은 상기 인공신경망(40)은 추출영역(41) 및 연결영역(42)으로 구성되는 합성곱신경망이며, 최종 출력층에서는 분류정보(35)가 확률값으로서 도출됨을 특징으로 하는 인공신경망을 이용한 화상회의 방법이거나, 상기 인공신경망(40)은 추출영역(41) 및 연결영역(42)으로 구성되는 합성곱신경망이며, 상기 연결영역(42)에는 순환신경망이 적용되고, 최종 출력층에서는 설정정보(50)가 수치로서 도출됨을 특징으로 하는 인공신경망을 이용한 화상회의 방법이다.
본 발명을 통하여, 화상회의가 수행되는 공간의 특성을 인공신경망(40)을 통하여 신속하고 정확하게 파악하고, 입력 음량 및 출력 음량 등의 설정정보(50)를 최적화할 수 있다.
특히, 설정정보(50)의 최적화는 사용자의 조작 없이도 자동으로 수행될 수 있어 사용자 편의를 확보할 수 있으며, 화상회의 수행에 있어서의 음성 입출력 등의 설정에 대한 기민하고 탄력적인 조정이 가능하다.
도 1은 본 발명의 컴퓨터 연결 상태 예시도
도 2는 본 발명의 컴퓨터 화면 예시도
도 3은 휴대형 정보기기가 적용된 본 발명 컴퓨터의 화면 예시도
도 4는 본 발명의 흐름도
도 5는 본 발명의 인공신경망 수립 및 활용 방식 설명도
도 6은 본 발명의 영상정보 전처리 과정 예시도
도 7은 본 발명의 인공신경망 구조도
도 8은 본 발명 인공신경망의 연결영역 발췌 구조도
도 9는 본 발명의 설정정보 직접 도출형 실시예의 인공신경망 수립 및 활용 방식 설명도
도 10은 도 9 실시예 인공신경망의 연결영역 발췌 구조도
도 11은 도 9 실시예의 흐름도
도 12는 도 9 실시예의 인공신경망 구조도
본 발명의 상세한 구성 및 수행 과정을 첨부된 도면을 통하여 설명하면 다음과 같다.
우선, 도 1은 본 발명을 수행하는 구성요소 및 구성요소간 연결상태를 도시한 것으로, 도시된 바와 같이, 본 발명은 기본적으로 영상 촬영 및 음성 입출력 기능이 탑재된 다수의 컴퓨터(10)에 의하여 수행되며, 이들 다수의 컴퓨터(10)는 인터넷을 통하여 상호 연결된다.
또한, 동 도면에서 가상선으로 도시된 바와 같이, 웹페이지(21) 또는 서버(20)가 구성되어 화상회의 참여 컴퓨터(10)가 이들 웹페이지(21) 또는 서버(20)를 경유하여 연결될 수도 있다.
본 발명을 수행하는 컴퓨터(10)로는 카메라가 장착되고 음성 입출력이 가능한 통상의 탁상용 컴퓨터(10) 또는 랩탑 컴퓨터(10) 뿐 아니라, 도 1에서도 예시된 바와 같이 촬상기능이 탑재되고 인터넷 접속이 가능한 태블릿PC 또는 스마트폰 등 다양한 정보기기가 적용될 수 있다.
여타의 화상회의 방법에서와 같이 본 발명에 있어서의 화상회의 참여 컴퓨터(10)간 주요 송수신 정보는 영상정보 및 음성정보로서, 이들 정보는 컴퓨터(10)간 개설된 통신로(session)를 통하여 유통되는데, 영상정보 및 음성정보의 입출력 및 유통을 수행하는 회의프로그램이 컴퓨터(10)에 탑재되어 실행됨에 따라 화상회의가 진행된다.
이러한 회의프로그램은 영상정보 및 음성정보의 송수신 기능이 자체 구비된 브라우저(browser), 영상정보 및 음성정보의 송수신 플러그인(plug-in)이 설치된 브라우저 또는 화상회의 목적의 통신로 개설 및 정보 송수신을 담당하는 별도의 응용프로그램 등 다양한 형식을 가질 수 있다.
특히, 도 1에서 가상선으로 도시된 바와 같이, 서버(20)와 연결된 웹페이지(21)가 구축되고 컴퓨터(10)의 회의프로그램이 웹페이지(21)를 매개로 회의서버(20)와 접속되는 방식이 적용될 수 있으며 이 경우 회의프로그램으로는 전술한 브라우저가 적용될 수 있는데, 브라우저는 일반 인터넷 사용자에게 친숙한 프로그램이므로 회의프로그램으로서 브라우저가 적용되는 경우 사용자 편의 확보에 있어서 유리하다.
도 2는 본 발명이 수행되는 컴퓨터(10)의 화면을 예시한 것으로, 도시된 바와 같이, 상대방 참여자가 촬영된 영상정보가 화면으로 출력되고 있으며, 도면상 PIP(Picture In Picture) 방식으로 출력되는 소형 화면에는 당해 컴퓨터(10)의 촬영 영상이 출력되고 있다.
또한, 도면상 좌측 하단 및 우측 하단에는 각각 출력 음량 및 입력 음량을 조절할 수 있는 GUI(Graphical User Interface)가 구현되어 있으며, 사용자는 이를 통하여 컴퓨터(10)에서 출력되거나 컴퓨터(10)로 입력되는 음량을 조절할 수 있는데, 본 발명에서는 후술할 인공신경망(40)을 통하여 입력 음량 및 출력 음량이 자동으로 설정될 수 있다.
한편, 도 3은 본 발명이 수행되는 컴퓨터(10)로서 스마트폰이 적용된 실시예가 도시되고 있으며, 동 실시예에서도 화상회의 참여자가 촬영된 영상이 입출력됨은 물론, 입출력 음량의 조절 기능이 제공된다.
이렇듯, 본 발명이 적용된 화상회의에서도 종래의 화상회의에서와 같은 입출력 음량의 조절 기능이 제공되며, 사용자가 키보드, 마우스 또는 터치스크린 등 컴퓨터(10)의 입력장치를 조작하여, 컴퓨터(10)에서 출력되는 음량 또는 컴퓨터(10)로 입력되는 음량을 인위적으로 조절할 수 있는데, 본 발명에서는 전술한 바와 같이, 입출력 음량의 조절을 인공신경망(40)에 의하여 자동으로 설정되는 설정정보(50)를 통하여 수행할 수 있다.
즉, 사용자에 의한 인위적인 음량 조절 없이도, 주변 영상정보가 인공신경망(40)에 입력됨에 따라 설정정보(50)가 도출되고, 회의프로그램이 인공신경망(40)에서 도출된 설정정보(50)를 적용하여 입력 음량 또는 출력 음량을 자동으로 조절하는 것으로, 이러한 인공신경망(40)에 의한 입출력 음량 조절은 회의프로그램의 최초 실행시 촬영된 영상정보가 인공신경망(40)에 입력되어 설정정보(50)가 도출되고 도출된 설정정보(50)에 따라 회의프로그램이 입출력 음량을 조절하는 방식이나, 또는 사용자의 조작에 따라 해당 시점(時點)에서 촬영된 영상정보가 인공신경망(40)에 입력되어 설정정보(50)가 도출되고 도출된 설정정보(50)에 따라 회의프로그램이 입출력 음량을 조절하는 방식이 적용될 수 있다.
전술한 바와 같이, 본 발명에 있어서의 회의프로그램은 화상회의 참여 컴퓨터(10)간 통신로 개설, 영상정보 및 음성정보의 입출력, 송수신 등을 수행하는 프로그램으로서, 도 1에서와 같이 인터넷을 통하여 연결되는 각각의 화상회의 참여 컴퓨터(10)에 탑재되는데, 회의 참여 컴퓨터(10)간 통신로가 서버(20)를 경유하지 않고 직접 연결되는 경우 개별 컴퓨터(10)에 대하여 학습된 인공신경망(40)이 구축될 필요가 있으며, 이 경우 인공신경망(40)은 회의프로그램에 포함되는 부프로그램 또는 프로그램 모듈의 형식을 가지거나, 회의프로그램과 영상정보 및 설정정보(50)를 공유하는 별도 프로그램의 형식을 가지는 등 다양한 형태를 가질 수 있다.
또한, 도 1에서 가상선으로 도시된 바와 같이, 화상회의 참여 컴퓨터(10)간 통신로가 웹페이지(21) 및 서버(20)를 경유하는 경우, 인공신경망(40)을 서버(20)에 구축함으로써 개별 컴퓨터(10)의 전산자원 잠식을 방지할 수 있으며, 이 밖에도 화상회의의 진행과정상 유통되는 영상정보 및 음성정보의 통신로는 화상회의 참여 개별 컴퓨터(10)간 직결되되, 서버(20)에 구축된 인공신경망(40)으로의 영상정보 전송 및 설정정보(50) 수신에 한하여 별도 통신로가 연결되는 방식이 적용될 수도 있다.
즉, 본 발명에 있어서 화상회의를 수행하는 회의프로그램은 개별 참여 컴퓨터(10)에 모두 설치되지만, 학습된 인공신경망(40)은 개별 컴퓨터(10)에 구축될 수 있음은 물론, 컴퓨터(10)와 인터넷을 통하여 연결된 서버(20)에만 구축될 수도 있는 것이다.
다만, 이러한 인공신경망(40)의 구축 위치를 막론하고 인공신경망(40)과 회의프로그램은 상호 긴밀하게 연결되어 인공신경망(40)에 입력되는 영상정보와 인공신경망(40)에서 도출되는 설정정보(50)에 대한 회의프로그램과 인공신경망(40)간 원활한 공유가 보장된다.
본 발명에 있어서의 인공신경망(40)은 기 학습된 인공신경망(40)과 학습중인 인공신경망(40)으로 구분될 수 있는데, 이들 상태별 인공신경망(40)은 구조상 동일한 인공신경망(40)이라 할 수 있으며, 전술한 회의프로그램과 공유되는 설정정보(50)를 도출하는 인공신경망(40)은 기 학습된 인공신경망(40)으로서, 입출력 음량에 대한 자동 조절에 필요한 설정정보(50)의 추정 도출을 위해서는 인공신경망(40)의 기계학습 과정이 선행될 필요가 있다.
따라서, 본 발명은 도 4에서와 같이, 다수의 학습용 정규화상정보(33) 및 학습용 분류정보(35)가 인공신경망(40)에 입력되어 기계학습이 수행되는 분류학습단계(S11)로 개시된다.
초기 인공신경망(40)의 원형이라 할 수 있는 퍼셉트론(Perceptron)이래 기계학습을 수행하는 인공신경망(40)의 기본 거동은 사건의 발생 여부(與否) 또는 결과의 정오(正誤)를 판단하는 것으로, 다수의 학습용 정보를 사전 수립한 후, 이를 인공신경망(40)에 입력하고 출력치를 검정하여 인공신경망(40)의 층간 가중치를 수정하는 과정을 거치게 된다.
인공신경망(40)은 다수의 메모리셀(memory cell)이 입력층(input layer), 은닉층(hidden layer) 및 출력층(output layer)을 구성하면서 망상(網狀)으로 연결되어, 정보의 순전파(feedforward) 및 역전파(backpropagation)를 반복하면서, 도출 결과의 오차가 0에 수렴하도록 기계학습을 수행하게 된다.
인공신경망(40)이 개략적으로 도식화되어 표현된 도 5에서와 같이, 입력층, 은닉층 및 출력층은 도면상 세로로 배열된 다수의 메모리셀로 구성되며, 입력층의 메모리셀로 입력된 정보는 은닉층을 구성하는 메모리셀을 경유하여 최종적으로 출력층으로 출력되는데, 동 도면에서는 은닉층이 단일 층으로 표현되었으나, 다수의 층으로 은닉층이 구성될 수도 있으며, 각 층간 정보 전달에 있어서는 가중치가 부여된 상태에서 순전파가 수행되고 전술한 기계학습상 여부 또는 정오 판단에 따른 역전파 처리를 통하여 상기 가중치가 수정됨으로써 오차가 감소된다.
본 발명에 있어서 활용되는 학습용 정보로는 도 5의 상단부에 도시된 바와 같이 정규화상정보(33) 및 분류정보(35)가 적용될 수 있는데, 여기서 정규화상정보(33)는 화상회의가 수행되는 장소를 상정한 영상정보이고 분류정보(35)는 해당 장소를 특정하는 정보로서 각각의 정규화상정보(33)에 부여되는 레이블링(labeling) 정보의 특성을 가지는 동시에 다수의 분류 중 하나가 선택되는 택일적(擇一的) 특성을 가진다.
예컨데, 회상회의가 수행되는 공간을 야외, 사무실, 가정(家庭) 및 교통수단의 총 4개 공간으로 상정하면, 인공신경망(40)의 출력층 역시 4개의 메모리셀로 구성되며, 학습용 분류정보(35)는 출력층을 구성하는 메모리셀 중 하나를 선택하여 그 값으로 1을 부여하고 출력층의 나머지 메모리셀에는 그 값으로 0을 부여하는 방식이 적용될 수 있다.
도 6은 본 발명 수행에 있어서의 영상정보 전처리(preprocessing) 과정을 도시한 것으로, 이는 분류학습단계(S11)를 수행하기 위한 학습용 영상정보를 수립함에 있어서는 물론, 후술할 기 학습된 인공신경망(40)의 가동에 있어서도 동일하게 적용되는 과정이다.
인공신경망(40)의 기계학습 특히, 본 발명에서와 같은 영상정보 기반 기계학습에 있어서는 영상정보가 가진 특성(feature)이 충실하게 반영되어 결과가 도출되도록 하는 것이 필요하며, 이를 위하여 학습중인 인공신경망(40)에 입력되는 학습용 영상정보는 물론 기 학습된 인공신경망(40)에 입력되는 영상정보 역시 적절한 전처리가 필요한 것이다.
기계학습에 있어서 요구되는 영상정보의 특성은 그 영상정보가 표시하는 사물 또는 상황에 대한 정보라 할 수 있는데, 만일 인공신경망(40)에 의하여 처리되는 다수의 영상정보들이 각각의 해상도 또는 대비 등 내용 외적인 요소에 있어서 극단적인 차이를 가진다면, 기계학습 과정 전반이 왜곡되어 부정확한 결과가 도출될 수 밖에 없다.
따라서, 본 발명에서는 인공신경망(40)으로 입력되는 영상정보를 소정의 규격 즉, 일정한 해상도 및 대비를 가지도록 조정하는 전처리 과정이 수행되며, 특히 본 발명에 있어서 처리되는 영상정보는 화상회의가 수행되는 공간적 배경에 대한 영상정보인 바, 영상정보내 배경 표시 요소를 제외한 불필요한 요소를 제거하는 과정이 전처리 과정으로서 수행된다.
즉, 도 6에서와 같이, 본 발명에서 영상정보에 적용되는 전처리 과정은 원시화상정보(原始畵像情報)(31)에서 배경 요소를 제외한 전경(前景) 요소를 제거하여 추출화상정보(32)를 생성하고, 추출화상정보(32)를 일정한 해상도로 조정하여 정규화상정보(33)를 생성함으로써, 영상정보를 학습용 정보 또는 결과 도출용 정보로서 활용하는 것이다.
도 6에 예시된 바와 같은 영상정보의 전처리 과정에 있어서, 인물 등 전경과 배경이 혼재된 원시화상정보(31)에서 인물 등 전경이 배제된 추출화상정보(32)를 추출하는 처리는 통상의 이미지프로세싱 기술이 적용되어 자동으로 수행될 수 있으며, 추출화상정보(32)를 정규화상정보(33)로 변환함에 있어서는 전술한 해상도의 조정은 물론 정보량의 감축을 위한 이진화(二進化) 처리 등이 수행될 수도 있다.
이렇듯, 다수의 학습용 정규화상정보(33) 및 분류정보(35)가 인공신경망(40)에 입력되어 기계학습이 수행되는 본 발명의 분류학습단계(S11)는 도 7에서와 같은 구조의 인공신경망(40)에 의하여 수행될 수 있는데, 동 도면에 예시된 인공신경망(40)은 합성곱신경망(CNN, Convolutional Neural Network)으로서, 추출영역(Extraction Stack)(41)과 연결영역(Connected Network)(42)이 순차적으로 연결되어 구성된다.
자연어 처리 등에 활용되는 일반적인 신경망은 완전연결형(fully connected) 구조를 가지는 신경망으로서 입력층의 메모리셀이 일렬로 배치되어 영상정보를 입력할 경우 영상정보를 구성하는 다차원적 정보가 일차원적 정보로 단순화됨에 따라 영상정보의 특성(feature)이 희석 내지 무시되는 치명적인 단점을 가진다.
본 발명에서 활용되는 합성곱신경망은 전술한 완전연결형 신경망의 문제점을 개선할 수 있도록 수립된 것으로, 순전파 및 역전파 과정에서도 영상정보의 특성이 유의하게 유지될 수 있도록 도 7에서와 같이 합성곱층(convolution layer) 및 풀링층(pooling layer)이 반복되는 추출영역(41)이 구성되며, 추출영역(41)에서 추출된 정보가 이후의 연결영역(42)으로 입력되고, 최종적으로 결과가 도출된다.
합성곱신경망(CNN)인 본 발명의 인공신경망(40)에 있어서, 추출영역(41)을 구성하는 합성곱층은 정규화상정보(33)를 구성하는 행렬형 정보에 대한 합성곱 연산을 수행하여 영상정보의 특성을 최대한 유지하면서도 정보량을 감축하는 처리를 수행하는 것으로, 이로써 정규화상정보(33)내 사물의 위치 또는 자세 등 특성 외적인 요소의 변동에 따른 정보 왜곡을 억제하면서도 효율적인 기계학습이 가능하게 된다.
합성곱층과 순차 반복 연결되는 풀링층은 합성곱 연산을 통하여 생성된 행렬형 정보에서 소정 영역내 대표성을 가지는 정보를 추출하여 차원이 축소된 행렬형 정보를 수립하는 처리를 수행하는 것으로, 풀링층을 통하여 추출되는 소정 영역내 대표치로는 최대치 또는 평균치가 적용될 수 있다.
이렇듯, 합성곱층과 풀링층이 반복되는 본 발명 합성곱신경망의 추출영역(41)에 있어서, 인공신경망(40)에 최초 입력된 정규화상정보(33)는 결국 최종 풀링층을 통과한 후 행렬형 정보가 일련의 단일값 정보로 변환되며, 변환된 정보는 도 7에서와 같이 평탄화(flatten) 처리를 통하여 완전연결형 신경망의 입력층을 구성하는 일렬 배치 메모리셀에 입력된다.
도 7에서와 같이, 입력층과 출력층 사이에 은닉층이 구성되는 연결영역(42)에서는 처리 정보의 순전파가 진행됨에 따라 최종 출력층을 통하여 분류정보(35)가 결과로서 도출되는데, 여기서 분류정보(35)는 영상정보내 사물 또는 상황을 특정하는 전술한 분류정보(35)와 동일한 정보로서, 순전파 결과로서 출력층에서 도출된 분류정보(35)와 당해 정규화상정보(33)에 당초 부여된 분류정보(35)를 대조하여 그 정오(正誤)에 따라, 역전파를 통하여 각 층간 가중치를 조정하고, 다수의 학습용 정규화상정보(33) 및 분류정보(35)에 대하여 전술한 과정이 반복됨으로써, 본 발명 인공신경망(40)에서의 기계학습 즉, 분류학습단계(S11)가 수행된다.
도 8은 도 7에 예시된 본 발명 인공신경망(40)에 있어서 연결영역(42)을 발췌하여 도시한 것으로, 입력층, 은닉층 및 출력층을 구성하는 메모리셀이 망상으로 연결되어 정보의 순전파(feedforward) 및 역전파(backpropagation)가 수행되는데, 최종 결과를 도출하는 출력층과 은닉층간 활성화함수(activation function)로는 소프트맥스(softmax function) 함수가 적용된다.
분류 처리에 주로 활용되는 소프트맥스 함수는 도 8에서와 같이, 최종 출력층을 구성하는 각각의 메모리셀에 확률값을 부여하게 되며, 따라서 출력층을 구성하는 각각의 메모리셀에는 0 내지 1의 값이 부여되고, 출력층의 전체 메모리셀 합산치는 1이 된다.
소프트맥스 함수 적용 연결영역(42)에서 출력층 도출치는 당초 설정된 분류정보(35)에 부합되도록 층간 가중치가 조정되면서 출력층 메모리셀 중 택일적으로 1에 최대한 근접한 값이 도출되고 나머지 메모리셀에는 최대한 0에 근접한 값이 도출되도록 기계학습이 수행되고, 기 학습된 인공신경망(40)이 본격적으로 활용되는 후술할 분류도출단계(S31)에서는 0 이상 1 이하의 확률값으로 도출된 출력층 메모리셀의 정보를 통하여 최대치의 확률값으로 제시되는 메모리셀에 대응되는 분류정보(35)를 선택하는 방식으로 당초 입력된 정규화상정보(33)의 특성을 파악하게 된다.
이렇듯, 분류학습단계(S11)가 수행됨으로써, 본 발명의 인공신경망(40)이 학습된 인공신경망(40)으로서 구축될 수 있으며, 전술한 바와 같이, 회의 참여 컴퓨터(10)가 서버(20)의 중계 없이 직접 연결되어 컴퓨터(10)내 탑재된 회의프로그램이 독립적으로 거동하는 경우 학습된 인공신경망(40)은 회의프로그램에 포함되는 부프로그램 또는 프로그램 모듈의 형식을 취하거나 회의프로그램과 영상정보 및 분류정보(35) 내지 설정정보(50)를 공유하는 별도의 프로그램으로서 개별 컴퓨터(10)에 독립적으로 이식된다.
또한, 도 1에서 가상선으로 도시된 바와 같이, 화상회의 참여 컴퓨터(10)간 영상정보 및 음성정보의 송수신이 서버(20)에 의하여 중계되는 경우나, 컴퓨터(10)와 서버(20)간 일회성 또는 간헐적 통신로가 개설되어 인공신경망(40)으로의 영상정보 및 분류정보(35) 등의 전송이 이루어지는 경우에는 인공신경망(40)이 서버(20)에만 구축될 수도 있다.
분류학습단계(S11)가 완료되어 학습된 인공신경망(40)이 구축되면, 이를 활용하여 화상회의가 수행되는 공간에 최적화된 입출력 음량에 대한 설정정보(50)가 도출되는 일련의 과정이 수행되는데, 도 4에서와 같이, 설정정보(50) 도출 과정으로서 화상회의 참여 컴퓨터(10)로 입력된 원시화상정보(31)가 정규화상정보(33)로 변환되는 정규화단계(S20)가 우선 수행된다.
정규화단계(S20)에서 화상회의 참여 컴퓨터(10)로 입력되는 원시화상정보(31)는 당해 컴퓨터(10)에 장착된 카메라에 의하여 촬영된 영상정보로서, 화상회의 참여자인 당해 컴퓨터(10) 사용자와 주변 배경을 포함하는 것이며, 도 6의 좌단에 도시된 형태를 가진다.
이렇듯 컴퓨터(10) 장착 카메라에 의하여 최초 촬영된 원시화상정보(31)는 도 6에서와 같이, 전경이 배제되고 배경만이 추출된 추출화상정보(32)로 수정된 후, 일정 해상도 또는 대비로 조정되어 최종적으로 정규화상정보(33)로 변환되는데, 이러한 정규화단계(S20)는 통상의 다양한 이미지프로세싱 기법이 적용되어 회의프로그램에 의하여 수행된다.
즉, 원시화상정보(31)가 정규화상정보(33)로 변환되는 정규화단계(S20)는 사용자의 조작 없이도 개별 컴퓨터(10)에 탑재된 회의프로그램에 의하여 자동으로 수행되는 것으로, 회의프로그램에는 원시화상정보(31)에서 배경을 추출하고 그 해상도를 조절하는 등의 이미지프로세싱 기능이 부여된다.
정규화단계(S20)가 완료되어 결과 도출용 정규화상정보(33)가 생성되면, 생성된 정규화상정보(33)가 인공신경망(40)에 입력되고 인공신경망(40)에서 분류정보(35)가 출력되는 분류도출단계(S31)가 수행된다.
즉, 분류도출단계(S31)는 도 6에서와 같은 정규화단계(S20)를 통하여 원시화상정보(31)로부터 변환된 정규화상정보(33)가 도 7에서와 같이 기 학습된 인공신경망(40)에 입력되고, 인공신경망(40)이 가동되어 그 결과치로서 분류정보(35)가 도출되는 과정으로서, 전술한 바와 같이, 본 발명 인공신경망(40)의 최종층인 연결영역(42)의 출력층에서는 각 메모리셀별로 확률값이 출력되는 바, 최대 확률을 가지는 메모리셀에 대응되는 분류정보(35)가 분류도출단계(S31)의 수행 결과라 할 수 있는 것이다.
이러한 본 발명 인공신경망(40)에 있어서, 분류학습단계(S11) 및 분류도출단계(S31)의 최종층 메모리셀을 도 5를 통하여 설명하면 도 5는 4종의 장소를 구분하는 인공신경망(40)이 상정된 것으로 최종층에 4개의 메모리셀이 부여되며, 기계학습의 진행 과정인 분류학습단계(S11)에서는 최종층 메모리셀에 택일적으로 1이 부여되고 나머지 메모리셀에는 0이 부여되되, 기 학습된 인공신경망(40)의 활용 과정인 분류도출단계(S31)에서는 최종층 메모리셀에 0 내지 1의 결과치가 도출되는 과정이라 할 수 있다.
예컨데, 회상회의가 수행되는 공간을 야외, 사무실, 가정 및 교통수단의 총 4개 공간으로 상정하면, 분류학습단계(S11)에서는 분류정보(35)를 표현하는 최종층의 4개 메모리셀에 순차적, 택일적으로 1이 부여되어, 학습용 정규화상정보(33)가 야외를 촬영한 영상정보라면 최종층 제1단 메모리셀에 1이 부여되고 나머지 메모리셀에는 0이 부여되며, 학습용 정규화상정보(33)가 사무실을 촬영한 영상정보라면 최종층 제2단에 1이 부여되고 나머지에는 0이 부여되며, 가정이라면 최종층 제3단이 1이고 교통수단이라면 제4단이 1의 값을 갖는 방식으로 기계학습이 수행되고, 이후 기 학습된 인공신경망(40)이 활용되는 분류도출단계(S31)에서는 최종층 각 단별 메모리셀 중 최대 확률값이 도출된 단에 대응되는 분류정보(35)가 채택되는 것으로, 도 5 하단부에 예시된 최종층 메모리셀에서는 제3단에 최대 확률값이 도출되었으므로 전술한 공간 분류에 따르면 해당 정규화상정보(33)는 가정으로 분류되는 것이다.
이렇듯, 분류도출단계(S31)를 통하여 화상회의가 실제 수행되는 공간에 대한 분류가 완료되면, 도출된 분류정보(35)에 대응되는 설정정보(50)가 화상회의 참여 컴퓨터(10)에 탑재된 회의프로그램에 적용되는 대응설정단계(S41)가 수행됨으로써, 회의프로그램이 실행되는 컴퓨터(10)의 입력 음량 또는 출력 음량이 적절하게 설정된다.
이러한 대응설정단계(S41) 역시 개별 컴퓨터(10)에 탑재된 회의프로그램에 의하여 수행되는 것으로, 전술한 바와 같이 개별 컴퓨터(10)에 구축되거나 컴퓨터(10)와 연결된 서버(20)에 구축된 기 학습된 인공신경망(40)에서 도출된 분류정보(35)에 따라 화상회의 참여 컴퓨터(10)의 실제 소재(所在)가 파악되면, 해당 장소에 최적화된 입력 음량 또는 출력 음량이 설정정보(50)로서 회의프로그램에 적용되며, 분류정보(35)와 이에 대응되는 설정정보(50)는 문자열이나 수치열 형태 또는 데이터베이스의 형태로 구성될 수 있다.
또한, 분류정보(35) 및 설정정보(50)의 문자열 내지 데이터베이스는 개별 컴퓨터(10)에 탑재된 회의프로그램의 일부로서 구성되어 저장되거나, 서버(20)에 저장될 수 있다.
이렇듯, 도 7 및 도 8에 도시된 인공신경망(40)은 결과치로서 장소를 특정하는 분류정보(35)가 도출되는 것으로, 학습된 인공신경망(40)이 실제 활용되는 분류도출단계(S31) 및 대응설정단계(S41)는 일단 장소를 특정한 후, 특정된 장소에 해당되는 설정정보(50)를 적용하는 바, 인공신경망(40)의 실질적 활용은 사실상 장소를 특정하는 분류도출단계(S31)에 국한된다 할 수 있다.
따라서, 장소를 특정하는 영상정보의 특성을 제외한 여타의 특성, 예컨데 배경을 통하여 파악할 수 있는 시간적 정보, 화자(話者) 이외의 소음원 규모 또는 배경을 구성하는 물리적 공간의 규모 등이 인공신경망(40)의 기계학습 및 활용 전반에 있어서 세밀하게 반영될 수 없으며, 특히 사전 분류되지 않은 새로운 공간이 출현할 경우 학습 및 추정의 정확도가 현저하게 감소하는 문제점을 가진다.
또한, 도 7 및 도 8에 도시된 인공신경망(40)은 화상회의 수행 공간의 다변화에 따라 분류정보(35)를 개편함에 있어서, 전체 인공신경망(40)의 구조에 대한 근본적인 재구축이 필요하며, 이후 수행되는 기계학습 역시 원점에서 재수행되어야 하는 심각한 한계를 내포하고 있을 뿐 아니라, 설정정보(50)의 획득은 물론 기계학습에 있어서도 공간의 분류가 선행되어야 하는 바, 각각의 공간이 가지는 음향적 특성에 대한 주관적 선입견이 반영될 수 밖에 없다.
이에, 본 발명에서는 인공신경망(40)의 구조에 대한 개편 없이도 화상회의 수행 공간의 변동성을 기민하게 반영하면서도, 공간별 음향 특성 설정 및 파악에 있어서 선입견을 배제함과 동시에, 기계학습이 지속적으로 수행됨에 따라 그 추정 정확도가 개선될 수 있도록, 합성곱신경망(CNN, Convolutional Neural Network)인 본 발명 인공신경망(40)에 있어서의 연결영역(Connected Network)(42)에 도 9 및 도 10에서와 같이 설정정보(50)가 직접 출력되는 순환신경망(RNN, Recurrent Neural Network)을 적용하였다.
순환신경망(RNN)은 기초적 신경망인 순방향신경망(Feed Forward Neural Network)과 달리, 은닉층 노드에서 활성화 함수를 경유한 결과치를 출력층으로 전달함과 동시에, 입력층 측, 엄밀하게는 해당 은닉층 노드의 입력단 측으로도 전달하는 특징을 가진다.
이렇듯, 순환신경망(RNN)이 적용된 본 발명 인공신경망(40)의 연결영역(42)에서는 출력층의 메모리셀별 결과치로서 사전 설정된 범위의 수치가 도출되는데, 도 10에 예시된 연결영역(42)에서는 출력층에 2단의 메모리셀이 구성되고, 각 단별 메모리셀에는 1 내지 10의 수치가 부여된다.
도 10에 예시된 2단의 메모리셀은 각각 입력 음량 및 출력 음량을 상정한 것이고, 1 내지 10의 수치 역시, 통상의 음향기기에 있어서 볼륨으로 설정되는 음량의 수치를 상정한 것으로, 이러한 출력층의 단수(段數) 및 수치 범위는 설정정보(50)의 특성에 따라 변동될 수 있다.
결국 도 9 및 도 10의 실시예는 공간을 우선 분류하는 과정이 생략되고 입출력 음량 자체를 특정하는 설정정보(50)가 직접 도출되는 것으로서, 순환신경망(RNN)의 적용을 통하여 학습과정에서의 수렴 속도를 가속함과 동시에, 기 학습 인공신경망(40)의 활용 과정에서의 정확성 역시 개선할 수 있으며, 특히 학습 및 활용 과정 전반에 있어서 장소를 특정하는 분류정보(35)를 경유하지 않고 설정정보(50)가 수치로서 직접 도출됨에 따라, 공간 특성에 대한 주관적 선입견이 배제됨은 물론, 공간이 다변화되어도 인공신경망(40)의 구조 변경 없이 추가 기계학습을 수행하는 조치만으로 추정 정확성을 유지할 수 있다.
도 11은 상기와 같이 인공신경망(40)의 연결영역(42)으로서 순환신경망(RNN)이 적용되어 설정정보(50)가 직접 도출되는 실시예의 흐름도를 도시한 것으로, 동 도면에 도시된 바와 같이, 본 발명의 설정정보(50) 직접 도출형 실시예는 다수의 학습용 정규화상정보(33) 및 설정정보(50)가 인공신경망(40)에 입력되어 기계학습이 수행되는 설정학습단계(S12)로 개시된다.
설정학습단계(S12)에 있어서 활용되는 학습용 정보로는 도 9의 상단부에 도시된 바와 같이 정규화상정보(33) 및 설정정보(50)가 적용되며, 전술한 도 5에서와 같이 정규화상정보(33)는 화상회의가 수행되는 장소를 상정한 영상정보이고 설정정보(50)로는 해당 영상정보의 촬영 현장에 대하여 적절하게 설정된 입출력 음량 등이 적용된다.
즉, 학습용 정규화상정보(33)로 변환되는 원시화상정보(31)의 실제 촬영 현장을 감안하여 적절하게 설정된 입출력 음량이 학습용 설정정보(50)로서 적용되는 것으로, 도 9에 도시된 실시예에서는 입력 음량 및 출력 음량을 나타내는 한쌍의 수치로서 설정정보(50)가 구성된다.
도 12는 본 발명의 설정정보(50) 직접 도출형 실시예 인공신경망(40)의 구조를 도시한 것으로, 동 도면에서와 같이, 설정정보(50) 직접 도출형 실시예 인공신경망(40) 역시 기본적으로는 행렬형 정보의 합성곱 및 풀링이 반복되는 합성곱신경망(CNN)으로서, 전체 인공신경망(40)이 추출영역(41)과 연결영역(42)으로 구분되는 구조를 가지며 다만, 연결영역(42)으로서 순환신경망(RNN)이 적용되어 최종 출력층 메모리셀의 각 단별로 설정정보(50)를 구성하는 수치가 직접 도출된다.
이렇듯, 설정학습단계(S12)가 완료되어 본 발명의 설정정보(50) 직접 도출형 실시예 인공신경망(40)의 학습이 완료되면, 도 11에서와 같이, 기 학습된 인공신경망(40)의 실질적인 활용 과정으로서 정규화단계(S20) 내지 직접설정단계(S42)가 수행된다.
전술한 바와 같이, 정규화단계(S20)는 원시화상정보(31)로부터 정규화상정보(33)를 도출하는 일련의 과정으로서 개별 컴퓨터(10)에 탑재된 회의프로그램에 의하여 수행되며, 정규화단계(S20)가 완료되어 정규화상정보(33)가 생성되면, 생성된 정규화상정보(33)가 인공신경망(40)에 입력되고 인공신경망(40)에서 설정정보(50)가 출력되는 설정도출단계(S32)가 수행된다.
즉, 설정도출단계(S32)는 도 6에서와 같은 정규화단계(S20)를 통하여 원시화상정보(31)로부터 변환된 정규화상정보(33)가 도 12에서와 같이 기 학습된 인공신경망(40)에 입력되고, 인공신경망(40)이 가동되어 그 결과치로서 설정정보(50)가 도출되는 과정으로서, 전술한 바와 같이, 본 발명 인공신경망(40)의 연결영역(42)에는 순환신경망(RNN)이 적용되어, 인공신경망(40)의 최종층인 출력층에서는 입력 음량 및 출력 음량 각각에 대응되는 메모리셀별 수치로서 설정정보(50)가 직접 도출되는 것이다.
설정도출단계(S32)가 완료되어 설정정보(50)가 출력층에서 도출되면, 출력된 설정정보(50)가 화상회의 참여 컴퓨터(10)에 탑재된 회의프로그램에 적용되는 직접설정단계(S42)가 수행되며, 이로써 화상회의 수행에 있어서 입력 음량 또는 출력 음량이 적절한 수준으로 조정될 수 있다.
10 : 컴퓨터
20 : 서버
21 : 웹페이지
31 : 원시화상정보
32 : 추출화상정보
33 : 정규화상정보
35 : 분류정보
40 : 인공신경망
41 : 추출영역
42 : 연결영역
50 : 설정정보
S11 : 분류학습단계
S12 : 설정학습단계
S20 : 정규화단계
S31 : 분류도출단계
S32 : 설정도출단계
S41 : 대응설정단계
S42 : 직접설정단계

Claims (4)

  1. 인공신경망을 이용한 화상회의 방법에 있어서,
    다수의 학습용 정규화상정보(33) 및 분류정보(35)가 인공신경망(40)에 입력되어 기계학습이 수행되는 분류학습단계(S11)와;
    화상회의 참여 컴퓨터(10)로 입력된 원시화상정보(31)가 전경이 배제되고 배경만이 추출된 추출화상정보(32)로 수정된 후, 추출화상정보(32)의 해상도 및 대비가 조정되어 정규화상정보(33)로 변환되는 정규화단계(S20)와;
    정규화상정보(33)가 인공신경망(40)에 입력되고 인공신경망(40)에서 분류정보(35)가 출력되는 분류도출단계(S31)와;
    분류정보(35)에 대응되는 설정정보(50)가 컴퓨터(10)에 탑재된 회의프로그램에 적용되는 대응설정단계(S41)로 이루어짐을 특징으로 하는 인공신경망을 이용한 화상회의 방법.
  2. 인공신경망을 이용한 화상회의 방법에 있어서,
    다수의 학습용 정규화상정보(33) 및 설정정보(50)가 인공신경망(40)에 입력되어 기계학습이 수행되는 설정학습단계(S12)와;
    화상회의 참여 컴퓨터(10)로 입력된 원시화상정보(31)가 전경이 배제되고 배경만이 추출된 추출화상정보(32)로 수정된 후, 추출화상정보(32)의 해상도 및 대비가 조정되어 정규화상정보(33)로 변환되는 정규화단계(S20)와;
    정규화상정보(33)가 인공신경망(40)에 입력되고 인공신경망(40)에서 설정정보(50)가 출력되는 설정도출단계(S32)와;
    설정정보(50)가 컴퓨터(10)에 탑재된 회의프로그램에 적용되는 직접설정단계(S42) 로 이루어짐을 특징으로 하는 인공신경망을 이용한 화상회의 방법.
  3. 청구항 1에 있어서,
    인공신경망(40)은 추출영역(41) 및 연결영역(42)으로 구성되는 합성곱신경망이며, 최종 출력층에서는 분류정보(35)가 확률값으로서 도출됨을 특징으로 하는 인공신경망을 이용한 화상회의 방법.
  4. 청구항 2에 있어서,
    인공신경망(40)은 추출영역(41) 및 연결영역(42)으로 구성되는 합성곱신경망이며, 상기 연결영역(42)에는 순환신경망이 적용되고, 최종 출력층에서는 설정정보(50)가 수치로서 도출됨을 특징으로 하는 인공신경망을 이용한 화상회의 방법.
KR1020210045068A 2021-04-07 2021-04-07 인공신경망을 이용한 화상회의 방법 KR102494800B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210045068A KR102494800B1 (ko) 2021-04-07 2021-04-07 인공신경망을 이용한 화상회의 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210045068A KR102494800B1 (ko) 2021-04-07 2021-04-07 인공신경망을 이용한 화상회의 방법

Publications (2)

Publication Number Publication Date
KR20220139000A KR20220139000A (ko) 2022-10-14
KR102494800B1 true KR102494800B1 (ko) 2023-02-06

Family

ID=83599631

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210045068A KR102494800B1 (ko) 2021-04-07 2021-04-07 인공신경망을 이용한 화상회의 방법

Country Status (1)

Country Link
KR (1) KR102494800B1 (ko)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140148348A (ko) * 2013-06-21 2014-12-31 주식회사 케이티 복수의 단말 간의 회의 영상을 제공하는 방법 및 컴퓨팅 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
이병희 외 2인, "딥러닝 기반 손 제스처 인식을 통한 3D 가상현실 게임", 컴퓨터그래픽스학회논문지 v.24 no.5., 2018.11.30. 1부.*

Also Published As

Publication number Publication date
KR20220139000A (ko) 2022-10-14

Similar Documents

Publication Publication Date Title
CN109788236B (zh) 音视频会议控制方法、装置、设备以及存储介质
KR102380222B1 (ko) 비디오 회의에서의 감정 인식
EP1592198B1 (en) Systems and methods for real-time audio-visual communication and data collaboration
US11533347B2 (en) Selective internal forwarding in conferences with distributed media servers
CN103155548A (zh) 对用户接口进行控制来自动对焦地显示呼叫参与者
CN113170076A (zh) 用于通信会话的序列事件的动态策展
US20170048284A1 (en) Non-transitory computer readable medium, information processing apparatus, and information processing system
US11468708B2 (en) Videoconferencing using hybrid edge/cloud inference with machine-learned systems
KR20230039555A (ko) 인물 위치 조정형 화상회의 방법
CN114868107A (zh) 针对通信会话视频流的动态控制的纵横比
US20190122030A1 (en) Automated profile image generation based on scheduled video conferences
KR102494800B1 (ko) 인공신경망을 이용한 화상회의 방법
KR20220138430A (ko) 인공신경망을 이용한 동작 인식 화상회의 방법
US11847307B2 (en) Intelligent content display for network-based communications
WO2022253856A2 (en) Virtual interaction system
US20220247824A1 (en) Intelligent configuration of personal endpoint devices
US20230269468A1 (en) Autonomous video conferencing system with virtual director assistance
CN114040145B (zh) 一种视频会议人像显示方法、系统、终端及存储介质
US20230188581A1 (en) Integrating online and telephonic conference platforms and enabling screening of attendee questions regardless of way attendee joins
US20240095878A1 (en) Method, electronic device, and computer program product for video processing
US20240203275A1 (en) Teaching feedback system and teaching feedback method
US20240146878A1 (en) Method for providing speech bubble in video conference and system thereof
US20220174099A1 (en) Remote audience feedback mechanism
KR20220058078A (ko) 사용자 단말, 서버 및 이들을 이용한 화상 통신 방법
CN116579947A (zh) 基于纯噪声训练的亮度可调的低照度图像增强方法

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant