KR20220138430A

KR20220138430A - 인공신경망을 이용한 동작 인식 화상회의 방법

Info

Publication number: KR20220138430A
Application number: KR1020210023308A
Authority: KR
Inventors: 김난희
Original assignee: 알서포트 주식회사
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2022-10-13
Also published as: JP2022128366A

Abstract

본 발명은 인터넷을 통하여 상호 연결된 컴퓨터(10)에 의하여 수행되는 화상회의에 관한 것으로, 다수의 정규화된 화상정보와 이에 대응되는 동작정보(35)를 기반으로 인공신경망의 기계학습을 수행하고, 이를 활용하여 컴퓨터(10)의 음성 입출력 등의 설정을 자동으로 변경할 수 있도록 한 것이다.
본 발명을 통하여, 화상회의 진행 과정에서의 사용자 의도를 신속하고 정확하게 파악하고, 이를 컴퓨터(10)의 입출력 설정에 반영하여 입력 음량 및 출력 음량 등을 최적화할 수 있다.

Description

인공신경망을 이용한 동작 인식 화상회의 방법{ACTION SENSING REMOTE MEETING METHOD USING ARTIFICIAL NEURAL NETWORK}

본 발명은 인터넷을 통하여 상호 연결된 컴퓨터(10)에 의하여 수행되는 화상회의에 관한 것으로, 다수의 정규화된 화상정보와 이에 대응되는 동작정보(35)를 기반으로 인공신경망의 기계학습을 수행하고, 이를 활용하여 컴퓨터(10)의 음성 입출력 등의 설정을 자동으로 변경할 수 있도록 한 것이다.

인터넷 통신의 속도 및 개인용 컴퓨터(10)의 성능 향상으로 인하여, 전용 통신선과 고가의 영상장비 및 신호처리 시스템의 구축 없이도 인터넷 및 개인용 컴퓨터(10)를 통한 다자간 화상회의가 가능하게 되었으며, 특히, 특허 제1771400호에서와 같이, 화상회의에 참여하는 컴퓨터(10)에 탑재된 브라우저가 화상회의를 목적으로 개설된 웹페이지(21)에 접속하는 방식으로 화상회의의 진행이 가능하게 되어, 사용자 편의가 비약적으로 향상된 바 있다.

또한, 고속 이동통신망 및 무선랜 등 무선망의 보급이 확대되고 무선망 접속 및 고속, 대용량 정보처리가 가능한 스마트폰 및 태블릿PC 등의 휴대형 정보기기 사용이 보편화되면서, 컴퓨터(10) 및 인터넷을 기반으로 하는 화상회의의 수행에 있어서 시간적, 공간적 제약이 극적으로 완화되고 있다.

즉, 탁상용 컴퓨터(10)를 기반으로 사무실 또는 회의실 등 고정된 공간에서 수행되던 종래의 화상회의에서 탈피하여, 무선망 접속이 가능한 다양한 정보기기가 화상회의에 활용됨에 따라, 가정은 물론 공공장소 또는 야외 등 다양한 환경에서 화상회의가 수행될 수 있는 것이다.

전술한 바와 같이, 회상회의 수행에 있어서의 시간적, 공간적 제약이 완화되고, 다양한 장소에서 화상회의가 진행됨에 따라, 컴퓨터(10)를 통한 화상회의 수행에 있어서의 입출력 설정에 대한 기민하고 탄력적인 조정이 요구된다.

인터넷을 통하여 상호 연결된 컴퓨터(10)에 의하여 수행되는 화상회의에 있어서 유통되는 핵심 정보는 영상정보와 음성정보라 할 수 있으며, 이중 음성정보는 입력측은 물론 출력측 모두에서 주변 상황에 상당한 영향을 받는다 할 수 있다.

화상회의 수행에 있어서 음성 입출력 설정에 대한 조정은 기본적으로 키보드, 마우스 또는 터치스크린 등 컴퓨터(10)의 입력장치를 조작함으로써 수행될 수 있으나, 이러한 전통적 방식의 컴퓨터(10) 설정 조정은 다음과 같은 문제점을 가진다.

우선, 전술한 바와 같이, 화상회의의 수행 장소가 고정된 회의실 또는 사무실을 탈피하여 다변화되고, 특히 이동중 또는 다중 이용시설 등 혼잡한 상황에서도 화상회의가 진행됨에 따라, 신속하고 반복적인 설정 조정이 요구되는 방황이 빈발할 수 밖에 없는 바, 매번 컴퓨터(10)의 입력장치를 사용자가 일일이 조작하여야 하는 불편이 있었다.

특히 스마트폰 또는 태블릿PC 등의 휴대형 정보기기가 화상회의 참여 컴퓨터(10)로서 활용됨에 따라, 터치스크린이 주종을 이루는 휴대형 정보기기의 입력장치 특성상, 회상회의의 진행 도중 터치스크린에 대한 터치 조작이 요구되었으며, 터치스크린은 입력장치이자 출력장치의 기능을 겸비하는 바 조작 과정에서의 화면 변동이 불가피한 문제점이 있었다.

이러한 설정 변경 조작 과정에서의 컴퓨터(10) 화면 변동은 사용자 불편을 초래함은 물론, 회상회의 진행상 유통되는 영상정보의 원활한 전달을 방해할 뿐 아니라, 회의 참여자간 원활한 소통을 방해하고 화상회의 몰입도를 심각하게 훼손하는 요소로 작용하였다.

본 발명은 전술한 문제점을 감안하여 창안된 것으로, 인공신경망을 이용한 화상회의 방법에 있어서, 다수의 학습용 정규화상정보(33) 및 동작정보(35)가 인공신경망(40)에 입력되어 기계학습이 수행되는 분류학습단계(S10)와, 화상회의 참여 컴퓨터(10)로 입력된 원시화상정보(31)가 정규화상정보(33)로 변환되는 정규화단계(S20)와, 정규화상정보(33)가 인공신경망(40)에 입력되고 인공신경망(40)에서 동작정보(35)가 출력되는 분류도출단계(S31)와, 동작정보(35)에 따라 컴퓨터(10)에 탑재된 회의프로그램의 설정이 변경되는 설정변경단계(S32)로 이루어짐을 특징으로 하는 인공신경망을 이용한 화상회의 방법이다.

또한, 상기 인공신경망(40)은 추출영역(41) 및 연결영역(42)으로 구성되는 합성곱신경망이며, 최종 출력층에서는 동작정보(35)가 확률값으로서 도출됨을 특징으로 하는 인공신경망을 이용한 화상회의 방법이다.

본 발명을 통하여, 화상회의 진행 과정에서의 사용자 의도를 신속하고 정확하게 파악하고, 이를 컴퓨터(10)의 입출력 설정에 반영하여 입력 음량 및 출력 음량 등을 최적화할 수 있다.

특히, 이러한 컴퓨터(10) 설정의 최적화는 사용자의 직접적인 장치 조작 없이도 자동으로 수행될 수 있어 사용자 편의를 확보할 수 있으며, 화상회의 수행에 있어서의 음성 입출력 등의 설정에 대한 기민하고 탄력적인 조정이 가능하다.

도 1은 본 발명의 컴퓨터 연결 상태 예시도
도 2는 본 발명의 컴퓨터 화면 예시도
도 3은 휴대형 정보기기가 적용된 본 발명 컴퓨터의 화면 예시도
도 4는 본 발명의 동작 인식 상태 컴퓨터 화면 예시도
도 5는 휴대형 정보기기가 적용된 본 발명의 동작 인식 상태 컴퓨터 화면 예시도
도 6은 본 발명의 흐름도
도 7은 본 발명의 인공신경망 수립 및 활용 방식 설명도
도 8은 본 발명의 영상정보 전처리 과정 예시도
도 9는 본 발명의 인공신경망 구조도
도 10은 본 발명 인공신경망의 연결영역 발췌 구조도

본 발명의 상세한 구성 및 수행 과정을 첨부된 도면을 통하여 설명하면 다음과 같다.

우선, 도 1은 본 발명을 수행하는 구성요소 및 구성요소간 연결상태를 도시한 것으로, 도시된 바와 같이, 본 발명은 기본적으로 영상 촬영 및 음성 입출력 기능이 탑재된 다수의 컴퓨터(10)에 의하여 수행되며, 이들 다수의 컴퓨터(10)는 인터넷을 통하여 상호 연결된다.

또한, 동 도면에서 가상선으로 도시된 바와 같이, 웹페이지(21) 또는 서버(20)가 구성되어 화상회의 참여 컴퓨터(10)가 이들 웹페이지(21) 또는 서버(20)를 경유하여 연결될 수도 있다.

본 발명을 수행하는 컴퓨터(10)로는 카메라가 장착되고 음성 입출력이 가능한 통상의 탁상용 컴퓨터(10) 또는 랩탑 컴퓨터(10) 뿐 아니라, 도 1에서도 예시된 바와 같이 촬상기능이 탑재되고 인터넷 접속이 가능한 태블릿PC 또는 스마트폰 등 다양한 정보기기가 적용될 수 있다.

여타의 화상회의 방법에서와 같이 본 발명에 있어서의 화상회의 참여 컴퓨터(10)간 주요 송수신 정보는 영상정보 및 음성정보로서, 이들 정보는 컴퓨터(10)간 개설된 통신로(session)를 통하여 유통되는데, 영상정보 및 음성정보의 입출력 및 유통을 수행하는 회의프로그램이 컴퓨터(10)에 탑재되어 실행됨에 따라 화상회의가 진행된다.

이러한 회의프로그램은 영상정보 및 음성정보의 송수신 기능이 자체 구비된 브라우저(browser), 영상정보 및 음성정보의 송수신 플러그인(plug-in)이 설치된 브라우저 또는 화상회의 목적의 통신로 개설 및 정보 송수신을 담당하는 별도의 응용프로그램 등 다양한 형식을 가질 수 있다.

특히, 도 1에서 가상선으로 도시된 바와 같이, 서버(20)와 연결된 웹페이지(21)가 구축되고 컴퓨터(10)의 회의프로그램이 웹페이지(21)를 매개로 회의서버(20)와 접속되는 방식이 적용될 수 있으며 이 경우 회의프로그램으로는 전술한 브라우저가 적용될 수 있는데, 브라우저는 일반 인터넷 사용자에게 친숙한 프로그램이므로 회의프로그램으로서 브라우저가 적용되는 경우 사용자 편의 확보에 있어서 유리하다.

도 2는 본 발명이 수행되는 컴퓨터(10)의 화면을 예시한 것으로, 도시된 바와 같이, 상대방 참여자가 촬영된 영상정보가 화면으로 출력되고 있으며, 도면상 PIP(Picture In Picture) 방식으로 출력되는 소형 화면에는 당해 컴퓨터(10)의 촬영 영상이 출력되고 있다.

또한, 도면상 좌측 하단에는 출력 음량을 조절할 수 있는 GUI(Graphical User Interface)가 구현되어 있어 사용자가 이를 통하여 컴퓨터(10)에서 출력되는 음량을 조절할 수 있으며, 도면상 명시되지는 않았으나 컴퓨터(10)로 입력되는 음량 역시 다양한 입력 수단을 통하여 조절될 수 있는데, 본 발명에서는 후술할 인공신경망(40)을 통하여 출력 음량 및 입력 음량 등의 설정이 자동으로 변경될 수 있다.

한편, 도 3은 본 발명이 수행되는 컴퓨터(10)로서 스마트폰이 적용된 실시예가 도시되고 있으며, 동 실시예에서도 화상회의 참여자가 촬영된 영상이 입출력됨은 물론, 입출력 음량의 조절 기능이 제공된다.

이렇듯, 본 발명이 적용된 화상회의에서도 종래의 화상회의에서와 같은 입출력 음량의 수동 조절 기능이 제공되며, 사용자가 키보드, 마우스 또는 터치스크린 등 컴퓨터(10)의 입력장치를 조작하여, 컴퓨터(10)에서 출력되는 음량 또는 컴퓨터(10)로 입력되는 음량을 인위적으로 조절할 수 있는데, 본 발명에서는 전술한 바와 같이, 입출력 음량 등 컴퓨터(10) 탑재 회의프로그램의 설정 조정을 인공신경망(40)에 의하여 자동으로 수행할 수 있다.

즉, 사용자가 컴퓨터(10)의 입력장치를 수동으로 조작하지 않고도, 사용자가 촬영된 영상정보가 인공신경망(40)에 입력됨에 따라 동작정보(35)가 도출되고, 회의프로그램이 인공신경망(40)에서 동작정보(35)를 적용하여 입력 음량 또는 출력 음량을 자동으로 조절하는 것으로, 이러한 인공신경망(40)에 의한 입출력 음량 조절은 회의프로그램이 촬영된 사용자의 영상정보를 인공신경망(40)에 주기적으로 입력하고, 그 도출 결과인 동작정보(35)를 반영하는 방식으로 수행될 수 있다.

이렇듯, 사용자 촬영 영상정보에 대한 인공신경망(40)의 동작정보(35) 인식을 통하여, 음성 입출력 설정이 변동되는 상황이 도 4 및 도 5에 예시되 있는데, 도 4는 사용자가 귀를 기울이는 듯한 동작을 함에 따라 출력 음량이 상승되는 상태를 나타내고 있으며, 도 5는 사용자가 입을 손가락으로 막는 듯한 동작을 함에 따라 출력 음량이 소거되는 상태를 나타내고 있다.

전술한 바와 같이, 본 발명에 있어서의 회의프로그램은 화상회의 참여 컴퓨터(10)간 통신로 개설, 영상정보 및 음성정보의 입출력, 송수신 등을 수행하는 프로그램으로서, 도 1에서와 같이 인터넷을 통하여 연결되는 각각의 화상회의 참여 컴퓨터(10)에 탑재되는데, 회의 참여 컴퓨터(10)간 통신로가 서버(20)를 경유하지 않고 직접 연결되는 경우 개별 컴퓨터(10)에 대하여 학습된 인공신경망(40)이 구축될 필요가 있으며, 이 경우 인공신경망(40)은 회의프로그램에 포함되는 부프로그램 또는 프로그램 모듈의 형식을 가지거나, 회의프로그램과 영상정보 및 동작정보(35)를 공유하는 별도 프로그램의 형식을 가지는 등 다양한 형태를 가질 수 있다.

또한, 도 1에서 가상선으로 도시된 바와 같이, 화상회의 참여 컴퓨터(10)간 통신로가 웹페이지(21) 및 서버(20)를 경유하는 경우, 인공신경망(40)을 서버(20)에 구축함으로써 개별 컴퓨터(10)의 전산자원 잠식을 방지할 수 있으며, 이 밖에도 화상회의의 진행과정상 유통되는 영상정보 및 음성정보의 통신로는 화상회의 참여 개별 컴퓨터(10)간 직결되되, 서버(20)에 구축된 인공신경망(40)으로의 영상정보 전송 및 동작정보(35) 수신에 한하여 별도 통신로가 연결되는 방식이 적용될 수도 있다.

즉, 본 발명에 있어서 화상회의를 수행하는 회의프로그램은 개별 참여 컴퓨터(10)에 모두 설치되지만, 학습된 인공신경망(40)은 개별 컴퓨터(10)에 구축될 수 있음은 물론, 컴퓨터(10)와 인터넷을 통하여 연결된 서버(20)에만 구축될 수도 있는 것이다.

다만, 이러한 인공신경망(40)의 구축 위치를 막론하고 인공신경망(40)과 회의프로그램은 상호 긴밀하게 연결되어 인공신경망(40)에 입력되는 영상정보와 인공신경망(40)에서 도출되는 동작정보(35)에 대한 회의프로그램과 인공신경망(40)간 원활한 공유가 보장된다.

본 발명에 있어서의 인공신경망(40)은 기 학습된 인공신경망(40)과 학습중인 인공신경망(40)으로 구분될 수 있는데, 이들 상태별 인공신경망(40)은 구조상 동일한 인공신경망(40)이라 할 수 있으며, 전술한 회의프로그램과 공유되는 동작정보(35)를 도출하는 인공신경망(40)은 기 학습된 인공신경망(40)으로서, 입출력 음량 등에 대한 자동 설정 변경에 필요한 동작정보(35)의 추정 도출을 위해서는 인공신경망(40)의 기계학습 과정이 선행될 필요가 있다.

따라서, 본 발명은 도 6에서와 같이, 다수의 학습용 정규화상정보(33) 및 학습용 동작정보(35)가 인공신경망(40)에 입력되어 기계학습이 수행되는 분류학습단계(S10)로 개시된다.

초기 인공신경망(40)의 원형이라 할 수 있는 퍼셉트론(Perceptron)이래 기계학습을 수행하는 인공신경망(40)의 기본 거동은 사건의 발생 여부(與否) 또는 결과의 정오(正誤)를 판단하는 것으로, 다수의 학습용 정보를 사전 수립한 후, 이를 인공신경망(40)에 입력하고 출력치를 검정하여 인공신경망(40)의 층간 가중치를 수정하는 과정을 거치게 된다.

인공신경망(40)은 다수의 메모리셀(memory cell)이 입력층(input layer), 은닉층(hidden layer) 및 출력층(output layer)을 구성하면서 망상(網狀)으로 연결되어, 정보의 순전파(feedforward) 및 역전파(backpropagation)를 반복하면서, 도출 결과의 오차가 0에 수렴하도록 기계학습을 수행하게 된다.

인공신경망(40)이 개략적으로 도식화되어 표현된 도 7에서와 같이, 입력층, 은닉층 및 출력층은 도면상 세로로 배열된 다수의 메모리셀로 구성되며, 입력층의 메모리셀로 입력된 정보는 은닉층을 구성하는 메모리셀을 경유하여 최종적으로 출력층으로 출력되는데, 동 도면에서는 은닉층이 단일 층으로 표현되었으나, 다수의 층으로 은닉층이 구성될 수도 있으며, 각 층간 정보 전달에 있어서는 가중치가 부여된 상태에서 순전파가 수행되고 전술한 기계학습상 여부 또는 정오 판단에 따른 역전파 처리를 통하여 상기 가중치가 수정됨으로써 오차가 감소된다.

본 발명에 있어서 활용되는 학습용 정보로는 도 7의 상단부에 도시된 바와 같이 정규화상정보(33) 및 동작정보(35)가 적용될 수 있는데, 여기서 정규화상정보(33)는 화상회의 참여자를 상정한 사람의 동작이 촬영된 영상정보이고 동작정보(35)는 해당 동작을 특정하는 정보로서 각각의 정규화상정보(33)에 부여되는 레이블링(labeling) 정보의 특성을 가지는 동시에 다수의 동작 분류 중 하나가 선택되는 택일적(擇一的) 특성을 가진다.

예컨데, 회상회의 참여자의 동작 중 인식 대상 동작을 의미 없는 동작, 귀 기울이는 동작, 입을 막는 동작 및 귀를 막는 동작의 총 4개 동작으로 상정하면, 인공신경망(40)의 출력층 역시 4개의 메모리셀로 구성되며, 학습용 동작정보(35)는 출력층을 구성하는 메모리셀 중 하나를 선택하여 그 값으로 1을 부여하고 출력층의 나머지 메모리셀에는 그 값으로 0을 부여하는 방식이 적용될 수 있다.

도 8은 본 발명 수행에 있어서의 영상정보 전처리(preprocessing) 과정을 도시한 것으로, 이는 분류학습단계(S10)를 수행하기 위한 학습용 영상정보를 수립함에 있어서는 물론, 후술할 기 학습된 인공신경망(40)의 가동에 있어서도 동일하게 적용되는 과정이다.

인공신경망(40)의 기계학습 특히, 본 발명에서와 같은 영상정보 기반 기계학습에 있어서는 영상정보가 가진 특성(feature)이 충실하게 반영되어 결과가 도출되도록 하는 것이 필요하며, 이를 위하여 학습중인 인공신경망(40)에 입력되는 학습용 영상정보는 물론 기 학습된 인공신경망(40)에 입력되는 영상정보 역시 적절한 전처리가 필요한 것이다.

기계학습에 있어서 요구되는 영상정보의 특성은 그 영상정보가 표시하는 사물 또는 상황에 대한 정보라 할 수 있는데, 만일 인공신경망(40)에 의하여 처리되는 다수의 영상정보들이 각각의 해상도 또는 대비 등 내용 외적인 요소에 있어서 극단적인 차이를 가진다면, 기계학습 과정 전반이 왜곡되어 부정확한 결과가 도출될 수 밖에 없다.

따라서, 본 발명에서는 인공신경망(40)으로 입력되는 영상정보를 소정의 규격 즉, 일정한 해상도 및 대비를 가지도록 조정하는 전처리 과정이 수행되며, 특히 본 발명에 있어서 처리되는 영상정보는 화상회의에 참여하는 참여자의 동작에 대한 영상정보인 바, 영상정보내 동작 표시 요소를 제외한 불필요한 요소를 제거하는 과정이 전처리 과정으로서 수행된다.

즉, 도 8에서와 같이, 본 발명에서 영상정보에 적용되는 전처리 과정은 원시화상정보(原始畵像情報)(31)에서 인물(人物) 요소를 제외한 배경 요소를 제거하여 추출화상정보(32)를 생성하고, 추출화상정보(32)를 일정한 해상도로 조정하여 정규화상정보(33)를 생성함으로써, 영상정보를 학습용 정보 또는 결과 도출용 정보로서 활용하는 것이다.

도 8에 예시된 바와 같은 영상정보의 전처리 과정에 있어서, 인물과 배경이 혼재된 원시화상정보(31)에서 배경이 배제된 추출화상정보(32)를 추출하는 처리는 통상의 이미지프로세싱 기술이 적용되어 자동으로 수행될 수 있으며, 추출화상정보(32)를 정규화상정보(33)로 변환함에 있어서는 전술한 해상도의 조정은 물론 정보량의 감축을 위한 이진화(二進化) 처리 등이 수행될 수도 있다.

이렇듯, 다수의 학습용 정규화상정보(33) 및 동작정보(35)가 인공신경망(40)에 입력되어 기계학습이 수행되는 본 발명의 분류학습단계(S10)는 도 9에서와 같은 구조의 인공신경망(40)에 의하여 수행될 수 있는데, 동 도면에 예시된 인공신경망(40)은 합성곱신경망(CNN, Convolutional Neural Network)으로서, 추출영역(Extraction Stack)(41)과 연결영역(Connected Network)(42)이 순차적으로 연결되어 구성된다.

자연어 처리 등에 활용되는 일반적인 신경망은 완전연결형(fully connected) 구조를 가지는 신경망으로서 입력층의 메모리셀이 일렬로 배치되어 영상정보를 입력할 경우 영상정보를 구성하는 다차원적 정보가 일차원적 정보로 단순화됨에 따라 영상정보의 특성(feature)이 희석 내지 무시되는 치명적인 단점을 가진다.

본 발명에서 활용되는 합성곱신경망은 전술한 완전연결형 신경망의 문제점을 개선할 수 있도록 수립된 것으로, 순전파 및 역전파 과정에서도 영상정보의 특성이 유의하게 유지될 수 있도록 도 9에서와 같이 합성곱층(convolution layer) 및 풀링층(pooling layer)이 반복되는 추출영역(41)이 구성되며, 추출영역(41)에서 추출된 정보가 이후의 연결영역(42)으로 입력되고, 최종적으로 결과가 도출된다.

합성곱신경망(CNN)인 본 발명의 인공신경망(40)에 있어서, 추출영역(41)을 구성하는 합성곱층은 정규화상정보(33)를 구성하는 행렬형 정보에 대한 합성곱 연산을 수행하여 영상정보의 특성을 최대한 유지하면서도 정보량을 감축하는 처리를 수행하는 것으로, 이로써 정규화상정보(33)내 인물의 위치 또는 방향 등 특성 외적인 요소의 변동에 따른 정보 왜곡을 억제하면서도 효율적인 기계학습이 가능하게 된다.

합성곱층과 순차 반복 연결되는 풀링층은 합성곱 연산을 통하여 생성된 행렬형 정보에서 소정 영역내 대표성을 가지는 정보를 추출하여 차원이 축소된 행렬형 정보를 수립하는 처리를 수행하는 것으로, 풀링층을 통하여 추출되는 소정 영역내 대표치로는 최대치 또는 평균치가 적용될 수 있다.

이렇듯, 합성곱층과 풀링층이 반복되는 본 발명 합성곱신경망의 추출영역(41)에 있어서, 인공신경망(40)에 최초 입력된 정규화상정보(33)는 결국 최종 풀링층을 통과한 후 행렬형 정보가 일련의 단일값 정보로 변환되며, 변환된 정보는 도 9에서와 같이 평탄화(flatten) 처리를 통하여 완전연결형 신경망의 입력층을 구성하는 일렬 배치 메모리셀에 입력된다.

도 9에서와 같이, 입력층과 출력층 사이에 은닉층이 구성되는 연결영역(42)에서는 처리 정보의 순전파가 진행됨에 따라 최종 출력층을 통하여 동작정보(35)가 결과로서 도출되는데, 여기서 동작정보(35)는 영상정보내 인물의 의미있는 동작을 특정하는 전술한 학습시 동작정보(35)와 동일한 성격의 정보로서, 순전파 결과로서 출력층에서 도출된 동작정보(35)와 당해 정규화상정보(33)에 당초 부여된 동작정보(35)를 대조하여 그 정오(正誤)에 따라, 역전파를 통하여 각 층간 가중치를 조정하고, 다수의 학습용 정규화상정보(33) 및 동작정보(35)에 대하여 전술한 과정이 반복됨으로써, 본 발명 인공신경망(40)에서의 기계학습 즉, 분류학습단계(S10)가 수행된다.

도 10은 도 9에 예시된 본 발명 인공신경망(40)에 있어서 연결영역(42)을 발췌하여 도시한 것으로, 입력층, 은닉층 및 출력층을 구성하는 메모리셀이 망상으로 연결되어 정보의 순전파(feedforward) 및 역전파(backpropagation)가 수행되는데, 최종 결과를 도출하는 출력층과 은닉층간 활성화함수(activation function)로는 소프트맥스(softmax function) 함수가 적용된다.

분류 처리에 주로 활용되는 소프트맥스 함수는 도 10에서와 같이, 최종 출력층을 구성하는 각각의 메모리셀에 확률값을 부여하게 되며, 따라서 출력층을 구성하는 각각의 메모리셀에는 0 내지 1의 값이 부여되고, 출력층의 전체 메모리셀 합산치는 1이 된다.

소프트맥스 함수 적용 연결영역(42)에서 출력층 도출치는 당초 설정된 동작정보(35)에 부합되도록 층간 가중치가 조정되면서 출력층 메모리셀 중 택일적으로 1에 최대한 근접한 값이 도출되고 나머지 메모리셀에는 최대한 0에 근접한 값이 도출되도록 기계학습이 수행되고, 기 학습된 인공신경망(40)이 본격적으로 활용되는 후술할 분류도출단계(S31)에서는 0 이상 1 이하의 확률값으로 도출된 출력층 메모리셀의 정보를 통하여 최대치의 확률값으로 제시되는 메모리셀에 대응되는 동작정보(35)를 선택하는 방식으로 당초 입력된 정규화상정보(33)의 특성을 파악하게 된다.

이렇듯, 분류학습단계(S10)가 수행됨으로써, 본 발명의 인공신경망(40)이 학습된 인공신경망(40)으로서 구축될 수 있으며, 전술한 바와 같이, 회의 참여 컴퓨터(10)가 서버(20)의 중계 없이 직접 연결되어 컴퓨터(10)내 탑재된 회의프로그램이 독립적으로 거동하는 경우 학습된 인공신경망(40)은 회의프로그램에 포함되는 부프로그램 또는 프로그램 모듈의 형식을 취하거나 회의프로그램과 영상정보 및 동작정보(35)를 공유하는 별도의 프로그램으로서 개별 컴퓨터(10)에 독립적으로 이식된다.

또한, 도 1에서 가상선으로 도시된 바와 같이, 화상회의 참여 컴퓨터(10)간 영상정보 및 음성정보의 송수신이 서버(20)에 의하여 중계되는 경우나, 컴퓨터(10)와 서버(20)간 일회성 또는 간헐적 통신로가 개설되어 인공신경망(40)으로의 영상정보 및 동작정보(35) 등의 전송이 이루어지는 경우에는 인공신경망(40)이 서버(20)에만 구축될 수도 있다.

분류학습단계(S10)가 완료되어 학습된 인공신경망(40)이 구축되면, 이를 활용하여 화상회의 참여자의 유의미한 동작에 부합되는 동작정보(35)를 도출하고, 이를 기반으로 입출력 음량 설정 등이 변경되는 일련의 과정이 수행되는데, 도 6에서와 같이, 동작정보(35) 도출 과정으로서, 화상회의 참여 컴퓨터(10)로 입력된 원시화상정보(31)가 정규화상정보(33)로 변환되는 정규화단계(S20)가 우선 수행된다.

정규화단계(S20)에서 화상회의 참여 컴퓨터(10)로 입력되는 원시화상정보(31)는 당해 컴퓨터(10)에 장착된 카메라에 의하여 촬영된 영상정보로서, 화상회의 참여자인 당해 컴퓨터(10) 사용자와 주변 배경을 포함하는 것이며, 도 8의 좌단에 도시된 형태를 가진다.

이렇듯 컴퓨터(10) 장착 카메라에 의하여 최초 촬영된 원시화상정보(31)는 도 8에서와 같이, 배경이 배제되고 인물만이 추출된 추출화상정보(32)로 수정된 후, 일정 해상도 또는 대비로 조정되어 최종적으로 정규화상정보(33)로 변환되는데, 이러한 정규화단계(S20)는 통상의 다양한 이미지프로세싱 기법이 적용되어 회의프로그램에 의하여 수행된다.

즉, 원시화상정보(31)가 정규화상정보(33)로 변환되는 정규화단계(S20)는 사용자의 조작 없이도 개별 컴퓨터(10)에 탑재된 회의프로그램에 의하여 자동으로 수행되는 것으로, 회의프로그램에는 원시화상정보(31)에서 인물을 추출하고 그 해상도를 조절하는 등의 이미지프로세싱 기능이 부여된다.

정규화단계(S20)가 완료되어 결과 도출용 정규화상정보(33)가 생성되면, 생성된 정규화상정보(33)가 인공신경망(40)에 입력되고 인공신경망(40)에서 동작정보(35)가 출력되는 분류도출단계(S31)가 수행된다.

즉, 분류도출단계(S31)는 도 8에서와 같은 정규화단계(S20)를 통하여 원시화상정보(31)로부터 변환된 정규화상정보(33)가 도 9에서와 같이 기 학습된 인공신경망(40)에 입력되고, 인공신경망(40)이 가동되어 그 결과치로서 동작정보(35)가 도출되는 과정으로서, 전술한 바와 같이, 본 발명 인공신경망(40)의 최종층인 연결영역(42)의 출력층에서는 각 메모리셀별로 확률값이 출력되는 바, 최대 확률을 가지는 메모리셀에 대응되는 동작정보(35)가 분류도출단계(S31)의 수행 결과라 할 수 있는 것이다.

이러한 본 발명 인공신경망(40)에 있어서, 분류학습단계(S10) 및 분류도출단계(S31)의 최종층 메모리셀을 도 7을 통하여 설명하면 도 7은 4종의 동작을 구분하는 인공신경망(40)이 상정된 것으로 최종층에 4개의 메모리셀이 부여되며, 기계학습의 진행 과정인 분류학습단계(S10)에서는 최종층 메모리셀에 택일적으로 1이 부여되고 나머지 메모리셀에는 0이 부여되되, 기 학습된 인공신경망(40)의 활용 과정인 분류도출단계(S31)에서는 최종층 메모리셀에 0 내지 1의 결과치가 도출되는 과정이라 할 수 있다.

예컨데, 참여자의 동작을 의미 없는 동작, 귀 기울이는 동작, 입을 막는 동작 및 귀를 막는 동작의 총 4개 동작으로 상정하면, 분류학습단계(S10)에서는 동작정보(35)를 표현하는 최종층의 4개 메모리셀에 순차적, 택일적으로 1이 부여되어, 학습용 정규화상정보(33)가 무의미한 동작이라면 최종층 제1단 메모리셀에 1이 부여되고 나머지 메모리셀에는 0이 부여되며, 학습용 정규화상정보(33)가 귀를 기울이는 동작이라면 최종층 제2단에 1이 부여되고 나머지에는 0이 부여되며, 입을 막는 동작이라면 제3단이 1이고 귀를 막는 동작이라면 제4단이 1의 값을 갖는 방식으로 기계학습이 수행되고, 이후 기 학습된 인공신경망(40)이 활용되는 분류도출단계(S31)에서는 최종층 각 단별 메모리셀 중 최대 확률값이 도출된 단에 대응되는 동작정보(35)가 채택되는 것으로, 도 7 하단부에 예시된 최종층 메모리셀에서는 제3단에 최대 확률값이 도출되었으므로 전술한 동작 분류에 따르면 해당 정규화상정보(33)는 입을 막는 동작으로 분류되는 것이다.

이렇듯, 분류도출단계(S31)를 통하여 화상회의 참여자의 동작에 대한 분류가 완료되면, 도출된 동작정보(35)에 따라 회의프로그램의 설정이 변경되는 설정변경단계(S32)가 수행됨으로써, 회의프로그램이 실행되는 컴퓨터(10)의 입력 음량 또는 출력 음량이 적절하게 설정된다.

이러한 설정변경단계(S32) 역시 개별 컴퓨터(10)에 탑재된 회의프로그램에 의하여 수행되는 것으로, 전술한 바와 같이 개별 컴퓨터(10)에 구축되거나 컴퓨터(10)와 연결된 서버(20)에 구축된 기 학습된 인공신경망(40)에서 도출된 동작정보(35)에 따라 화상회의 참여자의 동작이 파악되면, 해당 의도에 부합되는 입력 음량 또는 출력 음량 설정이 회의프로그램에 변경 적용된다.

10 : 컴퓨터
20 : 서버
21 : 웹페이지
31 : 원시화상정보
32 : 추출화상정보
33 : 정규화상정보
35 : 동작정보
40 : 인공신경망
41 : 추출영역
42 : 연결영역
S10 : 분류학습단계
S20 : 정규화단계
S31 : 분류도출단계
S32 : 설정변경단계

Claims

인공신경망을 이용한 화상회의 방법에 있어서,
다수의 학습용 정규화상정보(33) 및 동작정보(35)가 인공신경망(40)에 입력되어 기계학습이 수행되는 분류학습단계(S10)와;
화상회의 참여 컴퓨터(10)로 입력된 원시화상정보(31)가 정규화상정보(33)로 변환되는 정규화단계(S20)와;
정규화상정보(33)가 인공신경망(40)에 입력되고 인공신경망(40)에서 동작정보(35)가 출력되는 분류도출단계(S31)와;
동작정보(35)에 따라 컴퓨터(10)에 탑재된 회의프로그램의 설정이 변경되는 설정변경단계(S32)로 이루어짐을 특징으로 하는 인공신경망을 이용한 화상회의 방법.
청구항 1에 있어서,
인공신경망(40)은 추출영역(41) 및 연결영역(42)으로 구성되는 합성곱신경망이며, 최종 출력층에서는 동작정보(35)가 확률값으로서 도출됨을 특징으로 하는 인공신경망을 이용한 화상회의 방법.