KR20210100707A

KR20210100707A - 비디오 이미지 전송 방법, 장치, 인터랙티브 지능형 태블릿 및 저장 매체

Info

Publication number: KR20210100707A
Application number: KR1020217021786A
Authority: KR
Inventors: 밍 양
Original assignee: 광저우 스위엔 일렉트로닉스 코., 엘티디.; 광저우 스전 인포메이션 테크놀로지 컴퍼니 리미티드
Priority date: 2019-01-23
Filing date: 2019-12-24
Publication date: 2021-08-17
Also published as: AU2019424397B2; CN109831638B; WO2020151443A1; EP3902247A4; JP7250937B2; US20220051024A1; AU2019424397A9; AU2019424397A1; EP3902247A1; JP2022517841A; KR102594030B1; CN109831638A

Abstract

본 발명은 비디오 이미지 전송 방법, 장치, 인터랙티브 지능형 태블릿 및 저장 매체에 관한 것이다. 상기 방법은, 제1 비디오 통신 단말에 의해 촬영된 비디오 이미지를 획득하는 단계; 상기 비디오 이미지의 의미 정보를 획득하는 단계; 및 상기 의미 정보를 제2 비디오 통신 단말에 송신하는 단계를 포함하되, 상기 의미 정보는 상기 제2 비디오 통신 단말에서 상기 비디오 이미지의 재구성 이미지를 재구성하기 위한 것이다.

Description

비디오 이미지 전송 방법, 장치, 인터랙티브 지능형 태블릿 및 저장 매체

본 출원은 2019년 01월 23일에 중국 특허청에 제출한, 출원 번호가 201910063004.7인 중국 특허 출원의 우선권을 주장하는바, 해당 출원의 모든 내용은 본 출원에 참조로서 인용된다.

[기술분야]

본 발명은 이미지 처리 기술 분야에 관한 것으로, 예를 들어, 비디오 통신의 비디오 이미지 전송 방법, 장치, 시스템, 인터랙티브 지능형 태블릿 및 저장 매체에 관한 것이다.

네트워크 기술의 발전과 수요 증가로 인해, 사용자는 비디오 통신의 화질에 대해, 해상도 사양, 충실도 사양 및 실시간 전송을 포함하는 더 높은 사양을 요구하게 되었다. 예를 들어 화상 회의에서 실시간 인터랙티브는 좋은 체험을 위한 전제 조건이며, 동시에 비디오 이미지가 고해상도에 도달해야 하고, 중요한 이미지 정보(예를 들어, 얼굴 세부 정보, 신체 움직임 세부 정보 등 정보)는 가능한 많이 유지되어야 하는 것이 요구된다.

본 발명의 구현 과정에서, 발명자에 의해 발견한 바에 따르면, 관련 기술에서 비디오 이미지의 고해상도 및 높은 충실도를 달성하도록 보장하기 위해, 송신단의 비디오 이미지 압축률을 감소시켜야 하므로, 네트워크를 통해 대량의 이미지 데이터가 전송되어야 하는데, 데이터 전송 효율이 낮으면 실시간 전송을 보장할 수 없게 된다. 실시간 전송이 보장되면, 일반적으로 손실 압축 기술을 통해 비디오 이미지 압축률을 향상시켜야 하는데, 이는 비디오 이미지 정보의 심각한 손실을 초래하므로, 비디오 통신 중 이미지 고해상도 및 높은 충실도의 요구를 만족시킬 수 없게 된다.

이로부터 알 수 있듯이, 현재 비디오 통신 중 비디오 이미지의 전송 해결수단에 대해, 고해상도, 높은 충실도 및 실시간 전송의 요구를 동시에 만족할 수 없다.

이에 기반하여, 관련 방식의 비디오 이미지의 전송 기술이 고해상도, 높은 충실도 및 실시간 전송의 요구를 동시에 만족할 수 없는 경우에 대해, 비디오 이미지 전송 방법, 장치, 시스템, 인터랙티브 지능형 태블릿 및 저장 매체를 제공할 필요가 있다.

본 발명의 제1 양태에 따르면, 비디오 이미지 전송 방법이 제공되는바, 제1 비디오 통신 단말에 의해 촬영된 비디오 이미지를 획득하는 단계; 상기 비디오 이미지의 의미 정보를 추출하는 단계; 및 상기 의미 정보를 제2 비디오 통신 단말에 송신하는 단계를 포함하되, 상기 의미 정보는 상기 제2 비디오 통신 단말에서 상기 비디오 이미지의 재구성 이미지를 재구성하기 위한 것이다.

그 중 일 실시예에서, 상기 비디오 이미지의 의미 정보를 획득하는 상기 단계는, 트레이닝된 인코더를 통해 상기 비디오 이미지의 의미 정보를 추출하는 단계를 포함하고; 상기 인코더는 이미지 의미 정보를 인식하기 위한 것이다.

그 중 일 실시예에서, 상기 인코더의 입력은 이미지이고, 출력은 입력 이미지에 대응되는 저차원 벡터이며, 입력 이미지의 의미 정보로 사용된다.

그 중 일 실시예에서, 상기 인코더는 콘볼루션 신경망이다.

그 중 일 실시예에서, 상기 비디오 이미지의 의미 정보는, 상기 비디오 이미지 중 설정 객체의 의미 정보; 및 상기 비디오 이미지의 전역 의미 정보 중 어느 하나를 포함한다.

그 중 일 실시예에서, 상기 비디오 이미지 중 설정 객체의 의미 정보를 추출하는 단계는, 상기 비디오 이미지의 설정 객체를 인식하여, 상기 설정 객체의 서브 이미지를 획득하는 단계; 상기 설정 객체의 서브 이미지를 트레이닝된 인코더에 입력하는 단계; 및 상기 인코더의 출력을 획득하여, 상기 비디오 이미지 중 상기 설정 객체의 의미 정보를 획득하는 단계를 포함한다.

그 중 일 실시예에서, 상기 설정 객체는 얼굴 또는 몸체를 포함한다.

그 중 일 실시예에서, 상기 설정 객체가 얼굴이면, 상기 비디오 이미지 중 설정 객체의 의미 정보를 추출하는 상기 단계는, 상기 비디오 이미지의 얼굴 영역을 인식하여, 얼굴 서브 이미지를 획득하는 단계; 상기 얼굴 서브 이미지를 트레이닝된 인코더에 입력하는 단계; 및 상기 인코더의 출력을 획득하여, 상기 비디오 이미지의 얼굴 의미 정보를 획득하는 단계를 포함한다.

그 중 일 실시예에서, 상기 설정 객체가 몸체이면, 상기 비디오 이미지 중 설정 객체의 의미 정보를 추출하는 상기 단계는, 상기 비디오 이미지의 몸체 영역을 인식하여, 몸체 서브 이미지를 획득하는 단계; 상기 몸체 서브 이미지를 트레이닝된 인코더에 입력하는 단계; 및 상기 인코더의 출력을 획득하여, 상기 비디오 이미지의 몸체 의미 정보를 획득하는 단계를 포함한다.

그 중 일 실시예에서, 비디오 이미지의 전역 의미 정보를 추출하는 단계는, 상기 비디오 이미지를 트레이닝된 인코더에 입력하는 단계; 및 상기 인코더의 출력을 획득하여, 상기 비디오 이미지의 전역 의미 정보를 획득하는 단계를 포함한다.

그 중 일 실시예에서는, 제1 참조 이미지를 N 프레임 간격마다 설정된 이미지 전송 모드를 사용하여 제2 비디오 통신 단말에 송신하는 단계를 더 포함하되; 설정된 이미지 전송 모드에서 전송된 상기 제1 참조 이미지의 데이터 양은 상기 의미 정보의 데이터 양보다 크고; N은 1보다 크며; 상기 제1 참조 이미지는 상기 제1 비디오 통신 단말에 의해 촬영된 비디오 이미지에 속하고; 상기 제1 참조 이미지는 상기 제2 비디오 통신 단말이 상기 의미 정보 및 상기 제1 참조 이미지에 따라 상기 비디오 이미지의 재구성 이미지를 재구성하도록 하기 위한 것이다.

그 중 일 실시예에서, 상기 의미 정보가 설정 객체의 의미 정보이면, 상기 제1 참조 이미지는 상기 제2 비디오 통신 단말이 수신된 의미 정보에 따라 상기 설정 객체의 재구성 서브 이미지를 획득하고, 상기 재구성 서브 이미지를 상기 제1 참조 이미지와 융합하여, 상기 비디오 이미지의 재구성 이미지를 획득하도록 하기 위한 것이다.

그 중 일 실시예에서, 상기 의미 정보가 전역 의미 정보이면, 상기 제1 참조 이미지는 상기 제2 비디오 통신 단말이 수신된 의미 정보에 따라 초기 재구성 이미지를 획득하고, 상기 초기 재구성 이미지를 상기 제1 참조 이미지와 융합하여, 상기 비디오 이미지의 재구성 이미지를 획득하도록 하기 위한 것이다.

그 중 일 실시예에서, 상기 의미 정보가 설정 객체의 의미 정보이면, 상기 방법은, 상기 비디오 이미지 중 설정 객체의 위치 정보를 획득하는 단계; 상기 제2 비디오 통신 단말에 상기 위치 정보를 송신하는 단계를 더 포함하되, 상기 위치 정보는 상기 제2 비디오 통신 단말이 상기 위치 정보에 따라 상기 설정 객체의 재구성 서브 이미지를 상기 제1 참조 이미지와 융합하여, 상기 비디오 이미지의 재구성 이미지를 획득하도록 하기 위한 것이다.

그 중 일 실시예에서, 상기 방법은, 제2 참조 이미지를 설정된 이미지 전송 모드를 사용하여 상기 제2 비디오 통신 단말에 송신하는 단계를 더 포함하되; 상기 설정된 이미지 전송 모드에서 전송된 상기 제2 참조 이미지의 데이터 양은 상기 의미 정보의 데이터 양보다 크고; 상기 제2 참조 이미지는 상기 설정 객체의 이미지, 상기 제1 비디오 통신 단말의 환경 이미지 중 적어도 하나이며; 상기 제2 참조 이미지는 상기 제2 비디오 통신 단말이 상기 의미 정보 및 상기 제2 참조 이미지에 따라 상기 비디오 이미지의 재구성 이미지를 재구성하도록 하기 위한 것이다.

본 발명의 제2 양태에 따르면, 비디오 이미지 전송 방법이 제공되는바, 비디오 이미지의 의미 정보를 수신하되, 상기 비디오 이미지는 상기 제1 비디오 통신 단말에 의해 촬영된 비디오 이미지인 단계; 상기 의미 정보에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 단계; 및 상기 재구성 이미지를 제2 비디오 통신 단말의 디스플레이 스크린을 통해 디스플레이하는 단계를 포함한다.

그 중 일 실시예에서, 상기 의미 정보에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 상기 단계는, 상기 의미 정보 및 미리 트레이닝된 디코더에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 단계를 포함한다.

그 중 일 실시예에서, 상기 디코더의 입력은 이미지 의미 정보이고, 출력은 입력 의미 정보를 기반으로 재구성된 이미지이다.

그 중 일 실시예에서, 상기 디코더는 콘볼루션 신경망이다.

그 중 일 실시예에서, 상기 비디오 이미지의 의미 정보는, 상기 비디오 이미지의 설정 객체의 의미 정보; 및 상기 비디오 이미지의 전역 의미 정보 중 어느 하나를 포함한다. 그 중 일 실시예에서, 상기 설정 객체는 얼굴 또는 몸체를 포함한다.

그 중 일 실시예에서, 상기 의미 정보에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 단계는, 최근에 설정된 이미지 전송 모드를 통해 수신된 제1 참조 이미지를 획득하되, 상기 제1 참조 이미지는 상기 제1 비디오 통신 단말에 의해 송신되고 이에 의해 촬영된 비디오 이미지이고; 설정된 이미지 전송 모드를 통해 수신된 상기 제1 참조 이미지의 데이터 양은 상기 의미 정보의 데이터 양보다 큰 단계; 및 상기 의미 정보 및 상기 제1 참조 이미지에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 단계를 포함한다.

그 중 일 실시예에서, 상기 방법은, 상기 제1 비디오 통신 단말로부터의 제1 참조 이미지를 N 프레임 간격마다 설정된 이미지 전송 모드를 통해 수신하는 단계를 더 포함하되; N은 1보다 크다.

그 중 일 실시예에서, 상기 의미 정보가 설정 객체의 의미 정보이면, 상기 의미 정보 및 상기 제1 참조 이미지에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 단계는, 상기 의미 정보를 트레이닝된 디코더에 입력하는 단계; 상기 디코더의 출력을 획득하여, 상기 설정 객체의 재구성 서브 이미지를 획득하는 단계; 및 상기 설정 객체의 재구성 서브 이미지를 상기 제1 참조 이미지와 융합하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 단계를 포함한다.

그 중 일 실시예에서, 상기 의미 정보가 이미지의 전역 의미 정보이면, 상기 의미 정보 및 상기 제1 참조 이미지에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 단계는, 상기 의미 정보를 트레이닝된 디코더에 입력하는 단계; 상기 디코더의 출력을 획득하여, 초기 재구성 이미지를 획득하는 단계; 및 상기 초기 재구성 이미지를 상기 제1 참조 이미지와 융합하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 단계를 포함한다.

그 중 일 실시예에서, 상기 의미 정보가 얼굴 의미 정보이면, 상기 디코더의 출력을 획득하여, 얼굴의 재구성 서브 이미지를 획득하는 단계; 및 상기 의미 정보가 몸체 의미 정보이면, 상기 디코더의 출력을 획득하여, 몸체의 재구성 서브 이미지를 획득하는 단계를 포함한다.

그 중 일 실시예에서는, 상기 제1 비디오 통신 단말에 의해 송신된 위치 정보를 수신하는 단계를 더 포함하되, 상기 위치 정보는 상기 비디오 이미지 중 상기 설정 객체의 위치 정보이고;

상기 설정 객체의 재구성 서브 이미지를 상기 제1 참조 이미지와 융합하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 상기 단계는, 상기 위치 정보에 따라 상기 설정 객체의 재구성 서브 이미지를 상기 제1 참조 이미지와 융합하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 단계를 포함한다.

그 중 일 실시예에서, 상기 제1 비디오 통신 단말에 의해 송신된 위치 정보를 수신하는 상기 단계는, 상기 제1 비디오 통신 단말에 의해 송신된 제1 위치 정보를 수신하되, 상기 제1 위치 정보는 상기 비디오 이미지 중 얼굴 영역의 위치 정보인 단계; 및 상기 제1 비디오 통신 단말에 의해 송신된 제2 위치 정보를 수신하되, 상기 제2 위치 정보는 상기 비디오 이미지 중 몸체 영역의 위치 정보인 단계를 포함한다.

그 중 일 실시예에서는, 상기 위치 정보에 따라 상기 설정 객체의 재구성 서브 이미지를 상기 제1 참조 이미지와 융합하는 단계 이전에, 상기 설정 객체의 재구성 서브 이미지에 대해 에지 페더링 처리를 수행하는 단계를 더 포함한다.

그 중 일 실시예에서, 상기 의미 정보에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 단계는, 설정된 이미지 전송 모드를 통해 수신된 제2 참조 이미지를 획득하되, 상기 제2 참조 이미지는 설정 객체의 이미지, 상기 제1 비디오 통신 단말의 환경 이미지 중 적어도 하나이고, 설정된 이미지 전송 모드를 통해 수신된 상기 제2 참조 이미지의 데이터 양은 상기 의미 정보의 데이터 양보다 큰 단계; 및 상기 의미 정보 및 상기 제2 참조 이미지에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 단계를 포함한다.

본 발명의 제3 양태에 따르면, 비디오 이미지 전송 방법이 제공되는바, 제1 비디오 통신 단말이 촬영된 비디오 이미지를 획득하고, 상기 비디오 이미지의 의미 정보를 획득하여, 상기 의미 정보를 제2 비디오 통신 단말에 송신하는 단계; 및 상기 제2 비디오 통신 단말이 상기 의미 정보를 수신하고, 상기 의미 정보에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하여, 상기 재구성 이미지를 제2 비디오 통신 단말의 디스플레이 스크린을 통해 디스플레이하는 단계를 포함한다.

본 발명의 제4 양태에 따르면, 비디오 이미지 전송 장치가 제공되는바, 제1 비디오 통신 단말에 의해 촬영된 비디오 이미지를 획득하도록 설치되는 이미지 획득 모듈; 상기 비디오 이미지의 의미 정보를 추출하도록 설치되는 정보 추출 모듈; 및 상기 의미 정보를 제2 비디오 통신 단말에 송신하도록 설치되는 송신 모듈을 포함하되, 상기 의미 정보는 상기 제2 비디오 통신 단말에서 상기 비디오 이미지의 재구성 이미지를 재구성하기 위한 것이다.

그 중 일 실시예에서, 상기 정보 추출 모듈은, 트레이닝된 인코더를 통해 상기 비디오 이미지의 의미 정보를 추출하되; 상기 인코더는 이미지 의미 정보를 인식하기 위한 것이다.

그 중 일 실시예에서는, 제1 참조 이미지를 N 프레임 간격마다 설정된 이미지 전송 모드를 사용하여 제2 비디오 통신 단말에 송신하는 제1 참조 이미지 송신 모듈을 더 포함하되; 설정된 이미지 전송 모드에서 전송된 상기 제1 참조 이미지의 데이터 양은 상기 의미 정보의 데이터 양보다 크고; N은 1보다 크며; 상기 제1 참조 이미지는 상기 제1 비디오 통신 단말에 의해 촬영된 비디오 이미지에 속하고; 상기 제1 참조 이미지는 상기 제2 비디오 통신 단말이 상기 의미 정보 및 상기 제1 참조 이미지에 따라 상기 비디오 이미지의 재구성 이미지를 재구성하도록 하기 위한 것이다.

그 중 일 실시예에서는, 제2 참조 이미지를 설정된 이미지 전송 모드를 사용하여 상기 제2 비디오 통신 단말에 송신하는 제2 참조 이미지 송신 모듈을 더 포함하되; 상기 설정된 이미지 전송 모드에서 전송된 상기 제2 참조 이미지의 데이터 양은 상기 의미 정보의 데이터 양보다 크고;

상기 제2 참조 이미지는 상기 설정 객체의 이미지, 상기 제1 비디오 통신 단말의 환경 이미지 중 적어도 하나이며; 상기 제2 참조 이미지는 상기 제2 비디오 통신 단말이 상기 의미 정보 및 상기 제2 참조 이미지에 따라 상기 비디오 이미지의 재구성 이미지를 재구성하도록 하기 위한 것이다.

본 발명의 제5 양태에 따르면, 비디오 이미지 전송 장치가 제공되는바, 비디오 이미지의 의미 정보를 수신하도록 설치되되, 상기 비디오 이미지는 상기 제1 비디오 통신 단말에 의해 촬영된 비디오 이미지인 정보 수신 모듈; 상기 의미 정보에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하도록 설치되는 이미지 재구성 모듈; 및 상기 재구성 이미지를 제2 비디오 통신 단말의 디스플레이 스크린을 통해 디스플레이하도록 설치되는 이미지 디스플레이 모듈을 포함한다.

그 중 일 실시예에서, 상기 이미지 재구성 모듈은, 상기 의미 정보 및 미리 트레이닝된 디코더에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득한다.

그 중 일 실시예에서, 상기 비디오 이미지의 의미 정보는, 상기 비디오 이미지의 설정 객체의 의미 정보; 및 상기 비디오 이미지의 전역 의미 정보 중 어느 하나를 포함한다.

그 중 일 실시예에서, 이미지 재구성 모듈은, 최근에 설정된 이미지 전송 모드를 통해 수신된 제1 참조 이미지를 획득하되, 상기 제1 참조 이미지는 상기 제1 비디오 통신 단말에 의해 송신되고 이에 의해 촬영된 비디오 이미지이고; 설정된 이미지 전송 모드를 통해 수신된 상기 제1 참조 이미지의 데이터 양은 상기 의미 정보의 데이터 양보다 큰 제1 참조 이미지 획득 서브 모듈; 및 상기 의미 정보 및 상기 제1 참조 이미지에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 제1 이미지 재구성 서브 모듈을 포함한다.

그 중 일 실시예에서는, 상기 제1 비디오 통신 단말로부터의 제1 참조 이미지를 N 프레임 간격마다 설정된 이미지 전송 모드를 통해 수신하는 제1 참조 이미지 수신 서브 모듈을 더 포함하되; N은 1보다 크다.

그 중 일 실시예에서, 상기 이미지 재구성 모듈은, 설정된 이미지 전송 모드를 통해 수신된 제2 참조 이미지를 획득하되, 상기 제2 참조 이미지는 설정 객체의 이미지, 상기 제1 비디오 통신 단말의 환경 이미지 중 적어도 하나이고, 설정된 이미지 전송 모드를 통해 수신된 상기 제2 참조 이미지의 데이터 양은 상기 의미 정보의 데이터 양보다 큰 제2 참조 이미지 획득 서브 모듈; 및 상기 의미 정보 및 상기 제2 참조 이미지에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 제2 이미지 재구성 서브 모듈을 포함한다.

본 발명의 제6 양태에 따르면, 비디오 이미지 전송 시스템이 제공되는바, 제1 비디오 통신 단말 및 제2 비디오 통신 단말을 포함하고; 상기 제1 비디오 통신 단말과 제2 비디오 통신 단말 사이는 비디오 통신 연결되며; 상기 제1 비디오 통신 단말은, 촬영된 비디오 이미지를 획득하고, 상기 비디오 이미지의 의미 정보를 획득하여, 상기 의미 정보를 제2 비디오 통신 단말에 송신하도록 설치되고; 상기 제2 비디오 통신 단말은, 상기 의미 정보를 수신하며, 상기 의미 정보에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하여, 상기 재구성 이미지를 제2 비디오 통신 단말의 디스플레이 스크린을 통해 디스플레이하도록 설치된다.

본 발명의 제7 양태에 따르면, 인터랙티브 지능형 태블릿이 제공되는바, 촬영 장치, 디스플레이 스크린, 메모리 및 프로세서를 포함하고, 상기 메모리에는 컴퓨터 프로그램이 저장되며, 상기 인터랙티브 지능형 태블릿은 상기 촬영 장치를 통해 비디오 이미지를 촬영하고; 상기 프로세서는 상기 프로그램을 실행할 경우, 상기 촬영 장치에 의해 촬영된 비디오 이미지의 의미 정보를 추출하여, 다른 인터랙티브 지능형 태블릿에 상기 의미 정보를 송신하도록 설치되며; 상기 프로세서는 상기 프로그램을 실행할 경우, 또한 다른 인터랙티브 지능형 태블릿에 의해 송신된 비디오 이미지의 의미 정보를 수신하고, 상기 의미 정보에 따라 이미지를 재구성하여, 다른 인터랙티브 지능형 태블릿에 의해 송신된 비디오 이미지의 재구성 이미지를 획득하며, 상기 재구성 이미지를 상기 디스플레이 스크린을 통해 디스플레이하도록 설치된다.

본 발명의 제8 양태에 따르면, 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 저장 매체가 제공되는바, 상기 프로그램은 프로세서에 의해 실행될 경우 상기 어느 하나의 실시예에 따른 비디오 이미지 전송 방법의 단계를 구현한다.

도 1은 하나의 실시예에서 비디오 이미지 전송 방법이 적용되는 시스템 환경도이다.
도 2는 일 실시예에 따른 비디오 이미지 전송 방법의 예시적 흐름도이다.
도 3은 다른 실시예에 따른 비디오 이미지 전송 방법의 예시적 흐름도이다.
도 4는 일 실시예에 따른 인코더 및 디코더를 구축하는 모델 모식도이다
도 5는 일 실시예에 따른 이미지 송신단에 기반한 비디오 이미지 전송 방법의 예시적 흐름도이다.
도 6은 일 실시예에 따른 이미지 수신단에 기반한 비디오 이미지 전송 방법의 예시적 흐름도이다.
도 7은 일 실시예에 따른 비디오 이미지 전송 장치의 예시적 구조도이다.
도 8은 다른 실시예에 따른 비디오 이미지 전송 장치의 예시적 구조도이다.
도 9는 일 실시예에서 인터랙티브 지능형 태블릿의 내부 구조도이다.

아래에 첨부 도면과 실시예를 결부하여, 본 발명에 대해 상세하게 설명한다. 여기서 설명된 구체적인 실시예는 단지 본 발명을 설명하기 위한 것일 뿐, 본 발명을 한정하려는 것이 아님을 이해해야 한다.

본 명세서에서 “실시예”를 언급하는 것은, 실시예와 결부하여 설명된 특정적 특징, 구조 또는 특성이 본 발명의 적어도 하나의 실시예에 포함될 수 있음을 의미한다. 명세서 각각의 위치에서 나타나는 상기 문구는 모두 동일한 시시예를 지칭하는 것이 아니며, 다른 실시예와 상호 배타적인 독립적이거나 대안적인 실시예도 아니다. 당업자는 본 명세서에서 설명된 실시예가 다른 실시예와 결합될 수 있다는 것을 명시적으로 또는 암시적으로 이해할 것이다.

본 발명에서 제공하는 비디오 이미지 전송 방법은, 도 1에 도시된 시스템 환경에 적용될 수 있고, 여기서 적어도 2개의 컴퓨팅 기기(100)는 네트워크를 통해 통신 연결된다. 컴퓨팅 기기(100)는 랩톱 컴퓨터, 셀룰러 폰, 카메라 폰, 스마트 폰, 개인 휴대용 정보 단말기(PDA), 내비게이션 기기, 인터랙티브 지능형 태블릿, 웨어러블 기기, 스마트카, 다른 스마트 홈 기기 또는 이러한 기기 중 임의의 복수의 기기의 조합일 수 있다.

본 발명의 실시예에서, 컴퓨팅 기기(100)에는 화상 회의 소프트웨어, 인스턴트 메시징 소프트웨어 등과 같은 비디오 통신을 구현하기 위한 애플리케이션 소프트웨어가 설치되며, 이러한 애플리케이션 소프트웨어를 통해 적어도 2개의 컴퓨팅 기기(100) 사이에 비디오 통신을 구축할 수 있다. 비디오 통신에서, 임의의 컴퓨팅 기기(100)는 비디오 이미지의 송신단으로 사용되어, 본 단말에 의해 수집된 비디오의 프레임 이미지를 다른 컴퓨팅 기기(100)로 송신하고, 동시에 비디오 이미지의 수신단으로 사용되어, 다른 컴퓨팅 기기(100)에 의해 송신된 비디오의 프레임 이미지를 수신하여 디스플레이할 수도 있다.

이 밖에, 컴퓨팅 기기(100)에는 텍스트 편집 타입 애플리케이션 프로그램, 프레젠테이션 타입 애플리케이션 프로그램, 인스턴트 메시징 타입 애플리케이션 프로그램, 이미지 편집 타입 애플리케이션 프로그램, 소셜 타입 애플리케이션 프로그램, 전자 상거래 타입 애플리케이션 프로그램, 검색 타입 애플리케이션 프로그램, 브라우저 타입 애플리케이션 프로그램 등과 같은 다른 애플리케이션 프로그램이 설치될 수 있다. 여기서, 텍스트 편집 타입 애플리케이션 프로그램은 예를 들어, 전자 화이트 보드 애플리케이션, 전자 흑판 애플리케이션이 있고, 프레젠테이션 타입 애플리케이션 프로그램은 예를 들어, 무선 스크린 프로젝션이 있다.

일부 실시예에서, 인터랙티브 지능형 태블릿은 컴퓨팅 기기의 일 구현예이다. 인터랙티브 지능형 태블릿은 터치 제어 기술을 통해 디스플레이 태블릿에 디스플레이되는 내용에 대해 조절하고 인간 컴퓨터 인터랙티브 조작을 구현하는 통합형 기기일 수 있으며, 프로젝터, 전자 화이트 보드, 스크린, 음향 장치, TV 및 화상 회의 단말 등 하나 또는 복수의 기능을 통합한다. 인터랙티브 지능형 태블릿 디스플레이 스크린은 터치 스크린이고, 상기 터치 스크린은 정전식 스크린, 전자기 스크린 또는 적외선 스크린 등을 포함할 수 있으며; 상기 터치 스크린은 사용자가 손가락 또는 입력 기기를 통해 입력된 터치 조작을 수신할 수 있고; 여기서 입력 기기는 정전식 펜, 전자기 펜 및/또는 적외선 펜 등을 포함하지만 이에 한정되지 않는다.

하나의 실시예에서, 비디오 이미지 전송 방법을 제공하며, 도 2에 도시된 바를 참조하면, 상기 방법은 하기와 같은 단계를 포함한다.

단계 S110에서, 제1 비디오 통신 단말은 비디오 이미지를 획득하되, 상기 비디오 이미지는 상기 제1 비디오 통신 단말에 의해 촬영된 비디오 중 프레임 이미지이다.

화상 회의, 비디오 통화 등과 같은 비디오 통신은 일반적으로 프레임에 따라 비디오 이미지를 전송하며, 여기서 제1 비디오 통신 단말은 비디오 통신 중 비디오 이미지를 전송해야 하는 단말이고, 비디오 이미지의 송신단으로 이해할 수 있다. 제1 비디오 통신 단말에 의해 획득한 비디오 이미지는 바로 제1 비디오 통신 단말의 촬영 기기에 의해 촬영된 화상 회의 또는 비디오 통화 장면에서의 비디오 이미지이다.

비디오 통신에서, 각각의 비디오 통신 단말은 다른 비디오 통신 단말에 비디오 이미지를 전송해야 할 뿐만 아니라, 다른 비디오 통신 단말의 비디오 이미지를 수신해야 하므로, 비디오 통신에서, 제1 비디오 통신 단말은 비디오 통신에 참여하는 임의의 단말일 수 있다.

단계 S120에서, 제1 비디오 통신 단말은 상기 비디오 이미지의 의미 정보를 추출한다.

이미지는 복수의 픽셀로 구성되고, 의미는 이미지 중 픽셀 정보이다. 이미지 중 의미 정보를 획득하는 것은, 이미지 픽셀의 심층적 특징 정보를 추출하는 것으로 이해할 수 있으며, 이러한 정보는 비디오 이미지의 중요한 세부 사항을 특성화할 수 있다. 예를 들어, 화상 회의 중 비디오 이미지에서, 그 중의 의미 정보는 회의에 참여하는 인물의 얼굴 표정 특징 정보, 몸체 행동 특징 정보를 포함할 수 있거나, 또는 회의실의 테이블, 의자 등 정보와 같은 회의 환경 정보이다.

본 발명의 일부 실시예에서, 비디오 이미지로부터 획득된 의미 정보는 바로 이미지 중 설정 객체(얼굴, 몸체, 테이블, 의자 등)의 의미 정보일 수 있고, 이미지의 전역 의미 정보일 수도 있으며, 예를 들어 이미지의 핵심 픽셀 특징 정보 등이다.

단계 S130에서, 제1 비디오 통신 단말은 상기 의미 정보를 제2 비디오 통신 단말에 송신한다.

비디오 이미지에 포함된 모든 정보에 비해, 비디오 이미지로부터 획득된 의미 정보의 데이터 양은 비교적 적으므로, 비디오 이미지의 실시간 전송을 구현하는 데에 유리할 수 있다.

단계 S210에서, 제2 비디오 통신 단말은 제1 비디오 통신 단말에 의해 송신된 의미 정보를 수신하고, 상기 의미 정보에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득한다.

여기서, 이미지의 의미 정보를 기반으로 이미지 압축 및 이미지 재구성을 수행하는 것은, 기존의 이미지의 얕은 정보를 기반으로 인코딩 압축 및 재구성을 수행하는 데에 비해, 더 많은 이미지 세부 사항을 보존할 수 있어, 비디오 통신의 이미지가 높은 충실도 및 실시간성의 요구를 동시에 고려할 수 있도록 한다.

단계 S220에서, 제2 비디오 통신 단말은 재구성 이미지를 디스플레이한다.

상기 실시예의 비디오 이미지 전송 방법을 통해, 비디오 통신에서, 송신단이 비디오 이미지를 전송해야 하는 경우, 상기 비디오 이미지의 의미 정보를 획득하여, 수신단에 상기 의미 정보를 송신하고; 수신단은 상기 의미 정보를 수신한 후, 상기 의미 정보에 따라 송신단의 비디오 이미지를 재구성할 수 있으며, 이로써 재구성 이미지를 획득하고, 또한 상기 재구성 이미지를 수신단의 디스플레이 스크린을 통해 디스플레이한다. 한편으로, 비디오 통신에서, 하나의 비디오 이미지 전송은 매우 적은 양의 데이터만 전송하면 되므로, 네트워크 대역폭에 대한 요구가 매우 낮아, 실시간 전송의 요구를 충족시킬 수 있으며; 다른 한편으로, 의미 정보를 기반으로 비디오 이미지에 대해 압축 및 복원함으로써, 비디오 이미지의 수신단이 비교적 높은 품질의 이미지를 재구성하여, 비디오 통신 중 이미지 고해상도와 높은 충실도의 요구를 동시에 고려할 수 있도록 한다.

일 실시예에서, 화상 회의를 예로 들면, 로컬 사용자와 원격 사용자는 각각 제1 비디오 통신 단말 및 제2 비디오 통신 단말을 통해 화상 회의에 참여하고, 제1 비디오 통신 단말은 로컬 사용자의 회의 중의 비디오 이미지를 촬영하여, 전송할 비디오 이미지로 사용하며, 도 3에 도시된 바를 참조하면, 제1 비디오 통신 단말이 제2 비디오 통신 단말에 상기 비디오 이미지를 전송하는 구현 과정은 하기와 같다.

단계 S302에서, 제1 비디오 통신 단말에서, 비디오 이미지의 의미 정보를 추출한다.

제1 비디오 통신 단말에서, 미리 트레이닝된 인코더를 통해 비디오 이미지의 의미 정보를 추출할 수 있고, 일부 실시예에서, 인코더는 콘볼루션 신경망을 사용할 수 있으며, 상기 인코더의 입력은 전송할 비디오 이미지이고, 출력은 비디오 이미지에 대응되는 저차원 벡터이다.

인코더를 하나의 변환 함수 f로 간주할 수 있고, 상기 변환 함수 f는 전송할 비디오 이미지 I를 저차원 벡터 y로 변환할 수 있으며, 즉 y = f(I)이다. y는 즉 비디오 이미지 I의 의미 정보이고, y는 64차원 또는 128차원의 벡터일 수 있으며, 이는 영상 회의 중의 비디오 이미지 중 가장 중요한 정보를 캡처하는 데에 충분하여, 고품질의 이미지 재구성을 구현함과 동시에 전송해야 하는 데이터 양을 감소시킬 수 있다.

설명해야 할 것은, 본 발명의 실시예에서의 저차원 벡터 및 의미 정보는 화상 회의 장면에서의 비디오 이미지를 학습하는 것으로, 이로부터 추출된 것은 비디오 이미지 중 중요한 세부 사항의 정보를 특성화할 수 있으며, 이러한 정보는 다른 장면에서의 의미 정보와 차이점이 있다. 다시 말해, 본 발명의 실시예에서의 저차원 벡터 및 의미 정보는 인간의 사고활동으로 이해되는 특징 정보가 아니라, 인간의 사고활동으로 이해할 수 없는 이미지의 심층적 정보이다.

단계 S303에서, 제1 비디오 통신 단말은 제2 비디오 통신 단말에 추출된 의미 정보를 전송한다.

비디오 이미지 I의 의미 정보 y는 매우 적은 양의 데이터로도 표시된다. 예를 들어, 의미 정보 y가 하나의 64차원의 부동 소수점 벡터일 수 있는데, 그렇다면 각 프레임 비디오 이미지는 단지 64*4 = 256byte의 데이터만 전송하면 되며, 비디오 프레임 속도가 30Hz이면, 소요되는 대역폭은 256*30 = 7680Bps= 7.68KBps이다. 이로부터 알 수 있듯이, 상기 이미지 전송 모드는 네트워크 환경의 대역폭에 대한 요구가 비교적 낮다.

단계 S402에서, 제2 비디오 통신 단말은 의미 정보를 수신하고, 의미 정보를 기반으로 이미지를 재구성하여, 제1 비디오 통신 단말의 비디오 이미지의 재구성 이미지를 획득한다.

제2 비디오 통신 단말이 의미 정보 y를 수신한 후, 제2 비디오 통신 단말은 의미 정보 y를 하나의 미리 트레이닝된 디코더의 입력으로 사용할 수 있으며, 디코더를 통해 이미지를 재구성한다. 여기서 디코더는 하나의 변환 함수 g로 간주될 수 있으며, 상기 변환 함수 g는 저차원의 의미 정보 y를 재구성 이미지 I′로 변환할 수 있고, 즉 I′= g(y)이다.

일 실시예에서, 상기 실시예의 인코더 및 디코더는 하기와 같은 조건을 만족해야 한다. 즉 화상 회의 장면에 적용되고; 인코더 f는 비디오 이미지에 대해 압축 및 인코딩을 수행하여, 저차원의 의미 정보를 출력할 수 있으며; 디코더 g는 비디오 이미지 중 가장 중요한 정보(예를 들어, 얼굴 표정 세부 사항, 몸체 동작 세부 사항 등)를 복원하여, 고품질의 재구성 이미지를 획득한다.

일부 실시예에서, 도 4에 도시된 바를 참조하면, Encoder-decoder 네트워크를 기반으로 인코더 f 및 디코더 g를 설계할 수 있고, 여기서 좌측(즉 네트워크 하위 계층)은 일련의 콘볼루션 동작 계층으로 구성되며(도면에서는 단지 2개의 계층만 예시하였고, 실제 경우에 다른 개수의 콘볼루션 동작 계층을 설정할 수 있음), 중간 계층은 저차원 벡터를 출력하며, 이 부분은 인코더에 해당되고; 저차원 벡터를 원격단(즉 수신단)에 전송한다. 우측(즉 네트워크 상위 계층)은 이 저차원 벡터에 따라 일련의 디콘볼루션을 통해 재구성 이미지 y를 획득하며, 상기 과정은 디코더에 해당하고; 인코더 f 및 디코더 g는 모두 콘볼루션 신경망을 사용할 수 있음을 알 수 있다.

상기 Encoder-decoder 네트워크에 따라 인코더 f 및 디코더 g를 설정하는 것은, 화상 회의 중의 이미지 데이터 트레이닝에 대해, 더 양호한 압축률을 달성하기에 충분하지만; 재구성 이미지의 해상도는 비교적 낮을 수 있는데, 저차원 벡터가 단지 이미지의 심층적 의미 정보만 포함하였기 때문이다. 상술한 상황을 방지하기 위해, 일 실시예에서는, 기존의 Encoder-decoder 네트워크 기초에서, 또한 U-Net 아이디어를 사용하여 Encoder-decoder 네트워크에 대해 최적화하며, 즉 네트워크 중 하위 계층(예를 들어 도 4의 콘볼루션 계층)에서 출력된 특징 벡터의 일부를 추출하여 중간 계층에서 출력된 저차원 벡터에 결합하였다. 이렇게 하면 원격단으로 전송되는 데이터 양이 증가하게 되지만, 이 일부 정보가 증가하였더라도, 원격단으로 전송해야 하는 데이터 양은 여전히 기존의 압축 방법에 비해 작다.

U-Net에 의한 네트워크 최적화는, 네트워크 상황에 따라 비디오 이미지의 압축률 및 수신단의 재구성된 화면 품질을 동적으로 조절할 수 있고, 네트워크 상황이 비교적 양호한 경우, 네트워크 하위 계층에서 출력된 특징 벡터로부터 비교적 많은 정보를 추출하여 중간 계층에서 출력된 저차원 벡터에 결합함으로써, 수신단의 재구성된 화면 품질을 높이고; 네트워크 상황이 양호하지 않은 경우, 네트워크 하위 계층에서 출력된 특징 벡터로부터 비교적 적은 정보를 추출하여 중간 계층에서 출력된 저차원 벡터에 결합하거나, 네트워크 하위 계층에서 출력된 특징 벡터로부터 정보를 추출하여 스티칭하지 않음으로써, 비디오 이미지 송신단의 이미지 압축률을 높여, 비디오 이미지의 실시간 전송에 유리하도록 한다.

단계 S404에서, 제2 비디오 통신 단말은 비디오 이미지의 재구성 이미지를 디스플레이한다.

본 발명의 일 실시예에 따르면, 도 4 및 상기 실시예를 결합하여 알 수 있듯이, 인코더 f는 일련의 콘볼루션 동작으로 구성되며, 디코더 g는 일련의 디콘볼루션 동작으로 구성된다.

일 실시예에서, 하기 최적화 목표에 따라 요구에 부합하는 인코더 f 및 디코더 g를 트레이닝할 수 있다.

여기서,

는 비디오 이미지 I가 인코더 f를 통과한 후 얻은 의미 정보가 디코더 g를 통해 디코딩 및 복원된 후 얻은 재구성 이미지를 나타내고,

는 비디오 이미지 I와 재구성 이미지의 잔차가 가장 작을 때의 인코더 f 및 디코더 g를 나타낸다.

이해할 수 있는 것은, 상기 예시의 Encoder-decoder외에, 다른 생성 모델을 사용하여 조건을 만족하는 인코더 및 디코더를 구축할 수도 있다.

화상 회의 장면에서의 비디오 이미지에 있어서, 여기에서 가장 중요한 이미지 정보는 인물의 표정, 입 모양 등 세부 사항이다. 일부 실시예에서, 얼굴을 설정 객체로 사용하는 것을 예로 들면, 제1 비디오 통신 단말은 비디오 이미지의 얼굴 의미 정보를 추출하고, 제1 비디오 통신 단말은 대응하는 디코더를 통해 얼굴 의미 정보를 기반으로 이미지를 재구성하여, 비디오 이미지의 인물 얼굴 세부 사항을 복원한다.

화상 회의 중 더 많은 비디오 이미지 세부 사항을 획득하기 위해, 또한 몸체를 설정 객체로 사용하여, 제1 비디오 통신 단말은 비디오 이미지로부터 몸체 의미 정보를 추출할 수 있으며, 몸체 의미 정보는 얼굴 표정 정보 및 몸체 동작 정보와 같은 인체 자체와 관련된 정보를 포함하고; 제2 비디오 통신 단말은 대응하는 디코더를 통해 몸체 의미 정보를 기반으로 이미지를 재구성하여, 비디오 이미지의 인물 전체 세부 사항을 복원한다.

상기 실시예를 기반으로, 화상 회의 중 이미지 전송의 실시간성을 보장할 수 있고, 수신단은 이미지 세부 사항을 복원하지만, 전송된 의미 정보 데이터 양이 비교적 작으므로, 수신단의 고해상도를 보장하기 어렵다. 상기 상황에 대해, 일 실시예에서, 제1 비디오 통신 단말은 N 프레임(N은 1보다 크고, N의 값의 범위는 실제 경우에 따라 조정될 수 있음)마다 설정된 이미지 전송 모드를 사용하여 상기 제2 비디오 통신 단말에 제1 참조 이미지를 전송하고; 상기 설정된 이미지 전송 모드에서 전송된 상기 제1 참조 이미지의 데이터 양은 상기 의미 정보의 데이터 양보다 크다. 여기서, 제1 참조 이미지는 상기 제1 비디오 통신 단말에 의해 촬영된 비디오 이미지이고; 상기 제1 참조 이미지는 상기 제2 비디오 통신 단말이 상기 비디오 이미지의 의미 정보 및 상기 제1 참조 이미지에 따라, 상기 비디오 이미지의 재구성 이미지를 재구성하도록 한다.

예를 들어, 제1 비디오 통신 단말은 100프레임마다 제2 비디오 통신 단말에 완전한 하나의 프레임의 비디오 이미지를 전송하고, 후속의 99프레임의 비디오 이미지에서, 제2 비디오 통신 단말이 비디오 이미지의 저차원의 의미 정보를 수신한 경우, 이 프레임의 완전한 비디오 이미지의 정보를 결합하여 이미지를 공통으로 재구성하여, 더 높은 해상도의 재구성 이미지를 획득할 수 있다.

아래에 얼굴의 의미 정보 및 몸체의 의미 정보를 예로 들어 각각 설명한다. 계속하여 도 3에 도시된 바를 참조하면, 상기 제1 비디오 통신 단말과 제2 비디오 통신 단말 사이의 비디오 이미지 전송은 하기와 같은 단계를 더 포함한다.

단계 S300에서, 제1 비디오 통신 단말은 설정된 프레임 간격에 따라, 설정된 이미지 전송 모드를 통해 상기 제2 비디오 통신 단말에 참조 이미지(본 실시예에서 즉 제1 참조 이미지임)를 송신한다.

여기서, 참조 이미지도 제1 비디오 통신 단말에 의해 촬영된 비디오 이미지이다. 제1 비디오 통신 단말은 블록 기반의 이미지 압축 방식을 사용하여 참조 이미지의 이미지 인코딩 정보를 얻을 수 있고, 즉 제1 비디오 통신 단말과 제2 비디오 통신 단말 사이에서, 의미 정보 기반의 이미지를 전송하는 외에, 다른 이미지 전송 모드를 더 포함하며, 여기서 다른 이미지 전송 모드는 이격되게 수행되고, 이미지에 대한 압축률이 더 낮으며, 전송되는 데이터 양이 더 크다.

단계 S401에서, 제2 비디오 통신 단말은 참조 이미지를 수신한다.

화상 회의에서, 제1 비디오 통신 단말은 참조 이미지를 프레임 간격의 방식으로 제2 비디오 통신 단말에 송신하고, 제2 비디오 통신 단말은 참조 이미지를 획득한 후, 화상 회의에서 인접한 비디오 이미지의 픽셀 변화가 일반적으로 비교적 작아, 예를 들어 인물의 표정 또는 몸체에 대응되는 픽셀만 변화가 발생하고 다른 회의실의 환경 정보는 변화되지 않으므로, 제2 비디오 통신 단말이 수신한 의미 정보는 변화가 발생한 픽셀 정보일 수 있고, 따라서 제2 비디오 통신 단말은 적은 양의 의미 정보 및 데이터 양이 더 큰 참조 이미지를 기반으로 비디오 이미지를 고도로 복원할 수 있어, 제2 비디오 통신 단말의 재구성 이미지의 해상도를 높인다. 참조 이미지는 이격되게 송신되므로, 전송 대역폭 및 실시간성에 미치는 영향이 비교적 작다.

일부 실시예에서, 제2 비디오 통신 단말이 실시간으로 수신한 의미 정보가 비디오 이미지 중 설정 객체의 의미 정보이면, 설정 객체의 재구성 서브 이미지를 재구성할 수 있고, 상기 설정 객체의 재구성 서브 이미지를 상기 참조 이미지의 재구성 이미지와 융합하여, 제1 비디오 통신 단말의 비디오 이미지의 재구성 이미지를 획득한다.

다른 일부 실시예에서, 제1 비디오 통신 단말과 제2 비디오 통신 단말 사이의 비디오 이미지 전송은 하기와 같은 단계를 더 포함한다.

단계 S301에서, 제1 비디오 통신 단말은 비디오 이미지에 대해 전처리를 수행한다.

제1 비디오 통신 단말이 비디오 이미지에 대해 수행한 전처리는, 상기 비디오 이미지의 설정 객체를 인식하여 상기 비디오 이미지 중 상기 설정 객체의 서브 이미지를 획득하는 단계; 그리고 나서 상기 설정 객체의 서브 이미지를 트레이닝된 인코더에 입력하고, 상기 인코더의 출력을 획득하여, 상기 비디오 이미지 중 상기 설정 객체의 의미 정보를 획득하는 단계를 포함하며; 상기 인코더는 입력 이미지 중 상기 설정 객체의 의미 정보를 인식하고 출력하기 위한 것이다. 얼굴을 설정 객체로 사용하는 것을 예로 들면, 제1 비디오 통신 단말은 비디오 이미지로부터 얼굴 영역을 인식하여, 상기 비디오 이미지에 대응되는 얼굴 서브 이미지를 획득한 다음; 얼굴 서브 이미지를 트레이닝된 인코더에 입력하여 상기 인코더의 출력을 획득하며, 상기 비디오 이미지의 얼굴 의미 정보를 획득한다.

단계 S403에서, 제2 비디오 통신 단말은 상기 설정 객체의 의미 정보를 수신하고, 수신된 상기 설정 객체의 의미 정보를 기반으로 상기 설정 객체의 재구성 서브 이미지를 획득한 후, 재구성된 얼굴 이미지 또는 몸체 이미지에 대해 후처리를 수행할 수 있다. 후처리는, 상기 설정 객체의 재구성 서브 이미지를 상기 참조 이미지와 융합하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 단계를 포함한다.

얼굴을 설정 객체로 사용하는 것을 예로 들면, 제2 비디오 통신 단말은 얼굴 의미 정보를 기반으로 얼굴의 재구성 이미지를 획득한 후, 얼굴의 재구성 이미지에 대해 후처리를 수행한다. 제2 비디오 통신 단말이 얼굴의 재구성 이미지에 대해 후처리를 수행하는 것은, 얼굴의 재구성 이미지를 상기 참조 이미지의 재구성 이미지에 중첩시킴으로써, 제1 비디오 통신 단말의 비디오 이미지의 재구성 이미지를 획득하는 단계를 포함한다.

일 실시예에서, 본 발명의 일 실시예에 따르면, 제1 비디오 통신 단말은 또한 상기 비디오 이미지 중 설정 객체의 위치 정보를 획득하고, 상기 제2 비디오 통신 단말에 상기 위치 정보를 송신하여야 하는바, 상기 위치 정보는 상기 제2 비디오 통신 단말이 상기 위치 정보에 따라 상기 설정 객체의 재구성 서브 이미지를 상기 참조 이미지와 중첩시켜, 상기 비디오 이미지의 재구성 이미지를 획득하도록 하기 위한 것이다.

일 실시예에서, 얼굴을 설정 객체로 사용하는 것을 예로 들면, 제1 비디오 통신 단말은 비디오 이미지 중 얼굴 영역의 위치 정보를 획득하고; 제2 비디오 통신 단말에 상기 위치 정보를 송신하며; 제2 비디오 통신 단말은 제2 비디오 통신 단말에 의해 송신된 얼굴의 위치 정보를 수신한 후, 얼굴의 위치 정보에 따라 얼굴의 재구성 이미지를 참조 이미지의 재구성 이미지에 중첩시켜, 제1 비디오 통신 단말의 비디오 이미지의 재구성 이미지를 획득할 수 있다.

일 실시예에서, 비디오 이미지의 재구성 이미지의 품질을 향상시키기 위해, 본 발명의 일 실시예에 따르면, 상기 비디오 이미지 전송 방법은, 제2 비디오 통신 단말이 상기 위치 정보에 따라 상기 설정 객체의 재구성 서브 이미지를 상기 참조 이미지와 융합하기 이전에, 또한 상기 설정 객체의 재구성 서브 이미지에 대해 에지 페더링 처리를 수행한 다음, 에지 페더링 처리된 설정 객체의 재구성 서브 이미지를 참조 이미지의 재구성 이미지와 중첩시킴으로써 제1 비디오 통신 단말의 비디오 이미지의 재구성 이미지를 획득하는 단계를 더 포함한다.

일 실시예에서, 얼굴을 설정 객체로 사용하는 것을 예로 들면, 제2 비디오 통신 단말은 이미지를 중첩하기 이전에, 먼저 얼굴 재구성 이미지에 대해 에지 페더링 처리를 수행한 다음, 에지 페더링 처리된 얼굴 재구성 이미지를 참조 이미지의 재구성 이미지와 중첩시킴으로써 제1 비디오 통신 단말의 비디오 이미지의 재구성 이미지를 획득한다. 본 실시예를 통해, 보다 바람직한 중첩 융합 효과를 획득하여, 제2 비디오 통신 단말에 의해 디스플레이되는 재구성 이미지의 이미지 품질을 향상시킨다.

다른 일부 실시예에서, 화상 회의의 전면적 세부 사항을 획득하기 위해, 제1 비디오 통신 단말이 비디오 이미지로부터 추출한 의미 정보는 또한 이미지 전역 의미 정보일 수 있고, 대응하는 이코더를 통해 구현될 수 있으며; 제2 비디오 통신 단말은 전역 의미 정보를 기반으로 이미지를 재구성하여, 비디오 이미지의 전역 세부 사항 정보를 복원한다. 전역 의미 정보를 기반으로 이미지 전송 및 재구성을 수행할 경우, 제1 비디오 통신 단말은 반드시 상기 비디오 이미지의 전처리를 수행할 필요가 없으며, 제2 비디오 통신 단말도 재구성 이미지의 후처리를 수행할 필요가 없다.

이해할 수 있는 것은, 실제 장면 수요에 따라, 얼굴 의미, 몸체 의미 또는 이미지 전역 의미를 기반으로 인코더 및 디코더의 트레이닝을 수행할 수 있다. 예를 들어, 얼굴 이미지를 트레이닝 데이터로 사용하여, 요구에 부합하는 인코더 및 디코더를 트레이닝하거나; 몸체 이미지를 트레이닝 데이터로 사용하여, 요구에 부합하는 인코더 및 디코더를 트레이닝하거나; 비디오 이미지 전체를 트레이닝 데이터로 사용하여, 요구에 부합하는 인코더 및 디코더를 트레이닝한다.

다른 실시예에서, 제1 비디오 통신 단말은 또한 설정된 이미지 전송 모드를 사용하여 상기 제2 비디오 통신 단말에 다른 타입의 참조 이미지(즉 제2 참조 이미지)를 송신할 수 있고; 상기 설정된 이미지 전송 모드 하에 전송된 제2 참조 이미지의 데이터 양은 상기 의미 정보의 데이터 양보다 크며; 여기서 제2 참조 이미지는 설정 객체의 이미지, 제1 비디오 통신 단말의 환경 이미지 중 적어도 하나일 수 있고; 제2 참조 이미지를 전송하여, 제2 비디오 통신 단말이 상기 의미 정보와 상기 제2 참조 이미지를 결합함으로써, 상기 비디오 이미지의 재구성 이미지를 재구성하도록 한다.

예를 들어, 제1 비디오 통신 단말은 화상 회의 장면 중 참가자의 고화질 사진 및/또는 회의실의 고화질 사진을 제2 참조 이미지로서 미리 설정하고, 설정된 이미지 전송 모드를 사용하여 제2 비디오 통신 단말에 완전한 제2 참조 이미지를 전송하며; 제2 비디오 통신 단말은 제2 참조 이미지를 수신하고 저장하여, 각 프레임의 비디오 이미지의 의미 정보를 수신한 후, 제2 참조 이미지의 상세 정보와 결합하여 이미지를 재구성할 수 있다. 따라서, 의미 정보가 비교적 적은 경우에도, 제2 비디오 통신 단말은 제2 참조 이미지에 따라 고해상도의 재구성 이미지를 재구성할 수 있다.

일 실시예에서, 프레임별로 독립적으로 비디오 이미지에 대해 인코딩 및 디코딩하면, 프레임 간에 일치하지 않는 경우가 나타날 수 있으며, 이는 수신단에 디스플레이되는 비디오 내용이 다양한 정도로 점프될 수 있음을 의미한다. 상기 상황에 대해, 일 실시예에서, 화상 회의 장면에서의 비디오 이미지 전송은 실제로 다중 네트워크 분기를 가지며, 인코더의 입력은 현재 프레임의 비디오 이미지일 뿐만 아니라, 현재 프레임 이전의 M프레임의 비디오 이미지를 더 포함하므로, 인코딩된 저차원 벡터는 현재 프레임의 의미 정보뿐만 아니라 이전 순서의 복수의 프레임의 의미 정보도 포함하고; 대응되게, 수신단의 디코더는 현재 프레임의 의미 정보와 이전 순서의 복수의 프레임의 의미 정보를 결합하여, 프레임 간에 일치한 비디오 이미지를 재구성한다. 본 실시예를 통해, 수신단 비디오 내용의 점프 상황을 방지할 수 있다.

기존의 해결수단의 비디오 이미지 전송 수단에 비해, 상기 실시예를 통해, 화상 회의에서, 각 비디오 통신 단말은 고해상도의 재구성 이미지를 획득하고; 또한 대부분 비디오 이미지의 전송되어야 하는 의미 정보의 데이터 양이 매우 적으므로, 열악한 네트워크 환경에서도, 전송이 빠르게 완료될 수 있어 실시간성을 보장하며; 의미 정보 및 참조 이미지를 기반으로 이미지를 재구성하는 경우, 비디오 이미지 중 중요한 정보(특히, 얼굴 세부 사항, 몸체 동작 세부 사항 등)를 보존할 수 있고; 따라서 양호한 화상 회의 체험을 획득할 수 있다.

상기 비디오 이미지 전송 방법의 동일한 아이디어를 기반으로, 본 명세서에서는 비디오 이미지 전송 방법의 실시예를 더 제공하는바, 본 실시예에서, 제1 비디오 통신 단말은 비디오 이미지의 송신단이다. 도 5에 도시된 바를 참조하면, 제1 비디오 통신 단말의 각도에서, 비디오 이미지 전송 방법은 하기와 같은 단계를 포함한다.

단계 S510에서, 제1 비디오 통신 단말에 의해 촬영된 비디오 이미지를 획득하고;

단계 S520에서, 상기 비디오 이미지의 의미 정보를 획득하며;

단계 S530에서, 상기 의미 정보를 제2 비디오 통신 단말에 송신하되; 상기 의미 정보는 상기 제2 비디오 통신 단말이 상기 의미 정보를 수신한 후, 상기 비디오 이미지의 재구성 이미지를 상기 제2 비디오 통신 단말의 디스플레이 스크린을 통해 디스플레이하도록 하기 위한 것이고; 상기 재구성 이미지는 상기 제2 비디오 통신 단말이 상기 의미 정보를 기반으로 재구성한 이미지이다.

일 실시예에서, 본 발명의 일부 실시예에 따르면, 송신단으로 사용되는 제1 비디오 통신 단말이 비디오 이미지의 의미 정보를 획득하는 방식은, 트레이닝된 인코더를 통해 상기 비디오 이미지의 의미 정보를 추출하는 방식일 수 있으며; 상기 인코더는 이미지 의미 정보를 인식하기 위한 것이다. 상기 인코더의 입력은 이미지이고, 출력은 입력 이미지에 대응되는 저차원 벡터이며, 즉 입력 이미지의 의미 정보이다. 예를 들어, 상기 비디오 이미지의 의미 정보는 설정 객체의 의미 정보 또는 비디오 이미지의 전역 의미 정보일 수 있다. 따라서, 비디오 이미지의 의미 정보를 추출하는 방식은 하기와 같은 방식을 포함한다.

방식 1에서, 상기 비디오 이미지의 설정 객체를 인식하여, 상기 설정 객체의 서브 이미지를 획득하고; 상기 설정 객체의 서브 이미지를 트레이닝된 인코더에 입력하며; 상기 인코더의 출력을 획득하여, 상기 비디오 이미지 중 상기 설정 객체의 의미 정보를 획득하고;

방식 2에서, 상기 비디오 이미지를 트레이닝된 인코더에 입력하며; 상기 인코더의 출력을 획득하여, 상기 비디오 이미지의 전역 의미 정보를 획득한다.

여기서 설정 객체는 실제 경우를 기반으로 설정될 수 있는바, 예를 들어, 주의가 필요한 정보가 비디오 통신 중 사람의 얼굴 정보이면, 얼굴을 설정 객체로 사용하고; 주의가 필요한 정보가 비디오 통신 중 사람의 얼굴 표정 및 몸체 동작 정보이면, 몸체를 설정 객체로 사용하며; 주의가 필요한 정보가 비디오 통신 중 전체 장면 정보이면, 비디오 이미지의 전역 의미 정보를 추출한다. 이로써 비디오 통신의 다양한 요구를 충족시킬 수 있다.

본 발명의 일 실시예에 따르면, 제1 비디오 통신 단말이 비디오 이미지 중 설정 객체의 의미 정보를 추출하는 단계는, 상기 비디오 이미지의 얼굴 영역을 인식하여, 얼굴 서브 이미지를 획득하는 단계; 상기 얼굴 서브 이미지를 트레이닝된 인코더에 입력하는 단계; 상기 인코더의 출력을 획득하여, 상기 비디오 이미지의 얼굴 의미 정보를 획득하는 단계; 또는, 상기 비디오 이미지의 몸체 영역을 인식하여, 몸체 서브 이미지를 획득하는 단계; 상기 몸체 서브 이미지를 트레이닝된 인코더에 입력하는 단계; 및 상기 인코더의 출력을 획득하여, 상기 비디오 이미지의 몸체 의미 정보를 획득하는 단계를 포함한다. 이로써 비디오 이미지의 설정 객체의 의미 정보의 추출 효율과 정확도를 향상시킬 수 있다.

여기서, 제1 비디오 통신 단말이 상기 비디오 이미지의 전역 의미 정보를 추출하는 단계에서, 비디오 이미지 중 설정 객체에 대해 인식할 필요가 없으므로 이미지 전송 프로세스를 간소화하였고, 획득된 의미 정보는 더 전면적이어서, 수신단은 충실도가 보다 높은 재구성 이미지를 획득할 수 있다.

일 실시예에서, 상기 의미 정보가 얼굴의 의미 정보 또는 몸체의 의미 정보와 같은 설정 객체의 의미 정보인 경우, 제1 비디오 통신 단말은 또한 제1 참조 이미지를 N 프레임 간격마다 설정된 이미지 전송 모드를 사용하여 제2 비디오 통신 단말에 송신하되; 설정된 이미지 전송 모드에서 전송된 상기 제1 참조 이미지의 데이터 양은 상기 의미 정보의 데이터 양보다 크고; N은 1보다 크다. 상기 제1 참조 이미지는 또한 상기 제1 비디오 통신 단말에 의해 촬영된 비디오 이미지에 속하고; 상기 제1 참조 이미지를 전송하여, 상기 제2 비디오 통신 단말이 상기 의미 정보 및 상기 제1 참조 이미지에 따라, 상기 비디오 이미지의 재구성 이미지를 재구성하도록 한다.

제1 참조 이미지를 제2 비디오 통신 단말에 송신하여, 제2 비디오 통신 단말이 설정 객체의 의미 정보를 수신한 후, 상기 의미 정보를 기반으로 설정 객체의 재구성 서브 이미지를 획득한 다음, 상기 설정 객체의 재구성 서브 이미지를 상기 제1 참조 이미지의 재구성 이미지와 중첩시킴으로써, 상기 비디오 이미지의 재구성 이미지를 획득한다.

일 실시예에서, 의미 정보가 비디오 이미지 중 설정 객체의 의미 정보일 경우, 제2 비디오 통신 단말이 더 좋은 품질의 재구성 이미지를 획득하도록 하기 위해, 제1 비디오 통신 단말은 또한 제2 비디오 통신 단말에 상기 비디오 이미지 중 상기 설정 객체의 위치 정보를 송신해야 하며, 상기 위치 정보를 송신하여, 상기 제2 비디오 통신 단말이 상기 위치 정보에 따라 상기 설정 객체의 재구성 서브 이미지를 상기 제1 참조 이미지와 융합시킴으로써, 보다 정밀한 비디오 이미지의 재구성 이미지를 획득하도록 한다.

제2 비디오 통신 단말에 제2 위치 정보를 송신하여, 상기 제2 비디오 통신 단말이 상기 제2 위치 정보에 따라 재구성된 몸체의 재구성 이미지를 상기 참조 이미지의 재구성 이미지와 중첩시켜, 보다 정밀한 비디오 이미지의 재구성 이미지를 획득하도록 한다.

상기 비디오 이미지 전송 방법에서, 송신단은 대부분 비디오 이미지에 대해, 비디오 이미지 중 중요한 의미 정보만 추출하여 전송하면 되며, 참조 이미지를 통해 재구성 이미지의 해상도와 충실도의 요구를 동시에 고려할 수 있으며, 동시에 비디오 이미지 전송의 실시간성을 보장할 수 있다.

상기 비디오 이미지 전송 방법의 동일한 아이디어를 기반으로, 본 명세서에서는 비디오 이미지 전송 방법의 실시예를 더 제공하며, 본 실시예에서 제2 비디오 이미지 단말은 비디오 이미지의 수신단이고, 도 6에 도시된 바를 참조하면, 제2 비디오 이미지 단말의 각도에서, 비디오 이미지 전송 방법은 하기와 같은 단계를 포함한다.

단계 S610에서, 제1 비디오 통신 단말에 의해 송신된 비디오 이미지의 의미 정보를 수신하되; 상기 비디오 이미지는 상기 제1 비디오 통신 단말에 의해 촬영된 비디오 이미지이다.

단계 S620에서, 상기 의미 정보에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득한다.

단계 S630에서, 상기 재구성 이미지를 제2 비디오 통신 단말의 디스플레이 스크린을 통해 디스플레이한다.

일부 실시예에서, 상기 비디오 이미지의 의미 정보는 상기 비디오 이미지의 설정 객체의 의미 정보, 상기 비디오 이미지의 전역 의미 정보 중 어느 하나를 포함한다. 여기서, 상기 설정 객체는 얼굴 또는 몸체를 포함하지만 이에 한정되지 않으며, 또한 실제 장면에 따라 설정될 수 있다.

일 실시예에서, 전송된 의미 정보가 비디오 이미지 중 설정 객체의 의미 정보일 경우, 수신단이 이미지를 보다 잘 재구성하도록 하기 위해, 제1 비디오 통신 단말은 또한 N 프레임 간격마다 설정된 이미지 전송 모드를 사용하여 제1 참조 이미지를 제2 비디오 통신 단말에 송신하되; 상기 제1 참조 이미지는 상기 제1 비디오 통신 단말에 의해 촬영된 비디오 이미지에 속하며, 설정된 이미지 전송 모드에서 전송된 상기 제1 참조 이미지의 데이터 양은 상기 의미 정보의 데이터 양보다 크고; N은 1보다 크며; 제2 비디오 통신 단말은 제1 참조 이미지 및 현재 수신된 설정 객체의 의미 정보를 기반으로 이미지를 재구성한다.

대응되게, 제2 비디오 통신 단말은 또한 상기 제1 비디오 통신 단말로부터의 제1 참조 이미지를 N 프레임 간격마다 설정된 이미지 전송 모드를 통해 수신해야 하되; N은 1보다 크다.

아래에 얼굴의 의미 정보 및 몸체의 의미 정보를 예로 들어 각각 설명한다.

얼굴의 의미 정보를 기반으로 비디오 이미지의 전송 및 재구성을 수행할 경우, 제2 비디오 통신 단말은 또한 제1 비디오 통신 단말로부터의 제1 참조 이미지의 이미지 인코딩 정보를 미리 수신해야 하되; 상기 참조 이미지는 제1 비디오 통신 단말에 의해 촬영된 비디오 이미지이고, 또한 상기 제1 참조 이미지의 이미지 인코딩 정보의 데이터 양은 상기 실시예의 비디오 이미지 중 얼굴 의미 정보/몸체 의미 정보의 데이터 양보다 크다.

제2 비디오 통신 단말은 상기 이미지 인코딩 정보를 기반으로 상기 제1 참조 이미지를 획득한다. 다른 비디오 이미지의 얼굴 의미 정보/몸체 의미 정보를 수신한 경우, 얼굴 의미 정보/몸체 의미 정보를 기반으로 얼굴 재구성 서브 이미지/몸체 재구성 서브 이미지를 재구성할 수 있으며, 얼굴 재구성 서브 이미지/몸체 재구성 서브 이미지 및 상기 제1 참조 이미지를 융합하여, 다른 비디오 이미지의 재구성 이미지를 획득한다. 여기서, 얼굴 의미 정보/몸체 의미 정보를 기반으로 재구성된 얼굴 재구성 서브 이미지/몸체 재구성 서브 이미지의 구현 과정은 하기와 같을 수 있다.

제2 비디오 통신 단말은 제1 비디오 통신 단말에 의해 송신된 얼굴 의미 정보/몸체 의미 정보를 수신한 후, 상기 얼굴 의미 정보/몸체 의미 정보를 트레이닝된 디코더에 입력하고, 상기 디코더의 출력을 획득하여, 얼굴 재구성 서브 이미지/몸체 재구성 서브 이미지를 획득한다. 여기서, 상기 디코더의 입력은 이미지 의미 정보이고, 출력은 입력 의미 정보를 기반으로 재구성된 이미지이며; 상기 실시예에 설명된 바와 같이, 상기 디코더는 콘볼루션 신경망일 수 있다.

일 실시예에서, 설정 객체의 의미 정보를 기반으로 이미지를 재구성할 경우, 더 높은 품질의 재구성 이미지를 획득하기 위해, 제2 비디오 통신 단말은 또한 상기 제1 비디오 통신 단말로부터의 위치 정보를 수신해야 하되; 상기 위치 정보는 상기 비디오 이미지 중 상기 설정 객체의 위치 정보이고; 그리고 나서 상기 위치 정보에 따라 상기 설정 객체의 재구성 서브 이미지를 상기 제1 참조 이미지와 중첩시켜, 상기 비디오 이미지의 재구성 이미지를 획득한다.

일 실시예에서, 얼굴 의미 정보를 기반으로 비디오 이미지의 전송 및 재구성을 수행하는 것을 예로 들면, 제2 비디오 통신 단말은 상기 제1 비디오 통신 단말로부터의 제1 위치 정보를 수신하되, 상기 제1 위치 정보는 제1 비디오 통신 단말의 비디오 이미지 중 얼굴 영역의 위치 정보이다. 대응되게, 제2 비디오 통신 단말은 상기 제1 위치 정보에 따라 상기 얼굴의 재구성 이미지를 상기 제1 참조 이미지와 중첩시켜, 상기 비디오 이미지의 재구성 이미지를 획득한다.

몸체 의미 정보를 기반으로 비디오 이미지의 전송 및 재구성을 수행하는 것을 예로 들면, 제2 비디오 통신 단말은 상기 제1 비디오 통신 단말로부터의 제2 위치 정보를 수신해야 하되; 상기 제2 위치 정보는 상기 비디오 이미지 중 몸체 영역의 위치 정보이다. 대응되게, 제2 비디오 통신 단말은 상기 제2 위치 정보에 따라 상기 몸체의 재구성 이미지를 상기 제1 참조 이미지와 중첩시켜, 상기 비디오 이미지의 재구성 이미지를 획득한다.

다른 실시예에서, 제2 비디오 통신 단말은 또한 설정된 이미지 전송 모드를 통해 수신된 제2 참조 이미지를 획득해야 하되, 상기 제2 참조 이미지는 설정 객체의 이미지, 상기 제1 비디오 통신 단말의 환경 이미지 중 적어도 하나이고, 설정된 이미지 전송 모드를 통해 수신된 상기 제2 참조 이미지의 데이터 양은 상기 의미 정보의 데이터 양보다 크며; 상기 의미 정보 및 상기 제2 참조 이미지에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득해야 한다. 구현 과정은 상기 실시예에 설명된 바를 참조할 수 있다.

상기 비디오 이미지 전송 방법을 통해, 비디오 이미지 수신단은 이미지 중 중요한 의미 정보와 보다 완전한 참조 이미지를 통해 이미지를 재구성하며, 이미지 전송의 실시간성, 해상도 및 충실도의 요구를 동시에 고려할 수 있다.

이해해야 할 것은, 전술한 각 방법 실시예에 대해, 비록 흐름도에서의 각각의 단계는 화살표의 지시대로 순차적으로 도시되지만, 이러한 단계는 반드시 화살표가 지시하는 순서에 따라 순차적으로 수행되어야 하는 것은 아니다. 본 명세서에서 명확한 설명이 없는 한, 이러한 단계의 수행은 엄격한 순서 제한이 없으며, 이러한 단계는 다른 순서로 수행될 수 있다. 또한, 방법 실시예이 흐름도에서의 적어도 일부 단계는 복수의 서브 단계 또는 복수의 단계를 포함할 수 있고, 이러한 서브 단계는 또는 단계는 반드시 동시에 수행되는 것이 아니라, 상이한 시각에 수행될 수 있으며, 이러한 서브 단계 또는 단계의 수행 순서도 반드시 순차적으로 진행되는 것이 아니라, 다른 단계 또는 다른 단계의 서브 단계 또는 단계의 적어도 일부와 교대로 또는 교차적으로 수행될 수 있다.

상기 실시예에서의 비디오 이미지 전송 방법과 동일한 아이디어를 기반으로, 본 명세서에서는 비디오 이미지 전송 장치의 실시예를 더 제공한다.

도 7에 도시된 바와 같이, 하나의 실시예에서, 비디오 이미지 전송 장치는,

제1 비디오 통신 단말에 의해 촬영된 비디오 이미지를 획득하는 이미지 획득 모듈(601);

상기 비디오 이미지의 의미 정보를 추출하는 정보 추출 모듈(602); 및

상기 의미 정보를 제2 비디오 통신 단말에 송신하는 송신 모듈(603)을 포함하되; 상기 의미 정보는 상기 제2 비디오 통신 단말에서 상기 비디오 이미지의 재구성 이미지를 재구성하기 위한 것이다.

본 발명의 일 실시예에 따르면, 상기 정보 추출 모듈(602)은, 트레이닝된 인코더를 통해 상기 비디오 이미지의 의미 정보를 추출하되; 상기 인코더는 이미지 의미 정보를 인식하기 위한 것이다.

본 발명의 일 실시예에 따르면, 상기 인코더의 입력은 이미지이고, 출력은 입력 이미지에 대응되는 저차원 벡터이며, 입력 이미지의 의미 정보로 사용된다. 예를 들어, 상기 인코더는 콘볼루션 신경망일 수 있다.

추출된 의미 정보가 설정 객체의 의미 정보이면, 대응되게, 정보 추출 모듈(602)은, 상기 비디오 이미지의 설정 객체를 인식하여, 상기 설정 객체의 서브 이미지를 획득하고; 상기 설정 객체의 서브 이미지를 트레이닝된 인코더에 입력하며; 상기 인코더의 출력을 획득하여, 상기 비디오 이미지 중 상기 설정 객체의 의미 정보를 획득하는 객체 정보 추출 서브 모듈을 포함할 수 있다.

여기서, 설정 객체는 얼굴 또는 몸체일 수 있다. 얼굴이면, 상기 객체 정보 추출 서브 모듈은, 상기 비디오 이미지의 얼굴 영역을 인식하여, 얼굴 서브 이미지를 획득하고; 상기 얼굴 서브 이미지를 트레이닝된 인코더에 입력하며; 상기 인코더의 출력을 획득하여, 상기 비디오 이미지의 얼굴 의미 정보를 획득하는 얼굴 정보 추출 유닛을 포함한다. 몸체이면, 상기 객체 정보 추출 서브 모듈은, 상기 비디오 이미지의 몸체 영역을 인식하여, 몸체 서브 이미지를 획득하고; 상기 몸체 서브 이미지를 트레이닝된 인코더에 입력하며; 상기 인코더의 출력을 획득하여, 상기 비디오 이미지의 몸체 의미 정보를 획득하는 몸체 정보 추출 유닛을 포함한다.

추출된 의미 정보가 비디오 이미지 전역 의미 정보이면, 대응되게, 정보 추출 모듈(602)은, 상기 비디오 이미지를 트레이닝된 인코더에 입력하고; 상기 인코더의 출력을 획득하여, 상기 비디오 이미지의 전역 의미 정보를 획득하는 전역 정보 추출 서브 모듈을 포함할 수 있다.

본 발명의 일 실시예에 따르면, 상기 비디오 이미지 전송 장치는,

제1 참조 이미지를 N 프레임 간격마다 설정된 이미지 전송 모드를 사용하여 제2 비디오 통신 단말에 송신하는 제1 참조 이미지 송신 모듈을 더 포함하되; 설정된 이미지 전송 모드에서 전송된 상기 제1 참조 이미지의 데이터 양은 상기 의미 정보의 데이터 양보다 크고; N은 1보다 크며;

상기 제1 참조 이미지는 상기 제1 비디오 통신 단말에 의해 촬영된 비디오 이미지에 속하고; 상기 제1 참조 이미지는 상기 제2 비디오 통신 단말이 상기 의미 정보 및 상기 제1 참조 이미지에 따라 상기 비디오 이미지의 재구성 이미지를 재구성하도록 하기 위한 것이다.

상기 의미 정보가 설정 객체의 의미 정보이면, 상기 제1 참조 이미지는, 상기 제2 비디오 통신 단말이 수신된 의미 정보에 따라 상기 설정 객체의 재구성 서브 이미지를 획득하고, 상기 재구성 서브 이미지를 상기 제1 참조 이미지와 융합하여 상기 비디오 이미지의 재구성 이미지를 획득할 수 있도록 한다.

송신된 의미 정보가 전역 의미 정보이면, 상기 제1 참조 이미지는, 상기 제2 비디오 통신 단말이 수신된 의미 정보에 따라 초기 재구성 이미지를 획득하고, 상기 초기 재구성 이미지를 상기 제1 참조 이미지와 융합하여, 상기 비디오 이미지의 재구성 이미지를 획득할 수 있도록 한다.

다른 실시예에서, 상기 의미 정보가 설정 객체의 의미 정보이면, 상기 비디오 이미지 전송 장치는,

상기 비디오 이미지 중 설정 객체의 위치 정보를 획득하는 객체 위치 획득 모듈; 및

상기 제2 비디오 통신 단말에 상기 위치 정보를 송신하는 위치 정보 송신 모듈을 더 포함하되, 상기 위치 정보는 상기 제2 비디오 통신 단말이 상기 위치 정보에 따라 상기 설정 객체의 재구성 서브 이미지를 상기 제1 참조 이미지와 융합하여, 상기 비디오 이미지의 재구성 이미지를 획득하도록 하기 위한 것이다.

제2 참조 이미지를 설정된 이미지 전송 모드를 사용하여 상기 제2 비디오 통신 단말에 송신하는 제2 참조 이미지 송신 모듈을 더 포함하되; 상기 설정된 이미지 전송 모드에서 전송된 상기 제2 참조 이미지의 데이터 양은 상기 의미 정보의 데이터 양보다 크고;

상기 실시예의 비디오 이미지 전송 장치를 기반으로, 비디오 통신에서, 송신단이 비디오 이미지를 전송해야 하는 경우, 상기 비디오 이미지의 의미 정보를 획득하여, 수신단에 상기 의미 정보를 송신하고; 수신단은 상기 의미 정보를 수신한 후, 상기 의미 정보에 따라 송신단의 비디오 이미지를 재구성할 수 있으며, 이로써 재구성 이미지를 획득하고, 또한 상기 재구성 이미지를 수신단의 디스플레이 스크린을 통해 디스플레이한다. 한편으로, 비디오 통신에서, 하나의 비디오 이미지 전송은 매우 적은 양의 데이터만 전송하면 되므로, 네트워크 대역폭에 대한 요구가 매우 낮아, 실시간 전송의 요구를 충족시킬 수 있으며; 다른 한편으로, 의미 정보를 기반으로 비디오 이미지에 대해 압축 및 복원함으로써, 비디오 이미지의 수신단이 비교적 높은 품질의 이미지를 재구성하여, 비디오 통신 중 이미지 고해상도와 높은 충실도의 요구를 동시에 고려할 수 있도록 한다.

본 발명의 다른 실시예에 따르면, 도 8에 도시된 바와 같이, 비디오 이미지 전송 장치는, 비디오 이미지의 의미 정보를 수신하되, 상기 비디오 이미지는 상기 제1 비디오 통신 단말에 의해 촬영된 비디오 이미지인 정보 수신 모듈(701);

상기 의미 정보에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 이미지 재구성 모듈(702); 및

상기 재구성 이미지를 제2 비디오 통신 단말의 디스플레이 스크린을 통해 디스플레이하는 이미지 디스플레이 모듈(703)을 포함한다.

본 발명의 일 실시예에 따르면, 상기 이미지 재구성 모듈(702)은, 상기 의미 정보 및 미리 트레이닝된 디코더에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득한다.

본 발명의 일 실시예에 따르면, 상기 비디오 이미지의 의미 정보는, 비디오 이미지의 설정 객체의 의미 정보; 및 비디오 이미지의 전역 의미 정보 중 어느 하나를 포함한다.

여기서, 디코더의 입력은 이미지 의미 정보이고, 출력은 입력 의미 정보를 기반으로 재구성된 이미지이다. 일부 장면에서, 상기 디코더는 콘볼루션 신경망이다.

본 발명의 일 실시예에 따르면, 상기 비디오 이미지의 의미 정보는, 상기 비디오 이미지의 설정 객체의 의미 정보; 및 상기 비디오 이미지의 전역 의미 정보 중 어느 하나를 포함한다. 상기 설정 객체는 예를 들어 얼굴 또는 몸체 등이다.

본 발명의 일 실시예에 따르면, 이미지 재구성 모듈(702)은,

최근에 설정된 이미지 전송 모드를 통해 수신된 제1 참조 이미지를 획득하되, 상기 제1 참조 이미지는 상기 제1 비디오 통신 단말에 의해 송신되고 이에 의해 촬영된 비디오 이미지이고; 설정된 이미지 전송 모드를 통해 수신된 상기 제1 참조 이미지의 데이터 양은 상기 의미 정보의 데이터 양보다 큰 제1 참조 이미지 획득 서브 모듈; 및

상기 의미 정보 및 상기 제1 참조 이미지에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 제1 이미지 재구성 서브 모듈을 포함한다.

본 발명의 일 실시예에 따르면, 상기 비디오 이미지 전송 장치는, 상기 제1 비디오 통신 단말로부터의 제1 참조 이미지를 N 프레임 간격마다 설정된 이미지 전송 모드를 통해 수신하는 제1 참조 이미지 수신 서브 모듈을 더 포함하되; N은 1보다 크다.

일 실시예에서, 수신된 의미 정보가 설정 객체의 의미 정보이면, 상기 이미지 재구성 모듈(702)은, 상기 의미 정보를 트레이닝된 디코더에 입력하고; 상기 디코더의 출력을 획득하여, 상기 설정 객체의 재구성 서브 이미지를 획득하며; 상기 설정 객체의 재구성 서브 이미지를 상기 제1 참조 이미지와 융합하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 제1 재구성 서브 모듈을 포함할 수 있다.

하나의 실시예에서, 상기 비디오 이미지 전송 장치는, 상기 제1 비디오 통신 단말에 의해 송신된 위치 정보를 수신하는 위치 정보 수신 모듈을 더 포함하되, 상기 위치 정보는 상기 비디오 이미지 중 상기 설정 객체의 위치 정보이고; 상기 제1 이미지 재구성 서브 모듈은 상기 위치 정보에 따라 상기 설정 객체의 재구성 서브 이미지를 상기 제1 참조 이미지와 융합하여, 상기 비디오 이미지의 재구성 이미지를 획득한다.

일 실시예에서, 수신된 의미 정보가 이미지 전역 의미 정보이면, 상기 이미지 재구성 모듈(702)은, 상기 의미 정보를 트레이닝된 디코더에 입력하고; 상기 디코더의 출력을 획득하여, 초기 재구성 이미지를 획득하며; 상기 초기 재구성 이미지를 상기 제1 참조 이미지와 융합하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 제2 이미지 재구성 서브 모듈을 포함할 수 있다.

본 발명의 일 실시예에 따르면, 상기 이미지 재구성 모듈(702)은,

설정된 이미지 전송 모드를 통해 수신된 제2 참조 이미지를 획득하되, 상기 제2 참조 이미지는 설정 객체의 이미지, 상기 제1 비디오 통신 단말의 환경 이미지 중 적어도 하나이고, 설정된 이미지 전송 모드를 통해 수신된 상기 제2 참조 이미지의 데이터 양은 상기 의미 정보의 데이터 양보다 큰 제2 참조 이미지 획득 서브 모듈; 및

상기 의미 정보 및 상기 제2 참조 이미지에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 제2 이미지 재구성 서브 모듈을 포함한다.

본 발명의 일 실시예에 따르면, 도 1에 도시된 바와 같이, 비디오 이미지 전송 시스템은 제1 비디오 통신 단말 및 제2 비디오 통신 단말을 포함하고; 상기 제1 비디오 통신 단말과 제2 비디오 통신 단말 사이는 비디오 통신 연결되며; 상기 제1 비디오 통신 단말은, 촬영된 비디오 이미지를 획득하고, 상기 비디오 이미지의 의미 정보를 획득하여, 상기 의미 정보를 제2 비디오 통신 단말에 송신하고; 상기 제2 비디오 통신 단말은, 상기 의미 정보를 수신하며, 상기 의미 정보에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하여, 상기 재구성 이미지를 제2 비디오 통신 단말의 디스플레이 스크린을 통해 디스플레이한다.

비디오 이미지 전송 장치 및 시스템 실시예의 구현 방식의 경우, 상기에서 비디오 이미지 전송 방법에 대한 한정을 참조할 수 있으며, 여기에서는 더이상 반복하지 않는다. 상기 비디오 이미지 전송 장치 중 각각의 모듈은 전부 또는 일부가 소프트웨어, 하드웨어 및 이의 조합으로 구현될 수 있다. 상기 각 모듈은 하드웨어 형태로 인터랙티브 지능형 태블릿의 프로세서에 내장되거나 독립적으로 구성될 수 있으며, 소프트웨어 형태로 인터랙티브 지능형 태블릿의 메모리에 저장될 수 있어, 프로세서가 상기 각각의 모듈에 대응되는 동작을 수행하도록 호출하는 데에 편리하다.

이 밖에, 상기 예시의 비디오 이미지 전송 장치의 실시형태에서, 각 프로그램 모듈의 로직 분할은 단지 예를 들어 설명한 것이며, 실제 응용에서 수요에 따라, 예를 들어 해당하는 하드웨어의 구성 요구 또는 소프트웨어의 구현의 편의를 고려하여, 상기 기능 할당이 상이한 프로그램 모듈에 의해 완료되도록 하며, 즉 상기 비디오 이미지 전송 장치의 내부 구조를 상이한 프로그램 모듈로 분할하여, 이상 설명된 전부 또는 일부 기능을 완료한다.

하나의 실시예에서, 인터랙티브 지능형 태블릿을 제공하며, 이의 내부 구조는 도 9에 도시된 바와 같을 수 있다. 상기 인터랙티브 지능형 태블릿은 시스템 버스를 통해 연결된 프로세서, 메모리, 네트워크 인터페이스, 디스플레이 스크린 및 입력 장치를 포함하고, 촬영 장치(미도시)를 더 포함할 수도 있다. 여기서, 프로세서는 컴퓨팅 및 제어 기능을 제공하기 위한 것이고; 메모리는 비휘발성 저장 매체, 내부 메모리를 포함하되, 상기 비휘발성 저장 매체에는 운영 체제 및 컴퓨터 프로그램이 저장되고, 상기 내부 메모리는 비휘발성 저장 매체 중 운영 체제 및 컴퓨터 프로그램의 실행에 환경을 제공하며; 네트워크 인터페이스는 네트워크 연결을 통해 외부 단말기와 통신하기 위한 것이고; 상기 컴퓨터 프로그램은 프로세서에 의해 실행되어 비디오 이미지 전송 방법을 구현하며; 디스플레이 스크린은 액정 디스플레이 스크린 또는 전자 잉크 디스플레이 스크린일 수 있고; 촬영 장치는 인터랙티브 지능형 태블릿 앞에 있는 환경 또는 인물의 비디오 이미지를 촬영할 수 있으며; 입력 장치는 디스플레이 스크린을 커버한 터치 레이어일 수 있고, 인터랙티브 지능형 태블릿 하우징에 설치된 버튼, 트랙볼 또는 터치 제어 패드일 수도 있으며, 외접된 키보드, 터치 제어 패드 또는 마우스 등일 수도 있다.

당업자는, 도 9에 도시된 구조는 단지 본 발명의 해결수단과 관련된 일부 구조의 블록도로써, 본 발명의 해결수단의 이에 적용되는 인터랙티브 지능형 태블릿에 대한 한정으로 구성되지 않음을 이해할 수 있으며, 구체적인 인터랙티브 지능형 태블릿은 도면에 도시된 것보다 더 많거나 더 적은 부재를 포함하거나, 일부 부재를 조합하거나, 상이한 부재로 배치될 수 있다.

본 발명의 일 실시예에 따르면, 촬영 장치, 디스플레이 스크린, 메모리 및 프로세서를 포함하는 인터랙티브 지능형 태블릿이 제공되는바, 메모리에는 컴퓨터 프로그램이 저장되고; 상기 인터랙티브 지능형 태블릿은 상기 촬영 장치를 통해 비디오 이미지를 촬영하며; 상기 프로세서는 상기 프로그램을 실행할 경우, 상기 촬영 장치에 의해 촬영된 비디오 이미지의 의미 정보를 추출하여, 다른 인터랙티브 지능형 태블릿에 상기 의미 정보를 송신하고; 상기 프로세서는 상기 프로그램을 실행할 경우, 또한 다른 인터랙티브 지능형 태블릿에 의해 송신된 비디오 이미지의 의미 정보를 수신하며; 상기 의미 정보에 따라 이미지를 재구성하여, 다른 인터랙티브 지능형 태블릿에 의해 송신된 비디오 이미지의 재구성 이미지를 획득하고, 상기 재구성 이미지를 상기 디스플레이 스크린을 통해 디스플레이한다.

다른 실시예에서, 상기 프로세서는 상기 프로그램을 실행할 경우, 또한 상기 비디오 이미지 전송 방법의 다른 실시예에서의 대응 단계를 수행한다.

본 발명의 일 실시예에 따르면, 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 저장 매체가 제공되는바, 컴퓨터 프로그램은 프로세서에 의해 실행될 경우, 제1 비디오 통신 단말에 의해 촬영된 비디오 이미지를 획득하는 단계; 상기 비디오 이미지의 의미 정보를 추출하는 단계; 및 상기 의미 정보를 제2 비디오 통신 단말에 송신하는 단계를 구현하되, 상기 의미 정보는 상기 제2 비디오 통신 단말에서 상기 비디오 이미지의 재구성 이미지를 재구성하기 위한 것이다.

다른 실시예에서, 상기 컴퓨터 프로그램은 프로세서에 의해 실행될 경우, 또한 상기 비디오 이미지 전송 방법의 다른 실시예에서 비디오 이미지 송신단이 수행하는 대응 단계를 수행한다.

본 발명의 다른 일 실시예에 따르면, 컴퓨터 프로그램이 저장된 다른 하나의 컴퓨터 판독 가능 저장 매체가 제공되는바, 컴퓨터 프로그램은 프로세서에 의해 실행될 경우, 비디오 이미지의 의미 정보를 수신하되, 상기 비디오 이미지는 상기 제1 비디오 통신 단말에 의해 촬영된 비디오 이미지인 단계; 상기 의미 정보에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 단계; 및 상기 재구성 이미지를 제2 비디오 통신 단말의 디스플레이 스크린을 통해 디스플레이하는 단계를 구현한다.

다른 실시예에서, 상기 컴퓨터 프로그램은 프로세서에 의해 실행될 경우, 또한 상기 비디오 이미지 전송 방법의 다른 실시예에서 비디오 이미지 수신단이 수행하는 대응 단계를 수행한다.

당업자는 상기 실시예 방법 중 전부 또는 일부 프로세스를 구현하는 것은 컴퓨터 프로그램을 통해 관련된 하드웨어를 명령하여 완료될 수 있음을 이해할 수 있으며, 상기 컴퓨터 프로그램은 하나의 비휘발성 컴퓨터 판독 가능 저장 매체에 저장될 수 있고, 상기 컴퓨터 프로그램은 실행될 경우, 상기 각 방법의 실시예의 프로세스를 포함할 수 있다. 여기서, 본 발명에서 제공하는 각 실시예에 사용되는 메모리, 저장, 데이터베이스 또는 다른 매체의 임의의 인용은 모두 비휘발성 및/또는 휘발성 메모리를 포함할 수 있다. 비휘발성 메모리는 판독 전용 메모리(ROM), 프로그램 가능 ROM(PROM), 전기적 프로그램 가능 ROM(EPROM), 전기적 소거 가능 프로그램 가능 ROM(EEPROM) 또는 플래시 메모리를 포함할 수 있다. 휘발성 메모리는 랜덤 액세스 메모리(RAM) 또는 외부 캐시 메모리를 포함할 수 있다. 제한이 아닌 설명으로서, RAM은 정적 RAM(SRAM), 동적 RAM(DRAM), 동기식 DRAM(SDRAM), 이중 데이터 속도 SDRAM(DDRSDRAM), 향상된 SDRAM(ESDRAM), 동기 링크(Synchlink) DRAM(SLDRAM), 메모리 버스(Rambus) 직접 RAM(RDRAM), 직접 메모리 버스 동적 RAM(DRDRAM) 및 메모리 버스 동적 RAM (RDRAM) 등과 같이 다양한 형태로 획득될 수 있다.

이상 실시예의 각 기술적 특징은 임의로 조합될 수 있으며, 설명을 간결하게 하기 위해, 상기 실시예에서 각각의 기술적 특징의 모든 가능한 조합에 대해 모두 설명하지 않지만, 이러한 기술적 특징의 조합이 서로 모순되지 않는 한, 모두 본 명세서에 기재된 범위로 간주되어야 한다. 상기 각각의 실시예의 설명은 모두 각각의 중점을 두고 있으며, 특정 실시예에서 상세하게 설명되지 않은 부분은 다른 실시예의 관련 설명을 참조할 수 있다.

실시예에서 용어 “포함하다” 및 “가지다” 및 이들의 임의의 변형은 비 배타적인 포함을 포함하도록 의도된다. 예를 들어, 일련의 단계 또는 (모듈)유닛을 포함한 과정, 방법, 시스템, 제품 또는 기기는 이미 열거된 단계 또는 유닛에 한정되지 않고, 열거되지 않은 단계 또는 유닛을 더 포함하거나, 이러한 과정, 방법, 제품 또는 기기 고유의 다른 단계 또는 유닛을 더 포함한다.

실시예에서 언급된 “복수”는 둘 또는 둘 이상을 의미한다. “및/또는”은 연관 객체의 연관 관계를 설명하며, 3가지 관계가 존재할 수 있음을 나타낼 수 있는바, 예를 들면 A 및/또는 B는, A만 존재, A와 B가 동시에 존재, B만 존재하는 3가지 경우를 나타낼 수 있다. 기호 “/”는 일반적으로 이전과 이후의 연관된 객체가 “또는”의 관계임을 나타낸다.

실시예에서 언급된 “제1/제2”는 단지 유사한 객체를 구별하기 위한 것일 뿐, 객체에 대한 특정 배열을 나타내지 않으며, 이해할 수 있는 것은, “제1/제2”는 허용되는 경우 특정된 순서 또는 선후 순서로 교환될 수 있다. 이해해야 할 것은, “제1/제2”로 구분되는 객체는 적절한 경우에 서로 교환되어, 여기에서 설명된 실시예가 여기서 도시되거나 설명된 것 이외의 순서로 구현될 수 있도록 한다.

Claims

비디오 이미지 전송 방법으로서,
제1 비디오 통신 단말에 의해 촬영된 비디오 이미지를 획득하는 단계;
상기 비디오 이미지의 의미 정보를 추출하는 단계;
상기 의미 정보를 제2 비디오 통신 단말에 송신하는 단계를 포함하되, 상기 의미 정보는 상기 제2 비디오 통신 단말에서 상기 비디오 이미지의 재구성 이미지를 재구성하기 위한 것인, 비디오 이미지 전송 방법.
제1항에 있어서,
상기 비디오 이미지의 의미 정보를 추출하는 상기 단계는,
트레이닝된 인코더를 통해 상기 비디오 이미지의 의미 정보를 추출하는 단계를 포함하되; 상기 인코더는 이미지 의미 정보를 인식하도록 설정되는, 비디오 이미지 전송 방법.
제2항에 있어서,
상기 인코더의 입력은 이미지이고, 출력은 입력 이미지에 대응되는 저차원 벡터이며, 입력 이미지의 의미 정보로 사용되는, 비디오 이미지 전송 방법.
제3항에 있어서,
상기 인코더는 콘볼루션 신경망인, 비디오 이미지 전송 방법.
제2항에 있어서,
상기 비디오 이미지의 의미 정보는,
상기 비디오 이미지 중 설정 객체의 의미 정보; 및
상기 비디오 이미지의 전역 의미 정보 중 어느 하나를 포함하는, 비디오 이미지 전송 방법.
제5항에 있어서,
상기 비디오 이미지 중 설정 객체의 의미 정보를 추출하는 단계는,
상기 비디오 이미지의 설정 객체를 인식하여, 상기 설정 객체의 서브 이미지를 획득하는 단계;
상기 설정 객체의 서브 이미지를 트레이닝된 인코더에 입력하는 단계; 및
상기 인코더의 출력을 획득하여, 상기 비디오 이미지 중 상기 설정 객체의 의미 정보를 획득하는 단계를 포함하는, 비디오 이미지 전송 방법.
제6항에 있어서,
상기 설정 객체는 얼굴 또는 몸체를 포함하는, 비디오 이미지 전송 방법.
제7항에 있어서,
상기 설정 객체가 얼굴이면, 상기 비디오 이미지 중 설정 객체의 의미 정보를 추출하는 상기 단계는,
상기 비디오 이미지의 얼굴 영역을 인식하여, 얼굴 서브 이미지를 획득하는 단계;
상기 얼굴 서브 이미지를 트레이닝된 인코더에 입력하는 단계; 및
상기 인코더의 출력을 획득하여, 상기 비디오 이미지의 얼굴 의미 정보를 획득하는 단계를 포함하는, 비디오 이미지 전송 방법.
제7항에 있어서,
상기 설정 객체가 몸체이면, 상기 비디오 이미지 중 설정 객체의 의미 정보를 추출하는 상기 단계는,
상기 비디오 이미지의 몸체 영역을 인식하여, 몸체 서브 이미지를 획득하는 단계;
상기 몸체 서브 이미지를 트레이닝된 인코더에 입력하는 단계; 및
상기 인코더의 출력을 획득하여, 상기 비디오 이미지의 몸체 의미 정보를 획득하는 단계를 포함하는, 비디오 이미지 전송 방법.
제5항에 있어서,
상기 비디오 이미지의 전역 의미 정보를 추출하는 단계는,
상기 비디오 이미지를 트레이닝된 인코더에 입력하는 단계; 및
상기 인코더의 출력을 획득하여, 상기 비디오 이미지의 전역 의미 정보를 획득하는 단계를 포함하는, 비디오 이미지 전송 방법.
제5항 내지 제10항 중 어느 한 항에 있어서,
제1 참조 이미지를 N 프레임 간격마다 설정된 이미지 전송 모드를 사용하여 제2 비디오 통신 단말에 송신하는 단계를 더 포함하되; 설정된 이미지 전송 모드에서 전송된 상기 제1 참조 이미지의 데이터 양은 상기 의미 정보의 데이터 양보다 크고; N은 1보다 크며;
상기 제1 참조 이미지는 상기 제1 비디오 통신 단말에 의해 촬영된 비디오 이미지에 속하고; 상기 제1 참조 이미지는 상기 제2 비디오 통신 단말이 상기 의미 정보 및 상기 제1 참조 이미지에 따라 상기 비디오 이미지의 재구성 이미지를 재구성하도록 하기 위한 것인, 비디오 이미지 전송 방법.
제11항에 있어서,
상기 의미 정보가 설정 객체의 의미 정보이면, 상기 제1 참조 이미지는 상기 제2 비디오 통신 단말이 수신된 의미 정보에 따라 상기 설정 객체의 재구성 서브 이미지를 획득하고, 상기 재구성 서브 이미지를 상기 제1 참조 이미지와 융합하여, 상기 비디오 이미지의 재구성 이미지를 획득하도록 하기 위한 것인, 비디오 이미지 전송 방법.
제11항에 있어서,
상기 의미 정보가 전역 의미 정보이면, 상기 제1 참조 이미지는 상기 제2 비디오 통신 단말이 수신된 의미 정보에 따라 초기 재구성 이미지를 획득하고, 상기 초기 재구성 이미지를 상기 제1 참조 이미지와 융합하여, 상기 비디오 이미지의 재구성 이미지를 획득하도록 하기 위한 것인, 비디오 이미지 전송 방법.
제12항에 있어서,
상기 의미 정보가 설정 객체의 의미 정보이면, 상기 방법은,
상기 비디오 이미지 중 설정 객체의 위치 정보를 획득하는 단계; 및
상기 제2 비디오 통신 단말에 상기 위치 정보를 송신하는 단계를 더 포함하되, 상기 위치 정보는 상기 제2 비디오 통신 단말이 상기 위치 정보에 따라 상기 설정 객체의 재구성 서브 이미지를 상기 제1 참조 이미지와 융합하여, 상기 비디오 이미지의 재구성 이미지를 획득하도록 하기 위한 것인, 비디오 이미지 전송 방법.
제5항 내지 제14항 중 어느 한 항에 있어서,
제2 참조 이미지를 설정된 이미지 전송 모드를 사용하여 상기 제2 비디오 통신 단말에 송신하는 단계를 더 포함하되; 상기 설정된 이미지 전송 모드에서 전송된 상기 제2 참조 이미지의 데이터 양은 상기 의미 정보의 데이터 양보다 크고;
상기 제2 참조 이미지는 상기 설정 객체의 이미지, 상기 제1 비디오 통신 단말의 환경 이미지 중 적어도 하나이며; 상기 제2 참조 이미지는 상기 제2 비디오 통신 단말이 상기 의미 정보 및 상기 제2 참조 이미지에 따라 상기 비디오 이미지의 재구성 이미지를 재구성하도록 하기 위한 것인, 비디오 이미지 전송 방법.
비디오 이미지 전송 방법으로서,
비디오 이미지의 의미 정보를 수신하되, 상기 비디오 이미지는 제1 비디오 통신 단말에 의해 촬영된 비디오 이미지인 단계;
상기 의미 정보에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 단계; 및
상기 재구성 이미지를 제2 비디오 통신 단말의 디스플레이 스크린을 통해 디스플레이하는 단계를 포함하는, 비디오 이미지 전송 방법.
제16항에 있어서,
상기 의미 정보에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 상기 단계는,
상기 의미 정보 및 미리 트레이닝된 디코더에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 단계를 포함하는, 비디오 이미지 전송 방법.
제17항에 있어서,
상기 디코더의 입력은 이미지 의미 정보이고, 출력은 입력 의미 정보를 기반으로 재구성된 이미지인, 비디오 이미지 전송 방법.
제18항에 있어서,
상기 디코더는 콘볼루션 신경망인, 비디오 이미지 전송 방법.
제17항에 있어서,
상기 비디오 이미지의 의미 정보는,
상기 비디오 이미지의 설정 객체의 의미 정보; 및
상기 비디오 이미지의 전역 의미 정보 중 어느 하나를 포함하는, 비디오 이미지 전송 방법.
제20항에 있어서,
상기 설정 객체는 얼굴 또는 몸체를 포함하는, 비디오 이미지 전송 방법.
제21항에 있어서,
상기 의미 정보에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 단계는,
최근에 설정된 이미지 전송 모드를 통해 수신된 제1 참조 이미지를 획득하되, 상기 제1 참조 이미지는 상기 제1 비디오 통신 단말에 의해 송신되고 이에 의해 촬영된 비디오 이미지이고; 설정된 이미지 전송 모드를 통해 수신된 상기 제1 참조 이미지의 데이터 양은 상기 의미 정보의 데이터 양보다 큰 단계; 및
상기 의미 정보 및 상기 제1 참조 이미지에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 단계를 포함하는, 비디오 이미지 전송 방법.
제22항에 있어서,
N 프레임 간격마다 설정된 이미지 전송 모드를 통해 상기 제1 비디오 통신 단말로부터의 제1 참조 이미지를 수신하는 단계를 더 포함하되; N은 1보다 큰, 비디오 이미지 전송 방법.
제23항에 있어서,
상기 의미 정보가 설정 객체의 의미 정보이면, 상기 의미 정보 및 상기 제1 참조 이미지에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 단계는,
상기 의미 정보를 트레이닝된 디코더에 입력하는 단계;
상기 디코더의 출력을 획득하여, 상기 설정 객체의 재구성 서브 이미지를 획득하는 단계; 및
상기 설정 객체의 재구성 서브 이미지를 상기 제1 참조 이미지와 융합하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 단계를 포함하는, 비디오 이미지 전송 방법.
제23항에 있어서,
상기 의미 정보가 이미지의 전역 의미 정보이면, 상기 의미 정보 및 상기 제1 참조 이미지에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 단계는,
상기 의미 정보를 트레이닝된 디코더에 입력하는 단계;
상기 디코더의 출력을 획득하여, 초기 재구성 이미지를 획득하는 단계; 및
상기 초기 재구성 이미지를 상기 제1 참조 이미지와 융합하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 단계를 포함하는, 비디오 이미지 전송 방법.
제24항에 있어서,
상기 의미 정보가 얼굴 의미 정보이면, 상기 디코더의 출력을 획득하여, 얼굴의 재구성 서브 이미지를 획득하고;
상기 의미 정보가 몸체 의미 정보이면, 상기 디코더의 출력을 획득하여, 몸체의 재구성 서브 이미지를 획득하는, 비디오 이미지 전송 방법.
제24항에 있어서,
상기 제1 비디오 통신 단말에 의해 송신된 위치 정보를 수신하는 단계를 더 포함하되, 상기 위치 정보는 상기 비디오 이미지 중 상기 설정 객체의 위치 정보이고;
상기 설정 객체의 재구성 서브 이미지를 상기 제1 참조 이미지와 융합하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 상기 단계는,
상기 위치 정보에 따라 상기 설정 객체의 재구성 서브 이미지를 상기 제1 참조 이미지와 융합하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 단계를 포함하는, 비디오 이미지 전송 방법.
제27항에 있어서,
상기 제1 비디오 통신 단말에 의해 송신된 위치 정보를 수신하는 상기 단계는,
상기 제1 비디오 통신 단말에 의해 송신된 제1 위치 정보를 수신하되, 상기 제1 위치 정보는 상기 비디오 이미지 중 얼굴 영역의 위치 정보인 단계; 및
상기 제1 비디오 통신 단말에 의해 송신된 제2 위치 정보를 수신하되, 상기 제2 위치 정보는 상기 비디오 이미지 중 몸체 영역의 위치 정보인 단계를 포함하는, 비디오 이미지 전송 방법.
제27항에 있어서,
상기 위치 정보에 따라 상기 설정 객체의 재구성 서브 이미지를 상기 제1 참조 이미지와 융합하는 단계 이전에,
상기 설정 객체의 재구성 서브 이미지에 대해 에지 페더링 처리를 수행하는 단계를 더 포함하는, 비디오 이미지 전송 방법.
제21항 내지 제29항 중 어느 한 항에 있어서,
상기 의미 정보에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 단계는,
설정된 이미지 전송 모드를 통해 수신된 제2 참조 이미지를 획득하되, 상기 제2 참조 이미지는 설정 객체의 이미지, 상기 제1 비디오 통신 단말의 환경 이미지 중 적어도 하나이고, 설정된 이미지 전송 모드를 통해 수신된 상기 제2 참조 이미지의 데이터 양은 상기 의미 정보의 데이터 양보다 큰 단계; 및
상기 의미 정보 및 상기 제2 참조 이미지에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하는 단계를 포함하는, 비디오 이미지 전송 방법.
비디오 이미지 전송 방법으로서,
제1 비디오 통신 단말이 촬영된 비디오 이미지를 획득하고, 상기 비디오 이미지의 의미 정보를 획득하여, 상기 의미 정보를 제2 비디오 통신 단말에 송신하는 단계; 및
상기 제2 비디오 통신 단말이 상기 의미 정보를 수신하고, 상기 의미 정보에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하여, 상기 재구성 이미지를 제2 비디오 통신 단말의 디스플레이 스크린을 통해 디스플레이하는 단계를 포함하는, 비디오 이미지 전송 방법.
비디오 이미지 전송 장치로서,
제1 비디오 통신 단말에 의해 촬영된 비디오 이미지를 획득하도록 설치되는 이미지 획득 모듈;
상기 비디오 이미지의 의미 정보를 추출하도록 설치되는 정보 추출 모듈; 및
상기 의미 정보를 제2 비디오 통신 단말에 송신하도록 설치되는 송신 모듈을 포함하되, 상기 의미 정보는 상기 제2 비디오 통신 단말에서 상기 비디오 이미지의 재구성 이미지를 재구성하기 위한 것인, 비디오 이미지 전송 장치.
제32항에 있어서,
상기 정보 추출 모듈은, 트레이닝된 인코더를 통해 상기 비디오 이미지의 의미 정보를 추출하도록 설치되되; 상기 인코더는 이미지 의미 정보를 인식하도록 설정되는, 비디오 이미지 전송 장치.
제33항에 있어서,
상기 인코더의 입력은 이미지이고, 출력은 입력 이미지에 대응되는 저차원 벡터이며, 입력 이미지의 의미 정보로 사용되는, 비디오 이미지 전송 장치.
제33항에 있어서,
상기 비디오 이미지의 의미 정보는,
상기 비디오 이미지 중 설정 객체의 의미 정보; 및 상기 비디오 이미지의 전역 의미 정보 중 어느 하나를 포함하는, 비디오 이미지 전송 장치.
제35항에 있어서,
제1 참조 이미지를 N 프레임 간격마다 설정된 이미지 전송 모드를 사용하여 제2 비디오 통신 단말에 송신하도록 설치되는 제1 참조 이미지 송신 모듈을 더 포함하되; 설정된 이미지 전송 모드에서 전송된 상기 제1 참조 이미지의 데이터 양은 상기 의미 정보의 데이터 양보다 크고; N은 1보다 크며;
상기 제1 참조 이미지는 상기 제1 비디오 통신 단말에 의해 촬영된 비디오 이미지에 속하고; 상기 제1 참조 이미지는 상기 제2 비디오 통신 단말이 상기 의미 정보 및 상기 제1 참조 이미지에 따라 상기 비디오 이미지의 재구성 이미지를 재구성하도록 하기 위한 것인, 비디오 이미지 전송 장치.
제35항에 있어서,
제2 참조 이미지를 설정된 이미지 전송 모드를 사용하여 상기 제2 비디오 통신 단말에 송신하도록 설치되는 제2 참조 이미지 송신 모듈을 더 포함하되; 상기 설정된 이미지 전송 모드에서 전송된 상기 제2 참조 이미지의 데이터 양은 상기 의미 정보의 데이터 양보다 크고;
상기 제2 참조 이미지는 상기 설정 객체의 이미지, 상기 제1 비디오 통신 단말의 환경 이미지 중 적어도 하나이며; 상기 제2 참조 이미지는 상기 제2 비디오 통신 단말이 상기 의미 정보 및 상기 제2 참조 이미지에 따라 상기 비디오 이미지의 재구성 이미지를 재구성하도록 하기 위한 것인, 비디오 이미지 전송 장치.
비디오 이미지 전송 장치로서,
비디오 이미지의 의미 정보를 수신하도록 설치되되, 상기 비디오 이미지는 제1 비디오 통신 단말에 의해 촬영된 비디오 이미지인 정보 수신 모듈;
상기 의미 정보에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하도록 설치되는 이미지 재구성 모듈; 및
상기 재구성 이미지를 제2 비디오 통신 단말의 디스플레이 스크린을 통해 디스플레이하도록 설치되는 이미지 디스플레이 모듈을 포함하는, 비디오 이미지 전송 장치.
제38항에 있어서,
상기 이미지 재구성 모듈은, 상기 의미 정보 및 미리 트레이닝된 디코더에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하도록 설치되는, 비디오 이미지 전송 장치.
제39항에 있어서,
상기 비디오 이미지의 의미 정보는,
상기 비디오 이미지의 설정 객체의 의미 정보; 및
상기 비디오 이미지의 전역 의미 정보 중 어느 하나를 포함하는, 비디오 이미지 전송 장치.
제40항에 있어서,
상기 이미지 재구성 모듈은,
최근에 설정된 이미지 전송 모드를 통해 수신된 제1 참조 이미지를 획득하도록 설치되되, 상기 제1 참조 이미지는 상기 제1 비디오 통신 단말에 의해 송신되고 이에 의해 촬영된 비디오 이미지이고; 설정된 이미지 전송 모드를 통해 수신된 상기 제1 참조 이미지의 데이터 양은 상기 의미 정보의 데이터 양보다 큰 제1 참조 이미지 획득 서브 모듈; 및
상기 의미 정보 및 상기 제1 참조 이미지에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하도록 설치되는 제1 이미지 재구성 서브 모듈을 포함하는, 비디오 이미지 전송 장치.
제41항에 있어서,
상기 제1 비디오 통신 단말로부터의 제1 참조 이미지를 N 프레임 간격마다 설정된 이미지 전송 모드를 통해 수신하도록 설치되는 제1 참조 이미지 수신 서브 모듈을 더 포함하되; N은 1보다 큰, 비디오 이미지 전송 장치.
제40항에 있어서,
상기 이미지 재구성 모듈은,
설정된 이미지 전송 모드를 통해 수신된 제2 참조 이미지를 획득하도록 설치되되, 상기 제2 참조 이미지는 설정 객체의 이미지, 상기 제1 비디오 통신 단말의 환경 이미지 중 적어도 하나이고, 설정된 이미지 전송 모드를 통해 수신된 상기 제2 참조 이미지의 데이터 양은 N 프레임 간격마다 설정된 이미지 전송 모드를 통해 상기 의미 정보의 데이터 양보다 큰 제2 참조 이미지 획득 서브 모듈; 및
상기 의미 정보 및 상기 제2 참조 이미지에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하도록 설치되는 제2 이미지 재구성 서브 모듈을 포함하는, 비디오 이미지 전송 장치.
비디오 이미지 전송 시스템으로서,
제1 비디오 통신 단말 및 제2 비디오 통신 단말을 포함하고; 상기 제1 비디오 통신 단말과 제2 비디오 통신 단말 사이는 비디오 통신 연결되며;
상기 제1 비디오 통신 단말은, 촬영된 비디오 이미지를 획득하고, 상기 비디오 이미지의 의미 정보를 획득하여, 상기 의미 정보를 제2 비디오 통신 단말에 송신하도록 설치되고;
상기 제2 비디오 통신 단말은, 상기 의미 정보를 수신하며, 상기 의미 정보에 따라 이미지를 재구성하여, 상기 비디오 이미지의 재구성 이미지를 획득하여, 상기 재구성 이미지를 제2 비디오 통신 단말의 디스플레이 스크린을 통해 디스플레이하도록 설치되는, 비디오 이미지 전송 시스템.
인터랙티브 지능형 태블릿으로서,
촬영 장치, 디스플레이 스크린, 메모리 및 프로세서를 포함하고, 상기 메모리에는 컴퓨터 프로그램이 저장되며,
상기 인터랙티브 지능형 태블릿은 상기 촬영 장치를 통해 비디오 이미지를 촬영하고;
상기 프로세서는 상기 프로그램을 실행할 경우, 상기 촬영 장치에 의해 촬영된 비디오 이미지의 의미 정보를 추출하여, 다른 인터랙티브 지능형 태블릿에 상기 의미 정보를 송신하도록 설치되며;
상기 프로세서는 상기 프로그램을 실행할 경우, 또한 다른 인터랙티브 지능형 태블릿에 의해 송신된 비디오 이미지의 의미 정보를 수신하고, 상기 의미 정보에 따라 이미지를 재구성하여, 다른 인터랙티브 지능형 태블릿에 의해 송신된 비디오 이미지의 재구성 이미지를 획득하며, 상기 재구성 이미지를 상기 디스플레이 스크린을 통해 디스플레이하도록 설치되는, 인터랙티브 지능형 태블릿.
컴퓨터 판독 가능 저장 매체로서,
컴퓨터 프로그램을 저장하되, 상기 프로그램은 프로세서에 의해 실행될 경우 제1항 내지 제30항 중 어느 한 항에 따른 방법을 구현하는, 컴퓨터 판독 가능 저장 매체.