KR20220088227A - 멀티채널 비디오 스트림의 실시간 객체 인식 장치 - Google Patents

멀티채널 비디오 스트림의 실시간 객체 인식 장치 Download PDF

Info

Publication number
KR20220088227A
KR20220088227A KR1020200179054A KR20200179054A KR20220088227A KR 20220088227 A KR20220088227 A KR 20220088227A KR 1020200179054 A KR1020200179054 A KR 1020200179054A KR 20200179054 A KR20200179054 A KR 20200179054A KR 20220088227 A KR20220088227 A KR 20220088227A
Authority
KR
South Korea
Prior art keywords
object recognition
channel
frame
module
received
Prior art date
Application number
KR1020200179054A
Other languages
English (en)
Other versions
KR102505909B1 (ko
Inventor
황광일
이정훈
Original Assignee
인천대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인천대학교 산학협력단 filed Critical 인천대학교 산학협력단
Priority to KR1020200179054A priority Critical patent/KR102505909B1/ko
Publication of KR20220088227A publication Critical patent/KR20220088227A/ko
Application granted granted Critical
Publication of KR102505909B1 publication Critical patent/KR102505909B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/643Communication protocols
    • H04N21/6437Real-time Transport Protocol [RTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

멀티채널 비디오 스트림의 실시간 객체 인식 장치는 객체 인식 기능을 하나의 채널에서 동시에 다채널 객체 인식으로 확장하도록 채널당 객체 인식 인스턴스를 복수개 할당하고, 다중 객체 인식 인스턴스 간의 성능 모니터링을 통해 제한된 하드웨어 상에서 멀티 스레딩(Multi-Threading) 기반으로 여러 개가 동시에 객체 인식 서비스를 수행할 수 있다.

Description

멀티채널 비디오 스트림의 실시간 객체 인식 장치{Apparatus for Detecting Object Real Time of Multi Channel Video Stream}
본 발명은 객체 인식 장치에 관한 것으로서, 더욱 상세하게는 객체 인식 기능을 하나의 채널에서 동시에 다채널 객체 인식으로 확장하도록 채널당 객체 인식 인스턴스를 복수개 할당하고, 다중 객체 인식 인스턴스 간의 성능 모니터링을 통해 제한된 하드웨어 상에서 멀티 스레딩(Multi-Threading) 기반으로 여러 개의 스레드가 동시에 객체 인식 서비스를 수행하는 멀티채널 비디오 스트림의 실시간 객체 인식 장치에 관한 것이다.
80년대의 흑백 영상을 기반으로 한 CCTV를 시작으로 90년대의 저화질 영상의 자기 테이프 시대를 거쳐 2000년의 아날로그 CCTV의 영상을 디지털로 변환하여 디스크에 저장하는 DVR(Digital Video Recording)의 보급이 활성화 되었다.
이후에 2000년대 중반부터 IP 카메라의 보급과 함께 데이터 저장 및 모니터링을 위해 NVR이 주도적으로 사용되어 왔다.
이러한 DVR과 NVR(Network Video Recording)은 다수의 CCTV 입력을 받아서 한 화면에서 모니터링, 저장, Play Back을 가능하게 하는 기술로 최근에 대다수의 CCTV 사용 현장에서 사용되고 있다.
최근의 DVR과 NVR은 영상처리기술의 급격한 발전으로 인해 기본적인 기능을 넘어서 다양한 서비스를 결합하여 실시간 지능형 모니터링 시스템으로 진화하고 있다.
이러한 지능형 모니터링 시스템은 영상으로부터 화면(프레임) 내에 사람을 포함한 다양한 객체를 인식하는 것이다.
최근 컨볼루션 신경망 네트워크 기반의 딥 러닝 기술을 적용한 객체 인식 기술은 전통적인 객체 인식 기술과 비교하여 상당히 우월한 성능과 일반화를 보여줌으로써 객체 인식을 기반으로 하는 다양한 애플리케이션과 서비스의 개발을 가속화하고 있다.
특히, YOLO는 지속적인 버전 업그레이드를 통해 다른 객체 인식 기법들보다 정밀하고, 빠른 성능을 나타내며, 다양한 애플리케이션에서 객체 인식의 메인 스프트웨어로 활용되고 있다.
그럼에도 불구하고 YOLO의 성능을 제대로 발휘하기 위해서는 파워풀한 GPU를 가진 시스템이 필요하다.
그러나 현재 보급된 대다수의 DVR과 NVR은 GPU를 장착하고 있지 않기 때문에 YOLO와 같은 딥 러닝 기반의 객체 인식 소프트웨어를 직접 적용하는 것이 불가능하다.
DVR과 NVR은 복수 채널의 실시간 스트림을 처리해야 하기 때문에 멀티 채널의 스트림으로부터 실시간 객체 인식이 가능해야 한다.
기본적으로 YOLO는 단일 GPU에서 단일 채널 스트림에 대한 객체 인식을 위해 개발되었기 때문에 멀티 채널로 확장을 위해서 복수의 GPU를 장착해야 한다.
그러나 복수의 GPU를 장착하는 것은 하드웨어 구축 비용을 급격하게 상승시키는 문제가 발생하기 때문에 적절한 해결책이 될 수 없다.
한국 등록특허번호 제10-1921709호
이와 같은 문제점을 해결하기 위하여, 본 발명은 객체 인식 기능을 하나의 채널에서 동시에 다채널 객체 인식으로 확장하도록 채널당 객체 인식 인스턴스를 복수개 할당하고, 다중 객체 인식 인스턴스 간의 성능 모니터링을 통해 제한된 하드웨어 상에서 멀티 스레딩(Multi-Threading) 기반으로 여러 개의 스레드가 동시에 객체 인식 서비스를 수행하는 멀티채널 비디오 스트림의 실시간 객체 인식 장치를 제공하는데 그 목적이 있다.
상기 목적을 달성하기 위한 본 발명의 특징에 따른 멀티채널 비디오 스트림의 실시간 객체 인식 장치는,
영상 프레임을 저장하는 클라이언트로부터 요청을 받을 때마다 리얼 타임 객체 인식 모듈(Real-time Object Detection Module, RODEM) 베이스와 연동하여 새로운 채널마다 전용의 객체 인식 인스턴스를 각각 할당 및 관리하는 서버 액세스 매니저를 포함하며,
상기 객체 인식 인스턴스는 채널당 각각 할당되고, 상기 각각 할당된 객체 인식 인스턴스는 멀티 스레딩(Multi-Threading) 기반으로 여러 개가 동시에 객체 인식 서비스를 수행하며, 각각의 채널에 대한 영상 프레임을 실시간으로 수신받고, 상기 수신된 영상 프레임에 대한 객체 인식을 수행하여 객체 인식 결과를 생성하여 상기 클라이언트로 전송한다.
본 발명의 특징에 따른 멀티채널 비디오 스트림의 실시간 객체 인식 장치는,
영상 프레임을 저장하는 클라이언트로부터 요청을 받을 때마다 리얼 타임 객체 인식 모듈(Real-time Object Detection Module, RODEM) 베이스와 연동하여 새로운 채널마다 전용의 객체 인식 인스턴스를 각각 할당 및 관리하는 서버 액세스 매니저를 포함하고, 상기 RODEM 베이스는 상기 클라이언트로부터 수신한 영상 프레임에 대한 객체 인식을 수행하여 객체 인식 결과를 생성하여 상기 클라이언트로 전송하는 에이아이 모듈을 포함하며,
서버 액세스 매니저는 상기 클라이언트의 서비스 요청마다 상기 RODEM 베이스의 에이아이 모듈에 의해 채널당 상기 객체 인식 인스턴스를 각각 생성하고,
각각의 객체 인식 인스턴스는 각각의 채널에 연결되어 상기 각각의 채널로부터 수신된 제1 영상 프레임에 대한 객체 인식을 수행하여 제1 객체 인식 결과를 생성하여 상기 각각의 채널로 전송하는 제1 에이아이 모듈을 더 포함하여 멀티 스레딩(Multi-Threading) 기반으로 여러 개가 동시에 객체 인식 서비스를 수행한다.
RODEM 베이스는 특정 프로토콜을 이용한 특정 채널의 영상 프레임을 수신하는 프레임 수신 모듈과, 상기 프레임 수신 모듈로부터 수신되는 영상 프레임 레이트를 제어하는 프레임 어댑터 모듈과, 상기 수신한 영상 프레임에서 객체의 존재를 표시한 바운딩 박스 정보를 포함한 객체 인식 결과를 출력하는 에이아이 모듈과, 상기 객체 인식 결과의 바운딩 박스의 사이즈를 원본 영상 프레임의 이미지 사이즈에 맞는 사이즈의 바운딩 박스로 변환하는 이미지 스케일러과, 상기 이미지 스케일러로부터 수신한 해당 채널의 객체 인식 결과를 상기 클라이언트로 전송하는 채널당 네트워크 매니저를 포함한다.
서버 액세스 매니저는 상기 프레임 어댑터 모듈, 상기 프레임 어댑터 모듈, 상기 에이아이 모듈, 상기 이미지 스케일러, 상기 채널당 네트워크 매니저를 조합하여 각 채널에 대한 상기 객체 인식 인스턴스를 각각 생성할 수 있다.
전술한 구성에 의하여, 본 발명은 객체 인식 기능을 하나의 채널에서 동시에 다채널 객체 인식으로 확장하여 제한된 하드웨어 상에서 객체 인식 모듈의 병렬화가 가능함으로써 하드웨어 구축 비용을 크게 감소시킬 수 있는 효과가 있다.
본 발명은 복수 채널의 객체 인식 요청에도 성능 저하없이 YOLO 객체 인식 서비스가 가능한 효과가 있다.
도 1은 본 발명의 실시예에 따른 멀티채널 비디오 스트림의 실시간 객체 인식 시스템의 구성을 나타낸 도면이다.
도 2는 본 발명의 실시예에 따른 로뎀 베이스의 내부 구성을 간략하게 나타낸 블록도이다.
도 3은 본 발명의 실시예에 따른 새로운 객체 인식 인스턴스(RODEM Instance)을 생성하는 과정을 나타낸 도면이다.
도 4는 본 발명의 실시예에 따른 서버 액세스 매니저가 로뎀 베이스에 의해 새로운 객체 인식 인스턴스를 생성하는 과정을 나타낸 도면이다.
도 5는 본 발명의 실시예에 따른 RAVIP 서버에서 멀티 스레딩 기반으로 객체 인식 서비스를 수행하는 과정을 나타낸 도면이다.
도 6은 본 발명의 실시예에 따른 각각의 객체 인식 인스턴스에서 각각의 채널마다 생성하여 객체 인식 서비스를 수행하는 과정을 나타낸 도면이다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 발명은 멀티 채널의 비디오 스트림을 저장하는 DVR, NVR과 연동 가능한 단일 GPU를 가진 백엔드(Back End) 시스템에서의 실시간 멀티 채널의 객체 인식 프레임워크인 리얼 타임 AI 비젼 플랫폼(Real Time Artificial Intelligence Vision Platform, RAVIP) 서버를 제공한다.
리얼 타임 AI 비젼 플랫폼은 복수 채널의 비디오 스트림으로부터 실시간 객체 인식 서비스를 가능하게 하고, DVR, NVR과 같은 기존의 영상 스토리지 시스템과 연동할 수 있는 플렉스블한 로컬 백 엔드 서비스(Local Back End Service)를 제공한다.
리얼 타임 AI 비젼 플랫폼 서버는 다양한 타입의 카메라를 지원하여 다양한 응용에서 활용이 가능하다. 리얼 타임 AI 비젼 플랫폼 서버의 내부 소프트웨어는 완전히 모듈화된 구조로 설계되었으며, 로뎀(Real Time Object Detection Module, RODEM) 베이스(Base)의 적절한 컴포넌트의 구성을 통해 새로운 RODEM 인스턴스(Instance)의 생성을 용이하게 한다.
RODEM은 서버에 장착된 GPU의 성능에 의존하지만, 기본적으로 하드웨어에 독립적으로 설계되어 있기 때문에 전문적인 하드웨어 관련 구성없이 다양한 시스템에서 소프트웨어 설치만으로 실행이 가능하다.
리얼 타임 AI 비젼 플랫폼 서버는 동시에 복수 채널의 객체 인식이 가능하고, RTX2080 Ti GPU 환경에서 16채널의 동시 스트림에 대한 객체 인식을 15 내지 30fps에서 지원하며, RTP, RTSP 등의 다양한 스트림 프로토콜(Steaming Protocol)을 지원함으로써 다양한 비디오 소스를 입력으로 받아들일 수 있다.
도 1은 본 발명의 실시예에 따른 멀티채널 비디오 스트림의 실시간 객체 인식 시스템의 구성을 나타낸 도면이고, 도 2는 본 발명의 실시예에 따른 로뎀 베이스의 내부 구성을 간략하게 나타낸 블록도이다.
본 발명의 실시예에 따른 멀티채널 비디오 스트림의 실시간 객체 인식 시스템(100)은 DVR, NVR과 같은 기존의 영상 스토리지 장치(110) 및 리얼 타임 AI 비젼 플랫폼 서버(120)를 포함한다.
리얼 타임 AI 비젼 플랫폼(Real Time AI Vision Platform, 이하 'RAVIP'라 칭함) 서버(120)는 영상 스토리지 장치와 연동되는 백엔드 서버로서, 서버 액세스 매니저(Server Access Manager, SAM)(121)와 리얼 타임 객체 인식 모듈(Real-time Object Detection Module, RODEM) 베이스(122)를 포함한다. 여기서, 리얼 타임 객체 인식 모듈은 이하 '로뎀'이라 칭한다.
RAVIP 서버(120)는 기본적으로 DVR, NVR에서 해당 채널에 대한 객체 인식을 요청하여 객체 인식 서비스가 시작된다.
RAVIP 서버(120)는 하나의 GPU를 이용하여 16개 채널의 객체 인식 서비스의 동시 요청에도 성능 저하없이 YOLO 객체 인식 서비스가 가능한 효과가 있다.
RAVIP 서버(120)는 로뎀 베이스(122)의 적절한 컨포넌트들을 조합하여 각 채널에 대한 채널당 객체 인식 인스턴스(130)를 생성할 수 있다.
서버 액세스 매니저(121), RODEM 베이스(122) 및 객체 인식 인스턴스(130)는 소프트웨어일 수 있다.
생성된 객체 인식 인스턴스(130)는 각 채널의 객체 인식 서비스를 하는 동안 계속 유지되며, 실행되고, 클라이언트에서 해당 서비스 종료 요청이 오면, 해당 인스턴스(130)도 종료된다.
서버 액세스 매니저(121)는 클라이언트(DVR, NVR)의 요청을 받아 새로운 채널에 대한 전용의 객체 인식 인스턴스(130)를 생성 및 관리하는 기능을 수행한다.
RAVIP 서버(120)는 기본적으로 서버로서 대기 중이며, 클라이언트(110)로부터 서비스 요청 메시지를 수신하면, 해당 클라이언트(110)에 대한 인증을 수행하고, 인증이 완료될 경우, 로뎀 베이스(122)를 기반으로 새로운 객체 인식 인스턴스(130)를 생성한다.
생성된 객체 인식 인스턴스(130)는 해당 채널에 대한 영상 프레임을 실시간으로 수신받고, 수신된 영상 프레임에 대한 객체 인식을 수행하며, 인식된 각 객체에 대한 메타 데이터(객체 인식 결과)를 생성하여 클라이언트(110)로 실시간 전송한다.
새로운 객체 인식 인스턴스(130)는 클라이언트(110)의 요청에 의해 생성되고, 로뎀 베이스(122)를 기반으로 각 모듈을 조합하여 해당 객체 인식 서비스를 수행한다.
로뎀 베이스(122)는 프레임 수신 모듈(123), 프레임 어댑터 모듈(124), 에이아이(AI) 모듈(125), 이미지 스케일러(126) 및 채널당 네트워크 매니저(Per Channel Network Manager, PCMM)(127)를 포함한다.
서버 액세스 매니저(121)는 프레임 수신 모듈(123), 프레임 어댑터 모듈(124), 에이아이 모듈(125), 이미지 스케일러(126), 채널당 네트워크 매니저(127)를 조합하여 각 채널에 대한 객체 인식 인스턴스(130)를 각각 생성할 수 있다.
프레임 수신 모듈(123)은 RTP 프로토콜을 이용한 특정 채널의 영상 프레임을 수신하는 RTP 수신 모듈(123a)과 RTSP 프로토콜을 이용한 특정 채널의 영상 프레임을 수신하는 RTSP 수신 모듈(123b)을 포함한다.
RTP 수신 모듈(123a)은 아날로그 CCTV의 경우, 전용의 클라이언트(DVR, NVR)(110)의 영상 프레임을 RTP 프로토콜을 통해 수신한다.
RTSP 수신 모듈(123b)은 IP 카메라 입력의 경우, 스위치 허브를 통해 클라이언트(DVR, NVR)의 영상 프레임을 RTSP 프로토콜을 통해 수신한다.
프레임 어댑터 모듈(124)은 프레임 수신 모듈(123)로부터 수신되는 영상 프레임을 에이아이(AI) 모듈(125)로 전달하기 위해 영상 프레임 레이트(Rate)를 제어한다.
프레임 어댑터 모듈(124)은 프레임 수신 모듈(123)로부터 수신되는 영상 프레임이 에이아이 모듈(125)에서 처리되는 데이터 시간보다 높은 프레임 레이트로 영상 프레임이 수신될 경우, 에이아이 모듈(125)에서 처리가 가능하도록 프레임 큐(Queue)를 제거(Drop)하는 기능을 수행한다. 여기서, 프레임 레이트는 1초당 재생되는 프레임 수인 프레임 속도를 나타낸다.
에이아이 모듈(125)은 각종 객체 인식, 얼굴 인식 등의 서비스를 선택적으로 사용할 수 있다.
에이아이 모듈(125)은 기본적으로 YOLOv3, ResNet16을 선택할 수 있고, 안면 인식으로 Facenet을 사용할 수 있다.
에이아이 모듈(125)은 영상 프레임에서 객체가 존재할 것으로 추정되는 영역을 추출하고, 추출된 영역으로부터 특징을 나타내는 특징맵을 추출한다.
에이아이 모듈(125)은 추출한 특징맵을 기초로 영상 프레임에서 객체의 존재가 추정되는 적어도 하나의 영역을 추출한다.
에이아이 모듈(125)은 특징맵 중에서 영상 프레임의 영역별 클래스의 좌표를 포함하는 특징맵을 선정하고, 선정된 특징맵으로부터 영역을 구별하는 좌표를 식별한 뒤, 식별된 좌표를 객체의 존재가 추정되는 영역으로 추출할 수 있다.
에이아이 모듈(125)은 물건, 사람, 동물 등 다양한 객체를 하나 이상으로 설정할 수 있다.
에이아이 모듈(125)은 추출된 적어도 하나의 영역 각각에 대해서, 해당 객체의 최외곽을 둘러싸는 바운딩 박스(Bounding Box)로서 표시할 수 있다.
각각의 바운딩 박스는 영상에서 해당 바운딩 박스의 위치에 객체의 존재 가능성이 있음을 나타낸다.
에이아이 모듈(125)은 영상 정보를 나타내는 영상 프레임을 입력으로 받아 해당 영상 프레임 내에서 객체의 위치 좌표((X1, Y1), (X2, Y2))를 바운딩 박스로 한 객체 인식 결과를 출력한다.
에이아이 모듈(125)은 프레임 어댑터 모듈(124)로부터 수신한 영상 프레임에서 객체 인식 알고리즘을 통해 객체 인식 결과를 생성하여 이미지 스케일러(126)로 전송한다.
이미지 스케일러(126)는 객체 인식 결과의 바운딩 박스의 사이즈를 원본 영상 프레임의 이미지 사이즈에 맞는 사이즈의 바운딩 박스로 변환한다.
채널당 네트워크 매니저(127)는 이미지 스케일러(126)로부터 수신한 해당 채널의 객체 인식 결과를 클라이언트(110)로 전송한다.
채널당 네트워크 매니저(127)는 서버 액세스 매니저(121)에서 새로운 채널에 대한 새로운 로뎀 인스턴스(130)에 의해 생성된 제어 채널을 관리한다.
도 3은 본 발명의 실시예에 따른 새로운 객체 인식 인스턴스(RODEM Instance)을 생성하는 과정을 나타낸 도면이고, 도 4는 본 발명의 실시예에 따른 서버 액세스 매니저가 로뎀 베이스에 의해 새로운 객체 인식 인스턴스를 생성하는 과정을 나타낸 도면이다.
새로운 객체 인식 인스턴스(130)는 제1 프레임 수신 모듈(131), 제1 프레임 어댑터 모듈(132), 제1 에이아이 모듈(133), 제1 이미지 스케일러(134), 제1 채널당 네트워크 매니저(135)를 포함한다.
서버 액세스 매니저(121)는 클라이언트(110)로부터 서비스 요청 메시지를 수신하면(S100), 해당 클라이언트(110)에 대한 인증을 수행하고(S101), 인증이 완료될 경우(S102), 로뎀 베이스(122)를 이용하여 채널당 새로운 객체 인식 인스턴스(130)를 생성한다(S103).
서버 액세스 매니저(121)는 클라이언트(110)로부터 수신한 서비스 요청 메시지를 분석하여 해당 비디오 전송 프로토콜이 RTP 또는 RTSP 여부를 판단하고, 로뎀 베이스(122)의 프레임 수신 모듈(123)에 의해 해당 채널의 영상 프레임을 실시간으로 수신하는 제1 프레임 수신 모듈(131)을 생성한다.
새로운 객체 인식 인스턴스(130)의 제1 프레임 수신 모듈(131)은 해당 RTP 또는 RTSP의 주소 정보를 통해 실시간으로 영상 프레임을 수신한다.
서버 액세스 매니저(121)는 로뎀 베이스(122)의 프레임 어댑터 모듈(124)에 의해 제1 프레임 수신 모듈(131)로부터 수신되는 영상 프레임 레이트를 제어하는 제1 프레임 어댑터 모듈(132)을 생성한다.
제1 프레임 어댑터 모듈(132)은 수신한 영상 프레임을 제1 에이아이 모듈(133)로 한 프레임씩 처리할 수 있도록 전송한다.
제1 프레임 어댑터 모듈(132)은 제1 에이아이 모듈(133)의 실행 시간을 피드백받고, 수신되는 프레임 큐의 아웃풋 레이트(Output Rate)를 조절하여 제1 에이아이 모듈(133)에 의한 지연이 누적되지 않도록 한다.
제1 프레임 어댑터 모듈(132)은 수신한 영상 프레임을 제1 에이아이 모듈(133)로 한 프레임씩 처리할 수 있도록 전송한다.
제1 프레임 어댑터 모듈(132)은 제1 에이아이 모듈(133)의 실행 시간을 피드백받고, 수신되는 프레임 큐의 아웃풋 레이트(Output Rate)를 조절하여 제1 에이아이 모듈(133)에 의한 지연이 누적되지 않도록 한다.
서버 액세스 매니저(121)는 로뎀 베이스(122)의 에이아이 모듈(125)에 의해 제1 프레임 어댑터 모듈(132)로부터 수신한 영상 프레임에서 객체의 존재를 표시한 바운딩 박스 정보를 포함한 객체 인식 결과를 출력하는 제1 에이아이 모듈(133)을 생성한다.
서버 액세스 매니저(121)는 로뎀 베이스(122)의 이미지 스케일러(126)에 의해 제1 에이아이 모듈(133)에서 수신된 객체 인식 결과의 바운딩 박스의 사이즈를 원본 영상 프레임의 이미지 사이즈에 맞는 사이즈의 바운딩 박스로 변환하는 제1 이미지 스케일러(134)를 생성한다.
서버 액세스 매니저(121)는 로뎀 베이스(122)의 채널당 네트워크 매니저(127)에 의해 제1 이미지 스케일러(134)로부터 수신한 해당 채널의 객체 인식 결과를 클라이언트(110)로 전송하는 제1 채널당 네트워크 매니저(135)를 생성한다.
제1 채널당 네트워크 매니저(135)는 채널당 인스턴스(130) 생성 시 클라이언트(110)와의 링크를 연결한다.
도 5는 본 발명의 실시예에 따른 RAVIP 서버에서 멀티 스레딩 기반으로 객체 인식 서비스를 수행하는 과정을 나타낸 도면이고, 도 6은 본 발명의 실시예에 따른 각각의 객체 인식 인스턴스에서 각각의 채널마다 생성하여 객체 인식 서비스를 수행하는 과정을 나타낸 도면이다.
클라이언트(110)에서는 같은 채널에 대한 영상 프레임에서 바운딩 박스 결과를 활용하여 BACK-END 서비스에 의한 객체 인식을 수행할 수 있다.
RAVIP 서버(120)는 기본적으로 GPU가 장착된 서버에서 동작한다. 대다수의 병렬 프로세싱과 같이, 로우 레벨의 GPU 리소스 할당을 수행하지 않는다.
RAVIP 서버(120)는 여러 개의 스레드가 동시에 작동하는 멀티태스킹 모델인 멀티 스레딩(Multi-Threading) 기반으로 각 채널당 리얼 타임 객체 인식 인스턴스(130)를 할당한다.
각각의 객체 인식 인스턴스는 각각의 채널에서 할당되고, 각 제1 에이아이 모듈(133)의 실시간 처리 시간을 모니터링하고, 이에 대한 영상 프레임 레이트를 조절하여 전반적으로 복수의 채널을 위한 복수의 제1 에이아이 모듈(133)이 객체 인식 서비스를 동시에 수행되면서 통합적으로 최적의 성능을 낼 수 있다.
각각의 객체 인식 인스턴스는 실시간 성능 피드백 기반의 GPU 리소스 이용과 메모리와 CPU 리소스를 효율적으로 분배하여 사용이 가능하다.
이러한 상위 레벨의 리소스 이용 방법은 서버의 하드웨어에 비종속적으로 동작되기 때문에 서버의 하드웨어의 증설 등에 의해 RAVIP 서버(120)의 성능을 더욱 향상시킬 수 있다.
도 6에 도시된 바와 같이, 먼저, 클라이언트(110)는 서비스를 받을 채널에 대한 서비스 요청 메시지를 RAVIP 서버(120)로 전송한다. 이에 대한 서버 액세스 매니저(121)는 인증을 수행한 후, 서비스 형식(RTP, RTSP)을 기반으로 로뎀 베이스(122)로부터 새로운 객체 인식 인스턴스(130)를 생성한다.
RAVIP 서버(120)는 새로운 객체 인식 인스턴스(130)에 대한 정보(New Socket)를 클라이언트(110)로 응답한다.
클라이언트(110)는 해당 채널의 객체 인식 서비스를 받기 위해 인스턴스 연결 요청(Instance Connection Request)을 전송하여 해당 객체 인식 인스턴스(130)와 백채널(Back Channel)의 연결을 수행한다.
해당 채널의 객체 인식 인스턴스(130)에서는 실시간 비디오 스트리밍을 수신받고, 이를 실시간으로 제1 에이아이 모듈(133)에서 분석한 후, 해당 결과(객체 종류, 바운딩 박스 정보)를 백채널을 통해 클라이언트(110)로 실시간으로 리포트(Report)한다.
클라이언트(110)는 해당 결과를 바탕으로 객체 인식 결과를 디스플레이하고, 저장한다. 이러한 객체 인식 서비스는 서버 액세스 매니저(121)를 통해 실행 중 언제라도 새로운 채널에 대한 서비스 요청과 해지가 가능하다.
각각의 객체 인식 인스턴스(130)는 각각의 채널마다 1개씩 실행이 되고, 순차적으로 생성되더라도 동시에 병렬적으로 실행이 된다.
이상에서 본 발명의 실시예는 장치 및/또는 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하기 위한 프로그램, 그 프로그램이 기록된 기록 매체 등을 통해 구현될 수도 있으며, 이러한 구현은 앞서 설명한 실시예의 기재로부터 본 발명이 속하는 기술분야의 전문가라면 쉽게 구현할 수 있는 것이다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
100: 객체 인식 시스템
110: 영상 스토리지 장치, 클라이언트
120: 리얼 타임 AI 비젼 플랫폼 서버, RAVIP 서버
121: 서버 액세스 매니저
122: 로뎀 베이스
123: 프레임 수신 모듈
124: 프레임 어댑터 모듈
125: 에이아이 모듈
126: 이미지 스케일러
127: PCMM
130: 객체 인식 인스턴스
131: 제1 프레임 수신 모듈
132: 제1 프레임 어댑터 모듈
133: 제1 에이아이 모듈
134: 제1 이미지 스케일러
135: 제1 채널당 네트워크 매니저

Claims (11)

  1. 영상 프레임을 저장하는 클라이언트로부터 요청을 받을 때마다 리얼 타임 객체 인식 모듈(Real-time Object Detection Module, RODEM) 베이스와 연동하여 새로운 채널마다 전용의 객체 인식 인스턴스를 각각 할당 및 관리하는 서버 액세스 매니저를 포함하며,
    상기 객체 인식 인스턴스는 채널당 각각 할당되고, 상기 각각 할당된 객체 인식 인스턴스는 멀티 스레딩(Multi-Threading) 기반으로 여러 개가 동시에 객체 인식 서비스를 수행하며, 각각의 채널에 대한 영상 프레임을 실시간으로 수신받고, 상기 수신된 영상 프레임에 대한 객체 인식을 수행하여 객체 인식 결과를 생성하여 상기 클라이언트로 전송하는 멀티채널 비디오 스트림의 실시간 객체 인식 장치.
  2. 청구항 1에 있어서,
    상기 RODEM 베이스는 특정 프로토콜을 이용한 특정 채널의 영상 프레임을 수신하는 프레임 수신 모듈과, 상기 프레임 수신 모듈로부터 수신되는 영상 프레임 레이트를 제어하는 프레임 어댑터 모듈과, 상기 수신한 영상 프레임에서 객체의 존재를 표시한 바운딩 박스 정보를 포함한 객체 인식 결과를 출력하는 에이아이 모듈과, 상기 객체 인식 결과의 바운딩 박스의 사이즈를 원본 영상 프레임의 이미지 사이즈에 맞는 사이즈의 바운딩 박스로 변환하는 이미지 스케일러과, 상기 이미지 스케일러로부터 수신한 해당 채널의 객체 인식 결과를 상기 클라이언트로 전송하는 채널당 네트워크 매니저를 포함하는 멀티채널 비디오 스트림의 실시간 객체 인식 장치.
  3. 청구항 2에 있어서,
    상기 프레임 수신 모듈은 아날로그 CCTV의 경우, 상기 클라이언트의 영상 프레임을 RTP 프로토콜을 이용한 특정 채널의 영상 프레임을 수신하는 RTP 수신 모듈과, IP 카메라 입력의 경우, 스위치 허브를 통해 상기 클라이언트의 영상 프레임을 RTSP 프로토콜을 이용한 특정 채널의 영상 프레임을 수신하는 RTSP 수신 모듈을 포함하는 멀티채널 비디오 스트림의 실시간 객체 인식 장치.
  4. 청구항 2에 있어서,
    상기 프레임 어댑터 모듈은 상기 프레임 수신 모듈로부터 수신되는 영상 프레임이 상기 에이아이 모듈에서 처리되는 데이터 시간보다 높은 프레임 레이트로 영상 프레임이 수신될 경우, 상기 에이아이 모듈에서 처리가 가능하도록 프레임 큐(Queue)를 제거(Drop)하는 기능을 수행하는 멀티채널 비디오 스트림의 실시간 객체 인식 장치.
  5. 청구항 2에 있어서,
    상기 각각 할당된 객체 인식 인스턴스는 상기 클라이언트로부터 서비스 요청 메시지를 수신하는 경우, 상기 수신한 서비스 요청 메시지를 분석하여 해당 비디오 전송 프로토콜이 RTP 또는 RTSP 여부를 판단하고, 상기 RODEM 베이스의 프레임 수신 모듈에 의해 해당 채널의 영상 프레임을 실시간으로 수신하는 제1 프레임 수신 모듈을 생성하는 멀티채널 비디오 스트림의 실시간 객체 인식 장치.
  6. 청구항 5에 있어서,
    상기 각각 할당된 객체 인식 인스턴스는 상기 RODEM 베이스의 프레임 어댑터 모듈에 의해 제1 프레임 수신 모듈로부터 수신되는 영상 프레임 레이트를 제어하는 제1 프레임 어댑터 모듈을 생성하는 멀티채널 비디오 스트림의 실시간 객체 인식 장치.
  7. 청구항 6에 있어서,
    상기 각각 할당된 객체 인식 인스턴스는 상기 RODEM 베이스의 에이아이 모듈에 의해 상기 제1 프레임 어댑터 모듈로부터 수신한 영상 프레임에서 객체의 존재를 표시한 바운딩 박스 정보를 포함한 객체 인식 결과를 출력하는 제1 에이아이 모듈을 생성하는 멀티채널 비디오 스트림의 실시간 객체 인식 장치.
  8. 청구항 7에 있어서,
    상기 각각 할당된 객체 인식 인스턴스는 상기 RODEM 베이스의 이미지 스케일러에 의해 상기 제1 에이아이 모듈에서 수신된 객체 인식 결과의 바운딩 박스의 사이즈를 원본 영상 프레임의 이미지 사이즈에 맞는 사이즈의 바운딩 박스로 변환하는 제1 이미지 스케일러를 생성하며,
    상기 RODEM 베이스의 이미지 스케일러에 의해 채널당 네트워크 매니저에 의해 상기 제1 이미지 스케일러로부터 수신한 해당 채널의 객체 인식 결과를 상기 클라이언트로 전송하는 제1 채널당 네트워크 매니저를 생성하는 멀티채널 비디오 스트림의 실시간 객체 인식 장치.
  9. 영상 프레임을 저장하는 클라이언트로부터 요청을 받을 때마다 리얼 타임 객체 인식 모듈(Real-time Object Detection Module, RODEM) 베이스와 연동하여 새로운 채널마다 전용의 객체 인식 인스턴스를 각각 할당 및 관리하는 서버 액세스 매니저를 포함하고, 상기 RODEM 베이스는 상기 클라이언트로부터 수신한 영상 프레임에 대한 객체 인식을 수행하여 객체 인식 결과를 생성하여 상기 클라이언트로 전송하는 에이아이 모듈을 포함하며,
    상기 서버 액세스 매니저는 상기 클라이언트의 서비스 요청마다 상기 RODEM 베이스의 에이아이 모듈에 의해 채널당 상기 객체 인식 인스턴스를 각각 생성하고,
    상기 각각의 객체 인식 인스턴스는 각각의 채널에 연결되어 상기 각각의 채널로부터 수신된 제1 영상 프레임에 대한 객체 인식을 수행하여 제1 객체 인식 결과를 생성하여 상기 각각의 채널로 전송하는 제1 에이아이 모듈을 더 포함하여 멀티 스레딩(Multi-Threading) 기반으로 여러 개가 동시에 객체 인식 서비스를 수행하는 멀티채널 비디오 스트림의 실시간 객체 인식 장치.
  10. 청구항 9에 있어서,
    상기 RODEM 베이스는 특정 프로토콜을 이용한 특정 채널의 영상 프레임을 수신하는 프레임 수신 모듈과, 상기 프레임 수신 모듈로부터 수신되는 영상 프레임 레이트를 제어하는 프레임 어댑터 모듈과, 상기 수신한 영상 프레임에서 객체의 존재를 표시한 바운딩 박스 정보를 포함한 객체 인식 결과를 출력하는 에이아이 모듈과, 상기 객체 인식 결과의 바운딩 박스의 사이즈를 원본 영상 프레임의 이미지 사이즈에 맞는 사이즈의 바운딩 박스로 변환하는 이미지 스케일러과, 상기 이미지 스케일러로부터 수신한 해당 채널의 객체 인식 결과를 상기 클라이언트로 전송하는 채널당 네트워크 매니저를 포함하는 멀티채널 비디오 스트림의 실시간 객체 인식 장치.
  11. 청구항 2 또는 청구항 10에 있어서,
    상기 서버 액세스 매니저는 상기 프레임 수신 모듈, 상기 프레임 어댑터 모듈, 상기 에이아이 모듈, 상기 이미지 스케일러, 상기 채널당 네트워크 매니저를 조합하여 각 채널에 대한 상기 객체 인식 인스턴스를 각각 생성하는 멀티채널 비디오 스트림의 실시간 객체 인식 장치.
KR1020200179054A 2020-12-18 2020-12-18 멀티채널 비디오 스트림의 실시간 객체 인식 장치 KR102505909B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200179054A KR102505909B1 (ko) 2020-12-18 2020-12-18 멀티채널 비디오 스트림의 실시간 객체 인식 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200179054A KR102505909B1 (ko) 2020-12-18 2020-12-18 멀티채널 비디오 스트림의 실시간 객체 인식 장치

Publications (2)

Publication Number Publication Date
KR20220088227A true KR20220088227A (ko) 2022-06-27
KR102505909B1 KR102505909B1 (ko) 2023-03-06

Family

ID=82246866

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200179054A KR102505909B1 (ko) 2020-12-18 2020-12-18 멀티채널 비디오 스트림의 실시간 객체 인식 장치

Country Status (1)

Country Link
KR (1) KR102505909B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117294903A (zh) * 2023-10-25 2023-12-26 深蓝(深圳)感知科技有限公司 一种多路视频流关键帧标记及推流方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101921709B1 (ko) 2016-12-29 2018-11-26 모젼스랩 (주) 멀티 카메라 유닛을 이용한 객체 인식 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101921709B1 (ko) 2016-12-29 2018-11-26 모젼스랩 (주) 멀티 카메라 유닛을 이용한 객체 인식 시스템

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
W. Huang et al., 'A novel deep multi-channel residual networks-based metric learning method for moving human localization in video surveillance,' Signal Processing 142 (2018) 104-113 (2017.07.18.) *
X. Wang ‘An Efficient End-to-End Object Detection Pipeline on GPU Using CUDA,’ Master’s thesis, Department of Mathematics and Computer Science, Eindhoven University of Technology, Eindhoven, The Netherlands, 2019 (2019.04.17.) 1부.* *
박장식 외2인 공저,‘보안 감시를 위한 심층학습 기반 다채널 영상 분석,’한국전자통신학회 논문지 13(06) pp.1263-1268, 2018 (2018.) 1부.* *
신태현 외6인 공저, 'Multi-Channel DVR System Design by Using Multiple Threads,' 대한전자공학회 학술대회, 391-394 (2005.5) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117294903A (zh) * 2023-10-25 2023-12-26 深蓝(深圳)感知科技有限公司 一种多路视频流关键帧标记及推流方法

Also Published As

Publication number Publication date
KR102505909B1 (ko) 2023-03-06

Similar Documents

Publication Publication Date Title
US6864901B2 (en) Real-time screen recording system
EP3244621B1 (en) Video encoding method, system and server
US20070024706A1 (en) Systems and methods for providing high-resolution regions-of-interest
EP2724343B1 (en) Video remixing system
CN105827633A (zh) 一种视频传输方法及装置
JP7251791B2 (ja) データ・ストリーム変更を制御するシステムおよび方法
CN113347477B (zh) 一种多应用共享摄像头的方法、装置和系统
US10530990B2 (en) Method for controlling a video-surveillance and corresponding video-surveillance system
US20110255590A1 (en) Data transmission apparatus and method, network data transmission system and method using the same
CN110149518A (zh) 媒体数据的处理方法、系统、装置、设备以及存储介质
KR102505909B1 (ko) 멀티채널 비디오 스트림의 실시간 객체 인식 장치
CN108989833B (zh) 一种视频封面图像的生成方法及装置
CN109698850B (zh) 处理方法和系统
CN107580228B (zh) 一种监控视频处理方法、装置及设备
US7916955B2 (en) Image processing apparatus and control method therefor
CN110830763A (zh) 一种监控视频巡检方法及装置
US11463656B1 (en) System and method for received video performance optimizations during a video conference session
CN113316022B (zh) 视频播放方法、装置、设备、系统和存储介质
WO2016152551A1 (ja) 伝送装置および伝送方法、受信装置および受信方法、伝送システム、並びにプログラム
US11451770B2 (en) System and method for video performance optimizations during a video conference session
Lee et al. RAVIP: real-time AI vision platform for heterogeneous multi-channel video stream
CN111836020B (zh) 监控系统中的码流传输方法、装置及存储介质
CN110381022B (zh) 一种应用于视联网的数据获取方法及系统
CN113326075A (zh) 一种多应用前台运行的方法、装置和系统
KR102588729B1 (ko) 하이브리드 인공지능 영상분석 시스템

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant