KR20210115842A - Moving object and operation method with artificial intelligence vision processing and user tracking - Google Patents

Moving object and operation method with artificial intelligence vision processing and user tracking Download PDF

Info

Publication number
KR20210115842A
KR20210115842A KR1020200032193A KR20200032193A KR20210115842A KR 20210115842 A KR20210115842 A KR 20210115842A KR 1020200032193 A KR1020200032193 A KR 1020200032193A KR 20200032193 A KR20200032193 A KR 20200032193A KR 20210115842 A KR20210115842 A KR 20210115842A
Authority
KR
South Korea
Prior art keywords
user
moving object
image
artificial intelligence
camera
Prior art date
Application number
KR1020200032193A
Other languages
Korean (ko)
Inventor
이영우
홍주표
이광배
Original Assignee
이영우
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이영우 filed Critical 이영우
Priority to KR1020200032193A priority Critical patent/KR20210115842A/en
Publication of KR20210115842A publication Critical patent/KR20210115842A/en

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0253Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting relative motion information from a plurality of images taken successively, e.g. visual odometry, optical flow
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S15/00Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems
    • G01S15/02Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems using reflection of acoustic waves
    • G01S15/06Systems determining the position data of a target
    • G01S15/08Systems for measuring distance only
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/02Systems using the reflection of electromagnetic waves other than radio waves
    • G01S17/06Systems determining position data of a target
    • G01S17/08Systems determining position data of a target for measuring distance only
    • G06K9/00221
    • G06K9/4614
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/446Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering using Haar-like filters, e.g. using integral image techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/58Means for changing the camera field of view without moving the camera body, e.g. nutating or panning of optics or image sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/69Control of means for changing angle of the field of view, e.g. optical zoom objectives or electronic zooming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/695Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
    • H04N5/2259
    • H04N5/23296
    • H04N5/23299
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2213/00Details of stereoscopic systems
    • H04N2213/001Constructional or mechanical details

Abstract

The present invention relates to a method for operating a moving object that follows a person using an artificial intelligence image processing. Described is an operating method of a camera and a moving object that recognizes a user from an optical camera image frame, and follows the user after extracting the data. Specifically, the present invention relates to a technology that allows a mobile device equipped with an artificial intelligence algorithm to continuously monitor the user, and allows the user to continuously exchange without missing out by operating in real-time in response to a movement of the user.

Description

인공지능 영상처리로 사용자를 인식하고 추종하는 이동체 장치 및 동작방법 {Moving object and operation method with artificial intelligence vision processing and user tracking}{Moving object and operation method with artificial intelligence vision processing and user tracking}

본 발명은 인공지능 영상처리를 사용해서 광학 카메라 영상에서 사용자를 추종하는 카메라 및 이동체의 움직임을 제어하는 방법에 관한 것이다. 상세하게는 인공지능 알고리즘을 장착한 이동체 장치가 사용자를 지속적으로 하면서 사용자를 놓치지 않게 유지하는 기술에 관한 것이다.The present invention relates to a method of controlling the movement of a camera and a moving object that follows a user in an optical camera image using artificial intelligence image processing. In more detail, it relates to a technology in which a mobile device equipped with an artificial intelligence algorithm maintains the user while not missing the user.

인공지능을 갖춘 가전기기들이 나타나면서 사람들과 상호작용하는 부분이 늘어나고 있다. 이러한 장치들은 사용자의 수고를 덜고 생활을 편리하게 해주면서 더욱 인기를 얻고 있다. 최근에는 인공지능을 장착한 로봇기술의 발달로 스스로 요리하는 로봇이나 시중드는 로봇들이 보도되기도 한다. 이렇게 사용자들의 주변에서 인공지능을 보유하면서 이동하거나 동작하는 기기들이 늘어나면서 보다 지속적으로 모니터링 하면서 상호작용을 원한는 수요들도 나타나고 있다. As home appliances with artificial intelligence appear, the part that interacts with people is increasing. These devices are becoming more popular as they reduce the user's trouble and make life easier. Recently, with the development of robot technology equipped with artificial intelligence, there are reports of robots that cook themselves or robots that serve them. As the number of devices that move or operate while possessing artificial intelligence around users increases, there is also a demand for more continuous monitoring and interaction.

이동형 기기와 사용자들의 상호작용을 위해서는 기기들도 사람처럼 상대를 인식하고 대응할 수 있는 기능이 필요하다. IT 기술이 발달하면서 전자기기의 성능은 개선되고 부피는 비교할 수 없을 만큼 작아지고 있다. 영상처리 분야에서도 예전에는 매우 크고 고성능 시스템에서만 가능했던 인공지능 기능들을 현재는 수 십분의 일로 작은 크기의 기기에서 구현 할 수 있게 되었다. In order to interact with mobile devices and users, devices need a function that can recognize and respond to others just like humans. With the development of IT technology, the performance of electronic devices is improving and the volume is becoming incomparably smaller. In the field of image processing, artificial intelligence functions that were previously only possible in very large and high-performance systems can now be implemented in a device with a size of a few tenths.

이전에는 인공지능 영상처리를 위해서 고성능 처리장치를 사용하거나 유무선 네트워크로 영상 데이터를 전송 후 영상처리를 하고, 다시 네트워크로 결과를 받는 경우가 많았다. 그러나 최근에는 기술적 개선을 바탕으로 소형의 이동형 기기 자체로 인공지능 영상처리가 가능해졌고 이를 이용한 제품들이 실생활에 도입되거나 준비중에 있다.In the past, there were many cases in which high-performance processing devices were used for artificial intelligence image processing, or image data was transmitted over a wired or wireless network, then image processing was performed, and the results were received again through the network. However, recently, based on technological improvement, AI image processing has become possible with a small mobile device itself, and products using it have been introduced or are being prepared in real life.

본 발명의 목적은 기기에 내재한 인공지능 영상처리 S/W를 사용해서 광학 카메라 영상으로부터 사용자를 인식하고 사용자의 위치를 추출해서 사용자를 추종하는 카메라 및 이동체 기기의 움직임을 실시간으로 제어하는 방법을 제공함에 있다. An object of the present invention is to recognize a user from an optical camera image using artificial intelligence image processing S/W embedded in the device, extract the user's location, and control the movement of a camera and a mobile device that follows the user in real time. is in providing.

사용자의 움직임에 실시간으로 대응함으로써 사용자를 놓침으로 해서 발생하는 오동작을 억제하고, 사용자와 안정적인 상호작용을 할 수 있는 기반을 마련한다. By responding to the user's movement in real time, it suppresses malfunctions caused by missing the user and lays the foundation for stable interaction with the user.

본 발명을 실시하기 위해서는 동영상 녹화가 가능한 카메라 모듈을 구비한다. 카메라 모듈은 영상 프레임(frame) 데이터를 연속해서 생성한다. 성능 면에서 해상도(resolution), 프레임 속도(frame rate, frame per second, FPS), 시야각(field of view, FOV) 등을 고려할 수 있다. 실시간 영상을 사용해야 하므로 프레임 속도 5 이상, 바람직하게는 30 이상의 FPS가 요구된다. 또한, 카메라 모듈은 어두운 환경에서 사용하기 위한 추가 조명을 구비할 수 있다.In order to carry out the present invention, a camera module capable of recording video is provided. The camera module continuously generates image frame data. In terms of performance, resolution, frame rate (frame per second, FPS), field of view (FOV), etc. may be considered. Since real-time video must be used, a frame rate of 5 or higher, preferably 30 or higher, is required. Additionally, the camera module may have additional lighting for use in dark environments.

카메라가 사용자를 상하방향으로 추종하기 위해서는 서보모터나 스탭모터처럼 일정 단위로 카메라 모듈을 상하방향으로 회전시키는 기구를 구비한다. 회전 각도 단위는 최대 1도, 바람직하게는 0.5도 이하의 단위로 상하방향 각도를 조절할 수 있는 성능을 갖춘다. In order for the camera to follow the user in the vertical direction, a mechanism for rotating the camera module in the vertical direction in a predetermined unit is provided, such as a servo motor or a step motor. The rotation angle unit has the ability to adjust the vertical angle in units of up to 1 degree, preferably 0.5 degrees or less.

좌우 방향전환 및 전 후진이 가능한 이동체는 2개의 바퀴와 1개의 캐스터로 구성된 기구가 필요하다. 바퀴는 직류 모터, 교류 모터, 서보모터, 스탭모터 등의 동력장치로 구동하되 바람직하게는 토크를 키우고 급격한 이동을 방지하기 위해서 1/10 이상 1/500 이하의 기어비를 갖는 기어를 장착한다. 기어는 플라스틱 기어를 사용할 수 있으나 바람직하게는 금속 기어를 사용함으로써 내구성과 수치정확성을 확보할 수 있다. 바람직하게는 바퀴의 속도를 측정할 수 있는 센서를 부착하여 바퀴 개별 속도를 측정하고 모든 바퀴의 속도를 조정할 수 있도록 할 수 있다. A moving body capable of turning left and right and moving forward and backward requires a mechanism composed of two wheels and one caster. The wheel is driven by a power device such as a DC motor, an AC motor, a servo motor, or a step motor, but preferably a gear having a gear ratio of 1/10 or more and 1/500 or less is mounted in order to increase torque and prevent rapid movement. A plastic gear may be used as the gear, but durability and numerical accuracy can be secured by preferably using a metal gear. Preferably, a sensor capable of measuring the speed of the wheel may be attached to measure the individual speed of the wheel and adjust the speed of all wheels.

이동체는 전원공급을 위한 배터리, 전압조절 회로, 충전회로 등으로 구성된다. 바람직하게는 이동체의 움직임을 보조하는 근접센서, 이동체 상태를 확인할 수 있는 조명용 LED 등을 포함한다. The moving body consists of a battery for supplying power, a voltage control circuit, and a charging circuit. Preferably, it includes a proximity sensor for assisting the movement of the moving object, an LED for lighting that can check the state of the moving object, and the like.

데이터 처리장치는 중앙연산장치(CPU), 영상처리장치(GPU), 메모리(RAM), 보조메모리(SD카드 또는 HDD), 입출력 단자(Video/Audio/USB 등) 등을 구비한다. 최근에 작은 면적에 컴퓨터의 주요 기능을 갖춘 Single Board Computer를 구매할 수 있다. 이들 Single Board Computer는 출력(디스플레이), 입력(키보드/ 마우스) 기능을 제외한 대부분의 데스크톱 기능을 갖추고 성능도 데스크톱 컴퓨터에 필적하면서도 면적은 명함크기 수준이다. Single Board Computer에 리눅스 계열의 라즈비안 OS, 안드로이드 OS, 윈도우즈 등 운영체제를 설치하고 각종 프로그래밍 언어로 이동체 구동, 각종 하드웨어 제어, 영상처리 프로그램을 제작한다. The data processing device includes a central processing unit (CPU), an image processing unit (GPU), a memory (RAM), an auxiliary memory (SD card or HDD), an input/output terminal (Video/Audio/USB, etc.). Recently, you can purchase a single board computer that has the main functions of a computer in a small area. These Single Board Computers have most of the desktop functions except for the output (display) and input (keyboard/mouse) functions, and the performance is comparable to that of a desktop computer, but the area is the size of a business card. Operating systems such as Linux-based Raspbian OS, Android OS, and Windows are installed on a Single Board Computer, and various programming languages are used to drive moving objects, control various hardware, and produce image processing programs.

카메라에서 생성된 사용자의 연속적인 영상 프레임을 비전 소프트웨어의 기능 함수와 프로그래밍 언어의 논리 처리 알고리즘으로 사용자의 위치 데이터를 추출하고, 추출된 데이터로 카메라 및 이동체의 방향을 전환한다. 또 이동체의 거리 측정 장치로 사용자와 이동체 사이의 거리를 측정한 후 이동체를 전 후진 함으로써 사용자와 일정 거리를 유지한다.The user's continuous image frames generated by the camera are extracted from the user's position data using the functional function of the vision software and the logic processing algorithm of the programming language, and the direction of the camera and the moving object is changed with the extracted data. In addition, after measuring the distance between the user and the moving object with a distance measuring device of the moving object, the moving object is moved forward and backward to maintain a certain distance from the user.

본 발명은 인공지능 스피커 등 기존에 많은 인공지능 기기와 달리 이용자를 인식하고 추적하는 과정에서 네트워크를 통한 정보의 교환이 필요 없어서 정보전달에 따른 지연이 없다. 따라서 네트워크에 부하를 발생시키지 않고, 이동체가 네트워크에 연결성이라는 제한조건을 갖지 않는다. In the present invention, unlike many existing artificial intelligence devices such as artificial intelligence speakers, there is no need to exchange information through a network in the process of recognizing and tracking users, so there is no delay in information delivery. Therefore, there is no load on the network, and the mobile device does not have a constraint of connectivity to the network.

본 발명 장치는 실시간 영상으로 사용자를 모니터링 하고, 사용자의 동작에 따라 방향전환과 거리조정이 가능하므로 사용자의 활동에 제약을 최소화하면서, 장치 사용을 위한 별도의 행동이 필요하지 않다. Since the device of the present invention monitors a user with a real-time image, and enables direction change and distance adjustment according to the user's motion, while minimizing restrictions on the user's activity, a separate action for using the device is not required.

본 발명 장치는 명함 크기 컴퓨터와 시중 로봇청소기보다 작은 이용면적으로도 쉽게 구현가능해서 실내에서도 공간상의 큰 부담을 갖지 않는다.The device of the present invention can be easily implemented with a smaller usage area than a business card size computer and a commercial robot vacuum cleaner, so that it does not have a large burden on space even indoors.

상기의 특징들을 갖기 때문에 실생활에서 본 발명 이동체를 활용한 생활 밀착형 서비스를 구현하기에 매우 용이하다. Because it has the above characteristics, it is very easy to implement a life-related service using the mobile body of the present invention in real life.

도 1은 장치 사용 예시도
도 2는 이동체 동작 흐름도
도 3은 단일 프레임 영상처리 및 동작 순서도
1 is an example of using the device
2 is a flow chart of a moving object;
3 is a flowchart of single-frame image processing and operation

본 발명의 이동체 동작은 카메라에서 생성된 연속된 영상 프레임 데이터를 분석해서 사용자의 위치를 추출하고, 추출된 데이터를 사용해서 카메라와 이동체의 방향을 전환하는 단계, 거리측정 장치로 사용자와 일정 거리를 유지하는 단계로 구성된다. The motion of the moving object of the present invention is to analyze the continuous image frame data generated by the camera to extract the user's location, use the extracted data to change the direction of the camera and the moving object, and to measure a certain distance from the user with a distance measuring device. It consists of steps to maintain.

카메라는 사용자와 배경을 포함한 영상 프레임을 연속적으로 생성하고, 오픈소스 비전 소프트웨어(OpenCV)의 알고리즘을 사용해서 3차원 컬러 데이터 포맷으로 읽는다. 처리장치에서 데이터의 크기를 줄이고 영상처리를 빠르게 하려고 3차원 흑백 데이터로 변환한다. 변환된 데이터를 인공지능 사람 인식 알고리즘(haar 또는 machine learning face recognition)으로 처리해서 사용자 영역을 관심영역(Region Of Interest)으로 배경과 구분한다. 바람직하게는 사용자의 얼굴 특징을 취하여 사용자의 얼굴 부분을 관심영역(ROI)으로 구분한다. The camera continuously generates image frames including the user and the background, and reads them in a three-dimensional color data format using an algorithm in open source vision software (OpenCV). In order to reduce the size of data in the processing device and speed up image processing, it is converted into 3D black and white data. The converted data is processed with an artificial intelligence human recognition algorithm (haar or machine learning face recognition) to distinguish the user area from the background as a region of interest. Preferably, the user's facial features are taken and the user's face part is divided into a region of interest (ROI).

카메라와 사용자의 거리에 따라 카메라 영상 프레임에서 관심영역이 차지하는 면적이 달라진다. 사용자와 카메라의 거리가 가까울수록 관심영역의 크기가 커진다. 영상 프레임의 처리 시간은 면적에 비례하므로 면적을 작게 할수록 빠른 처리가 가능하지만 대신 사용자 인식의 정확도가 나빠진다. 따라서 원하는 수준의 정확성과 처리속도를 얻기 위해서 데이터 처리장치 및 카메라의 스펙을 고려해서 관심영역의 면적을 일정하게 재설정한다. 이 때 관심영역의 중심을 그대로 사용하고 관심영역의 면적만 일정하게 조정한다. The area occupied by the ROI in the camera image frame varies according to the distance between the camera and the user. As the distance between the user and the camera increases, the size of the ROI increases. Since the processing time of an image frame is proportional to the area, the smaller the area, the faster the processing is possible, but the accuracy of user recognition deteriorates instead. Therefore, in order to obtain the desired level of accuracy and processing speed, the area of the ROI is constantly reset in consideration of the specifications of the data processing device and the camera. In this case, the center of the region of interest is used as it is, and only the area of the region of interest is uniformly adjusted.

관심영역의 중심과 영상 프레임 전체의 중심과의 차이를 오차로 계산한다. 오차는 대부분 영상 프레임의 좌우 방향과 상하 방향으로 계산한다. 또는 영상 프레임의 중심을 기준으로 방위각과 거리로 표현할 수 있다. 오차를 줄이면 카메라와 이동체는 다시 사용자를 정면으로 향하게 된다. The difference between the center of the region of interest and the center of the entire image frame is calculated as an error. Most of the errors are calculated in the left-right and up-down directions of the image frame. Alternatively, the azimuth and distance may be expressed based on the center of the image frame. If the error is reduced, the camera and the moving object face the user again.

좌우 방향 오차를 줄이기 위해서는 이동체의 바퀴를 움직여서 좌회전 또는 우회전을 한다. 회전하는 최종 범위는 오차에 비례하는 값을 갖는다. 실제로 모터의 구동과 화면의 이동을 일대일로 정확하게 대응시키는 것은 어렵다. 관심영역의 중심을 영상 프레임의 중심에 정확하게 일치시키려면 다수의 시도 후에야 가능하다. 다수 이동하는 동안 시간이 지나가므로 실시간 대응은 어려워진다. 따라서 영상 프레임 중심 주위로 일정 영역을 설정하고 관심영역의 중심이 이 영역에 들어오면 좌우회전을 정지한다. 다수의 시도로 오차에 따른 이동체 이동 피드백 크기를 비례값으로 구할 수 있다. 이동체 피드백은 모터에 전달하는 전력 또는 전압을 일정하게 설정한 후 전력 또는 전압 유지시간을 변경하여 조정한다.In order to reduce the left-right error, the wheels of the moving object are moved to turn left or right. The final range of rotation has a value proportional to the error. In fact, it is difficult to accurately match the driving of the motor and the movement of the screen on a one-to-one basis. To accurately match the center of the region of interest to the center of the image frame, it is possible only after many attempts. As time passes during multiple movements, real-time response becomes difficult. Therefore, a certain area is set around the center of the image frame, and when the center of the area of interest enters this area, the left and right rotation is stopped. The magnitude of the moving object movement feedback according to the error can be obtained as a proportional value through a number of trials. The moving object feedback is adjusted by setting the power or voltage delivered to the motor constant and then changing the power or voltage holding time.

상하 방향 오차를 줄이기 위해서는 카메라 모듈 회전 기구의 서보모터를 일정 시간만큼 구동하면 구동 시간에 비례하여 회전한다. 회전의 정확도는 360도를 기준으로 1도 단위, 바람직하게는 0.5도 단위의 조절이 필요하다. In order to reduce the vertical error, if the servomotor of the camera module rotation mechanism is driven for a certain amount of time, it rotates in proportion to the driving time. The accuracy of rotation needs to be adjusted in units of 1 degree, preferably in units of 0.5 degrees, based on 360 degrees.

상기와 같은 과정을 통해 단일 영상프레임에서 오차를 줄일 수 있으며, 사용자가 움직일 때 연속적인 영상 프레임에서 상기의 과정을 반복한다. Through the above process, it is possible to reduce an error in a single image frame, and when the user moves, the process is repeated in successive image frames.

실제 사용 환경에서 사용자는 카메라에 대해 항상 일정한 방향으로 위치하지 않고 지속적으로 바꿀 수 있다. 처음에는 카메라 방향으로 얼굴이 있었으나 이후 자세를 바꾸어서 옆모습이나 뒤통수를 보일 수 있다. 이러한 경우 인공지능 얼굴인식 알고리즘으로 후속 영상 프레임에서 사용자를 찾을 수 없다. 따라서 얼굴인식으로 관심영역을 설정한 후속 프레임에서 관심영역이 이동하는 것을 일관되게 추적하는 추적자(tracker) 알고리즘을 사용해서 관심영역을 유지한다.In a real-world use environment, the user does not always have a constant orientation with respect to the camera, but can constantly change it. At first, there is a face in the direction of the camera, but after changing the posture, it can show a side view or the back of the head. In this case, the AI face recognition algorithm cannot find the user in the subsequent image frame. Therefore, the region of interest is maintained by using a tracker algorithm that consistently tracks the movement of the region of interest in subsequent frames in which the region of interest is set by face recognition.

실시간으로 사용자의 움직임을 모니터링하고 방향전환 하기 위해서는 최소 초당 5 프레임, 바람직하게는 초당 10 프레임, 더 바람직하게는 초당 30 프레임의 영상처리 및 방향전환 피드백이 필요하다. 초당 5 프레임 처리 속도에서는 돌발적인 사용자의 움직임을 놓칠 가능성이 높다. 초당 10 프레임 처리 속도는 일상적인 움직임을 양호하게 추적한다. 프레임 처리 속도는 처리 영상 프레임의 데이터 크기, 인공지능 알고리즘, 데이터 처리 장치의 사양 등에 따라 달라진다. In order to monitor and change direction of the user in real time, image processing and direction change feedback of at least 5 frames per second, preferably 10 frames per second, and more preferably 30 frames per second are required. At a processing rate of 5 frames per second, there is a high chance of missing a sudden user movement. The 10 frames per second processing rate tracks daily movements well. The frame processing speed varies depending on the data size of the processed image frame, the artificial intelligence algorithm, and the specifications of the data processing device.

상기의 과정을 거쳐서 실시간으로 이동체가 사용자를 향해서 방향 전환을 대응하면 이동체는 사용자를 계속 추종할 수 있다. 이후 사용자가 활동반경에서 이동체와 원하지 않는 접촉을 피하기 위해서 일정 거리를 유지하는 전후 이동을 한다. If the moving object responds to a direction change toward the user in real time through the above process, the moving object may continue to follow the user. Thereafter, the user moves forward and backward while maintaining a certain distance in order to avoid unwanted contact with the moving object in the radius of activity.

사용자와 거리를 측정하는 기능은 초음파 센서, IR 센서, 라이다(lidar) 등을 사용한다. 모두 초음파나 빛을 측정방향으로 조사하고 측정방향에 존재하는 사용자나 물체의 표면에서 반사된 초음파나 빛을 감지함으로써 거리를 측정한다. 사용자의 움직임에 실시간으로 대응하기 위해서는 10 cm 이하의 측정 정밀도가 필요하고, 사람의 동작범위를 고려해서 최소 1 m 이상의 거리를 측정할 수 있어야 한다. 또한 사용자의 동작에 실시간으로 대응하기 위해서는 측정 처리 시간이 수 백 ms 이하이어야 한다.The function of measuring the distance to the user uses an ultrasonic sensor, an IR sensor, and a lidar. All measure the distance by irradiating ultrasonic waves or light in the measurement direction and detecting the ultrasonic waves or light reflected from the surface of a user or object existing in the measurement direction. In order to respond to the user's movement in real time, measurement accuracy of 10 cm or less is required, and a distance of at least 1 m must be measured in consideration of the human motion range. In addition, in order to respond to user actions in real time, the measurement processing time should be less than several hundred ms.

사용자와 이동체의 거리가 측정되면 0.9 m 이상 1.5 m 이하의 범위를 기준으로 전진 또는 후진한다. 거리가 0.9 m 이하이면 사용자와 너무 가까우므로 후진해서 0.9 m 이상 벌린다. 거리가 1.5 m 이상이면 사용자와 상호작용하기 어려우므로 1.5 m 이하가 되도록 전진하여 간격을 좁힌다. When the distance between the user and the moving object is measured, it moves forward or backward based on the range of 0.9 m or more and 1.5 m or less. If the distance is less than 0.9 m, it is too close to the user, so back up and spread more than 0.9 m. If the distance is more than 1.5 m, it is difficult to interact with the user, so move forward so that it is less than 1.5 m and narrow the gap.

도면1은 사용자와 카메라를 갖는 이동체가 같은 공간에서 상호작용 하는 상황에 대한 개략도이다.1 is a schematic diagram of a situation in which a user and a moving object having a camera interact in the same space.

도면2는 이동체의 동작을 실시간 모니터링을 위해서 필요한 방향전환과 전후이동으로 구분한 것을 보여준다.Figure 2 shows that the movement of the moving object is divided into direction change and forward/backward movement necessary for real-time monitoring.

도면3은 방향전환을 위해서 최초 영상 프레임(1)에서 사용자를 인식(2)하고, 일정한 관심영역을 설정(3)하고, 프레임 중심과의 오차를 계산(4)하고, 카메라 모듈을 상하 회전(5)하고, 이동체를 좌우 회전(6)해서 사용자를 향해서 방향을 조정하는 순차적인 과정을 보여준다. 3 shows the user is recognized (2) in the first image frame (1) for direction change, a certain region of interest is set (3), the error with the frame center is calculated (4), and the camera module is rotated up and down ( 5) and shows the sequential process of adjusting the direction toward the user by rotating the moving object left and right (6).

순차적인 과정에서 상하 회전과 좌우 회전은 순서에 무관하다. 영상 프레임의 처리 속도가 초당 10 프레임 이상이면 카메라와 이동체의 순차적인 움직임이 0.1초 전후로 실시되므로 거의 동시에 움직이는 것처럼 보인다.In a sequential process, the vertical rotation and left and right rotation are independent of the order. If the processing speed of the image frame is 10 frames per second or more, the sequential movements of the camera and the moving object are performed in about 0.1 second, so they appear to move almost simultaneously.

상기에서 설명한 영상처리 및 제어 동작을 Single Board Computer에서 실시간으로 처리하기 위해서 프로그램의 병렬처리 과정을 적용한다. 최근의 Single Board Computer는 다중 core CPU를 탑재하고 있기 때문에 모든 core의 연산처리를 사용하기 위해서 프로그램을 기능단위 모듈로 나누고 각 모듈을 별도의 제어 흐름(thread 또는 process)을 동시에 구동한다. 카메라 영상처리와 방향 전환을 하나의 모듈로 묶고, 거리측정 및 전후 이동을 하나의 모듈로 묶는다. 모듈간 데이터 교환 및 제어 제어흐름 이동을 위한 별도의 핸들러 모듈을 구동한다. 이렇게 하면 방향전환과 전후이동 데이터 처리 및 피드백이 별도의 제어 흐름으로 실시되므로 한 부분에서 병목이 발생해도 전체의 처리에 부담을 최소화 할 수 있다. In order to process the image processing and control operations described above in real time on a single board computer, a parallel processing process of the program is applied. Since recent single board computers are equipped with multi-core CPUs, in order to use the operation processing of all cores, the program is divided into functional unit modules and each module runs a separate control flow (thread or process) at the same time. It bundles camera image processing and direction change into one module, and distance measurement and forward/backward movement into one module. Drives a separate handler module for data exchange between modules and movement of control flow. In this way, since the direction change and forward/backward movement data processing and feedback are performed as separate control flows, even if a bottleneck occurs in one part, the burden on the overall processing can be minimized.

도면 3-1 영상 캡쳐 프레임
도면 3-2 사용자를 인식하는 프레임
도면 3-3 일정한 관심영역을 설정하는 프레임
Figure 3-1 Image capture frame
Figure 3-2 Frame that recognizes the user
Figure 3-3 Frame for setting a certain region of interest

Claims (10)

사용자의 실시간 영상을 생성하는 카메라 모듈, 카메라 모듈 상하 회전 기구, 좌우 방향전환 및 전후진이 가능한 이동체, 프로그램을 저장하고 실행하는 Single Board Computer, 영상프레임에서 사용자를 배경과 구별하는 인공지능, 사용자 영역을 영상 프레임에서 관심영역으로 설정하고 추적하는 인공지능, 거리 측정 장치 등을 구비한 이동체 기기 및 동작방법A camera module that generates a real-time image of the user, a camera module vertical rotation mechanism, a moving object that can change the direction left and right and forward and backward, a single board computer that stores and executes programs, artificial intelligence that distinguishes the user from the background in the image frame, and the user area Mobile device and operation method equipped with artificial intelligence and distance measuring device for setting and tracking an area of interest in an image frame 1항에서 카메라 모듈은 영상을 프레임 단위로 생성할 수 있고, 실시간 영상처리를 위해서 바람직하게는 초당 10 프레임 이상, 더 바람직하게는 초당 30 프레임 이상의 영상을 생성해서 데이터 처리장치에 영상을 전송하고, 조도를 위한 광원을 포함하는 모듈.In claim 1, the camera module may generate an image in units of frames, and for real-time image processing, preferably generates an image of 10 frames per second or more, more preferably 30 frames per second or more, and transmits the image to the data processing device, A module containing a light source for illumination. 1항에서 카메라 모듈 상하 회전 기구는 카메라 모듈을 고정 및 지지하고, 서보모터나 스탭모터 등 정량적 회전 제어가 가능한 동력장치로 카메라의 촬영 방향을 상하 방향으로 회전하는 기구로서, 회전각도는 0.1도 이상 1도 이하의 단위로 각도 조절이 가능한 회전기구In Paragraph 1, the camera module vertical rotation mechanism is a power device that fixes and supports the camera module and can control quantitative rotation, such as a servo motor or a step motor, and rotates the camera in the vertical direction. Rotating mechanism that can adjust the angle in units of 1 degree or less 1항에서 이동체는 전진, 후진, 좌회전, 우회전 등 이 가능하고, 구체적으로 바퀴와 바퀴를 구동하는 모터, 모터의 회전수를 조절하는 기어, 기어의 회전축과 바퀴를 연결하는 부품, 충전가능한 배터리 등을 포함하는 장치In Paragraph 1, the moving object can move forward, backward, left turn, right turn, etc. Specifically, the wheels and the motor that drives the wheels, the gear that controls the number of rotations of the motor, the parts connecting the rotating shaft of the gear and the wheel, the rechargeable battery, etc. device comprising 1항에서 Single Board Computer는 OS를 포함하고, 아날로그 입출력이 가능하고, 장치의 구동 프로그램, 카메라 영상 처리 프로그램 등을 저장하고, CPU, 메모리(RAM), 저장매체(SD카드 또는 HDD), 유무선 네트워크, USB 단자 등을 구비한 명함 크기 컴퓨터 보드In Paragraph 1, Single Board Computer includes OS, is capable of analog input/output, stores device driving program, camera image processing program, etc., CPU, memory (RAM), storage medium (SD card or HDD), wired/wireless network , business card size computer board equipped with USB terminal, etc. 1항에서 거리 측정 장치는 빛 초음파 등의 반사 특성을 이용하여 발명하고자 하는 이동체 장치와 사용자 또는 이동체 장치와 이동체 정면 방향 물체 사이의 거리를 1 미터 이상의 거리에 대해 10 cm 이하 정밀도로 측정할 수 있는 장치 In claim 1, the distance measuring device is a device that can measure the distance between the mobile device to be invented and the user or the mobile device and the object facing the front of the moving body to be invented by using reflection characteristics such as light and ultrasonic waves with an accuracy of 10 cm or less for a distance of 1 meter or more. Device 1항에서 인간을 배경과 구별하는 인공지능은 카메라가 생성하는 영상 프레임에서 사용자를 구별하고, 연속적으로 사용자의 특정 부위, 예를 들어 얼굴을 일정한 픽셀 면적에 대해 관심영역(ROI)으로 지정하는 인공지능 프로그램으로 OpenCV에 내장된 haar 또는 face recongnition 알고리즘In item 1, the artificial intelligence that distinguishes humans from the background is artificial intelligence that distinguishes users from the image frame generated by the camera, and continuously designates a specific part of the user, for example, the face, as a region of interest (ROI) with respect to a certain pixel area. Haar or face recongnition algorithm built into OpenCV as an intelligent program 1항에서 추적하는 인공지능은 관심영역의 영상을 연속된 영상 프레임에서 움직임을 고려하여 추적하는 OpenCV에 내장 트렉커(tracker)이며 meanshift, camshift, Mosse, CSRT, KCF 등 알고리즘 The AI tracking in Paragraph 1 is a tracker built into OpenCV that tracks the image of the region of interest in consideration of motion in continuous image frames, and algorithms such as meanshift, camshift, Mosse, CSRT, and KCF. 1항에서 프로그램 중의 하나로 파이썬(Python) 프로그래밍 언어의 다중흐름 또는 다중프로세스(multi-thread or multi-process)를 사용해서 비전처리와 이동체 방향전환을 하나의 프로세스, 이동체 거리측정 및 전후진을 하나의 프로세스관심, 프로세스 사이의 제어흐름 관리를 하는 핸들러 프로세스로 나누어 각자 독자적으로 동작하는 다중 처리 프로그램As one of the programs in Paragraph 1, using the Python programming language multi-thread or multi-process, vision processing and moving object direction change in one process, moving object distance measurement and forward/backward in one process A multi-processing program that operates independently by dividing it into a handler process that manages process interest and control flow between processes 영상 처리에 의한 카메라모듈 및 이동체의 방향전환은 사용자 영상 획득, 사용자 구별, 관심영역(ROI) 지정, 오차계산, 카메라 모듈 방향 전환, 이동체 방향 전환의 반복으로 이루어지며, 전후이동은 거리측정, 이동체의 전진 또는 후진의 반복으로 이루어진다.The direction change of the camera module and moving object by image processing consists of repeating user image acquisition, user discrimination, ROI designation, error calculation, camera module direction change, and moving object direction change. It consists of repeating forward or backward of
KR1020200032193A 2020-03-16 2020-03-16 Moving object and operation method with artificial intelligence vision processing and user tracking KR20210115842A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200032193A KR20210115842A (en) 2020-03-16 2020-03-16 Moving object and operation method with artificial intelligence vision processing and user tracking

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200032193A KR20210115842A (en) 2020-03-16 2020-03-16 Moving object and operation method with artificial intelligence vision processing and user tracking

Publications (1)

Publication Number Publication Date
KR20210115842A true KR20210115842A (en) 2021-09-27

Family

ID=77925617

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200032193A KR20210115842A (en) 2020-03-16 2020-03-16 Moving object and operation method with artificial intelligence vision processing and user tracking

Country Status (1)

Country Link
KR (1) KR20210115842A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230060768A (en) * 2021-10-28 2023-05-08 한국기술교육대학교 산학협력단 Tracking Smart Shooting Equipment for Personal Media

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230060768A (en) * 2021-10-28 2023-05-08 한국기술교육대학교 산학협력단 Tracking Smart Shooting Equipment for Personal Media

Similar Documents

Publication Publication Date Title
US11282273B2 (en) Predictive information for free space gesture control and communication
US20200401232A1 (en) Systems and methods of interacting with a robotic tool using free-form gestures
US20210138657A1 (en) Mobile control method, mobile robot and computer storage medium
US11435788B2 (en) Enhanced field of view to augment three-dimensional (3D) sensory space for free-space gesture interpretation
Matsumoto et al. Behavior recognition based on head pose and gaze direction measurement
US10152136B2 (en) Velocity field interaction for free space gesture interface and control
EP3608755B1 (en) Electronic apparatus operated by head movement and operation method thereof
CN113454518A (en) Multi-camera cross reality device
CN107756417A (en) The intelligent man-machine co-melting robot system of both arms security cooperation
US20200241632A1 (en) BACKCHANNEL RESILIENCE FOR VIRTUAL, AUGMENTED, OR MIXED REALITY (xR) APPLICATIONS IN CONNECTIVITY-CONSTRAINED ENVIRONMENTS
Palleja et al. Implementation of a robust absolute virtual head mouse combining face detection, template matching and optical flow algorithms
KR20210115842A (en) Moving object and operation method with artificial intelligence vision processing and user tracking
CN111673745A (en) Robot control system and method based on somatosensory interaction
CN111002349A (en) Robot following steering method and robot system adopting same
CN207578422U (en) The intelligent man-machine co-melting robot system of both arms security cooperation
CN215814080U (en) Head-eye double-channel intelligent man-machine interaction system
Bakic et al. Menu selection by facial aspect
Jayasurya et al. Gesture controlled AI-robot using Kinect
Colombo et al. Prototype of a vision-based gaze-driven man-machine interface
TWI463474B (en) Image adjusting system
Sowmya et al. Eye gaze controlled wheelchair
TWI826189B (en) Controller tracking system and method with six degrees of freedom
Zhang et al. Indoor omni-directional mobile robot that track independently
Wang et al. A Real-time Device-free Head Motion Recognition Framework for Family Care Robots
Chumkamon et al. Recognized Face Tracking for CONBE Robot