WO2020017668A1 - Method and apparatus for generating avatar by using multi-view image matching - Google Patents

Method and apparatus for generating avatar by using multi-view image matching Download PDF

Info

Publication number
WO2020017668A1
WO2020017668A1 PCT/KR2018/007996 KR2018007996W WO2020017668A1 WO 2020017668 A1 WO2020017668 A1 WO 2020017668A1 KR 2018007996 W KR2018007996 W KR 2018007996W WO 2020017668 A1 WO2020017668 A1 WO 2020017668A1
Authority
WO
WIPO (PCT)
Prior art keywords
point clouds
avatar
point
matching
view image
Prior art date
Application number
PCT/KR2018/007996
Other languages
French (fr)
Korean (ko)
Inventor
신후랑
Original Assignee
주식회사 이누씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 이누씨 filed Critical 주식회사 이누씨
Priority to PCT/KR2018/007996 priority Critical patent/WO2020017668A1/en
Publication of WO2020017668A1 publication Critical patent/WO2020017668A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation

Definitions

  • the present embodiment relates to a method and apparatus for generating an avatar using multi-view image matching.
  • the avatar represents another self existing in the Internet or a mobile communication environment, which is a virtual space, and is capable of being transformed into any form that can be expressed not only in the form of a human but also in an animal or a plant.
  • the production and use of the avatar is similar to the user's own appearance, and can represent the user's characteristics, and may include meanings such as user's curiosity, surrogate satisfaction, and the ideal person required by the individual. The user has become very interested in the production and use of avatars representing individuals.
  • photographic or moving picture information as a means for indicating the shape of an individual, but these data are enormous in size and are difficult to transmit and process in the Internet or a mobile communication terminal. Since the user cannot edit or control the image data or the video data, the user cannot easily be favored to other users, and the user's personality cannot be properly displayed.
  • two-dimensional or three-dimensional avatars are configured in a form that can express individuality of individuals, and avatars are exchanged between users on a network, or data exchange using avatars is more actively performed.
  • an avatar is created by a designer directly looking at a user or a user's picture to draw an avatar, selecting a desired avatar from a predetermined avatar, and combining each item stored in a database. It can be divided into the configuration method.
  • the user may create his or her avatar by simple operation.
  • the avatar created by the above-described method may be produced to emphasize the personality of the user's desired form, but it is impossible to produce the avatar in a form similar to the actual appearance of the user.
  • the conventional avatar generation method transmits a picture of a user photographing his or her face to the avatar service company to design an appropriate avatar according to the image provided by the user by the designer who creates the avatar in the service company.
  • the avatar can be made close to the user's appearance. However, when the avatar is produced by the designer, it takes a lot of time to produce the avatar. Resource and effort are consumed.
  • the user's face can be recognized and modeled from the live image, and the avatar can be completed based on the modeled face image, there is a problem that it is difficult to create an avatar having high similarity with the user using only one image. There is a problem in that a large load is required to generate an avatar having high similarity to a user using a plurality of images, and the speed of generating the avatar is slow.
  • fast modeling is performed so that computational load is minimized when generating an avatar using multi-view image matching, so that the virtualized view data can be quickly generated or transformed into an avatar, synthesized with a background image, or the like. It is an object of the present invention to provide a multi-view image registration method and apparatus that can replace other characters and body parts.
  • an image acquisition unit for obtaining a plurality of multi-view image information obtained by photographing a specific object to a multi-view from a plurality of cameras;
  • An extraction unit for recognizing an object from each of the plurality of multi-view image information, extracting a feature point for the object, and extracting a point cloud based on the feature point;
  • a duplicate confirmation unit for generating duplicate point data by extracting point clouds in which overlap between the point clouds occurs after performing mutual position matching between the point clouds; And removing the point clouds corresponding to the duplicated point data among all the point clouds, and performing modeling to minimize the computational load between the remaining point clouds, thereby creating an avatar capable of 360 ° rotation to enable a 3D virtualized view. It provides an image registration device comprising a matching unit.
  • the method comprises: obtaining a plurality of multi-view image information obtained by photographing a specific object from a plurality of cameras in a multi-view; Recognizing an object from each of the plurality of multi-view image information, extracting a feature point for the object, and extracting a point cloud based on the feature point; Generating overlapping point data by extracting point clouds in which overlap between the point clouds occurs after performing mutual location matching between the point clouds; And removing the point clouds corresponding to the duplicated point data among all the point clouds, and performing modeling to minimize the computational load between the remaining point clouds, thereby creating an avatar capable of 360 ° rotation to enable a 3D virtualized view. It provides a video registration method comprising a process.
  • fast modeling is performed to minimize the computational load when generating an avatar using multi-view image matching, so that the virtualized view data can be quickly generated or transformed into the avatar. Rather, it can be combined with a background image or replace other characters and body parts.
  • FIGS. 1A and 1B are block diagrams schematically illustrating a multiview image matching system according to an exemplary embodiment.
  • FIG. 2 is a block diagram schematically illustrating a user terminal for multiview image matching according to the present embodiment.
  • FIG. 3 is a block diagram schematically illustrating a multiview image matching device according to an embodiment.
  • FIG. 4 is a view for explaining mesh modeling according to an embodiment.
  • FIG. 5 is a view for explaining the appearance change and the background replacement of the avatar according to the present embodiment.
  • FIG 6 illustrates avatar rotation according to the present embodiment.
  • FIG. 7 is a flowchart illustrating a method of generating an avatar using multi-view image registration according to the present embodiment.
  • FIGS. 1A and 1B are block diagrams schematically illustrating a multiview image matching system according to an exemplary embodiment.
  • the multi-view image matching system includes a plurality of cameras 110_1, 110_2, 110_N, a plurality of control devices 120_1, 120_2, 120_N, a user terminal 130 for matching, and a streaming server 140. do.
  • the plurality of cameras 110_1, 110_2, and 110_N are apparatuses for photographing a specific object.
  • the plurality of cameras 110_1, 110_2, and 110_N photograph a specific object (eg, a user) as a multi-view and transmit the photographed object to the plurality of control devices 120_1, 120_2, and 120_N.
  • the plurality of cameras 110_1, 110_2, and 110_N are peripheral devices used in connection with control devices 120_1, 120_2, and 120_N that can recognize a specific object and experience games and entertainment without a separate controller.
  • the plurality of cameras 110_1, 110_2, and 110_N may be, for example, a peripheral device such as Kinect.
  • a plurality of cameras may be provided with a separate sensor, when equipped with a sensor, by using a sensor to recognize the operation or gesture of a specific object (user), the microphone module provided voice Can be recognized.
  • a plurality of cameras 110_1, 110_2, and 110_N need a separate power source to connect to the plurality of control devices 120_1, 120_2, and 120_N.
  • the sensors provided in the plurality of cameras 110_1, 110_2, and 110_N are depth cameras, and provide RGB images and joint tracking information as well as depth information in real time.
  • a plurality of cameras using the data provided from the depth sensor to detect the human / body parts or poses required for gesture recognition, and to play a game or human-computer interaction.
  • the plurality of control apparatuses 120_1, 120_2, and 120_N are apparatuses for processing an image, and receive and photograph information of a specific object (for example, a user) received from a plurality of cameras 110_1, 110_2, and 110_N. Generate point image information.
  • the plurality of control apparatuses 120_1, 120_2, and 120_N transmit the multi-view image information of photographing a specific object (eg, a user) to the user terminal 130.
  • the user terminal 130 generates a avatar corresponding to a specific object (eg, a user) by quickly matching the multi-view image to minimize the computational load.
  • the user terminal 130 includes an image matching program 232 and generates an avatar using the mounted image matching program 232.
  • the user terminal 130 transmits the generated avatar to the streaming server 140.
  • the user terminal 130 includes all surfaces of a specific object (eg, a user's body shape) using a plurality of cameras 110_1, 110_2, and 110_N (at least three cameras). Create an avatar.
  • a specific object eg, a user's body shape
  • cameras 110_1, 110_2, and 110_N at least three cameras.
  • the streaming server 140 transmits the avatar received from the user terminal 130 to a smart phone, a tablet, a notebook, and the like.
  • the streaming server 140 transmits and plays a multimedia file such as sound (music) or video.
  • the file is opened after downloading, but when playing a large file such as a video, it may take a long time to download, but the streaming server 140 waits by downloading and playing the file. Can be greatly reduced.
  • the streaming server 140 may also stream in real time the avatar received from the user terminal 130 by streaming on the computer network.
  • the user terminal 130 collects 3D virtualized view image data captured by the plurality of cameras 110_1, 110_2, and 110_N, generates a 3D avatar, and transmits the 3D avatar to the streaming server 140.
  • 140 may use the 3D avatar received from the user terminal 130 to transmit to the mobile devices of general users to use the online virtual fan meeting for the service.
  • FIG. 2 is a block diagram schematically illustrating a user terminal for multiview image matching according to the present embodiment.
  • the user terminal 130 may include a CPU 210, a main memory 220, a main memory 220, a memory 230, a display 240, an input 250, and a communicator 260. Include. Components included in the user terminal 130 are not necessarily limited thereto.
  • the user terminal 130 refers to an electronic device that performs voice or data communication via a network according to a user's key manipulation.
  • the user terminal 130 includes a memory for storing a program or protocol for communicating with a game server via a network, a microprocessor for executing and controlling the program, and the like.
  • the user terminal 130 is preferably a personal computer (PC), but is not necessarily limited thereto, and may be a smartphone, a tablet, a laptop, a personal digital assistant (PDA). Electronic devices such as a digital assistant, a game console, a portable multimedia player (PMP), a PlayStation Portable (PSP), a wireless communication terminal, a media player, and the like.
  • PC personal computer
  • PDA personal digital assistant
  • Electronic devices such as a digital assistant, a game console, a portable multimedia player (PMP), a PlayStation Portable (PSP), a wireless communication terminal, a media player, and the like.
  • PMP portable multimedia player
  • PSP PlayStation Portable
  • the user terminal 130 executes (i) a communication device such as a communication modem for communicating with various devices or a wired / wireless network, (ii) a memory for storing various programs and data, and (iii) a program for operation and control.
  • a communication device such as a communication modem for communicating with various devices or a wired / wireless network
  • a memory for storing various programs and data
  • a program for operation and control Various devices including a microprocessor for the purpose.
  • the memory may be a computer such as random access memory (RAM), read only memory (ROM), flash memory, optical disk, magnetic disk, solid state disk (SSD), or the like. It may be a readable recording / storage medium.
  • the CPU 210 loads the image registration program 232 according to the present embodiment from the memory 230 to the main memory 220.
  • the CPU 210 receives a game user's command using the input unit 250 including a touch screen, a mouse, and a keyboard.
  • the CPU 210 performs an image matching program 232 and outputs the result to the display unit 240.
  • the CPU 210 downloads the image registration program 232 from the communication unit 260 and stores the image registration program 232 in the memory 230.
  • the image registration program 232 obtains a plurality of multi-view image information obtained by photographing a specific object from a plurality of cameras 110_1, 110_2, and 110_N.
  • the image registration program 232 recognizes an object from each of the plurality of multi-view image information, extracts a feature point for the object, and extracts a point cloud based on the feature point.
  • the image matching program 232 generates the overlapping point data by extracting the point clouds where the overlap between the point clouds occurs after performing mutual position matching between the point clouds.
  • the image matching program 232 removes the point clouds corresponding to the duplicate point data among the entire point clouds, and performs modeling to minimize the computational load between the remaining point clouds. Enable the view.
  • the communication unit 260 may include a near field communication (NFC), 2G, 3G, Long Term Evolution (LTE), time-division LTE (TD-LTE), a wireless local area network (WLAN) including Wi-Fi, and It performs wired and wireless communication including a wired LAN.
  • the communication unit 260 transmits and receives data with the plurality of control devices 120_1, 120_2, and 120_N by performing wired or wireless communication.
  • FIG. 3 is a block diagram schematically illustrating a multiview image matching device according to an embodiment.
  • the multi-view image registration device 200 refers to a device corresponding to the image registration program 232.
  • the image matching program 232 according to the present embodiment may be implemented as a separate device including hardware.
  • the multi-view image matching device 200 includes an image acquisition unit 310, an extraction unit 312, a duplication checker 314, a matching unit 316, a sensor unit 320, and a composite image acquisition unit. 322, an image synthesizer 324.
  • Components included in the multi-view image registration device 200 are not necessarily limited thereto.
  • Each component included in the multi-view image registration device 200 may be connected to a communication path connecting a software module or a hardware module inside the device to operate organically. These components communicate using one or more communication buses or signal lines.
  • Each component of the multi-view image registration device 200 illustrated in FIG. 3 refers to a unit that processes at least one function or operation, and may be implemented as a software module, a hardware module, or a combination of software and hardware. .
  • the image acquisition unit 310 obtains a plurality of multi-view image information obtained by photographing a specific object from a plurality of cameras.
  • the extractor 312 recognizes an object from each of the plurality of multi-view image information.
  • the extractor 312 extracts a feature point for the object.
  • the extractor 312 extracts a point cloud based on the feature points.
  • the duplication checker 314 performs mutual location matching between the point clouds.
  • the duplicate confirmation unit 314 extracts point clouds in which overlap between point clouds occurs, and generates duplicate point data.
  • the matching unit 316 removes point clouds corresponding to duplicate point data among all point clouds, and calculates a point cloud that is finally left.
  • the matching unit 316 performs modeling to minimize computational load between the point clouds that are finally left, thereby generating an avatar capable of 360 ° rotation to enable a 3D virtualized view.
  • the matching unit 316 generates an avatar by matching the remaining point clouds based on grid information according to the multi-view received from the image acquisition unit 310 so that the computational load is minimized among the remaining point clouds.
  • the matching unit 316 extracts neighboring point clouds among the point clouds left on the basis of grid information, and maintains mesh model structures of the neighboring point clouds intact between the mesh model structures. Quickly match adjacent point clouds (matching parts) to create an avatar.
  • the matching unit 316 extracts x, y coordinate information included on the grid information.
  • the matching unit 316 extracts point clouds located on the same grid among the remaining point clouds by comparing x and y coordinate information.
  • the matching unit 316 recognizes point clouds located on the same grid as neighboring point clouds.
  • the matching unit 316 performs new mesh modeling between adjacent points among the neighboring point clouds while maintaining the mesh model structure of the neighboring point clouds obtained without further calculation.
  • the matching unit 316 performs triangulation using only adjacent points among neighboring point clouds to perform new mesh modeling.
  • the matching unit 316 matches one point of a cloud to minimize a computational load between a point cloud corresponding to a specific body part of the avatar and a point cloud corresponding to a specific body part of another avatar.
  • the sensor unit 320 senses or receives direction information about a specific object.
  • the composite image acquisition unit 322 obtains actual image information.
  • the image synthesizing unit 324 displays the avatar on the screen simultaneously with the actual image information, and causes the avatar to rotate based on the direction information received from the sensor unit 320.
  • FIG. 4 is a view for explaining mesh modeling according to an embodiment.
  • the multiview image matching device 200 performs mutual position matching between point clouds for matching between point clouds acquired from a multiview image.
  • the multi-view image registration device 200 removes point clouds in which overlap between point clouds occurs.
  • a point cloud refers to a set of points belonging to a certain coordinate system.
  • points are usually defined as X, Y, and Z coordinates and are often used to represent the surface of an object.
  • Point clouds can be obtained by three-dimensional scanning.
  • the extraction unit 312 in the multi-view image registration device 200 automatically measures a number of points on the surface of the object for the three-dimensional scanning operation, and generates a point cloud generated as a digital file.
  • Point clouds are converted into polygon meshes, triangle meshes, NURB models, and CAD models through a surface reconstruction process.
  • the multi-view image registration device 200 does not perform mesh modeling on the entire point cloud that is finally left among all the point clouds.
  • the multi-view image registration device 200 matches using the mesh model defined as it is while removing point clouds in which overlap occurs on grid information received from the plurality of cameras 110_1, 110_2, and 110_N.
  • the multi-view image registration device 200 maintains the mesh structure on the grid so that the multi-view image registration device 200 can be easily and quickly performed at the viewpoints of the plurality of cameras 110_1, 110_2, and 110_N.
  • the multi-view image registration device 200 defines a face by connecting neighboring point clouds when generating a graphics model to perform mesh modeling.
  • triangulation is called triangulation.
  • the multi-view image registration device 200 extracts neighboring point clouds among the point clouds left on the basis of grid information, and maintains the mesh model structures of the neighboring point clouds as they are. Quickly match adjacent point clouds (matching parts) between model structures.
  • the multi-view image matching device 200 includes grid information received from a plurality of cameras 110_1, 110_2, and 110_N. Using (x, y coordinate information), you can use the obtained mesh model as it is without any calculation and perform new mesh modeling only in the connection part between two point clouds.
  • FIG. 5 is a view for explaining the appearance change and the background replacement of the avatar according to the present embodiment.
  • the multiview image matching device 200 may change or copy the appearance of the generated avatar.
  • the multi-view image registration device 200 generates a single avatar by matching a specific body part of the avatar with a specific body part of another avatar.
  • the multi-view image registration device 200 may generate a new avatar by matching the face (head) of the avatar with the face (head) of another avatar.
  • the multi-view image registration device 200 may generate a new avatar by matching the face (head) of the avatar with the body (body) of another avatar.
  • the multi-view image registration device 200 matches a point cloud corresponding to a specific body part of the avatar with a point cloud corresponding to a specific body part of another avatar so as to generate a single avatar.
  • the multi-view image registration device 200 may replace or modify the background of the generated avatar.
  • the multi-view image registration device 200 may display the avatar on the screen simultaneously with the actual image information.
  • the multi-view image registration device 200 may display an avatar in an overlay form on a beach background screen, an avatar in an overlay form on a forest background screen, or an overlay form on a living room wallpaper.
  • FIG 6 illustrates avatar rotation according to the present embodiment.
  • the multi-view image registration device 200 extracts the overlapping point cloud from the 3D data obtained from the plurality of cameras 110_1, 110_2, and 110_N to efficiently generate a 3D virtualized view capable of 360 ° free rotation in real time.
  • the multi-view video registration device 200 extracts the overlapping point cloud and minimizes the computational load required to generate the virtualized view based on the overlapping point cloud and increases the efficiency to minimize the time required to generate the virtualized view.
  • the multi-view image registration device 200 displays a complex video interface in which a 3D virtualized view and a planar 2D view having sensor-based orientation information are simultaneously controlled on one screen.
  • the multi-view image registration device 200 displays a virtual view and a real video view on the same screen in an overlay form. At this time, the multi-view image registration device 200 provides an interface structure that displays the rotation when the user wants to rotate in the corresponding direction because the actual video view includes the direction information.
  • FIG. 7 is a flowchart illustrating a method of generating an avatar using multi-view image registration according to the present embodiment.
  • the multi-view image registration device 200 obtains a plurality of multi-view image information obtained by photographing a specific object as a multi-view from a plurality of cameras (S710).
  • the multi-view image matching device 200 recognizes an object from each of the plurality of multi-view image information (S720).
  • the multi-view image registration device 200 extracts a feature point for the object and extracts a point cloud based on the feature point (S730).
  • the multi-view image matching device 200, the overlapping checker 314 performs mutual position matching between the point clouds (S740).
  • the multiview image registration device 200 extracts point clouds in which overlap between point clouds occurs, and generates duplicate point data (S750).
  • the matching unit 316 of the multi-view image matching device 200 removes point clouds corresponding to duplicate point data among all point clouds, and finally calculates the left point cloud (S760).
  • the multi-view image registration device 200 generates a avatar capable of 360 ° rotation by modeling the computational load to be minimized among the remaining point clouds, thereby enabling a 3D virtualized view (S770).
  • the multiview image matching device 200 matches the left point cloud based on grid information according to the multiview received from the image acquisition unit 310 so that the computational load is minimized between the point clouds that are finally left. To create an avatar.
  • the multi-view image registration device 200 extracts neighboring point clouds among the point clouds left on the basis of grid information, and maintains the mesh model structures of the neighboring point clouds as they are. Quickly match adjacent point clouds (matching parts) between model structures to create avatars.
  • the multi-view image registration device 200 extracts x, y coordinate information included on the grid information.
  • the multi-view image registration device 200 compares x and y coordinate information and extracts point clouds located on the same grid among the remaining point clouds.
  • the multi-view image registration device 200 recognizes point clouds located on the same grid as neighboring point clouds.
  • the multi-view image registration device 200 performs new mesh modeling between adjacent points among neighboring point clouds while maintaining the mesh model structure of the neighboring point clouds obtained without further calculation.
  • the multi-view image registration device 200 performs triangulation using only adjacent points among neighboring point clouds to perform new mesh modeling.
  • steps S710 to S770 are described as being sequentially executed, but are not necessarily limited thereto. In other words, since the steps described in FIG. 7 may be applied by changing the steps or executing one or more steps in parallel, FIG. 7 is not limited to the time series order.
  • the avatar generating method using the multi-view image registration according to the present embodiment described in FIG. 7 may be implemented in a program and recorded on a computer-readable recording medium.
  • the computer-readable recording medium having recorded thereon a program for implementing an avatar generating method using multi-view image matching according to the present embodiment includes all kinds of recording devices storing data that can be read by a computer system.
  • the present invention can be applied to the field of producing a character using the photo information, there is industrial applicability.

Abstract

A method and an apparatus for generating an avatar by using multi-view image matching are disclosed. Provided in an embodiment of the present invention are a method and an apparatus for matching multi-view images, the method and the apparatus allowing rapid modeling so as to minimize a calculation load when an avatar is generated using multi-view image matching, thereby rapidly generating virtualization view data as an avatar or transforming same into the avatar, and enabling compositing with a background image or enabling replacement of a body part with another character.

Description

다시점 영상 정합을 이용한 아바타 생성 방법 및 장치A method and apparatus for generating an avatar using multiview image registration
본 실시예는 다시점 영상 정합을 이용한 아바타 생성 방법 및 장치에 관한 것이다. The present embodiment relates to a method and apparatus for generating an avatar using multi-view image matching.
이하에 기술되는 내용은 단순히 본 실시예와 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다.The contents described below merely provide background information related to this embodiment and do not constitute a prior art.
아바타는 가상 공간인 인터넷이나 이동 통신 환경에 존재하는 또 다른 자아를 나타내는 것으로서, 사람의 형상뿐만 아니라 동물이나 식물 등 표현할 수 있는 모든 형태로의 변형이 가능한 존재이다. 아바타의 제작 및 이용은 사용자로 하여금 자신의 모습과 유사하며, 자신의 특징을 나타낼 수 있는 표현 도구로서, 사용자의 호기심이나 대리만족, 개인이 요구하는 이상적인 인물 등의 의미를 내포할 수 있다. 사용자는 개인을 나타내는 아바타의 제작 및 이용에 많은 관심을 가지게 되었다.The avatar represents another self existing in the Internet or a mobile communication environment, which is a virtual space, and is capable of being transformed into any form that can be expressed not only in the form of a human but also in an animal or a plant. The production and use of the avatar is similar to the user's own appearance, and can represent the user's characteristics, and may include meanings such as user's curiosity, surrogate satisfaction, and the ideal person required by the individual. The user has become very interested in the production and use of avatars representing individuals.
일반적으로, 개인의 형상을 나타내기 위한 수단으로서 사진이나 동영상 정보가 있을 수 있지만, 이들 데이터는 방대한 크기로 이루어져 있어서 인터넷이나 이동 통신 단말기에서 전송 및 처리하기가 어렵다. 사용자가 이미지 데이터 또는 동영상 데이터를 편집 또는 제어할 수 없기 때문에, 다른 사용자에게 쉽게 호감을 줄 수 없고, 사용자의 개성을 제대로 나타낼 수 없다. In general, there may be photographic or moving picture information as a means for indicating the shape of an individual, but these data are enormous in size and are difficult to transmit and process in the Internet or a mobile communication terminal. Since the user cannot edit or control the image data or the video data, the user cannot easily be favored to other users, and the user's personality cannot be properly displayed.
따라서, 개인의 개성을 잘 나타낼 수 있는 형태로 2차원 또는 3차원의 아바타를 구성하고, 네트워크상에 사용자 사이에 아바타를 주고받거나 아바타를 이용한 데이터 교환이 보다 활발하게 이루어지고 있다.Therefore, two-dimensional or three-dimensional avatars are configured in a form that can express individuality of individuals, and avatars are exchanged between users on a network, or data exchange using avatars is more actively performed.
아바타를 생성하는 방법은 대표적으로 디자이너가 직접 사용자 또는 사용자의 사진을 보며 아바타를 그리는 방법과, 미리 주어진 아바타 중에서 사용자가 원하는 아바타를 선택하는 방법, 데이터베이스(Database)에 저장된 각 항목을 조합하여 아바타를 구성하는 방법으로 구분할 수 있다.Typically, an avatar is created by a designer directly looking at a user or a user's picture to draw an avatar, selecting a desired avatar from a predetermined avatar, and combining each item stored in a database. It can be divided into the configuration method.
미리 주어진 아바타 중에서 사용자가 원하는 아바타를 선택하는 방법과, 데이터베이스(Database)에 저장된 각 항목을 조합하여 아바타를 구성하는 방법의 경우, 간단한 조작으로 사용자가 자신의 아바타를 생성할 수 있다. 전술한 방법으로 생성된 아바타는 사용자가 원하는 형태의 개성이 강조되도록 제작할 수는 있지만, 사용자의 실재 모습과 유사한 형태로 제작하는 것은 불가능하다.In the case of selecting an avatar desired by a user from a predetermined avatar and a method of configuring an avatar by combining each item stored in a database, the user may create his or her avatar by simple operation. The avatar created by the above-described method may be produced to emphasize the personality of the user's desired form, but it is impossible to produce the avatar in a form similar to the actual appearance of the user.
사용자의 실재 모습과 유사한 형태의 아바타를 제작하는 방법으로는 아바타를 제작하는 디자이너가 사용자의 이미지를 바탕으로 직접 아바타를 생성하는 방법이 있다. 이러한 종래의 아바타 생성 방법은 사용자가 자신의 얼굴이나 전체 모습을 촬영한 사진을 아바타 서비스 업체로 전송하여, 서비스 업체에서 아바타를 제작하는 디자이너가 사용자로부터 제공받은 이러한 이미지에 따라 적절한 아바타를 디자인한다.As a method of producing an avatar similar to a user's actual appearance, there is a method in which a designer who creates an avatar directly creates an avatar based on the user's image. The conventional avatar generation method transmits a picture of a user photographing his or her face to the avatar service company to design an appropriate avatar according to the image provided by the user by the designer who creates the avatar in the service company.
사용자가 제공한 이미지를 이용하여 디자이너가 아바타를 제작하면, 사용자의 모습에 가까운 아바타를 제작할 수 있지만, 디자이너에 의하여 아바타가 제작되는 경우에 제작 시간이 많이 소요되고, 아바타 제작에 투입되는 디자이너의 인적 자원 및 노력이 많이 소모된다.If the designer makes an avatar using the image provided by the user, the avatar can be made close to the user's appearance. However, when the avatar is produced by the designer, it takes a lot of time to produce the avatar. Resource and effort are consumed.
실사 이미지로부터 사용자의 얼굴을 인식하여 모델링하고, 모델링된 얼굴 영상을 기반으로 아바타를 완성시킬 수 있지만 한장의 이미지만으로는 사용자와 높은 유사성을 갖는 아바타를 만들기 어렵다는 문제가 있다. 복수의 이미지를 이용하여 사용자의 유사성이 높은 아바타를 생성하기 위해서는 많은 부하가 걸리고 아바타 생성까지 속도가 느리다는 문제가 있다.Although the user's face can be recognized and modeled from the live image, and the avatar can be completed based on the modeled face image, there is a problem that it is difficult to create an avatar having high similarity with the user using only one image. There is a problem in that a large load is required to generate an avatar having high similarity to a user using a plurality of images, and the speed of generating the avatar is slow.
본 실시예는 다시점 영상 정합을 이용하여 아바타를 생성할 때 연산부하가 최소화되도록 하는 빠른 모델링이 이루어지도록 하여, 가상화 뷰 데이터를 아바타로 빠르게 생성하거나 변형할 수 있을 뿐 아니라, 배경 영상과 합성하거나 타캐릭터와 신체부위를 교체할 수 있도록 하는 다시점 영상 정합 방법 및 장치를 제공하는 데 목적이 있다.In this embodiment, fast modeling is performed so that computational load is minimized when generating an avatar using multi-view image matching, so that the virtualized view data can be quickly generated or transformed into an avatar, synthesized with a background image, or the like. It is an object of the present invention to provide a multi-view image registration method and apparatus that can replace other characters and body parts.
본 실시예의 일 측면에 의하면, 복수의 카메라로부터 특정 객체를 다시점으로 촬영한 복수의 다시점 영상 정보를 획득하는 영상 획득부; 상기 복수의 다시점 영상 정보 각각으로부터 객체를 인지하고, 상기 객체에 대한 특징점을 추출하고, 상기 특징점을 기반으로 포인트 클라우드(Point Cloud)를 추출하는 추출부; 상기 포인트 클라우드 간 상호 위치 정합을 수행한 후 상기 포인트 클라우드 간 중복이 발생하는 포인트 클라우드들을 추출하여 중복 포인트 데이터를 생성하는 중복 확인부; 및 전체 포인트 클라우드 중 상기 중복 포인트 데이터에 대응하는 포인트 클라우드들을 제거하고, 최종적으로 남겨진 포인트 클라우드 간에 연산부하가 최소화되도록 하는 모델링을 수행하여 360˚ 회전이 가능한 아바타를 생성하여 3D 가상화 뷰가 가능하도록 하는 정합부를 포함하는 것을 특징으로 하는 영상 정합 장치를 제공한다.According to an aspect of the present embodiment, an image acquisition unit for obtaining a plurality of multi-view image information obtained by photographing a specific object to a multi-view from a plurality of cameras; An extraction unit for recognizing an object from each of the plurality of multi-view image information, extracting a feature point for the object, and extracting a point cloud based on the feature point; A duplicate confirmation unit for generating duplicate point data by extracting point clouds in which overlap between the point clouds occurs after performing mutual position matching between the point clouds; And removing the point clouds corresponding to the duplicated point data among all the point clouds, and performing modeling to minimize the computational load between the remaining point clouds, thereby creating an avatar capable of 360 ° rotation to enable a 3D virtualized view. It provides an image registration device comprising a matching unit.
본 실시예의 다른 측면에 의하면, 복수의 카메라로부터 특정 객체를 다시점으로 촬영한 복수의 다시점 영상 정보를 획득하는 과정; 상기 복수의 다시점 영상 정보 각각으로부터 객체를 인지하고, 상기 객체에 대한 특징점을 추출하고, 상기 특징점을 기반으로 포인트 클라우드(Point Cloud)를 추출하는 과정; 상기 포인트 클라우드 간 상호 위치 정합을 수행한 후 상기 포인트 클라우드 간 중복이 발생하는 포인트 클라우드들을 추출하여 중복 포인트 데이터를 생성하는 과정; 및 전체 포인트 클라우드 중 상기 중복 포인트 데이터에 대응하는 포인트 클라우드들을 제거하고, 최종적으로 남겨진 포인트 클라우드 간에 연산부하가 최소화되도록 하는 모델링을 수행하여 360˚ 회전이 가능한 아바타를 생성하여 3D 가상화 뷰가 가능하도록 하는 과정을 포함하는 것을 특징으로 하는 영상 정합 방법을 제공한다.According to another aspect of the present embodiment, the method comprises: obtaining a plurality of multi-view image information obtained by photographing a specific object from a plurality of cameras in a multi-view; Recognizing an object from each of the plurality of multi-view image information, extracting a feature point for the object, and extracting a point cloud based on the feature point; Generating overlapping point data by extracting point clouds in which overlap between the point clouds occurs after performing mutual location matching between the point clouds; And removing the point clouds corresponding to the duplicated point data among all the point clouds, and performing modeling to minimize the computational load between the remaining point clouds, thereby creating an avatar capable of 360 ° rotation to enable a 3D virtualized view. It provides a video registration method comprising a process.
이상에서 설명한 바와 같이 본 실시예에 의하면, 다시점 영상 정합을 이용하여 아바타를 생성할 때 연산부하가 최소화되도록 하는 빠른 모델링이 이루어지도록 하여, 가상화 뷰 데이터를 아바타로 빠르게 생성하거나 변형할 수 있을 뿐 아니라, 배경 영상과 합성하거나 타캐릭터와 신체부위를 교체할 수 있도록 하는 효과가 있다.As described above, according to the present embodiment, fast modeling is performed to minimize the computational load when generating an avatar using multi-view image matching, so that the virtualized view data can be quickly generated or transformed into the avatar. Rather, it can be combined with a background image or replace other characters and body parts.
도 1a, 1b는 본 실시예에 따른 다시점 영상 정합 시스템을 개략적으로 나타낸 블럭 구성도이다.1A and 1B are block diagrams schematically illustrating a multiview image matching system according to an exemplary embodiment.
도 2는 본 실시예에 따른 다시점 영상 정합을 위한 사용자 단말기를 개략적으로 나타낸 블럭 구성도이다.2 is a block diagram schematically illustrating a user terminal for multiview image matching according to the present embodiment.
도 3은 실시예에 따른 다시점 영상 정합 장치를 개략적으로 나타낸 블럭 구성도이다.3 is a block diagram schematically illustrating a multiview image matching device according to an embodiment.
도 4는 실시예에 따른 메쉬 모델링을 설명하기 위한 도면이다.4 is a view for explaining mesh modeling according to an embodiment.
도 5는 본 실시예에 따른 아바타의 외형 변경 및 배경 교체를 설명하기 위한 도면이다.5 is a view for explaining the appearance change and the background replacement of the avatar according to the present embodiment.
도 6은 본 실시예에 따른 아바타 회전을 나타낸 도면이다.6 illustrates avatar rotation according to the present embodiment.
도 7은 본 실시예에 따른 다시점 영상 정합을 이용한 아바타 생성 방법을 설명하기 위한 순서도이다.7 is a flowchart illustrating a method of generating an avatar using multi-view image registration according to the present embodiment.
이하, 본 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.Hereinafter, the present embodiment will be described in detail with reference to the accompanying drawings.
도 1a, 1b는 본 실시예에 따른 다시점 영상 정합 시스템을 개략적으로 나타낸 블럭 구성도이다.1A and 1B are block diagrams schematically illustrating a multiview image matching system according to an exemplary embodiment.
본 실시예에 따른 다시점 영상 정합 시스템은 복수의 카메라(110_1, 110_2, 110_N), 복수의 제어 장치(120_1, 120_2, 120_N), 정합을 위한 사용자 단말기(130), 스트리밍 서버(140)를 포함한다.The multi-view image matching system according to the present embodiment includes a plurality of cameras 110_1, 110_2, 110_N, a plurality of control devices 120_1, 120_2, 120_N, a user terminal 130 for matching, and a streaming server 140. do.
복수의 카메라(110_1, 110_2, 110_N)는 특정 객체를 촬영하는 장치로서, 특정 객체(예컨대, 사용자)를 다시점으로 촬영하여 복수의 제어 장치(120_1, 120_2, 120_N)로 전송한다.The plurality of cameras 110_1, 110_2, and 110_N are apparatuses for photographing a specific object. The plurality of cameras 110_1, 110_2, and 110_N photograph a specific object (eg, a user) as a multi-view and transmit the photographed object to the plurality of control devices 120_1, 120_2, and 120_N.
복수의 카메라(110_1, 110_2, 110_N)는 별도의 컨트롤러 없이 특정 객체를 인식하여 게임과 엔터테인먼트를 경험할 수 있는 제어 장치(120_1, 120_2, 120_N)와 연결해서 사용하는 주변기기이다. 복수의 카메라(110_1, 110_2, 110_N)는 예컨대, 키넥트(Kinect)와 같은 주변기기가 적용될 수 있다. The plurality of cameras 110_1, 110_2, and 110_N are peripheral devices used in connection with control devices 120_1, 120_2, and 120_N that can recognize a specific object and experience games and entertainment without a separate controller. The plurality of cameras 110_1, 110_2, and 110_N may be, for example, a peripheral device such as Kinect.
복수의 카메라(110_1, 110_2, 110_N)는 별도의 센서를 구비할 수 있으며, 센서를 구비한 경우, 센서를 이용하여 특정 객체(사용자의)의 동작 또는 제스처를 인식하고, 구비된 마이크 모듈로 음성을 인식할 수 있다. 복수의 카메라(110_1, 110_2, 110_N)는 복수의 제어 장치(120_1, 120_2, 120_N)와 연결하기 위해서는 별도의 전원이 필요하다.A plurality of cameras (110_1, 110_2, 110_N) may be provided with a separate sensor, when equipped with a sensor, by using a sensor to recognize the operation or gesture of a specific object (user), the microphone module provided voice Can be recognized. A plurality of cameras 110_1, 110_2, and 110_N need a separate power source to connect to the plurality of control devices 120_1, 120_2, and 120_N.
복수의 카메라(110_1, 110_2, 110_N)에 구비되는 센서는 뎁스 카메라로써, 실시간으로 깊이 정보뿐만 아니라 RGB영상과 관절 추적 정보를 제공한다. The sensors provided in the plurality of cameras 110_1, 110_2, and 110_N are depth cameras, and provide RGB images and joint tracking information as well as depth information in real time.
복수의 카메라(110_1, 110_2, 110_N)는 뎁스 센서로부터 제공되는 데이터를 이용하여 제스처 인식을 위해 필요한 사람/신체부위 검출하거나 포즈를 추정하며, 게임이나 인간-컴퓨터 상호작용하도록 한다.A plurality of cameras (110_1, 110_2, 110_N) using the data provided from the depth sensor to detect the human / body parts or poses required for gesture recognition, and to play a game or human-computer interaction.
복수의 제어 장치(120_1, 120_2, 120_N)는 영상을 처리하는 장치로서, 복수의 카메라(110_1, 110_2, 110_N)로부터 수신된 특정 객체(예컨대, 사용자)를 다시점으로 촬영한 정보를 수신하여 다시점 영상 정보를 생성한다. 복수의 제어 장치(120_1, 120_2, 120_N)는 특정 객체(예컨대, 사용자)를 촬영한 다시점 영상 정보를 정합하기 위해 사용자 단말기(130)로 전송한다.The plurality of control apparatuses 120_1, 120_2, and 120_N are apparatuses for processing an image, and receive and photograph information of a specific object (for example, a user) received from a plurality of cameras 110_1, 110_2, and 110_N. Generate point image information. The plurality of control apparatuses 120_1, 120_2, and 120_N transmit the multi-view image information of photographing a specific object (eg, a user) to the user terminal 130.
사용자 단말기(130)는 다시점 영상을 연산부하가 최소화되도록 빠르게 정합하여 특정 객체(예컨대, 사용자)에 대응하는 아바타를 생성한다. 사용자 단말기(130)는 영상 정합 프로그램(232)을 탑재하며, 탑재된 영상 정합 프로그램(232)을 이용하여 아바타를 생성한다. 사용자 단말기(130)는 생성된 아바타를 스트리밍 서버(140)로 전송한다.The user terminal 130 generates a avatar corresponding to a specific object (eg, a user) by quickly matching the multi-view image to minimize the computational load. The user terminal 130 includes an image matching program 232 and generates an avatar using the mounted image matching program 232. The user terminal 130 transmits the generated avatar to the streaming server 140.
도 1a에 도시된 바와 같이, 사용자 단말기(130)는 복수의 카메라(110_1, 110_2, 110_N)(적어도 3대의 카메라)를 이용하여 특정 객체(예컨대, 사용자 신체 형상)의 모든 표면(Surface)을 포함하는 아바타를 생성한다.As shown in FIG. 1A, the user terminal 130 includes all surfaces of a specific object (eg, a user's body shape) using a plurality of cameras 110_1, 110_2, and 110_N (at least three cameras). Create an avatar.
스트리밍 서버(140)는 사용자 단말기(130)로부터 수신된 아바타를 연동하는 스마트폰, 태블릿, 노트북 등으로 전송한다. 스트리밍 서버(140)는 소리(음악)나 동영상 등의 멀티미디어 파일을 전송하고 재생한다.The streaming server 140 transmits the avatar received from the user terminal 130 to a smart phone, a tablet, a notebook, and the like. The streaming server 140 transmits and plays a multimedia file such as sound (music) or video.
보통 파일은 내려받고 난 뒤에 열리는 작업을 하지만, 동영상과 같이 크기가 큰 파일을 재생할 때에는 내려받는 데에 시간이 오래 걸릴 수 있으나, 스트리밍 서버(140)는 파일을 다운로드하는 것과 더불어 재생을 시킴으로써 기다리는 시간을 크게 줄일 수 있다. 스트리밍 서버(140)는 컴퓨터 네트워크 위에 스트리밍(streaming)하여 사용자 단말기(130)로부터 수신된 아바타를 실시간 중계도 가능하다.Normally, the file is opened after downloading, but when playing a large file such as a video, it may take a long time to download, but the streaming server 140 waits by downloading and playing the file. Can be greatly reduced. The streaming server 140 may also stream in real time the avatar received from the user terminal 130 by streaming on the computer network.
도 1b에 도시된 바와 같이, 사용자 단말기(130)는 복수의 카메라(110_1, 110_2, 110_N)로 촬영된 3D 가상화 뷰 영상 데이터를 취합해 3D 아바타를 생성하여 스트리밍 서버(140)로 전송하면, 스트리밍 서버(140)는 사용자 단말기(130)로부터 수신된 3D 아바타를 이용하여 일반 사용자들의 모바일 기기에 송출해 온라인 가상 팬미팅을 서비스에 이용할 수 있다.As illustrated in FIG. 1B, the user terminal 130 collects 3D virtualized view image data captured by the plurality of cameras 110_1, 110_2, and 110_N, generates a 3D avatar, and transmits the 3D avatar to the streaming server 140. 140 may use the 3D avatar received from the user terminal 130 to transmit to the mobile devices of general users to use the online virtual fan meeting for the service.
도 2는 본 실시예에 따른 다시점 영상 정합을 위한 사용자 단말기를 개략적으로 나타낸 블럭 구성도이다.2 is a block diagram schematically illustrating a user terminal for multiview image matching according to the present embodiment.
본 실시예에 따른 사용자 단말기(130)는 CPU(210, Central Processing Unit), 메인메모리(220, Main Memory), 메모리(230), 디스플레이부(240), 입력부(250), 통신부(260)를 포함한다. 사용자 단말기(130)에 포함된 구성요소는 반드시 이에 한정되는 것은 아니다.The user terminal 130 according to the present exemplary embodiment may include a CPU 210, a main memory 220, a main memory 220, a memory 230, a display 240, an input 250, and a communicator 260. Include. Components included in the user terminal 130 are not necessarily limited thereto.
사용자 단말기(130)는 사용자의 키 조작에 따라 네트워크를 경유하여 음성 또는 데이터 통신을 수행하는 전자 기기를 의미한다. 사용자 단말기(130)는 네트워크를 경유하여 게임 서버와 통신하기 위한 프로그램 또는 프로토콜을 저장하기 위한 메모리, 해당 프로그램을 실행하여 연산 및 제어하기 위한 마이크로프로세서 등을 구비한다. The user terminal 130 refers to an electronic device that performs voice or data communication via a network according to a user's key manipulation. The user terminal 130 includes a memory for storing a program or protocol for communicating with a game server via a network, a microprocessor for executing and controlling the program, and the like.
사용자 단말기(130)는 개인용 컴퓨터(PC: Personal Computer)인 것이 바람직하나 반드시 이에 한정되는 것은 아니며, 스마트폰(Smart Phone), 태블릿(Tablet), 랩톱(Laptop), , 개인 휴대 단말기(PDA: Personal Digital Assistant), 게임 콘솔, 휴대형 멀티미디어 플레이어(PMP: Portable Multimedia Player), 플레이스테이션 포터블(PSP: PlayStation Portable), 무선 통신 단말기(Wireless Communication Terminal), 미디어 플레이어 등과 같은 전자 기기일 수 있다. The user terminal 130 is preferably a personal computer (PC), but is not necessarily limited thereto, and may be a smartphone, a tablet, a laptop, a personal digital assistant (PDA). Electronic devices such as a digital assistant, a game console, a portable multimedia player (PMP), a PlayStation Portable (PSP), a wireless communication terminal, a media player, and the like.
사용자 단말기(130)는 (i) 각종 기기 또는 유무선 네트워크와 통신을 수행하기 위한 통신 모뎀 등의 통신 장치, (ii) 각종 프로그램과 데이터를 저장하기 위한 메모리, (iii) 프로그램을 실행하여 연산 및 제어하기 위한 마이크로프로세서 등을 구비하는 다양한 장치이다. 적어도 일 실시예에 따르면, 메모리는 램(Random Access Memory: RAM), 롬(Read Only Memory: ROM), 플래시 메모리, 광 디스크, 자기 디스크, 솔리드 스테이트 디스크(Solid State Disk: SSD) 등의 컴퓨터로 판독 가능한 기록/저장매체일 수 있다. The user terminal 130 executes (i) a communication device such as a communication modem for communicating with various devices or a wired / wireless network, (ii) a memory for storing various programs and data, and (iii) a program for operation and control. Various devices including a microprocessor for the purpose. According to at least one embodiment, the memory may be a computer such as random access memory (RAM), read only memory (ROM), flash memory, optical disk, magnetic disk, solid state disk (SSD), or the like. It may be a readable recording / storage medium.
CPU(210)는 본 실시예에 따른 영상 정합 프로그램(232)을 메모리(230)로부터 메인메모리(220)에 로딩한다. CPU(210)는 터치스크린, 마우스 및 키보드를 포함하는 입력부(250)를 이용하여 게임이용자의 명령을 입력받는다. CPU(210)는 영상 정합 프로그램(232)을 수행하여 그 결과를 디스플레이부(240)로 출력한다. CPU(210)는 영상 정합 프로그램(232)을 통신부(260)로부터 다운로드하여 메모리(230)에 저장한다.The CPU 210 loads the image registration program 232 according to the present embodiment from the memory 230 to the main memory 220. The CPU 210 receives a game user's command using the input unit 250 including a touch screen, a mouse, and a keyboard. The CPU 210 performs an image matching program 232 and outputs the result to the display unit 240. The CPU 210 downloads the image registration program 232 from the communication unit 260 and stores the image registration program 232 in the memory 230.
본 실시예에 따른 영상 정합 프로그램(232)은 복수의 카메라(110_1, 110_2, 110_N)로부터 특정 객체를 다시점으로 촬영한 복수의 다시점 영상 정보를 획득한다. 영상 정합 프로그램(232)은 복수의 다시점 영상 정보 각각으로부터 객체를 인지하고, 객체에 대한 특징점을 추출하고, 특징점을 기반으로 포인트 클라우드(Point Cloud)를 추출한다. The image registration program 232 according to the present exemplary embodiment obtains a plurality of multi-view image information obtained by photographing a specific object from a plurality of cameras 110_1, 110_2, and 110_N. The image registration program 232 recognizes an object from each of the plurality of multi-view image information, extracts a feature point for the object, and extracts a point cloud based on the feature point.
영상 정합 프로그램(232)은 포인트 클라우드 간 상호 위치 정합을 수행한 후 포인트 클라우드 간 중복이 발생하는 포인트 클라우드들을 추출하여 중복 포인트 데이터를 생성한다. 영상 정합 프로그램(232)은 전체 포인트 클라우드 중 중복 포인트 데이터에 대응하는 포인트 클라우드들을 제거하고, 최종적으로 남겨진 포인트 클라우드 간에 연산부하가 최소화되도록 하는 모델링을 수행하여 360˚ 회전이 가능한 아바타를 생성하여 3D 가상화 뷰가 가능하도록 한다.The image matching program 232 generates the overlapping point data by extracting the point clouds where the overlap between the point clouds occurs after performing mutual position matching between the point clouds. The image matching program 232 removes the point clouds corresponding to the duplicate point data among the entire point clouds, and performs modeling to minimize the computational load between the remaining point clouds. Enable the view.
통신부(260)는 근거리통신(Near Field Communication, NFC), 2G, 3G, LTE(Long Term Evolution), TD-LTE(Time-Division LTE), Wi-Fi를 포함하는 Wireless LAN(Local Area Network) 및 유선(Wired) 랜(LAN)을 포함하는 유무선 통신을 수행한다. 통신부(260)는 유무선 통신을 수행하여 복수의 제어 장치(120_1, 120_2, 120_N)와 데이터를 송수신한다.The communication unit 260 may include a near field communication (NFC), 2G, 3G, Long Term Evolution (LTE), time-division LTE (TD-LTE), a wireless local area network (WLAN) including Wi-Fi, and It performs wired and wireless communication including a wired LAN. The communication unit 260 transmits and receives data with the plurality of control devices 120_1, 120_2, and 120_N by performing wired or wireless communication.
도 3은 실시예에 따른 다시점 영상 정합 장치를 개략적으로 나타낸 블럭 구성도이다.3 is a block diagram schematically illustrating a multiview image matching device according to an embodiment.
본 실시예에 따른 다시점 영상 정합 장치(200)는 영상 정합 프로그램(232)에 대응되는 장치를 의미한다. 다시 말해, 본 실시예에 따른 영상 정합 프로그램(232)은 하드웨어를 포함하는 별도의 장치로 구현 가능하다.The multi-view image registration device 200 according to the present embodiment refers to a device corresponding to the image registration program 232. In other words, the image matching program 232 according to the present embodiment may be implemented as a separate device including hardware.
본 실시예에 따른 다시점 영상 정합 장치(200)는 영상 획득부(310), 추출부(312), 중복 확인부(314), 정합부(316), 센서부(320), 합성 영상 획득부(322), 영상 합성부(324)를 포함한다. 다시점 영상 정합 장치(200)에 포함된 구성요소는 반드시 이에 한정되는 것은 아니다.The multi-view image matching device 200 according to the present embodiment includes an image acquisition unit 310, an extraction unit 312, a duplication checker 314, a matching unit 316, a sensor unit 320, and a composite image acquisition unit. 322, an image synthesizer 324. Components included in the multi-view image registration device 200 are not necessarily limited thereto.
다시점 영상 정합 장치(200)에 포함된 각 구성요소는 장치 내부의 소프트웨어적인 모듈 또는 하드웨어적인 모듈을 연결하는 통신 경로에 연결되어 상호 간에 유기적으로 동작할 수 있다. 이러한 구성요소는 하나 이상의 통신 버스 또는 신호선을 이용하여 통신한다.Each component included in the multi-view image registration device 200 may be connected to a communication path connecting a software module or a hardware module inside the device to operate organically. These components communicate using one or more communication buses or signal lines.
도 3에 도시된 다시점 영상 정합 장치(200)의 각 구성요소는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 소프트웨어적인 모듈, 하드웨어적인 모듈 또는 소프트웨어와 하드웨어의 결합으로 구현될 수 있다.Each component of the multi-view image registration device 200 illustrated in FIG. 3 refers to a unit that processes at least one function or operation, and may be implemented as a software module, a hardware module, or a combination of software and hardware. .
영상 획득부(310)는 복수의 카메라로부터 특정 객체를 다시점으로 촬영한 복수의 다시점 영상 정보를 획득한다.The image acquisition unit 310 obtains a plurality of multi-view image information obtained by photographing a specific object from a plurality of cameras.
추출부(312)는 복수의 다시점 영상 정보 각각으로부터 객체를 인지한다. 추출부(312)는 객체에 대한 특징점을 추출한다. 추출부(312)는 특징점을 기반으로 포인트 클라우드(Point Cloud)를 추출한다.The extractor 312 recognizes an object from each of the plurality of multi-view image information. The extractor 312 extracts a feature point for the object. The extractor 312 extracts a point cloud based on the feature points.
중복 확인부(314)는 포인트 클라우드 간 상호 위치 정합을 수행한다. 중복 확인부(314)는 포인트 클라우드 간 중복이 발생하는 포인트 클라우드들을 추출하여 중복 포인트 데이터를 생성한다.The duplication checker 314 performs mutual location matching between the point clouds. The duplicate confirmation unit 314 extracts point clouds in which overlap between point clouds occurs, and generates duplicate point data.
정합부(316)는 전체 포인트 클라우드 중 중복 포인트 데이터에 대응하는 포인트 클라우드들을 제거하고 최종적으로 남겨진 포인트 클라우드를 산출한다. 정합부(316)는 최종적으로 남겨진 포인트 클라우드 간에 연산부하가 최소화되도록 하는 모델링을 수행하여 360˚ 회전이 가능한 아바타를 생성하여 3D 가상화 뷰가 가능하도록 한다. The matching unit 316 removes point clouds corresponding to duplicate point data among all point clouds, and calculates a point cloud that is finally left. The matching unit 316 performs modeling to minimize computational load between the point clouds that are finally left, thereby generating an avatar capable of 360 ° rotation to enable a 3D virtualized view.
정합부(316)는 최종적으로 남겨진 포인트 클라우드 간에 연산부하가 최소화되도록 영상 획득부(310)로부터 수신된 다시점에 따른 격자(Grid) 정보를 기반으로 남겨진 포인트 클라우드를 정합하여 아바타를 생성한다.The matching unit 316 generates an avatar by matching the remaining point clouds based on grid information according to the multi-view received from the image acquisition unit 310 so that the computational load is minimized among the remaining point clouds.
정합부(316)는 격자(Grid) 정보를 기반으로 남겨진 포인트 클라우드 중 이웃하는 포인트 클라우드를 추출하고, 이웃하는 포인트 클라우드가 갖는 메쉬 모델(Mesh Model) 구조들을 그대로 유지한 상태에서 각 메쉬 모델 구조 간에 인접한 포인트 클라우드(정합 부분)들을 빠르게 정합하여 아바타를 생성한다.The matching unit 316 extracts neighboring point clouds among the point clouds left on the basis of grid information, and maintains mesh model structures of the neighboring point clouds intact between the mesh model structures. Quickly match adjacent point clouds (matching parts) to create an avatar.
정합부(316)는 격자(Grid) 정보 상에 포함된 x,y 좌표 정보들을 추출한다. 정합부(316)는 x,y 좌표 정보들을 비교하여 남겨진 포인트 클라우드 중 동일한 격자(Grid) 상에 위치하는 포인트 클라우드들을 추출한다. 정합부(316)는 동일한 격자(Grid) 상에 위치하는 포인트 클라우드들을 이웃하는 포인트 클라우드로 인지한다.The matching unit 316 extracts x, y coordinate information included on the grid information. The matching unit 316 extracts point clouds located on the same grid among the remaining point clouds by comparing x and y coordinate information. The matching unit 316 recognizes point clouds located on the same grid as neighboring point clouds.
정합부(316)는 추가 계산없이 얻어진 이웃하는 포인트 클라우드들의 메쉬 모델 구조를 그대로 유지한 상태에서 이웃하는 포인트 클라우드 중 인접한 포인트들 간에 새로운 메쉬 모델링을 수행한다.The matching unit 316 performs new mesh modeling between adjacent points among the neighboring point clouds while maintaining the mesh model structure of the neighboring point clouds obtained without further calculation.
정합부(316)는 새로운 메쉬 모델링을 수행하기 위해 이웃하는 포인트 클라우드 중 인접한 포인트만을 이용하여 삼각측량(Triangulation)을 수행한다.The matching unit 316 performs triangulation using only adjacent points among neighboring point clouds to perform new mesh modeling.
정합부(316)는 아바타의 특정 신체 부위에 대응하는 포인트 클라우드와 기 형성된 다른 아바타의 특정 신체 부위에 대응하는 포인트 클라우드간에 연산부하가 최소화되도록 정합하여 하나의 아바타가 생성되도록 한다.The matching unit 316 matches one point of a cloud to minimize a computational load between a point cloud corresponding to a specific body part of the avatar and a point cloud corresponding to a specific body part of another avatar.
센서부(320)는 특정 객체에 대한 방향 정보를 센싱하거나 수신한다. 합성 영상 획득부(322)는 실제 영상 정보를 획득한다. 영상 합성부(324)는 아바타를 실제 영상 정보와 하나의 화면 상에 동시에 오버레이 형태로 표시하며, 센서부(320)로부터 수신된 방향 정보를 기반으로 아바타가 회전하도록 한다.The sensor unit 320 senses or receives direction information about a specific object. The composite image acquisition unit 322 obtains actual image information. The image synthesizing unit 324 displays the avatar on the screen simultaneously with the actual image information, and causes the avatar to rotate based on the direction information received from the sensor unit 320.
도 4는 실시예에 따른 메쉬 모델링을 설명하기 위한 도면이다.4 is a view for explaining mesh modeling according to an embodiment.
도 4의 (a)에 도시된 바와 같이, 그래픽스 모델에서 다시점 영상에서 획득한 포인트 클라우드(Point Cloud) 간의 정합을 위하여, 포인트 클라우드 간 상호 위치 정합을 수행한다.As shown in (a) of FIG. 4, in order to match between point clouds acquired from a multiview image in a graphics model, mutual location matching between point clouds is performed.
이후, 포인트 클라우드 간 중복이 발생하는 포인트 클라우드들을 제거하고, 전체 포인트 클라우드 중 최종적으로 남겨진 포인트 클라우드들에서 메쉬 모델링을 수행한다.Then, the point clouds in which the overlap between the point clouds occurs are removed, and mesh modeling is performed on the point clouds that are finally left out of all the point clouds.
하지만, 전체 포인트 클라우드 중 최종적으로 남겨진 포인트 클라우드들에서 메쉬 모델링을 수행하는 과정에서 많은 부하와 시간이 소모되어 실시간으로 영상을 처리하는 데 한계가 있다.However, there is a limit in processing an image in real time because a lot of load and time are consumed in the process of performing mesh modeling on the point clouds that are finally left among the entire point clouds.
도 4의 (b)에 도시된 바와 같이, 다시점 영상 정합 장치(200)는 다시점 영상에서 획득한 포인트 클라우드 간의 정합을 위하여, 포인트 클라우드 간 상호 위치 정합을 수행한다.As shown in (b) of FIG. 4, the multiview image matching device 200 performs mutual position matching between point clouds for matching between point clouds acquired from a multiview image.
이후, 다시점 영상 정합 장치(200)는 포인트 클라우드 간 중복이 발생하는 포인트 클라우드들을 제거한다.Thereafter, the multi-view image registration device 200 removes point clouds in which overlap between point clouds occurs.
포인트 클라우드(Point Cloud)란 어떤 좌표계에 속한 점들의 집합을 의미한다. 3차원 좌표계에서 점은 보통 X, Y, Z 좌표로 정의되며 종종 사물의 표면을 나타내기 위해 사용되기도 한다. 포인트 클라우드는 3차원 스캐닝 작업으로 얻을 수 있다. 다시점 영상 정합 장치(200) 내의 추출부(312)는 3차원 스캐닝 작업을 위해 사물의 표면에서 수많은 점을 자동으로 측정하고, 이를 통해 생성한 포인트 클라우드를 디지털 파일로 생성한다. 포인트 클라우드는 표면 재건 과정을 통해 폴리곤 메시나 삼각형 메시, NURB 모델, CAD 모델로 변환된다.A point cloud refers to a set of points belonging to a certain coordinate system. In three-dimensional coordinate systems, points are usually defined as X, Y, and Z coordinates and are often used to represent the surface of an object. Point clouds can be obtained by three-dimensional scanning. The extraction unit 312 in the multi-view image registration device 200 automatically measures a number of points on the surface of the object for the three-dimensional scanning operation, and generates a point cloud generated as a digital file. Point clouds are converted into polygon meshes, triangle meshes, NURB models, and CAD models through a surface reconstruction process.
다시점 영상 정합 장치(200)는 도 4의 (a)에 도시된 바와 같이, 전체 포인트 클라우드 중 최종적으로 남겨진 포인트 클라우드 전체에 대해서 메쉬 모델링을 수행하지 않는다.As shown in (a) of FIG. 4, the multi-view image registration device 200 does not perform mesh modeling on the entire point cloud that is finally left among all the point clouds.
다시점 영상 정합 장치(200)는 복수의 카메라(110_1, 110_2, 110_N)로부터 수신된 격자(Grid) 정보상에서 중복이 발생하는 포인트 클라우드들을 제거한 상태에서 정의된 메쉬 모델을 그대로 사용하여 정합한다.The multi-view image registration device 200 matches using the mesh model defined as it is while removing point clouds in which overlap occurs on grid information received from the plurality of cameras 110_1, 110_2, and 110_N.
다시 말해, 다시점 영상 정합 장치(200)는 복수의 카메라(110_1, 110_2, 110_N)의 시점에서 손쉽게, 빠른시간에 수행할 수 있도록 격자(Grid) 위에서의 메쉬 구조를 그대로 유지한다.In other words, the multi-view image registration device 200 maintains the mesh structure on the grid so that the multi-view image registration device 200 can be easily and quickly performed at the viewpoints of the plurality of cameras 110_1, 110_2, and 110_N.
격자(Grid) 위에서의 메쉬 구조를 그대로 유지한 상태로 정합하는 경우 메쉬 모델링의 정확도는 다소 저하되지만 수행속도를 매우 빠르게 처리할 수 있다.When the mesh structure on the grid is maintained as it is, the accuracy of the mesh modeling is slightly reduced, but the execution speed can be processed very quickly.
도 4의 (b)에 도시된 바와 같이, 다시점 영상 정합 장치(200)는 메쉬 모델링을 수행하기 위해 그래픽스 모델 생성시 이웃한 포인트 클라우드 들을 연결하여 페이스(Face)를 정의한다. 다시점 영상 정합 장치(200)에서 메쉬 모델링을 수행하기 위해 세개의 포인트를 이용한 삼각형 페이스(Face)를 할당할 때를 삼각측량(Triangulation)이라 칭한다.As shown in (b) of FIG. 4, the multi-view image registration device 200 defines a face by connecting neighboring point clouds when generating a graphics model to perform mesh modeling. When the multi-view image registration device 200 allocates a triangular face using three points to perform mesh modeling, triangulation is called triangulation.
다시점 영상 정합 장치(200)는 격자(Grid) 정보를 기반으로 남겨진 포인트 클라우드 중 이웃하는 포인트 클라우드를 추출하고, 이웃하는 포인트 클라우드가 갖는 메쉬 모델(Mesh Model) 구조들을 그대로 유지한 상태에서 각 메쉬 모델 구조 간에 인접한 포인트 클라우드(정합 부분)들을 빠르게 정합한다.The multi-view image registration device 200 extracts neighboring point clouds among the point clouds left on the basis of grid information, and maintains the mesh model structures of the neighboring point clouds as they are. Quickly match adjacent point clouds (matching parts) between model structures.
다시점 영상 정합 장치(200)가 이웃하는 포인트 클라우드가 갖는 메쉬 모델(Mesh Model) 구조들을 그대로 유지한 상태에서 각 메쉬 모델 구조 간에 인접한 포인트 클라우드(정합 부분)들을 빠르게 정합하는 경우, 메쉬 모델링의 정확도는 다소 저하되지만 수행속도를 매우 빠르게 처리할 수 있어 영상의 실시간 처리가 가능하다.Accuracy of mesh modeling when the multi-view image matching device 200 quickly matches adjacent point clouds (matching portions) between each mesh model structure while maintaining the mesh model structures of neighboring point clouds Although slightly degraded, the performance can be processed very quickly, enabling real-time processing of images.
정합된 모든 클라우드 포인트들을 이용하여 새롭게 메쉬 모델링을 수행하면 많은 계산량을 필요로 하지만, 본 실시예에 따른 다시점 영상 정합 장치(200)는 복수의 카메라(110_1, 110_2, 110_N)로부터 수신된 격자 정보(x,y 좌표정보)를 이용하여 계산 필요없이 얻어진 메쉬 모델을 그대로 사용하고 두 포인트 클라우드 간 연결부분에서만 새롭게 메쉬 모델링을 수행하면 된다.New mesh modeling using all matched cloud points requires a large amount of computation, but the multi-view image matching device 200 according to the present exemplary embodiment includes grid information received from a plurality of cameras 110_1, 110_2, and 110_N. Using (x, y coordinate information), you can use the obtained mesh model as it is without any calculation and perform new mesh modeling only in the connection part between two point clouds.
도 5는 본 실시예에 따른 아바타의 외형 변경 및 배경 교체를 설명하기 위한 도면이다. 5 is a view for explaining the appearance change and the background replacement of the avatar according to the present embodiment.
도 5의 (a)에 도시된 바와 같이, 다시점 영상 정합 장치(200)는 생성된 아바타의 외형을 변경하거나 복사할 수 있다.As shown in (a) of FIG. 5, the multiview image matching device 200 may change or copy the appearance of the generated avatar.
다시점 영상 정합 장치(200)는 아바타의 특정 신체 부위를 기 형성된 다른 아바타의 특정 신체 부위와 정합하여 하나의 아바타를 생성한다.The multi-view image registration device 200 generates a single avatar by matching a specific body part of the avatar with a specific body part of another avatar.
예컨대, 다시점 영상 정합 장치(200)는 아바타의 얼굴(머리)을 기 형성된 다른 아바타의 얼굴(머리)와 정합하여 새로운 아바타를 생성할 수 있다. 또한, 다시점 영상 정합 장치(200)는 아바타의 얼굴(머리)을 기 형성된 다른 아바타의 몸통(몸체)과 정합하여 새로운 아바타를 생성할 수 있다.For example, the multi-view image registration device 200 may generate a new avatar by matching the face (head) of the avatar with the face (head) of another avatar. In addition, the multi-view image registration device 200 may generate a new avatar by matching the face (head) of the avatar with the body (body) of another avatar.
다시점 영상 정합 장치(200)는 아바타의 특정 신체 부위에 대응하는 포인트 클라우드와 기 형성된 다른 아바타의 특정 신체 부위에 대응하는 포인트 클라우드간에 연산부하가 최소화되도록 정합하여 하나의 아바타가 생성되도록 한다.The multi-view image registration device 200 matches a point cloud corresponding to a specific body part of the avatar with a point cloud corresponding to a specific body part of another avatar so as to generate a single avatar.
도 5의 (b)에 도시된 바와 같이, 다시점 영상 정합 장치(200)는 생성된 아바타의 배경을 교체하거나 변형할 수 있다.As shown in (b) of FIG. 5, the multi-view image registration device 200 may replace or modify the background of the generated avatar.
다시점 영상 정합 장치(200)는 아바타를 실제 영상 정보와 하나의 화면 상에 동시에 오버레이 형태로 표시할 수 있다. 다시점 영상 정합 장치(200)는 아바타를 바닷가 배경 화면에 오버레이 형태로 표시하거나 아바타를 숲속 배경 화면에 오버레이 형태로 표시하거나 거실 배경 화면에 오버레이 형태로 표시할 수 있다.The multi-view image registration device 200 may display the avatar on the screen simultaneously with the actual image information. The multi-view image registration device 200 may display an avatar in an overlay form on a beach background screen, an avatar in an overlay form on a forest background screen, or an overlay form on a living room wallpaper.
도 6은 본 실시예에 따른 아바타 회전을 나타낸 도면이다.6 illustrates avatar rotation according to the present embodiment.
다시점 영상 정합 장치(200)는 복수의 카메라(110_1, 110_2, 110_N)로부터 획득한 3D 데이터에서 중복되는 포인트 클라우드를 추출하여 360˚ 자유로운 회전이 가능한 3D 가상화 뷰를 효율적으로 실시간 생성한다.The multi-view image registration device 200 extracts the overlapping point cloud from the 3D data obtained from the plurality of cameras 110_1, 110_2, and 110_N to efficiently generate a 3D virtualized view capable of 360 ° free rotation in real time.
다시점 영상 정합 장치(200)는 중복되는 포인트 클라우드를 추출하고, 중복되는 포인트 클라우드를 기반으로 가상화 뷰 생성시 소요되는 연산부하를 최소화하고 효율성을 높여 가상화뷰 생성 소요 시간을 최소화한다.The multi-view video registration device 200 extracts the overlapping point cloud and minimizes the computational load required to generate the virtualized view based on the overlapping point cloud and increases the efficiency to minimize the time required to generate the virtualized view.
다시점 영상 정합 장치(200)는 3D 가상화 뷰와 센서 기반 방향정보를 보유한 평면적인 2D 뷰가 하나의 화면에서 동시 제어되는 복합적인 비디오 인터페이스를 표시한다. The multi-view image registration device 200 displays a complex video interface in which a 3D virtualized view and a planar 2D view having sensor-based orientation information are simultaneously controlled on one screen.
다시점 영상 정합 장치(200)는 가상 뷰(Virtual View)와 실제 비디오 뷰(Real Video View)를 하나의 화면상에 동시에 오버레이 형태로 표시한다. 이때, 다시점 영상 정합 장치(200)는 실제 비디오 뷰가 방향정보를 포함하고 있어 해당 방향으로 사용자가 회전하고자 하면 회전을 표시하는 인터페이스 구조를 제공한다.The multi-view image registration device 200 displays a virtual view and a real video view on the same screen in an overlay form. At this time, the multi-view image registration device 200 provides an interface structure that displays the rotation when the user wants to rotate in the corresponding direction because the actual video view includes the direction information.
도 7은 본 실시예에 따른 다시점 영상 정합을 이용한 아바타 생성 방법을 설명하기 위한 순서도이다.7 is a flowchart illustrating a method of generating an avatar using multi-view image registration according to the present embodiment.
다시점 영상 정합 장치(200)는 복수의 카메라로부터 특정 객체를 다시점으로 촬영한 복수의 다시점 영상 정보를 획득한다(S710). 다시점 영상 정합 장치(200)는 복수의 다시점 영상 정보 각각으로부터 객체를 인지한다(S720).The multi-view image registration device 200 obtains a plurality of multi-view image information obtained by photographing a specific object as a multi-view from a plurality of cameras (S710). The multi-view image matching device 200 recognizes an object from each of the plurality of multi-view image information (S720).
다시점 영상 정합 장치(200)는 객체에 대한 특징점을 추출하고, 특징점을 기반으로 포인트 클라우드(Point Cloud)를 추출한다(S730). 다시점 영상 정합 장치(200)는 중복 확인부(314)는 포인트 클라우드 간 상호 위치 정합을 수행한다(S740).The multi-view image registration device 200 extracts a feature point for the object and extracts a point cloud based on the feature point (S730). The multi-view image matching device 200, the overlapping checker 314 performs mutual position matching between the point clouds (S740).
다시점 영상 정합 장치(200)는 포인트 클라우드 간 중복이 발생하는 포인트 클라우드들을 추출하여 중복 포인트 데이터를 생성한다(S750). 다시점 영상 정합 장치(200)의 정합부(316)는 전체 포인트 클라우드 중 중복 포인트 데이터에 대응하는 포인트 클라우드들을 제거하고 최종적으로 남겨진 포인트 클라우드를 산출한다(S760).The multiview image registration device 200 extracts point clouds in which overlap between point clouds occurs, and generates duplicate point data (S750). The matching unit 316 of the multi-view image matching device 200 removes point clouds corresponding to duplicate point data among all point clouds, and finally calculates the left point cloud (S760).
다시점 영상 정합 장치(200)는 최종적으로 남겨진 포인트 클라우드 간에 연산부하가 최소화되도록 하는 모델링을 수행하여 360˚ 회전이 가능한 아바타를 생성하여 3D 가상화 뷰가 가능하도록 한다(S770). The multi-view image registration device 200 generates a avatar capable of 360 ° rotation by modeling the computational load to be minimized among the remaining point clouds, thereby enabling a 3D virtualized view (S770).
단계 S770에서, 다시점 영상 정합 장치(200)는 최종적으로 남겨진 포인트 클라우드 간에 연산부하가 최소화되도록 영상 획득부(310)로부터 수신된 다시점에 따른 격자(Grid) 정보를 기반으로 남겨진 포인트 클라우드를 정합하여 아바타를 생성한다.In operation S770, the multiview image matching device 200 matches the left point cloud based on grid information according to the multiview received from the image acquisition unit 310 so that the computational load is minimized between the point clouds that are finally left. To create an avatar.
다시점 영상 정합 장치(200)는 격자(Grid) 정보를 기반으로 남겨진 포인트 클라우드 중 이웃하는 포인트 클라우드를 추출하고, 이웃하는 포인트 클라우드가 갖는 메쉬 모델(Mesh Model) 구조들을 그대로 유지한 상태에서 각 메쉬 모델 구조 간에 인접한 포인트 클라우드(정합 부분)들을 빠르게 정합하여 아바타를 생성한다.The multi-view image registration device 200 extracts neighboring point clouds among the point clouds left on the basis of grid information, and maintains the mesh model structures of the neighboring point clouds as they are. Quickly match adjacent point clouds (matching parts) between model structures to create avatars.
다시점 영상 정합 장치(200)는 격자(Grid) 정보 상에 포함된 x,y 좌표 정보들을 추출한다. 다시점 영상 정합 장치(200)는 x,y 좌표 정보들을 비교하여 남겨진 포인트 클라우드 중 동일한 격자(Grid) 상에 위치하는 포인트 클라우드들을 추출한다. 다시점 영상 정합 장치(200)는 동일한 격자(Grid) 상에 위치하는 포인트 클라우드들을 이웃하는 포인트 클라우드로 인지한다.The multi-view image registration device 200 extracts x, y coordinate information included on the grid information. The multi-view image registration device 200 compares x and y coordinate information and extracts point clouds located on the same grid among the remaining point clouds. The multi-view image registration device 200 recognizes point clouds located on the same grid as neighboring point clouds.
다시점 영상 정합 장치(200)는 추가 계산없이 얻어진 이웃하는 포인트 클라우드들의 메쉬 모델 구조를 그대로 유지한 상태에서 이웃하는 포인트 클라우드 중 인접한 포인트들 간에 새로운 메쉬 모델링을 수행한다.The multi-view image registration device 200 performs new mesh modeling between adjacent points among neighboring point clouds while maintaining the mesh model structure of the neighboring point clouds obtained without further calculation.
다시점 영상 정합 장치(200)는 새로운 메쉬 모델링을 수행하기 위해 이웃하는 포인트 클라우드 중 인접한 포인트만을 이용하여 삼각측량(Triangulation)을 수행한다.The multi-view image registration device 200 performs triangulation using only adjacent points among neighboring point clouds to perform new mesh modeling.
도 7에서는 단계 S710 내지 단계 S770을 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 도 7에 기재된 단계를 변경하여 실행하거나 하나 이상의 단계를 병렬적으로 실행하는 것으로 적용 가능할 것이므로, 도 7은 시계열적인 순서로 한정되는 것은 아니다.In FIG. 7, steps S710 to S770 are described as being sequentially executed, but are not necessarily limited thereto. In other words, since the steps described in FIG. 7 may be applied by changing the steps or executing one or more steps in parallel, FIG. 7 is not limited to the time series order.
전술한 바와 같이 도 7에 기재된 본 실시예에 따른 다시점 영상 정합을 이용한 아바타 생성 방법은 프로그램으로 구현되고 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다. 본 실시예에 따른 다시점 영상 정합을 이용한 아바타 생성 방법을 구현하기 위한 프로그램이 기록되고 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다.As described above, the avatar generating method using the multi-view image registration according to the present embodiment described in FIG. 7 may be implemented in a program and recorded on a computer-readable recording medium. The computer-readable recording medium having recorded thereon a program for implementing an avatar generating method using multi-view image matching according to the present embodiment includes all kinds of recording devices storing data that can be read by a computer system.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The above description is merely illustrative of the technical idea of the present embodiment, and those skilled in the art to which the present embodiment belongs may make various modifications and changes without departing from the essential characteristics of the present embodiment. Therefore, the present embodiments are not intended to limit the technical idea of the present embodiment but to describe the present invention, and the scope of the technical idea of the present embodiment is not limited by these embodiments. The scope of protection of the present embodiment should be interpreted by the following claims, and all technical ideas within the scope equivalent thereto should be construed as being included in the scope of the present embodiment.
본 발명은 사진정보를 이용하여 캐릭터를 제작하는 분야에 적용이 가능하므로, 그 산업상 이용가능성이 있습니다.The present invention can be applied to the field of producing a character using the photo information, there is industrial applicability.

Claims (9)

  1. 복수의 카메라로부터 특정 객체를 다시점으로 촬영한 복수의 다시점 영상 정보를 획득하는 영상 획득부;An image acquisition unit for obtaining a plurality of multi-view image information obtained by photographing specific objects from a plurality of cameras;
    상기 복수의 다시점 영상 정보 각각으로부터 객체를 인지하고, 상기 객체에 대한 특징점을 추출하고, 상기 특징점을 기반으로 포인트 클라우드(Point Cloud)를 추출하는 추출부; An extraction unit for recognizing an object from each of the plurality of multi-view image information, extracting a feature point for the object, and extracting a point cloud based on the feature point;
    상기 포인트 클라우드 간 상호 위치 정합을 수행한 후 상기 포인트 클라우드 간 중복이 발생하는 포인트 클라우드들을 추출하여 중복 포인트 데이터를 생성하는 중복 확인부; 및A duplicate confirmation unit for generating duplicate point data by extracting point clouds in which overlap between the point clouds occurs after performing mutual position matching between the point clouds; And
    전체 포인트 클라우드 중 상기 중복 포인트 데이터에 대응하는 포인트 클라우드들을 제거하고, 최종적으로 남겨진 포인트 클라우드 간에 연산부하가 최소화되도록 하는 모델링을 수행하여 360˚ 회전이 가능한 아바타를 생성하여 3D 가상화 뷰가 가능하도록 하는 정합부Eliminates point clouds corresponding to the duplicated point data among all point clouds, and performs modeling to minimize computational load among the remaining point clouds. part
    를 포함하는 것을 특징으로 하는 영상 정합 장치.Image matching device comprising a.
  2. 제 1 항에 있어서,The method of claim 1,
    상기 정합부는,The matching part,
    상기 최종적으로 남겨진 포인트 클라우드 간에 연산부하가 최소화되도록 상기 영상 획득부로부터 수신된 다시점에 따른 격자(Grid) 정보를 기반으로 상기 남겨진 포인트 클라우드를 정합하여 상기 아바타를 생성하는 것을 특징으로 하는 영상 정합 장치.And the avatar is generated by matching the remaining point clouds based on grid information according to a multi-view received from the image acquisition unit so that the computational load is minimized between the finally left point clouds. .
  3. 제 2 항에 있어서,The method of claim 2,
    상기 정합부는,The matching part,
    상기 격자(Grid) 정보를 기반으로 상기 남겨진 포인트 클라우드 중 이웃하는 포인트 클라우드를 추출하고, 상기 이웃하는 포인트 클라우드가 갖는 메쉬 모델(Mesh Model) 구조들을 그대로 유지한 상태에서 각 메쉬 모델 구조 간에 인접한 포인트 클라우드들을 빠르게 정합하여 상기 아바타를 생성하는 것을 특징으로 하는 영상 정합 장치.Based on the grid information, neighboring point clouds are extracted from the remaining point clouds, and adjacent point clouds between mesh model structures are maintained while maintaining mesh model structures of the neighboring point clouds. And the avatar to quickly generate the avatar.
  4. 제 3 항에 있어서,The method of claim 3, wherein
    상기 정합부는,The matching part,
    상기 격자(Grid) 정보 상에 포함된 x,y 좌표 정보들을 추출하고, 상기 x,y 좌표 정보들을 비교하여 상기 남겨진 포인트 클라우드 중 동일한 격자(Grid) 상에 위치하는 포인트 클라우드들을 추출하고, 상기 동일한 격자(Grid) 상에 위치하는 포인트 클라우드들을 상기 이웃하는 포인트 클라우드로 인지하는 것을 특징으로 하는 영상 정합 장치.Extracting x, y coordinate information included in the grid information, comparing the x, y coordinate information to extract point clouds located on the same grid of the remaining point cloud, the same And a point cloud located on a grid as the neighboring point cloud.
  5. 제 4 항에 있어서,The method of claim 4, wherein
    상기 정합부는,The matching part,
    추가 계산없이 얻어진 상기 이웃하는 포인트 클라우드들의 메쉬 모델 구조를 그대로 유지한 상태에서 상기 이웃하는 포인트 클라우드 중 인접한 포인트들 간에 새로운 메쉬 모델링을 수행하는 것을 특징으로 하는 영상 정합 장치.And performing new mesh modeling between adjacent points among the neighboring point clouds while maintaining the mesh model structure of the neighboring point clouds obtained without further calculation.
  6. 제 5 항에 있어서,The method of claim 5, wherein
    상기 정합부는,The matching part,
    상기 새로운 메쉬 모델링을 수행하기 위해 상기 이웃하는 포인트 클라우드 중 인접한 포인트만을 이용하여 삼각측량(Triangulation)을 수행하는 것을 특징으로 하는 영상 정합 장치.And triangulation using only adjacent points among the neighboring point clouds to perform the new mesh modeling.
  7. 제 1 항에 있어서,The method of claim 1,
    상기 특정 객체에 대한 방향 정보를 센싱하거나 수신하는 센서부;A sensor unit for sensing or receiving direction information on the specific object;
    실제 영상 정보를 획득하는 합성 영상 획득부;A composite image obtaining unit obtaining actual image information;
    상기 아바타를 상기 실제 영상 정보와 하나의 화면 상에 동시에 오버레이 형태로 표시하며, 상기 방향 정보를 기반으로 상기 아바타가 회전하도록 하는 배경 영상 합성부Background image synthesizer for displaying the avatar in the form of an overlay on the screen and the actual image information at the same time, and rotate the avatar based on the direction information
    를 추가로 포함하는 것을 특징으로 하는 영상 정합 장치.The image matching device, characterized in that it further comprises.
  8. 제 1 항에 있어서,The method of claim 1,
    상기 정합부는,The matching part,
    상기 아바타의 특정 신체 부위에 대응하는 포인트 클라우드와 기 형성된 다른 아바타의 특정 신체 부위에 대응하는 포인트 클라우드간에 연산부하가 최소화되도록 정합하여 하나의 아바타가 생성되도록 하는 것을 특징으로 하는 영상 정합 장치.And a single avatar is generated between the point cloud corresponding to the specific body part of the avatar and the point cloud corresponding to the specific body part of the other avatar so as to minimize the computational load.
  9. 복수의 카메라로부터 특정 객체를 다시점으로 촬영한 복수의 다시점 영상 정보를 획득하는 과정;Obtaining a plurality of multi-view image information obtained by photographing a specific object from a plurality of cameras in a multi-view;
    상기 복수의 다시점 영상 정보 각각으로부터 객체를 인지하고, 상기 객체에 대한 특징점을 추출하고, 상기 특징점을 기반으로 포인트 클라우드(Point Cloud)를 추출하는 과정; Recognizing an object from each of the plurality of multi-view image information, extracting a feature point for the object, and extracting a point cloud based on the feature point;
    상기 포인트 클라우드 간 상호 위치 정합을 수행한 후 상기 포인트 클라우드 간 중복이 발생하는 포인트 클라우드들을 추출하여 중복 포인트 데이터를 생성하는 과정; 및Generating overlapping point data by extracting point clouds in which overlap between the point clouds occurs after performing mutual location matching between the point clouds; And
    전체 포인트 클라우드 중 상기 중복 포인트 데이터에 대응하는 포인트 클라우드들을 제거하고, 최종적으로 남겨진 포인트 클라우드 간에 연산부하가 최소화되도록 하는 모델링을 수행하여 360˚ 회전이 가능한 아바타를 생성하여 3D 가상화 뷰가 가능하도록 하는 과정Process of removing point clouds corresponding to the duplicated point data among all point clouds and modeling to minimize computational load among the remaining point clouds to create an avatar capable of 360 ° rotation to enable 3D virtualized view
    을 포함하는 것을 특징으로 하는 영상 정합 방법.Image matching method comprising a.
PCT/KR2018/007996 2018-07-16 2018-07-16 Method and apparatus for generating avatar by using multi-view image matching WO2020017668A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2018/007996 WO2020017668A1 (en) 2018-07-16 2018-07-16 Method and apparatus for generating avatar by using multi-view image matching

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2018/007996 WO2020017668A1 (en) 2018-07-16 2018-07-16 Method and apparatus for generating avatar by using multi-view image matching

Publications (1)

Publication Number Publication Date
WO2020017668A1 true WO2020017668A1 (en) 2020-01-23

Family

ID=69164732

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/007996 WO2020017668A1 (en) 2018-07-16 2018-07-16 Method and apparatus for generating avatar by using multi-view image matching

Country Status (1)

Country Link
WO (1) WO2020017668A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116320521A (en) * 2023-03-24 2023-06-23 吉林动画学院 Three-dimensional animation live broadcast method and device based on artificial intelligence

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120000437A (en) * 2010-06-25 2012-01-02 국민대학교산학협력단 Apparatus and method for augmented reality interface agent
KR101325926B1 (en) * 2012-05-22 2013-11-07 동국대학교 산학협력단 3d data processing apparatus and method for real-time 3d data transmission and reception
KR101747951B1 (en) * 2016-02-15 2017-06-15 동서대학교 산학협력단 Apparatus for providing 3-dimensional human character modelling based on multi-view photography
KR20170112267A (en) * 2016-03-31 2017-10-12 삼성전자주식회사 Method for composing image and an electronic device thereof
KR20170130150A (en) * 2016-05-18 2017-11-28 광운대학교 산학협력단 Camera rig method for acquiring 3d data, camera rig system performing the same, and storage medium storing the same
CN107507127A (en) * 2017-08-04 2017-12-22 深圳市易尚展示股份有限公司 The global registration method and system of multiple views three-dimensional point cloud

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120000437A (en) * 2010-06-25 2012-01-02 국민대학교산학협력단 Apparatus and method for augmented reality interface agent
KR101325926B1 (en) * 2012-05-22 2013-11-07 동국대학교 산학협력단 3d data processing apparatus and method for real-time 3d data transmission and reception
KR101747951B1 (en) * 2016-02-15 2017-06-15 동서대학교 산학협력단 Apparatus for providing 3-dimensional human character modelling based on multi-view photography
KR20170112267A (en) * 2016-03-31 2017-10-12 삼성전자주식회사 Method for composing image and an electronic device thereof
KR20170130150A (en) * 2016-05-18 2017-11-28 광운대학교 산학협력단 Camera rig method for acquiring 3d data, camera rig system performing the same, and storage medium storing the same
CN107507127A (en) * 2017-08-04 2017-12-22 深圳市易尚展示股份有限公司 The global registration method and system of multiple views three-dimensional point cloud

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116320521A (en) * 2023-03-24 2023-06-23 吉林动画学院 Three-dimensional animation live broadcast method and device based on artificial intelligence

Similar Documents

Publication Publication Date Title
KR102068993B1 (en) Method And Apparatus Creating for Avatar by using Multi-view Image Matching
WO2020010979A1 (en) Method and apparatus for training model for recognizing key points of hand, and method and apparatus for recognizing key points of hand
WO2019124726A1 (en) Method and system for providing mixed reality service
WO2021238595A1 (en) Image generation method and apparatus based on artificial intelligence, and device and storage medium
TW202205059A (en) Control method, electronic device and computer-readable storage medium for virtual object
WO2021098338A1 (en) Model training method, media information synthesizing method, and related apparatus
WO2020171621A1 (en) Method of controlling display of avatar and electronic device therefor
KR102148151B1 (en) Intelligent chat based on digital communication network
CN111292427B (en) Bone displacement information acquisition method, device, equipment and storage medium
WO2019017582A1 (en) Method and system for collecting cloud sourcing-based ar content templates and automatically generating ar content
CN113426117B (en) Shooting parameter acquisition method and device for virtual camera, electronic equipment and storage medium
US20210152751A1 (en) Model training method, media information synthesis method, and related apparatuses
CN109035415B (en) Virtual model processing method, device, equipment and computer readable storage medium
WO2017099500A1 (en) Animation generating method and animation generating device
WO2015008932A1 (en) Digilog space creator for remote co-work in augmented reality and digilog space creation method using same
CN112348937A (en) Face image processing method and electronic equipment
CN112598780A (en) Instance object model construction method and device, readable medium and electronic equipment
CN110573992A (en) Editing augmented reality experiences using augmented reality and virtual reality
WO2020017668A1 (en) Method and apparatus for generating avatar by using multi-view image matching
CN109126136B (en) Three-dimensional virtual pet generation method, device, equipment and storage medium
CN112891954A (en) Virtual object simulation method and device, storage medium and computer equipment
CN113610953A (en) Information processing method and device and computer readable storage medium
WO2019124850A1 (en) Method and system for personifying and interacting with object
WO2023116801A1 (en) Particle effect rendering method and apparatus, device, and medium
US20190378335A1 (en) Viewer position coordination in simulated reality

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18926994

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18926994

Country of ref document: EP

Kind code of ref document: A1