KR102290549B1 - 동영상 이미지를 통한 ar 콘텐츠 생산 시스템 - Google Patents

동영상 이미지를 통한 ar 콘텐츠 생산 시스템 Download PDF

Info

Publication number
KR102290549B1
KR102290549B1 KR1020200027662A KR20200027662A KR102290549B1 KR 102290549 B1 KR102290549 B1 KR 102290549B1 KR 1020200027662 A KR1020200027662 A KR 1020200027662A KR 20200027662 A KR20200027662 A KR 20200027662A KR 102290549 B1 KR102290549 B1 KR 102290549B1
Authority
KR
South Korea
Prior art keywords
image
voice
content
module
user
Prior art date
Application number
KR1020200027662A
Other languages
English (en)
Inventor
김현배
Original Assignee
주식회사 딥파인
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 딥파인 filed Critical 주식회사 딥파인
Priority to KR1020200027662A priority Critical patent/KR102290549B1/ko
Application granted granted Critical
Publication of KR102290549B1 publication Critical patent/KR102290549B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Computer Graphics (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Computation (AREA)
  • Architecture (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Acoustics & Sound (AREA)
  • Biomedical Technology (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Optics & Photonics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Processing Or Creating Images (AREA)

Abstract

본 발명은 영상 이미지를 통하여 실시간 증강현실(AR) 콘텐츠를 쉽게 제작할 수 있는 동영상 이미지를 통한 AR 콘텐츠 생산 시스템에 관한 것으로, 통신망을 통해 상호 통신하는 스마트 글래스 및 콘텐츠제공장치를 포함하되, 상기 스마트 글래스는, 사용자의 안면에 착용되어 상기 콘텐츠제공장치로 사용자가 바라보는 물체를 촬영한 실물영상과, 사용자의 발화에 따른 음성명령을 제공하고, 상기 콘텐츠제공장치는, 상기 스마트 글래스로부터 상기 실물영상 및/또는 상기 음성명령을 수신하여 상기 실물영상 및/또는 상기 음성명령에 대응하는 증강현실 컨텐츠를 상기 스마트 글래스에게 제공하는 것을 특징으로 하는, 동영상 이미지를 통한 AR 콘텐츠 생산 시스템을 제공한다.

Description

동영상 이미지를 통한 AR 콘텐츠 생산 시스템{AR Contents Production System}
본 발명은 동영상 이미지를 통한 AR 콘텐츠 생산 시스템에 관한 것으로, 더욱 상세하게는 영상 이미지를 통하여 실시간 증강현실(AR) 콘텐츠를 쉽게 제작할 수 있는 동영상 이미지를 통한 AR 콘텐츠 생산 시스템에 관한 것이다.
최근 디지털 기술의 발달과 함께 이동통신 단말기, 스마트폰(smart phone), 태블릿(tablet) PC(personalcomputer), 노트북(notebook), PDA(personal digital assistant), 웨어러블 장치(wearable device), 디지털 카메라(digital camera) 또는 개인용 컴퓨터(personal computer) 등과 같은 다양한 유형의 전자 장치가 널리 사용되고 있다.
최근에는, 전자 장치에서 통화 기능 및 멀티미디어 재생 기능(예: 음악 재생, 영상 재생)뿐만 아니라, 증강현실(AR, augmented reality) 기능에 대한 연구 개발 및 그 사용이 증가하고 있다. 증강현실은 현실의 사물(예:실제 환경)에 가상의 관련 정보(예: 텍스트, 이미지 등)를 합성하여 보여주는 기술일 수 있다. 증강현실은 실제 환경이라는 객체 위에 가상의 관련 객체를 제공하여, 실제 환경만으로는 획득하기 어려운 부가 정보를 사용자에게 제공할 수 있다.
이러한 증강현실이 적용된 콘텐츠는 전문적인 제작 툴킷을 사용하여 제작해왔기 때문에 제작 난이도가 높고 전문가의 도움 없이 일반인이 만들기 어려웠다.
대한민국 공개특허공보 제10-2019-0101323호
본 발명이 해결하고자 하는 기술적 과제는 영상 이미지를 통하여 실시간 증강현실(AR) 콘텐츠를 쉽게 제작할 수 있는 동영상 이미지를 통한 AR 콘텐츠 생산 시스템을 제공하는 것이다.
또한, 본 발명이 해결하고자 하는 기술적 과제는 증강현실(AR) 제작 툴킷을 사용하여 콘텐츠의 제작 시간을 대폭 절감할 수 있는 동영상 이미지를 통한 AR 콘텐츠 생산 시스템을 제공하는 것이다.
또한, 본 발명이 해결하고자 하는 기술적 과제는 인공지능 기반의 영상식별 기술을 통해 영상의 배경 이미지를 제거하여 특정 오브젝트만 선택 가능하도록 하는 동영상 이미지를 통한 AR 콘텐츠 생산 시스템을 제공하는 것이다.
또한, 본 발명이 해결하고자 하는 기술적 과제는 배경 이미지가 제거된 영상 내에서 특정 오브젝트를 생성하고, 자막, 음성, 효과음 등을 합성하여 증강현실 콘텐츠를 손쉽게 제작하는 동영상 이미지를 통한 AR 콘텐츠 생산 시스템을 제공하는 것이다.
본 발명이 이루고자 하는 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기 기술적 과제를 달성하기 위하여, 통신망을 통해 상호 통신하는 스마트 글래스 및 콘텐츠제공장치를 포함하되, 상기 스마트 글래스는, 사용자의 안면에 착용되어 상기 콘텐츠제공장치로 사용자가 바라보는 물체를 촬영한 실물영상과, 사용자의 발화에 따른 음성명령을 제공하고, 상기 콘텐츠제공장치는, 상기 스마트 글래스로부터 상기 실물영상 및/또는 상기 음성명령을 수신하여 상기 실물영상 및/또는 상기 음성명령에 대응하는 증강현실 컨텐츠를 상기 스마트 글래스에게 제공하는 것을 특징으로 하는, 동영상 이미지를 통한 AR 콘텐츠 생산 시스템을 제공한다.
본 발명의 실시예에 있어서, 상기 콘텐츠제공장치는, 상기 실물영상 및/또는 상기 음성명령을 수신하는 통신모듈; 특정 산업 도메인의 데이터 세트를 바탕으로 딥러닝 인공지능모델을 설정하고, 상기 딥러닝 인공지능모델을 이용하여 상기 실물영상에서 배경을 분리 및/또는 소거하여 기 설정된 객체를 추출하는 영상분석모듈; 오디오, 자막, 영상 중 적어도 하나로 부가지식정보를 생성하는 지식정보생성모듈; 및 상기 객체에 상기 부가지식정보를 합성하여 정보합성 영상을 생성하고, 상기 정보합성 영상을 증강현실 콘텐츠로 변환하는 콘텐츠생성모듈을 포함할 수 있다.
본 발명의 실시예에 있어서, 상기 영상분석모듈은, 특정 산업 도메인에 해당하는 이미지 데이터 세트를 구축하여 딥러닝 인공지능모델을 설정하는 인공지능모델설정부; 및 상기 딥러닝 인공지능모델을 바탕으로 비디오객체분할 방법을 이용하여 영상 내의 특정 객체를 마스킹 처리하여 특정 객체와 배경을 분리하고, 분리된 배경을 소거하여 특정 객체를 추출하는 객체추출부를 포함할 수 있다.
본 발명의 실시예에 있어서, 상기 객체추출부는, 객체 검출의 정확도 측정을 위하여, 상기 실물영상 내의 첫번째 프레임을 바탕으로 상기 딥러닝 인공지능모델을 학습시키도록 설정된 온라인 러닝 기법에 따라 비디오객체분할 벤치마크 지수를 측정하거나, 인터미디어트(intermediate) 프레임 유사도 분석 방법을 이용하여 상기 비디오객체분할 벤치마크 지수를 측정하도록 설정된 오프라인 러닝 기법에 따라 상기 비디오객체분할 벤치마크 지수를 측정할 수 있다.
본 발명의 실시예에 있어서, 상기 스마트 글래스는, 사용자의 안면에 착용되는 프레임 및 렌즈로 이루어져 상기 프레임에 장착되며 기 설정된 좌표영역이 표시되도록 설정된 디스플레이부를 포함하는 글래스모듈, 상기 프레임에 설치되어 사용자의 시선 및/또는 이동에 따라 사용자가 바라보는 물체를 실시간으로 촬영하여 상기 실물영상을 생성하는 카메라 모듈, 상기 프레임에 적어도 하나가 설치되어 사용자의 음성을 입력 처리하는 음성입력모듈, 상기 프레임에 설치되어 서버와 통신하는 글래스통신모듈, 및 상기 글래스통신모듈을 통해 수신한 영상신호를 상기 글래스모듈의 디스플레이부에 표시되도록 처리하고, 상기 음성에 대응하여 기 설정된 동작을 수행하도록 처리하는 글래스제어모듈을 포함할 수 있다.
본 발명의 실시예에 있어서, 상기 글래스제어모듈은, 상기 콘텐츠제공장치로부터 수신한 증강현실 컨텐츠가 상기 글래스모듈에서 표시되도록 상기 증강현실 컨텐츠를 신호처리하여 상기 글래스모듈(110)로 제공하는 영상처리부, 상기 음성입력모듈로부터 수신한 음성을 명령으로 신호처리하여 상기 글래스통신모듈을 통해 상기 콘텐츠제공장치로 음성명령을 제공하는 음성처리부, 및 상기 음성입력모듈을 통해 사용자의 음성이 입력되면, 입력된 음성을 신호처리하도록 상기 음성처리부를 제어하거나, 상기 영상처리부를 통해 증강현실 컨텐츠를 영상신호로 신호처리하여 상기 글래스모듈로 표시할 때 상기 음성입력모듈을 통해 컨텐츠에 대한 실행을 명령하는 사용자의 음성이 입력되면 음성명령을 실행하도록 상기 영상처리부를 제어하는 메인제어부를 포함할 수 있다.
본 발명의 실시예에 있어서, 상기 음성처리부는, 사용자의 발화가 입력된 것으로 판단되면, 증강현실 컨텐츠의 실행명령에 대한 키워드를 추출하여 음성명령으로 신호처리하고 상기 콘텐츠제공장치에 음성명령을 제공할 수 있다.
본 발명의 실시예에 따르면, (동)영상 이미지를 통하여 실시간 증강현실(AR) 콘텐츠를 쉽게 제작할 수 있다.
또한, 본 발명의 실시예에 따르면, 증강현실(AR) 제작 툴킷을 사용하여 콘텐츠의 제작 시간을 대폭 절감할 수 있다.
또한, 본 발명의 실시예에 따르면, 인공지능 기반의 영상식별 기술을 통해 영상의 배경 이미지를 제거하여 특정 오브젝트만 선택 가능하도록 할 수 있다.
또한, 본 발명의 실시예에 따르면, 배경 이미지가 제거된 영상 내에서 특정 오브젝트를 생성하고, 자막, 음성, 효과음 등을 합성하여 증강현실 콘텐츠를 손쉽게 제작할 수 있다.
또한, 본 발명의 실시예에 따르면, 산업 도메인별 데이터 세트 생성을 통한 인공지능 서비스의 빠른 도입을 유도할 수 있다.
또한, 본 발명의 실시예에 따르면, 실시간 객체 추출을 통한 증강현실 콘텐츠를 스트리밍하여 실시간 원격 데이터를 공유할 수 있다.
본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.
도 1은 본 발명의 일 실시예에 따른 동영상 이미지를 통한 AR 콘텐츠 생산 시스템의 구성을 나타내는 도면이다.
도 2는 도 1의 스마트 글래스의 외형 및 구성을 예시적으로 나타내는 도면이다.
도 3은 도 1의 글래스제어모듈의 세부 구성을 예시적으로 나타내는 도면이다.
도 4는 도 1의 영상분석모듈의 세부 구성을 예시적으로 나타내는 도면이다.
도 5는 도 4의 객체추출부에서 배경을 분리하고 소거하는 과정을 나타내는 도면이다.
도 6은 도 1의 콘텐츠생성모듈에서 증강현실 콘텐츠를 생성하는 과정을 나타내는 도면이다.
이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결(접속, 접촉, 결합)"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 구비할 수 있다는 것을 의미한다.
본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하 첨부된 도면을 참고하여 본 발명의 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 동영상 이미지를 통한 AR 콘텐츠 생산 시스템의 구성을 나타내는 도면이다.
도 1을 참조하면, 발명의 일 실시예에 따른 동영상 이미지를 통한 AR 콘텐츠 생산 시스템은 스마트글래스(100) 및 콘텐츠제공장치(200)를 포함할 수 있다.
상기 스마트 글래스(100)는 상기 콘텐츠제공장치(200)와 통신망으로 연결되고, 사용자의 안면에 착용되어 상기 콘텐츠제공장치(200)로 사용자가 바라보는 물체를 촬영한 영상을 실시간으로 제공할 수 있다. 이를 위하여, 상기 스마트 글래스(100)는 글래스모듈(110), 카메라모듈(120), 음성입력모듈(130), 글래스통신모듈(140) 및 글래스제어모듈(150)을 포함할 수 있다.
도 2를 더 참조하면, 상기 글래스모듈(110)은 사용자의 안면에 착용할 수 있도록 안경 형태의 형상으로 형성될 수 있다. 이를 위하여, 상기 글래스모듈(110)은 사용자의 안면에 착용되는 프레임(112) 및 렌즈로 이루어져 상기 프레임(112)에 장착되며 기 설정된 좌표영역이 표시되도록 설정된 디스플레이부(114)를 포함할 수 있다.
여기서, 상기 글래스모듈(110)은 상기 카메라모듈(120), 상기 음성입력모듈(130), 상기 글래스통신모듈(140) 및 상기 글래스제어모듈(150)을 상기 프레임(112)에 내장할 수 있다. 또한, 상기 글래스모듈(110)은 상기 콘텐츠제공장치(200)로부터 증강현실 콘텐츠의 영상신호를 수신하여 상기 디스플레이부(114)에서 출력할 수 있다.
상기 카메라모듈(120)은 상기 프레임(112)의 일측에 설치되어 사용자의 시선 및/또는 이동에 따라 사용자가 바라보는 물체를 실시간으로 촬영하여 실물영상을 생성할 수 있다.
상기 음성입력모듈(130)은 상기 프레임(112)의 일측에 적어도 하나가 설치되어 사용자의 음성을 입력 처리할 수 있다. 예를 들면, 상기 음성입력모듈(130)은 마이크로 구현되며, 상기 글래스모듈(110)을 착용한 사용자의 발화로부터 음성을 감지할 수 있다. 이때, 상기 음성입력모듈(130)이 감지하는 소리는 사용자에 의한 발화와, 사용자 이외에 다양한 요인에 의해 발생하는 소리를 포함할 수 있다.
상기 글래스통신모듈(140)은 상기 프레임(112)의 일측에 설치되어 상기 콘텐츠제공장치(200)와 무선 통신할 수 있다. 이러한 상기 글래스통신모듈(140)은 상기 콘텐츠제공장치(200)의 통신 프로토콜(protocol)에 따라서 유선/무선을 통한 광역/근거리 네트워크나 로컬 접속 방식으로 상기 콘텐츠제공장치(200)에 접속할 수 있다.
상기 글래스제어모듈(150)은 상기 글래스통신모듈(140)을 통해 수신한 증강현실 콘텐츠를 상기 글래스모듈(110)의 디스플레이부(114)에 표시되도록 처리하고, 상기 음성에 대응하여 기 설정된 동작을 수행하도록 처리할 수 있다. 이를 위하여, 상기 글래스제어모듈(150)은 도 3에 도시된 바와 같이 영상처리부(152), 음성처리부(154), 메인제어부(156)를 포함할 수 있다.
상기 영상처리부(152)는 상기 콘텐츠제공장치(200)로부터 수신한 증강현실 컨텐츠가 상기 글래스모듈(110)에서 표시되도록 상기 증강현실 컨텐츠를 신호처리하여 상기 글래스모듈(110)로 제공할 수 있다. 여기서, 상기 영상처리부(152)는 수신된 증강현실 컨텐츠에 포함된 영상신호에 대해 다양한 영상처리 프로세스를 수행할 수 있다. 또한, 상기 영상처리부(152)는 이러한 프로세스를 수행한 영상신호를 상기 글래스모듈(110)의 디스플레이부(114)을 통해 출력시킬 수 있다. 이를 통해, 상기 영상처리부(152)는 상기 디스플레이부(114)에 해당 영상신호에 기초하는 영상을 표시되게 만들 수 있다. 예를 들면, 상기 영상처리부(152)는 수신한 증강현실 컨텐츠로부터 해당 증강현실 컨텐츠에 대응하는 영상, 음성 및/또는 부가데이터를 추출하고, 기 설정된 해상도로 조정하여 상기 글래스모듈(110)을 통해 출력시킬 수 있다.
상기 영상처리부(152)가 수행하는 영상처리 프로세스의 종류는 한정되지 않으며, 예를 들면 영상데이터의 영상 포맷에 대응하는 디코딩(decoding), 인터레이스(interlace) 방식의 영상데이터를 프로그레시브(progressive) 방식으로 변환하는 디인터레이싱(de-interlacing), 영상데이터를 기 설정된 해상도로 조정하는 스케일링(scaling), 영상 화질 개선을 위한 노이즈 감소(noise reduction), 디테일 강화(detail enhancement), 프레임 리프레시 레이트(frame refresh rate) 변환 등을 포함할 수 있다.
상기 음성처리부(154)는 상기 음성입력모듈(130)로부터 수신한 음성을 명령으로 신호처리하여 상기 글래스통신모듈(140)을 통해 상기 콘텐츠제공장치(200)로 음성명령을 제공할 수 있다.
구체적으로, 상기 음성처리부(154)는 상기 음성입력모듈(130)에 입력되는 음성 및/또는 소리에 대한 음성처리 프로세스를 수행할 수 있다. 여기서, 상기 음성처리부(154)는 상기 음성입력모듈(130)에 음성 및/또는 소리가 입력되면, 입력된 음성 및/또는 소리가 사용자에 의한 발화인지 아니면 기타 요인에 의하여 발생한 소리인지 여부를 판단할 수 있다. 그러나, 이러한 판단 방법은 다양한 구조가 적용될 수 있으므로 입력된 음성 및/또는 소리가 사람의 목소리에 대응하는 파장 및/또는 주파수 대역에 해당하는지 판단하거나, 또는 사전에 지정된 사용자의 음성의 프로파일에 해당하는지 판단하는 등의 방법을 사용할 수 있다.
또한, 상기 음성처리부(154)는 사용자의 발화가 입력된 것으로 판단되면, 상기 증강현실 컨텐츠의 실행명령에 대한 키워드(실행명령 키워드)를 추출하여 음성명령으로 신호처리하고 상기 콘텐츠제공장치(200)에 음성명령을 제공할 수 있다. 이를 통해, 상기 음성처리부(154)는 사용자의 발화에 따라 기 설정된 대응 동작이 수행될 수 있도록 지원할 수 있다.
상기 메인제어부(156)는 상기 음성입력모듈(130)을 통해 사용자의 음성이 입력되면, 입력된 음성을 신호처리하도록 상기 음성처리부(154)를 제어할 수 있다. 또한, 상기 메인제어부(156)는 상기 영상처리부(152)를 통해 증강현실 컨텐츠를 영상신호로 신호처리하여 상기 글래스모듈(110)로 표시할 때 상기 음성입력모듈(130)을 통해 컨텐츠에 대한 실행을 명령하는 사용자의 음성이 입력되면 음성명령을 실행하도록 상기 영상처리부(152)를 제어할 수 있다.
상기와 같은, 상기 글래스제어모듈(150)은 이러한 여러 기능을 통합시킨 SOC(system-on-chip), 또는 이러한 각 프로세스를 독자적으로 수행할 수 있는 개별적인 구성들이 인쇄회로기판 상에 장착됨으로써 영상처리보드(미도시)로 구현되어 상기 글래스모듈(110)에 내장될 수 있다.
상기 콘텐츠제공장치(200)는 상기 스마트 글래스(100)와 통신망으로 연결되고, 상기 스마트 글래스(100)로부터 상기 실물영상 및/또는 상기 음성명령을 수신하여 상기 실물영상 및/또는 상기 음성명령에 대응하는 증강현실 콘텐츠를 상기 스마트 글래스(100)에 제공할 수 있다.
이를 위하여, 상기 콘텐츠제공장치(200)는 통신모듈(210), 영상분석모듈(220), 지식정보생성모듈(230) 및 콘텐츠생성모듈(240)을 포함할 수 있다.
상기 통신모듈(210)은 상기 글래스통신모듈(140)과 통신하여 실물영상 및/또는 음성명령을 수신하고, 상기 스마트 글래스(100)에 상기 실물영상 및/또는 상기 음성명령에 대응하는 증강현실 컨텐츠를 영상신호로 송신할 수 있다.
상기 영상분석모듈(220)은 특정 산업 도메인의 데이터 세트를 바탕으로 딥러닝 인공지능모델을 설정하고, 상기 딥러닝 인공지능모델을 이용하여 상기 실물영상에서 배경을 분리 및/또는 소거하여 기 설정된 객체를 추출할 수 있다. 이를 위하여, 상기 영상분석모듈(220)은 인공지능모델설정부(222), 및 객체추출부(224)를 포함할 수 있다.
상기 인공지능모델설정부(222)는 특정 산업 도메인에 해당하는 이미지 데이터 세트를 구축하여 딥러닝 인공지능모델을 설정할 수 있다. 예를 들면, 상기 인공지능모델설정부(222)는 밸브와 같은 배관부품의 동일이미지 및/또는 유사이미지를 이용하여 이미지 데이터 세트를 구축하고, 구축된 이미지 데이터 세트로 딥러닝 인공지능모델을 학습시킬 수 있다. 이때, 상기 인공지능모델설정부(222)는 데이터 세트의 전처리 프로그램 툴킷(toolkit)을 포함할 수 있으며, 상기 전처리 프로그램 툴킷을 이용하여 인공지능학습 배치(btch)를 수행할 수 있다. 또한, 상기 인공지능모델설정부(222)는 딥러닝 인공지능모델의 일환으로, 이미지 데이터에 대한 분할 마스크(segmentation mask)를 적용한 인공지능학습모델과, 비디오 데이터에서 추출한 프레임 데이터에 대한 유사도 인공지능학습모델을 설정할 수 있다.
상기 객체추출부(224)는 상기 딥러닝 인공지능모델을 바탕으로 비디오객체분할(Video Object Segmentation: 이하, VOS) 방법을 이용하여 (동)영상 내의 특정 객체를 마스킹(Masking) 처리하여 특정 객체와 배경을 분리하고, 분리된 배경을 소거하여 특정 객체를 추출할 수 있다. 예를 들면, 상기 객체추출부(224)는 도 5에 도시된 바와 같이 동영상에서 배경을 분리하고, 분리된 배경을 소거하여 객체를 추출할 수 있다.
여기서, 상기 객체추출부(224)는 인공지능 기반의 영상식별 기술을 바탕으로 하는 툴킷으로서, 객체 추출 자동화를 수행할 수 있다. 이를 위하여, 상기 객체추출부(224)는 동영상의 프레임 변화에 따른 이웃 프레임들과의 유사도 측정을 위한 인터미디어트(intermediate) 프레임 유사도 분석을 수행할 수 있다. 또한, 상기 객체추출부(224)는 동영상 내의 모든 프레임에서 특정 객체 추적을 수행할 수 있다.
이러한, 상기 객체추출부(224)는 객체 검출의 정확도 측정을 위하여 온라인 러닝 기법 또는 오프라인 러닝 기법에 따라 VOS 벤치마크 지수를 측정할 수 있다.
예를 들면, 상기 객체추출부(224)는 상기 실물영상 내의 첫번째 프레임을 바탕으로 상기 딥러닝 인공지능모델을 학습시키도록 설정된 상기 온라인 러닝 기법에 따라 상기 VOS 벤치마크 지수를 측정할 수 있다. 또는, 상기 객체추출부(224)는 인터미디어트(intermediate) 프레임 유사도 분석 방법을 이용하여 상기 VOS 벤치마크 지수를 측정하도록 설정된 상기 오프라인 러닝 기법에 따라 상기 VOS 벤치마크 지수를 측정할 수 있다. 예를 들면, 상기 객체추출부(224)는 동영상 내의 이웃 프레임들 간의 포어그라운드 확률지도(foreground probability map)를 통한 유사도를 측정할 수 있다. 이때, 상기 객체추출부(224)는 등의 측정 벤치마크 데이터세트로 Youtube-VOS(YV), DAIVS 2017 등을 이용할 수 있다.
이러한 상기 객체추출부(224)는 온라인 러닝 기법 또는 오프라인 러닝 기법에 따른 객체 검출 정확도를 동영상 전체 프레임 내에서 지적된 객체의 검출율로 측정할 수 있으며, 상기 실물영상 내에 지정된 이미지를 특정 프레임에서 검출하는지 여부로 오인식을 판단할 수 있다.
상기 지식정보생성모듈(230)은 오디오(음악, 효과음), 자막, 영상 중 적어도 하나로 부가지식정보를 생성할 수 있다.
상기 콘텐츠생성모듈(240)은 도 6에 도시된 바와 같이 마스킹 처리된 상기 객체에 상기 부가지식정보를 합성하여 정보합성 영상을 생성하고, 상기 정보합성 영상을 증강현실 콘텐츠로 변환할 수 있다.
본 발명의 실시예에 따르면, (동)영상 이미지를 통하여 실시간 증강현실(AR) 콘텐츠를 쉽게 제작할 수 있다.
또한, 본 발명의 실시예에 따르면, 증강현실(AR) 제작 툴킷을 사용하여 콘텐츠의 제작 시간을 대폭 절감할 수 있다.
또한, 본 발명의 실시예에 따르면, 인공지능 기반의 영상식별 기술을 통해 영상의 배경 이미지를 제거하여 특정 오브젝트만 선택 가능하도록 할 수 있다.
또한, 본 발명의 실시예에 따르면, 배경 이미지가 제거된 영상 내에서 특정 오브젝트를 생성하고, 자막, 음성, 효과음 등을 합성하여 증강현실 콘텐츠를 손쉽게 제작할 수 있다.
또한, 본 발명의 실시예에 따르면, 산업 도메인별 데이터 세트 생성을 통한 인공지능 서비스의 빠른 도입을 유도할 수 있다.
또한, 본 발명의 실시예에 따르면, 실시간 객체 추출을 통한 증강현실 콘텐츠를 스트리밍하여 실시간 원격 데이터를 공유할 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 스마트 글래스
200: 콘텐츠제공장치

Claims (7)

  1. 통신망을 통해 상호 통신하는 스마트 글래스 및 콘텐츠제공장치를 포함하되,
    상기 스마트 글래스는,
    사용자의 안면에 착용되어 상기 콘텐츠제공장치로 사용자가 바라보는 물체를 촬영한 실물영상과, 사용자의 발화에 따른 음성명령을 제공하고,
    상기 콘텐츠제공장치는,
    특정 산업 도메인의 데이터 세트를 바탕으로 딥러닝 인공지능모델을 설정하고, 상기 딥러닝 인공지능모델을 이용하여 상기 실물영상에서 배경을 분리 및/또는 소거하여 기 설정된 객체를 추출하는 영상분석모듈을 포함하여,
    상기 스마트 글래스로부터 상기 실물영상 및 상기 음성명령 중 적어도 하나를 수신하여 상기 실물영상 및 상기 음성명령 중 적어도 하나에 대응하는 증강현실 컨텐츠를 상기 스마트 글래스에게 제공하며,
    상기 영상분석모듈은,
    특정 산업 도메인에 해당하는 이미지 데이터 세트를 구축하여 딥러닝 인공지능모델을 설정하는 인공지능모델설정부; 및
    상기 딥러닝 인공지능모델을 바탕으로 비디오객체분할 방법을 이용하여 영상 내의 특정 객체를 마스킹 처리하여 특정 객체와 배경을 분리하고, 분리된 배경을 소거하여 특정 객체를 추출하는 객체추출부;
    를 포함하는 것을 특징으로 하는, 동영상 이미지를 통한 AR 콘텐츠 생산 시스템.
  2. 제1항에 있어서,
    상기 콘텐츠제공장치는,
    상기 실물영상 및/또는 상기 음성명령을 수신하는 통신모듈;
    오디오, 자막, 영상 중 적어도 하나로 부가지식정보를 생성하는 지식정보생성모듈; 및
    상기 객체에 상기 부가지식정보를 합성하여 정보합성 영상을 생성하고, 상기 정보합성 영상을 증강현실 콘텐츠로 변환하는 콘텐츠생성모듈;
    을 더 포함하는 것을 특징으로 하는, 동영상 이미지를 통한 AR 콘텐츠 생산 시스템.
  3. 삭제
  4. 제1항에 있어서,
    상기 객체추출부는,
    객체 검출의 정확도 측정을 위하여,
    상기 실물영상 내의 첫번째 프레임을 바탕으로 상기 딥러닝 인공지능모델을 학습시키도록 설정된 온라인 러닝 기법에 따라 비디오객체분할 벤치마크 지수를 측정하거나,
    인터미디어트(intermediate) 프레임 유사도 분석 방법을 이용하여 상기 비디오객체분할 벤치마크 지수를 측정하도록 설정된 오프라인 러닝 기법에 따라 상기 비디오객체분할 벤치마크 지수를 측정하는 것을 특징으로 하는, 동영상 이미지를 통한 AR 콘텐츠 생산 시스템.
  5. 제1항에 있어서,
    상기 스마트 글래스는,
    사용자의 안면에 착용되는 프레임 및 렌즈로 이루어져 상기 프레임에 장착되며 기 설정된 좌표영역이 표시되도록 설정된 디스플레이부를 포함하는 글래스모듈;
    상기 프레임에 설치되어 사용자의 시선 및/또는 이동에 따라 사용자가 바라보는 물체를 실시간으로 촬영하여 상기 실물영상을 생성하는 카메라 모듈;
    상기 프레임에 적어도 하나가 설치되어 사용자의 음성을 입력 처리하는 음성입력모듈;
    상기 프레임에 설치되어 서버와 통신하는 글래스통신모듈; 및
    상기 글래스통신모듈을 통해 수신한 영상신호를 상기 글래스모듈의 디스플레이부에 표시되도록 처리하고, 상기 음성에 대응하여 기 설정된 동작을 수행하도록 처리하는 글래스제어모듈;
    을 포함하는 것을 특징으로 하는, 동영상 이미지를 통한 AR 콘텐츠 생산 시스템.
  6. 제5항에 있어서,
    상기 글래스제어모듈은,
    상기 콘텐츠제공장치로부터 수신한 증강현실 컨텐츠가 상기 글래스모듈에서 표시되도록 상기 증강현실 컨텐츠를 신호처리하여 상기 글래스모듈로 제공하는 영상처리부;
    상기 음성입력모듈로부터 수신한 음성을 명령으로 신호처리하여 상기 글래스통신모듈을 통해 상기 콘텐츠제공장치로 음성명령을 제공하는 음성처리부; 및
    상기 음성입력모듈을 통해 사용자의 음성이 입력되면, 입력된 음성을 신호처리하도록 상기 음성처리부를 제어하거나, 상기 영상처리부를 통해 증강현실 컨텐츠를 영상신호로 신호처리하여 상기 글래스모듈로 표시할 때 상기 음성입력모듈을 통해 컨텐츠에 대한 실행을 명령하는 사용자의 음성이 입력되면 음성명령을 실행하도록 상기 영상처리부를 제어하는 메인제어부;
    를 포함하는 것을 특징으로 하는, 동영상 이미지를 통한 AR 콘텐츠 생산 시스템.
  7. 제6항에 있어서,
    상기 음성처리부는,
    사용자의 발화가 입력된 것으로 판단되면, 증강현실 컨텐츠의 실행명령에 대한 키워드를 추출하여 음성명령으로 신호처리하고 상기 콘텐츠제공장치에 음성명령을 제공하는 것을 특징으로 하는, 동영상 이미지를 통한 AR 콘텐츠 생산 시스템.
KR1020200027662A 2020-03-05 2020-03-05 동영상 이미지를 통한 ar 콘텐츠 생산 시스템 KR102290549B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200027662A KR102290549B1 (ko) 2020-03-05 2020-03-05 동영상 이미지를 통한 ar 콘텐츠 생산 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200027662A KR102290549B1 (ko) 2020-03-05 2020-03-05 동영상 이미지를 통한 ar 콘텐츠 생산 시스템

Publications (1)

Publication Number Publication Date
KR102290549B1 true KR102290549B1 (ko) 2021-08-19

Family

ID=77492279

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200027662A KR102290549B1 (ko) 2020-03-05 2020-03-05 동영상 이미지를 통한 ar 콘텐츠 생산 시스템

Country Status (1)

Country Link
KR (1) KR102290549B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230063946A (ko) 2021-10-29 2023-05-10 한국전자기술연구원 엣지 서버와 연동하는 ar 스트리밍 장치 및 방법, 시스템
KR102565420B1 (ko) * 2022-11-21 2023-08-09 주식회사 비브스튜디오스 가상 제작 환경에서 객체 분할을 수행하는 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190056935A (ko) * 2017-11-17 2019-05-27 주식회사 코이노 휴대단말과 원격관리장치 및 이를 이용한 증강현실 기반 원격 가이던스 방법
KR20190101323A (ko) 2019-08-12 2019-08-30 엘지전자 주식회사 Ar 모드 및 vr 모드를 제공하는 xr 디바이스 및 그 제어 방법
KR102084723B1 (ko) * 2018-06-27 2020-03-04 (주)비젼에이드 플라스틱 엘시디 셰이드를 구비한 증강현실 및 가상현실 겸용 스마트 글라스 디스플레이 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190056935A (ko) * 2017-11-17 2019-05-27 주식회사 코이노 휴대단말과 원격관리장치 및 이를 이용한 증강현실 기반 원격 가이던스 방법
KR102084723B1 (ko) * 2018-06-27 2020-03-04 (주)비젼에이드 플라스틱 엘시디 셰이드를 구비한 증강현실 및 가상현실 겸용 스마트 글라스 디스플레이 장치
KR20190101323A (ko) 2019-08-12 2019-08-30 엘지전자 주식회사 Ar 모드 및 vr 모드를 제공하는 xr 디바이스 및 그 제어 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230063946A (ko) 2021-10-29 2023-05-10 한국전자기술연구원 엣지 서버와 연동하는 ar 스트리밍 장치 및 방법, 시스템
KR102565420B1 (ko) * 2022-11-21 2023-08-09 주식회사 비브스튜디오스 가상 제작 환경에서 객체 분할을 수행하는 방법

Similar Documents

Publication Publication Date Title
WO2021135577A1 (zh) 音频信号处理方法、装置、电子设备及存储介质
CN108594997B (zh) 手势骨架构建方法、装置、设备及存储介质
JP5928606B2 (ja) 搭乗者の聴覚視覚入力の乗り物ベースの決定
CN110519636B (zh) 语音信息播放方法、装置、计算机设备及存储介质
US10878819B1 (en) System and method for enabling real-time captioning for the hearing impaired via augmented reality
CN108076290B (zh) 一种图像处理方法及移动终端
US11527242B2 (en) Lip-language identification method and apparatus, and augmented reality (AR) device and storage medium which identifies an object based on an azimuth angle associated with the AR field of view
KR102290549B1 (ko) 동영상 이미지를 통한 ar 콘텐츠 생산 시스템
CN110322760B (zh) 语音数据生成方法、装置、终端及存储介质
WO2022241784A1 (zh) 缺陷检测方法及装置、存储介质及电子设备
EP3975046B1 (en) Method and apparatus for detecting occluded image and medium
KR20140146965A (ko) 디스플레이 장치, 서버를 포함하는 변환 시스템 및 디스플레이 장치의 제어 방법
EP4287068A1 (en) Model training method, scene recognition method, and related device
CN112116904A (zh) 语音转换方法、装置、设备及存储介质
CN115620728A (zh) 音频处理方法、装置、存储介质及智能眼镜
EP3084721A1 (en) Camera array analysis mechanism
KR102291740B1 (ko) 영상처리 시스템
KR20130096983A (ko) 얼굴을 포함하는 영상 처리 방법 및 장치
Warrier et al. Software based sign language converter
CN115439614B (zh) 虚拟形象的生成方法、装置、电子设备和存储介质
JP6754154B1 (ja) 翻訳プログラム、翻訳装置、翻訳方法、及びウェアラブル端末
CN113836946A (zh) 训练评分模型的方法、装置、终端及存储介质
Kumar et al. Sign Language to Speech Conversion—An Assistive System for Speech Impaired
CN113205530A (zh) 阴影区域处理方法及装置、计算机可读介质和电子设备
Manikanavar et al. Gesture Controlled Assistive Device for Deaf, Dumb and Blind People Using Raspberry-Pi

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant