KR102438743B1 - 클라우드 서비스용 3d 매뉴얼을 2d 인터랙티브 비디오로 변환하는 방법 및 장치 - Google Patents

클라우드 서비스용 3d 매뉴얼을 2d 인터랙티브 비디오로 변환하는 방법 및 장치 Download PDF

Info

Publication number
KR102438743B1
KR102438743B1 KR1020220026672A KR20220026672A KR102438743B1 KR 102438743 B1 KR102438743 B1 KR 102438743B1 KR 1020220026672 A KR1020220026672 A KR 1020220026672A KR 20220026672 A KR20220026672 A KR 20220026672A KR 102438743 B1 KR102438743 B1 KR 102438743B1
Authority
KR
South Korea
Prior art keywords
manual
annotations
video
annotation
automatically
Prior art date
Application number
KR1020220026672A
Other languages
English (en)
Inventor
조근식
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020220026672A priority Critical patent/KR102438743B1/ko
Priority to JP2022072229A priority patent/JP7305224B1/ja
Priority to US17/747,487 priority patent/US20230245370A1/en
Application granted granted Critical
Publication of KR102438743B1 publication Critical patent/KR102438743B1/ko
Priority to DE102022129437.4A priority patent/DE102022129437A1/de
Priority to GB2216976.7A priority patent/GB2616328B/en
Priority to CN202211421986.0A priority patent/CN116708932A/zh
Priority to FR2213730A priority patent/FR3133260A1/fr

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8543Content authoring using a description language, e.g. Multimedia and Hypermedia information coding Expert Group [MHEG], eXtensible Markup Language [XML]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440218Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/003Navigation within 3D models or images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • G06V30/422Technical drawings; Geographical maps
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/356Image reproducers having separate monoscopic and stereoscopic modes
    • H04N13/359Switching between monoscopic and stereoscopic modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/222Secondary servers, e.g. proxy server, cable television Head-end
    • H04N21/2223Secondary servers, e.g. proxy server, cable television Head-end being a public access point, e.g. for downloading to or uploading from clients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/004Annotating, labelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Computer Graphics (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Architecture (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Security & Cryptography (AREA)
  • Input From Keyboards Or The Like (AREA)

Abstract

클라우드 서비스용 3D 매뉴얼을 2D 인터랙티브 비디오로 변환하기 위한 방법 및 장치가 제시된다. 본 발명에서 제안하는 클라우드 서비스용 3D 매뉴얼을 2D 인터랙티브 비디오로 변환하는 방법은 학습부를 통해 클라우드 서비스용 3D 매뉴얼의 어노테이션에 대한 라벨링 작업 및 상기 어노테이션을 인식하기 위한 기계학습을 수행하는 단계, 상기 어노테이션을 자동 인식하고, 자동 인식되지 않은 어노테이션에 대하여 비디오 에디터를 통해 미세 조정을 수행하고, 3D 매뉴얼을 2D 인터랙티브 비디오로 변환하기 위한 파일을 생성하는 단계, 2D 매뉴얼 연결부를 통해 상기 파일을 이용하여 3D 매뉴얼을 해당 2D 매뉴얼과 연결하는 단계, 지식 관리부를 통해 상기 2D 매뉴얼의 작업 지시서에 기초하여 인공지능 지식을 추출하여 처리하는 단계 및 신경 언어 음성 실행부를 통해 상기 인공지능 지식, 디지털 트윈 및 3D 매뉴얼의 어노테이션에 기초하여 명령을 수행하기 위해, 음성 요청을 처리하기 위한 신경망 작업과 언어적 추론을 수행하고, 사용자에게 시각 및 음성 피드백을 전송하여 요청된 작업의 처리 및 완료에 대해 통지하는 단계를 포함한다.

Description

클라우드 서비스용 3D 매뉴얼을 2D 인터랙티브 비디오로 변환하는 방법 및 장치{Method and Apparatus for Converting 3D Manuals into 2D Interactive Videos for Cloud Service}
본 발명은 클라우드 서비스용 3D 매뉴얼을 2D 인터랙티브 비디오로 변환하는 방법 및 장치에 관한 것이다.
항공기와 같이 복잡한 기술 매뉴얼은 고도화된 전문가가 어노테이션이 필요한 비디오를 위한 전용 비디오 어노테이션 툴을 이용하여 어노테이션을 작성하거나 또는 비전문가가 단순 텍스트를 화면에 배치하는 단순한 수준의 어노테이션을 작성할 수 있다. 이때, 작성되는 어노테이션은 대부분 고정된 위치에 움직임이 없는 정적인 어노테이션으로 작성된다. 또한, 이러한 어노테이션은 비디오를 시청하는 사용자에게 일방적으로 제공만 되는 형태이거나, 움직임이 없는 정적 텍스트 또는 이미지 형태로만 제공되거나, 사용자와 상호 작용을 하나 단순히 다른 비디오 혹은 웹사이트로 연결이 되는 링크만 제공하는 수준이다.
예를 들면, 한국등록특허 제10-1072347호(2011.10.5)에는 텍스트 정보를 이용하여 소정 장면의 상황에 관한 장면 상황정보를 생성하는 기술이 개시되어 있다.
이와 같이, 제공되는 비디오의 텍스트 또는 이미지로 된 어노테이션을 일방적으로 제공받기만 하면 사용자는 이에 상호작용 할 수가 없고 또한 미리 작성된 어노테이션에 추가로 필요한 정보를 제공 받거나 추가할 수 없다.
이러한 단순한 형태의 어노테이션은 사용자가 제공되는 어노테이션을 통해 다양한 정보 획득 및 상호 작용의 요구가 있음에도 불구하고 일방적으로 정적으로만 보여주거나, 상호 작용을 하지만 단순히 링크 수준으로 제공됨으로써 사용자는 다양한 정보 획득 및 추가 작업을 위해 화면을 벗어나 별도의 행동을 추가로 수행해야 하는 번거로움이 빈번하게 발생한다.
예를 들어, 현재까지 항공기와 같이 복잡한 기술 매뉴얼은 분해 조립에 필요한 지시서(Instructions) 및 종이에 기반한 2D 설계도(engineering drawing)를 참조하며 현실 세계의 3차원 기계 부품에 대조하며 작업을 수행하여 왔다. 종이 기반의 2D 매뉴얼이기 때문에 현실세계의 물리적 기계와 부품번호 등의 매치가 어렵고 이해하는데 시간이 걸리게 되어 효율적인 작업이 어려울 뿐만 아니라 오류가 발생하기 쉽다.
한국등록특허 제10-1072347호(2011.10.5)
본 발명이 이루고자 하는 기술적 과제는 클라우드 서비스용 3D 매뉴얼을 2D 인터랙티브 비디오로 변환하는 방법 및 장치를 제공하는데 있다. 더욱 상세하게는 항공기와 같이 복잡한 3D 매뉴얼에 대하여 XR(eXtended Reality) 기술을 통해 실제 기계의 디지털 트윈(digital twin)을 3차원으로 만들고, 해당 화면 상에 분해 조립에 필요한 지시서, 애니메이션 및 2D 설계도를 추가적으로 제공하기 위한 방법 및 장치를 제공하고자 한다.
일 측면에 있어서, 본 발명에서 제안하는 클라우드 서비스용 3D 매뉴얼을 2D 인터랙티브 비디오로 변환하는 방법은 학습부를 통해 클라우드 서비스용 3D 매뉴얼의 어노테이션에 대한 라벨링 작업 및 상기 어노테이션을 인식하기 위한 기계학습을 수행하는 단계, 상기 어노테이션을 자동 인식하고, 자동 인식되지 않은 어노테이션에 대하여 비디오 에디터를 통해 미세 조정을 수행하고, 3D 매뉴얼을 2D 인터랙티브 비디오로 변환하기 위한 파일을 생성하는 단계, 2D 매뉴얼 연결부를 통해 상기 파일을 이용하여 3D 매뉴얼을 해당 2D 매뉴얼과 연결하는 단계, 지식 관리부를 통해 상기 2D 매뉴얼의 작업 지시서에 기초하여 인공지능 지식을 추출하여 처리하는 단계 및 신경 언어 음성 실행부를 통해 상기 인공지능 지식, 디지털 트윈 및 3D 매뉴얼의 어노테이션에 기초하여 명령을 수행하기 위해, 음성 요청을 처리하기 위한 신경망 작업과 언어적 추론을 수행하고, 사용자에게 시각 및 음성 피드백을 전송하여 요청된 작업의 처리 및 완료에 대해 통지하는 단계를 포함한다.
상기 학습부를 통해 클라우드 서비스용 3D 매뉴얼의 어노테이션에 대한 라벨링 작업 및 상기 어노테이션을 인식하기 위한 기계학습을 수행하는 단계는 상기 3D 매뉴얼의 어노테이션 개체의 위치를 좌표계로 나타내고, 상기 어노테이션의 위치를 자동인식하도록 3D 매뉴얼의 어노테이션에 대한 라벨링 작업을 수행하고, 라벨링 후 객체 감지 모델을 통해 비디오 상의 객체에 관한 해당 어노테이션을 자동으로 인식하기 위해 기계학습을 수행한다.
상기 어노테이션을 자동 인식하고, 자동 인식되지 않은 어노테이션에 대하여 비디오 에디터를 통해 미세 조정을 수행하고, 3D 매뉴얼을 2D 인터랙티브 비디오로 변환하기 위한 파일을 생성하는 단계는 어노테이션의 위치 및 형태를 비디오 에디터를 통해 조정한 후 어노테이션의 지속 시간을 조정하여 자동 인식되지 않은 어노테이션을 조정하고, 자동인식된 어노테이션은 객체 정보, 부품 정보, 다음 작업 및 이전 작업 이동을 위한 마크, 부품의 위치, 관련 비디오, 주의 및 경고 버튼을 포함하는 상호 작용을 위한 작업 목록을 나타낸다.
상기 2D 매뉴얼 연결부를 통해 상기 파일을 이용하여 3D 매뉴얼을 해당 2D 매뉴얼과 연결하는 단계는 비디오 상의 2D 드로잉 위치, 개체 레이블 이름, 상호 작용을 위한 경계 상자의 시작 시간 및 종료 시간, 비디오 프레임의 경계 상자 위치를 포함하는 상기 파일을 이용하여 3D 매뉴얼을 해당 2D 매뉴얼과 연결하고, 비디오 상의 어노테이션을 클릭할 경우 해당 상호 작용을 수행하도록 한다.
또 다른 일 측면에 있어서, 본 발명에서 제안하는 클라우드 서비스용 3D 매뉴얼을 2D 인터랙티브 비디오로 변환하기 위한 장치는 클라우드 서비스용 3D 매뉴얼의 어노테이션에 대한 라벨링 작업 및 상기 어노테이션을 인식하기 위한 기계학습을 수행하는 학습부, 상기 어노테이션을 자동 인식하고, 자동 인식되지 않은 어노테이션에 대하여 미세 조정을 수행하고, 3D 매뉴얼을 2D 인터랙티브 비디오로 변환하기 위한 파일을 생성하는 비디오 에디터, 상기 파일을 이용하여 3D 매뉴얼을 해당 2D 매뉴얼과 연결하는 2D 매뉴얼 연결부, 상기 2D 매뉴얼의 작업 지시서에 기초하여 인공지능 지식을 추출하여 처리하는 지식 관리부 및 상기 인공지능 지식, 디지털 트윈 및 3D 매뉴얼의 어노테이션에 기초하여 명령을 수행하기 위해, 음성 요청을 처리하기 위한 신경망 작업과 언어적 추론을 수행하고, 사용자에게 시각 및 음성 피드백을 전송하여 요청된 작업의 처리 및 완료에 대해 통지하는 신경 언어 음성 실행부를 포함한다.
본 발명의 실시예들에 따른 클라우드 서비스용 3D 매뉴얼을 2D 인터랙티브 비디오로 변환하는 방법 및 장치는 항공기와 같이 복잡한 3D 매뉴얼에 대하여 XR(eXtended Reality) 기술을 통해 실제 기계의 디지털 트윈(digital twin)을 3차원으로 만들고, 해당 화면 상에 분해 조립에 필요한 지시서, 애니메이션 및 2D 설계도를 추가적으로 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 3D 매뉴얼과 종래기술에 따른 2D 매뉴얼을 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 클라우드 서비스용 3D 매뉴얼을 2D 인터랙티브 비디오로 변환하기 위한 장치의 구성을 나타내는 도면이다.
도 3은 본 발명의 일 실시예에 따른 클라우드 서비스용 3D 매뉴얼을 2D 인터랙티브 비디오로 변환하기 위한 방법을 설명하기 위한 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 어노테이션 개체의 위치를 나타내는 과정을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 어노테이션에 대한 라벨링 작업 과정을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 기계학습 과정을 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따른 자동 객체 감지 모델 사용의 예시를 나타내는 도면이다.
도 8은 본 발명의 일 실시예에 따른 3D 매뉴얼을 해당 2D 매뉴얼과 연결하는 과정을 설명하기 위한 도면이다.
도 9는 본 발명의 일 실시예에 따른 상호작용을 위한 3D 매뉴얼 애셋의 구조를 나타내는 도면이다.
도 10은 본 발명의 일 실시예에 따른 자동으로 구조화된 파일을 나타내는 도면이다.
이하, 본 발명의 실시 예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 3D 매뉴얼과 종래기술에 따른 2D 매뉴얼을 나타내는 도면이다.
도 1(a)는 종래기술에 따른 2D 매뉴얼을 나타내는 도면이고, 도 1(b)는 본 발명의 일 실시예에 따른 3D 매뉴얼을 나타내는 도면이다.
도 1(a)와 같이, 현재까지 항공기와 같이 복잡한 기술 매뉴얼은 분해 조립에 필요한 지시서(Instructions)(110) 및 종이에 기반한 2D 설계도(engineering drawing)(120)를 참조하며 현실 세계의 3차원 기계 부품에 대조하며 작업을 수행하여 왔다. 이러한 방법은 종이 기반의 2D 매뉴얼이기 때문에 현실세계의 물리적 기계와 부품 번호 등의 매치가 어렵고 이해하는데 시간이 걸리게 되어 효율적인 작업이 어려울 뿐만 아니라 오류가 발생하기 쉽다.
본 발명에서 제안하는 3D 매뉴얼은 XR(eXtended Reality)기술을 통해 실제 기계의 디지털 트윈(digital twin)을 3차원으로 만들고 그 화면 상에 분해 조립에 필요한 지시서, 애니메이션 및 2D 설계도를 추가적으로 제공할 수 있다.
도 1(b)와 같이, 3D 버추얼(virtual) 기계(130) 상에 작업지시서(150) 및 그에 필요한 파트(part)번호 및 각종 2D 설계도(140)가 표시될 수 있다.
본 발명의 실시예에 따르면, 메타버스 세상의 3D 콘텐츠와 매뉴얼을 접목하고 3D 상에서 작업자가 작업할 시야의 관점에서 비디오를 만들어 각종 2D 설계도와 작업자가 필요한 정보를 원-클릭(one-click)으로 제공할 수 있다.
본 발명의 실시예에 따르면, 항공기 유지 관리 매뉴얼이 포함된 3D 콘텐츠를 클라우드에서 다운로드하는 데 걸리는 시간을 줄이기 위해 3D 애니메이션과 어노테이션의 특정 시점을 보존하여 3D 매뉴얼과 완전히 동일한 인터랙티브 비디오(interactive video)를 생성할 수 있다.
여기서, 인터랙티브 비디오는 동영상 관련 정보를 제공하기 위해 클릭 가능한 개체를 제공하는 동영상 유형으로서, 부품의 설계도를 보여 주고 필요한 툴(Tool)의 사용법을 제시하며, 다음 작업 지시서로 이동하는 등의 절차적 정보를 간단한 언어나 제스쳐로 제공이 가능하다. 이러한 인터랙티브 비디오를 통해 비디오의 개체에 대한 정보를 얻을 수 있고, 항공기 매뉴얼 지침에 대한 자세한 정보를 클릭하여 알 수 있으며, 개체를 클릭하여 비디오와 상호 작용할 수 있다.
도 2는 본 발명의 일 실시예에 따른 클라우드 서비스용 3D 매뉴얼을 2D 인터랙티브 비디오로 변환하기 위한 장치의 구성을 나타내는 도면이다.
본 발명에서 제안하는 3D 매뉴얼을 2D 인터랙티브 비디오로 변환하는 장치는 3D 매뉴얼을 XR(eXtended Reality) 기술을 통해 실제 기계의 디지털 트윈(digital twin)을 3차원으로 만들고 그 화면 상에 분해 조립에 필요한 지시서, 애니메이션 및 2D 설계도를 추가적으로 제공하게 된다. 혼합 현실에서의 고가의 항공기를 포함하는 복잡한 기계류 훈련, 교육 시스템은 기계류의 정비 훈련, 교육 및 홍보를 위한 메타버스 혼합 현실(Mixed Reality; MR)에서, 디지털 트윈과 함께 기계 부품의 장착 및 탈착을 위한 매뉴얼의 제공과 그 애니메이션 형태의 시뮬레이션을 수행하여 사용자의 시야에 제공하게 된다. 이러한 SaaS 모델의 서비스를 위해 디지털 트윈은 방대한 컴퓨터 그래픽 데이터와 방대한 매뉴얼 등의 데이터가 클라우드 기반 서비스를 통해 제공되어야 한다. 하지만, 디지털 트윈의 방대한 양의 컴퓨터 그래픽 데이터와 텍스트 매뉴얼 및 2D설계도 등을 클라우드로부터 클라이언드 사이드로 다운받기 위해 상대적으로 많은 시간을 소요하게 되어 실시간성이 문제가 된다.
본 발명에서는 3D 매뉴얼의 효율적 다운로드 서비스를 위해 특정 부품의 장착 및 탈착을 위한 시각적 관점에서 3D 매뉴얼을 인터렉티브 비디오로 변환하여 클라우드 기반에서 효율적으로 서비스하는 방안을 제시한다.
제안하는 클라우드 서비스용 3D 매뉴얼을 2D 인터랙티브 비디오로 변환하기 위한 장치(200)는 학습부(210), 비디오 에디터(220), 2D 매뉴얼 연결부(230), 지식 관리부(240) 및 신경 언어 음성 실행부(250)를 포함한다.
본 발명의 실시예에 따른 학습부(210)는 클라우드 서비스용 3D 매뉴얼의 어노테이션에 대한 라벨링 작업 및 상기 어노테이션을 인식하기 위한 기계학습을 수행한다.
본 발명의 실시예에 따른 학습부(210)는 3D 매뉴얼의 어노테이션 개체의 위치를 좌표계로 나타내고, 상기 어노테이션의 위치를 자동인식하도록 3D 매뉴얼의 어노테이션에 대한 라벨링 작업을 수행한다. 라벨링 후 객체 감지 모델을 통해 비디오 상의 객체에 관한 해당 어노테이션을 자동으로 인식하기 위해 기계학습을 수행한다.
본 발명의 실시예에 따른 비디오 에디터(220)는 어노테이션을 자동 인식하고, 자동 인식되지 않은 어노테이션에 대하여 미세 조정을 수행하고, 3D 매뉴얼을 2D 인터랙티브 비디오로 변환하기 위한 파일을 생성한다.
본 발명의 실시예에 따른 비디오 에디터(220)는 어노테이션의 위치 및 형태를 비디오 에디터를 통해 조정한 후 어노테이션의 지속 시간을 조정하여 자동 인식되지 않은 어노테이션을 조정할 수 있다.
본 발명의 실시예에 따른 비디오 에디터(220)는 자동인식된 어노테이션은 객체 정보, 부품 정보, 다음 작업 및 이전 작업 이동을 위한 마크, 부품의 위치, 관련 비디오, 주의 및 경고 버튼을 포함하는 상호 작용을 위한 작업 목록을 나타낸다.
본 발명의 실시예에 따른 2D 매뉴얼 연결부(230)는 파일을 이용하여 3D 매뉴얼을 해당 2D 매뉴얼과 연결한다.
본 발명의 실시예에 따른 2D 매뉴얼 연결부(230)는 비디오 상의 2D 드로잉 위치, 개체 레이블 이름, 상호 작용을 위한 경계 상자의 시작 시간 및 종료 시간, 비디오 프레임의 경계 상자 위치를 포함하는 상기 파일을 이용하여 3D 매뉴얼을 해당 2D 매뉴얼과 연결하고, 비디오 상의 어노테이션을 클릭할 경우 해당 상호 작용을 수행하도록 할 수 있다.
본 발명의 실시예에 따른 지식 관리부(240)는 2D 매뉴얼의 작업 지시서에 기초하여 인공지능 지식을 추출하여 처리한다.
본 발명의 실시예에 따른 신경 언어 음성 실행부(250) 인공지능 지식, 디지털 트윈 및 3D 매뉴얼의 어노테이션에 기초하여 명령을 수행하기 위해, 음성 요청을 처리하기 위한 신경망 작업과 언어적 추론을 수행하고, 사용자에게 시각 및 음성 피드백을 전송하여 요청된 작업의 처리 및 완료에 대해 통지한다.
도 3은 본 발명의 일 실시예에 따른 클라우드 서비스용 3D 매뉴얼을 2D 인터랙티브 비디오로 변환하기 위한 방법을 설명하기 위한 흐름도이다.
클라우드 서비스용 3D 매뉴얼을 2D 인터랙티브 비디오로 변환하기 위한 방법은 학습부를 통해 클라우드 서비스용 3D 매뉴얼의 어노테이션에 대한 라벨링 작업 및 상기 어노테이션을 인식하기 위한 기계학습을 수행하는 단계(310), 상기 어노테이션을 자동 인식하고, 자동 인식되지 않은 어노테이션에 대하여 비디오 에디터를 통해 미세 조정을 수행하고, 3D 매뉴얼을 2D 인터랙티브 비디오로 변환하기 위한 파일을 생성하는 단계(320), 2D 매뉴얼 연결부를 통해 상기 파일을 이용하여 3D 매뉴얼을 해당 2D 매뉴얼과 연결하는 단계(330), 지식 관리부를 통해 상기 2D 매뉴얼의 작업 지시서에 기초하여 인공지능 지식을 추출하여 처리하는 단계(340) 및 신경 언어 음성 실행부를 통해 상기 인공지능 지식, 디지털 트윈 및 3D 매뉴얼의 어노테이션에 기초하여 명령을 수행하기 위해, 음성 요청을 처리하기 위한 신경망 작업과 언어적 추론을 수행하고, 사용자에게 시각 및 음성 피드백을 전송하여 요청된 작업의 처리 및 완료에 대해 통지하는 단계(350)를 포함한다.
단계(310)에서, 학습부를 통해 클라우드 서비스용 3D 매뉴얼의 어노테이션에 대한 라벨링 작업 및 상기 어노테이션을 인식하기 위한 기계학습을 수행한다.
먼저, 3D 매뉴얼의 어노테이션 개체의 위치를 좌표계로 나타내고, 상기 어노테이션의 위치를 자동인식하도록 3D 매뉴얼의 어노테이션에 대한 라벨링 작업을 수행한다. 라벨링 후 객체 감지 모델을 통해 비디오 상의 객체에 관한 해당 어노테이션을 자동으로 인식하기 위해 기계학습을 수행한다.
단계(320)에서, 어노테이션을 자동 인식하고, 자동 인식되지 않은 어노테이션에 대하여 비디오 에디터를 통해 미세 조정을 수행하고, 3D 매뉴얼을 2D 인터랙티브 비디오로 변환하기 위한 파일을 생성한다.
본 발명의 실시예에 따르면, 어노테이션의 위치 및 형태를 비디오 에디터를 통해 조정한 후 어노테이션의 지속 시간을 조정하여 자동 인식되지 않은 어노테이션을 조정할 수 있다.
본 발명의 실시예에 따라 자동인식된 어노테이션은 객체 정보, 부품 정보, 다음 작업 및 이전 작업 이동을 위한 마크, 부품의 위치, 관련 비디오, 주의 및 경고 버튼을 포함하는 상호 작용을 위한 작업 목록을 나타낸다.
단계(330)에서, 2D 매뉴얼 연결부를 통해 상기 파일을 이용하여 3D 매뉴얼을 해당 2D 매뉴얼과 연결한다.
본 발명의 실시예에 따르면, 비디오 상의 2D 드로잉 위치, 개체 레이블 이름, 상호 작용을 위한 경계 상자의 시작 시간 및 종료 시간, 비디오 프레임의 경계 상자 위치를 포함하는 상기 파일을 이용하여 3D 매뉴얼을 해당 2D 매뉴얼과 연결하고, 비디오 상의 어노테이션을 클릭할 경우 해당 상호 작용을 수행하도록 할 수 있다.
단계(340)에서, 지식 관리부를 통해 상기 2D 매뉴얼의 작업 지시서에 기초하여 인공지능 지식을 추출하여 처리한다.
단계(350)에서, 신경 언어 음성 실행부를 통해 상기 인공지능 지식, 디지털 트윈 및 3D 매뉴얼의 어노테이션에 기초하여 명령을 수행하기 위해, 음성 요청을 처리하기 위한 신경망 작업과 언어적 추론을 수행하고, 사용자에게 시각 및 음성 피드백을 전송하여 요청된 작업의 처리 및 완료에 대해 통지한다.
도 4 내지 도 10을 참조하여 본 발명의 실시예에 따른 클라우드 서비스용 3D 매뉴얼을 2D 인터랙티브 비디오로 변환하는 과정을 더욱 상세히 설명한다.
도 4는 본 발명의 일 실시예에 따른 어노테이션 개체의 위치를 나타내는 과정을 설명하기 위한 도면이다.
도 4를 참조하면, 어노테이션 개체의 위치(410)를 좌표계(440)로 나타낸다. 본 발명의 실시예에 따르면, 주로 작업 지시서에 표시된 부품의 위치를 좌표계에 표시한다. 표시하고자 하는 어노테이션 개체의 클래스 네임(430) 및 어노테이션 데이터(440)를 이용하여 좌표계(440)로 나타낼 수 있다. 어노테이션 데이터(440)는 예를 들어, 어노테이션 개체의 왼쪽 상단 모서리의 X 좌표, 왼쪽 상단 모서리의 Y 좌표, 사각형의 너비 및 사각형의 높이 등의 정보를 포함할 수 있다.
도 5는 본 발명의 일 실시예에 따른 어노테이션에 대한 라벨링 작업 과정을 설명하기 위한 도면이다.
본 발명의 실시예에 따른 학습부를 통해 클라우드 서비스용 3D 매뉴얼의 어노테이션에 대한 라벨링 작업 및 상기 어노테이션을 인식하기 위한 기계학습을 수행할 수 있다. 먼저, 비디오 형태로 녹화된 3D 매뉴얼에서 어노테이션의 위치(511, 512, 513, 514, 515)를 학습 시키고, 자동으로 어노테이션의 위치를 인식하도록 할 수 있다.
본 발명의 실시예에 따른 라벨링 작업은 비디오에 어노테이션을 추가하는 데 사용되는 파이선(Python) 기반 어노테이션 툴을 통해 레이블이 지정된 200개 이상의 클래스를 이용하여 각 개체에 대한 레이블이 지정될 수 있다.
도 6은 본 발명의 일 실시예에 따른 기계학습 과정을 설명하기 위한 도면이다.
본 발명의 실시예에 따르면, 라벨링 후 어노테이션의 실측 자료(Ground Truth)가 되는 데이터를 바탕으로 기계학습 모델을 적용하여 부품의 인식을 위한 어노테이션을 자동으로 인식할 수 있다.
본 발명의 실시예에 따른 객체 감지 모델은 100 Epoch를 사용할 수 있고, 입력 이미지를 S × S 그리드로 나눈다. 개체의 중심이 격자 셀에 포함되면 해당 격자 셀이 해당 개체를 감지하는 역할을 하게 된다. 이러한 기계학습을 통해 어노테이션의 위치를 더욱 정확히 파악하여 라벨링을 수행할 수 있다. 이후, 비디오 에디터를 통해 비디오 정렬 및 업로드를 수행한다.
본 발명의 실시예에 따른 비디오 에디터는 자동인식으로 어노테이션되어야 할 목록을 제시 한다. 예를 들어, 객체 정보, 부품정보, 다음 작업 및 이전 작업 이동을 위한 마크, 부품의 위치, 관련 비디오, 주의 및 경고 버튼 등의 상호 작용을 위한 작업 목록을 제시할 수 있다.
이때, 어노테이션에 대한 100% 자동인식은 어렵기 때문에 본 발명의 실시예에 따른 비디오 에디터를 통해 어노테이션의 위치를 조정한다.
도 7은 본 발명의 일 실시예에 따른 자동 객체 감지 모델 사용의 예시를 나타내는 도면이다.
본 발명의 실시예에 따른 비디오 에디터는 자동인식을 수행하기 전에 비디오의 샘플 간격을 조정하기 위해 온라인 또는 오프라인 비디오 편집기(예를 들어, Pixer, Adobe, vimeo)를 사용할 수 있다.
어노테이션의 위치와 모양을 비디오 에디터를 통해 조정한 후 어노테이션의 지속 시간 등을 조정하여 잘못된 어노테이션을 조정할 수 있다. 예를 들어, 어노테이션 도구를 직사각형으로 조정하고, 재생/일시 중지를 컨트롤하여 편집한 어노테이션을 저장할 수 있다. 이후, json 형식의 파일로 어노테이션을 출력할 수 있고, 출력된 어노테이션의 개체 정보를 확인할 수 있다. 어노테이션의 목록은 레이블, 객체 유형, 어노테이션 시작 시간(S), 어노테이션 종료 시간(E) 등을 포함할 수 있다.
이와 같이, 본 발명의 실시예에 따른 비디오 에디터를 통해 잘못된 어노테이션을 수동으로 변경하고, 생성된 json 파일을 저장할 수 있다.
도 7을 참조하면, 3D 매뉴얼을 해당 2D 매뉴얼과 연결하기 위한 페이지(710)를 나타내었다. 본 발명의 실시예에 따른 2D 매뉴얼 연결부를 통해 생성된 json 파일을 이용하여 3D 매뉴얼을 해당 2D 매뉴얼과 연결하는 과정을 도 8을 참조하여 더욱 상세히 설명한다.
도 8은 본 발명의 일 실시예에 따른 3D 매뉴얼을 해당 2D 매뉴얼과 연결하는 과정을 설명하기 위한 도면이다.
도 8을 참조하면, 비디오 상의 2D 드로잉 위치(810), 개체 레이블 이름(820), 상호 작용을 위한 경계 상자의 시작 시간 및 종료 시간(830) 및 비디오 프레임의 경계 상자 위치(840)를 나타낼 수 있다. 예를 들어, <HTML>을 사용하여 객체 이름과 상호 작용 애셋(asset)을 함께 연결하여 상호 작용을 수행할 수 있다.
도 8의 콘텐츠(Contents) 부분(850)은 어노테이션을 클릭하였을 경우 연결되는 Asset(예를 들어, 매뉴얼의 특정 페이지 및 참조 부품번호 표시 등)을 나타낸다.
도 9는 본 발명의 일 실시예에 따른 상호작용을 위한 3D 매뉴얼 애셋의 구조를 나타내는 도면이다.
도 9와 같이, 항공기 정비 매뉴얼(910) 상에서 'Upperlock link'를 클릭할 경우 2D 설계도(920)에서 해당 'Upperlock link'를 마크하여 나타낼 수 있다.
도 10은 본 발명의 일 실시예에 따른 자동으로 구조화된 파일을 나타내는 도면이다.
앞서 설명된 바와 같이 자동인식 및 어노테이션 조정을 완료하면 자동으로 구조화된 JSON파일이 생성된다. 생성된 파일에는 객체 이름(1010), 시간 범위(1020) 및 경계 박스(1030) 등의 정보를 포함할 수 있다.
이와 같이, 본 발명에서 제안하는 3D매뉴얼은 XR(eXtended Reality) 기술을 통해 실제 기계의 디지털 트윈(digital twin)을 3D로 만들고 그 화면 상에 분해 조립에 필요한 지시서, 애니메이션 및 2D 설계도를 추가적으로 제공할 수 있다.
혼합 현실에서의 고가의 항공기를 포함하는 복잡한 기계류 훈련, 교육 시스템은 기계류의 정비 훈련, 교육 및 홍보를 위한 메타버스 혼합 현실(Mixed Reality; MR)에서, 디지털 트윈과 함께 기계 부품의 장착 및 탈착을 위한 매뉴얼의 제공과 그 애니메이션 형태의 시뮬레이션을 수행하여 사용자의 시야에 제공할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다.  또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다.  이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다.  예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다.  또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.  소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다.  소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.  상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.  상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.  컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.  프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다.  예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (8)

  1. 학습부를 통해 클라우드 서비스용 3D 매뉴얼의 어노테이션에 대한 라벨링 작업 및 상기 어노테이션을 인식하기 위한 기계학습을 수행하는 단계;
    상기 어노테이션을 자동 인식하고, 자동 인식되지 않은 어노테이션에 대하여 비디오 에디터를 통해 미세 조정을 수행하고, 3D 매뉴얼을 2D 인터랙티브 비디오로 변환하기 위한 파일을 생성하는 단계;
    2D 매뉴얼 연결부를 통해 상기 파일을 이용하여 3D 매뉴얼을 해당 2D 매뉴얼과 연결하는 단계;
    지식 관리부를 통해 상기 2D 매뉴얼의 작업 지시서에 기초하여 인공지능 지식을 추출하여 처리하는 단계; 및
    신경 언어 음성 실행부를 통해 상기 인공지능 지식, 디지털 트윈 및 3D 매뉴얼의 어노테이션에 기초하여 명령을 수행하기 위해, 음성 요청을 처리하기 위한 신경망 작업과 언어적 추론을 수행하고, 사용자에게 시각 및 음성 피드백을 전송하여 요청된 작업의 처리 및 완료에 대해 통지하는 단계
    를 포함하는 비디오 변환 방법.
  2. 제1항에 있어서,
    상기 학습부를 통해 클라우드 서비스용 3D 매뉴얼의 어노테이션에 대한 라벨링 작업 및 상기 어노테이션을 인식하기 위한 기계학습을 수행하는 단계는,
    상기 3D 매뉴얼의 어노테이션 개체의 위치를 좌표계로 나타내고, 상기 어노테이션의 위치를 자동인식하도록 3D 매뉴얼의 어노테이션에 대한 라벨링 작업을 수행하고, 라벨링 후 객체 감지 모델을 통해 비디오 상의 객체에 관한 해당 어노테이션을 자동으로 인식하기 위해 기계학습을 수행하는
    비디오 변환 방법.
  3. 제1항에 있어서,
    상기 어노테이션을 자동 인식하고, 자동 인식되지 않은 어노테이션에 대하여 비디오 에디터를 통해 미세 조정을 수행하고, 3D 매뉴얼을 2D 인터랙티브 비디오로 변환하기 위한 파일을 생성하는 단계는,
    어노테이션의 위치 및 형태를 비디오 에디터를 통해 조정한 후 어노테이션의 지속 시간을 조정하여 자동 인식되지 않은 어노테이션을 조정하고,
    자동인식된 어노테이션은 객체 정보, 부품 정보, 다음 작업 및 이전 작업 이동을 위한 마크, 부품의 위치, 관련 비디오, 주의 및 경고 버튼을 포함하는 상호 작용을 위한 작업 목록을 나타내는
    비디오 변환 방법.
  4. 제1항에 있어서,
    상기 2D 매뉴얼 연결부를 통해 상기 파일을 이용하여 3D 매뉴얼을 해당 2D 매뉴얼과 연결하는 단계는,
    비디오 상의 2D 드로잉 위치, 개체 레이블 이름, 상호 작용을 위한 경계 상자의 시작 시간 및 종료 시간, 비디오 프레임의 경계 상자 위치를 포함하는 상기 파일을 이용하여 3D 매뉴얼을 해당 2D 매뉴얼과 연결하고, 비디오 상의 어노테이션을 클릭할 경우 해당 상호 작용을 수행하도록 하는
    비디오 변환 방법.
  5. 클라우드 서비스용 3D 매뉴얼의 어노테이션에 대한 라벨링 작업 및 상기 어노테이션을 인식하기 위한 기계학습을 수행하는 학습부;
    상기 어노테이션을 자동 인식하고, 자동 인식되지 않은 어노테이션에 대하여 미세 조정을 수행하고, 3D 매뉴얼을 2D 인터랙티브 비디오로 변환하기 위한 파일을 생성하는 비디오 에디터;
    상기 파일을 이용하여 3D 매뉴얼을 해당 2D 매뉴얼과 연결하는 2D 매뉴얼 연결부;
    상기 2D 매뉴얼의 작업 지시서에 기초하여 인공지능 지식을 추출하여 처리하는 지식 관리부; 및
    상기 인공지능 지식, 디지털 트윈 및 3D 매뉴얼의 어노테이션에 기초하여 명령을 수행하기 위해, 음성 요청을 처리하기 위한 신경망 작업과 언어적 추론을 수행하고, 사용자에게 시각 및 음성 피드백을 전송하여 요청된 작업의 처리 및 완료에 대해 통지하는 신경 언어 음성 실행부
    를 포함하는 비디오 변환 장치.
  6. 제5항에 있어서,
    상기 학습부는,
    상기 3D 매뉴얼의 어노테이션 개체의 위치를 좌표계로 나타내고, 상기 어노테이션의 위치를 자동인식하도록 3D 매뉴얼의 어노테이션에 대한 라벨링 작업을 수행하고, 라벨링 후 객체 감지 모델을 통해 비디오 상의 객체에 관한 해당 어노테이션을 자동으로 인식하기 위해 기계학습을 수행하는
    비디오 변환 장치.
  7. 제5항에 있어서,
    상기 비디오 에디터는,
    어노테이션의 위치 및 형태를 비디오 에디터를 통해 조정한 후 어노테이션의 지속 시간을 조정하여 자동 인식되지 않은 어노테이션을 조정하고,
    자동인식된 어노테이션은 객체 정보, 부품 정보, 다음 작업 및 이전 작업 이동을 위한 마크, 부품의 위치, 관련 비디오, 주의 및 경고 버튼을 포함하는 상호 작용을 위한 작업 목록을 나타내는
    비디오 변환 장치.
  8. 제5항에 있어서,
    상기 2D 매뉴얼 연결부는,
    비디오 상의 2D 드로잉 위치, 개체 레이블 이름, 상호 작용을 위한 경계 상자의 시작 시간 및 종료 시간, 비디오 프레임의 경계 상자 위치를 포함하는 상기 파일을 이용하여 3D 매뉴얼을 해당 2D 매뉴얼과 연결하고, 비디오 상의 어노테이션을 클릭할 경우 해당 상호 작용을 수행하도록 하는
    비디오 변환 장치.
KR1020220026672A 2022-02-03 2022-03-02 클라우드 서비스용 3d 매뉴얼을 2d 인터랙티브 비디오로 변환하는 방법 및 장치 KR102438743B1 (ko)

Priority Applications (7)

Application Number Priority Date Filing Date Title
KR1020220026672A KR102438743B1 (ko) 2022-03-02 2022-03-02 클라우드 서비스용 3d 매뉴얼을 2d 인터랙티브 비디오로 변환하는 방법 및 장치
JP2022072229A JP7305224B1 (ja) 2022-03-02 2022-04-26 クラウドサービス用3dマニュアルを2dインタラクティブビデオに変換する方法および装置
US17/747,487 US20230245370A1 (en) 2022-02-03 2022-05-18 Method and apparatus for converting 3d manuals into 2d interactive videos for cloud service
DE102022129437.4A DE102022129437A1 (de) 2022-03-02 2022-11-08 Verfahren und Vorrichtung zur Umwandlung von 3D-Handbüchern in interaktive 2D-Videos für Cloud-Dienste
GB2216976.7A GB2616328B (en) 2022-03-02 2022-11-14 Method and apparatus for converting 3D manuals into 2D interactive videos for cloud service
CN202211421986.0A CN116708932A (zh) 2022-03-02 2022-11-14 将云服务用三维手册转换为二维交互式视频的方法和装置
FR2213730A FR3133260A1 (fr) 2022-03-02 2022-12-19 Procédé et appareil pour convertir des manuels 3D en des vidéos 2D interactives pour un service par cloud

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220026672A KR102438743B1 (ko) 2022-03-02 2022-03-02 클라우드 서비스용 3d 매뉴얼을 2d 인터랙티브 비디오로 변환하는 방법 및 장치

Publications (1)

Publication Number Publication Date
KR102438743B1 true KR102438743B1 (ko) 2022-08-31

Family

ID=83061904

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220026672A KR102438743B1 (ko) 2022-02-03 2022-03-02 클라우드 서비스용 3d 매뉴얼을 2d 인터랙티브 비디오로 변환하는 방법 및 장치

Country Status (7)

Country Link
US (1) US20230245370A1 (ko)
JP (1) JP7305224B1 (ko)
KR (1) KR102438743B1 (ko)
CN (1) CN116708932A (ko)
DE (1) DE102022129437A1 (ko)
FR (1) FR3133260A1 (ko)
GB (1) GB2616328B (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101072347B1 (ko) 2009-05-14 2011-10-12 인하대학교 산학협력단 동영상 상황정보 어노테이션 방법 및 장치
KR20210134528A (ko) * 2020-11-27 2021-11-10 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 비디오 처리 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램
KR102341294B1 (ko) * 2020-12-08 2021-12-21 믹스비전 주식회사 인터렉티브 콘텐츠 제공 방법 및 장치
KR102356914B1 (ko) * 2021-05-14 2022-02-08 주식회사 인피닉 메타데이터 자동 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003085579A (ja) 2001-09-10 2003-03-20 Hitachi Constr Mach Co Ltd 電子マニュアルのデータ作成方法、マニュアル印刷物の作成方法、電子マニュアル表示装置、電子マニュアルデータ構造を記録する記録媒体
US7720680B2 (en) 2004-06-17 2010-05-18 Robert Bosch Gmbh Interactive manual, system and method for vehicles and other complex equipment
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20130044192A1 (en) * 2011-08-17 2013-02-21 Google Inc. Converting 3d video into 2d video based on identification of format type of 3d video and providing either 2d or 3d video based on identification of display device type
US10546048B2 (en) 2014-11-26 2020-01-28 Autodesk, Inc. Dynamic content interface
US10049668B2 (en) * 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US11153277B2 (en) * 2016-10-24 2021-10-19 Mission Secure, Inc. Security system, device, and method for internet of things networks
US11240567B2 (en) * 2016-10-25 2022-02-01 Aether Media, Inc. Video content switching and synchronization system and method for switching between multiple video formats
US10567584B2 (en) 2016-12-01 2020-02-18 TechSee Augmented Vision Ltd. Methods and systems for providing interactive support sessions
US10878851B2 (en) * 2017-08-18 2020-12-29 BON2 Media Services LLC Embedding interactive content into a shareable online video
US20200104028A1 (en) * 2018-08-22 2020-04-02 Nitin Vats Realistic gui based interactions with virtual gui of virtual 3d objects
WO2020056041A1 (en) * 2018-09-11 2020-03-19 Pointivo, Inc. Improvements in data acquistion, processing, and output generation for use in analysis of one or a collection of physical assets of interest
US11104454B2 (en) 2018-09-24 2021-08-31 The Boeing Company System and method for converting technical manuals for augmented reality
KR101994592B1 (ko) 2018-10-19 2019-06-28 인하대학교 산학협력단 비디오 콘텐츠의 메타데이터 자동 생성 방법 및 시스템
KR102051889B1 (ko) * 2018-12-05 2019-12-06 주식회사 증강지능 스마트 글래스에서 2d 데이터를 기반으로 3d 증강현실을 구현하는 방법 및 시스템
US11204966B2 (en) * 2019-02-01 2021-12-21 EMC IP Holding Company LLC Contextual image-assisted search
US11270060B2 (en) * 2019-03-15 2022-03-08 Ricoh Company, Ltd. Generating suggested document edits from recorded media using artificial intelligence
KR20210050701A (ko) * 2019-10-29 2021-05-10 (주)뉴젠아이엔에스 디지털 트윈 기술을 통한 ar 원격정비 지원 시스템
CN111400822B (zh) 2020-03-12 2023-03-24 沪东中华造船(集团)有限公司 一种用于spd系统的三维作业指导书自动生成系统和方法
KR102272997B1 (ko) 2020-05-06 2021-07-05 신윤승 차량용 블랙박스의 설치작업 관리 시스템
US20210358490A1 (en) * 2020-05-18 2021-11-18 Nvidia Corporation End of speech detection using one or more neural networks
KR20220026672A (ko) 2020-08-26 2022-03-07 (주)빅쏠 사용자 데이터 분석에 기반한 신용/체크 카드 랭킹 및 추천 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101072347B1 (ko) 2009-05-14 2011-10-12 인하대학교 산학협력단 동영상 상황정보 어노테이션 방법 및 장치
KR20210134528A (ko) * 2020-11-27 2021-11-10 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 비디오 처리 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램
KR102341294B1 (ko) * 2020-12-08 2021-12-21 믹스비전 주식회사 인터렉티브 콘텐츠 제공 방법 및 장치
KR102356914B1 (ko) * 2021-05-14 2022-02-08 주식회사 인피닉 메타데이터 자동 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램

Also Published As

Publication number Publication date
GB2616328B (en) 2024-05-08
GB2616328A (en) 2023-09-06
JP7305224B1 (ja) 2023-07-10
CN116708932A (zh) 2023-09-05
DE102022129437A1 (de) 2023-09-07
JP2023129180A (ja) 2023-09-14
GB202216976D0 (en) 2022-12-28
US20230245370A1 (en) 2023-08-03
FR3133260A1 (fr) 2023-09-08

Similar Documents

Publication Publication Date Title
Gorecky et al. Human-machine-interaction in the industry 4.0 era
US7490031B1 (en) Mechanization of modeling, simulation, amplification, and intelligence of software
US9459780B1 (en) Documenting interactive graphical designs
EP3564812A1 (en) Method and system for automated creation of graphical user interfaces
WO2020176803A1 (en) Augmented reality and virtual reality systems
US20210271886A1 (en) System and method for capturing, indexing and extracting digital workflow from videos using artificial intelligence
Shen Beaverdam: Video annotation tool for computer vision training labels
Walczak et al. Semantic modeling of virtual reality training scenarios
KR102438743B1 (ko) 클라우드 서비스용 3d 매뉴얼을 2d 인터랙티브 비디오로 변환하는 방법 및 장치
US20230343042A1 (en) Methods and systems using mixed-reality for the creation of insitu cad models
Gors et al. An adaptable framework to provide AR-based work instructions and assembly state tracking using an ISA-95 ontology
TW202125391A (zh) 人工智慧輔助擴增實境系統與方法、電腦程式產品
EP4086855A1 (en) Time-line based object tracking annotation
Wu et al. GUI Action Narrator: Where and When Did That Action Take Place?
Papadopoulos et al. An Advanced Human-Robot Interaction Interface for Teaching Collaborative Robots New Assembly Tasks
CN116645247A (zh) 一种基于全景图的增强现实工业作业培训系统及方法
CN112233208B (zh) 机器人状态处理方法、装置、计算设备和存储介质
KR101632951B1 (ko) 온라인 학습 콘텐츠로의 변환을 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체 및 온라인 학습 콘텐츠로의 변환 방법
Mourtzis et al. Design and development of a G-Code generator for CNC machine tools based on augmented reality (AR)
CN113296759A (zh) 用户界面处理方法、用户界面处理系统、设备及存储介质
CN115421819A (zh) 用于模拟目标系统的人机交互的实现方法、装置及设备
KR102529627B1 (ko) 코딩 방법 및 코딩 교육 시스템
US20220305661A1 (en) Robotic geometric camera calibration and monitoring alert configuration and testing
Skreinig et al. Immersive Authoring by Demonstration of Industrial Procedures
KR20220053994A (ko) Srs 운영 플랫폼을 위한 디지털 웹 템플릿

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant