KR102465228B1 - 메타버스 플랫폼 이용한 혼합현실에서의 복잡한 기계류 훈련 및 교육과 홍보 시스템 - Google Patents

메타버스 플랫폼 이용한 혼합현실에서의 복잡한 기계류 훈련 및 교육과 홍보 시스템 Download PDF

Info

Publication number
KR102465228B1
KR102465228B1 KR1020210163052A KR20210163052A KR102465228B1 KR 102465228 B1 KR102465228 B1 KR 102465228B1 KR 1020210163052 A KR1020210163052 A KR 1020210163052A KR 20210163052 A KR20210163052 A KR 20210163052A KR 102465228 B1 KR102465228 B1 KR 102465228B1
Authority
KR
South Korea
Prior art keywords
program
text
speech
metaverse
education
Prior art date
Application number
KR1020210163052A
Other languages
English (en)
Inventor
조근식
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020210163052A priority Critical patent/KR102465228B1/ko
Priority to US17/566,871 priority patent/US20230162736A1/en
Priority to JP2022008465A priority patent/JP7350376B2/ja
Application granted granted Critical
Publication of KR102465228B1 publication Critical patent/KR102465228B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • G09B5/065Combinations of audio and video presentations, e.g. videotapes, videodiscs, television systems
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B9/00Simulators for teaching or training purposes
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/003Navigation within 3D models or images
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Acoustics & Sound (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • User Interface Of Digital Computer (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Optics & Photonics (AREA)

Abstract

메타버스를 이용한 혼합현실에서의 복잡한 기계류 훈련, 교육 및 홍보 시스템이 제시된다. 본 발명에서 제안하는 메타버스를 이용한 혼합현실에서의 복잡한 기계류 훈련, 교육 및 홍보 시스템은 항공기를 포함하는 기계류의 정비 훈련, 교육 및 홍보를 위한 메타버스 혼합 현실(Mixed Reality)에서, 스마트 안경을 통해 상기 정비 훈련, 교육 및 홍보를 위한 특정 시각적 요소에 대하여 시뮬레이션을 수행하기 위한 디지털 트윈(Digital Twin)을 제공하여 3D 시뮬레이션을 수행하는 시뮬레이션 수행부, 2D 매뉴얼, 상기 2D 매뉴얼의 작업 지시서 및 SCM(Simulation Cost Model)을 포함하는 학습 정보에 기초하여 인공지능 지식(Knowledge)을 제공하는 학습부 및 상기 제공된 인공지능 지식, 상기 디지털 트윈에 기초하여 상기 3D 시뮬레이션을 수행하기 위해 음성 요청을 처리하기 위한 신경망 작업과 언어적 추론을 수행하고, 사용자에게 시각 및 음성 피드백을 전송하여 요청된 작업의 처리 및 완료에 대해 통지하는 신경 언어 음성 실행부를 포함한다.

Description

메타버스 플랫폼 이용한 혼합현실에서의 복잡한 기계류 훈련 및 교육과 홍보 시스템{Complex Machinery Training and Education and Advertising System in Mixed Reality Using Metaverse Platform}
본 발명은 항공기와 같은 복잡한 기계류의 레거시 매뉴얼, 3D 모델, 3D 시뮬레이터 및 (예를 들어, 보잉-737 항공기 정비 훈련 및 교육) 정비 지식을 제공하는 위한 메타버스 플랫폼 에 관한 것이다.
확장 현실(Extended Reality; XR)은 모든 실제 및 가상현실(Virtual Reality; VR), 증강현실(AR), 증강가상(Augmented Virtuality; AV), 혼합현실(Mixed Realities; MR), 음성인식 등 가상합병 환경이 결합되어 사람들의 삶과 산업의 다양한 측면에 엄청난 가치를 가져다 준다. 여기에는 장애인 지원, 교육 과정 개선, 산업 흐름 완화가 포함된다.
종래기술에서는 AR 및 음성 인식 기술을 사용하여 청각 장애인과 청각 장애인의 의사소통 문제를 해결하는 방법을 제안하였다. 대화를 듣는 동안 실시간 증강현실 "실시간 자막"을 만들어 전시된 청각장애인들에게 내레이터의 연설을 만드는 것은 그들이 시각적인 방법으로 환경을 듣고 느낄 수 있도록 도와주고, 청각장애인과 수화를 모르는 사람들 사이의 의사소통 장벽을 극복하도록 돕는다.
교육 분야에서는 AR과 음성 인식 기술의 조합을 통해 학습으로부터 이익을 얻을 수 있다. 한 가지 예시는 새로운 언어 학습이다. 여기서 증강 현실은 비원어민의 "언어 학습 과정 중 아이들의 경험과 지식 획득"에 영향을 미치는 향상된 환경을 제공할 수 있다. 음성 인식과 함께 AR학습 중 즐거움을 촉진하며, 어린이가 기본 색상에 대한 단어 학습, 3D 형태 및 공간 객체 관계 학습과 같은 특정 작업에 더 빠르고 쉽게 대처할 수 있도록 한다.
XR 및 음성 인식을 통해 산업 흐름의 다양한 작업을 자동화하거나 개선할 수 있다. XR은 작업 프로세스를 시뮬레이션하거나 디지털화하는 데 도움이 되며 음성 명령은 운영을 제어하고 시간을 절약하며 유연하고 효율적이며 경제적인 형태의 통신을 가능하게 한다.
종래기술에서는 리프팅 장치 제어를 위한 AR 및 음성 인터페이스 구현 개념을 제시하여 크레인 작업을 위해 현장에 물리적으로 존재할 필요가 없다. 또 다른 예시는 실제 항공기 대신 항공기의 디지털 트윈이 사용되는 음성 명령으로 MR 항공기 정비를 용이하게 할 수 있다.
[1] K. Yi, J. Wu, C. Gan, A. Torralba, P. Kohli, and J. B. Tenenbaum, "Neural-symbolic vqa: Disentangling reasoning from vision and language understanding," in Advances in Neural Information Processing Systems, 2018, pp. 1039-1050. [2] C. Han, J. Mao, C. Gan, J. Tenenbaum, and J. Wu, "Visual concept-metaconcept learning," in Advances in Neural Information Processing Systems, H. Wallach, H. Larochelle, A. Beygelzimer, F. d'Alche-Buc, E. Fox, and R. Garnett, Eds., vol. 32. Curran Associates, Inc., 2019. [Online]. Available:https://proceedings.neurips.cc/paper/2019/file/98d8a23fd60826a2a474c5b4f5811707-Paper.pdf [3] J. Mao, C. Gan, P. Kohli, J. B. Tenenbaum, and J. Wu, "The neuro-symbolic concept learner: Interpreting scenes, words, and sentences from natural supervision," in 7th International Conference on Learning Representations, ICLR 2019, New Orleans, LA, USA, May 6-9, 2019. OpenReview.net, 2019. [Online]. Available: https://openreview.net/forum? id=rJgMlhRctm
본 발명이 이루고자 하는 기술적 과제는 레거시 매뉴얼, 3D 모델, 3D 시뮬레이터 및 항공기 정비 지식을 제공하는 보잉-737 항공기 정비 훈련 및 교육을 위한 메타버스를 제공하는데 있다. 또한, 유지 관리 매뉴얼이 엄격하게 준수되는 메타버스의 운영 흐름을 탐색하고 제어하기 위한 컨텍스트 인식 음성 이해 모듈 NSSE(Neuro-Symbolic Speech Executor)를 제공한다.
일 측면에 있어서, 본 발명에서 제안하는 메타버스를 이용한 혼합현실에서의 복잡한 기계류 훈련, 교육 및 홍보 시스템이 제시된다. 본 발명에서 제안하는 메타버스를 이용한 혼합현실에서의 복잡한 기계류 훈련, 교육 및 홍보 시스템은 항공기를 포함하는 기계류의 정비 훈련, 교육 및 홍보를 위한 메타버스 혼합 현실(Mixed Reality)에서, 스마트 안경을 통해 상기 정비 훈련, 교육 및 홍보를 위한 특정 시각적 요소에 대하여 시뮬레이션을 수행하기 위한 디지털 트윈(Digital Twin)을 제공하여 3D 시뮬레이션을 수행하는 시뮬레이션 수행부, 2D 매뉴얼, 상기 2D 매뉴얼의 작업 지시서 및 SCM(Simulation Cost Model)을 포함하는 학습 정보에 기초하여 인공지능 지식(Knowledge)을 제공하는 학습부 및 상기 제공된 인공지능 지식, 상기 디지털 트윈에 기초하여 상기 3D 시뮬레이션을 수행하기 위해 음성 요청을 처리하기 위한 신경망 작업과 언어적 추론을 수행하고, 사용자에게 시각 및 음성 피드백을 전송하여 요청된 작업의 처리 및 완료에 대해 통지하는 신경 언어 음성 실행부를 포함한다.
본 발명의 실시예에 따른 상기 신경 언어 음성 실행부는 스마트 안경을 착용한 사용자가 자신의 오디오 요청을 녹음하도록 신경 언어 음성 실행부를 트리거하고, 신경 언어 음성 실행부가 트리거 구문을 감지하고 동적 길이 오디오 녹음 알고리즘을 호출하여 마이크에서 출력되는 음성 신호 스트림에서 오디오 데이터를 생성하도록 처리하는 동적 길이 오디오 녹음기, 상기 오디오 데이터를 텍스트로 변환하여 자동 음성 인식을 위한 음성-텍스트의 형태로 텍스트-프로그램 네트워크로 전달하는 음성-텍스트 네트워크-상기 음성-텍스트 네트워크는 자동 음성 인식 신경망(Automatic Speech Recognition neural network)임-, 상기 음성-텍스트를 도메인별 언어의 실행 가능한 프로그램 시퀀스로 변환하기 위한 함수와 매개변수로 구성된 텍스트-프로그램 네트워크 및 사용자에게 시각 및 음성 피드백을 전송하여 요청된 작업의 처리 및 완료에 대해 통지하는 언어 프로그램 실행기를 포함한다.
상기 텍스트-프로그램 네트워크는 텍스트의 단어를 교육 데이터셋의 단어와 일치시키기 위한 일반 어휘(General Vocabulary)를 이용하여 요청 벡터로 변환하고, 상기 요청 벡터를 프로그램 벡터로 변환하며, 상기 프로그램 벡터는 프로그램 생성에 사용되는 도메인 특정 언어(Domain Specific Language)의 구성 요소에 대한 참조를 포함한다.
상기 언어 프로그램 실행기는 실행해야 하는 프로그램을 입력으로 사용하고, 각 프로그램은 함수 및 해당 매개변수로 구성되며, 주어진 프로그램의 각 프로그램에 대해 반복을 입력하면 함수 및 매개변수가 추출되고, 이전 반복의 결과를 설명하는 변수(Prev)가 매개변수에 추가되고, 함수와 매개변수가 준비되면 Execute 함수는 각 함수를 호출하고 추출된 매개변수를 전달하며, 각 함수는 반환 값을 가지므로 각 반복에서 변수(Prev)가 업데이트되고, 상기 절차를 모든 프로그램에 적용한다.
또 다른 일 측면에 있어서, 본 발명에서 제안하는 메타버스를 이용한 혼합현실에서의 복잡한 기계류 훈련, 교육 및 홍보 방법은 항공기를 포함하는 기계류의 정비 훈련, 교육 및 홍보를 위한 메타버스 혼합 현실(Mixed Reality)에서, 스마트 안경을 통해 상기 정비 훈련, 교육 및 홍보를 위한 특정 시각적 요소에 대하여 시뮬레이션을 수행하기 위한 디지털 트윈(Digital Twin)을 시뮬레이션 수행부가 제공하여 3D 시뮬레이션을 수행하는 단계, 학습부를 통해 2D 매뉴얼, 상기 2D 매뉴얼의 작업 지시서 및 SCM(Simulation Cost Model)을 포함하는 학습 정보에 기초하여 인공지능 지식(Knowledge)을 제공하는 단계 및 상기 제공된 인공지능 지식, 상기 디지털 트윈에 기초하여 상기 3D 시뮬레이션을 수행하기 위해 신경 언어 음성 실행부가 음성 요청을 처리하기 위한 신경망 작업과 언어적 추론을 수행하고, 사용자에게 시각 및 음성 피드백을 전송하여 요청된 작업의 처리 및 완료에 대해 통지하는 단계를 포함한다.
본 발명의 실시예들에 따른 컨텍스트 인식 음성 이해 모듈 NSSE(Neuro-Symbolic Speech Executor)는 기존의 음성 인식 방식과 달리 신경망과 전통적인 언어적 추론을 결합한 신경 언어(Neuro-Symbolic) AI를 적용하여 컨텍스트 및 항공기 관련 지식을 기반으로 사용자의 요청과 응답을 이해할 수 있다. 또한, 제안하는 메타버스를 이용한 항공기 정비 훈련 및 교육 방법 및 시스템은 값비싼 물리적 항공기를 쉽게 수정 및 업데이트할 수 있는 가상 항공기로 대체하기 때문에 항공 기술을 위한 저렴하고 확장 가능한 솔루션이다. 또한, 현장 전문가의 역할을 하는 NSSE는 항공기 정비에 대한 효과적인 훈련 및 교육을 용이하게 하기 위해 기술적인 지도와 모든 자원을 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 메타버스를 이용한 혼합현실에서의 복잡한 기계류 훈련, 교육 및 홍보 시스템의 구성을 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 항공기 정비 메타버스의 1인칭 뷰 스냅샷의 예시도이다.
도 3은 본 발명의 일 실시예에 따른 항공기 정비 매뉴얼 3D 시뮬레이터의 예시도이다.
도 4는 본 발명의 일 실시예에 따른 메타버스를 이용한 혼합현실에서의 복잡한 기계류 훈련, 교육 및 홍보방법을 설명하기 위한 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 신경 언어 음성 실행부의 동작 과정을 나타내는 도면이다.
도 6은 본 발명의 일 실시예에 따른 동적 길이 오디오 녹음 알고리즘을 나타내는 도면이다.
도 7은 본 발명의 일 실시예에 따른 텍스트-프로그램 네트워크의 동작 과정을 나타내는 도면이다.
도 8은 본 발명의 일 실시예에 따른 텍스트-프로그램 네트워크의 아키텍처를 나타내는 도면이다.
도 9는 본 발명의 일 실시예에 따른 언어 프로그램 실행기의 동작 과정을 나타내는 도면이다.
도 10은 본 발명의 일 실시예에 따른 언어 프로그램 실행기 알고리즘을 나타내는 도면이다.
도 11은 본 발명의 일 실시예에 따른 샘플 사용자 요청으로부터 결과까지의 과정을 나타내는 예시이다.
도 12는 본 발명의 일 실시예에 따른 신경 언어 음성 실행부의 컨텍스트 관리에 관하여 설명하기 위한 도면이다.
도 13은 본 발명의 일 실시예에 따른 신경 언어 음성 실행부의 아키텍처를 나타내는 도면이다.
XR에 음성 인식을 개발하고 내장하려면 사용자 요청의 특성, 음성 통신 주소의 함수 및 애플리케이션이 구축된 환경을 이해하는 것이 중요하다. 예를 들어, "재생", "정지", "다음 이미지"와 같은 사전 정의, 정적 및 짧은 문장의 명령으로만 구성된 음성 요청은 스마트 안경 홀로렌즈와 같은 모바일 기기의 오프라인 내장 음성 제어로 쉽게 처리할 수 있다.
한편, 문장 길이가 길고, 의미 구조가 유연하며, 동일한 함수를 참조하는 사용자의 요청에 대해서는 분류 신경망을 적용할 수 있다. 예를 들어, "다음 개체 제시", "다음 개체 표시", "다음 항목으로 이동" 명령은 다음 개체를 순서대로 표시하는 동작에 매핑되므로 분류 모델은 음성 신호 함수를 사전 정의된 범주 중 하나의 동작 클래스로 매핑할 수 있다. 일반적으로 CNN 기반 신경 모델 구조는 데이터 함수를 추출하는 기능으로 인해 오디오 분류에 활용된다. 오디오 함수의 유형에 따라 1D 또는 2D 콘볼루션 필터가 사용된다. 원시 오디오 신호 처리의 경우, 1D 컨볼루션이 적용되고, MFCC 또는 로그 스펙트럼 특징의 경우 2D가 사용된다. 마찬가지로, 종래기술의 영어와 한국어로 된 음성 데이터에서 MFCC 함수를 추출하고 이를 특정 동작을 실행하는 8개 클래스 중 하나로 변환하는 맞춤형 이중 언어 CNN 신경망의 도움을 받아 음성 명령 구현에 초점을 맞추었다. 예를 들어, "튜토리얼(사용지침) 비디오 재생"을 선택하면 미디어 플레이어가 참조 비디오를 시작한다. 네트워크는 오디오 MFCC 함수를 사용하여 작업 클래스와 식별 언어라는 두 가지 결과를 생성한다. 여기서 음성 통신은 애플리케이션의 운영 함수를 호출한다.
XR 시스템에서 음성 표기가 필요한 경우가 있으며, 신호파를 시퀀스에 매핑하기 위한 음향 모델을 구축한 자동 음성 인식(Automatic Speech Recognition; ASR) 기법의 도움으로 오디오 신호를 텍스트로 변환한다. 종래기술에서는 원시 오디오를 입력으로 받아들이고 음성 표현을 계산하는 완전 컨볼루션 모델을 적용한 반면, 또 다른 종래기술에서는 반복 신경 네트워크(Recurrent Neural Network; RNN)를 활용했다. 또 다른 종래기술에서는 주의 기반 디코더와 LSTM 기반 언어 모델의 예측을 결합해 결과를 얻었다. XR 시스템에서는 이러한 네트워크를 활용하기 위해서는 공간과 처리 능력이 필요하기 때문에 실제 모바일 기기가 아닌 온라인에서 사용된다. 그럼에도 불구하고 분류 또는 ASR 네트워크 중 어느 쪽이든 신경 모델의 추론은 상황별 정보에 의존하지 않는다. 그러나 본 논문에서 우리는 맥락이 중요한 경우의 사례와 요구를 다루었다.
본 발명에서는 MRO(Maintenance Repair Operation) 중 운용상의 실수로 인해 파괴적이고 치명적인 결과를 초래할 수 있기 때문에 정비사(다시 말해, 사용자)가 엄격히 준수해야 하는 법률 문서인 항공기 정비 매뉴얼을 고려한다. 따라서 음성 통신과 함께 운영 제어를 하려면 상황별 정보를 나타내는 매뉴얼과의 강한 관계가 필요하다. 매뉴얼에는 작업, 하위 작업, 지침, 항공기 부품, 2D 매뉴얼, 3D 객체, 도구, 경고, 주의 등에 대한 지식과 계층구조가 있다. 문서의 모든 항목이 연결되어 유지 관리 프로세스 중에 참조해야 하는 지식 그래프를 만든다. 따라서 단순 구조화된 딥러닝 네트워크를 통한 음성 통신 및 제어의 개발은 매뉴얼에서 모든 리소스와 관계를 처리할 수 없으며 회의 중에 맥락을 고려할 수 없다. 전반적으로 음성 상호 작용 시스템은 맥락 정보를 기반으로 추론하고 신경망의 패턴 인식 능력을 보완하는 논리 기반 부분이 필요하다. 신경 네트워크 분야의 최근 발전(다시 말해, 신경 언어 AI)는 논리 기반 추론을 위해 신경 네트워크와 언어 AI의 능력을 결합한다.
새로운 AI 방법론인 신경 언어 AI는 지식과 추론을 기반으로 하는 언어 AI 또는 고전적 AI의 보완적 능력으로 머신러닝 등 통계적 AI의 강점을 강화한다. 이 경우에 신경이라는 용어는 가장 넓은 의미에서 인공 신경 네트워크 또는 연결주의 시스템의 사용을 의미한다. 언어라는 용어는 명시적 기호 조작에 기초한 AI 접근방식을 가리킨다. 신경 언어 AI 접근법은 AI 시스템 내 정보의 표현에 차이가 있다. 언어 시스템의 경우, 표현은 명백하고, 언어 수단으로 조작되며, 인간이 이해할 수 있다. 그러나 신경 시스템에서 표현은 대개 뉴런 사이의 가중 연결을 통해 이루어진다. 신경 언어 AI의 주요 목표는 소량의 데이터에 대해 학습할 수 있는 능력으로 복잡한 문제를 해결하는 것이며, 사용자에게 각 결정과 제어 가능한 조치에 대한 이해할 수 있는 이유를 제공하는 것이며, 이는 산업에 AI를 통합할 때 중요하다.
신경 언어 AI의 증가는 이러한 접근의 기회를 창출한 여러 연구로부터 시작되었다. 종래기술에서는 시각 및 언어 이해를 위한 신경 언어 AI를 기반으로 이미지와 관련 질의응답 쌍의 개념 공동 학습을 수행하는 기법을 제안했다. 시각적 인식과 언어 이해를 위한 딥러닝과 추론을 위한 언어적 프로그램 실행에 전통적인 AI를 적용함으로써, 접근 방식은 주어진 이미지에서 다양한 관계적 및 개념적 질문에 대답할 수 있다. 종래기술에서는 VQA(Visual Question Answering) 시스템에 대한 CLEVR 데이터셋을 사용하여 시각 데이터에 대한 질문을 추론하고 답변했다. 데이터셋의 이미지는 실린더, 큐브, 구와 같은 단순한 3D 형태로 구성된다. 각 물체는 고유의 색상(빨간색, 녹색, 파란색 등), 재료(고무 또는 금속) 및 크기(작거나 큰)를 가지고 있으며 특정 물체 앞(왼쪽, 오른쪽, 뒤쪽 및 앞)의 다른 물체와 특정 관계적인 위치에 위치한다. 이러한 장면에서 추론하기 위해 CLEVR의 각 질문에 대한 기능성 프로그램을 도입하고, 여기서 프로그램은 장면 그래프에서 실행될 수 있고 이미지로부터의 질문에 대한 답을 제공한다. 제안된 프로그램에는 조합하여 특정 결과를 제공하는 쿼리, 카운트 또는 비교 작업이 포함된다.
시각 및 언어 이해를 위한 신경 언어 AI를 기반으로 이미지와 관련 질의응답 쌍의 개념 공동 학습을 수행하는 기법은 시각과 언어 이해를 추론과 분리한다. 첫째, 신경망을 사용하여 이미지 장면을 구문 분석하며, 문제는 그것을 기능성 프로그램으로 변환함으로써 이해되고 있다. 구문 분석된 이미지 정보는 지식으로 구성된다. 다음으로, 그 추론은 질문에 대한 답을 주기 위해 지식을 바탕으로 한 프로그램의 언어적인 실행을 적용한다. 이러한 기법에서 구조적 장면 표현을 추출하기 위해 마스크 R-CNN 및 CNN 네트워크를 적용했다. 질문을 처리하고 프로그램을 생성하기 위해 인코더-디코더 양방향 LSTM 인코더를 사용한 시퀀스 투 시퀀스 모델이 적용된다. 복잡한 프로그램에 대한 견고성, 작은 훈련 데이터 등 다양한 장점을 가진 이 방법은 CLEVR 데이터셋에서 뛰어난 정확도를 달성했다.
학습과 추론의 통합은 최근 인공지능과 머신러닝의 핵심 과제 중 하나이다. 그리고 신경 언어 접근법의 의미론, 설명 가능성, 잠재적 응용, 최소한의 또는 영역별 훈련 없이 작업으로 일반화할 수 있는 등 많은 의문점이 여전히 남아 있다. 종래기술에 따른 딥러닝 접근법의 한계를 서서히 깨닫고 있으며, 논리적 추론을 통한 추가적인 배경 지식은 딥러닝 시스템을 더욱 개선하기 위함이다. 이러한 방법에 있어서, 본 발명에서는 트랜스포머(Transformer)라고 불리는 구조를 기반으로 하나의 신경망 작업을 통합했다.
다양한 종래기술에 따르면, 자연어 처리 작업에서 RNN에 비해 트랜스포머의 우수성을 입증했다. 순환 신경망은 자연어를 시계열로 취급함으로써 작동하는데, 여기서 모든 단어는 그 전에 나온 모든 단어의 의미를 수정한다. RNN은 한 번에 하나의 단어를 살펴보고 다음 단어의 표현으로 해당 표현을 더 맥락화하도록 표현을 만든다. 트랜스포머와 RNN 구조를 비교하면, 트랜스포머는 문장 전체를 처리하는 자기 주의 메커니즘을 통해 순차적 정보를 학습하는 반면, RNN은 단어별로 표현을 추출하여 병렬 처리를 허용하지 않으므로 트랜스포머의 훈련 과정이 여러 GPU에 분산될 수 있기 때문에 더 효율적이다. 더욱이, 트랜스포머는 이전 단어와 의존성을 포착하기 위해 과거 상태에 의존하지 않고 문장을 전체적으로 처리하며, 다중 헤드 주의와 위치 임베딩은 다른 단어 사이의 관계에 대한 정보를 제공하지만, RNN 구조는 각 상태가 있는 과거 상태를 통해 학습된 정보를 유지한다. 이전 상태에만 의존한다고 가정하여 긴 종속성 내에서 문제가 발생한다. 따라서, 트랜스포머는 단어나 심지어 단어의 부분도 가져와 주변 단어로부터 정보를 수집하여 주어진 언어의 비트의 의미를 맥락에 따라 결정할 수 있다. 주어진 접근 방식의 모든 장점을 고려하여, 본 발명에서는 트랜스포머 구조를 기반으로 음성 인식 및 번역과 같은 언어 이해 모델을 구축하였다.
메타버스의 분야에서 음성 통신 시스템은 3D 세계의 가상 자원과 상호 작용하기 위해 컨텍스트를 인식하는 것이 필수적이다. 본 발명은 레거시 매뉴얼, 3D 모델, 3D 시뮬레이터 및 항공기 정비 지식을 제공하는 보잉-737 항공기 정비 훈련 및 교육을 위한 메타버스를 제안한다.
또한, 유지 관리 매뉴얼이 엄격하게 준수되는 메타버스의 운영 흐름을 탐색하고 제어하기 위해 컨텍스트 인식 음성 이해 모듈 NSSE(Neuro-Symbolic Speech Executor)를 제공한다. NSSE는 기존의 음성 인식 방식과 달리 신경망과 전통적인 언어적 추론을 결합한 신경 언어(Neuro-Symbolic) AI를 적용하여 컨텍스트 및 항공기 관련 지식을 기반으로 사용자의 요청과 응답을 이해한다.
NSSE는 훈련용 합성 데이터만 적용하여 산업적으로 유연한 접근 방식으로 개발되었다. 그럼에도 불구하고 실제 사용자 데이터에 대한 다양한 자동 음성 인식 메트릭으로 수행된 평가 프로세스는 평균 정확도 94.7%, WER(Word Error Rate) 7.5%, 비 원어민 발음의 사용자의 음성 요청을 처리하는 일반화 능력으로 지속 가능한 결과를 보여주었다.
제안하는 메타버스를 이용한 항공기 정비 훈련 및 교육 방법 및 시스템은 값비싼 물리적 항공기를 쉽게 수정 및 업데이트할 수 있는 가상 항공기로 대체하기 때문에 항공 기술을 위한 저렴하고 확장 가능한 솔루션이다. 또한, 현장 전문가의 역할을 하는 NSSE는 항공기 정비에 대한 효과적인 훈련 및 교육을 용이하게 하기 위해 기술적인 지도와 모든 자원을 제공할 수 있다. 이하, 본 발명의 실시 예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 메타버스를 이용한 혼합현실에서의 복잡한 기계류 훈련, 교육 및 홍보 시스템의 구성을 나타내는 도면이다.
제안하는 메타버스를 이용한 혼합현실에서의 복잡한 기계류 훈련, 교육 및 홍보 시스템(100)은 시뮬레이션을 수행부(110), 인공지능 지식 처리부(120), 학습부(130) 및 신경 언어 음성 실행부(140)를 포함한다.
본 발명의 실시예에 따른 시뮬레이션을 수행부(110)는 항공기를 포함하는 기계류의 정비 훈련, 교육 및 홍보를 위한 메타버스 혼합 현실(Mixed Reality)에서, 스마트 안경을 통해 상기 정비 훈련, 교육 및 홍보를 위한 특정 시각적 요소에 대하여 시뮬레이션을 수행하기 위한 디지털 트윈(Digital Twin)을 제공하여 3D 시뮬레이션을 수행한다.
본 발명의 실시예에 따른 학습부(130)는 2D 매뉴얼, 상기 2D 매뉴얼의 작업 지시서 및 SCM(Simulation Cost Model)을 포함하는 학습 정보에 기초하여 인공지능 지식 처리부(120)로부터 인공지능 지식(Knowledge)을 제공한다.
본 발명의 실시예에서는 항공기 정비 훈련, 교육 및 홍보를 예시로서 설명하지만, 이에 한정되지 않으며 항공기를 포함한 다양한 기계류의 정비 훈련, 교육 및 홍보를 위한 메타버스 혼합 현실(Mixed Reality)에 적용될 수 있다.
도 2는 본 발명의 일 실시예에 따른 항공기 정비 메타버스의 1인칭 뷰 스냅샷의 예시도이다.
항공기 정비 메타버스는 정비 수리 운영(Maintenance Repair Operation; MRO) 분야의 사용자들이 함께 모여 항공기별 가상 자산을 운용할 수 있도록 하는 협업 공간이다. 메타버스는 인식된 가상 세계에 연결된 지속적이고 공유된 3D 가상 공간으로 구성된 인터넷의 미래 반복 개념을 설명하는 데 사용된다.
동시에, 본 발명에서 제안하는 메타버스는 교육생들이 유지보수 교육을 용이하게 하는 지원 자료와 함수를 갖춘 가상 항공기로 운용할 수 있는 학습 장소이다. 가상 매뉴얼에 따라 작업을 수행하는 데 필요한 모든 것을 갖추고 있는 메타버스는 효과적인 교육 작업흐름을 만든다. 현세계가 COVID-19로 타격을 받고 있고 다양한 산업이 전통적인 업무나 정규 교육에서 Society 5.0을 향상시키는 온라인 대체로 이주하고 있다는 사실을 고려하면, 제안된 메타버스 같은 가상 공간은 대유행으로 인한 당면 과제를 처리할 수 있는 잠재적 솔루션을 제공한다. 메타버스는 모든 것을 아우르는 통일된 포털 및 허브로서 기능하면서 세계를 연결하기 위한 상호운용 가능한 게이트웨이를 만든다. 같은 방식으로, 본 발명에서는 현실 세계를 가상 항공기 및 정비의 세계와 결합시켰다.
수억 달러(예를 들어, 보잉-737 비용은 1억 달러) 이상에 달할 수 있는 물리적 비행기의 비용을 고려할 때, 제안된 항공기 정비 메타버스는 구식 항공기 모델에 대한 훈련을 준비하는 다양한 항공 대학과 학교를 위한 잠재적 솔루션을 제안한다. 메타버스에 있는 항공기의 가상 모델은 쉽게 업데이트되거나 대체될 수 있다. 또한 물리적 부품(예를 들어, 항공기 착륙 장치)에서 작업하는 동안 그러한 부품의 중량이 크기 때문에 운반 또는 설치하기 위해 보통 특수 장비가 필요하다. 대조적으로 스마트 안경의 다양한 상호 작용 메커니즘은 사용자가 손가락 터치만으로 직관적인 방법으로 조작할 수 있게 한다. 따라서, 엄청난 양의 자원을 절약하기 때문에, 산업에서의 메타버스의 역할이 중요하다.
메타버스에 접근하기 위해 스마트 안경(예를 들어, HoloLens 2)이 사용되고 있다. 스마트 안경은 혼합 현실을 현실 세계에 투영하고 3D 세계의 몰입할 수 있는 경험을 제공하는 데 도움이 된다. 도 2는 1인칭 관점에서 포착한 제안된 항공기 정비 메타버스 스냅샷을 도 2의 왼쪽과 같이 보여준다.
도 2를 참조하면, 다양한 시각적 요소들이 존재한다는 것을 알 수 있다. 첫째, 주요 부품(main asset)은 작업해야 할 특정 항공기 부품이다. 작업해야 할 특정 항공기 부품은 중앙에 위치하고 실제 모델의 디지털 트윈을 나타낸다. 도 2에 보잉-737의 주 착륙 기어가 표시되어 있다. 이 모델은 초보 사용자가 시각적인 단서를 얻을 수 있도록 구성 요소에 주석을 달았다. 모델 오른쪽에는 비디오 참조를 보여주는 미디어 플레이어가 배치된다. 튜토리얼 비디오는 특정 작업에 대한 동료 엔지니어의 작업을 요약하여 교육생이 완료해야 할 절차를 이해하는 데 도움이 된다. 다음으로 디지털 트윈 좌측에 수동 섹션이 시연된다. 제안된 시스템은 기존의 2D 항공기 정비 매뉴얼을 유지하고 혁신적인 3D 시뮬레이터를 도입했다.
정의된 프로토콜을 유지하는 것이 안전성과 효율성을 위해 중요하기 때문에 시스템에 구현된 모든 절차는 공식 보잉-737 매뉴얼과 문서에 기초한다. 따라서 이 프로젝트에서 수행한 첫 번째 단계는 레거시(legacy) 문서를 시스템에서 사용할 구조화된 형식으로 변환하는 것이다. JSON 형식은 방대한 양의 데이터를 캡슐화하고 지식으로 변환하는 동시에 메타버스에서 웹의 개념을 강화하는 데 사용되며, 여기에는 모든 가상 세계와 인터넷의 합(sum)이 포함된다. 이러한 시스템은 동시에 혼합 현실 애니메이션, 미디어 콘텐츠 및 유지보수 훈련과 교육을 혁신하는 3D 매뉴얼과 같은 새로운 차원의 정보로 절차를 개선하면서 전통적인 항공기 정비 방식의 신뢰를 유지할 수 있다.
도 3은 본 발명의 일 실시예에 따른 항공기 정비 매뉴얼 3D 시뮬레이터의 예시도이다.
본 발명의 실시예에 따른 3D 매뉴얼은 기존의 2D 매뉴얼을 볼 수 있는 새로운 방법을 나타낸다. 일반적으로 2D 레거시 매뉴얼에는 주석과 함께 특정 프로세스를 설명하는 그림이 있다. 정적이며 최종 결과를 스냅샷으로 표시한다. 도 3을 참조하면, 2D AMM 매뉴얼의 예시가 도시되어 있다. 주 착륙 장치의 하부 측면 스트럿 제거를 보여주며, 2D 매뉴얼은 정비 프로세스 중에 특정 작업을 수행하는 방법에 대한 참조로 작동한다.
3D 매뉴얼은 장면과 개별 구성요소를 서로 다른 각도에서 개별적으로 시각화하여 참조하는 정보를 더 잘 이해할 수 있도록 도와주는 모델이다. 레거시 매뉴얼을 보기 위해 새로운 차원을 소개하면서, 2D 레거시 그림을 완성하는 3D 매뉴얼을 제안했다. 도 3에서 3D 매뉴얼은 2D 매뉴얼에 추가된 것으로 설명되므로 책에 나온 그림을 참조하는 사용자가 이해할 수 있는 시각으로 3D 매뉴얼을 살펴볼 수 있다.
3D 매뉴얼은 탐색 가능한 3D 외에도 다양한 기능을 가지고 있다. 2D 그림은 작업, 하위 작업 또는 명령의 정보를 캡슐화하고 바람직한 최종 결과를 표시하므로 3D 수동 중간 프로세스로도 탐구할 수 있다. 도 3에서 2D는 다음 세 가지 지침이 있는 하위 작업 실행의 최종 결과를 나타낸다:
"볼트 46에서 너트 42, 와셔 43을 제거한다.
"볼트 46을 제거하여 하부 사이드 스트러트 어셈블리를 분리한다."
"하부 측면 스트러트 어셈블리에서 푸시 로드 41을 분리한다."
반대로, 제안된 3D 매뉴얼을 사용하면 지침 수준에서 심층적으로 볼 수 있고 단계별로 수행할 수도 있다. 즉, 도 3의 "너트 42, 와셔 43 제거"는 46에서 42를 제거하고 46에서 43을 제거하는 두 단계로 나누어져 있으므로 사용자가 특정 지침을 하나로 실행하거나 그림과 같이 하위 단계로 나눌 수 있다. 단계별 명령 실행이 수행되면 프로세스를 더 잘 탐색할 수 있도록 "완료" 아이콘으로 표시되는 시각적 단서가 표시된다.
각 하위 작업 또는 명령에는 실험할 시뮬레이터로 고려할 수 있는 자체 3D 매뉴얼이 있다. 이 복잡한 프로세스를 제어하기 위해 음성 명령이 사용되며, 본 발명의 실시예에 따른 방법을 사용하여 처리된다.
다시 도 1을 참조하면, 본 발명의 실시예에 따른 신경 언어 음성 실행부(140)는 제공된 인공지능 지식, 디지털 트윈에 기초하여 3D 시뮬레이션을 수행하기 위해 음성 요청을 처리하기 위한 신경망 작업과 언어적 추론을 수행하고, 사용자에게 시각 및 음성 피드백을 전송하여 요청된 작업의 처리 및 완료에 대해 통지한다.
본 발명의 실시예에 따른 신경 언어 음성 실행부(140)는 동적 길이 오디오 녹음기, 음성-텍스트 네트워크, 텍스트-프로그램 네트워크 및 언어 프로그램 실행기를 포함한다.
본 발명의 실시예에 따른 동적 길이 오디오 녹음기는 스마트 안경을 착용한 사용자가 자신의 오디오 요청을 녹음하도록 신경 언어 음성 실행부를 트리거하고, 신경 언어 음성 실행부가 트리거 구문을 감지하고 동적 길이 오디오 녹음 알고리즘을 호출하여 마이크에서 출력되는 음성 신호 스트림에서 오디오 데이터를 생성하도록 처리한다.
본 발명의 실시예에 따른 동적 길이 오디오 녹음기는 시스템의 응답 시간을 개선하기 위해 녹음에 정적 시간을 설정하지 않고 오디오 신호를 녹음하는 동적 길이 오디오 녹음 알고리즘을 이용한다.
본 발명의 실시예에 따른 동적 길이 오디오 녹음 알고리즘은 입력으로 원시 오디오 형식의 마이크 스트림, 스트림에서 분석할 함수의 수, 타임스탬프에서의 데이터 비교를 위한 임계값 및 녹음이 중지될 때까지의 최대 침묵 시간을 제공하고, 출력으로 스트림에서 생성된 오디오 데이터를 획득한다.
본 발명의 실시예에 따른 음성-텍스트 네트워크는 상기 오디오 데이터를 텍스트로 변환하여 자동 음성 인식을 위한 음성-텍스트의 형태로 텍스트-프로그램 네트워크로 전달한다.
본 발명의 실시예에 따른 텍스트-프로그램 네트워크는 상기 음성-텍스트를 도메인별 언어의 실행 가능한 프로그램 시퀀스로 변환하기 위한 함수와 매개변수로 구성된다.
본 발명의 실시예에 따른 텍스트-프로그램 네트워크는 텍스트의 단어를 교육 데이터셋의 단어와 일치시키 위한 일반 어휘(General Vocabulary)를 이용하여 요청 벡터로 변환하고, 상기 요청 벡터를 프로그램 벡터로 변환하며, 상기 프로그램 벡터는 프로그램 생성에 사용되는 도메인 특정 언어(Domain Specific Language)의 구성 요소에 대한 참조를 포함한다.
본 발명의 실시예에 따른 언어 프로그램 실행기는 사용자에게 시각 및 음성 피드백을 전송하여 요청된 작업의 처리 및 완료에 대해 통지한다.
본 발명의 실시예에 따른 언어 프로그램 실행기는 실행해야 하는 프로그램을 입력으로 사용하고, 각 프로그램은 함수 및 해당 매개변수로 구성되며, 주어진 프로그램의 각 프로그램에 대해 반복을 입력하면 함수 및 매개변수가 추출되고, 이전 반복의 결과를 설명하는 변수(Prev)가 매개변수에 추가되고, 함수와 매개변수가 준비되면 Execute 함수는 각 함수를 호출하고 추출된 매개변수를 전달하며, 각 함수는 반환 값을 가지므로 각 반복에서 변수(Prev)가 업데이트되고, 상기 절차를 모든 프로그램에 적용한다. 도 5 내지 도 13을 참조하여 본 발명의 실시예에 따른 신경 언어 음성 실행부(140)의 각 구성에 대하여 더욱 상세하게 설명한다.
도 4는 본 발명의 일 실시예에 따른 메타버스를 이용한 혼합현실에서의 복잡한 기계류 훈련, 교육 및 홍보 방법을 설명하기 위한 흐름도이다.
제안하는 메타버스를 이용한 혼합현실에서의 복잡한 기계류 훈련, 교육 및 홍보 방법은 항공기를 포함하는 기계류의 정비 훈련, 교육 및 홍보를 위한 메타버스 혼합 현실(Mixed Reality)에서, 스마트 안경을 통해 상기 정비 훈련, 교육 및 홍보를 위한 특정 시각적 요소에 대하여 시뮬레이션을 수행하기 위한 디지털 트윈(Digital Twin)을 시뮬레이션 수행부가 제공하여 3D 시뮬레이션을 수행하는 단계(410), 학습부를 통해 2D 매뉴얼, 상기 2D 매뉴얼의 작업 지시서 및 SCM(Simulation Cost Model)을 포함하는 학습 정보에 기초하여 인공지능 지식(Knowledge)을 제공하는 단계(420) 및 제공된 2D 매뉴얼 및 3D 매뉴얼에 기초하여 시뮬레이션을 수행하기 위해 신경 언어 음성 실행부를 통해 음성 요청을 처리하기 위한 신경망 작업과 언어적 추론을 수행하고, 사용자에게 시각 및 음성 피드백을 전송하여 요청된 작업의 처리 및 완료에 대해 통지하는 단계(430)를 포함한다.
단계(410)에서, 항공기를 포함하는 기계류의 정비 훈련, 교육 및 홍보를 위한 메타버스 혼합 현실(Mixed Reality)에서, 스마트 안경을 통해 상기 정비 훈련, 교육 및 홍보를 위한 특정 시각적 요소에 대하여 시뮬레이션을 수행하기 위한 디지털 트윈(Digital Twin)을 시뮬레이션 수행부가 제공하여 3D 시뮬레이션을 수행한다.
단계(430)에서, 학습부를 통해 2D 매뉴얼, 상기 2D 매뉴얼의 작업 지시서 및 SCM(Simulation Cost Model)을 포함하는 학습 정보에 기초하여 인공지능 지식(Knowledge)을 제공한다.
단계(430)에서, 제공된 인공지능 지식, 디지털 트윈에 기초하여 3D 시뮬레이션을 수행하기 위해 신경 언어 음성 실행부를 통해 음성 요청을 처리하기 위한 신경망 작업과 언어적 추론을 수행하고, 사용자에게 시각 및 음성 피드백을 전송하여 요청된 작업의 처리 및 완료에 대해 통지한다.
단계(430)는 스마트 안경을 착용한 사용자가 자신의 오디오 요청을 녹음하도록 신경 언어 음성 실행부를 트리거하고, 신경 언어 음성 실행부가 트리거 구문을 감지하고 동적 길이 오디오 녹음 알고리즘을 호출하여 마이크에서 출력되는 음성 신호 스트림에서 오디오 데이터를 생성하도록 처리하는 단계, 음성-텍스트 네트워크를 통해 상기 오디오 데이터를 텍스트로 변환하여 자동 음성 인식을 위한 음성-텍스트의 형태로 텍스트-프로그램 네트워크로 전달하는 단계, 함수와 매개변수로 구성된 텍스트-프로그램 네트워크를 통해 상기 음성-텍스트를 도메인별 언어의 실행 가능한 프로그램 시퀀스로 변환하는 단계 및 언어 프로그램 실행기를 통해 사용자에게 시각 및 음성 피드백을 전송하여 요청된 작업의 처리 및 완료에 대해 통지하는 단계를 포함한다. 단계(430)의 각각의 구체적인 단계에 관하여 도 5를 참조하여 더욱 상세히 설명한다.
도 5는 본 발명의 일 실시예에 따른 신경 언어 음성 실행부의 동작 과정을 나타내는 도면이다.
본 발명의 실시예에 따른 신경 언어 음성 실행부(Neuro-Symbolic Speech Executor; NSSE)는 제안된 항공기 정비 메타버스에서 음성 요청을 처리하기 위한 신경망의 작업과 언어적 추론을 통합하는 모듈이다. 패턴 인식에서 딥러닝의 탁월한 능력과 추론을 위한 전통적인 AI를 결합하여, 신경 언어 음성 실행부는 항공기별 도메인 어휘와 기존 정비 매뉴얼에 대한 다양한 참조를 포함하는 다양한 의미 구조를 가진 복잡한 사용자의 구어 명령을 이해한다. 예를 들어, "항목 8의 AM 문서 표시" 에 대하여, 본 발명의 실시예에 따른 신경 언어 음성 실행부는 항공기 특정 매뉴얼 AM이 사용자에게 입증되어야 하며, 해당 사용자를 탐색하기 위해 문서의 번호 8에 따른 항목이 강조 표시되어야 한다는 것을 인식한다.
도 5와 같이, 신경 언어 음성 실행부에는 추론을 수행하기 위한 네 가지 단계가 있다. 단계(510)에서, 스마트 안경을 착용한 사용자가 자신의 오디오 요청을 녹음하도록 신경 언어 음성 실행부를 트리거한다. 이를 위해 "Hey, AK!"라는 관련 문구를 사용할 수 있다. 신경 언어 음성 실행부는 트리거 구문을 감지하고 동적 길이 오디오 녹음(Dynamic Length Audio Recording; DLAR) 알고리즘을 호출하여 마이크에서 나가는 음성 신호 스트림에서 오디오 데이터 생성을 처리한다.
단계(520)에서, 음성 요청의 길이에 따라, DLAR의 출력은 n초 지속 오디오 요청이다. 다음으로, 오디오 요청은 음성-텍스트 네트워크로 전달되는데, 음성-텍스트 네트워크는 원시 오디오 데이터를 텍스트로 변환하여 요청 기록을 추출하는 자동 음성 인식을 위한 신경 네트워크이다.
단계(530)에서, 텍스트-프로그램 네트워크는 시퀀스 투 시퀀스 네트워크로서 영어로 된 음성 요청 기록을 가져와서 함수와 매개변수로 구성된 생성된 도메인별 언어의 실행 가능한 프로그램 시퀀스와 일치시킨다.
단계(540)에서, 생성된 프로그램(다시 말해, 특정 함수와 매개변수의 조합)은 언어 프로그램 실행기(Symbolic Programs Executor)를 사용하여 결과를 얻고 사용자에게 시각 및 음성 피드백을 전송하여 요청된 작업의 처리 및 완료에 대해 통지한다.
본 발명의 실시예에 따른 동적 길이 오디오 녹음기에 관하여 설명한다.
본 발명의 실시예에 따른 시스템의 오디오 명령은 다양한 길이를 가질 수 있다. 즉, 명령 "다음 명령"은 1.37초이고 "46에서 42, 43 객체 제거"는 3.94초이므로 지정된 시간만 듣는 오디오 레코더를 만드는 것은 비효율적이다. 가능한 음성 요청(45,244 개의 요청)을 분석하면 평균 2.76초 길이의 표준 편차가 0.87초이며, 가장 짧은 것은 0.54초이고 가장 긴 음성 요청은 7.61초이다. 정적 오디오 레코더 접근법의 경우, 모든 요청을 처리하기 위해 청취 시간을 최대 시간으로 설정해야 한다. 따라서 45,244 개의 음성 명령에 대한 총 시간은 344,306.84초(45,244 x 7.61)이며, 평균 낭비되는 시간은 4.85초이다. 사용자가 요청을 마쳤음에도 불구하고 정적 녹음은 정의된 시간까지 계속 듣기 때문이다.
본 발명에서는 시스템의 응답 시간을 개선하기 위해 녹음에 정적 시간을 설정하지 않고 오디오 신호를 녹음할 수 있는 동적 알고리즘인 동적 길이 오디오 녹음(Dynamic Length Audio Recording; DLAR)을 제안했다. 동적 길이 오디오 녹음의 논리는 알고리즘 1에 설명되어 있다.
도 6은 본 발명의 일 실시예에 따른 동적 길이 오디오 녹음 알고리즘을 나타내는 도면이다.
알고리즘에 대한 입력으로 원시 오디오 형식의 마이크 스트림, 스트림에서 분석할 함수의 수, 타임스탬프에서의 데이터 비교를 위한 임계값 및 녹음이 중지될 때까지의 최대 침묵 시간을 제공한다. 출력물로 스트림에서 생성된 오디오 데이터를 얻는다. 알고리즘 1에 따르면, 오디오를 0.02초마다 실행(6행)하는 동안 루프의 모든 반복에 대해 마이크 스트림에서 오디오 데이터의 작은 말모듬(chunk)의 스펙트럼 평균을 계산(7-8행)하고 현재 스펙트럼 평균의 차이를 첫 말모듬 스펙트럼 평균과 비교한다(13행). 계산된 차이가 주어진 임계값보다 작을 경우(14행), 침묵이 발생하고 침묵 카운터가 증가하며(15행), 그렇지 않으면 카운터가 0이다(21행). 침묵이 최대 음소거 시간에 도달할 때마다 녹음이 중지(16행)되고 스트림의 오디오 데이터가 생성된다(17-18행). 이 작업에서는 1.5초의 침묵이 발생할 때까지 DLAR이 사용자의 음성 요청을 청취할 수 있도록 침묵 시간을 1.5초로 설정했다.
제안된 동적 접근 방식 DLAR과 정적 접근 방식을 비교하면, 가능한 45,244 요청의 경우 기록 시간은 192,632.74초인 반면 정적 접근 방식의 경우 344,306.84초를 얻었다. DLAR의 경우 모든 요청의 낭비 시간은 1.5초인 반면 정적 접근 방식은 평균 4.85초였다. 전체 시간 효율성을 평가할 때, DLAR은 정적 접근법보다 44.05% 더 효율적이며, 이는 시스템의 추론과 응답 시간을 상당히 빠르게 한다.
요청 음성 신호가 오디오 데이터로 변환되면 추가 처리를 위해 음성-텍스트 네트워크의 자동 음성 인식기 모델로 전달된다.
본 발명의 실시예에 따른 음성-텍스트는 음성 데이터를 가져와서 음성에서 음성 텍스트를 추출하는 자동 음성 인식 신경 네트워크이다. 이것은 wav2vec2.0 네트워크를 기반으로 한다. 음성-텍스트는 오디오 신호의 스크립트 텍스트를 만들고 모델의 성능은 신경 언어 음성 실행부의 다음 추론 단계에 직접적인 영향을 미치기 때문에 시스템에서 중요한 역할을 한다.
구조와 관련하여, wav2vec2.0 프레임워크는 음성 신호의 원시 파형을 수용하고 연결주의 시간 분류에 의해 처리되는 표현을 생성하여 신호의 기록을 작성한다. 이 모델은 다층 컨볼루션 신경망을 통해 음성 오디오를 인코딩한 다음 마스킹 언어 모델링과 유사한 결과 잠재 음성 표현의 범위를 마스킹하며, 나중에 트랜스포머를 사용하여 맥락과 관련되어진다. 여기서 자기 주의 메커니즘(self-attention mechanism)은 엔드 투 엔드 방식으로 잠재 표현 시퀀스에서 관계를 찾는다.
항공기 정비 메타버스의 경우 항공기 정비 고유의 단어와 용어를 포함하는 전문 용어가 존재하므로 일반 데이터셋에 대해 훈련된 wav2vec2.0의 기존 모델은 영어로 되어 있더라도 제대로 작동하지 않을 수 있다. 그러나 ASR 작업에는 방대한 양의 데이터가 필요하므로 처음부터 wav2vec2.0을 훈련하는 것보다 사전 훈련된 모델을 미세 조정하는 것이 더 효과적이라고 가정했다. 따라서 본 발명에서는 신경 언어 음성 실행부에서 음성-텍스트를 생성하기 위해 Libri Speech와 같은 일반 데이터셋에 사전 제한된 wav2vec2.0을 미세 조정하여 방대한 데이터셋 수집 문제를 해결한다. 다음으로, 텍스트 형태로 작성된 음성 요청 기록을 해당 처리를 위해 텍스트-프로그램 네트워크로 전달한다.
도 7은 본 발명의 일 실시예에 따른 텍스트-프로그램 네트워크의 동작 과정을 나타내는 도면이다.
본 발명의 실시예에 따른 신경 언어 음성 실행부의 텍스트-프로그램 네트워크 구성 요소는 음성 명령의 텍스트를 일련의 프로그램으로 변환하는 딥러닝 시퀀스 투 시퀀스 모델이다. 시스템에서 프로그램은 특정 코드 조각에 대한 표기법이며, 자체 매개변수가 있는 함수이다. 따라서 텍스트-프로그램 이면의 주요 직관은 요청 텍스트를 실행할 매개변수를 가진 머신 함수의 시퀀스로 변환하는 것이다.
도 7을 참조하면, 이러한 시스템은 가능한 사용자의 요청에서 나온 단어(711)인 일반 어휘(General Vocabulary)(710)와 기존 함수(721) 및 프로그램 구성에 사용할 수 있는 매개변수(722)와 같은 머신으로 알려진 단어를 나타내는 도메인 특정 언어(Domain Specific Language)(730)에 대한 지식을 가지고 있다. 따라서 요청 텍스트는 텍스트의 단어를 교육 데이터셋의 단어(711)와 일치시키는 일반 어휘의 도움을 받아 요청 벡터로 변환된다. 다음으로, 텍스트-프로그램 네트워크는 요청 벡터를 프로그램 벡터로 변환한다. 프로그램 벡터는 프로그램 생성에 사용되는 도메인 특정 언어의 구성 요소에 대한 참조를 포함한다. 따라서 예제 요청 텍스트 "Show AMM manual of item 8"은 "FindObject(Request)" 및 "Show Manual(AMM, Prev)" 프로그램으로 변환된다.
도 8은 본 발명의 일 실시예에 따른 텍스트-프로그램 네트워크의 아키텍처를 나타내는 도면이다.
텍스트-프로그램 네트워크의 구조는 트랜스포머(Transformer)(830)에 기반을 두고 있으며, 트랜스포머(830)는 인코더-디코더 유형의 구조를 가지고 있고 번역 작업에 매우 적합하다. 도 8은 텍스트-프로그램 네트워크의 구조를 보여준다. 요청 텍스트 입력(810)과 프로그램 입력(820)에 모두 256 차원의 단어 임베딩 층이 있는 경우, 임베딩 벡터는 인코더와 디코더에 공급되기 전에 위치 인코딩 형태로 각 워드의 위치 정보와 결합된다. 이 작업에서 구조는 주어진 시퀀스에 대해 학습된 정보의 표현으로 시퀀스를 매핑하는 3개의 동일한 인코더와 8개의 다중 헤드 주의 계층에서 가장 잘 작동하는 3개의 개별 디코더로 구성된다. 전체적으로 요청 어휘 크기는 89인 반면 프로그램 어휘 치수는 49이다. 트랜스포머(830)의 출력은 출력 확률을 얻기 위한 활성화 없이 Dropout 0.3 (840)및 완전 연결 계층(Fully Connected)(850)에서 전달되었다.
구조 측면에서 종래기술의 LSTM과 대조적으로 본 발명에서는 트랜스포머를 적용했다. 종래기술의 LSTM는 속도가 비효율적이다. 왜냐하면 시퀀스에서 특정 항목에 대한 임베딩을 생성하려면 이전의 모든 단어 표현을 계산해야 하므로 계산 프로세스를 GPU에서 실행하기 위해 병렬화할 수 없기 때문이다. 반대로 트랜스포머 모델은 병렬화 파이프라인을 사용하여 여러 GPU에 걸쳐 교육 및 실행할 수 있다. 또한, 종래기술의 LSTM는 토큰 앞에 오는 토큰에 따라 토큰의 의미를 이해하지만 뒤에 오는 토큰에 따른 토큰의 의미를 이해하기 때문에 맥락화가 부족하다. 그러나 트랜스포머에서는 시퀀스의 모든 토큰이 해당 시퀀스의 다른 토큰과 동시에 병합되어 맥락을 견고하게 만든다. 마지막으로 생성된 프로그램(860)은 실행을 위해 신경 언어 음성 실행부 처리의 마지막 부분을 통과한다.
도 9는 본 발명의 일 실시예에 따른 언어 프로그램 실행기의 동작 과정을 나타내는 도면이다.
본 발명의 실시예에 따른 언어 프로그램 실행기(910)는 텍스트-프로그램 네트워크에서 생성된 프로그램을 실행하고 사용자에게 시각 및 오디오 피드백을 제공하는 신경 언어 음성 실행부의 구성 요소이다.
도 10은 본 발명의 일 실시예에 따른 언어 프로그램 실행기 알고리즘을 나타내는 도면이다.
알고리즘 2는 언어 프로그램 실행 프로세스를 설명한다. 입력으로 알고리즘은 실행해야 하는 프로그램을 사용한다. 각 프로그램은 함수 및 해당 매개변수로 구성된다. 주어진 프로그램의 각 프로그램에 대해 반복을 입력하면(2행), 함수 및 매개변수가 추출된다(3-4행). 그런 다음 이전 반복의 결과를 설명하는 변수 Prev가 매개변수에 추가된다. 함수와 매개변수가 준비되면 Execute 함수는 각 함수를 호출하고 추출된 매개변수를 전달한다(5행). 각 함수는 반환 값을 가지므로 각 반복에서 변수 Prev가 업데이트된다(5행). 위의 절차는 모든 프로그램에 적용되며, 여기서 Prev의 마지막 값은 실행의 전체 결과를 설명한다(7행). 반환 함수의 유형은 서로 다르고 필요에 따라 생성된다.
도 9의 " Show AMM manual of item 8" 예제를 고려하여 해당 프로그램은 "FindObject(Request)"와 "ShowManual(AMM, Prev)"이다. 이 경우 언어 프로그램 실행기에 의해 순차적으로 실행되어야 하는 2개의 프로그램이 있다. 시스템에는 언어 프로그램 공간이 존재하며, 언어 프로그램 실행기는 머신 공간의 인스턴스와 생성된 프로그램을 일치시켜 실행을 호출한다. 도 9에서 먼저 FindObject 함수가 호출되고 명령의 스크립트(다시 말해, 음성-텍스트 네트워크의 결과)를 나타내는 요청 매개변수가 사용된다. FindObject는 주어진 텍스트에서 숫자를 찾아서 반환하는 함수이므로 이 프로그램을 실행한 후 Prev 변수는 8이 된다. 8은 예제에서 언급한 숫자이기 때문이다. 다음으로, FindObject의 반환 값을 사용하여 매개변수 AMM 및 Prev가 있는 ShowManual 함수를 호출한다. ShowManual은 특정 유형의 매뉴얼을 표시하고 그 안에 숫자를 강조하는 함수이다. 이 경우 매뉴얼의 유형은 AMM이고 강조 표시해야 할 번호는 Prev로, 현재 값 8을 유지하고 있다. 도메인별 언어의 모든 함수는 고유의 의무가 있으며, 일부는 처리된 계산 연산을 반환하고 일부는 유효성 검사 등을 수행한다.
도 11은 본 발명의 일 실시예에 따른 샘플 사용자 요청으로부터 결과까지의 과정을 나타내는 예시이다.
모든 프로그램의 처리가 완료되면 언어 프로그램 실행기는 사용자에게 피드백을 처리하여 사용자에게 매뉴얼을 시각적(예를 들어, 텍스트와 아이콘의 형태로) 그리고 음성적으로 재생하여 표시하는 진행 중인 절차에 대해 통지함으로써 사용자 경험을 향상시킨다.
본 발명의 실시예에 따른 신경 언어 음성 실행부의 구성 요소를 모두 결합하면 도 11과 같은 샘플 요청이 제공된다. 다양한 지속시간을 가진 음성 요청은 동적 길이 오디오 녹음 알고리즘(1110)에 의해 처리되고 음성-텍스트 네트워크(1120)에 의해 기록된다. 다음으로, 텍스트-프로그램 네트워크(1130)는 다양한 복잡성과 크기를 가진 프로그램을 만든다. 텍스트-프로그램 네트워크(1130)이 상호 연결된 4개의 프로그램을 생성했음을 볼 수 있다. 여기서 GetItems 함수는 JSON 지식 파일에서 정보를 가져오고, 다음으로는, 작업이 포함되기 때문에 신경 언어 프로그램 실행기(1140)는 모든 하위 작업을 추출한다. 하위 작업은 명령으로 구성되므로 하위 작업의 모든 명령을 찾는다. 모든 항목이 준비되면, 즉 모든 명령어가 포함된 노드인 수학적 프로그램 카운트는 이전 연산 동작의 항목을 카운트하여 정확한 명령 수의 요청에 대한 적절한 답변을 제공한다.
신경 언어 음성 실행부의 작업은 신경 처리의 장점과 다양한 상황별 음성 요청을 처리하기 위한 언어적 추론을 결합한 신경 언어 AI를 기반으로 한다.
도 12는 본 발명의 일 실시예에 따른 신경 언어 음성 실행부의 컨텍스트 관리에 관하여 설명하기 위한 도면이다.
사용자의 음성 요청을 처리하고 특정 상황에 따라 응답하려면 신경 언어 추론을 바탕으로 시스템을 구축하는 것이 효과적이다. 신경 언어 음성 실행부의 신경 구성 요소가 음성에서 복잡한 패턴 인식을 수행할 때, 언어 부분은 적절한 응답을 제공하고 사용자의 요청을 검증하기 위해 맥락과 지식을 관리한다.
도 12에 신경 언어 음성 실행부의 상황 관리가 설명되어 있다. 첫째, AMM, IPC와 같은 모든 기존 매뉴얼(1231)은 JSON 형식으로 구성되므로 접근 및 상호 참조가 가능하다. 이 항공기 정비 지식(1232)에는 모든 구성요소, 구축 관계 및 종속성이 요약되어 있다. 도 12의 예시에서, 다양한 작업 노드는 AMM의 여러 하위 작업을 가지고 있으며, 동시에 지침이 있는 하위 작업 노드는 항공기 특정 부품 번호, 예를 들어, 매뉴얼에서 나온 항목 51, 8, 42 등을 참조하며, AM에서 설명하는 시뮬레이션 절차를 갖춘 자체 3D 모델(1234)을 가지고 있어야 한다. 3D 가상 자산과 항공기 정비 지식을 활성 상태(1233)로 참조하는 것 외에 JSON에서 정보를 수집한다. 여기에는 현재 작업, 하위 작업 및 명령 정보, AMM 매뉴얼의 사용 가능한 주석, 현재 장면에 사용된 3D 자산, 시뮬레이션 등과 같은 다양한 환경 변수와 링크가 포함된다. 이 모든 내용은 신경 언어 음성 실행부가 음성 명령을 처리할 때 따라야 하고 고려해야 하는 맥락을 만든다.
도 12의 "Show AMM manual of item 8"과 " Show AMM manual of item 9" 요청에 대한 신경 언어 음성 실행부의 텍스트-프로그램 네트워크(1210)의 예를 보면, 언어 프로그램 실행기(1220)는 생성된 동일한 프로그램을 생성하지만, 맥락, 사용 가능한 3D 자료 및 전반적인 지식에 따라 요청을 검증하여 최종 답변을 제공한다. 도 12의 AMM 항목을 현재 상황으로 고려할 때 항목 8(item 8)의 요청은 유효하지만 항목 9(item 9)는 AMM 주석에 없으므로 사용자에 대한 피드백이 대응된다.
의미론 신경 부분에서는 텍스트-프로그램 네트워크(1210)가 요청 텍스트를 머신 이해 가능한 프로그램으로 변환할 때 상황별 정보는 고려되지 않는다. 텍스트-프로그램 네트워크(1210)는 언어 프로그램 실행기(1220)에게 결과를 얻기 위해 어떤 단계를 수행해야 하는지 알려주지만, 언어 추론은 맥락 기반 유효성 검사 절차를 포함하는 프로그램을 실행하는 동안 발생한다. 그러므로, 신경 부분과 언어 부분이 함께 작용하는 것이 필수적이다.
도 13은 본 발명의 일 실시예에 따른 신경 언어 음성 실행부의 아키텍처를 나타내는 도면이다.
신경 언어 음성 실행부는 클라이언트-서버 구조를 따르는 두 장치에 걸쳐 위치한 네 가지 주요 구성 요소로 구성된 시스템이다. 도 13은 신경 언어 음성 실행부의 시스템 구조를 설명하고 있으며, 사용자의 스마트 안경인 클라이언트 머신과 모든 처리를 처리하는 딥러닝 머신이 있다. 본 발명의 실시예에 따른 시스템의 클라이언트는 스마트 안경 HoloLens 2에서 실행되며 음성 요청 작성과 생성된 프로그램 처리를 담당한다. 반면 서버는 신경망과 함께 작동하여 음성-텍스트 네트워크를 사용하여 오디오 데이터를 텍스트로 변환하고 텍스트-프로그램 네트워크를 사용하여 텍스트를 프로그램으로 변환한다. 두 대의 컴퓨터가 인터넷을 통해 통신하여 데이터를 교환한다. 클라이언트는 오디오 데이터를 전송하고 서버는 생성된 프로그램이 포함된 스크립트를 클라이언트로 다시 전달한다. 다음 단계에서는 추론 절차를 자세히 설명한다.
클라이언트 측에 있는 동적 길이 오디오 녹음은 스마트 안경 마이크를 사용하여 오디오 요청을 생성한다(1310).
오디오 데이터가 웹을 통해 서버 머신으로 전송된다(1311).
수신된 오디오 데이터는 음성-텍스트 네트워크에서 처리되어 요청 기록을 추출한다(1320).
음성-텍스트 네트워크는 기록 일련의 프로그램으로 변환된다(1330).
요청 텍스트 및 생성된 프로그램이 클라이언트로 다시 전송된다(1331).
언어 프로그램 실행기가 프로그램을 처리한다(1340).
청각 및 시각 피드백으로 생성된 결과를 사용자에게 시연한다(1341).
이 구조는 다른 3D 자산을 고려하지 않고 시스템에 2개의 신경망이 있기 때문에 클라이언트 장치인 스마트 안경에 컴퓨터 처리가 과부하가 걸리지 않도록 보장한다. 따라서 GPU를 갖춘 강력한 머신이 설치되어 장치의 음성 요청을 빠르고 효율적으로 처리할 수 있다. 또한, 음성 처리 모듈을 기기에서 분리하여 쉽게 유지, 업데이트할 수 있으며, 스마트폰, PC, 태블릿 등 다양한 플랫폼에 구축된 애플리케이션 서비스를 제공할 수 있다.
종래기술에서 사용된 작업의 예시는 이미지에서 특정 물체가 어떤 형태, 색상, 관계를 가지고 있는지 확인하는 것과 같은 문제에 대한 신경 언어 AI를 고려하는 반면, 본 발명에서는 신경 언어 AI의 개념이 실제 문제를 해결하기 위해 업계에 적용될 수 있음을 보여주었다. 다시 말해, 상황별 지식과 환경을 참조하는 복잡한 의미 구조 음성 요청을 처리한다. 종래기술 제안된 시각적 이해와 질문 답변에서 접근 방식을 비교하지만 본 발명에서는, 질문이 무엇인지 이해하기 위해 오디오 신호를 처리하고, 주어진 질문에 기초하여 기능 프로그램이 생성되어 항공기 관련 지식에서 실행된다. 더욱이 종래기술에서는 기능적 프로그램의 실행을 위해 시각적 데이터의 구조적 장면 표현을 추출하기 위해 이미지를 구문 분석하지만, 정비 매뉴얼에서 지식을 요약한 JSON 파일 형식으로 그러한 표현을 작성했다. 그럼에도 불구하고, 두 기법 모두 추론 프로세스의 투명성을 보장하며, 이는 다양한 문제를 추적하고 이에 대한 설명 가능한 이유를 찾을 수 있는 기회를 제공하며, 이는 산업에 사용되는 시스템에 매우 중요하다.
본 발명의 실시예에 따른 메타버스를 이용한 항공기 정비 훈련 및 교육 방법 및 시스템은 항공 대학의 훈련과 교육 과정에 혁명을 일으킬 수 있는 항공기 정비 메타버스라고 불리는 차세대 협력 가상 공간을 구축한다. 제안된 메타버스는 레거시 매뉴얼, 3D 모델 및 시뮬레이션, 항공기 지식 및 확립된 유지보수 흐름과 같은 항공기의 MRO에 필요한 모든 자원을 포함하고 있으며, 훈련을 위한 물리적 항공기를 가상 항공기로 대체하여 막대한 양의 자원을 절약한다. 더욱이 자원 부족으로 인해 대학들은 오래된 항공기 모델을 교육에 사용하지만 메타버스와 함께 최신 지식을 쉽게 유지할 수 있다.
본 발명의 실시예에 따르면, 기존 지식을 위한 새로운 차원의 3D 시뮬레이터를 구축하여 기존 항공기 정비 매뉴얼을 개선할 것을 제안한다. 3D 매뉴얼은 2D AMM 매뉴얼을 복제하여 애니메이션과 단계별 제어 실행 기능을 추가한다. 일반적으로 2D 매뉴얼에 제시된 그림은 정보를 한 가지 관점, 즉 정적인 관점에서만 묘사하며, 제안된 3D 매뉴얼은 전면 관찰과 상호작용을 가능하게 한다.
본 발명의 실시예에 따르면, 메타버스의 운영 흐름을 탐색하고 제어하기 위해 3D 매뉴얼과 상호작용하기 위한 신경 언어 음성 실행부라는 음성 통신을 제안한다. 이와 같이, 본 발명은 항공기 정비 지식을 기반으로 추론할 수 있는 상황 인식 음성 이해를 구축하여 신경 언어 AI 개념을 발전시킬 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다.  또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다.  이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다.  예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다.  또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.  소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다.  소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.  상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.  상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.  컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.  프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다.  예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (8)

  1. 항공기를 포함하는 기계류의 정비 훈련, 교육 및 홍보를 위한 메타버스 혼합 현실(Mixed Reality)에서, 스마트 안경을 통해 상기 정비 훈련, 교육 및 홍보를 위한 특정 시각적 요소에 대하여 시뮬레이션을 수행하기 위한 디지털 트윈(Digital Twin)을 제공하여 3D 시뮬레이션을 수행하는 시뮬레이션 수행부;
    2D 매뉴얼, 상기 2D 매뉴얼의 작업 지시서 및 SCM(Simulation Cost Model)을 포함하는 학습 정보에 기초하여 인공지능 지식(Knowledge)을 제공하는 학습부; 및
    상기 제공된 인공지능 지식, 상기 디지털 트윈에 기초하여 상기 3D 시뮬레이션을 수행하기 위해 음성 요청을 처리하기 위한 신경망 작업과 언어적 추론을 수행하고, 사용자에게 시각 및 음성 피드백을 전송하여 요청된 작업의 처리 및 완료에 대해 통지하는 신경 언어 음성 실행부
    를 포함하고,
    상기 신경 언어 음성 실행부는,
    스마트 안경을 착용한 사용자가 자신의 오디오 요청을 녹음하도록 신경 언어 음성 실행부를 트리거하고, 신경 언어 음성 실행부가 트리거 구문을 감지하고 동적 길이 오디오 녹음 알고리즘을 호출하여 마이크에서 출력되는 음성 신호 스트림에서 오디오 데이터를 생성하도록 처리하는 동적 길이 오디오 녹음기;
    상기 오디오 데이터를 텍스트로 변환하여 자동 음성 인식을 위한 음성-텍스트의 형태로 텍스트-프로그램 네트워크로 전달하는 음성-텍스트 네트워크-상기 음성-텍스트 네트워크는 자동 음성 인식 신경망(Automatic Speech Recognition neural network)임-;
    상기 음성-텍스트를 도메인별 언어의 실행 가능한 프로그램 시퀀스로 변환하기 위한 함수와 매개변수로 구성된 텍스트-프로그램 네트워크; 및
    사용자에게 시각 및 음성 피드백을 전송하여 요청된 작업의 처리 및 완료에 대해 통지하는 언어 프로그램 실행기
    를 포함하는 메타버스 플랫폼을 이용한 혼합현실에서의 훈련, 교육 및 홍보 시스템.
  2. 삭제
  3. 제1항에 있어서,
    상기 텍스트-프로그램 네트워크는,
    텍스트의 단어를 교육 데이터셋의 단어와 일치시키 위한 일반 어휘(General Vocabulary)를 이용하여 요청 벡터로 변환하고, 상기 요청 벡터를 프로그램 벡터로 변환하며, 상기 프로그램 벡터는 프로그램 생성에 사용되는 도메인 특정 언어(Domain Specific Language)의 구성 요소에 대한 참조를 포함하는
    메타버스 플랫폼을 이용한 혼합현실에서의 훈련, 교육 및 홍보 시스템.
  4. 제1항에 있어서,
    상기 언어 프로그램 실행기는,
    실행해야 하는 프로그램을 입력으로 사용하고, 각 프로그램은 함수 및 해당 매개변수로 구성되며, 주어진 프로그램의 각 프로그램에 대해 반복을 입력하면 함수 및 매개변수가 추출되고, 이전 반복의 결과를 설명하는 변수(Prev)가 매개변수에 추가되고, 함수와 매개변수가 준비되면 Execute 함수는 각 함수를 호출하고 추출된 매개변수를 전달하며, 각 함수는 반환 값을 가지므로 각 반복에서 변수(Prev)가 업데이트되고, 상기 사용자에게 시각 및 음성 피드백을 전송하여 요청된 작업의 처리 및 완료에 대해 통지하기 위해 매뉴얼에서 추출된 지식에 기초하여 주어진 명령어를 수행하고 프로그램에 적용하는
    메타버스 플랫폼을 이용한 혼합현실에서의 훈련, 교육 및 홍보 시스템.
  5. 항공기를 포함하는 기계류의 정비 훈련, 교육 및 홍보를 위한 메타버스 혼합 현실(Mixed Reality)에서, 스마트 안경을 통해 상기 정비 훈련, 교육 및 홍보를 위한 특정 시각적 요소에 대하여 시뮬레이션을 수행하기 위한 디지털 트윈(Digital Twin)을 시뮬레이션 수행부가 제공하여 3D 시뮬레이션을 수행하는 단계;
    학습부를 통해 2D 매뉴얼, 상기 2D 매뉴얼의 작업 지시서 및 SCM(Simulation Cost Model)을 포함하는 학습 정보에 기초하여 인공지능 지식(Knowledge)을 제공하는 단계; 및
    상기 제공된 인공지능 지식, 상기 디지털 트윈에 기초하여 상기 3D 시뮬레이션을 수행하기 위해 신경 언어 음성 실행부가 음성 요청을 처리하기 위한 신경망 모델과 심볼릭(Symbolic)한 인공지능 지식 추론을 함께 수행하고, 사용자에게 시각 및 음성 피드백을 전송하여 요청된 작업의 처리 및 완료에 대해 통지하는 단계
    를 포함하고,
    상기 제공된 2D 매뉴얼 및 3D 매뉴얼에 기초하여 시뮬레이션을 수행하기 위해 신경 언어 음성 실행부를 통해 음성 요청을 처리하기 위한 신경망의 작업과 언어적 추론을 수행하는 단계는,
    스마트 안경을 착용한 사용자가 자신의 오디오 요청을 녹음하도록 신경 언어 음성 실행부를 트리거하고, 신경 언어 음성 실행부가 트리거 구문을 감지하고 동적 길이 오디오 녹음 알고리즘을 호출하여 마이크에서 출력되는 음성 신호 스트림에서 오디오 데이터를 생성하도록 처리하는 단계;
    음성-텍스트 네트워크를 통해 상기 오디오 데이터를 텍스트로 변환하여 자동 음성 인식을 위한 음성-텍스트의 형태로 텍스트-프로그램 네트워크로 전달하는 단계 -상기 음성-텍스트 네트워크는 자동 음성 인식 신경망(Automatic Speech Recognition neural network)임-;
    함수와 매개변수로 구성된 텍스트-프로그램 네트워크를 통해 상기 음성-텍스트를 인공지능 도메인 지식에 기초하여 실행 가능한 프로그램 시퀀스로 변환하는 단계; 및
    언어 프로그램 실행기를 통해 사용자에게 시각 및 음성 피드백을 전송하여 요청된 작업의 처리 및 완료에 대해 통지하는 단계
    를 포함하는 메타버스 플랫폼을 이용한 혼합현실에서의 훈련, 교육 및 홍보 방법.
  6. 삭제
  7. 제5항에 있어서,
    상기 함수와 매개변수로 구성된 텍스트-프로그램 네트워크를 통해 상기 음성-텍스트를 도메인별 언어의 실행 가능한 프로그램 시퀀스로 변환하는 단계는,
    텍스트의 단어를 교육 데이터셋의 단어와 일치시키 위한 일반 어휘(General Vocabulary)를 이용하여 요청 벡터로 변환하고, 상기 요청 벡터를 프로그램 벡터로 변환하며, 상기 프로그램 벡터는 프로그램 생성에 사용되는 도메인 특정 언어(Domain Specific Language)의 구성 요소에 대한 참조를 포함하는
    메타버스 플랫폼을 이용한 혼합현실에서의 훈련, 교육 및 홍보 방법.
  8. 제5항에 있어서,
    언어 프로그램 실행기를 통해 사용자에게 시각 및 음성 피드백을 전송하여 요청된 작업의 처리 및 완료에 대해 통지하는 단계는,
    실행해야 하는 프로그램을 입력으로 사용하고, 각 프로그램은 함수 및 해당 매개변수로 구성되며, 주어진 프로그램의 각 프로그램에 대해 반복을 입력하면 함수 및 매개변수가 추출되고, 이전 반복의 결과를 설명하는 변수(Prev)가 매개변수에 추가되고, 함수와 매개변수가 준비되면 Execute 함수는 각 함수를 호출하고 추출된 매개변수를 전달하며, 각 함수는 반환 값을 가지므로 각 반복에서 변수(Prev)가 업데이트되고,
    상기 언어 프로그램 실행기를 통해 상기 사용자에게 시각 및 음성 피드백을 전송하여 요청된 작업의 처리 및 완료에 대해 통지하기 위해 매뉴얼에서 추출된 지식을 바탕으로 주어진 명령어를 수행하고 프로그램에 적용하는
    메타버스 플랫폼을 이용한 혼합현실에서의 훈련, 교육 및 홍보 방법.
KR1020210163052A 2021-11-24 2021-11-24 메타버스 플랫폼 이용한 혼합현실에서의 복잡한 기계류 훈련 및 교육과 홍보 시스템 KR102465228B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020210163052A KR102465228B1 (ko) 2021-11-24 2021-11-24 메타버스 플랫폼 이용한 혼합현실에서의 복잡한 기계류 훈련 및 교육과 홍보 시스템
US17/566,871 US20230162736A1 (en) 2021-11-24 2021-12-31 Training, education and/or advertising system for complex machinery in mixed reality using metaverse platform
JP2022008465A JP7350376B2 (ja) 2021-11-24 2022-01-24 メタバースプラットフォームを利用した複合現実における複雑な機械類の訓練、教育、および広告システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210163052A KR102465228B1 (ko) 2021-11-24 2021-11-24 메타버스 플랫폼 이용한 혼합현실에서의 복잡한 기계류 훈련 및 교육과 홍보 시스템

Publications (1)

Publication Number Publication Date
KR102465228B1 true KR102465228B1 (ko) 2022-11-09

Family

ID=84040329

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210163052A KR102465228B1 (ko) 2021-11-24 2021-11-24 메타버스 플랫폼 이용한 혼합현실에서의 복잡한 기계류 훈련 및 교육과 홍보 시스템

Country Status (3)

Country Link
US (1) US20230162736A1 (ko)
JP (1) JP7350376B2 (ko)
KR (1) KR102465228B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117390056B (zh) * 2023-12-13 2024-04-05 国网浙江省电力有限公司金华供电公司 财务全场景预测数据分析处理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070022393A (ko) * 2004-06-17 2007-02-26 로베르트 보쉬 게엠베하 차량 및 다른 복합 장비용 대화식 매뉴얼 시스템 및 방법
KR20190110072A (ko) * 2019-09-09 2019-09-27 엘지전자 주식회사 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법
KR20200083004A (ko) * 2018-12-31 2020-07-08 박상규 가상현실 구현 시스템 및 이를 통해 구현된 가상현실을 이용한 기관실 교육 훈련 시스템
KR20210055252A (ko) * 2019-11-07 2021-05-17 티마텍 주식회사 음성 인식을 이용한 드론 지상 관제 시스템 및 방법
KR20210096821A (ko) * 2020-01-29 2021-08-06 울산과학기술원 가상현실을 이용한 용접 훈련 장치 및 훈련 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020032218A1 (ja) 2018-08-10 2020-02-13 川崎重工業株式会社 トレーニング処理装置、仲介装置、トレーニングシステム及びトレーニング処理方法
KR20200059703A (ko) 2018-11-21 2020-05-29 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070022393A (ko) * 2004-06-17 2007-02-26 로베르트 보쉬 게엠베하 차량 및 다른 복합 장비용 대화식 매뉴얼 시스템 및 방법
KR20200083004A (ko) * 2018-12-31 2020-07-08 박상규 가상현실 구현 시스템 및 이를 통해 구현된 가상현실을 이용한 기관실 교육 훈련 시스템
KR20190110072A (ko) * 2019-09-09 2019-09-27 엘지전자 주식회사 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법
KR20210055252A (ko) * 2019-11-07 2021-05-17 티마텍 주식회사 음성 인식을 이용한 드론 지상 관제 시스템 및 방법
KR20210096821A (ko) * 2020-01-29 2021-08-06 울산과학기술원 가상현실을 이용한 용접 훈련 장치 및 훈련 방법

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
[1] K. Yi, J. Wu, C. Gan, A. Torralba, P. Kohli, and J. B. Tenenbaum, "Neural-symbolic vqa: Disentangling reasoning from vision and language understanding," in Advances in Neural Information Processing Systems, 2018, pp. 1039-1050.
[2] C. Han, J. Mao, C. Gan, J. Tenenbaum, and J. Wu, "Visual concept-metaconcept learning," in Advances in Neural Information Processing Systems, H. Wallach, H. Larochelle, A. Beygelzimer, F. d'Alche-Buc, E. Fox, and R. Garnett, Eds., vol. 32. Curran Associates, Inc., 2019. [Online]. Available:https://proceedings.neurips.cc/paper/2019/file/98d8a23fd60826a2a474c5b4f5811707-Paper.pdf
[3] J. Mao, C. Gan, P. Kohli, J. B. Tenenbaum, and J. Wu, "The neuro-symbolic concept learner: Interpreting scenes, words, and sentences from natural supervision," in 7th International Conference on Learning Representations, ICLR 2019, New Orleans, LA, USA, May 6-9, 2019. OpenReview.net, 2019. [Online]. Available: https://openreview.net/forum? id=rJgMlhRctm

Also Published As

Publication number Publication date
JP7350376B2 (ja) 2023-09-26
US20230162736A1 (en) 2023-05-25
JP2023077365A (ja) 2023-06-05

Similar Documents

Publication Publication Date Title
Siyaev et al. Neuro-symbolic speech understanding in aircraft maintenance metaverse
US20230419074A1 (en) Methods and systems for neural and cognitive processing
Taniguchi et al. Survey on frontiers of language and robotics
CN109564505B (zh) 人工智能引擎、系统及机器可读存储设备
Rickel et al. Animated agents for procedural training in virtual reality: Perception, cognition, and motor control
US20220172633A1 (en) Augmented reality and virtual reality systems
CN112101045B (zh) 一种多模态语义完整性识别方法、装置及电子设备
US20180204107A1 (en) Cognitive-emotional conversational interaction system
Coronado et al. Towards a modular and distributed end-user development framework for human-robot interaction
KR102465228B1 (ko) 메타버스 플랫폼 이용한 혼합현실에서의 복잡한 기계류 훈련 및 교육과 홍보 시스템
CN115408502A (zh) 在同步会议中认知学习以生成模拟现场代理动作的脚本
Park et al. Visual language integration: A survey and open challenges
CN117251057A (zh) 一种基于aigc构建ai数智人的方法及系统
Van Trijp Grammaticalization and semantic maps: evidence from artificial language evolution.
da Rocha et al. Evasim: a software simulator for the eva open-source robotics platform
Cho et al. Implementation of human-robot VQA interaction system with dynamic memory networks
Marge et al. Exploring spoken dialog interaction in human-robot teams
CN115442495A (zh) 一种ai演播室系统
Zhang et al. Exploring the Latest Applications of OpenAI and ChatGPT: An In-Depth Survey.
Tan et al. Multimodal human-robot interaction with Chatterbot system: extending AIML towards supporting embodied interactions
de Paula et al. Evolving conceptual spaces for symbol grounding in language games
Demeter et al. Cognitive robotics software development aspects based on experiments of future software engineers
Ciupe et al. Learning agile with intelligent conversational agents
Bi et al. Misar: A multimodal instructional system with augmented reality
Roth Structured representations for behaviors of autonomous robots

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant