KR102640791B1 - System for digitalizing onboard voice - Google Patents
System for digitalizing onboard voice Download PDFInfo
- Publication number
- KR102640791B1 KR102640791B1 KR1020210173854A KR20210173854A KR102640791B1 KR 102640791 B1 KR102640791 B1 KR 102640791B1 KR 1020210173854 A KR1020210173854 A KR 1020210173854A KR 20210173854 A KR20210173854 A KR 20210173854A KR 102640791 B1 KR102640791 B1 KR 102640791B1
- Authority
- KR
- South Korea
- Prior art keywords
- text
- voice signal
- voice
- training
- ship
- Prior art date
Links
- 238000004891 communication Methods 0.000 claims abstract description 47
- 238000012549 training Methods 0.000 claims description 63
- 238000006243 chemical reaction Methods 0.000 claims description 60
- 238000013528 artificial neural network Methods 0.000 claims description 34
- 238000013473 artificial intelligence Methods 0.000 claims description 31
- 238000005516 engineering process Methods 0.000 claims description 21
- 239000000284 extract Substances 0.000 claims description 6
- 238000000034 method Methods 0.000 abstract description 48
- 238000004590 computer program Methods 0.000 abstract description 5
- 230000005236 sound signal Effects 0.000 abstract 2
- 238000010801 machine learning Methods 0.000 description 18
- 230000015654 memory Effects 0.000 description 15
- 230000006870 function Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000003062 neural network model Methods 0.000 description 7
- 230000033001 locomotion Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 210000004556 brain Anatomy 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000019771 cognition Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 210000000225 synapse Anatomy 0.000 description 1
- 230000000946 synaptic effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Telephonic Communication Services (AREA)
- Navigation (AREA)
Abstract
본 발명은 브릿지 내부의 대화, VHF 장치를 통해 수신되는 무선통신 등을 텍스트로 변환할 수 있는 선내 음성 디지털화 시스템 및 방법, 동 방법을 컴퓨터에서 실행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체에 관한 것이다. 본 발명의 실시예에 따른 선내 음성 디지털화 시스템은, 선내 브릿지 내부의 대화 내용을 이용하여 제1 음성신호를 형성하고, 선박 외부와의 통신 시 무선통신 내용을 이용하여 제2 음성신호를 형성하며, 제1 및 제2 음성신호를 텍스트 데이터로 변환하고, 텍스트 데이터를 이용하여 선박의 운항에 필요한 운항 정보를 형성한다.The present invention provides an on-board voice digitization system and method capable of converting conversations within a bridge, wireless communications received through a VHF device, etc. into text, and a computer program for executing the method on a computer readable recording medium. It's about. The on-board voice digitization system according to an embodiment of the present invention forms a first audio signal using the contents of a conversation inside the on-board bridge, and forms a second audio signal using the contents of wireless communication when communicating with the outside of the ship, The first and second voice signals are converted into text data, and the text data is used to form navigation information necessary for ship operation.
Description
본 발명은 선내 음성 디지털화 시스템 및 방법, 및 동 방법을 컴퓨터에서 실행하기 위한 컴퓨터 프로그램이 기록된, 컴퓨터 판독 가능한 기록 매체에 관한 것으로, 보다 구체적으로는 브릿지 내부의 대화, VHF 장치를 통해 수신되는 무선통신 등을 텍스트로 변환할 수 있는 선내 음성 디지털화 시스템 및 방법, 및 동 방법을 컴퓨터에서 실행하기 위한 컴퓨터 프로그램이 기록된, 컴퓨터 판독 가능한 기록 매체에 관한 것이다.The present invention relates to a voice digitization system and method on board a ship, and a computer-readable recording medium on which a computer program for executing the method is recorded on a computer. More specifically, it relates to a conversation inside a bridge and a wireless signal received through a VHF device. It relates to a shipboard voice digitization system and method that can convert communications, etc. into text, and a computer-readable recording medium on which a computer program for executing the method on a computer is recorded.
인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 규칙(Rule) 기반의 스마트 시스템과 달리 기계가 스스로 학습하고 판단하는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 규칙 기반의 스마트 시스템은 점차 심층 학습(Deep Learning) 기반 인공지능 시스템으로 대체되고 있다.An artificial intelligence (AI) system is a computer system that implements human-level intelligence, and unlike existing rule-based smart systems, it is a system in which machines learn and make decisions on their own. As artificial intelligence systems are used, their recognition rates improve and they can more accurately understand user preferences, and existing rule-based smart systems are gradually being replaced by deep learning-based artificial intelligence systems.
인공지능 기술은 기계 학습 및 기계 학습을 활용한 요소기술들로 구성된다. 기계 학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 심층 학습 등의 기계 학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.Artificial intelligence technology consists of machine learning and element technologies using machine learning. Machine learning is an algorithmic technology that classifies/learns the characteristics of input data on its own, and elemental technology is a technology that mimics the functions of the human brain such as cognition and judgment by utilizing machine learning algorithms such as deep learning, including linguistic understanding and visual It consists of technical areas such as understanding, reasoning/prediction, knowledge expression, and motion control.
인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.The various fields where artificial intelligence technology is applied are as follows. Linguistic understanding is a technology that recognizes and applies/processes human language/characters and includes natural language processing, machine translation, conversation systems, question and answer, and voice recognition/synthesis. Visual understanding is a technology that recognizes and processes objects like human vision, and includes object recognition, object tracking, image search, person recognition, scene understanding, spatial understanding, and image improvement. Inferential prediction is a technology that judges information to make logical inferences and predictions, and includes knowledge/probability-based reasoning, optimization prediction, preference-based planning, and recommendations. Knowledge expression is a technology that automatically processes human experience information into knowledge data, and includes knowledge construction (data creation/classification) and knowledge management (data utilization). Motion control is a technology that controls the autonomous driving of vehicles and the movement of robots, and includes motion control (navigation, collision, driving), operation control (behavior control), etc.
일반적으로 기계 학습 알고리즘을 실생활에 적용하기 위해서는 기계 학습의 기본 방법론의 특성상 Trial and Error 방식으로 학습을 수행하게 된다. 특히, 심층 학습의 경우 수십만 번의 반복 실행을 필요로 한다. 이를 실제 물리적인 외부 환경에서 실행하기는 불가능하여 대신 실제 물리적인 외부 환경을 컴퓨터상에서 가상으로 구현하여 시뮬레이션을 통해 학습을 수행한다.Generally, in order to apply machine learning algorithms to real life, learning is performed using a trial and error method due to the nature of the basic methodology of machine learning. In particular, deep learning requires hundreds of thousands of iterations. It is impossible to execute this in an actual physical external environment, so instead, the actual physical external environment is virtually implemented on a computer and learning is performed through simulation.
한편, 선박의 운항에 관련된 주요 정보 중 하나인 브릿지 내부의 대화, VHF(Very High Frequency) 장치를 통해 수신되는 무선통신 내용 등을 오디오 파일 형태로 저장할 경우 엄청난 용량 때문에 장기간 보관이 불가능하고, 인공위성 등 통신망을 이용한 육상 전송이 불가능한 문제점이 있다.On the other hand, if one of the key information related to the operation of a ship, such as conversations inside the bridge and contents of wireless communications received through VHF (Very High Frequency) devices, is stored in the form of an audio file, it cannot be stored for a long time due to the enormous capacity, and it cannot be stored for a long time, and it cannot be stored for a long time due to the enormous capacity, There is a problem that land transmission using a communication network is impossible.
따라서, 브릿지 내부의 대화나 VHF 장치를 통해 수신되는 무선통신 내용 등을 상대적으로 용량이 작은 텍스트 파일 형태로 변환할 필요가 있고, 인공지능 시스템을 통해 오디오 파일을 자동으로 텍스트화 하는 것에 대한 기술적 요구가 늘어나고 있다.Therefore, there is a need to convert the contents of conversations within the bridge or wireless communications received through VHF devices into relatively small text files, and there is a technical requirement for automatically converting audio files into text through an artificial intelligence system. is increasing.
본 발명은 브릿지 내부의 대화, VHF 장치를 통해 수신되는 무선통신 등을 텍스트로 변환할 수 있는 선내 음성 디지털화 시스템 및 방법, 및 동 방법을 컴퓨터에서 실행하기 위한 컴퓨터 프로그램이 기록된, 컴퓨터 판독 가능한 기록 매체를 제공한다.The present invention provides an on-board voice digitization system and method that can convert conversations within a bridge, wireless communications received through a VHF device, etc. into text, and a computer-readable record in which a computer program for executing the method on a computer is recorded. Provides media.
본 발명의 일 실시예에 따른 선내 음성 디지털화 시스템은, 선내 브릿지 내부의 대화 내용을 이용하여 제1 음성신호를 형성하는 하나 이상의 마이크; 선박의 외부와 통신 시 무선통신 내용을 이용하여 제2 음성신호를 형성하는 하나 이상의 VHF 장치; 상기 제1 음성신호 및 상기 제2 음성신호를 텍스트 데이터로 변환하는 텍스트 변환 장치; 및 상기 텍스트 데이터를 이용하여 상기 선박의 운항에 필요한 운항 정보를 형성하는 자율 운항 플랫폼을 포함한다.An onboard voice digitization system according to an embodiment of the present invention includes one or more microphones that form a first voice signal using the contents of a conversation inside the onboard bridge; One or more VHF devices that form a second voice signal using wireless communication contents when communicating with the outside of the ship; a text conversion device that converts the first voice signal and the second voice signal into text data; and an autonomous navigation platform that uses the text data to form navigation information necessary for operation of the vessel.
또한, 상기 텍스트 데이터를 상기 선박의 외부로 전송하는 통신부를 더 포함할 수 있다.In addition, it may further include a communication unit that transmits the text data to the outside of the ship.
또한, 상기 텍스트 변환 장치는, 항해 기록 장치(VDR: Voyage Data Recorder)와 일체로 형성될 수 있다.Additionally, the text conversion device may be formed integrally with a Voyage Data Recorder (VDR).
또한, 상기 텍스트 변환 장치는, 항해 기록 장치(VDR: Voyage Data Recorder)와 별도 구비될 수 있다.Additionally, the text conversion device may be provided separately from a Voyage Data Recorder (VDR).
또한, 상기 텍스트 변환 장치는, 상기 제1 음성신호 및 상기 제2 음성신호를 입력 받는 오디오 입력부, 인공지능 기술이 적용되어 학습시킬 수 있으며, 입력 받은 상기 제1 음성신호 및 상기 제2 음성신호의 텍스트 정보를 형성하는 음성인식 AI, 및 형성된 상기 텍스트 정보로 상기 텍스트 데이터를 형성하는 텍스트 변환부를 포함할 수 있다.In addition, the text conversion device can learn by applying artificial intelligence technology and an audio input unit that receives the first voice signal and the second voice signal, and can learn the input of the first voice signal and the second voice signal. It may include a voice recognition AI that forms text information, and a text converter that forms the text data with the formed text information.
또한, 상기 음성인식 AI는, 트레이닝 음성신호들을 획득하고, 상기 트레이닝 음성신호들로부터 트레이닝 텍스트 객체들을 추출하며, 상기 트레이닝 텍스트 객체들에 대응하는 단어 정보인 제1 레이블들을 획득하고, 상기 트레이닝 텍스트 객체들을 뉴럴 네트워크로 적용하여, 상기 트레이닝 텍스트 객체들에 대응하는 트레이닝 출력들을 생성하며, 상기 트레이닝 출력들 및 상기 제1 레이블들에 기초하여, 상기 뉴럴 네트워크를 학습시킬 수 있다.In addition, the voice recognition AI acquires training voice signals, extracts training text objects from the training voice signals, acquires first labels that are word information corresponding to the training text objects, and acquires the training text objects. can be applied to a neural network to generate training outputs corresponding to the training text objects, and to learn the neural network based on the training outputs and the first labels.
또한, 상기 자율 운항 플랫폼에서 형성된 상기 운항 정보를 이용하여 상기 선박의 자율 운항을 제어하는 자율 운항 제어 장치를 더 포함할 수 있다.In addition, it may further include an autonomous navigation control device that controls autonomous navigation of the ship using the navigation information generated by the autonomous navigation platform.
또한, 상기 통신부를 통하여 상기 텍스트 데이터를 수신하는 육상 관제 센터를 더 포함할 수 있다.In addition, it may further include a land control center that receives the text data through the communication unit.
한편, 본 발명의 다른 실시예에 따른 선내 음성 디지털화 방법은, 선내 브릿지 내부의 대화 내용을 이용하여 제1 음성신호를 형성하는 단계; 선박의 외부와 통신 시 무선통신 내용을 이용하여 제2 음성신호를 형성하는 단계; 상기 제1 음성신호 및 상기 제2 음성신호를 텍스트 데이터로 변환하는 단계; 및 상기 텍스트 데이터를 이용하여 상기 선박의 운항에 필요한 운항 정보를 형성하는 단계를 포함한다.Meanwhile, an onboard voice digitization method according to another embodiment of the present invention includes forming a first voice signal using the contents of a conversation inside the onboard bridge; Forming a second voice signal using wireless communication contents when communicating with the outside of the ship; Converting the first voice signal and the second voice signal into text data; and forming navigation information necessary for operation of the vessel using the text data.
또한, 상기 텍스트 데이터로 변환하는 단계 이후, 상기 텍스트 데이터를 상기 선박의 외부로 전송하는 단계를 더 포함할 수 있다.Additionally, after converting the text data into text data, the method may further include transmitting the text data to the outside of the ship.
또한, 상기 제1 음성신호 및 상기 제2 음성신호를 텍스트 데이터로 변환하는 단계는, 상기 제1 음성신호 및 상기 제2 음성신호를 입력 받는 단계, 인공지능 기술이 적용되어 학습시킬 수 있으며, 입력 받은 상기 제1 음성신호 및 상기 제2 음성신호의 텍스트 정보를 형성하는 단계, 및 형성된 상기 텍스트 정보로 상기 텍스트 데이터를 형성하는 단계를 포함할 수 있다.In addition, the step of converting the first voice signal and the second voice signal into text data includes receiving the first voice signal and the second voice signal, and artificial intelligence technology can be applied to learn the input. It may include forming text information of the received first voice signal and the second voice signal, and forming the text data using the formed text information.
또한, 상기 인공지능 기술이 적용된 학습은, 트레이닝 음성신호들을 획득하는 단계, 상기 트레이닝 음성신호들로부터 트레이닝 텍스트 객체들을 추출하는 단계, 상기 트레이닝 텍스트 객체들에 대응하는 단어 정보인 제1 레이블들을 획득하는 단계, 상기 트레이닝 텍스트 객체들을 뉴럴 네트워크로 적용하여, 상기 트레이닝 텍스트 객체들에 대응하는 트레이닝 출력들을 생성하는 단계, 및 상기 트레이닝 출력들 및 상기 제1 레이블들에 기초하여, 상기 뉴럴 네트워크를 학습시키는 단계를 포함하여 수행될 수 있다.In addition, learning to which the artificial intelligence technology is applied includes obtaining training voice signals, extracting training text objects from the training voice signals, and obtaining first labels that are word information corresponding to the training text objects. A step of applying the training text objects to a neural network to generate training outputs corresponding to the training text objects, and training the neural network based on the training outputs and the first labels. It can be performed including.
또한, 상기 선박의 운항에 필요한 운항 정보를 형성하는 단계 이후, 상기 운항 정보를 이용하여 상기 선박의 자율 운항을 제어하는 단계를 더 포함할 수 있다.In addition, after the step of forming navigation information necessary for operation of the vessel, the step of controlling autonomous navigation of the vessel using the navigation information may be further included.
또한, 상기 텍스트 데이터를 상기 선박의 외부로 전송하는 단계는, 상기 텍스트 데이터를 육상 관제 센터로 전송하는 단계를 포함할 수 있다.Additionally, transmitting the text data to the outside of the ship may include transmitting the text data to a land control center.
한편, 본 발명의 또 다른 실시예에 따른 컴퓨터 판독 가능한 기록매체는, 전술한 선내 음성 디지털화 방법을 컴퓨터에서 실행하기 위한 컴퓨터 프로그램이 기록된다.Meanwhile, a computer-readable recording medium according to another embodiment of the present invention records a computer program for executing the above-described onboard voice digitization method on a computer.
본 발명의 실시예들에 따르면, 음성을 상대적으로 용량이 작은 텍스트 파일로 변환함으로써 장기간 보관이 가능하고, 인공위성 등을 통하여 실시간 또는 주기적으로 육상의 관제 센터로 전송이 가능하며, 자율 운항 선박의 경우 선박의 운항과 관련된 서버에 통신 내용을 제공하여 선박의 운항을 돕도록 할 수 있다.According to embodiments of the present invention, the voice can be stored for a long period of time by converting it into a relatively small text file, and can be transmitted to a control center on land in real time or periodically through a satellite, etc., and in the case of autonomous ships, Communication contents can be provided to a server related to the operation of a ship to assist in the operation of the ship.
또한, 본 발명의 실시예들에 따르면, 스마트쉽(Smart Ship) 플랫폼을 통하여 선내/외 어디서나 언제든지 대화 및 통신 내용을 용이하게 확인할 수 있어 선박의 유지관리에 유용하게 사용될 수 있다.In addition, according to embodiments of the present invention, the contents of conversations and communications can be easily checked at any time anywhere on or off the ship through the Smart Ship platform, which can be useful for ship maintenance.
도 1은 본 발명의 일 실시예에 따른 선내 음성 디지털화 시스템의 구성을 보이는 예시도이다.
도 2는 본 발명의 다른 실시예에 따른 선내 음성 디지털화 시스템의 구성을 보이는 예시도이다.
도 3은 본 발명의 일 실시예에 따른 텍스트 변환 장치의 구성을 보이는 예시도이다.
도 4는 본 발명의 일 실시예에 따른 뉴럴 네트워크의 기계 학습을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 선내 음성 디지털화 방법의 절차를 보이는 흐름도이다.Figure 1 is an exemplary diagram showing the configuration of an onboard voice digitization system according to an embodiment of the present invention.
Figure 2 is an exemplary diagram showing the configuration of an onboard voice digitization system according to another embodiment of the present invention.
Figure 3 is an exemplary diagram showing the configuration of a text conversion device according to an embodiment of the present invention.
Figure 4 is a diagram for explaining machine learning of a neural network according to an embodiment of the present invention.
Figure 5 is a flowchart showing the procedure of the onboard voice digitization method according to an embodiment of the present invention.
본 발명의 실시예들은 본 발명의 기술적 사상을 설명하기 위한 목적으로 예시된 것이다. 본 발명에 따른 권리범위가 이하에 제시되는 실시예들이나 이들 실시예들에 대한 구체적인 설명으로 한정되는 것은 아니다.Embodiments of the present invention are illustrated for the purpose of explaining the technical idea of the present invention. The scope of rights according to the present invention is not limited to the embodiments presented below or the specific description of these embodiments.
이하, 첨부한 도면들을 참조하여, 본 발명의 실시예들을 설명한다. 첨부된 도면에서, 동일하거나 대응하는 구성요소에는 동일한 참조부호가 부여되어 있다. 또한, 이하의 실시예들의 설명에 있어서, 동일하거나 대응하는 구성요소를 중복하여 기술하는 것이 생략될 수 있다. 그러나, 구성요소에 관한 기술이 생략되어도, 그러한 구성요소가 어떤 실시예에 포함되지 않는 것으로 의도되지 않는다.Hereinafter, embodiments of the present invention will be described with reference to the attached drawings. In the accompanying drawings, identical or corresponding components are given the same reference numerals. Additionally, in the description of the following embodiments, overlapping descriptions of identical or corresponding components may be omitted. However, even if descriptions of components are omitted, it is not intended that such components are not included in any embodiment.
도 1은 본 발명의 일 실시예에 따른 선내 음성 디지털화 시스템의 구성을 보이는 예시도이다.Figure 1 is an exemplary diagram showing the configuration of an onboard voice digitization system according to an embodiment of the present invention.
도 1에 도시한 바와 같이, 선내 음성 디지털화 시스템(100)은, 하나 이상의 마이크(110-1, 110-2, 110-3,…, 110-n), 하나 이상의 VHF(Very High Frequency) 장치(120-1, 120-2), 텍스트 변환 장치(130), 자율 운항 플랫폼(140), 자율 운항 제어 장치(150), 육상 관제 센터(160), 케이블(170), 통신부 및 데이터베이스를 포함할 수 있다. 일 실시예에 따르면, 텍스트 변환 장치(130)는, 오디오 입력부(132), 음성인식 AI(Artificial Intelligence)(134) 및 텍스트 변환부(136)를 포함할 수 있다. 예를 들어, 하나 이상의 마이크(110-1, 110-2, 110-3,…, 110-n), 하나 이상의 VHF(Very High Frequency) 장치(120-1, 120-2), 텍스트 변환 장치(130), 자율 운항 플랫폼(140), 자율 운항 제어 장치(150), 육상 관제 센터(160), 케이블(170), 통신부 및 데이터베이스는 상호간 통신이 가능하도록 선내 네트워크를 통하여 연결될 수 있다.As shown in Figure 1, the on-board voice digitization system 100 includes one or more microphones (110-1, 110-2, 110-3,..., 110-n) and one or more Very High Frequency (VHF) devices ( 120-1, 120-2), text conversion device (130), autonomous navigation platform (140), autonomous navigation control device (150), land control center (160), cable (170), communication department and database. there is. According to one embodiment, the text conversion device 130 may include an audio input unit 132, a voice recognition artificial intelligence (AI) 134, and a text conversion unit 136. For example, one or more microphones (110-1, 110-2, 110-3,…, 110-n), one or more Very High Frequency (VHF) devices (120-1, 120-2), a text conversion device ( 130), autonomous navigation platform 140, autonomous navigation control device 150, land control center 160, cable 170, communication unit, and database may be connected through an on-board network to enable mutual communication.
하나 이상의 마이크(110-1, 110-2, 110-3,…, 110-n)는 선내 브릿지 내부의 대화 내용을 이용하여 제1 음성신호를 형성할 수 있다. 선교(船橋) 또는 브릿지(bridge)는 하나의 선박 안에서 전체 선박을 지휘할 수 있는 공간을 말한다. 일 실시예에 따르면, 하나 이상의 마이크(110-1, 110-2, 110-3,…, 110-n)는 선내 브릿지 내부의 대화 내용을 녹음할 수 있도록 다양한 위치에 설치될 수 있다.One or more microphones (110-1, 110-2, 110-3,..., 110-n) may form a first voice signal using the content of the conversation inside the bridge within the ship. A bridge or bridge is a space within a single ship that can control the entire ship. According to one embodiment, one or more microphones 110-1, 110-2, 110-3,..., 110-n may be installed in various locations to record conversations inside the bridge within the ship.
하나 이상의 VHF(Very High Frequency) 장치(120-1, 120-2)는 선박 외부와의 통신 시 무선통신 내용을 이용하여 제2 음성신호를 형성할 수 있다. 일 실시예에 따르면, VHF 장치(120-1, 120-2)는 초단파 신호를 이용하여 선박 외부와의 무선통신을 수행하도록 할 수 있다. VHF 장치(120-1, 120-2)는 선박 외부와의 통신 시 무선통신 내용을 녹음하여 제2 음성신호를 형성할 수 있다.One or more VHF (Very High Frequency) devices (120-1, 120-2) can form a second voice signal using wireless communication contents when communicating with the outside of the ship. According to one embodiment, the VHF devices 120-1 and 120-2 may perform wireless communication with the outside of the ship using microwave signals. The VHF devices (120-1, 120-2) can record wireless communication content when communicating with the outside of the ship and form a second voice signal.
텍스트 변환 장치(130)는 제1 및 제2 음성신호를 텍스트 데이터로 변환할 수 있다. 일 실시예에 따르면, 텍스트 변환 장치(130)는 기존의 항해 기록 장치(VDR: Voyage Data Recorder)에 포함되는 것을 특징으로 할 수 있다. 즉, 기존의 항해 기록 장치에 텍스트 변환 장치(130)의 기능이 추가된 차세대 항해 기록 장치가 될 수 있다. 항해 기록 장치는 선박 위치, 속도, 침로, 선교 근무자 음성, 통신기 음성, 레이더 자료, 수심, 타 조작 내역, 엔진 사용 내역, 풍향, 풍속, 선박 자동 식별 장치(AIS) 등 관련자료를 저장한다. 비상시에는 선박의 비상전원으로 작동하고, 선박 비상전원이 차단될 경우 항해 기록 장치는 일정 시간 동안 예비 전원(축전지)을 사용하여 선교 교신 내용을 지속적으로 기록할 수 있다. 이러한 항해 기록 장치는 선박이 침몰하면 자동으로 해수면 위로 올라오도록 설계될 수 있다.The text conversion device 130 can convert the first and second voice signals into text data. According to one embodiment, the text conversion device 130 may be included in an existing Voyage Data Recorder (VDR). In other words, it can be a next-generation navigation recording device in which the function of the text conversion device 130 is added to the existing navigation recording device. The navigation recorder stores related data such as ship position, speed, course, bridge worker's voice, communicator voice, radar data, water depth, rudder operation history, engine use history, wind direction, wind speed, and automatic vessel identification system (AIS). In an emergency, it operates with the ship's emergency power, and when the ship's emergency power is cut off, the voyage recording device can continuously record bridge communications using spare power (storage batteries) for a certain period of time. These navigation recorders could be designed to automatically rise to sea level if a ship sinks.
오디오 입력부(132)는, 하나 이상의 마이크(110-1, 110-2, 110-3,…, 110-n)에서 형성된 제1 음성신호 및 하나 이상의 VHF(Very High Frequency) 장치(120-1, 120-2)에서 형성된 제2 음성신호를 케이블(170)을 통해 입력 받을 수 있다.The audio input unit 132 includes a first voice signal formed by one or more microphones (110-1, 110-2, 110-3,..., 110-n) and one or more Very High Frequency (VHF) devices (120-1, The second voice signal formed in 120-2) can be input through the cable 170.
음성인식 AI(Artificial Intelligence)(134)는 제1 및 제2 음성신호에 인공지능 기술을 적용하여 실시간으로 텍스트 정보를 형성할 수 있다. 일 실시예에 따르면, 음성인식 AI(134)는 트레이닝 음성신호들을 획득하고, 트레이닝 음성신호들로부터 트레이닝 텍스트 객체들을 추출하며, 트레이닝 텍스트 객체들에 대응하는 단어 정보인 제1 레이블들을 획득하고, 트레이닝 텍스트 객체들을 뉴럴 네트워크로 적용하여, 트레이닝 텍스트 객체들에 대응하는 트레이닝 출력들을 생성하며, 트레이닝 출력들 및 제1 레이블들에 기초하여, 뉴럴 네트워크를 학습시킬 수 있다.Voice recognition AI (Artificial Intelligence) 134 can form text information in real time by applying artificial intelligence technology to the first and second voice signals. According to one embodiment, the voice recognition AI 134 acquires training voice signals, extracts training text objects from the training voice signals, acquires first labels that are word information corresponding to the training text objects, and trains. Text objects can be applied to a neural network to generate training outputs corresponding to the training text objects, and the neural network can be learned based on the training outputs and first labels.
텍스트 변환부(136)는 음성인식 AI(134)에서 형성된 텍스트 정보를 이용하여 텍스트 데이터를 형성할 수 있다.The text conversion unit 136 can form text data using text information generated by the voice recognition AI 134.
자율 운항 플랫폼(140)은 텍스트 변환 장치(130)에서 형성된 텍스트 데이터를 이용하여 선박의 운항에 필요한 운항 정보를 형성할 수 있다.The autonomous navigation platform 140 can use text data generated by the text conversion device 130 to form navigation information necessary for the operation of the ship.
자율 운항 제어 장치(150)는 자율 운항 플랫폼(140)에서 형성된 운항 정보를 이용하여 선박의 자율 운항이 가능하도록 제어할 수 있다.The autonomous navigation control device 150 can control the autonomous navigation of the ship using navigation information generated by the autonomous navigation platform 140.
육상 관제 센터(160)는 선박의 통신부를 통하여 주기 또는 비주기적으로 텍스트 데이터를 수신하고 이를 저장할 수 있다.The land control center 160 can receive text data periodically or aperiodically through the ship's communication unit and store it.
통신부는 텍스트 변환 장치(130)에서 형성된 텍스트 데이터를 선박 외부로 전송할 수 있다.The communication unit may transmit text data generated in the text conversion device 130 to the outside of the ship.
데이터베이스는, 다양한 데이터를 저장할 수 있다. 데이터베이스에 저장되는 데이터는, 선내 음성 디지털화 시스템(100)의 적어도 하나의 구성요소에 의해 획득되거나, 처리되거나, 사용되는 데이터로서, 소프트웨어(예를 들어: 프로그램)를 포함할 수 있다. 데이터베이스는, 휘발성 및/또는 비휘발성 메모리를 포함할 수 있다. 일 실시예로서, 데이터베이스는, 제1 및 제2 음성신호, 텍스트 데이터, 운항 정보 등을 저장할 수 있다.A database can store a variety of data. Data stored in the database is data acquired, processed, or used by at least one component of the onboard voice digitization system 100 and may include software (eg, a program). A database may include volatile and/or non-volatile memory. As an example, the database may store first and second voice signals, text data, navigation information, etc.
본 발명에서, 프로그램은 데이터베이스에 저장되는 소프트웨어로서, 하나 이상의 마이크(110-1, 110-2, 110-3,…, 110-n), 하나 이상의 VHF(Very High Frequency) 장치(120-1, 120-2), 텍스트 변환 장치(130), 자율 운항 플랫폼(140), 자율 운항 제어 장치(150), 육상 관제 센터(160), 케이블(170), 통신부 및 데이터베이스의 리소스를 제어하기 위한 운영체제, 어플리케이션 및/또는 하나 이상의 마이크(110-1, 110-2, 110-3,…, 110-n), 하나 이상의 VHF(Very High Frequency) 장치(120-1, 120-2), 텍스트 변환 장치(130), 자율 운항 플랫폼(140), 자율 운항 제어 장치(150), 육상 관제 센터(160), 케이블(170), 통신부 및 데이터베이스의 리소스들을 활용할 수 있도록 다양한 기능을 어플리케이션에 제공하는 미들 웨어 등을 포함할 수 있다.In the present invention, the program is software stored in a database, and includes one or more microphones (110-1, 110-2, 110-3,..., 110-n), one or more VHF (Very High Frequency) devices (120-1, 120-2), text conversion device 130, autonomous navigation platform 140, autonomous navigation control device 150, land control center 160, cable 170, operating system for controlling resources of communication department and database, Application and/or one or more microphones (110-1, 110-2, 110-3,…, 110-n), one or more Very High Frequency (VHF) devices (120-1, 120-2), text conversion devices ( 130), autonomous navigation platform (140), autonomous navigation control device (150), land control center (160), cable (170), middleware that provides various functions to the application to utilize the resources of the communication department and database, etc. It can be included.
본 발명에서, 인공지능(Artificial Intelligence, AI)은 인간의 학습능력, 추론능력, 지각능력 등을 모방하고, 이를 컴퓨터로 구현하는 기술을 의미하고, 기계 학습, 심볼릭 로직 등의 개념을 포함할 수 있다. 기계 학습(Machine Learning, ML)은 입력 데이터들의 특징을 스스로 분류 또는 학습하는 알고리즘 기술이다. 인공지능의 기술은 기계 학습의 알고리즘으로써 입력 데이터를 분석하고, 그 분석의 결과를 학습하며, 그 학습의 결과에 기초하여 판단이나 예측을 할 수 있다. 또한, 기계 학습의 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술들 역시 인공지능의 범주로 이해될 수 있다. 예를 들어, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야가 포함될 수 있다.In the present invention, artificial intelligence (AI) refers to technology that imitates human learning ability, reasoning ability, perception ability, etc. and implements this with a computer, and may include concepts such as machine learning and symbolic logic. there is. Machine Learning (ML) is an algorithmic technology that classifies or learns the characteristics of input data on its own. Artificial intelligence technology is a machine learning algorithm that analyzes input data, learns the results of the analysis, and makes judgments or predictions based on the results of the learning. Additionally, technologies that mimic the functions of the human brain, such as cognition and judgment, using machine learning algorithms can also be understood as the category of artificial intelligence. For example, technical fields such as verbal understanding, visual understanding, reasoning/prediction, knowledge representation, and motion control may be included.
기계 학습은 데이터를 처리한 경험을 이용해 신경망 모델을 훈련시키는 처리를 의미할 수 있다. 기계 학습을 통해 컴퓨터 소프트웨어는 스스로 데이터 처리 능력을 향상시키는 것을 의미할 수 있다. 신경망 모델은 데이터 사이의 상관 관계를 모델링하여 구축된 것으로서, 그 상관 관계는 복수의 파라미터에 의해 표현될 수 있다. 신경망 모델은 주어진 데이터로부터 특징들을 추출하고 분석하여 데이터 간의 상관 관계를 도출하는데, 이러한 과정을 반복하여 신경망 모델의 파라미터를 최적화 해나가는 것이 기계 학습이라고 할 수 있다. 예를 들어, 신경망 모델은 입출력 쌍으로 주어지는 데이터에 대하여, 입력과 출력 사이의 매핑(상관 관계)을 학습할 수 있다. 또는, 신경망 모델은 입력 데이터만 주어지는 경우에도 주어진 데이터 사이의 규칙성을 도출하여 그 관계를 학습할 수도 있다.Machine learning can refer to the process of training a neural network model using experience processing data. Machine learning can mean that computer software improves its own data processing capabilities. A neural network model is built by modeling the correlation between data, and the correlation can be expressed by a plurality of parameters. A neural network model extracts and analyzes features from given data to derive correlations between data. Repeating this process to optimize the parameters of the neural network model can be called machine learning. For example, a neural network model can learn the mapping (correlation) between input and output for data given as input-output pairs. Alternatively, a neural network model may learn the relationships by deriving regularities between given data even when only input data is given.
인공지능 학습모델 또는 신경망 모델은 인간의 뇌 구조를 컴퓨터 상에서 구현하도록 설계될 수 있으며, 인간의 신경망의 뉴런(neuron)을 모의하며 가중치를 가지는 복수의 네트워크 노드들을 포함할 수 있다. 복수의 네트워크 노드들은 뉴런이 시냅스(synapse)를 통하여 신호를 주고받는 뉴런의 시냅틱(synaptic) 활동을 모의하여, 서로 간의 연결 관계를 가질 수 있다. 인공지능 학습모델에서 복수의 네트워크 노드들은 서로 다른 깊이의 레이어에 위치하면서 컨볼루션(convolution) 연결 관계에 따라 데이터를 주고받을 수 있다. 인공지능 학습모델은, 예를 들어, 인공 신경망 모델(Artificial Neural Network), 컨볼루션 신경망 모델(Convolution Neural Network: CNN) 등일 수 있다. 일 실시예로서, 인공지능 학습모델은, 지도학습(Supervised Learning), 비지도 학습(Unsupervised Learning), 강화 학습(Reinforcement Learning) 등의 방식에 따라 기계 학습될 수 있다. 기계 학습을 수행하기 위한 기계 학습 알고리즘에는, 의사결정트리(Decision Tree), 베이지안 망(Bayesian Network), 서포트 벡터 머신(Support Vector Machine), 인공 신경망(Artificial Neural Network), 에이다부스트 (Adaboost), 퍼셉트론(Perceptron), 유전자 프로그래밍(Genetic Programming), 군집화(Clustering) 등이 사용될 수 있다.An artificial intelligence learning model or neural network model may be designed to implement the human brain structure on a computer, and may include a plurality of network nodes with weights that simulate neurons of a human neural network. A plurality of network nodes may have a connection relationship with each other by simulating the synaptic activity of neurons in which neurons exchange signals through synapses. In an artificial intelligence learning model, multiple network nodes are located in layers of different depths and can exchange data according to convolutional connection relationships. The artificial intelligence learning model may be, for example, an artificial neural network model (Artificial Neural Network), a convolution neural network (CNN) model, etc. As an example, an artificial intelligence learning model may be machine-learned according to methods such as supervised learning, unsupervised learning, and reinforcement learning. Machine learning algorithms for performing machine learning include Decision Tree, Bayesian Network, Support Vector Machine, Artificial Neural Network, Adaboost, and Perceptron. Perceptron, genetic programming, clustering, etc. can be used.
이중, CNN은 최소한의 전처리(preprocess)를 사용하도록 설계된 다계층 퍼셉트론(multilayer perceptrons)의 한 종류이다. CNN은 하나 또는 여러 개의 합성곱 계층과 그 위에 올려진 일반적인 인공 신경망 계층들로 이루어져 있으며, 가중치와 통합 계층(pooling layer)들을 추가로 활용한다. 이러한 구조 덕분에 CNN은 2차원 구조의 입력 데이터를 충분히 활용할 수 있다. 다른 딥러닝 구조들과 비교해서, CNN은 영상, 음성 분야 모두에서 좋은 성능을 보여준다. CNN은 또한 표준 역전달을 통해 훈련될 수 있다. CNN은 다른 피드포워드 인공신경망 기법들보다 쉽게 훈련되는 편이고 적은 수의 매개변수를 사용한다는 이점이 있다.Among them, CNN is a type of multilayer perceptrons designed to use minimal preprocessing. CNN consists of one or several convolution layers and general artificial neural network layers on top of them, and additionally utilizes weights and pooling layers. Thanks to this structure, CNN can fully utilize input data with a two-dimensional structure. Compared to other deep learning structures, CNN shows good performance in both video and audio fields. CNNs can also be trained via standard back propagation. CNNs have the advantage of being easier to train and using fewer parameters than other feedforward artificial neural network techniques.
컨볼루션 네트워크는 묶인 파라미터들을 가지는 노드들의 집합들을 포함하는 신경 네트워크들이다. 사용 가능한 트레이닝 데이터의 크기 증가와 연산 능력의 가용성이, 구분적 선형 단위 및 드롭아웃 트레이닝과 같은 알고리즘 발전과 결합되어, 많은 컴퓨터 비전 작업들이 크게 개선되었다. 오늘날 많은 작업에 사용할 수 있는 데이터 세트들과 같은 엄청난 양의 데이터 세트에서는 초과 맞춤(outfitting)이 중요하지 않으며, 네트워크의 크기를 늘리면 테스트 정확도가 향상된다. 컴퓨팅 리소스들의 최적 사용은 제한 요소가 된다. 이를 위해, 심층 신경 네트워크들의 분산된, 확장 가능한 구현 예가 사용될 수 있다.Convolutional networks are neural networks that contain sets of nodes with bound parameters. The increasing size of available training data and the availability of computational power, combined with algorithmic advances such as piecewise linear unit and dropout training, have led to significant improvements in many computer vision tasks. For extremely large data sets, such as those available for many tasks today, overfitting is not critical, and increasing the size of the network improves test accuracy. Optimal use of computing resources becomes a limiting factor. For this purpose, distributed, scalable implementations of deep neural networks can be used.
도 2는 본 발명의 다른 실시예에 따른 선내 음성 디지털화 시스템의 구성을 보이는 예시도이다.Figure 2 is an exemplary diagram showing the configuration of an onboard voice digitization system according to another embodiment of the present invention.
도 2에 도시한 바와 같이, 선내 음성 디지털화 시스템(200)은, 하나 이상의 마이크(210-1, 210-2, 210-3,…, 210-n), 하나 이상의 VHF 장치(220-1, 220-2), 텍스트 변환 장치(230), 항해 기록 장치(240), 자율 운항 플랫폼(250), 육상 관제 센터(260), 자율 운항 제어 장치(270), 케이블(280), 통신부 및 데이터베이스를 포함할 수 있다. 일 실시예에 따르면, 텍스트 변환 장치(230)는, 오디오 입력부(232), 음성인식 AI(234) 및 텍스트 변환부(236)를 포함할 수 있다. 예를 들어, 하나 이상의 마이크(210-1, 210-2, 210-3,…, 210-n), 하나 이상의 VHF 장치(220-1, 220-2), 텍스트 변환 장치(230), 항해 기록 장치(240), 자율 운항 플랫폼(250), 육상 관제 센터(260), 자율 운항 제어 장치(270), 케이블(280), 통신부 및 데이터베이스는 상호간 통신이 가능하도록 선내 네트워크를 통하여 연결될 수 있다.As shown in FIG. 2, the on-board voice digitization system 200 includes one or more microphones (210-1, 210-2, 210-3,..., 210-n) and one or more VHF devices (220-1, 220). -2), including text conversion device (230), navigation recorder (240), autonomous navigation platform (250), land control center (260), autonomous navigation control device (270), cable (280), communication department and database can do. According to one embodiment, the text conversion device 230 may include an audio input unit 232, a voice recognition AI 234, and a text conversion unit 236. For example, one or more microphones (210-1, 210-2, 210-3,…, 210-n), one or more VHF devices (220-1, 220-2), text converter (230), navigation log The device 240, autonomous navigation platform 250, land control center 260, autonomous navigation control device 270, cable 280, communication unit, and database may be connected through an onboard network to enable mutual communication.
하나 이상의 마이크(210-1, 210-2, 210-3,…, 210-n)는 선내 브릿지 내부의 대화 내용을 이용하여 제1 음성신호를 형성할 수 있다.One or more microphones (210-1, 210-2, 210-3,..., 210-n) may form a first voice signal using the content of the conversation inside the bridge within the ship.
하나 이상의 VHF 장치(220-1, 220-2)는 선박 외부와의 통신 시 무선통신 내용을 이용하여 제2 음성신호를 형성할 수 있다.One or more VHF devices (220-1, 220-2) may form a second voice signal using wireless communication contents when communicating with the outside of the ship.
텍스트 변환 장치(230)는 제1 및 제2 음성신호를 텍스트 데이터로 변환할 수 있다. 본 실시예에 따르면, 텍스트 변환 장치(230)는 항해 기록 장치(240)와는 별도로 구비되는 것을 특징으로 할 수 있다.The text conversion device 230 can convert the first and second voice signals into text data. According to this embodiment, the text conversion device 230 may be provided separately from the navigation recording device 240.
오디오 입력부(232)는, 하나 이상의 마이크(210-1, 210-2, 210-3,…, 210-n)에서 형성된 제1 음성신호 및 하나 이상의 VHF 장치(220-1, 220-2)에서 형성된 제2 음성신호를 케이블(280)을 통해 입력 받을 수 있다.The audio input unit 232 receives a first voice signal formed from one or more microphones (210-1, 210-2, 210-3,..., 210-n) and one or more VHF devices (220-1, 220-2). The formed second voice signal can be input through the cable 280.
음성인식 AI(234)는 제1 및 제2 음성신호에 인공지능 기술을 적용하여 실시간으로 텍스트 정보를 형성할 수 있다.The voice recognition AI 234 can form text information in real time by applying artificial intelligence technology to the first and second voice signals.
텍스트 변환부(236)는 음성인식 AI(234)에서 형성된 텍스트 정보를 이용하여 텍스트 데이터를 형성할 수 있다.The text conversion unit 236 can form text data using text information generated by the voice recognition AI 234.
항해 기록 장치(240)는 하나 이상의 마이크(210-1, 210-2, 210-3,…, 210-n)에서 형성된 제1 음성신호 및 하나 이상의 VHF 장치(220-1, 220-2)에서 형성된 제2 음성신호를 케이블(280)을 통해 입력 받아 저장할 수 있다.The navigation recording device 240 records a first voice signal formed from one or more microphones (210-1, 210-2, 210-3,..., 210-n) and one or more VHF devices (220-1, 220-2). The formed second voice signal can be input through the cable 280 and stored.
자율 운항 플랫폼(250)은 텍스트 변환 장치(230)에서 형성된 텍스트 데이터를 이용하여 선박의 운항에 필요한 운항 정보를 형성할 수 있다.The autonomous navigation platform 250 can use text data generated by the text conversion device 230 to form navigation information necessary for the operation of the ship.
육상 관제 센터(260)는 선박의 통신부를 통하여 주기 또는 비주기적으로 텍스트 데이터를 수신하고 이를 저장할 수 있다.The land control center 260 can receive text data periodically or aperiodically through the ship's communication unit and store it.
자율 운항 제어 장치(270)는 자율 운항 플랫폼(250)에서 형성된 운항 정보를 이용하여 선박의 자율 운항이 가능하도록 제어할 수 있다.The autonomous navigation control device 270 can control the autonomous navigation of the ship using navigation information generated by the autonomous navigation platform 250.
통신부는 텍스트 변환 장치(230)에서 형성된 텍스트 데이터를 선박 외부로 전송할 수 있다.The communication unit may transmit text data generated in the text conversion device 230 to the outside of the ship.
데이터베이스는, 다양한 데이터를 저장할 수 있다. 데이터베이스에 저장되는 데이터는, 선내 음성 디지털화 시스템(200)의 적어도 하나의 구성요소에 의해 획득되거나, 처리되거나, 사용되는 데이터로서, 소프트웨어(예를 들어: 프로그램)를 포함할 수 있다. 데이터베이스는, 휘발성 및/또는 비휘발성 메모리를 포함할 수 있다. 일 실시예로서, 데이터베이스는, 제1 및 제2 음성신호, 텍스트 데이터, 운항 정보 등을 저장할 수 있다.A database can store a variety of data. Data stored in the database is data acquired, processed, or used by at least one component of the onboard voice digitization system 200 and may include software (eg, a program). A database may include volatile and/or non-volatile memory. As an example, the database may store first and second voice signals, text data, navigation information, etc.
본 발명에서, 프로그램은 데이터베이스에 저장되는 소프트웨어로서, 하나 이상의 마이크(210-1, 210-2, 210-3,…, 210-n), 하나 이상의 VHF(Very High Frequency) 장치(220-1, 220-2), 텍스트 변환 장치(230), 항해 기록 장치(240), 자율 운항 플랫폼(250), 육상 관제 센터(260), 자율 운항 제어 장치(270), 케이블(280), 통신부 및 데이터베이스의 리소스를 제어하기 위한 운영체제, 어플리케이션 및/또는 하나 이상의 마이크(210-1, 210-2, 210-3,…, 210-n), 하나 이상의 VHF(Very High Frequency) 장치(220-1, 220-2), 텍스트 변환 장치(230), 항해 기록 장치(240), 자율 운항 플랫폼(250), 육상 관제 센터(260), 자율 운항 제어 장치(270), 케이블(280), 통신부 및 데이터베이스의 리소스들을 활용할 수 있도록 다양한 기능을 어플리케이션에 제공하는 미들 웨어 등을 포함할 수 있다.In the present invention, the program is software stored in a database, and includes one or more microphones (210-1, 210-2, 210-3,..., 210-n), one or more Very High Frequency (VHF) devices (220-1, 220-2), text conversion device (230), navigation recorder (240), autonomous navigation platform (250), land control center (260), autonomous navigation control device (270), cable (280), communication department and database. An operating system, an application, and/or one or more microphones (210-1, 210-2, 210-3,..., 210-n), one or more Very High Frequency (VHF) devices (220-1, 220-) for controlling resources. 2), text conversion device 230, navigation recorder 240, autonomous navigation platform 250, land control center 260, autonomous navigation control device 270, cable 280, communication department and database resources It may include middleware that provides various functions to the application for use.
도 3은 본 발명의 일 실시예에 따른 텍스트 변환 장치의 구성을 보이는 예시도이다.Figure 3 is an exemplary diagram showing the configuration of a text conversion device according to an embodiment of the present invention.
도 3에 도시한 바와 같이, 텍스트 변환 장치(130, 230)는 하나 이상의 프로세서(131), 하나 이상의 메모리(133) 및/또는 송수신기(135)를 포함할 수 있다. 일 실시예로서, 텍스트 변환 장치(130, 230)의 이 구성요소들 중 적어도 하나가 생략되거나, 다른 구성요소가 텍스트 변환 장치(130)에 추가될 수 있다. 추가적으로(additionally) 또는 대체적으로(alternatively), 일부의 구성요소들이 통합되어 구현되거나, 단수 또는 복수의 개체로 구현될 수 있다. 텍스트 변환 장치(130, 230) 내, 외부의 구성요소들 중 적어도 일부의 구성요소들은 버스, GPIO(general purpose input/output), SPI(serial peripheral interface) 또는 MIPI(mobile industry processor interface) 등을 통해 서로 연결되어, 데이터 및/또는 시그널을 주고받을 수 있다.As shown in FIG. 3, the text conversion devices 130 and 230 may include one or more processors 131, one or more memories 133, and/or transceivers 135. In one embodiment, at least one of these components of the text conversion device 130, 230 may be omitted, or another component may be added to the text conversion device 130. Additionally or alternatively, some components may be integrated and implemented, or may be implemented as a single or plural entity. At least some of the components inside and outside the text conversion devices 130 and 230 are configured through a bus, general purpose input/output (GPIO), serial peripheral interface (SPI), or mobile industry processor interface (MIPI). They are connected to each other and can exchange data and/or signals.
하나 이상의 프로세서(131)는 소프트웨어(예: 명령, 프로그램 등)를 구동하여 프로세서(131)에 연결된 텍스트 변환 장치(130, 230)의 적어도 하나의 구성요소를 제어할 수 있다. 여기서, 텍스트 변환 장치(130, 230)의 적어도 하나의 구성요소는 오디오 입력부(132), 음성인식 AI(134), 텍스트 변환부(136) 일 수 있다. 또한, 프로세서(131)는 본 발명과 관련된 다양한 연산, 처리, 데이터 생성, 가공 등의 동작을 수행할 수 있다. 또한, 프로세서(131)는 데이터 등을 하나 이상의 메모리(133)로부터 로드하거나, 하나 이상의 메모리(133)에 저장할 수 있다.One or more processors 131 may control at least one component of the text conversion devices 130 and 230 connected to the processor 131 by running software (eg, commands, programs, etc.). Here, at least one component of the text conversion devices 130 and 230 may be an audio input unit 132, a voice recognition AI 134, and a text conversion unit 136. Additionally, the processor 131 can perform various operations related to the present invention, such as calculation, processing, data generation, and processing. Additionally, the processor 131 may load data, etc. from one or more memories 133 or store them in one or more memories 133 .
전술한 바와 같이, 하나 이상의 프로세서(131)는, 송수신기(135)을 통하여 하나 이상의 마이크(110-1, 110-2, 110-3,…, 110-n)(210-1, 210-2, 210-3, …, 210-n)로부터 제1 음성신호를 디지털 패킷의 형태로 실시간 또는 비실시간으로 수신하고, 하나 이상의 VHF(Very High Frequency) 장치(120-1, 120-2)(220-1, 220-2)로부터 제2 음성신호를 디지털 패킷의 형태로 실시간 또는 비실시간으로 수신할 수 있다. 일 실시예에 따르면, 수신된 제1 및 제2 음성신호는 디지털 패킷의 형태로 메모리(133)에 저장될 수 있다.As described above, one or more processors 131, one or more microphones 110-1, 110-2, 110-3,..., 110-n) 210-1, 210-2, 210-3, ..., 210-n), receives the first voice signal in the form of a digital packet in real time or non-real time, and one or more VHF (Very High Frequency) devices (120-1, 120-2) (220- 1, 220-2), the second voice signal can be received in real time or non-real time in the form of a digital packet. According to one embodiment, the received first and second voice signals may be stored in the memory 133 in the form of digital packets.
하나 이상의 프로세서(131)는, 송수신기(135)를 통해서 수신된 제1 및 제2 음성신호를 텍스트 데이터로 변환할 수 있다. 일 실시예에 따르면, 프로세서(131)는 트레이닝 음성신호들을 획득하고, 트레이닝 음성신호들로부터 트레이닝 텍스트 객체들을 추출하며, 트레이닝 텍스트 객체들에 대응하는 단어 정보인 제1 레이블들을 획득하고, 트레이닝 텍스트 객체들을 뉴럴 네트워크로 적용하여, 트레이닝 텍스트 객체들에 대응하는 트레이닝 출력들을 생성하며, 트레이닝 출력들 및 제1 레이블들에 기초하여, 뉴럴 네트워크를 학습시킬 수 있다.One or more processors 131 may convert the first and second voice signals received through the transceiver 135 into text data. According to one embodiment, the processor 131 acquires training voice signals, extracts training text objects from the training voice signals, acquires first labels that are word information corresponding to the training text objects, and creates training text objects. can be applied to a neural network to generate training outputs corresponding to training text objects, and to learn the neural network based on the training outputs and first labels.
하나 이상의 프로세서(131)는, 형성된 텍스트 데이터를 송수신기(135)를 통하여 자율 운항 플랫폼(140, 250)으로 전송하도록 제어할 수 있다.One or more processors 131 may control the formed text data to be transmitted to the autonomous navigation platforms 140 and 250 through the transceiver 135.
하나 이상의 메모리(133)는 다양한 데이터를 저장할 수 있다. 메모리(133)에 저장되는 데이터는, 텍스트 변환 장치(130, 230)의 적어도 하나의 구성요소에 의해 획득되거나, 처리되거나, 사용되는 데이터로서, 소프트웨어(예: 명령, 프로그램 등)를 포함할 수 있다. 메모리(133)는 휘발성 및/또는 비휘발성 메모리를 포함할 수 있다. 본 발명에서, 명령 내지 프로그램은 메모리(133)에 저장되는 소프트웨어로서, 텍스트 변환 장치(130, 230)의 리소스를 제어하기 위한 운영체제, 어플리케이션 및/또는 어플리케이션이 텍스트 변환 장치(130, 230)의 리소스들을 활용할 수 있도록 다양한 기능을 어플리케이션에 제공하는 미들 웨어 등을 포함할 수 있다. One or more memories 133 may store various data. Data stored in the memory 133 is data acquired, processed, or used by at least one component of the text conversion device 130, 230, and may include software (e.g., commands, programs, etc.). there is. Memory 133 may include volatile and/or non-volatile memory. In the present invention, a command or program is software stored in the memory 133, and an operating system, application, and/or application for controlling the resources of the text conversion devices 130 and 230 are used to control the resources of the text conversion devices 130 and 230. It may include middleware that provides various functions to the application so that it can be utilized.
하나 이상의 메모리(133)는 상술한 제1 및 제2 음성신호, 텍스트 데이터, 운항 정보 등을 저장할 수 있다. 또한, 하나 이상의 메모리(133)는, 하나 이상의 프로세서(131)에 의한 실행 시, 하나 이상의 프로세서(131)가 연산을 수행하도록 하는 명령들을 저장할 수 있다.One or more memories 133 may store the above-described first and second voice signals, text data, navigation information, etc. Additionally, one or more memories 133 may store instructions that allow one or more processors 131 to perform operations when executed by one or more processors 131 .
일 실시예로서, 텍스트 변환 장치(130, 230)는 송수신기(135)를 더 포함할 수 있다. 송수신기(135)는, 하나 이상의 마이크(110-1, 110-2, 110-3,…, 110-n)(210-1, 210-2, 210-3, …, 210-n), 하나 이상의 VHF(Very High Frequency) 장치(120-1, 120-2)(220-1, 220-2), 텍스트 변환 장치(130, 230), 자율 운항 플랫폼(140, 250), 자율 운항 제어 장치(150, 270), 육상 관제 센터(160, 260), 통신부, 데이터베이스 및/또는 기타 다른 장치 간의 무선 또는 유선 통신을 수행할 수 있다. 예를 들어, 송수신기(135)는 eMBB(enhanced Mobile Broadband), URLLC(Ultra Reliable Low-Latency Communications), MMTC(Massive Machine Type Communications), LTE(long-term evolution), LTE-A(LTE Advance), UMTS(Universal Mobile Telecommunications System), GSM(Global System for Mobile communications), CDMA(code division multiple access), WCDMA(wideband CDMA), WiBro(Wireless Broadband), WiFi(wireless fidelity), 블루투스(Bluetooth), NFC(near field communication), GPS(Global Positioning System) 또는 GNSS(global navigation satellite system) 등의 방식에 따른 무선 통신을 수행할 수 있다. 예를 들어, 송수신기(135)는 USB(universal serial bus), HDMI(high definition multimedia interface), RS-232(recommended standard232) 또는 POTS(plain old telephone service) 등의 방식에 따른 유선 통신을 수행할 수 있다.As an example, the text conversion devices 130 and 230 may further include a transceiver 135. The transceiver 135 includes one or more microphones (110-1, 110-2, 110-3,..., 110-n) (210-1, 210-2, 210-3,..., 210-n), one or more Very High Frequency (VHF) devices (120-1, 120-2) (220-1, 220-2), text conversion devices (130, 230), autonomous navigation platforms (140, 250), autonomous navigation control devices (150) , 270), wireless or wired communication may be performed between the land control centers 160 and 260, a communication unit, a database, and/or other devices. For example, the transceiver 135 may support enhanced Mobile Broadband (eMBB), Ultra Reliable Low-Latency Communications (URLLC), Massive Machine Type Communications (MMTC), long-term evolution (LTE), LTE Advance (LTE-A), UMTS (Universal Mobile Telecommunications System), GSM (Global System for Mobile communications), CDMA (code division multiple access), WCDMA (wideband CDMA), WiBro (Wireless Broadband), WiFi (wireless fidelity), Bluetooth, NFC ( Wireless communication can be performed using methods such as near field communication, GPS (Global Positioning System), or GNSS (global navigation satellite system). For example, the transceiver 135 can perform wired communication according to a method such as universal serial bus (USB), high definition multimedia interface (HDMI), recommended standard232 (RS-232), or plain old telephone service (POTS). there is.
일 실시예로서, 하나 이상의 프로세서(131)는 송수신기(135)를 제어하여 하나 이상의 마이크(110-1, 110-2, 110-3,…, 110-n)(210-1, 210-2, 210-3, …, 210-n), 하나 이상의 VHF(Very High Frequency) 장치(120-1, 120-2)(220-1, 220-2), 텍스트 변환 장치(130, 230), 자율 운항 플랫폼(140, 250), 자율 운항 제어 장치(150, 270), 육상 관제 센터(160, 260), 통신부로부터 정보를 획득할 수 있다. 하나 이상의 마이크(110-1, 110-2, 110-3,…, 110-n)(210-1, 210-2, 210-3, …, 210-n), 하나 이상의 VHF(Very High Frequency) 장치(120-1, 120-2)(220-1, 220-2), 텍스트 변환 장치(130, 230), 자율 운항 플랫폼(140, 250), 자율 운항 제어 장치(150, 270), 육상 관제 센터(160, 260), 통신부로부터 획득된 정보는 하나 이상의 메모리(133)에 저장될 수 있다.As an embodiment, one or more processors 131 control the transceiver 135 to transmit one or more microphones 110-1, 110-2, 110-3,..., 110-n) 210-1, 210-2, 210-3, …, 210-n), one or more Very High Frequency (VHF) devices (120-1, 120-2) (220-1, 220-2), text conversion devices (130, 230), autonomous navigation Information can be obtained from the platform (140, 250), autonomous navigation control device (150, 270), land control center (160, 260), and communication department. One or more microphones (110-1, 110-2, 110-3,…, 110-n) (210-1, 210-2, 210-3, …, 210-n), one or more Very High Frequency (VHF) Devices (120-1, 120-2) (220-1, 220-2), text conversion devices (130, 230), autonomous navigation platforms (140, 250), autonomous navigation control devices (150, 270), land control Information obtained from the centers 160 and 260 and the communication unit may be stored in one or more memories 133.
일 실시예로서, 텍스트 변환 장치(130, 230)는 다양한 형태의 장치가 될 수 있다. 예를 들어, 텍스트 변환 장치(130, 230)는 휴대용 통신 장치, 컴퓨터 장치, 또는 상술한 장치들 중 하나 또는 그 이상의 조합에 따른 장치일 수 있다. 본 발명의 텍스트 변환 장치(130, 230)는 전술한 장치들에 한정되지 않는다.As an example, the text conversion devices 130 and 230 may be of various types. For example, the text conversion devices 130 and 230 may be portable communication devices, computer devices, or a combination of one or more of the foregoing devices. The text conversion devices 130 and 230 of the present invention are not limited to the devices described above.
본 발명에 따른 텍스트 변환 장치(130, 230)의 다양한 실시예들은 서로 조합될 수 있다. 각 실시예들은 경우의 수에 따라 조합될 수 있으며, 조합되어 만들어진 텍스트 변환 장치(130, 230)의 실시예 역시 본 발명의 범위에 속한다. 또한 전술한 본 발명에 따른 텍스트 변환 장치(130, 230)의 내/외부 구성 요소들은 실시예에 따라 추가, 변경, 대체 또는 삭제될 수 있다. 또한 전술한 텍스트 변환 장치(130, 230)의 내/외부 구성 요소들은 하드웨어 컴포넌트로 구현될 수 있다.Various embodiments of the text conversion devices 130 and 230 according to the present invention may be combined with each other. Each embodiment can be combined depending on the number of cases, and embodiments of the text conversion devices 130 and 230 created by combining them also fall within the scope of the present invention. Additionally, the internal and external components of the text conversion devices 130 and 230 according to the present invention described above may be added, changed, replaced, or deleted depending on the embodiment. Additionally, the internal and external components of the text conversion devices 130 and 230 described above may be implemented as hardware components.
도 4는 본 발명의 일 실시예에 따른 뉴럴 네트워크의 기계 학습을 설명하기 위한 도면이다.Figure 4 is a diagram for explaining machine learning of a neural network according to an embodiment of the present invention.
도 4에 도시한 바와 같이, 학습 장치는 선박내에서 수집된 음성신호들로부터 텍스트 데이터를 형성하기 위하여 뉴럴 네트워크(138)를 학습시킬 수 있다. 일 실시예에 따르면, 학습 장치는 텍스트 변환 장치(130, 230)의 음성인식 AI(134, 234)와 일체로 구성될 수 있으나, 이에 한정되는 것은 아니며 별개로 구성될 수도 있다.As shown in FIG. 4, the learning device can train the neural network 138 to form text data from voice signals collected within the ship. According to one embodiment, the learning device may be configured integrally with the voice recognition AIs 134 and 234 of the text conversion devices 130 and 230, but the learning device is not limited thereto and may be configured separately.
뉴럴 네트워크(138)는 트레이닝 샘플들이 입력되는 입력 레이어(137)와 트레이닝 출력들을 출력하는 출력 레이어(139)를 포함하고, 트레이닝 출력들과 레이블들 사이의 차이에 기초하여 학습될 수 있다. 여기서, 레이블들은 특징점 객체에 대응하는 신체 부위 정보에 기초하여 정의될 수 있다. 뉴럴 네트워크(138)는 복수의 노드들의 그룹으로 연결되어 있고, 연결된 노드들 사이의 가중치들과 노드들을 활성화시키는 활성화 함수에 의해 정의된다.The neural network 138 includes an input layer 137 through which training samples are input and an output layer 139 through which training outputs are output, and can be learned based on the difference between training outputs and labels. Here, labels may be defined based on body part information corresponding to the feature point object. The neural network 138 is connected to a group of a plurality of nodes, and is defined by weights between connected nodes and an activation function that activates the nodes.
학습 장치는 GD(Gradient Decent) 기법 또는 SGD(Stochastic Gradient Descent) 기법을 이용하여 뉴럴 네트워크(138)를 학습시킬 수 있다. 학습 장치는 뉴럴 네트워크의 출력들 및 레이블들 의해 설계된 손실 함수(Loss Function)를 이용할 수 있다.The learning device may learn the neural network 138 using a gradient descent (GD) technique or a stochastic gradient descent (SGD) technique. The learning device can use a loss function designed by the outputs and labels of the neural network.
학습 장치는 미리 정의된 손실 함수를 이용하여 트레이닝 에러를 계산할 수 있다. 손실 함수는 레이블, 출력 및 파라미터를 입력 변수로 미리 정의될 수 있고, 여기서 파라미터는 뉴럴 네트워크(138) 내 가중치들에 의해 설정될 수 있다. 예를 들어, 손실 함수는 MSE(Mean Square Error) 형태, 엔트로피(entropy) 형태 등으로 설계될 수 있는데, 손실 함수가 설계되는 실시예에는 다양한 기법 또는 방식이 채용될 수 있다.The learning device can calculate the training error using a predefined loss function. The loss function may be predefined with a label, output, and parameter as input variables, where the parameter may be set by weights in the neural network 138. For example, the loss function may be designed in the form of MSE (Mean Square Error), entropy, etc., and various techniques or methods may be employed in embodiments in which the loss function is designed.
학습 장치는 역전파(Backpropagation) 기법을 이용하여 트레이닝 에러에 영향을 주는 가중치들을 찾아낼 수 있다. 여기서, 가중치들은 뉴럴 네트워크(138) 내 노드들 사이의 관계들이다. 학습 장치는 역전파 기법을 통해 찾아낸 가중치들을 최적화시키기 위해 레이블들 및 출력들을 이용한 SGD 기법을 이용할 수 있다. 예를 들어, 학습 장치는 레이블들, 출력들 및 가중치들에 기초하여 정의된 손실 함수의 가중치들을 SGD 기법을 이용하여 갱신할 수 있다.The learning device can use the backpropagation technique to find weights that affect the training error. Here, the weights are relationships between nodes in the neural network 138. The learning device can use the SGD technique using labels and outputs to optimize the weights found through the backpropagation technique. For example, the learning device can update the weights of the loss function defined based on the labels, outputs, and weights using the SGD technique.
일 실시예에 따르면, 학습 장치는 트레이닝 음성신호들을 획득하고, 트레이닝 음성신호들로부터 트레이닝 텍스트 객체들을 추출할 수 있다. 학습 장치는 트레이닝 텍스트 객체들에 대해서 각각 미리 레이블링 된 정보(제1 레이블들)를 획득할 수 있는데, 트레이닝 텍스트 객체들에 미리 정의된 단어 정보를 나타내는 제1 레이블들을 획득할 수 있다.According to one embodiment, the learning device may acquire training voice signals and extract training text objects from the training voice signals. The learning device may obtain pre-labeled information (first labels) for each training text object, and may obtain first labels indicating word information predefined in the training text objects.
일 실시예에 따르면, 학습 장치는 트레이닝 음성신호들의 외관 특징들, 패턴 특징들 및 색상 특징들에 기초하여 제1 트레이닝 특징 벡터들을 생성할 수 있다. 트레이닝 음성신호들의 특징을 추출하는 데는 다양한 방식이 채용될 수 있다.According to one embodiment, the learning device may generate first training feature vectors based on appearance features, pattern features, and color features of training voice signals. Various methods can be employed to extract features of training voice signals.
일 실시예에 따르면, 학습 장치는 제1 트레이닝 특징 벡터들을 뉴럴 네트워크(138)에 적용하여 트레이닝 출력들을 획득할 수 있다. 학습 장치는 트레이닝 출력들과 제1 레이블들에 기초하여 뉴럴 네트워크(138)를 학습시킬 수 있다. 학습 장치는 트레이닝 출력들에 대응하는 트레이닝 에러들을 계산하고, 그 트레이닝 에러들을 최소화하기 위해 뉴럴 네트워크(138) 내 노드들의 연결 관계를 최적화하여 뉴럴 네트워크(138)를 학습시킬 수 있다. 텍스트 변환 장치(130, 230)는 학습이 완료된 뉴럴 네트워크(138)를 이용하여 제1 및 제2 음성신호로부터 텍스트 데이터를 형성할 수 있다.According to one embodiment, the learning device may obtain training outputs by applying the first training feature vectors to the neural network 138. The learning device may train the neural network 138 based on the training outputs and the first labels. The learning device may learn the neural network 138 by calculating training errors corresponding to the training outputs and optimizing the connection relationships of nodes within the neural network 138 to minimize the training errors. The text conversion devices 130 and 230 may form text data from the first and second voice signals using the learned neural network 138.
도 5는 본 발명의 일 실시예에 따른 선내 음성 디지털화 방법의 절차를 보이는 흐름도이다. 도 5의 흐름도에서 프로세스 단계들, 방법 단계들, 알고리즘들 등이 순차적인 순서로 설명되었지만, 그러한 프로세스들, 방법들 및 알고리즘들은 임의의 적합한 순서로 작동하도록 구성될 수 있다. 다시 말하면, 본 발명의 다양한 실시예들에서 설명되는 프로세스들, 방법들 및 알고리즘들의 단계들이 본 발명에서 기술된 순서로 수행될 필요는 없다. 또한, 일부 단계들이 비동시적으로 수행되는 것으로서 설명되더라도, 다른 실시예에서는 이러한 일부 단계들이 동시에 수행될 수 있다. 또한, 도면에서의 묘사에 의한 프로세스의 예시는 예시된 프로세스가 그에 대한 다른 변화들 및 수정들을 제외하는 것을 의미하지 않으며, 예시된 프로세스 또는 그의 단계들 중 임의의 것이 본 발명의 다양한 실시예들 중 하나 이상에 필수적임을 의미하지 않으며, 예시된 프로세스가 바람직하다는 것을 의미하지 않는다.Figure 5 is a flowchart showing the procedure of the onboard voice digitization method according to an embodiment of the present invention. Although the process steps, method steps, algorithms, etc. are described in the flow chart of FIG. 5 in a sequential order, such processes, methods, and algorithms may be configured to operate in any suitable order. In other words, the steps of the processes, methods and algorithms described in various embodiments of the invention do not need to be performed in the order described herein. Additionally, although some steps are described as being performed asynchronously, in other embodiments, some such steps may be performed concurrently. Additionally, the illustration of a process by depiction in the drawings does not mean that the illustrated process excludes other variations and modifications thereto, and that any of the illustrated process or steps thereof may be incorporated into any of the various embodiments of the invention. It does not imply that more than one is required, nor does it imply that the illustrated process is preferred.
도 5에 도시한 바와 같이, 단계(S510)에서, 예를 들어, 도 1 내지 도 4를 참조하면, 하나 이상의 마이크(110-1, 110-2, 110-3,…, 110-n)(210-1, 210-2, 210-3, …, 210-n)는 선내 브릿지 내부의 대화 내용을 이용하여 제1 음성신호를 형성할 수 있다.As shown in Figure 5, in step S510, for example, referring to Figures 1 to 4, one or more microphones 110-1, 110-2, 110-3,..., 110-n) ( 210-1, 210-2, 210-3, ..., 210-n) can form the first voice signal using the content of the conversation inside the bridge within the ship.
단계(S520)에서, 제2 음성신호가 형성된다. 예를 들어, 도 1 내지 도 4를 참조하면, 하나 이상의 VHF(Very High Frequency) 장치(120-1, 120-2)(220-1, 220-2)는 선박 외부와의 통신 시 무선통신 내용을 이용하여 제2 음성신호를 형성할 수 있다.In step S520, a second voice signal is formed. For example, referring to Figures 1 to 4, one or more VHF (Very High Frequency) devices (120-1, 120-2) (220-1, 220-2) transmit wireless communication contents when communicating with the outside of the ship. A second voice signal can be formed using .
단계(S530)에서, 텍스트 데이터로 변환된다. 예를 들어, 도 1 내지 도 4를 참조하면, 텍스트 변환 장치(130, 230)는 케이블(170, 280)을 통해 입력된 제1 및 제2 음성신호를 텍스트 데이터로 변환할 수 있다.In step S530, it is converted into text data. For example, referring to FIGS. 1 to 4 , the text conversion devices 130 and 230 may convert the first and second voice signals input through the cables 170 and 280 into text data.
단계(S540)에서, 운항 정보가 형성된다. 예를 들어, 도 1 내지 도 4를 참조하면, 자율 운항 플랫폼(140, 250)은 텍스트 변환 장치(130, 230)에서 형성된 텍스트 데이터를 이용하여 선박의 운항에 필요한 운항 정보를 형성할 수 있다.In step S540, navigation information is formed. For example, referring to FIGS. 1 to 4 , the autonomous navigation platform 140 and 250 may use text data generated by the text conversion devices 130 and 230 to form navigation information necessary for the operation of the ship.
상기 방법은 특정 실시예들을 통하여 설명되었지만, 상기 방법은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장 장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 상기 실시예들을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.Although the method has been described through specific embodiments, the method can also be implemented as computer-readable code on a computer-readable recording medium. Computer-readable recording media include all types of recording devices that store data that can be read by a computer system. Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disk, and optical data storage devices. Additionally, computer-readable recording media can be distributed across computer systems connected to a network, so that computer-readable code can be stored and executed in a distributed manner. And, functional programs, codes, and code segments for implementing the above embodiments can be easily deduced by programmers in the technical field to which the present invention pertains.
이상, 본 발명을 도면에 도시된 실시예를 참조하여 설명하였다. 그러나, 본 발명은 이에 한정되지 않고 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 본 발명과 균등한 범위에 속하는 다양한 변형예 또는 다른 실시예가 가능하다. 따라서, 본 발명의 진정한 보호범위는 이어지는 특허청구범위에 의해 정해져야 할 것이다.Above, the present invention has been described with reference to the embodiments shown in the drawings. However, the present invention is not limited thereto, and various modifications or other embodiments within the scope equivalent to the present invention can be made by those skilled in the art. Therefore, the true scope of protection of the present invention will be determined by the following claims.
100,200: 선내 음성 디지털화 시스템 110,210: 마이크
120,220: VHF 장치 130,230: 텍스트 변환 장치
140,250: 자율 운항 플랫폼 150,270: 자율 운항 제어 장치
160,260: 육상 관제 센터 170,280: 케이블
131: 프로세서 132,232: 오디오 입력부
133: 메모리 134,234: 음성인식 AI
135: 송수신기 136,236: 텍스트 변환부
137: 입력 레이어 138: 뉴럴 네트워크 139: 출력 레이어100,200: Onboard voice digitization system 110,210: Microphone
120,220: VHF device 130,230: Text conversion device
140,250: Autonomous navigation platform 150,270: Autonomous navigation control device
160,260: Land control center 170,280: Cable
131: Processor 132,232: Audio input unit
133: Memory 134,234: Voice recognition AI
135: Transceiver 136,236: Text conversion unit
137: input layer 138: neural network 139: output layer
Claims (15)
선박의 외부와 통신 시 무선통신 내용을 이용하여 제2 음성신호를 형성하는 하나 이상의 VHF 장치;
상기 제1 음성신호 및 상기 제2 음성신호를 텍스트 데이터로 변환하고 저장하는 텍스트 변환 장치; 및
상기 텍스트 데이터를 이용하여 상기 선박의 운항에 필요한 운항 정보를 형성하는 자율 운항 플랫폼을 포함하고,
상기 텍스트 데이터를 상기 선박의 외부로 전송하는 통신부를 더 포함하며,
상기 텍스트 변환 장치는,
상기 제1 음성신호 및 상기 제2 음성신호를 오디오 파일 형태로 저장하는 항해 기록 장치(VDR: Voyage Data Recorder)와 별도 구비되고,
상기 텍스트 변환 장치는,
상기 제1 음성신호 및 상기 제2 음성신호를 입력 받는 오디오 입력부,
인공지능 기술이 적용되어 학습시킬 수 있으며, 입력 받은 상기 제1 음성신호 및 상기 제2 음성신호의 텍스트 정보를 형성하는 음성인식 AI, 및
형성된 상기 텍스트 정보로 상기 텍스트 데이터를 형성하는 텍스트 변환부를 포함하고,
상기 통신부를 통하여 상기 텍스트 데이터를 수신하는 육상 관제 센터를 더 포함하며,
상기 제1 음성신호 및 상기 제2 음성신호를 상기 텍스트 데이터로 변환하고 저장하는 상기 텍스트 변환 장치와, 상기 제1 음성신호 및 상기 제2 음성신호를 오디오 파일 형태로 저장하는 상기 항해 기록 장치는 별도로 구비되어, 상기 육상 관제 센터로 상대적으로 저용량인 상기 텍스트 데이터만을 상기 통신부를 통해 실시간 또는 주기적으로 송신하는 것을 특징으로 하는,
선내 음성 디지털화 시스템.One or more microphones that form a first voice signal using conversation content inside the bridge within the ship;
One or more VHF devices that form a second voice signal using wireless communication contents when communicating with the outside of the ship;
a text conversion device that converts the first voice signal and the second voice signal into text data and stores it; and
It includes an autonomous navigation platform that uses the text data to form navigation information necessary for operation of the vessel,
It further includes a communication unit that transmits the text data to the outside of the ship,
The text conversion device,
It is separately equipped with a Voyage Data Recorder (VDR) that stores the first voice signal and the second voice signal in the form of an audio file,
The text conversion device,
An audio input unit that receives the first voice signal and the second voice signal,
A voice recognition AI that can be learned by applying artificial intelligence technology and forms text information of the received first voice signal and the second voice signal, and
A text conversion unit that forms the text data using the formed text information,
Further comprising a land control center that receives the text data through the communication unit,
The text conversion device that converts and stores the first voice signal and the second voice signal into the text data, and the navigation recording device that stores the first voice signal and the second voice signal in the form of an audio file are separate. Characterized in that only the relatively low-capacity text data is transmitted to the land control center in real time or periodically through the communication unit,
Onboard voice digitization system.
상기 음성인식 AI는,
트레이닝 음성신호들을 획득하고, 상기 트레이닝 음성신호들로부터 트레이닝 텍스트 객체들을 추출하며, 상기 트레이닝 텍스트 객체들에 대응하는 단어 정보인 제1 레이블들을 획득하고, 상기 트레이닝 텍스트 객체들을 뉴럴 네트워크로 적용하여, 상기 트레이닝 텍스트 객체들에 대응하는 트레이닝 출력들을 생성하며, 상기 트레이닝 출력들 및 상기 제1 레이블들에 기초하여, 상기 뉴럴 네트워크를 학습시키는,
선내 음성 디지털화 시스템.According to claim 1,
The voice recognition AI is,
Obtain training voice signals, extract training text objects from the training voice signals, obtain first labels that are word information corresponding to the training text objects, and apply the training text objects to a neural network, generating training outputs corresponding to training text objects, and training the neural network based on the training outputs and the first labels,
Onboard voice digitization system.
상기 자율 운항 플랫폼에서 형성된 상기 운항 정보를 이용하여 상기 선박의 자율 운항을 제어하는 자율 운항 제어 장치를 더 포함하는,
선내 음성 디지털화 시스템.According to claim 1,
Further comprising an autonomous navigation control device that controls autonomous navigation of the ship using the navigation information generated in the autonomous navigation platform,
Onboard voice digitization system.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210173854A KR102640791B1 (en) | 2021-12-07 | 2021-12-07 | System for digitalizing onboard voice |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210173854A KR102640791B1 (en) | 2021-12-07 | 2021-12-07 | System for digitalizing onboard voice |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20230085562A KR20230085562A (en) | 2023-06-14 |
KR102640791B1 true KR102640791B1 (en) | 2024-02-27 |
Family
ID=86744980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210173854A KR102640791B1 (en) | 2021-12-07 | 2021-12-07 | System for digitalizing onboard voice |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102640791B1 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101707401B1 (en) * | 2015-12-02 | 2017-02-15 | 대우조선해양 주식회사 | Highly reliable message exchange system for autonomous navigation vessels |
KR102201818B1 (en) * | 2020-10-07 | 2021-01-12 | 한국해양과학기술원 | Apparatus and method for maritime traffic control communication analysis |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100568621B1 (en) | 2003-12-31 | 2006-04-07 | 삼성중공업 주식회사 | Advanced ship navigation document reporting system and method thereof |
KR101007698B1 (en) * | 2008-12-19 | 2011-01-13 | 삼성중공업 주식회사 | Video/audio generating apparatus and ship call system for using text date |
KR102313028B1 (en) * | 2015-10-29 | 2021-10-13 | 삼성에스디에스 주식회사 | System and method for voice recognition |
-
2021
- 2021-12-07 KR KR1020210173854A patent/KR102640791B1/en active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101707401B1 (en) * | 2015-12-02 | 2017-02-15 | 대우조선해양 주식회사 | Highly reliable message exchange system for autonomous navigation vessels |
KR102201818B1 (en) * | 2020-10-07 | 2021-01-12 | 한국해양과학기술원 | Apparatus and method for maritime traffic control communication analysis |
Non-Patent Citations (1)
Title |
---|
오정석 외 4명, "해상교통관제 정보(음성) 수집 시스템 설계 및 구현"* |
Also Published As
Publication number | Publication date |
---|---|
KR20230085562A (en) | 2023-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12014268B2 (en) | Batch normalization layer training method | |
Zissis et al. | Real-time vessel behavior prediction | |
CN113176776B (en) | Unmanned ship weather self-adaptive obstacle avoidance method based on deep reinforcement learning | |
CN109241912A (en) | The target identification method based on class brain across media intelligent towards unmanned autonomous system | |
KR102640795B1 (en) | System and method for supporting berthing of vessel based on radar and computer-readable recording medium including the same | |
KR102615445B1 (en) | Method, apparatus and system for providing nutritional information based on fecal image analysis | |
KR102635526B1 (en) | System for controlling floor traffic light based crosswalk traffic light linkage | |
KR102640791B1 (en) | System for digitalizing onboard voice | |
Sun et al. | Deep Learning‐Based Trajectory Tracking Control forUnmanned Surface Vehicle | |
Toskovic et al. | Marine Vessel Trajectory Forecasting Using Long Short-Term Memory Neural Networks Optimized via Modified Metaheuristic Algorithm | |
US20220107628A1 (en) | Systems and methods for distributed hierarchical control in multi-agent adversarial environments | |
KR20220037608A (en) | SYSTEM AND METHOD FOR classification OF LIST AND COMPUTER-READABLE RECORDING MEDIUM THEREOF | |
KR102343507B1 (en) | Variable pre-swirl stator and method for regulating angle thereof | |
Murray | Machine Learning for Enhanced Maritime Situation Awareness: Leveraging Historical AIS Data for Ship Trajectory Prediction | |
KR102701097B1 (en) | Method, device and system for providing digital secretary service to perform role of secretary for national assembly legislative activity using artificial intelligence | |
KR20210011811A (en) | Apparatus and method for forming of curved surface by using machine learning and computer readable medium storing the same | |
KR20210115250A (en) | System and method for hybrid deep learning | |
Al-Falouji et al. | Self-Explanation as a Basis for Self-Integration-The Autonomous Passenger Ferry Scenario | |
KR102650152B1 (en) | System and method for detection of pirate ship by using 4d radar and computer-readable recording medium including the same | |
Rahman et al. | Multi-label Classification of Aircraft Heading Changes using Neural Network to Resolve Conflicts. | |
KR102537518B1 (en) | System and method for deployment of onboard wireless ap based on 3d model and computer-readable recording medium including the same | |
KR102495890B1 (en) | Drone and drone control methods that enable precise landing using ir markers | |
KR20210041741A (en) | Apparatus and method for managing of resources by using machine learning, and computer readable storage medium storing the same | |
KR102676906B1 (en) | Method for monitoring wind power generator based on artificial intelligence using sound, vibration information and drond shooting photo | |
KR102607063B1 (en) | Method, device and system for providing video editing automation solution based on video processing using artificial intelligence model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |