WO2022114437A1 - 클라우드 환경에서 음성 인식을 통하여 인공지능 제어기술을 수행하는 전자 칠판 시스템 - Google Patents

클라우드 환경에서 음성 인식을 통하여 인공지능 제어기술을 수행하는 전자 칠판 시스템 Download PDF

Info

Publication number
WO2022114437A1
WO2022114437A1 PCT/KR2021/008996 KR2021008996W WO2022114437A1 WO 2022114437 A1 WO2022114437 A1 WO 2022114437A1 KR 2021008996 W KR2021008996 W KR 2021008996W WO 2022114437 A1 WO2022114437 A1 WO 2022114437A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
data
voice
electronic blackboard
command
Prior art date
Application number
PCT/KR2021/008996
Other languages
English (en)
French (fr)
Inventor
구기도
Original Assignee
주식회사 아하정보통신
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 아하정보통신 filed Critical 주식회사 아하정보통신
Publication of WO2022114437A1 publication Critical patent/WO2022114437A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/638Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Definitions

  • the present invention relates to an electronic blackboard, and more particularly, to an electronic blackboard system capable of artificial intelligence (AI)-based internal function control processing of voice recognition data and control of external devices connected through the Internet of Things (IoT), and various IoT peripherals
  • AI artificial intelligence
  • IoT Internet of Things
  • connected devices can be controlled or monitored through an optimal path, and to protect user privacy in a cloud environment, a database is built using simulated data and security is further strengthened by authenticating the speaking user. It's about the system.
  • AI artificial intelligence
  • the following prior art 1 is an interactive system, a display apparatus, and a controlling method thereof, and the disclosed display apparatus includes an input unit receiving a user's utterance voice, an utterance A communication unit that transmits a voice signal for a voice to the voice recognition device, a voice recognition unit that performs voice recognition on the spoken voice, and a reliability value for the first voice information recognized through the voice recognition unit and the second value recognized through the voice recognition device and a controller for determining, as an execution command for the spoken voice, voice information having a reliability value greater than or equal to a preset threshold among reliability values for the second voice information.
  • the display device may select a voice recognition result that is close to the user's intention among the two voice recognition results.
  • the following other prior art 2 (US 10198246 B2) is a method and apparatus for voice-activated control of an interactive display, in which communication to the interactive display device is possible.
  • the technical elements of the interactive electronic blackboard including a touch panel screen having a touch sensor are not disclosed.
  • An object of the present invention is to perform an artificial intelligence (AI)-based cloud search or device control function by processing a user's voice recognition information on an electronic blackboard including a large-area touch screen.
  • AI artificial intelligence
  • Another object of the present invention is to perform a function of controlling an external device connected to an Internet of Things (IoT) network in an electronic blackboard including a large-area touch screen in a wired or wireless manner according to voice recognition information.
  • IoT Internet of Things
  • Another object of the present invention is to control or monitor connected devices through an optimal path in controlling various external devices around IoT, and to build a database to protect user privacy in a cloud environment and to strengthen security by authenticating users
  • the purpose is to perform
  • the present invention relates to an electronic blackboard comprising a panel unit capable of touch recognition and a sensor unit for performing touch recognition according to a touch method by determining a touch method when the panel unit is touched. isolating and noise-cancelling microphone arrays; a voice recognition engine that receives a voice signal that is an analog signal from which noise has been removed from the microphone array and converts it into digital data that is a text signal; a database for repeatedly storing the received voice signal and the converted text signal; a command interpretation unit that receives the text signal converted from the speech recognition engine and interprets it as a command through machine learning using the database; It provides an electronic blackboard including a control unit that performs a query search or internal and external control function with an external cloud service according to the interpreted command.
  • the method further includes a voice pattern matching unit that compares the command interpreted by the command interpretation unit with an internal command list to search for a pattern of the voice signal, wherein the voice pattern matching unit performs the voice pattern matching according to a predetermined voice pattern in the first sleep mode. It may be characterized in that an internal control signal for changing the voice recognition engine into a wake-up mode is transmitted to the control unit.
  • the microphone array may be characterized by performing acoustic model machine learning for compensating for the distorted voice signal through gain compensation or echo cancellation using a plurality of microphones.
  • control unit may connect a communication to an external cloud server according to the interpreted command, query and search SaaS-based cloud data, and display it on the electronic blackboard.
  • control unit may perform a control function inside the device of the electronic blackboard according to the interpreted command, or may perform a control function of an external peripheral device connected to the electronic blackboard by wire or wireless according to the command.
  • the control function is performed through an optimal route recommendation AI algorithm, wherein the algorithm includes a data collection step in which the data collection module receives a data set, and a preprocessing module in which the data set is input.
  • a preprocessing step of preprocessing a data set a prediction calculation step in which a prediction module configured through machine learning of an artificial neural network (ANN) applies the preprocessed data set to a prediction algorithm, and an optimization module predicts the model and constraints according to the objective function It may be characterized in that it consists of an optimal route recommendation step of finding an optimal route using
  • the voice signal and the converted text signal use the data of each original signal and k-1 copies of the data, and the database according to the result of processing the hash function process based on the timestamp, which is the generation time of the data.
  • the voice signal and the converted text signal use the data of each original signal and k-1 copies of the data, and the database according to the result of processing the hash function process based on the timestamp, which is the generation time of the data.
  • the hash function uses a Hash-based Message Authentication Code algorithm (HMAC), and it may be characterized in that a result value Q is generated by Equation 1 below.
  • HMAC Hash-based Message Authentication Code algorithm
  • TS timestamp information
  • K_CNT is a count number based on the k value
  • PK is previously shared secret key information
  • the electronic blackboard system converts the conversion information converted by IP band or user-agent, which is environmental information that the user who has uttered the external sound source, logs into the system, a support vector machine, which is a binary linear classification model. Machine) may be used to generate a two-class user model to determine whether the user is the user.
  • the present invention has an effect of learning, interpreting, and processing the user's voice recognition information in an electronic blackboard including a touch sensor to perform an artificial intelligence (AI)-based cloud search or control function.
  • AI artificial intelligence
  • the present invention has an effect of controlling an external device connected to an Internet of Things (IoT) network through a user's voice command in the electronic blackboard including a large-area touch screen.
  • IoT Internet of Things
  • voice data processing is possible through its own independent processing algorithm without being dependent on a dedicated server of a third-party Internet service provider (communication company). It has the effect of being easy to install and use independently regardless of overseas.
  • security can be further strengthened by building a database using simulated data to protect privacy in a cloud environment and authenticating the uttering user using SVM (Support Vector Machine).
  • SVM Small Vector Machine
  • AI artificial intelligence
  • FIG. 2 is a diagram illustrating a situation in which the cloud service 240 is used using the existing communication company's dedicated speaker 210 , the communication network 250 , and the AI server 230 .
  • FIG. 3 is a diagram illustrating a situation in which a cloud service 330 is used using its own individual speaker 310 regardless of a communication company according to an embodiment of the present invention.
  • Figure 4 is an embodiment of the present invention by processing the user's touch input or voice input (400, 410) information in the electronic blackboard as an embodiment of the present invention (AI) based cloud search 450 or control functions (480, 490) It is a diagram showing a flow chart to perform.
  • AI artificial intelligence
  • the electronic blackboard 300 including a panel unit (not shown) capable of touch recognition and a sensor unit (not shown) that performs touch recognition according to the touch method by determining a touch method when the panel unit is touched is an external source.
  • a touch input signal 100 or a voice command signal 200 is received from (100, 200).
  • a pattern of a touch recognized by the touch sensor 310 is displayed on the screen of the electronic blackboard 300 and a response according to other UI input is output.
  • the microphone array 320 may implement a gain compensation or echo cancellation function using a plurality of microphones and perform acoustic model machine learning for compensating for the distorted voice signal.
  • voice recognition can be smoothly processed even from a distance, and even if there is another audio function (eg, music playback) in the electronic blackboard, the voice recognition function must be operated.
  • a voice signal which is an analog signal from which noise has been removed, is received from the microphone array 320 and converted into digital data that is a text signal in the voice recognition engine 340 (Speech to Text), and the voice signal and the converted text signal are converted into a database. It is stored repeatedly at 360.
  • the data stored in this way is used as learning data for machine learning based on artificial intelligence for continuous upgrade of S/W in the voice recognition system including the voice recognition engine 340 and the command interpretation unit 350 using its own speaker.
  • the algorithm includes an algorithm for analyzing a voice command pattern, and command control according to the pattern.
  • a protocol matching algorithm, a voice pattern array matching algorithm, and a matching pattern algorithm for granting the same meaning in heterogeneous languages may be performed together.
  • control unit 330 may perform a query search function to an external cloud service, such as an Internet search, or perform an internal/external control function.
  • the internal/external control function first, as an internal function control, the power of the electronic board 300 is turned on/off, the volume of the electronic board 300 is adjusted, or the on-screen control control (screen size adjustment, page movement) is performed. etc.) or an input source (USB, HDMI, etc.) conversion, etc., may perform an internal control function of the electronic board 300 .
  • the electronic blackboard 300 and peripheral devices eg, lamps, door locks, other electronic blackboards, etc. located in the Internet of Things (IoT) network connected by wire or wireless are controlled. That is, by using an IoT-related relay and an IR controller, it is possible to switch the lamp lights around and turn them on and off.
  • IoT Internet of Things
  • the command interpreted by the command interpretation unit 350 further includes a voice pattern matching unit (not shown) for searching the pattern of the voice signal by comparing it with the internal command list 370, and the voice pattern matching unit is in the first sleep mode ( In the sleep mode), an internal control signal for changing the voice recognition engine 340 to a wake-up mode according to a predetermined voice pattern is generated.
  • the voice pattern matching unit In the sleep mode, an internal control signal for changing the voice recognition engine 340 to a wake-up mode according to a predetermined voice pattern is generated.
  • it is switched back to the sleep mode to minimize power and other resource consumption.
  • the present invention intends to provide an optimal path of a control process that can reduce data transmission costs for IoT-based connected external devices and maximize IoT data (input, sensing, monitoring) collection.
  • the optimal path (root) recommendation algorithm can be configured including data acquisition module (data acquisition), preprocessing module (system processes), prediction module (prediction), predictive model learning module (learning module), and optimization module (optimization module)
  • the collection module receives an input dataset that is actual use data of a peripheral device, and the pre-processing module may pre-process the input data set.
  • the preprocessing module divides the data set into a training data set and a test data set, and the prediction module applies the preprocessed data set to a prediction algorithm, more specifically, the prediction module converts the test data set into a prediction algorithm can be predicted by applying
  • the prediction model configuration unit can configure the prediction module by machine learning on an artificial neural network (ANN) using the training data set, and the optimization module uses the prediction model and constraints according to the objective function to determine the optimal route can be found
  • ANN artificial neural network
  • the preprocessing module preprocesses the input data set.
  • null input can be removed and fields necessary for prediction can be derived during preprocessing, and the preprocessed data can be supplied to the prediction module. Therefore, in the prediction module, the usage prediction model can be calculated by applying the prediction algorithm having the highest accuracy among various prediction algorithms to the data, and at this time, the prediction algorithm with the best performance can be stored and applied to the next step. Accordingly, the optimization module can use some constraints and predictive models and find the most suitable path (root) according to the objective function.
  • a data set can be created based on the actual peripheral device usage frequency and power consumption, and the cost according to the peripheral device communication cost (distance between devices and data amount) can be calculated through the model and constraints predicted using the objective function. Minimize and maximize IoT data collection for a specific grid.
  • FIG. 2 is a diagram illustrating a situation in which the cloud service 240 is used using the existing communication company's dedicated speaker 210 , the communication network 250 , and the AI server 230 .
  • the cloud service ( 240) can be used.
  • the specialized artificial intelligence service must also be developed by each communication company, so it is not suitable for use for special purposes such as electronic blackboards.
  • specialized AI functions such as electronic blackboard consume resources due to frequent and many signal requests compared to other services, and there is a limitation that it cannot be applied when using other carriers.
  • exceptional circumstances such as when the telecommunication company's AI server goes down, the entire AI function may not be available.
  • FIG. 3 is a diagram illustrating a situation in which a cloud service 330 is used using its own individual speaker 310 regardless of a communication company according to an embodiment of the present invention.
  • FIG. 3 there is no dedicated speaker 210 developed and provided by an Internet service provider (communication company) in addition to the smartphone 300 and the computer 320 , and an Internet communication network 340 independent of the communication company that is not the communication company dedicated communication network 250 .
  • the cloud service 240 can be directly used by using the individual speaker 310 equipped with a voice recognition engine.
  • there is no need to subscribe to a specific telecommunication company and use the telecommunication company's dedicated AI speaker and it is possible for individual companies to create customized AI for exclusive use because each carrier does not have to develop specialized artificial intelligence services. Therefore, it is suitable for use for special purposes such as electronic blackboards.
  • the control unit when using the cloud service 330 , connects the communication to the external cloud server according to the command interpreted by the command interpretation unit, and searches for SaaS (Software as a Service)-based cloud data by querying. It is possible to display the corresponding content on the screen of the electronic blackboard.
  • SaaS Software as a Service
  • mapping structure between users and files is stored as meta information, and in this process, a list of users who uploaded a specific file can be secured through meta-analysis on the server.
  • the Q value which is a hash function value
  • Equation 1 the Q value, which is a hash function value
  • HMAC Hash-based Message Authentication Code algorithm
  • TS is the timestamp information of time information
  • K_CNT is the count number based on the k value
  • PK is the previously shared secret key information
  • K-anonymity is one of the privacy protection models of data de-identification, and since there is a risk of individual identification when only specific single data is stored, it is a method of lowering the possibility of identification by simultaneously storing data with a value of k or more when storing data. For example, if k is 3, when saving 1 IoT data, 3 data are stored at the same time. In this case, one piece of data is real data, and the other two pieces of data are virtual fake data. At this time, you need to know the PK corresponding to the pre-shared secret key with an authorized administrator, etc., so that you can figure out which one is the real data.
  • TS stands for Time Stamp
  • K_CNT corresponds to a number counted according to a preset value of k. For example, when k is 3, the value of K_CNT has values of 1, 2, and 3. In this case, when the K_CNT value is 1, it is original data, and when it is 2 or 3, it can be treated as fake (imitation) data.
  • Figure 4 is an embodiment of the present invention by processing the user's touch input or voice input (400, 410) information in the electronic blackboard as an embodiment of the present invention (AI) based cloud search 450 or control functions (480, 490) It is a diagram showing a flow chart to perform.
  • the voice recognition engine provided in the electronic blackboard converts an analog voice signal into a digital signal. Converts to a text signal (speech to text) (420).
  • the previously analyzed data and the previously classified voice signal through machine learning are called from the database and compared repeatedly, so that as time passes and the amount of processed data increases, more Sophisticated interpretation is possible.
  • the speech recognition rate can be increased to more than 90%, and actions according to speech recognition can be implemented.
  • the interpreted command is a request such as an Internet search using a cloud service or a request to control the device (440), and in the case of an Internet search request (450), the content screen corresponding to the search result is displayed (450). It can be displayed on the electronic blackboard (460).
  • a request to control the device is it a command to control the internal functions (power, volume, screen, source, etc.) of the electronic board or control functions of external devices connected via wired or wireless (lamp, curtain, door lock, other electronic devices)
  • the external device is controlled (480) or an internal function of the electronic blackboard is executed (490) depending on whether the command is to be executed (blackboard, etc.).
  • the following steps may be performed.
  • the user's login environment information is extracted.
  • the user's login environment information may be an IP band and a user-agent when the user logs in to an Internet site.
  • the extracted log-in environment information is converted into a One-Hot-Encoding method to generate conversion information, and a number is assigned to unique values for each environment information from 1 to label encoding.
  • SVM Support Vector Machine
  • SVM Small Vector Machine
  • SVM Small Vector Machine
  • a two-class user model is generated using SVM for conversion information of the entire system user, and when a user logs in, the two-class user model is applied to determine whether the user is the identity. Therefore, when an illegal user steals the ID and password of the original owner to log in to an IoT peripheral device or an Internet site, it is possible to detect and deny access, thereby improving security.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Otolaryngology (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)

Abstract

본 발명의 목적은 대면적 터치스크린을 포함하는 전자 칠판에서 사용자의 음성 인식 정보를 처리하여 인공지능(AI) 기능을 수행하는 것이 목적이다. 이를 위하여, 터치 인식이 가능한 패널부와 상기 패널부가 터치되는 경우에 터치 방식을 판별하여 터치 방식에 따른 터치인식을 수행하는 센서부를 포함하는 전자 칠판에 있어서, 외부의 음원으로부터 음성 신호를 입력받아 음원을 분리하고 노이즈를 제거하는 마이크 어레이; 상기 마이크 어레이로부터 노이즈가 제거된 아날로그 신호인 음성 신호를 전달받아 텍스트 신호인 디지털 데이터로 변환하는 음성 인식 엔진; 상기 전달받은 음성 신호 및 변환된 텍스트 신호를 반복하여 저장하는 데이터베이스; 상기 음성인식 엔진으로부터 변환된 텍스트 신호를 입력받아 상기 데이터베이스를 이용하여 기계학습을 통해 명령어로 해석하는 명령어 해석부; 상기 해석된 명령어에 따라 외부 클라우드 서비스로 쿼리검색 또는 내외부 제어기능을 수행하는 제어부를 포함하는 전자 칠판을 제공한다.

Description

클라우드 환경에서 음성 인식을 통하여 인공지능 제어기술을 수행하는 전자 칠판 시스템
본 발명은 전자 칠판에 관한 것으로서, 보다 상세하게는 음성 인식 데이터의 인공지능(AI) 기반의 내부 기능 제어 처리 및 사물인터넷(IoT)으로 연결된 외부 디바이스의 제어가 가능한 전자 칠판 시스템으로서, 다양한 IoT 주변 외부기기들을 제어함에 있어서 연결된 디바이스들을 최적의 경로를 통해 제어하거나 모니터링 할 수 있으며, 클라우드 환경에서 사용자 프라이버시 보호를 위해 모사 데이터를 이용하여 데이터베이스를 구축하고 발화 사용자를 인증함으로서 한층 보안을 강화하는 전자 칠판 시스템에 관한 것이다.
근래 들어 강의실 또는 회의실에서 디지털 환경으로의 변화에 따라 여러 가지 수업 또는 회의 도구들이 디지털 장비로 대체되고 그에 따라 의사소통 방식도 양방향 디지털 소통으로 변화하게 되었다. 예를 들어 디지털 교과서가 보급되고 여러 가지 멀티미디어 기기를 활용한 교육 환경이 보급화 되면서, 전자 칠판의 경우에 화면상에 강의 내용 또는 발표 내용의 문서를 띄우고 판서 및 글쓰기 기능을 제공하는 등 강의에 필요한 각종 기능을 수행할 수 있으며 이때 사람의 손으로 직접 터치하거나 전용 터치펜으로 터치를 감지하게 할 수 있게 되었다.
아울러 최근에는 인공지능(AI)의 장비와 프로세스의 발달로 전통적인 입력 장치(예를 들어, 키보드 또는 마우스 등)이 아닌 사용자의 오디오 음성 인식에 의해 해당 디바이스에 특정한 명령어를 전달하고 장치의 여러 가지 검색 및 제어기능을 컨트롤하는 기술이 등장하였다.
아래의 선행기술1(KR 2015-0087687 A)은 대화형 시스템, 디스플레이 장치 및 그 제어 방법(interactive system, display apparatus and controlling method thereof)으로서, 개시된 디스플레이 장치는 사용자의 발화 음성을 입력받는 입력부, 발화 음성에 대한 음성 신호를 음성 인식 장치로 전송하는 통신부, 발화 음성에 대한 음성 인식을 수행하는 음성 인식부 및 음성 인식부를 통해 인식된 제1 음성 정보에 대한 신뢰도 값과 음성 인식 장치를 통해 인식된 제2 음성 정보에 대한 신뢰도 값 중 기설정된 임계값 이상의 신뢰도 값을 가지는 음성 정보를 상기 발화 음성에 대한 실행 명령으로 결정하는 제어부를 포함한다. 이에 따라, 디스플레이 장치는 디스플레이 장치 및 외부 장치에서 사용자의 발화 음성을 동시에 인식할 경우, 두 음성 인식 결과 중 사용자의 의도에 근접한 음성 인식 결과를 선택하는 것이 가능할 것이다. 한편, 아래의 다른 선행기술2(US 10198246 B2)은 인터랙티브 디스플레이에서 활성화된 음성 제어 방법 및 장치(Methods and apparatus for voice-activated control of an interactive display)으로서, 본 기술에서는 인터랙티브 디스플레이 장치에 통신이 가능하게 결합된 음성 입력 장치를 통해 사용자의 음성 데이터 수신이 가능하나, 터치센서를 구비한 터치패널 스크린을 포함하는 양방향 전자 칠판의 기술적인 요소는 개시하고 있지 않다.
따라서, 본 발명에서는 정전용량(PCAP), 전자기유도(EMR) 또는 적외선(IR) 방식을 이용한 터치 센서 전자 칠판에서 음성 인식 명령을 포함하여 인공지능(AI) 기반의 내부적 기능수행 및 주변 디바이스와의 상호 통신을 통한 사물인터넷(IoT) 기반의 외부 제어기능을 수행하는 방법을 제안하고자 하며, 이때 인터넷 서비스 공급자(통신사)의 전용 서버나 통신망에 종속되지 않고 독립적인 개별 음성 인식 장치와 음성 인식 알고리즘을 통해 인공지능 기반의 데이터 처리를 가능하게 하고자 한다.
본 발명의 목적은 대면적 터치스크린을 포함하는 전자 칠판에서 사용자의 음성 인식 정보를 처리하여 인공지능(AI) 기반의 클라우드 검색 또는 기기의 제어 기능을 수행하는 것이 목적이다.
본 발명의 또 다른 목적은 대면적 터치스크린을 포함하는 전자 칠판에서 사물인터넷(IoT) 네트워크로 연결된 외부 기기를 음성 인식 정보에 따라 유무선으로 제어하는 기능을 수행하는 것이 목적이다.
본 발명의 또 다른 목적은 다양한 IoT 주변 외부기기들을 제어함에 있어서 연결된 디바이스들을 최적의 경로를 통해 제어하거나 모니터링 하며, 클라우드 환경에서 사용자 프라이버시 보호를 위해 데이터베이스를 구축하고 사용자를 인증함으로서 보안을 강화하는 기능을 수행하는 것이 목적이다.
본 발명은 터치 인식이 가능한 패널부와 상기 패널부가 터치되는 경우에 터치 방식을 판별하여 터치 방식에 따른 터치인식을 수행하는 센서부를 포함하는 전자 칠판에 있어서, 외부의 음원으로부터 음성 신호를 입력받아 음원을 분리하고 노이즈를 제거하는 마이크 어레이; 상기 마이크 어레이로부터 노이즈가 제거된 아날로그 신호인 음성 신호를 전달받아 텍스트 신호인 디지털 데이터로 변환하는 음성 인식 엔진; 상기 전달받은 음성 신호 및 변환된 텍스트 신호를 반복하여 저장하는 데이터베이스; 상기 음성인식 엔진으로부터 변환된 텍스트 신호를 입력받아 상기 데이터베이스를 이용하여 기계학습을 통해 명령어로 해석하는 명령어 해석부; 상기 해석된 명령어에 따라 외부 클라우드 서비스로 쿼리검색 또는 내외부 제어기능을 수행하는 제어부를 포함하는 전자 칠판을 제공한다.
여기서, 상기 명령어 해석부에서 해석된 명령어를 내부의 명령어 리스트와 비교하여 상기 음성 신호의 패턴을 검색하는 음성 패턴 매칭부를 더 포함하며, 상기 음성 패턴 매칭부는 최초 슬립 모드에서 소정의 음성 패턴에 의해 상기 음성 인식 엔진을 웨이크업 모드로 변화시키는 내부 제어 신호를 상기 제어부로 보내는 것을 특징으로 할 수 있다.
한편, 상기 마이크 어레이는 복수의 마이크를 이용하여 이득 보상 또는 에코 제거를 통해 왜곡된 상기 음성 신호를 보상하는 음향 모델 기계학습을 수행하는 것을 특징으로 할 수 있다.
아울러, 상기 제어부는 상기 해석된 명령어에 따라 외부 클라우드 서버로 통신을 연결하고, SaaS 기반의 클라우드 데이터를 쿼리 검색하여 상기 전자 칠판에 표시하는 것을 특징으로 할 수 있다.
그리고 상기 제어부는 상기 해석된 명령어에 따라 상기 전자 칠판의 기기 내부의 제어 기능을 수행하거나 상기 명령어에 따라 상기 전자 칠판과 유무선으로 연결된 외부 주변 기기의 제어 기능을 수행하는 것을 특징으로 할 수 있다.
그리고 상기 연결된 외부 주변 기기들의 제어 기능을 수행하는 경우, 최적 루트 추천 AI 알고리즘을 통해 상기 제어 기능을 수행하며, 상기 알고리즘은 데이터 수집 모듈이 데이터 셋을 입력 받는 데이터 수집 단계, 전처리 모듈이 상기 입력된 데이터 셋을 전처리 하는 전처리 단계, ANN(Artificial Neural Network)의 머신 러닝을 통하여 구성된 예측 모듈이 상기 전처리된 데이터 셋을 예측 알고리즘에 적용하는 예측 계산 단계, 최적화 모듈이 목적 함수에 따라 예측 모델과 제약 조건을 사용하여 최적 루트를 찾는 최적 루트 추천 단계로 이루어지는 것을 특징으로 할 수 있다.
그리고 상기 음성 신호 및 변환된 텍스트 신호는 각각의 원본 신호의 데이터와 k-1개의 모사 데이터를 이용하여, 상기 데이터의 발생 시간인 타임스탬프에 근거하여 해쉬함수 프로세스를 처리한 결과값에 따라 데이터베이스를 저장함으로써 상기 외부의 음원을 발화한 사용자의 프라이버시를 보호하는 것을 특징으로 할 수 있다.
그리고 상기 해쉬함수는 Hash-based Message Authentication Code 알고리즘(HMAC)을 이용하며, 아래 수학식 1에 의해 결과값 Q가 생성되는 것을 특징으로 할 수 있다.
<수학식 1>
Figure PCTKR2021008996-appb-I000001
(TS는 타임스탬프 정보이며, K_CNT는 상기 k값에 기초한 카운트 숫자이며, PK는 사전에 공유된 비밀키 정보)
그리고 상기 전자 칠판 시스템은 상기 외부의 음원을 발화한 사용자가 상기 시스템에 로그인 하는 환경정보인 IP 대역 또는 사용자 에이전트(user-agent)가 변환된 변환정보를 이진 선형 분류 모델인 서포트 벡터 머신(Support Vector Machine)을 이용하여 2-클래스 사용자 모델을 생성함으로써 상기 사용자가 본인인지 여부를 판단하는 것을 특징으로 할 수 있다.
본 발명은 터치 센서를 포함하는 전자 칠판에서 사용자의 음성 인식 정보를 학습, 해석, 처리하여 인공지능(AI) 기반의 클라우드 검색 또는 제어 기능을 수행할 수 있는 효과가 있다.
또한 본 발명은 대면적 터치스크린을 포함하는 전자 칠판에서 사용자의 음성 명령을 통해 사물인터넷(IoT) 네트워크로 연결된 외부 기기를 제어할 수 있는 효과가 있다.
아울러, 이러한 인공지능 기반의 입출력 처리 및 사물인터넷 제어 기능을 수행함에 있어서 제3의 인터넷 서비스 공급자(통신사)의 전용 서버에 종속되지 않고 자체의 독립적인 프로세싱 알고리즘을 통해 음성 데이터 처리가 가능하여 국내/해외를 불문하고 독립적인 설치 사용이 용이하다는 효과가 있다.
한편, 다양한 IoT 주변 외부기기들을 제어함에 있어서, 연결된 수많은 디바이스를 최적의 경로를 통해 제어하거나 모니터링 할 수 있다.
한편, 클라우드 환경에서 프라이버시 보호를 위해 모사 데이터를 이용하여 데이터베이스를 구축하고 SVM(Support Vector Machine)을 이용하여 발화 사용자를 인증함으로서 한층 보안을 강화할 수 있다.
도 1은 본 발명의 일 실시예로 터치스크린의 전자 칠판(300)에서 사용자의 음성 명령(200) 정보를 처리하여 인공지능(AI) 기반의 클라우드 검색 또는 제어 기능을 수행할 수 있는 구조를 나타낸 도면이다.
도 2는 기존의 통신사의 전용 스피커(210), 통신망(250), AI서버(230)를 이용하여 클라우드 서비스(240)를 이용하는 상황을 나타낸 도면이다.
도 3은 본 발명의 일 실시예로 통신사와 무관하게 자체 개별 스피커(310)를 이용하여 클라우드 서비스(330)를 이용하는 상황을 나타낸 도면이다.
도 4는 본 발명의 일 실시예로 전자 칠판에서 사용자의 터치입력 또는 음성 입력(400, 410) 정보를 처리하여 인공지능(AI) 기반의 클라우드 검색(450) 또는 제어 기능(480, 490)을 수행하는 플로우 차트를 나타낸 도면이다.
본 발명의 이점 및 특징 그리고 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되는 실시예를 참조하면 보다 명확해질 것이다.
그러나 본 발명은 이하에서 개시되는 한정된 몇몇의 실시예로 제한되는 것이 아니라 목적, 효과가 실질적으로 동일한 범위내에서는 서로 다른 다양한 형태로 구현될 수 있으며 이러한 실시예 역시 본 발명의 기술적 사항에 포함된다고 볼 수 있을 것이다.
본 명세서에서 실시예는 본 발명의 개시가 보다 명확해지도록 하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 이해 시켜주기 위해 제공되는 것이다.
그리고 본 발명의 권리범위는 후술되는 특허청구의 범위에 의해 정의될 것이다.
따라서 몇몇 실시예에서 잘 알려진 구성 요소, 잘 알려진 동작 및 잘 알려진 세부기술들은 본 발명이 모호하게 해석되는 것을 피하기 위해 구체적으로 설명하지는 않는다.
또한 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭하고 본 명세서에서 사용된 용어들은 실시예를 설명하기 위한 것일 뿐이며 본 발명을 한정시키고자 하는 것은 아니다.
본 명세서에서 단수형은 문구에서 특별히 언급하지 않는한 복수형도 포함하는 것으로 해석해야할 것이며, 포함(또는 구비)하는 것으로 언급된 구성 요소 또는 동작은 하나 이상의 다른 구성 요소 또는 동작의 존재 및 추가를 배제하지 않는다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어 포함)은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다.
또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 별도로 정의되어 있지 않는한 과도하게 또는 이상적으로 해석되지 않는 것으로 한다.
이하, 첨부된 도면을 참고로 본 발명의 바람직한 실시예에 대하여 설명하도록 한다.
도 1은 본 발명의 일 실시예로 터치스크린의 전자 칠판(300)에서 사용자의 음성 명령(200) 정보를 처리하여 인공지능(AI) 기반의 클라우드 검색 또는 제어 기능을 수행할 수 있는 구조를 나타낸 도면이다.
터치 인식이 가능한 패널부(미도시)와 상기 패널부가 터치되는 경우에 터치 방식을 판별하여 터치 방식에 따른 터치 인식을 수행하는 센서부(미도시)를 포함하는 전자 칠판(300)은 외부의 소스(100, 200)로부터 터치 입력 신호(100) 또는 음성 명령 신호(200)를 입력받는다.
이때 입력된 터치 방식에 따라, 터치 센서(310)에서 인식된 터치의 패턴으로 전자 칠판(300) 화면에 표시하고 기타 UI 입력에 따른 응답을 출력한다.
만약 음성 명령(200) 신호가 입력되는 경우에는 음원을 분리하고 노이즈를 제거하는 어레이 타입의 마이크 모듈(320)에 의해 입력된 아날로그 음성 시그널의 신호를 품질을 향상시킨다. 이때 마이크 어레이(320)는 복수의 마이크를 이용하여 이득(gain) 보상 또는 에코(echo) 제거 기능을 구현하고 왜곡된 상기 음성 신호를 보상하는 음향 모델 기계학습을 수행할 수 있다. 이를 통해 원거리에서도 음성 인식이 원활하게 처리될 수 있으며, 전자 칠판에서 다른 오디오 기능(예를 들어 음악재생)이 있는 경우라도 상기 음성 인식 기능이 동작되어야 한다.
그런 다음 마이크 어레이(320)로부터 노이즈가 제거된 아날로그 신호인 음성 신호를 전달받아 음성 인식 엔진(340)에서 텍스트 신호인 디지털 데이터로 변환(Speech to Text)하고, 음성 신호 및 변환된 텍스트 신호는 데이터베이스(360)에 반복하여 저장된다. 이렇게 저장된 데이터들은 자체 스피커를 이용한 음성 인식 엔진(340)과 명령어 해석부(350)를 포함하는 음성 인식 시스템에서 S/W의 지속적인 업그레이드를 위하여 인공지능 기반의 기계학습을 위한 학습 데이터로 활용된다.
한편 음성인식 엔진으로부터 변환된 텍스트 신호를 입력받아 상기 데이터베이스(360)를 이용하여 기계학습을 통해 명령어로 해석하는 명령어 해석부(350)에서는 알고리즘에는 음성 명령 패턴을 분석하는 알고리즘, 패턴에 따른 명령어 제어 프로토콜 매칭 알고리즘, 음성 패턴 어레이 매칭 알고리즘, 이종언어의 동일 의미부여 매칭 패턴 알고리즘 등이 함께 진행될 수 있다.
이렇게 해석된 명령어(command)에 따라 제어부(330)에서는 인터넷 검색과 같은 외부 클라우드 서비스로의 쿼리검색 기능을 수행하거나 또는 내부/외부의 제어기능을 수행할 수 있다.
이때 내부/외부 제어기능의 예를 들어보면, 먼저 내부 기능 제어로서 전자 칠판(300)의 전원을 온오프 시키거나 전자 칠판(300)의 볼륨을 조절하거나 화면상 제어 컨트롤(화면 크기조절, 페이지 이동 등) 또는 입력 소스(USB, HDMI 등)의 변환 등 전자 칠판(300) 내부적인 제어 기능을 수행할 수 있다.
그리고 외부 기능 제어를 예로 들면, 전자 칠판(300)과 유무선으로 연결된 사물 인터넷(IoT) 망에 위치한 주변기기(예를 들어 램프, 도어락, 다른 전자 칠판 등)를 제어하는 상황이 있을 수 있다. 즉, IoT 관련 릴레이(relay) 및 IR 컨트롤러를 이용하여 주변의 램프 불을 스위치하여 껐다 켰다 할 수 있는 것이다.
한편 명령어 해석부(350)에서 해석된 명령어는 내부의 명령어 리스트(370)와 비교하여 상기 음성 신호의 패턴을 검색하는 음성 패턴 매칭부(미도시)를 더 포함하며 음성 패턴 매칭부는 최초 슬립 모드(sleep mode)에서 소정의 음성 패턴에 의해 음성 인식 엔진(340)을 웨이크업 모드(wake-up)로 변화시키는 내부 제어 신호를 발생시킨다. 아울러, 웨이크업 모드에서 소정의 시간동안 추가적인 음성 명령 입력이 없을 시에는 다시 슬립 모드로 전환되어 전원과 기타 리소스 소비를 최소화 시킬 수 있다.
아울러, 본 발명은 IoT 기반의 연결된 외부기기들에 대하여 데이터 전달 비용을 절감하고 IoT 데이터(입력, 센싱, 모니터링) 수집을 최대화할 수 있는 제어 프로세스의 최적 경로를 제공하고자 한다.
최적 경로(루트) 추천 알고리즘은 데이터 수집 모듈(data acquisition), 전처리 모듈(system processes), 예측 모듈(prediction), 예측 모델 구성부(learning module) 및 최적화 모듈(optimization module)을 포함하여 구성될 수 있으며, 상기 수집 모듈은 실제 주변기기의 사용데이터인 데이터 셋(input dataset)을 입력 받으며, 상기 전처리 모듈은 상기 입력된 데이터 셋을 전처리 할 수 있다. 또한, 상기 전처리 모듈은 상기 데이터 셋을 훈련 데이터 셋과 테스트 데이터 셋으로 분할하고 상기 예측 모듈은 상기 전처리된 데이터 셋을 예측 알고리즘에 적용하여, 보다 구체적으로 상기 예측 모듈은 상기 테스트 데이터 셋을 예측 알고리즘에 적용하여 예측할 수 있다.
한편, 예측 모델 구성부는 상기 훈련 데이터 셋을 이용해 ANN(Artificial Neural Network)에 머신 러닝하여 상기 예측 모듈을 구성할 수 있으며, 상기 최적화 모듈은 목적 함수에 따라 예측 모델과 제약 조건을 사용하여 최적 루트를 찾을 수 있다.
전처리 모듈에서는 입력된 데이터 셋을 전처리 하며, 이때 전처리 시에는 널(null) 입력을 제거하고 예측에 필요한 필드를 도출할 수 있으며, 이와 같이 전처리 된 데이터는 예측 모듈에 공급될 수 있다. 따라서, 예측 모듈에서는 다양한 예측 알고리즘 중에서 가장 높은 정확도를 갖는 예측 알고리즘을 데이터에 적용하여 사용량 예측 모델을 계산할 수 있으며, 이때 가장 성능이 좋은 예측 알고리즘이 저장되어 다음 단계에 적용될 수 있다. 그에 따라, 최적화 모듈은 일부 제약 조건과 예측 모델을 사용하고 목적 함수에 따라 가장 적합한 경로(루트)를 찾을 수 있다.
실제 주변기기의 사용빈도량 및 전력소모량을 기준으로 데이터 셋(data set)을 만들 수 있으며, 목적 함수를 사용해 예측된 모델과 제약 조건을 통해 주변기기의 통신 비용(기기간 거리 및 데이터량)에 따른 cost를 최소화하고 특정 그리드(grid)의 IoT 데이터 수집을 최대화할 수 있다.
도 2는 기존의 통신사의 전용 스피커(210), 통신망(250), AI서버(230)를 이용하여 클라우드 서비스(240)를 이용하는 상황을 나타낸 도면이다.
이하 후술할 도 3과 달리 도 2에서는 스마트폰(200), 컴퓨터(220) 외에 인터넷 서비스 공급자(통신사)가 개발하여 제공하는 전용 스피커(210)을 통해 통신사 전용 통신망(250)을 통해 클라우드 서비스(240)를 이용할 수 있다. 즉, 특정 통신사에 가입하여 통신사 전용 AI 스피커를 사용하여야 하며, 특화된 인공지능 서비스 역시 각 통신사가 개발하여야 하므로, 전자 칠판과 같은 특수 목적용으로 사용하기에는 부적합하다. 아울러 전자 칠판과 같은 특화성이 있는 AI 기능에서는 타 서비스 대비 빈번하고 많은 신호 요청으로 인해 리소스가 소모되며, 타 통신사 사용시 적용이 불가하다는 한계점도 있다. 그리고 통신사의 AI 서버가 다운되거나 하는 예외 상황에서는 전체 AI 기능을 사용하지 못하게 될 수도 있다. 그리고 외국어 기반의 해외 수출용으로도 단점이 있으며, 타국가 통신 사업자간의 이해관계(언어구현, 통신서비스 방식 등의 차이)로 국제화가 힘들다는 단점이 있다. 이와 비교하여 도 3의 본 발명의 클라우드 서비스 이용방식을 살펴보도록 한다.
도 3은 본 발명의 일 실시예로 통신사와 무관하게 자체 개별 스피커(310)를 이용하여 클라우드 서비스(330)를 이용하는 상황을 나타낸 도면이다.
도 3에서는 스마트폰(300), 컴퓨터(320) 외에 인터넷 서비스 공급자(통신사)가 개발하여 제공하는 전용 스피커(210)가 없고, 통신사 전용 통신망(250)도 아닌 통신사와 무관한 인터넷 통신망(340)을 이용하는 상황을 가정하고 있다. 아울러 음성 인식 엔진이 구비된 개별 스피커(310)를 이용하여 직접 클라우드 서비스(240)를 이용할 수 있다. 즉, 특정 통신사에 가입하여 통신사 전용 AI 스피커를 사용할 필요가 없으며, 특화된 인공지능 서비스 역시 각 통신사가 개발하지 않아도 되므로 개별 기업이 전용성으로 맞춤형 AI 제작하는 것이 가능하다. 따라서 전자 칠판과 같은 특수 목적용으로 사용하기에 적합하다. 아울러 전자 칠판과 같은 특화성이 있는 AI 기능에서는 타 서비스 대비 빈번하고 많은 신호 요청이 있으므로 이를 처리하는 전용 S/W를 설치함으로써 보다 적은 리소스를 소비할 수 있다. 타 통신사 사용시 적용이 불가하다는 한계점도 없으므로 통신사 여부를 신경쓰지 않아도 되며, 통신사의 AI 서버가 다운되거나 하는 예외 상황도 고려할 필요가 없어지게 된다.
그리고 한국어가 아닌 외국어 기반의 해외 수출용으로도 사용하기에도 필요에 따라 수출 국가별 맞춤 서비스로 개발할 수 있고 전자 칠판 전용 AI 특화 기능으로 개발, 유지, 보수가 가능하여 타 국가의 AI와 호환이 가능해진다.
도 3과 같이 클라우드 서비스(330)를 이용할때 제어부는 명령어 해석부에서 해석된 명령어에 따라 외부 클라우드 서버로 통신을 연결하고, SaaS(Software as a Service) 기반의 클라우드 데이터를 쿼리(query) 검색하여 전자 칠판의 화면에 해당 컨텐츠를 표시해 줄 수 있다.
한편, 최근 클라우드 서비스가 대중화되면서 다양한 클라우드 서비스 제공 업체가 등장하고 있다. 클라우드 플랫폼에서는 다양한 형태의 서비스 제공이 가능하며, 이 가운데 스토리지 기반의 클라우드 서비스가 가장 널리 사용되는 서비스 유형으로 향후에도 지속적으로 시장이 확대될 것으로 보인다. 현재 많은 클라우드 스토리지 환경에서는 클라우드 환경의 특성상 대용량의 스토리지 서버관리를 위해 기존 데이터와 동일한 데이터는 저장하지 않는 중복제거 기능을 적용하고 있는데, 중복제거 기술을 사용하면 구조적으로 프라이버시 문제를 안게 된다.
즉, 중복제거 기술이 적용되려면, 사용자와 파일의 매핑구조를 메타정보로 저장하게 되며, 이 과정에서 서버상의 메타 분석을 통하여 특정 파일을 업로드한 사용자의 리스트를 확보할 수 있기 때문이다.
또한, 빅데이터 기술이 발달되면서 특정 개인이나 장치의 위치정보를 추적하는 기술도 중요해지고 있다. 개인이나 장치의 특정한 위치 정보는 GPS 좌표 정보인 위도 및 경도로 표현 가능하다. 위치추적정보를 활용하는 어플리케이션의 경우 지도 정보에 매칭하여 특정 개인의 시간별 이동 경로를 쉽게 출력할 수 있다. 하지만 위치추적기능을 제공하는 이러한 어플리케이션이 위치정보를 지속적으로 보관하는 경우 심각한 프라이버시 침해 문제가 발생할 수 있다.
이때 사용할 수 있는 보안 기법으로서 K-익명성 모델 및 데이터 교란화를 이용하여 해쉬함수값인 Q값은 수학식 1에 의하여 산출될 수 있다. K-익명화를 위해 미리 설정된 k값(ex. k=3)을 기초로 시간 정보에 대한 HMAC 값인 Q값들을 산출할 수 있다.
<수학식 1>
Figure PCTKR2021008996-appb-I000002
(HMAC는 해시 기반 메시지 인증 코드 Hash-based Message Authentication Code 알고리즘이며, TS는 시간 정보의 타임스탬프 정보이며, K_CNT는 k값이 기초한 카운트 숫자이며, PK는 사전에 공유된 비밀키 정보이다)
K-익명성은 데이터 비식별화의 프라이버시 보호 모델 중 하나로 특정 단일 데이터만 저장할 경우 개인의 식별 가능성의 위험이 있으므로 데이터 저장시 k값 이상의 데이터를 동시에 저장하여 식별 가능성을 낮추는 방식이다. 예를 들어, k가 3이라면 IoT 데이터 1개를 저장할 때 동시에 3 개의 데이터를 저장한다. 이 때, 한 개의 데이터는 실제 데이터이고 나머지 두 개의 데이터는 가상의 모조 데이터가 된다. 이때 인가된 관리자 등에 사전 공유된 비밀키에 해당하는 PK를 알고 있어야 어느 것이 진짜 데이터인지 파악할 수 있게 된다.
TS는 타임스탬프(Time Stamp)를 의미하며 위에서 언급한 바와 같이 미리 설정된 주기로 데이터가 입력되는 경우 데이터가 입력되는 특정 시각을 의미하거나 IoT 데이터가 발생한 시간을 의미한다. K_CNT는 미리 설정된 k값에 따라서 카운트되는 숫자에 해당하며 예를 들어, k가 3인 경우 K_CNT 값은 1, 2, 3 값을 가지게 된다. 이때, K_CNT 값이 1일 경우 원본 데이터이고, 2나 3일 경우에는 가짜(모조) 데이터로 취급할 수 있다.
상기 수학식 1에서와 같이 PK 정보를 기초로 특정 타임스탬프(TS) 정보를 HMAC 알고리즘을 이용하여 문자형 데이터의 Q값으로 변환시킴과 동시에 k개의 K_CNT 값에 해당하는 출력값을 모두 계산하여 k개의 Q값을 산출할 수 있다. 이러한 방식으로 저장되는 데이터베이스에는 시간 정보는 포함되지 않으며, k개의 Q값들만이 저장된다. 따라서, 데이터베이스가 해킹이 되는 경우에도 시간 정보는 노출되지 않고, Q값 정보들이 해킹된다고 하더라도 비밀키(PK) 정보를 모르는 경우 어떤 값들이 원본 데이터인지 알 수가 없어 원본 데이터에 대한 해킹이 실질적으로 불가능하게 된다.
도 4는 본 발명의 일 실시예로 전자 칠판에서 사용자의 터치입력 또는 음성 입력(400, 410) 정보를 처리하여 인공지능(AI) 기반의 클라우드 검색(450) 또는 제어 기능(480, 490)을 수행하는 플로우 차트를 나타낸 도면이다.
도 4를 참조하면, 먼저 터치입력 또는 음성입력의 입력(400)이 있을 이를 판단하여(410), 음성 신호의 입력일 때는 전자 칠판 내부에 구비된 음성 인식 엔진이 아날로그 신호인 음성 신호를 디지털 신호인 텍스트 신호로 변환(speech to text)한다(420).
그런 다음 변환된 텍스트 데이터를 해석함에 있어서(430) 기계학습을 통해 기존의 해석했던 데이터, 기존의 분류했던 음성 신호 등을 데이터베이스에서 불러와 반복 비교함으로써 시간이 지나고 처리하는 데이터양이 많아질수록 보다 정교한 해석이 가능해진다. 이렇게 인공지능 기반의 학습 및 해석을 이용하여 음성 인식률을 90% 이상으로 높일 수 있으며, 음성 인식에 따른 동작을 기능구현 할 수 있다.
다음으로 해석된 명령어(command)가 클라우드 서비스를 이용하는 인터넷 검색과 같은 요청인지 아니면 기기를 제어하는 요청인지를 판단하여(440), 인터넷 검색의 요청의 경우에는(450) 해당 검색 결과인 컨텐츠 화면을 전자 칠판에 표시할 수 있다(460).
또는 기기를 제어하는 요청인 경우에는(470) 전자 칠판의 내부 기능(전원, 볼륨, 화면, 소스 등)을 제어하는 명령인지 아니면 유무선으로 연결된 외부 기기의 제어기능(램프, 커튼, 도어락, 다른 전자 칠판 등)을 수행하고자 하는 명령인지에 따라 외부기기를 제어하거나(480) 전자 칠판의 내부기능을 실행한다(490).
한편, 외부 음원을 발화한 사용자를 인증하는 방법으로 아래와 같은 단계를 거칠 수 있다.
먼저, 사용자의 로그인 환경정보를 추출한다. 사용자의 로그인 환경정보는 사용자가 인터넷 사이트 로그인 시 IP 대역과 사용자 에이전트(User-Agent)가 될 수 있다. 다음으로, 추출된 로그인 환경정보를 One-Hot-Encoding 방식으로 변환하여 변환정보를 생성하여 환경정보 별로 고유한 값들에 1부터 번호를 부여하여 라벨 인코딩(Label Encoding)한다.
다음으로, 변환 정보를 SVM(Support Vector Machine)을 이용하여 2-클래스 사용자 모델을 생성한다. SVM(Support Vector Machine)은 기계 학습 알고리즘 중 하나로 패턴 인식에 주로 사용된다.
SVM(Support Vector Machine)은 두 카테고리 중 어느 하나에 속한 데이터의 집합이 주어졌을 때, 주어진 데이터 집합을 바탕으로 하여 새로운 데이터가 어느 카테고리에 속할지 판단하는 비확률적 이진 선형 분류 모델을 만든다. 상기 사용자 인증 방법에서는 시스템 전체 사용자의 변환 정보를 SVM을 이용하여 2-클래스 사용자 모델을 생성하고, 사용자가 로그인 시 2-클래스 사용자 모델을 적용하여 사용자가 본인지 여부를 판단한다. 따라서, 부정 사용자가 원 소유자의 아이디와 비밀번호를 도용하여 IoT 주변기기 또는 인터넷 사이트를 로그인 할 경우에 적발하여 접속 거부할 수 있어 보안을 향상시킬 수 있다.
본 발명은 상기한 특정의 바람직한 실시예에 한정되지 아니하며 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고 그와 같은 변경은 청구범위 기재의 범위 내에 있게 되는 것은 자명하다 할 것이다.

Claims (9)

  1. 터치 인식이 가능한 패널부와 상기 패널부가 터치되는 경우에 터치 방식을 판별하여 터치 방식에 따른 터치인식을 수행하는 센서부를 포함하는 전자 칠판에 있어서,
    외부의 음원으로부터 음성 신호를 입력받아 음원을 분리하고 노이즈를 제거하는 마이크 어레이;
    상기 마이크 어레이로부터 노이즈가 제거된 아날로그 신호인 음성 신호를 전달받아 텍스트 신호인 디지털 데이터로 변환하는 음성 인식 엔진;
    상기 전달받은 음성 신호 및 변환된 텍스트 신호를 반복하여 저장하는 데이터베이스;
    상기 음성인식 엔진으로부터 변환된 텍스트 신호를 입력받아 상기 데이터베이스를 이용하여 기계학습을 통해 명령어로 해석하는 명령어 해석부;
    상기 해석된 명령어에 따라 외부 클라우드 서비스로 쿼리검색 또는 내외부 제어기능을 수행하는 제어부를 포함하는 전자 칠판 시스템.
  2. 청구항 1에 있어서,
    상기 명령어 해석부에서 해석된 명령어를 내부의 명령어 리스트와 비교하여 상기 음성 신호의 패턴을 검색하는 음성 패턴 매칭부를 더 포함하며,
    상기 음성 패턴 매칭부는 최초 슬립 모드에서 소정의 음성 패턴에 의해 상기 음성 인식 엔진을 웨이크업 모드로 변화시키는 내부 제어 신호를 상기 제어부로 보내는 것을 특징으로 하는 전자 칠판 시스템.
  3. 청구항 2에 있어서,
    상기 마이크 어레이는 복수의 마이크를 이용하여 이득 보상 또는 에코 제거를 통해 왜곡된 상기 음성 신호를 보상하는 음향 모델 기계학습을 수행하는 것을 특징으로 하는 전자 칠판 시스템.
  4. 청구항 2에 있어서,
    상기 제어부는 상기 해석된 명령어에 따라 외부 클라우드 서버로 통신을 연결하고, SaaS 기반의 클라우드 데이터를 쿼리 검색하여 상기 전자 칠판에 표시하는 것을 특징으로 하는 전자 칠판 시스템.
  5. 청구항 4에 있어서,
    상기 제어부는 상기 해석된 명령어에 따라 상기 전자 칠판의 기기 내부의 제어 기능을 수행하거나 상기 명령어에 따라 상기 전자 칠판과 유무선으로 연결된 외부 주변 기기들의 제어 기능을 수행하는 것을 특징으로 하는 전자 칠판 시스템.
  6. 청구항 5에 있어서,
    상기 연결된 외부 주변 기기들의 제어 기능을 수행하는 경우,
    최적 루트 추천 AI 알고리즘을 통해 상기 제어 기능을 수행하며,
    상기 알고리즘은 데이터 수집 모듈이 데이터 셋을 입력 받는 데이터 수집 단계, 전처리 모듈이 상기 입력된 데이터 셋을 전처리 하는 전처리 단계, ANN(Artificial Neural Network)의 머신 러닝을 통하여 구성된 예측 모듈이 상기 전처리된 데이터 셋을 예측 알고리즘에 적용하는 예측 계산 단계, 최적화 모듈이 목적 함수에 따라 예측 모델과 제약 조건을 사용하여 최적 루트를 찾는 최적 루트 추천 단계로 이루어지는 것을 특징으로 하는 전자 칠판 시스템.
  7. 청구항 1에 있어서,
    상기 음성 신호 및 변환된 텍스트 신호는
    각각의 원본 신호의 데이터와 k-1개의 모사 데이터를 이용하여,
    상기 데이터의 발생 시간인 타임스탬프에 근거하여 해쉬함수 프로세스를 처리한 결과값에 따라 데이터베이스를 저장함으로써 상기 외부의 음원을 발화한 사용자의 프라이버시를 보호하는 것을 특징으로 하는 전자 칠판 시스템.
  8. 청구항 7에 있어서,
    상기 해쉬함수는 Hash-based Message Authentication Code 알고리즘(HMAC)을 이용하며, 아래 수학식 1에 의해 결과값 Q가 생성되는 것을 특징으로 하는 전자 칠판 시스템.
    <수학식 1>
    Figure PCTKR2021008996-appb-I000003
    (TS는 타임스탬프 정보이며, K_CNT는 상기 k값에 기초한 카운트 숫자이며, PK는 사전에 공유된 비밀키 정보)
  9. 청구항 7에 있어서,
    상기 시스템은 상기 외부의 음원을 발화한 사용자가 상기 시스템에 로그인 하는 환경정보인 IP 대역 또는 사용자 에이전트(user-agent)가 변환된 변환정보를 이진 선형 분류 모델인 서포트 벡터 머신(Support Vector Machine)을 이용하여 2-클래스 사용자 모델을 생성함으로써 상기 사용자가 본인인지 여부를 판단하는 것을 특징으로 하는 전자 칠판 시스템.
PCT/KR2021/008996 2020-11-24 2021-07-13 클라우드 환경에서 음성 인식을 통하여 인공지능 제어기술을 수행하는 전자 칠판 시스템 WO2022114437A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2020-0159287 2020-11-24
KR1020200159287A KR102262989B1 (ko) 2020-11-24 2020-11-24 클라우드 환경에서 음성 인식을 통하여 인공지능 제어기술을 수행하는 전자 칠판 시스템

Publications (1)

Publication Number Publication Date
WO2022114437A1 true WO2022114437A1 (ko) 2022-06-02

Family

ID=76378278

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/008996 WO2022114437A1 (ko) 2020-11-24 2021-07-13 클라우드 환경에서 음성 인식을 통하여 인공지능 제어기술을 수행하는 전자 칠판 시스템

Country Status (2)

Country Link
KR (1) KR102262989B1 (ko)
WO (1) WO2022114437A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102262989B1 (ko) * 2020-11-24 2021-06-10 주식회사 아하정보통신 클라우드 환경에서 음성 인식을 통하여 인공지능 제어기술을 수행하는 전자 칠판 시스템
KR102446970B1 (ko) * 2021-09-03 2022-09-23 (주) 아하 클라우드 환경에서 인공지능 제어기술을 수행하며 자체 살균기능을 포함하는 전자 교탁 시스템
KR102510097B1 (ko) * 2022-11-15 2023-03-14 (주) 아하 Pcap 및 emr 융합터치센서가 부착된 전자칠판

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008509432A (ja) * 2004-08-04 2008-03-27 セルマックス システムズ リミテッド 音声パラメータに基づきユーザアクセスを検証及び可能にする方法及びシステム
KR20140079697A (ko) * 2012-12-17 2014-06-27 삼성전자주식회사 토폴로지에 기초한 주변 기기 제어 시스템 및 방법
KR20170133989A (ko) * 2016-05-27 2017-12-06 (주) 엔피홀딩스 음성 인식 기능을 구비한 전자칠판 및 전자칠판시스템, 이를 이용한 전자칠판의 모드 변환 방법
JP2020027956A (ja) * 2018-08-09 2020-02-20 株式会社Jvcケンウッド 処理装置
KR20200034430A (ko) * 2018-09-21 2020-03-31 삼성전자주식회사 전자 장치, 시스템 및 음성 인식 서비스 이용 방법
KR102262989B1 (ko) * 2020-11-24 2021-06-10 주식회사 아하정보통신 클라우드 환경에서 음성 인식을 통하여 인공지능 제어기술을 수행하는 전자 칠판 시스템

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008509432A (ja) * 2004-08-04 2008-03-27 セルマックス システムズ リミテッド 音声パラメータに基づきユーザアクセスを検証及び可能にする方法及びシステム
KR20140079697A (ko) * 2012-12-17 2014-06-27 삼성전자주식회사 토폴로지에 기초한 주변 기기 제어 시스템 및 방법
KR20170133989A (ko) * 2016-05-27 2017-12-06 (주) 엔피홀딩스 음성 인식 기능을 구비한 전자칠판 및 전자칠판시스템, 이를 이용한 전자칠판의 모드 변환 방법
JP2020027956A (ja) * 2018-08-09 2020-02-20 株式会社Jvcケンウッド 処理装置
KR20200034430A (ko) * 2018-09-21 2020-03-31 삼성전자주식회사 전자 장치, 시스템 및 음성 인식 서비스 이용 방법
KR102262989B1 (ko) * 2020-11-24 2021-06-10 주식회사 아하정보통신 클라우드 환경에서 음성 인식을 통하여 인공지능 제어기술을 수행하는 전자 칠판 시스템

Also Published As

Publication number Publication date
KR102262989B1 (ko) 2021-06-10

Similar Documents

Publication Publication Date Title
WO2022114437A1 (ko) 클라우드 환경에서 음성 인식을 통하여 인공지능 제어기술을 수행하는 전자 칠판 시스템
KR20190077088A (ko) 성문 구축 및 등록 방법 및 그 장치
CN107277153A (zh) 用于提供语音服务的方法、装置和服务器
WO2016080713A1 (ko) 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법
CN109961792A (zh) 用于识别语音的方法和装置
WO2018208026A1 (ko) 수신된 음성 입력의 입력 음량에 기반하여 출력될 소리의 출력 음량을 조절하는 사용자 명령 처리 방법 및 시스템
WO2022114438A1 (ko) 블록체인을 이용한 사물인터넷 기반의 원격 제어 가능한 전자 칠판 시스템
WO2018212470A1 (ko) 음성요청에 대응하는 정보 제공을 위한 미디어 선택
WO2020055071A1 (en) System and method for dynamic trend clustering
CN109448727A (zh) 语音交互方法以及装置
Tiwari et al. Virtual home assistant for voice based controlling and scheduling with short speech speaker identification
CN111159338A (zh) 一种恶意文本的检测方法、装置、电子设备及存储介质
WO2023128342A1 (ko) 동형 암호화된 음성을 이용한 개인 식별 방법 및 시스템
WO2021251539A1 (ko) 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치
CN115273840A (zh) 语音交互设备和语音交互方法
EP3555883A1 (en) Security enhanced speech recognition method and device
WO2020138608A1 (ko) 복수의 챗봇을 이용한 질의 응답 방법 및 장치
KR20210031141A (ko) 음성 인식을 통하여 인공지능 제어기술을 수행하는 전자 칠판
WO2022270840A1 (ko) 외국어 학습자의 어휘 실력 예측과 향상을 위한 딥러닝 기반의 단어 추천 시스템
WO2023003262A1 (ko) 시험 점수를 예측하는 방법 및 장치
WO2016163565A1 (ko) 멀티모달 다중 에이전트 기반의 감정 통신 시스템
WO2015102279A1 (ko) 인터넷 환경에서의 사용자 보안 인증 시스템 및 그 방법
AU3110602A (en) Access control for interactive learning system
CN113918916A (zh) 数据迁移方法、终端设备及可读存储介质
KR102446970B1 (ko) 클라우드 환경에서 인공지능 제어기술을 수행하며 자체 살균기능을 포함하는 전자 교탁 시스템

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21898266

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21898266

Country of ref document: EP

Kind code of ref document: A1