WO2019216585A1 - 음성인식 기반 인공지능형 안심 서비스 제공 방법 - Google Patents

음성인식 기반 인공지능형 안심 서비스 제공 방법 Download PDF

Info

Publication number
WO2019216585A1
WO2019216585A1 PCT/KR2019/005109 KR2019005109W WO2019216585A1 WO 2019216585 A1 WO2019216585 A1 WO 2019216585A1 KR 2019005109 W KR2019005109 W KR 2019005109W WO 2019216585 A1 WO2019216585 A1 WO 2019216585A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
service providing
user
user terminal
providing server
Prior art date
Application number
PCT/KR2019/005109
Other languages
English (en)
French (fr)
Inventor
이정오
Original Assignee
Lee Jung O
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lee Jung O filed Critical Lee Jung O
Publication of WO2019216585A1 publication Critical patent/WO2019216585A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B25/00Alarm systems in which the location of the alarm condition is signalled to a central station, e.g. fire or police telegraphic systems
    • G08B25/14Central alarm receiver or annunciator arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Definitions

  • the present invention relates to a voice recognition-based artificial intelligence reliable service providing method, and provides a method for transmitting a rescue request through the voice recognition driven in the background mode.
  • Korean Patent Registration No. 10-1723122 (June 23, 2017), which is related to a smart phone and a near field, has been developed.
  • the system automatically provides a notification service to a control center such as a police station, a fire station, or a pre-input MDN in response to a user's voice.
  • a control center such as a police station, a fire station, or a pre-input MDN in response to a user's voice.
  • An alarm system and method are disclosed for transmitting a danger signal to a local rescue center through a terminal when an emergency occurs to enable rapid response from an emergency.
  • An embodiment of the present invention operates in a background mode based on voice recognition so that an alarm can be generated without a screen touch when the screen is turned off, and the voice is learned to customize the speech or vocabulary even if the correct word is not spoken.
  • the vocabulary dictionary By using the vocabulary dictionary, it is possible to accurately detect the structural situation, and it can recognize the danger signal with the voice recognition without the user's separate operation and send the message, thereby providing the realistic and practical safe return service. It can provide a method for providing an artificial intelligence-based reliable service.
  • the technical problem to be achieved by the present embodiment is not limited to the technical problem as described above, and other technical problems may exist.
  • an embodiment of the present invention the step of receiving a voice from the user via the voice input interface, storing the input voice and the user's voice in the background mode (Background mode) Monitoring, transmitting a rescue request event to a reliable service providing server interworking with a user terminal when the user's voice matches a pre-stored voice and satisfies a pre-stored condition; Performing streaming or video recording until a corresponding input exists, and streaming the data to a service providing server in real time in real time.
  • background mode Background mode
  • any one of the problem solving means of the present invention described above operates in a background mode based on voice recognition so that an alarm can be generated without a screen touch when the screen is turned off, and even though the speaker does not speak the correct word by learning the voice.
  • a vocabulary dictionary tailored to the tone and vocabulary of the user it is possible to accurately detect the structural situation and provide a realistic and practical safe return service by allowing users to send a message by recognizing a danger signal even without voice recognition. can do.
  • FIG. 1 is a view for explaining a voice recognition-based intelligent security service providing system according to an embodiment of the present invention.
  • FIG. 2 is a block diagram illustrating a user terminal included in the system of FIG. 1.
  • FIG. 3 is a view for explaining an embodiment of the voice recognition-based artificial intelligence security service according to an embodiment of the present invention.
  • FIG. 4 is a diagram illustrating a process of transmitting and receiving data between components included in the voice recognition-based intelligent security service providing system of FIG. 1 according to an exemplary embodiment of the present invention.
  • FIG. 5 is a flowchart illustrating a method of providing a voice recognition-based artificial intelligence safe service according to an embodiment of the present invention.
  • the term 'unit' includes a unit realized by hardware, a unit realized by software, and a unit realized by both.
  • one unit may be realized using two or more pieces of hardware, or two or more units may be realized by one piece of hardware.
  • Some of the operations or functions described as being performed by the terminal, the apparatus, or the device may be performed instead in the server connected to the terminal, the apparatus, or the device.
  • some of the operations or functions described as being performed by the server may be performed by the terminal, apparatus or device connected to the server.
  • mapping or matching with a terminal mean that a unique number of a terminal or identification information of an individual, which is identification data of the terminal, is mapped or matched. Can be interpreted as
  • the voice recognition-based intelligent security service providing system 1 may include a user terminal 100, a security service providing server 300, at least one structure terminal 400, and a CCTV 500. Can be. However, since the voice recognition-based intelligent security service providing system 1 of FIG. 1 is only one embodiment of the present invention, the present invention is not limitedly interpreted through FIG. 1.
  • each component of FIG. 1 is generally connected through a network 200.
  • the user terminal 100 may be connected to the security service providing server 300 through the network 200.
  • the security service providing server 300 may be connected to the user terminal 100, the at least one structural terminal 400, and the CCTV 500 through the network 200.
  • the at least one rescue terminal 400 may be connected to the reliable service providing server 300 through the network 200.
  • the CCTV 500 may be connected to the user terminal 100, the relief service providing server 300, and the at least one structure terminal 400 through the network 200.
  • the network refers to a connection structure capable of exchanging information between respective nodes such as a plurality of terminals and servers.
  • a network examples include RF, 3rd Generation Partnership Project (3GPP) network, and long term (LTE).
  • Evolution network 5th Generation Partnership Project (5GPP) network, World Interoperability for Microwave Access (WIMAX) network, Internet, Local Area Network (LAN), Wireless Local Area Network (WLAN), Wide Area Network (WAN) , PAN (Personal Area Network), Bluetooth (Bluetooth) network, NFC network, satellite broadcasting network, analog broadcasting network, DMB (Digital Multimedia Broadcasting) network and the like, but is not limited thereto.
  • 5GPP 3rd Generation Partnership Project
  • 5GPP Fifth Generation Partnership Project
  • WWX World Interoperability for Microwave Access
  • WLAN Local Area Network
  • WAN Wide Area Network
  • PAN Personal Area Network
  • Bluetooth Bluetooth
  • NFC satellite broadcasting network
  • analog broadcasting network analog broadcasting network
  • DMB Digital Multimedia Broadcasting
  • the term “at least one” is defined as a singular and plural term, and each component may exist in the singular or plural, even though the term “at least one” does not exist, and may mean the singular or plural. It will be self explanatory. In addition, the singular or plural elements may be changed according to embodiments.
  • the user terminal 100 may be a terminal of a user who requests a rescue using a web page, an app page, a program, or an application related to voice recognition-based artificial intelligence safe service.
  • the user terminal 100 may be a terminal that recognizes a voice, a pattern, a motion, a touch, etc. collected from the wearable device in association with the wearable device or analyzes a voice signal received or input to the user terminal 100.
  • the analysis or learning process after speech recognition may be executed by the relief service providing server 300, but may vary depending on the embodiment.
  • the user terminal 100 may be a terminal that collects a voice and extracts and learns a feature after preprocessing.
  • the user terminal 100 determines whether the voice of the user is satisfied or satisfies a predetermined condition, and transmits the rescue request to the relief service providing server 300 in real time. And a terminal for streaming the content being photographed, and a terminal for selectively selecting recording or capturing according to battery conditions or illuminance.
  • the user terminal 100 may be a terminal that allows the rescue terminal 400 to share a real-time situation by transmitting a shooting and rescue signal.
  • the user terminal 100 may be a terminal for monitoring whether the voice for the rescue request is not recognized while monitoring in the background mode even when the screen is turned off.
  • the user terminal 100 may be a terminal that enables the position of the terminal to be identified by RSSI, triangulation, and the like.
  • the user terminal 100 may be implemented as a computer that can access a server or a terminal in a remote place through a network.
  • the computer may include, for example, a navigation, a laptop equipped with a web browser, a desktop, a laptop, and the like.
  • the user terminal 100 may be implemented as a terminal that can access a server or terminal in a remote place through a network.
  • the user terminal 100 is, for example, a wireless communication device that ensures portability and mobility, and includes a navigation, a personal communication system (PCS), a global system for mobile communications (GSM), a personal digital cellular (PDC), and a personal PHS (PHS).
  • PCS personal communication system
  • GSM global system for mobile communications
  • PDC personal digital cellular
  • PHS personal PHS
  • PDA Personal Digital Assistant
  • IMT International Mobile Telecommunication
  • CDMA Code Division Multiple Access
  • W-CDMA W-Code Division Multiple Access
  • WBRO Wireless Broadband Internet
  • the relief service providing server 300 may be a server providing a voice recognition-based artificial intelligence-safe service web page, an app page, a program, or an application.
  • the security service providing server 300 registers the user terminal 100, performs preprocessing, feature extraction, and learning on the voice signal input from the user terminal 100, and combines the structured word database previously stored in the user. It may be a server for transmitting to the terminal 100.
  • the relief service providing server 300 when a rescue request is received from the user terminal 100, the object tracking to at least one CCTV (500) existing within a predetermined radius around the position of the user terminal 100.
  • the relief service providing server 300 may be a server for controlling to use the emergency power by forcibly rebooting to minimize the use of power.
  • the service providing server 300 may be a server that collects the RSSI, estimates the location of the user by triangulation, etc., and transmits the location to the rescue terminal 400. .
  • the security service providing server 300 may be implemented as a computer that can be connected to a server or a terminal in a remote place through a network.
  • the computer may include, for example, a navigation, a laptop equipped with a web browser, a desktop, a laptop, and the like.
  • the at least one rescue terminal 400 may be a rescuer's terminal using a web page, an app page, a program, or an application related to voice recognition-based artificial intelligence safe service. And, if there is a rescue request from the relief service providing server 300, the at least one rescue terminal 400 outputs the location collected from the CCTV 500 and the relief service providing server 300, to the location The terminal may start the automatic route guidance.
  • the at least one structure terminal 400 may be implemented as a computer that can access a server or a terminal in a remote place through a network.
  • the computer may include, for example, a navigation, a laptop equipped with a web browser, a desktop, a laptop, and the like.
  • the at least one structure terminal 400 may be implemented as a terminal that can access a server or terminal in a remote place through a network.
  • the at least one structure terminal 400 is, for example, a wireless communication device that ensures portability and mobility, and includes, for example, navigation, a personal communication system (PCS), a global system for mobile communications (GSM), a personal digital cellular (PDC), Personal Handyphone System (PHS), Personal Digital Assistant (PDA), International Mobile Telecommunication (IMT) -2000, Code Division Multiple Access (CDMA) -2000, W-Code Division Multiple Access (W-CDMA), Wireless Broadband Internet
  • PCS personal communication system
  • GSM global system for mobile communications
  • PDC personal digital cellular
  • PHS Personal Handyphone System
  • PDA Personal Digital Assistant
  • IMT International Mobile Telecommunication
  • CDMA Code Division Multiple Access
  • W-CDMA Wideband Internet
  • a handheld-based wireless communication device such as a terminal, a smartphone, a smart pad, a tablet PC, etc. may be included.
  • the CCTV 500 may be a photographing apparatus capable of IoT-based object tracking.
  • the CCTV 500 may be a device for automatically identifying and tracking a person who is photographed and rescued by a rescue request signal generated from the user terminal 100.
  • the CCTV 500 may be a device that provides a video recorded in real time to the reliable service providing server 300, the unmanned aerial vehicle (not shown) to fly to the position of the tracked object to perform close-up shooting and alarm output. have.
  • FIG. 2 is a block diagram illustrating a user terminal included in the system of FIG. 1
  • FIG. 3 is a diagram illustrating an embodiment in which a voice recognition based artificial intelligence reliable service according to an embodiment of the present invention is implemented. to be.
  • the user terminal 100 includes an input unit 110, a monitoring unit 120, a transmission unit 130, a streaming unit 140, a shooting request unit 150, and a non-voice support unit 160. It may include.
  • the user terminal 100 and the at least one rescue terminal 400 may use a voice recognition-based artificial intelligence secure service application, a program, an app page, a web page, and the like. Can install or open.
  • the service program may be driven in the user terminal 100 and at least one rescue terminal 400 using a script executed in a web browser.
  • the web browser is a program that enables the use of the World Wide Web (WWW) service, and refers to a program that receives and displays hypertext described in HTML (hyper text mark-up language), for example, Netscape. , Explorer, chrome and the like.
  • an application means an application on a terminal, and includes, for example, an app running on a mobile terminal (smartphone).
  • the input unit 110 may receive a voice from a user through a voice input interface.
  • the voice feature extracted from the user may be extracted, the extracted feature may be learned, classified, and stored.
  • the computing resource of the user terminal 100 does not satisfy the preset specification, the learning and classification process may proceed in the secure service providing server 300, but is not limited thereto.
  • a speech recognition method using a neural network can be used. Through the learning process of the neural network, the error is minimized by changing the weight connecting neurons from the input layer to the intermediate layer or the intermediate layer to the output layer.
  • the speech recognition process may be performed to classify new input data, and the speech recognition may be performed using a neural network using an error backpropagation learning algorithm.
  • the neural network can classify the feature through the learning process of the neural network by extracting the speaker's feature data input from the outside, and the neural network can classify the feature by the difference of the input feature data spoken by the speaker. Since the error can be minimized, an excellent pattern recognition processing structure can be provided.
  • the monitoring unit 120 may store the input voice and monitor the user's voice in a background mode.
  • an Android app consists of activities, services, broadcast receivers, and content provider components, which provide a user-facing UI on the screen, a service running in the background without a screen, and interacting with the user. Do not.
  • a system or app When a system or app generates a broadcast, which is a kind of event, the receiver performs the actions defined for that broadcast, and the provider provides an interface for other apps to access the app's data.
  • the app runs in a Linux process, and the process has eight states based on the app's components and behavior.
  • Foreground is the state of the app that is visible on the screen, visible is the state of the app that is visible on the screen, but is obscured, perceptible is the state of the app that is not visible on the screen, but is recognizable, like a music app
  • Home is the state of a home or launcher app running in the background
  • services A and B have service components
  • the state of the app in the background previous is the state of the app in the background
  • Cached represents the state of a background app that does not correspond to the previous state. Apps in all states except foreground are classified as background apps, and when a process runs out of memory, the app terminates the app through the app's exit priority to free up memory. If not, it is changed to a higher end priority value.
  • the monitoring according to an embodiment of the present invention may not terminate even if the termination priority is selected as the highest app, and in particular, detects the case of returning home alone or at night to terminate the remaining background modes of the available memory.
  • the termination priority is selected as the highest app, and in particular, detects the case of returning home alone or at night to terminate the remaining background modes of the available memory.
  • the transmitter 130 may transmit a rescue request event to the peace of mind service providing server 300 interoperating with the user terminal 100 when the voice of the user and the pre-stored voice match the pre-stored conditions as a result of the monitoring. have.
  • the streaming unit 140 may perform recording or video recording until there is an input corresponding to a pre-stored off condition, and stream the data to the secure service providing server 300 in real time.
  • the pre-stored condition may be a condition in which the word converted from the monitored voice into STT (Speaking To Text) matches the pre-stored word.
  • STT Peaking To Text
  • the words of the user may be customized by using words collected by call transmission or reception to the user terminal 100, or a database collected from the service providing server 300 may be used.
  • the pre-stored condition may be a condition in which the emotion of the monitored voice is recognized as an emotion tagged with anxiety and fear as a result of recognizing the emotion by extracting a feature from the monitored voice. That is, even if the learning is performed, if the correct word is not spoken or if the user fails to speak the word in confusion, a rescue request may be generated by recognizing the user's voice and extracting the emotion.
  • an emotion recognition model is generated using a machine learning algorithm based on the voice data collected from the user, and the voice-based emotion recognition modeling technology is used to generate the emotion recognition model.
  • Unique voice features can be considered.
  • an adaptive speech-based emotion recognition framework may be used to record emotions on the user's voice through feedback and model it based on the feedback in real time.
  • prompt labeling provides a universal model to the user and prompts the user to label whether the perceived emotion for the voice is appropriate for the user by displaying a notification message to the user through the smartphone GUI.
  • Techniques can be used. Labeled data can be applied to an adaptive modeling technique that deletes the data of the sentiment's label and adds the user's voice label in the existing general-purpose model.
  • emotion can be recognized using the unsupervised feature learning technique, which is to normalize the voice feature by receiving feedback from the user's voice data. By reducing numerical values with existing data, it is possible to recognize individual emotions.
  • personalized emotion recognition may be performed by a user directly evaluating the emotions detected based on the biosignal and generating a neutral band by rule-based the emotions.
  • a method of transmitting a rescue request by recognizing the offender's voice and identifying the offender's utterance word or tone may also be used. For example, it may be a word used by the abuser to go to a remote place or threaten the victim, such as "if you do it, die,” “walk only forward", and this is also built into big data and learned to the user terminal 100. Can be sent.
  • various methods may be used, without being limited to the above-described method.
  • the streaming unit 140 performs recording or video recording until there is an input corresponding to a pre-stored off condition, and streams the battery percentage of the user terminal 100 in real time to the streaming service providing server 300.
  • the recorded voice file may be compressed and may be streamed in real time to the security service providing server 300. If the user terminal 100 is present in a bag or pocket, the camera is driven without transmitting the screen and is transmitted through streaming, thereby not only consuming network resources and computing resources but also causing battery drain. have. Accordingly, only recording may be performed but compressed and streamed to minimize network resources or battery consumption.
  • the smartphone shuts down the smartphone when the voltage of the battery becomes lower than the cutoff. Below the cutoff voltage, there is a possibility that the smartphone does not operate normally. Even when the cutoff voltage is reached, the battery has available energy. The remaining battery capacity depends on the discharge current due to the voltage drop. As the current increases, the voltage of the battery drops, and when the discharge current increases, the cutoff voltage is reached early, and the available capacity decreases accordingly. For example, there is a lot of energy available to reach the cutoff voltage due to a small voltage drop, but almost all of the maximum available capacity can be utilized, but when the discharge current is high, a large voltage drop occurs and the cutoff voltage can be used. Energy is lowered to less than two thirds of the maximum available capacity.
  • the voltage drop can be modeled, the voltage drop can be accurately predicted by a simple calculation method, and the equations for predicting the voltage fluctuation such as voltage drop and recovery effect can be used in consideration of the characteristics of the battery. have. It can be based on the research to increase the available time of the battery in consideration of the characteristics of the battery in mobile devices, especially smart phones, and can also use the method of increasing the available time of the smartphone in consideration of the recovery effect of the battery in the network communication situation .
  • the shooting request unit 150 performs recording or video recording until the input corresponding to the structure-off condition previously stored in the streaming unit 140 performs streaming transmission to the service providing server 300 in real time, and then the user.
  • the at least one CCTV 500 existing within a preset radius of the terminal 100 may be searched for, and the shooting start signal and the rescue signal may be transmitted to the CCTV 500.
  • At least one CCTV 500 photographing a direction opposite to the user terminal 100 may be identified using the received location, and the image of the CCTV 500 may be streamed to the object tracking and rescue terminal 400.
  • tracking the location using only the GPS may not be accurate in consideration of the error range, and may increase the estimation and accuracy of the location of the user terminal 100 through WIFI or RSSI.
  • the CCTV 500 generally photographed only one direction, the user may be able to photograph the direction in which the user is located by adjusting the angle and focus by transmitting the user position.
  • the non-voice support unit 160 stores the voice input from the monitoring unit 120 and monitors the user's voice in the background mode, and then any one of the pre-stored rescue request motion patterns, buttons, and touches or When any one combination is input, the rescue request event is transmitted to the peace of mind service providing server 300 interworking with the user terminal 100, and recording or video recording is performed until an input corresponding to the pre-stored rescue off condition exists.
  • the streaming can be transmitted to the real-time service providing server 300 in real time. That is, the user may make a rescue request by shouting, but there may be a situation in which a person with a disability or a sound cannot be heard. Therefore, if a predetermined condition is satisfied, a rescue request may be sent. In this case, even when a wearable device (not shown) interoperating with the user terminal 100 exists, a rescue request may be sent when there is a motion, a pattern, a touch, a button input, or the like input to the wearable device.
  • a drone is an unmanned aerial vehicle (UAV) that can be controlled by radio wave guidance without a person boarding the main body of the machine. Since drones fly in the air with relatively few obstacles. Images are taken with Bird's Eye View, which is suitable for observing objects. Quadcopter drones are also free to turn and can fly to tighter areas, making it easier to spot moving targets. Accordingly, in one embodiment of the present invention, it is possible to provide a service for keeping the pedestrians safe at night utilizing this characteristic of the drone.
  • UAV unmanned aerial vehicle
  • a road guide may be performed.
  • the vehicle may move to a place where a pedestrian wants to return home and guide the road at an appropriate speed toward the input destination.
  • the lighting function maintains adequate lighting for pedestrians to feel stable and comfortable, and records the walking situation information with the built-in drone camera while returning home.
  • Emergency signal can be sent to guardian.
  • the hardware of a drone is composed of a motor, a battery, a propeller, a communication chip module, a near field communication module (Bluetooth, etc.).
  • the main board may include an internal camera, a communication module, and the like.
  • the navigation board may be composed of an acceleration sensor, a gyro sensor, an ultrasonic sensor, etc. used to measure flight status, and the posture maintenance of the drone may use a gyro sensor and an accelerometer mounted at the center, and output lights and alarms. Illumination autonomy and speakers can be installed.
  • the drone may secure a channel that can communicate with the user terminal 100 or the reliable service providing server 300.
  • the reliable service providing server 300 starts voice recognition from the user terminal 100 and learns similar words, derived words, and the like through the processes of preprocessing, feature extraction, and learning, and Learn speech and vocabulary and build databases.
  • the user terminal 100 Streams the video streamed or recorded in real-time voice to the reliable service providing server 300, the reliable service providing server 300 is quickly located by sharing the video, voice, location, etc. to the rescue terminal 400 You can get to know and arrive, and can provide automatic navigation (route guidance service) to the identified location.
  • the relief service providing server 300 transmits the object tracking shooting request to at least one CCTV (500) existing within a predetermined radius of the user terminal 100, if the corresponding object is detected rescue terminal (400) to increase the security and arrest rate of the offender. If the CCTV 500 does not exist or is not secured in the field of view of the CCTV 500, the assured service providing server 300 drives a drone to scare the offender through lighting control and sound control (police car siren sound generation). You can eat and run away. In addition, (e) when the illumination service providing server 300 is less than the preset reference value and the GPS is not secured to estimate the location of the user terminal 100 through the RSSI or WIFI strength, CCTV ( 500 may be implemented to enable object tracking.
  • FIG. 4 is a diagram illustrating a process of transmitting and receiving data between components included in the voice recognition-based intelligent security service providing system of FIG. 1 according to an exemplary embodiment of the present invention.
  • FIG. 4 an example of a process in which data is transmitted and received between each component will be described with reference to FIG. 4, but the present disclosure is not limited to the above-described embodiments, and is illustrated in FIG. 4 according to the various embodiments described above. It is apparent to those skilled in the art that the process of transmitting and receiving data may be changed.
  • the voice is input from the user terminal 100 (S4100), the received service is received (S4200), and the preprocessing-> feature extraction-> learning process (S4200).
  • S4300, the structure request word database (S4400) and the user's tone, that is, the learning result is integrated and transmits the structure request speech recognition algorithm or data to the user terminal (100) (S4500).
  • the learning process since the learning process is not performed at one time, it will be apparent that the user may continue to learn by collecting the user's tone, vocabulary, or voice.
  • the relief service providing server 300 starts monitoring in the user terminal 100, operates in the background mode (S4600, S4700), and when a rescue signal is transmitted in response to a predetermined condition (S4800).
  • S4810 transmits the voice, location, video, etc. are shared in real time to the rescue terminal 400 (S4820), by controlling the CCTV 500 located within a predetermined radius of the user terminal 100 or by transmitting a control signal To adjust the focus, angle, etc. for tracking the object (S4830).
  • the relief service providing server 300 when the shooting data is received from the CCTV 500 the information is shared to the rescue terminal 400 (S4840, S4850), the rescue off condition is satisfied in the user terminal 100 After checking whether the input is received (S4900), and monitoring the voice in the background mode again (S4910), the process returns to looping.
  • steps S4100 to S4910 are merely an example and the present invention is not limited thereto. That is, the order between the above-described steps (S4100 to S4910) may be interchanged, and some of the steps may be executed or deleted at the same time.
  • the security service providing server receives a voice from a user through a voice input interface (S5100), stores the input voice, and monitors the user's voice in a background mode (S5200).
  • S5100 voice input interface
  • S5200 background mode
  • the security service providing server if the user's voice and the pre-stored voice is consistent with the monitoring result, and satisfies the pre-stored conditions, and transmits the rescue request event to the security service providing server linked to the user terminal (S5300), Recording or video recording is performed until the input corresponding to the stored rescue-off condition exists, and the streaming is transmitted to the service providing server in real time (S5400).
  • the method of providing a voice recognition-based intelligent security service may also be implemented in the form of a recording medium including instructions executable by a computer such as an application or a program module executed by a computer.
  • Computer readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media.
  • Computer readable media may include all computer storage media.
  • Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.
  • an application basically installed in a terminal (which may include a program included in a platform or an operating system basically loaded in the terminal) may be used. It may be executed by an application (ie, a program) installed by the user directly on the master terminal through an application providing server such as an application store server, an application, or a web server associated with the corresponding service.
  • an application ie, a program
  • an application providing server such as an application store server, an application, or a web server associated with the corresponding service.
  • the above-described method for providing a voice recognition-based intelligent security service according to an embodiment of the present invention is implemented as an application (that is, a program) that is basically installed in a terminal or directly installed by a user, It can be recorded on a readable recording medium.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Business, Economics & Management (AREA)
  • Emergency Management (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • Alarm Systems (AREA)

Abstract

음성인식 기반 인공지능형 안심 서비스 제공 방법이 제공되며, 음성 입력 인터페이스를 통하여 사용자로부터 음성을 입력받는 단계, 입력된 음성을 저장하고 사용자의 음성을 백그라운드 모드(Background mode)로 모니터링하는 단계, 모니터링 결과 사용자의 음성과 기 저장된 음성이 일치하고, 기 저장된 조건을 만족하는 경우, 사용자 단말과 연동되는 안심 서비스 제공 서버로 구조요청 이벤트를 전송하는 단계, 및 기 저장된 구조오프 조건에 대응하는 입력이 존재할 때까지 녹음 또는 동영상 촬영을 실시하여 실시간으로 안심 서비스 제공 서버로 스트리밍 전송하는 단계를 포함한다.

Description

음성인식 기반 인공지능형 안심 서비스 제공 방법
본 발명은 음성인식 기반 인공지능형 안심 서비스 제공 방법에 관한 것으로, 백그라운드 모드로 구동되는 음성인식을 통하여 구조요청을 전송할 수 있는 방법을 제공한다.
최근 다양한 사건의 발생 빈도가 증가하고 있으며 이러한 범죄에 대한 예방 효과와 범죄 발생 시 검거율을 높이기 위해 스마트폰의 위치 기반 기술들로 사용자의 위치를 파악하여 안전귀가를 돕는 애플리케이션들이 개발되고 또 실생활에 적용되고 있지만, 귀가 중에는 여러 상황이 발생할 수 있고 사용자가 스마트폰을 조작하기 힘든 상황도 벌어질 수 있어 다양한 상황에서도 위험에 처해있음을 알릴 수 있는 방법이 필요하다.
이때, 위급상황 발생시 단말기를 통해 지역구조센터로 위험신호를 송신하는 방법이 개발되었는데, 이와 관련하여 선행기술인 한국등록특허 제10-1723122호(2017년06월23일 공고)에는, 스마트폰과 근거리 통신모듈을 탑재한 휴대 또는 차량에 설치 가능한 신호송수신기를 활용하여 위급 상황 발생 시 물리적 버튼을 누르거나 사용자의 목소리에 반응하여 자동으로 경찰서, 소방서 등 관제센터, 미리 입력된 MDN으로 알림서비스를 제공하여 위급상황으로부터 신속한 대처가 가능하도록 하는 위급 상황 발생시 단말기를 통해 지역구조센터로 위험신호를 송신하는 알람시스템 및 그 방법이 개시되어 있다.
다만, 현재 공개된 많은 종류의 안전한 귀가를 위한 애플리케이션은 실제로 사용하는데 있어서는 비현실적인 측면들이 많은데, 예를 들어 위급한 상황임에도 불구하고 어플리케이션을 직접 실행하고 버튼 터치 등 명령을 입력해야 하는 수동적인 시스템이 대부분이고, SOS 경보를 발생시키려면 화면을 켜고 버튼 터치를 해야 하고, 실제 위급상황에서는 정확히 버튼을 터치하기 어려울 뿐만 아니라, 스마트폰을 꺼내기도 힘든 상황이 존재하므로 다수의 공개된 애플리케이션은 실제 사용되는 예가 거의 없는 경우가 현 실정이고, 결국 무용지물인 경우가 대부분이다.
본 발명의 일 실시예는, 화면이 꺼진 상태에서 화면 터치 없이 경보를 발생시킬 수 있도록 음성인식기반으로 백그라운드 모드로 동작하고, 음성을 학습함으로써 정확한 단어를 발성하지 않을지라도 화자의 말투나 어휘에 맞춤화된 어휘사전을 이용하여 구조상황임을 정확하게 감지할 수 있고, 사용자의 별도의 조작없이도 음성인식만으로도 위험신호로 인지하여 메시지를 보낼 수 있음으로써, 현실적이고도 실용적인 안심 귀가 서비스를 제공할 수 있는, 음성인식 기반 인공지능형 안심 서비스 제공 방법을 제공할 수 있다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예는, 음성 입력 인터페이스를 통하여 사용자로부터 음성을 입력받는 단계, 입력된 음성을 저장하고 사용자의 음성을 백그라운드 모드(Background mode)로 모니터링하는 단계, 모니터링 결과 사용자의 음성과 기 저장된 음성이 일치하고, 기 저장된 조건을 만족하는 경우, 사용자 단말과 연동되는 안심 서비스 제공 서버로 구조요청 이벤트를 전송하는 단계, 및 기 저장된 구조오프 조건에 대응하는 입력이 존재할 때까지 녹음 또는 동영상 촬영을 실시하여 실시간으로 안심 서비스 제공 서버로 스트리밍 전송하는 단계를 포함한다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 화면이 꺼진 상태에서 화면 터치 없이 경보를 발생시킬 수 있도록 음성인식기반으로 백그라운드 모드로 동작하고, 음성을 학습함으로써 정확한 단어를 발성하지 않을지라도 화자의 말투나 어휘에 맞춤화된 어휘사전을 이용하여 구조상황임을 정확하게 감지할 수 있고, 사용자의 별도의 조작없이도 음성인식만으로도 위험신호로 인지하여 메시지를 보낼 수 있음으로써, 현실적이고도 실용적인 안심 귀가 서비스를 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 음성인식 기반 인공지능형 안심 서비스 제공 시스템을 설명하기 위한 도면이다.
도 2는 도 1의 시스템에 포함된 사용자 단말을 설명하기 위한 블록 구성도이다.
도 3은 본 발명의 일 실시예에 따른 음성인식 기반 인공지능형 안심 서비스가 구현된 일 실시예를 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 도 1의 음성인식 기반 인공지능형 안심 서비스 제공 시스템에 포함된 각 구성들 상호 간에 데이터가 송수신되는 과정을 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 음성인식 기반 인공지능형 안심 서비스 제공 방법을 설명하기 위한 동작 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
명세서 전체에서 사용되는 정도의 용어 "약", "실질적으로" 등은 언급된 의미에 고유한 제조 및 물질 허용오차가 제시될 때 그 수치에서 또는 그 수치에 근접한 의미로 사용되고, 본 발명의 이해를 돕기 위해 정확하거나 절대적인 수치가 언급된 개시 내용을 비양심적인 침해자가 부당하게 이용하는 것을 방지하기 위해 사용된다. 본 발명의 명세서 전체에서 사용되는 정도의 용어 "~(하는) 단계" 또는 "~의 단계"는 "~ 를 위한 단계"를 의미하지 않는다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1개의 유닛이 2개 이상의 하드웨어를 이용하여 실현되어도 되고, 2개 이상의 유닛이 1개의 하드웨어에 의해 실현되어도 된다.
본 명세서에 있어서 단말, 장치 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말, 장치 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말, 장치 또는 디바이스에서 수행될 수도 있다.
본 명세서에서 있어서, 단말과 매핑(Mapping) 또는 매칭(Matching)으로 기술된 동작이나 기능 중 일부는, 단말의 식별 정보(Identifying Data)인 단말기의 고유번호나 개인의 식별정보를 매핑 또는 매칭한다는 의미로 해석될 수 있다.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 음성인식 기반 인공지능형 안심 서비스 제공 시스템을 설명하기 위한 도면이다. 도 1을 참조하면, 음성인식 기반 인공지능형 안심 서비스 제공 시스템(1)은, 사용자 단말(100), 안심 서비스 제공 서버(300), 적어도 하나의 구조 단말(400), CCTV(500)를 포함할 수 있다. 다만, 이러한 도 1의 음성인식 기반 인공지능형 안심 서비스 제공 시스템(1)은, 본 발명의 일 실시예에 불과하므로, 도 1을 통하여 본 발명이 한정 해석되는 것은 아니다.
이때, 도 1의 각 구성요소들은 일반적으로 네트워크(network, 200)를 통해 연결된다. 예를 들어, 도 1에 도시된 바와 같이, 사용자 단말(100)은 네트워크(200)를 통하여 안심 서비스 제공 서버(300)와 연결될 수 있다. 그리고, 안심 서비스 제공 서버(300)는, 네트워크(200)를 통하여 사용자 단말(100), 적어도 하나의 구조 단말(400), CCTV(500)와 연결될 수 있다. 또한, 적어도 하나의 구조 단말(400)은, 네트워크(200)를 통하여 안심 서비스 제공 서버(300)와 연결될 수 있다. 그리고, CCTV(500)는, 네트워크(200)를 통하여 사용자 단말(100), 안심 서비스 제공 서버(300) 및 적어도 하나의 구조 단말(400)과 연결될 수 있다.
여기서, 네트워크는, 복수의 단말 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예에는 RF, 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, 5GPP(5rd Generation Partnership Project) 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, NFC 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.
하기에서, 적어도 하나의 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다. 또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시예에 따라 변경가능하다 할 것이다.
사용자 단말(100)은, 음성인식 기반 인공지능형 안심 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하여 구조를 요청하는 사용자의 단말일 수 있다. 이때, 사용자 단말(100)은, 웨어러블 장치와 연동되어 웨어러블 장치로부터 수집된 음성, 패턴, 모션, 터치 등을 인식하거나, 사용자 단말(100)로 수신되거나 입력되는 음성신호를 분석하는 단말일 수 있다. 여기서, 사용자 단말(100)의 컴퓨팅 자원이 기 설정된 조건을 만족하지 않을 경우, 음성인식 후 분석이나 학습과정은 안심 서비스 제공 서버(300)에서 실행할 수도 있으나 실시예에 따라 달라질 수 있다. 그리고, 사용자 단말(100)은 음성을 수집하여 전처리 후 특징을 추출하여 학습하는 단말일 수 있다. 또한, 사용자 단말(100)은, 음성이 인식된 경우 사용자의 음성인지, 기 설정된 조건을 만족하는 것인지의 여부를 판단하고, 안심 서비스 제공 서버(300)로 구조요청을 전송하면서 실시간으로 위치, 녹음 및 촬영되고 있는 콘텐츠를 스트리밍하는 단말일 수 있고, 배터리 조건이나 조도에 따라 녹음하거나 촬영하는 것을 선택적으로 선택할 수 있는 단말일 수 있다. 그리고 사용자 단말(100)은, IoT 기반 CCTV(500)가 기 설정된 반경 이내에 존재하는 경우, 촬영 및 구조신호를 전송함으로써 구조 단말(400)에서 실시간 상황을 공유받을 수 있도록 하는 단말일 수도 있다. 또한, 사용자 단말(100)은, 화면이 꺼져있는 상태일지라도 백그라운드 모드로 모니터링을 진행하면서 구조요청을 위한 음성이 인식되지 않는지를 모니터링하는 단말일 수 있고, 구조요청 후 배터리가 부족한 경우에는 긴급 배터리를 강제로 구동시키고, 전원이 꺼지는 상황에서도 재구동시킴으로써 지속적으로 위치를 구조 단말(400)에서 추적할 수 있도록 하는 단말일 수 있다. 이때, 사용자 단말(100)은, GPS가 구동되지 않거나 음영지역에 존재하는 경우, RSSI 및 삼각추적법 등으로 단말의 위치를 확인할 수 있도록 하는 단말일 수 있다.
여기서, 사용자 단말(100)은, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 사용자 단말(100)은, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 사용자 단말(100)은, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(smartphone), 스마트 패드(smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.
안심 서비스 제공 서버(300)는, 음성인식 기반 인공지능형 안심 서비스 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 제공하는 서버일 수 있다. 그리고, 안심 서비스 제공 서버(300)는, 사용자 단말(100)을 등록하고, 사용자 단말(100)에서 입력되는 음성신호를 전처리, 특징추출 및 학습을 진행하고, 기 저장된 구조단어 데이터베이스를 결합하여 사용자 단말(100)로 전송하는 서버일 수 있다. 또한, 안심 서비스 제공 서버(300)는, 사용자 단말(100)에서 구조요청이 수신된 경우, 사용자 단말(100)의 위치를 중심으로 기 설정된 반경 내에 존재하는 적어도 하나의 CCTV(500)로 객체추적촬영을 요청하고 구조 단말(400)로 사용자 단말(100)의 실시간 위치와 CCTV(500)의 화면을 전송하여 출력되도록 하는 서버일 수 있다. 그리고, 안심 서비스 제공 서버(300)는, 사용자 단말(100)에서 구조요청 후 전원이 꺼진 경우에는 강제로 재부팅시켜 긴급 전원을 사용하도록 하고, 전원의 사용을 최소화하도록 제어하는 서버일 수 있다. 또한 안심 서비스 제공 서버(300)는, 사용자 단말(100)의 GPS가 확인되지 않는 경우, RSSI를 수집하여 삼각기법 등으로 사용자의 위치를 추정하고 이를 구조 단말(400)로 전송하는 서버일 수 있다.
여기서, 안심 서비스 제공 서버(300)는, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다.
적어도 하나의 구조 단말(400)은, 음성인식 기반 인공지능형 안심 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하는 구조자의 단말일 수 있다. 그리고, 적어도 하나의 구조 단말(400)은, 안심 서비스 제공 서버(300)로부터 구조요청이 존재하는 경우, CCTV(500) 및 안심 서비스 제공 서버(300)로부터 수집되는 위치를 출력하고, 해당 위치로 자동 경로 안내를 시작하는 단말일 수 있다.
여기서, 적어도 하나의 구조 단말(400)은, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 적어도 하나의 구조 단말(400)은, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 적어도 하나의 구조 단말(400)은, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(smartphone), 스마트 패드(smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.
CCTV(500)는, IoT 기반 객체추적이 가능한 촬영장치일 수 있다. 이때, CCTV(500)는 사용자 단말(100)에서 발생되는 구조요청신호에 의해 자동으로 촬영 및 구조대상자를 식별하여 추적하는 장치일 수 있다. 그리고, CCTV(500)는 촬영되는 영상을 실시간으로 안심 서비스 제공 서버(300)로 제공하고, 무인비행체(미도시)가 추적된 객체의 위치로 비행하여 근접촬영 및 알람 출력을 하도록 하는 장치일 수 있다.
도 2는 도 1의 시스템에 포함된 사용자 단말을 설명하기 위한 블록 구성도이고, 도 3은 본 발명의 일 실시예에 따른 음성인식 기반 인공지능형 안심 서비스가 구현된 일 실시예를 설명하기 위한 도면이다.
도 2를 참조하면, 사용자 단말(100)은, 입력부(110), 모니터링부(120), 전송부(130), 스트리밍부(140), 촬영요청부(150) 및 비음성 지원부(160)를 포함할 수 있다.
본 발명의 일 실시예에 따른 안심 서비스 제공 서버(300)나 연동되어 동작하는 다른 서버(미도시)가 사용자 단말(100), 및 적어도 하나의 구조 단말(400)로 음성인식 기반 인공지능형 안심 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 전송하는 경우, 사용자 단말(100), 및 적어도 하나의 구조 단말(400)은, 음성인식 기반 인공지능형 안심 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 설치하거나 열 수 있다. 또한, 웹 브라우저에서 실행되는 스크립트를 이용하여 서비스 프로그램이 사용자 단말(100), 및 적어도 하나의 구조 단말(400)에서 구동될 수도 있다. 여기서, 웹 브라우저는 웹(WWW: world wide web) 서비스를 이용할 수 있게 하는 프로그램으로 HTML(hyper text mark-up language)로 서술된 하이퍼 텍스트를 받아서 보여주는 프로그램을 의미하며, 예를 들어 넷스케이프(Netscape), 익스플로러(Explorer), 크롬(chrome) 등을 포함한다. 또한, 애플리케이션은 단말 상의 응용 프로그램(application)을 의미하며, 예를 들어, 모바일 단말(스마트폰)에서 실행되는 앱(app)을 포함한다.
도 2를 참조하면, 입력부(110)는, 음성 입력 인터페이스를 통하여 사용자로부터 음성을 입력받을 수 있다. 이때, 입력부(110)에서 음성 입력 인터페이스를 통하여 사용자로부터 음성을 입력받을 때, 사용자로부터 입력된 음성의 특징을 추출하고, 추출된 특징을 학습하여 분류하여 저장할 수 있다. 이때, 사용자 단말(100)의 컴퓨팅 자원이 기 설정된 스펙을 만족하지 못하는 경우, 학습 및 분류과정은 안심 서비스 제공 서버(300)에서 진행할 수도 있으나, 이에 한정되는 것은 아니다. 이를 위하여 신경회로망(Neural Network, NN)을 이용한 음성인식 방법을 이용할 수 있는데 신경회로망의 학습과정을 통해 입력층에서 중간층 혹은 중간층에서 출력층으로 향하는 뉴런들 간을 연결하는 가중치를 변경하여 오차를 최소화하게 함으로써 새로운 입력데이터에 대하여 분류가 가능하도록 음성인식 과정을 수행할 수 있고, 오차역전파 학습알고리즘을 이용한 신경회로망을 사용하여 음성인식을 수행할 수 있다. 이를 통하여, 신경회로망은 외부로부터 입력되는 화자의 특징 데이터를 추출하여 신경회로망의 네트워크의 학습 과정을 통하여 그 특징을 분류할 수 있고, 화자가 발성하는 입력 특징 데이터의 차이에 의하여 음성인식 분류에 대한 오류를 최소화할 수 있기 때문에, 뛰어난 패턴 인식 능력 처리 구조를 제공할 수 있다.
모니터링부(120)는, 입력된 음성을 저장하고 사용자의 음성을 백그라운드 모드(Background mode)로 모니터링할 수 있다. 예를 들어, 안드로이드 앱은 액티비티, 서비스, 브로드캐스트 리시버, 콘텐트 프로바이더 컴포넌트들로 구성되는데, 액티비티는 화면에서 사용자가 대면하는 UI를 제공하고, 서비스는 화면 없이 백그라운드에서 동작하며, 사용자와 상호 작용을 하지 않는다. 리시버는 시스템이나 앱이 이벤트의 한 종류인 브로드캐스트를 발생시키면 이 브로드캐스트를 위해 정의된 동작을 수행하고, 프로바이더는 앱의 데이터를 다른 앱이 접근할 수 있도록 인터페이스를 제공한다. 앱은 리눅스 프로세스에서 실행되며, 프로세스는 앱 구성 요소와 동작을 바탕으로 8개의 상태를 가진다. 포그라운드(foreground)는 화면에 보이는 앱의 상태, 비저블(visible)은 화면에 보이지만 희미하게 가려진 앱의 상태, 퍼셉터블(perceptible)은 음악 앱처럼 화면에 보이지 않지만 인지할 수 있는 앱의 상태, 홈(home)은 백그라운드로 실행되는 홈 또는 런처 앱의 상태, 서비스 A와 B는 서비스 컴포넌트를 가지며 백그라운드에 있는 앱의 상태, 프리비어스(previous)는 바로 이전에 실행되었으며 백그라운드에 있는 앱의 상태, 캐시드(cached)는 앞의 상태에 해당되지 않는 백그라운드 앱의 상태를 나타낸다. 포어그라운드를 제외한 모든 상태의 앱은 백그라운드 앱으로 분류되는데, 프로세스는 메모리가 부족할 때 앱의 종료 우선순위를 통해 앱들을 종료시켜서 메모리를 확보하게 되는데, 종료 우선순위 값을 나타내며, 정지 상태로 오랫동안 실행되지 않을수록 높은 종료 우선순위 값으로 변한다.
이때, 본 발명의 일 실시예에 따른 모니터링은 종료 우선순위가 가장 높은 앱으로 선정될지라도 종료시키지 않을 수 있고, 특히 밤이나 혼자 귀가하는 경우를 감지하여 나머지 백그라운드 모드의 앱들을 종료시켜 가용 메모리를 확보하고 자원을 충당하는 방법을 이용할 수 있다.
전송부(130)는, 모니터링 결과 사용자의 음성과 기 저장된 음성이 일치하고, 기 저장된 조건을 만족하는 경우, 사용자 단말(100)과 연동되는 안심 서비스 제공 서버(300)로 구조요청 이벤트를 전송할 수 있다.
스트리밍부(140)는 기 저장된 구조오프 조건에 대응하는 입력이 존재할 때까지 녹음 또는 동영상 촬영을 실시하여 실시간으로 안심 서비스 제공 서버(300)로 스트리밍 전송할 수 있다. 이때, 기 저장된 조건은 모니터링된 음성이 STT(Speaking To Text)로 변환된 단어가 기 저장된 단어와 일치하는 조건일 수 있다. 예를 들어, 살려주세요, 도와주세요, 죽이지마세요, 제발 부탁해요 등일 수 있는데, 다양한 단어가 사용될 수 있으므로 사용자가 발성한 단어 이외에도 사용자가 자주 쓰는 어휘를 학습하여 파생단어를 저장할 수도 있다. 이를 위하여, 사용자 단말(100)에 호(Call) 발신 또는 수신으로 수집되는 단어를 이용하여 사용자의 단어를 맞춤형으로 학습할 수도 있고, 안심 서비스 제공 서버(300)로부터 수집된 데이터베이스를 이용할 수도 있다.
또한, 기 저장된 조건은 모니터링된 음성으로부터 특징을 추출하여 감정을 인식한 결과, 모니터링된 음성의 감정이 불안 및 공포가 태깅된 감정으로 인식되는 조건일 수 있다. 즉, 아무리 학습을 시행한다고 할지라도 정확한 단어를 발성하지 못하는 경우나 당황하여 해당 단어를 발성하지 못하는 경우에는, 사용자의 음성을 인식하여 감정을 추출함으로써 구조요청을 발생시킬 수도 있다.
음성기반 감정인식 기술은 다양한 방법이 이용될 수 있는데, 예를 들어, 사용자로부터 수집된 음성 데이터를 기반으로 기계학습 알고리즘을 이용해 감정인식 모델을 생성하고, 이러한 음성기반 감정인식 모델링 기술을 통하여 사용자의 고유한 음성 특징을 고려할 수 있다. 이를 위해, 사용자의 감정을 보다 정확하게 감정을 인식하기 위해서 실시간으로 사용자 음성에 대한 감정을 피드백을 통해 기록하고 이를 기반으로 모델링하는 적응형 음성기반 감정인식 프레임 워크를 이용할 수도 있다. 또한, 사용자에게 범용적인 모델을 제공하고 이를 통해 인식한 감정을 스마트폰 GUI를 통해 사용자에게 알림 메시지를 띄워 해당 음성에 대한 인식된 감정이 자신에 감정이 맞는지에 대한 피드백을 유도하여 레이블링하는 프롬프트 레이블링 기법을 사용할 수 있다. 레이블링된 데이터는 기존 범용 모델에서 해당감정의 레이블의 데이터를 지우고 사용자 음성 레이블을 추가하는 적응형 모델링 기법을 적용할 수 있다.
개인화된 감정인식 모델을 제공하기 위한 음성기반 감정인식을 위하여 자율특징학습(Unsupervised feature Learning) 기법을 사용하여 감정을 인식할 수도 있는데, 이는 사용자의 음성 데이터를 피드백 받아 음성특징을 사용자에게 맞게 정규화 하여 기존 데이터와의 수치값을 줄여 개인의 감정을 인식할 수 있다. 개인화된 감정인식 프레임워크에 관하여는 생체 신호를 기반으로 검출된 감정에 대해 사용자가 직접 감정에 대한 평가를 하고 이를 룰 베이스화 하여 중립밴드를 생성하는 방법으로 개인화된 감정인식이 가능하도록 할 수 있다.
한편, 사용자가 소리를 지르는 경우도 있지만, 가해자가 흉기를 가지고 위협을 하는 경우에는 사용자는 스마트폰을 꺼낼 수도 없고, 흉기에 다칠까봐 무서워서 소리를 지를 수도 없다. 이러한 경우에는, 사용자의 음성을 인식하는 것이 아니라, 가해자의 음성을 인식하여 가해자의 발성단어나 어조 등을 파악함으로써 구조요청을 전송하는 방법도 이용될 수 있다. 예를 들어, "소리지르면 죽는다", "앞만 보고 걸어" 등 가해자가 피해자를 외딴 곳으로 가도록 하거나 위협을 할 때 사용하는 단어일 수 있으며 이 또한 빅데이터로 구축되어 학습되어 사용자 단말(100)로 전송될 수 있다. 다만, 상술한 방법에 한정되는 것은 아니고 다양한 방법이 이용될 수 있음은 자명하다 할 것이다.
스트리밍부(140)는, 기 저장된 구조오프 조건에 대응하는 입력이 존재할 때까지 녹음 또는 동영상 촬영을 실시하여 실시간으로 안심 서비스 제공 서버(300)로 스트리밍 전송할 때, 사용자 단말(100)의 배터리 퍼센트를 확인하고, 배터리 퍼센트가 기 설정된 기준값 미만이고, 사용자 단말(100)에서 감지된 조도가 기 설정된 조도 미만인 경우, 녹음된 음성파일을 압축하여 안심 서비스 제공 서버(300)로 실시간 스트리밍할 수 있다. 만약, 가방이나 주머니 안에 사용자 단말(100)이 존재하는 경우에는 화면은 촬영하지 못하면서 카메라가 구동되고 이를 스트리밍으로 전송하게 되므로 네트워크 자원 및 컴퓨팅 자원을 소모하는 것일 뿐만 아니라 배터리를 닳게 하는 요인이 될 수 있다. 이에 따라, 녹음만 실시하되 네트워크 자원이나 배터리 소모를 최소화하도록 압축하여 스트리밍할 수 있다.
예를 들어, 스마트폰은 배터리의 전압이 컷오프(cutoff) 이하로 낮아지면 스마트폰을 종료한다. 컷오프 전압 이하에서는 스마트폰이 정상적으로 동작하지 않은 가능성이 있기 때문인데, 컷오프 전압에 다다르더라도 배터리에는 사용 가능한 에너지가 남아있다. 이러한 배터리 잔량은 전압 강하로 인해 방전 전류에 따라 달라지는데, 전류가 커지면, 배터리의 전압이 떨어지는데, 방전 전류가 커지면, 일찍 컷오프 전압에 다다르고, 그만큼 가용 용량이 줄어든다. 예를 들어, 전압 강하가 적게 발생하여 컷오프 전압에 다다르기까지 사용할 수 있는 에너지가 많아서, 최대 가용 용량을 거의 전부 활용할 수 있지만, 방전 전류가 높은 경우에는 전압 강하가 많이 발생하여 컷오프 전압까지 사용가능한 에너지가 최대 가용 용량 대비 2/3 이하로 낮아진다.
이를 위하여, 전압 강하를 모델링할 수 있고, 전압 강하를 간단한 계산 방식으로 정확하게 예측할 수 있으며, 배터리의 특성을 고려하여 전압강하와 회복효과(recovery effect) 등 전압의 변동을 예측할 수 있는 식을 이용할 수 있다. 모바일 기기, 특히 스마트폰에서 배터리의 특성을 고려하여 배터리의 가용 시간을 늘리는 연구에 기반할 수 있으며, 네트워크 통신 상황에서 배터리의 회복효과를 고려하여 스마트폰의 가용 시간을 증가시키는 방법을 이용할 수도 있다.
촬영요청부(150)는, 스트리밍부(140)에서 기 저장된 구조오프 조건에 대응하는 입력이 존재할 때까지 녹음 또는 동영상 촬영을 실시하여 실시간으로 안심 서비스 제공 서버(300)로 스트리밍 전송한 후, 사용자 단말(100)을 중심으로 기 설정된 반경 이내에 존재하는 적어도 하나의 CCTV(500)를 검색할 수 있고, CCTV(500)로 촬영시작신호 및 구조신호를 전송할 수 있다. 이때, 안심 서비스 제공 서버(300)는, 사용자 단말(100)의 RSSI(Received Signal Strength Indicator)를 적어도 하나의 기지국으로부터 파악하고, RSSI에 기반한 사용자 단말(100)의 위치와 사용자 단말(100)로부터 수신된 위치를 이용하여 사용자 단말(100)에 대향하는 방향을 촬영하는 적어도 하나의 CCTV(500)를 파악하여 객체추적촬영 및 구조 단말(400)로 CCTV(500)의 영상을 스트리밍할 수 있다. 예를 들어, GPS만으로 위치를 추적하는 것은 오차범위를 고려하면 정확하지 않을 수 있기 때문에 WIFI나 RSSI 등을 통하여 사용자 단말(100)의 위치를 추정 및 정확도를 높이도록 할 수 있다. 그리고, CCTV(500)가 일반적으로 한 방향만을 촬영했다면, 사용자 위치를 전달해줌으로써 각도조절, 초점조절 등을 통하여 사용자가 위치한 방향을 촬영하도록 할 수 있다.
비음성 지원부(160)는, 모니터링부(120)에서 입력된 음성을 저장하고 사용자의 음성을 백그라운드 모드(Background mode)로 모니터링한 후, 기 저장된 구조요청 모션패턴, 버튼, 및 터치 중 어느 하나 또는 어느 하나의 조합이 입력된 경우, 사용자 단말(100)과 연동되는 안심 서비스 제공 서버(300)로 구조요청 이벤트를 전송하고, 기 저장된 구조오프 조건에 대응하는 입력이 존재할 때까지 녹음 또는 동영상 촬영을 실시하여 실시간으로 안심 서비스 제공 서버(300)로 스트리밍 전송할 수 있다. 즉, 소리를 질러서 사용자가 구조요청을 할 수도 있지만, 장애인 또는 소리를 지를 수 없는 상황이 존재할 수도 있으므로, 이와 같이 기 설정된 조건이 만족되는 경우라면 구조요청을 보내는 것도 가능하다. 이때, 사용자 단말(100)과 연동되는 웨어러블 장치(미도시)가 존재하는 경우에도 마찬가지인데, 웨어러블 장치로 입력되는 모션, 패턴, 터치, 버튼입력 등이 존재하는 경우에는 구조요청을 보낼 수 있다.
덧붙여서, 사용자 단말(100)에서 구조신호를 보낸 경우, 사용자의 위치와 가장 근접한 또는 먼저 비행가능한 드론(미도시)으로 안심 서비스 제공 서버(300)에서 비행명령, 촬영제어, 조명제어 및 알람제어 등을 실시할 수 있다. 우선, 드론(Drone)은 사람이 기계의 본체에 탑승하지 않고, 무선전파의 유도에 의해서 조종이 가능한 무인항공기(UAV,Unmanned Aerial Vehicle)를 말하는데, 드론은 상대적으로 장애물이 적은 공중에서 비행하기 때문에 버드아이뷰(Bird's Eye View) 방식으로 영상을 촬영하게 되고 이는 물체(피해자-가해자)를 관찰하기에 적합하다. 또한 쿼드콥터 드론의 경우 방향전환이 자유롭고 협소한 지역까지 비행할 수 있기 때문에 움직이는 대상을 쫒는데에 용이하다. 이에 따라, 본 발명의 일 실시예에서는, 드론의 이러한 특성을 활용한 밤길 보행자의 안전을 지키는 서비스를 제공할 수 있다. 우선, 길 안내를 수행할 수 있는데, 안심귀가를 요청하는 신호 발생시 귀가하려는 보행자가 위치한 곳으로 이동하고, 입력한 목적지를 향하여 적정 속도로 길을 안내할 수 있다. 또한, 조명 기능으로 밤길 보행에 대한 두려움을 최소화하기 위하여 보행자가 안정감과 편안함을 느낄 수 있는 적정한 조명을 유지하고, 귀가하는 동안 드론에 내장된 카메라로 보행 상황 정보를 기록함과 동시에 위급 상황 발생시 경찰과 보호자에게 긴급신호를 송출할 수 있다.
일반적으로 드론의 하드웨어는 모터, 배터리, 프로펠러, 통신칩모듈, 근거리통신 모듈(블루투스 등)으로 구성되는데, 본 발명의 일 실시예에서는, 메인보드는, 내장 카메라, 통신 모듈 등을 포함할 수 있고, 네비게이션 보드는 비행 상태 측정에 사용되는 가속도 센서, 자이로 센서, 초음파 센서 등으로 구성될 수 있으며, 드론의 자세 유지는 중앙부에 장착된 자이로센서와 가속도계를 이용할 수 있고, 조명과 알람을 출력하기 위한 조명자치와 스피커를 장착할 수 있다. 또한, 드론은, 사용자 단말(100)이나 안심 서비스 제공 서버(300)와 통신가능한 채널을 확보할 수 있다.
이하, 상술한 도 2의 인공지능형 안심 서비스 제공 서버의 구성에 따른 동작 과정을 도 3을 예로 들어 상세히 설명하기로 한다. 다만, 실시예는 본 발명의 다양한 실시예 중 어느 하나일 뿐, 이에 한정되지 않음은 자명하다 할 것이다.
도 3을 참조하면, (a) 안심 서비스 제공 서버(300)는 사용자 단말(100)로부터 음성인식을 시작하고 이를 전처리, 특징추출 및 학습의 과정을 통하여 유사단어, 파생단어 등을 학습하고 사용자의 말투나 어휘를 학습 및 데이터베이스를 구축한다.
그리고, (b) 사용자 단말(100)에서 기 설정된 단어, 말투, 유사단어, 파생단어 등이 인식되거나 감정이 인식된 경우(웨어러블 장치로부터 심박수를 이용할 수도 있음)에는, (c) 사용자 단말(100)은, 안심 서비스 제공 서버(300)로 실시간 음성을 스트리밍 또는 촬영되고 있는 영상을 스트리밍하고, 안심 서비스 제공 서버(300)는 구조 단말(400)로 해당 영상, 음성, 위치 등을 공유함으로써 빠르게 위치를 파악하여 도착할 수 있도록 하며, 파악된 위치까지 자동 네비게이션(길안내 서비스)를 제공할 수 있다.
(d) 그리고, 안심 서비스 제공 서버(300)는 사용자 단말(100)의 기 설정된 반경 내에 존재하는 적어도 하나의 CCTV(500)로 객체추적 촬영요청을 전송하고, 해당 객체가 감지된 경우 이를 구조 단말(400)로 전송하여 가해자의 신변확보 및 검거율을 높일 수 있도록 한다. 만약 CCTV(500)가 존재하지 않거나 CCTV(500)의 시야에 확보되지 않은 경우에는, 안심 서비스 제공 서버(300)는 드론을 구동하여 조명제어, 소리제어(경찰차 사이렌 소리 발생)를 통하여 가해자가 겁을 먹고 달아나도록 할 수도 있다. 또한, (e) 안심 서비스 제공 서버(300)는 조도가 기 설정된 기준값 미만이고 GPS가 확보되지 않은 경우에는 RSSI나 WIFI 세기를 통하여 사용자 단말(100)의 위치를 추정하고, 추정된 위치의 CCTV(500)로 객체추적을 할 수 있도록 구현될 수도 있다.
이와 같은 도 2 및 도 3의 음성인식 기반 인공지능형 안심 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1을 통해 음성인식 기반 인공지능형 안심 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.
도 4는 본 발명의 일 실시예에 따른 도 1의 음성인식 기반 인공지능형 안심 서비스 제공 시스템에 포함된 각 구성들 상호 간에 데이터가 송수신되는 과정을 나타낸 도면이다. 이하, 도 4를 통해 각 구성들 상호간에 데이터가 송수신되는 과정의 일 예를 설명할 것이나, 이와 같은 실시예로 본원이 한정 해석되는 것은 아니며, 앞서 설명한 다양한 실시예들에 따라 도 4에 도시된 데이터가 송수신되는 과정이 변경될 수 있음은 기술분야에 속하는 당업자에게 자명하다.
도 4를 참조하면, 안심 서비스 제공 서버(300)는, 사용자 단말(100)에서 음성이 입력되는 경우(S4100), 이를 수신하여(S4200), 전처리->특징추출->학습의 과정을 거치고(S4300), 구조요청 단어의 데이터베이스(S4400)와 사용자의 말투, 즉 학습된 결과를 통합하여 구조요청 음성인식 알고리즘 또는 데이터를 사용자 단말(100)로 전송한다(S4500). 이때, 학습과정은 한 번에 이루어지는 것이 아니므로 지속적으로 사용자의 말투나 어휘 또는 음성 등을 수집하여 학습을 진행할 수도 있음은 자명하다 할 것이다.
한편, 안심 서비스 제공 서버(300)는 사용자 단말(100)에서 모니터링을 시작하고, 백그라운드 모드로 동작시키며(S4600, S4700), 인식된 음성이 기 설정된 조건에 부합하여 구조신호가 전송되는 경우(S4800, S4810), 구조 단말(400)로 실시간으로 공유되는 음성, 위치, 동영상 등을 전송하고(S4820), 사용자 단말(100)의 기 설정된 반경 내에 위치한 CCTV(500)를 제어하거나 제어 신호를 전송하여 객체추적을 위한 초점조절, 각도조절 등을 시행하도록 한다(S4830).
이때, 안심 서비스 제공 서버(300)는 CCTV(500)로부터 촬영 데이터가 수신되는 경우, 구조 단말(400)로 정보를 공유하고(S4840, S4850), 사용자 단말(100)에서 구조오프조건이 만족되는 입력이 수신되는지를 확인한 다음(S4900), 다시 백그라운드 모드로 음성을 모니터링하는 단계(S4910), 복귀하여 루프를 돌도록 한다.
상술한 단계들(S4100~S4910)간의 순서는 예시일 뿐, 이에 한정되지 않는다. 즉, 상술한 단계들(S4100~S4910)간의 순서는 상호 변동될 수 있으며, 이중 일부 단계들은 동시에 실행되거나 삭제될 수도 있다.
이와 같은 도 4의 음성인식 기반 인공지능형 안심 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1 내지 도 3을 통해 음성인식 기반 인공지능형 안심 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.
도 5는 본 발명의 일 실시예에 따른 음성인식 기반 인공지능형 안심 서비스 제공 방법을 설명하기 위한 동작 흐름도이다. 도 5를 참조하면, 안심 서비스 제공 서버는, 음성 입력 인터페이스를 통하여 사용자로부터 음성을 입력받고(S5100), 입력된 음성을 저장하고 사용자의 음성을 백그라운드 모드(Background mode)로 모니터링한다(S5200).
또한, 안심 서비스 제공 서버는, 모니터링 결과 사용자의 음성과 기 저장된 음성이 일치하고, 기 저장된 조건을 만족하는 경우, 사용자 단말과 연동되는 안심 서비스 제공 서버로 구조요청 이벤트를 전송하고(S5300), 기 저장된 구조오프 조건에 대응하는 입력이 존재할 때까지 녹음 또는 동영상 촬영을 실시하여 실시간으로 안심 서비스 제공 서버로 스트리밍 전송한다(S5400).
이와 같은 도 5의 음성인식 기반 인공지능형 안심 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1 내지 도 4를 통해 음성인식 기반 인공지능형 안심 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.
도 5를 통해 설명된 일 실시예에 따른 음성인식 기반 인공지능형 안심 서비스 제공 방법은, 컴퓨터에 의해 실행되는 애플리케이션이나 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
전술한 본 발명의 일 실시예에 따른 음성인식 기반 인공지능형 안심 서비스 제공 방법은, 단말기에 기본적으로 설치된 애플리케이션(이는 단말기에 기본적으로 탑재된 플랫폼이나 운영체제 등에 포함된 프로그램을 포함할 수 있음)에 의해 실행될 수 있고, 사용자가 애플리케이션 스토어 서버, 애플리케이션 또는 해당 서비스와 관련된 웹 서버 등의 애플리케이션 제공 서버를 통해 마스터 단말기에 직접 설치한 애플리케이션(즉, 프로그램)에 의해 실행될 수도 있다. 이러한 의미에서, 전술한 본 발명의 일 실시예에 따른 음성인식 기반 인공지능형 안심 서비스 제공 방법은 단말기에 기본적으로 설치되거나 사용자에 의해 직접 설치된 애플리케이션(즉, 프로그램)으로 구현되고 단말기에 등의 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (7)

  1. 사용자 단말에서 실행되는 안심 서비스 제공 방법에 있어서,
    음성 입력 인터페이스를 통하여 사용자로부터 음성을 입력받는 단계;
    상기 입력된 음성을 저장하고 사용자의 음성을 백그라운드 모드(Background mode)로 모니터링하는 단계;
    상기 모니터링 결과 상기 사용자의 음성과 기 저장된 음성이 일치하고, 기 저장된 조건을 만족하는 경우, 상기 사용자 단말과 연동되는 안심 서비스 제공 서버로 구조요청 이벤트를 전송하는 단계; 및
    기 저장된 구조오프 조건에 대응하는 입력이 존재할 때까지 녹음 또는 동영상 촬영을 실시하여 실시간으로 상기 안심 서비스 제공 서버로 스트리밍 전송하는 단계;
    를 포함하는 것을 특징으로 하는 음성인식 기반 인공지능형 안심 서비스 제공 방법.
  2. 제 1 항에 있어서,
    상기 기 저장된 조건은 상기 모니터링된 음성이 STT(Speaking To Text)로 변환된 단어가 기 저장된 단어와 일치하는 조건인 것을 특징으로 하는 음성인식 기반 인공지능형 안심 서비스 제공 방법.
  3. 제 1 항에 있어서,
    상기 기 저장된 조건은 상기 모니터링된 음성으로부터 특징을 추출하여 감정을 인식한 결과, 상기 모니터링된 음성의 감정이 불안 및 공포가 태깅된 감정으로 인식되는 조건인 것을 특징으로 하는 음성인식 기반 인공지능형 안심 서비스 제공 방법.
  4. 제 1 항에 있어서,
    기 저장된 구조오프 조건에 대응하는 입력이 존재할 때까지 녹음 또는 동영상 촬영을 실시하여 실시간으로 상기 안심 서비스 제공 서버로 스트리밍 전송하는 단계는,
    상기 사용자 단말의 배터리 퍼센트를 확인하는 단계;
    상기 배터리 퍼센트가 기 설정된 기준값 미만이고, 상기 사용자 단말에서 감지된 조도가 기 설정된 조도 미만인 경우, 녹음된 음성파일을 압축하여 상기 안심 서비스 제공 서버로 실시간 스트리밍하는 단계;
    를 포함하는 것을 특징으로 하는 음성인식 기반 인공지능형 안심 서비스 제공 방법.
  5. 제 1 항에 있어서,
    상기 기 저장된 구조오프 조건에 대응하는 입력이 존재할 때까지 녹음 또는 동영상 촬영을 실시하여 실시간으로 상기 안심 서비스 제공 서버로 스트리밍 전송하는 단계 이후에,
    상기 사용자 단말을 중심으로 기 설정된 반경 이내에 존재하는 적어도 하나의 CCTV를 검색하는 단계;
    상기 CCTV로 촬영시작신호 및 구조신호를 전송하는 단계;
    를 더 포함하고,
    상기 안심 서비스 제공 서버는,
    상기 사용자 단말의 RSSI(Received Signal Strength Indicator)를 적어도 하나의 기지국으로부터 파악하고,
    상기 RSSI에 기반한 사용자 단말의 위치와 상기 사용자 단말로부터 수신된 위치를 이용하여 상기 사용자 단말에 대향하는 방향을 촬영하는 적어도 하나의 CCTV를 파악하여 객체추적촬영 및 구조 단말로 상기 CCTV의 영상을 스트리밍하는 것을 특징으로 하는 음성인식 기반 인공지능형 안심 서비스 제공 방법.
  6. 제 1 항에 있어서,
    상기 입력된 음성을 저장하고 사용자의 음성을 백그라운드 모드(Background mode)로 모니터링하는 단계 이후에,
    기 저장된 구조요청 모션패턴, 버튼, 및 터치 중 어느 하나 또는 어느 하나의 조합이 입력된 경우, 상기 사용자 단말과 연동되는 안심 서비스 제공 서버로 구조요청 이벤트를 전송하는 단계;
    기 저장된 구조오프 조건에 대응하는 입력이 존재할 때까지 녹음 또는 동영상 촬영을 실시하여 실시간으로 상기 안심 서비스 제공 서버로 스트리밍 전송하는 단계;
    를 더 포함하는 것을 특징으로 하는 음성인식 기반 인공지능형 안심 서비스 제공 방법.
  7. 제 1 항에 있어서,
    상기 음성 입력 인터페이스를 통하여 사용자로부터 음성을 입력받는 단계는,
    상기 사용자로부터 입력된 음성의 특징을 추출하는 단계;
    상기 추출된 특징을 학습하여 분류하여 저장하는 단계;
    를 포함하는 것을 특징으로 하는 음성인식 기반 인공지능형 안심 서비스 제공 방법.
PCT/KR2019/005109 2018-05-10 2019-04-26 음성인식 기반 인공지능형 안심 서비스 제공 방법 WO2019216585A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2018-0053735 2018-05-10
KR1020180053735A KR101906428B1 (ko) 2018-05-10 2018-05-10 음성인식 기반 인공지능형 안심 서비스 제공 방법

Publications (1)

Publication Number Publication Date
WO2019216585A1 true WO2019216585A1 (ko) 2019-11-14

Family

ID=63875972

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/005109 WO2019216585A1 (ko) 2018-05-10 2019-04-26 음성인식 기반 인공지능형 안심 서비스 제공 방법

Country Status (2)

Country Link
KR (1) KR101906428B1 (ko)
WO (1) WO2019216585A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102093855B1 (ko) * 2019-02-15 2020-03-26 주식회사 뉴라이크 인공 지능 통합 관제 서비스 제공 방법 및 시스템
KR102228933B1 (ko) * 2019-07-17 2021-03-18 전병문 1인 가구를 위한 사설경호를 제공하는 o2o 기반 범죄예방 서비스 제공 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003274360A (ja) * 2002-03-14 2003-09-26 Sony Corp 撮像装置、撮像方法、撮像管理装置、撮像管理システム
KR20130106511A (ko) * 2012-03-20 2013-09-30 삼성전자주식회사 휴대 단말기의 위급 상황 안내 서비스 방법 및 장치
KR20140050785A (ko) * 2012-10-21 2014-04-30 이승철 소리 주파수 정보 분석 시스템과 경보 시스템 및 구조 요청 시스템에 관한 인터페이스
KR101480302B1 (ko) * 2013-04-17 2015-01-08 주식회사 이도링크 스마트와치 연동에 의한 취약지역 범죄 예방 시스템 및 그 방법
KR20160038960A (ko) * 2014-09-30 2016-04-08 계명대학교 산학협력단 학습 정보를 이용하여 위험 상황을 인지하는 단말기 및 그 동작 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003274360A (ja) * 2002-03-14 2003-09-26 Sony Corp 撮像装置、撮像方法、撮像管理装置、撮像管理システム
KR20130106511A (ko) * 2012-03-20 2013-09-30 삼성전자주식회사 휴대 단말기의 위급 상황 안내 서비스 방법 및 장치
KR20140050785A (ko) * 2012-10-21 2014-04-30 이승철 소리 주파수 정보 분석 시스템과 경보 시스템 및 구조 요청 시스템에 관한 인터페이스
KR101480302B1 (ko) * 2013-04-17 2015-01-08 주식회사 이도링크 스마트와치 연동에 의한 취약지역 범죄 예방 시스템 및 그 방법
KR20160038960A (ko) * 2014-09-30 2016-04-08 계명대학교 산학협력단 학습 정보를 이용하여 위험 상황을 인지하는 단말기 및 그 동작 방법

Also Published As

Publication number Publication date
KR101906428B1 (ko) 2018-10-10

Similar Documents

Publication Publication Date Title
EP3619695B1 (en) System and method for threat monitoring, detection, and response
US11837064B2 (en) Robot, robot system, and storage medium
US11040774B2 (en) Drone authentication system
US10489649B2 (en) Drone data locker system
US10943463B1 (en) Technologies for assistance and security services
CN110737212B (zh) 无人机控制系统和方法
US11138844B2 (en) Artificial intelligence apparatus and method for detecting theft and tracing IoT device using same
KR20160119956A (ko) 드론을 이용한 추적 시스템
CN108702203A (zh) 控制无人机接入网络的方法和装置
WO2019216585A1 (ko) 음성인식 기반 인공지능형 안심 서비스 제공 방법
KR101644857B1 (ko) 객체 감지 기반의 범죄 예방을 위한 cctv 장치 및 시스템, 이를 이용한 정보 수집 방법
US20190050238A1 (en) Prioritizing digital assistant responses
KR101929875B1 (ko) 실시간 현장 동영상 중계를 이용한 시각장애인 안내 서비스 제공 방법
KR20170018140A (ko) 비언어적 음성 인식을 포함하는 응급 상황 진단 방법 및 장치
US11703863B2 (en) Methods and systems for operating a moving platform to determine data associated with a target person or object
US20190258865A1 (en) Device, system and method for controlling a communication device to provide alerts
WO2018225984A1 (ko) 해상 위험상황을 판단하는 방법 및 서버
KR102228933B1 (ko) 1인 가구를 위한 사설경호를 제공하는 o2o 기반 범죄예방 서비스 제공 방법
WO2018018768A1 (zh) 一种盲人助行器
US20210374414A1 (en) Device, system and method for controlling a communication device to provide notifications of successful documentation of events
Ţepelea et al. Smartphone application to assist visually impaired people
KR102553745B1 (ko) 음성멘트를 이용한 긴급알림 서비스 제공 시스템
KR101260879B1 (ko) 이동로봇의 인물탐색 방법
KR20210004173A (ko) 사용자 모니터링 방법 및 장치
KR102368523B1 (ko) 물리적 버튼을 이용한 긴급상황 신고 서비스 제공 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19798860

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19798860

Country of ref document: EP

Kind code of ref document: A1