WO2017135507A1 - 비명 검출 방법 및 이를 위한 장치 - Google Patents
비명 검출 방법 및 이를 위한 장치 Download PDFInfo
- Publication number
- WO2017135507A1 WO2017135507A1 PCT/KR2016/003006 KR2016003006W WO2017135507A1 WO 2017135507 A1 WO2017135507 A1 WO 2017135507A1 KR 2016003006 W KR2016003006 W KR 2016003006W WO 2017135507 A1 WO2017135507 A1 WO 2017135507A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- signal
- section
- predetermined
- screaming
- fft
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title description 12
- 238000000034 method Methods 0.000 claims abstract description 90
- 230000005236 sound signal Effects 0.000 claims abstract description 11
- 206010039740 Screaming Diseases 0.000 claims description 65
- 238000012545 processing Methods 0.000 claims description 16
- 238000009499 grossing Methods 0.000 claims description 10
- 230000007423 decrease Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 description 12
- 239000013598 vector Substances 0.000 description 7
- 238000012360 testing method Methods 0.000 description 5
- 101100129496 Arabidopsis thaliana CYP711A1 gene Proteins 0.000 description 4
- 101100083446 Danio rerio plekhh1 gene Proteins 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
- G06F17/141—Discrete Fourier transforms
- G06F17/142—Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
- G10L2025/937—Signal energy in various frequency bands
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Definitions
- the present invention relates to signal processing technology in the electronic field, and more particularly to a technology capable of detecting a human scream among audio signals.
- the safe return home service may include a process of notifying other people of the emergency situation manually or automatically by using a function provided by a mobile wireless terminal when an emergency situation occurs. In order to be notified automatically of an emergency, an emergency must be recognized automatically.
- the present invention is to provide a method for quickly determining whether or not a person screams when a dangerous situation occurs. In this way, the police and / or predetermined person can be contacted quickly, for example in an application on the smartphone.
- a screaming determination method for determining whether a window signal selected by a window having a predetermined time length among collected audio signals includes a signal corresponding to a scream of a person. can do.
- determining whether the energy pattern of the predetermined specific frequency bands satisfies the predetermined fifth condition (S34, S35, S35-1). It may be arranged to perform. And determining whether the fifth condition is satisfied is performed only when the third condition is satisfied, and determining that the section signal includes a signal corresponding to screaming only when the fifth condition is satisfied. Otherwise, it may be determined that the section signal does not include a signal corresponding to screaming.
- the method may further include determining whether the statistical value of the section signal satisfies a first predetermined condition (S15 and S17), wherein the ' FFT signal ' is determined.
- the generating may be performed only when the section signal satisfies the first condition.
- the method may further include normalizing the magnitude of the FFT signal (S22).
- the method may further include determining whether the maximum value of the FFT signal is equal to or less than a first predetermined reference value (S21). May be executed only when the maximum value of the FFT signal is equal to or less than the first reference value.
- the section-specific process may be performed on the N section signals continuously defined in the time domain to determine whether each of the N section signals includes a signal corresponding to a scream.
- the scream recognition process comprising a step (S40) it can be characterized in that it is determined that the scream occurred only when the time is reduced longer than the time the center frequency is increased.
- the scream recognition process before the step of determining whether the reduced time is longer than the increase time of the center frequency, M section signals including the information about the scream of the person among the N section signals are M or more Judging whether there is a step (N> M) (S37), and when it is determined that there are more than the M pieces, the N section signals do not include information about the screaming of the person.
- the method may further include determining whether the determined section signals exist in succession of P or more on the time axis (S38).
- a processing unit configured to determine whether a window signal selected by a window having a predetermined time length among collected audio signals includes a signal corresponding to a human scream.
- An apparatus for determining screaming can be provided.
- the processing unit performs a Fourier transform on a section signal included in the window signal and generates an ' FFT signal ' , which is a frequency domain signal obtained by the Fourier transform (S19), of the FFT signal.
- Smoothing the shape generating an ' S- FFT signal ', which is a frequency domain signal obtained by the smoothing, and pre-determining the number of points having a fifth reference value among the S-FFT signals; Determining whether the condition 3 is satisfied (S26 to S29), and determining whether the energy pattern of the predetermined specific frequency bands satisfies the predetermined fifth condition (S34, S35, S35-1). May be configured to perform a section-specific process. In this case, the step of determining whether the fifth condition is satisfied is performed only when the third condition is satisfied, and the section signal includes a signal corresponding to the screaming only when the fifth condition is satisfied. Otherwise, the section signal may not include a signal corresponding to the scream.
- the processor is further configured to process (S15 and S17) determining whether a statistical value of the section signal satisfies a first predetermined condition.
- the generating of the ' FFT signal ' may be performed only when the section signal satisfies the first condition.
- the processor normalizes the magnitude of the FFT signal and determines whether the maximum value of the FFT signal is equal to or less than a first predetermined reference value (S21). ), And the normalizing may be performed only when the maximum value of the FFT signal is equal to or less than the first reference value.
- the processor is configured to determine whether each of the N section signals includes a signal corresponding to screaming by executing the section-specific process on the N section signals continuously defined in the time domain. There may be. If it is determined that the center frequency of the fundamental frequency band in which energy is concentrated among the N section signals increases and decreases from the past to the present, it is determined whether the reduced time is longer than the increased time of the center frequency. It is to perform the scream recognition process comprising a step (S40), it can be characterized in that it is determined that the scream occurred only if the time is reduced longer than the time the center frequency is increased.
- a screaming determination method is provided to perform a section-specific process of determining whether each of the N section signals continuously defined in the time domain includes a signal corresponding to screaming. It may be.
- the center frequency of the fundamental frequency band in which energy is concentrated among the N section signals increases and decreases from the past to the present, it is determined whether the reduced time is longer than the increased time of the center frequency.
- the scream recognition process comprising a step (S40) it can be characterized in that it is determined that the scream occurred only when the time is reduced longer than the time the center frequency is increased.
- the scream recognition process before the step of determining whether the reduced time is longer than the increase time of the center frequency, M section signals including the information about the scream of the person among the N section signals are M or more Judging whether there is a step (N> M) (S37), and when it is determined that there are more than the M pieces, the N section signals do not include information about the screaming of the person.
- the method may further include determining whether the determined section signals exist in succession of P or more on the time axis (S38).
- the determining of whether the reduced time is longer than the increased time of the center frequency may include determining that the section signals, which are determined to not include information about the screaming of the person, are consecutively P or more on the time axis. It can only be executed if it is determined not to exist.
- the apparatus for determining screaming is configured to perform a section-specific process of determining whether each of the N section signals continuously defined in the time domain includes a signal corresponding to screaming. It may include a processing unit.
- the processing time decreases more than the time when the center frequency increases.
- the scream recognition process comprising the step (S40) of determining whether it is long, it can be characterized in that it is determined that the scream occurred only if the reduced time is longer than the time the center frequency is increased.
- the scream recognition process before the step of determining whether the reduced time is longer than the increase time of the center frequency, M section signals including the information about the scream of the person among the N section signals are M or more Judging whether there is a step (N> M) (S37), and when it is determined that there are more than the M pieces, the N section signals do not include information about the screaming of the person.
- the method may further include determining whether the determined section signals exist in succession of P or more on the time axis (S38).
- the determining of whether the reduced time is longer than the increased time of the center frequency may include determining that the section signals, which are determined to not include information about the screaming of the person, are consecutively P or more on the time axis. It can only be executed if it is determined not to exist.
- determining whether the window signal divided into two section signals is a human voice (1) determining whether the window signal divided into two section signals is a human voice; (2) if it is determined that the window signal is a human voice, testing each section signal according to a first predetermined condition based on a statistical value of each section signal; (3) performing a Fourier transform on the section signal having passed the test among the two section signals; And (4) determining whether there is energy above a predetermined sixth level in a frequency band associated with the screaming of the person among the frequency bands of the section signal where the Fourier transform is performed, and the scream recognition process.
- a scream detection method for detecting screams can be provided.
- the section-specific process determines that the two section signals do not include information about the screaming of the person, and wherein the predetermined section of the two section signals is determined. It is determined that the section signal that does not pass the test according to the condition 1 does not include the information about the scream of the person, and the section signal that does not exist the energy above the predetermined sixth level in the frequency band associated with the scream of the person Determine that the information about the person's scream is not included, and determine that the section signal in which the energy above the predetermined sixth level is present in the frequency band associated with the person's scream includes the information about the person's scream. It can be characterized.
- the scream recognition process the information about the scream of the person to each of the plurality of section signals defined for the audio signal by performing the section-specific process a plurality of times for the audio signal of the predetermined length detected by the microphone Determining whether is included, and section signals including information about a person's screaming among the plurality of section signals are present at least a fourth predetermined number, and among the plurality of section signals; And determining that the audio signal includes the scream of a person when the section signals determined to not include the related information do not exist continuously for more than the predetermined fourth number on the time axis.
- determining whether the window signal is a human voice includes changing a signal value of a silence section of the window signal to '0', and determining whether energy of the window signal corresponds to voice energy. If it is determined that the energy of the window signal does not correspond to the voice energy, it may be configured to end the section-specific process.
- the testing of each section signal according to a first predetermined condition based on the statistical value of each section signal may include selecting a section signal that has passed the test as a candidate section signal, and selecting the candidate section signal. Dividing the candidate section into a predetermined fifth number of parts overlapping each other on the time axis and having the same time length, and determining whether the energy value and the statistical value of each of the parts satisfy the second predetermined condition. And determining whether parts of the fifth number of parts included in each candidate section that are determined to be non-negative appear consecutively by the first predetermined number or more. If parts of the fifth number of parts included in each candidate section that are determined to be non-negative appear consecutively more than the first predetermined number, the section-specific process may be terminated.
- a first maximum value MAX and a first minimum value MIN are detected with respect to the first signal SS1 on which the Fourier transform is performed, so that the first maximum value is increased. Determining whether the first maximum value is greater than or equal to a predetermined first reference value, and when the first maximum value is determined to be greater than or equal to the predetermined first standard value, terminating the section-specific process, and the first maximum value is determined by the predetermined value. If it is determined that the first reference value is not equal to or greater than the first reference value, the first normalization is performed such that the first maximum value and the first minimum value are respectively the second maximum value (1) and the second maximum value (0) of the predetermined first normalization section. The steps may be further performed.
- the method may further include updating the first depth array by removing a pair of keypoints smaller than a second reference value from the first depth array.
- the effective P section smaller than the reference value is made such that the maximum value M1 and the minimum value m1 of the first signal within the valid P section have the maximum value MAX1 and the minimum value MIN1 of the second normalized section, respectively, which are predetermined.
- Performing second normalization updating, in the first keypoint array, a size of keypoints included in a valid P section on which the second normalization is performed, to a normalized value, and storing the second keypoint array in a second keypoint array;
- Generating a second signal (SS2) by connecting key points stored in an array, identifying a number of R-crossing points having a predetermined fifth reference value among the second signals, and the R-crossing
- the method may include determining whether the number of points satisfies a predetermined third condition. If the number of the R-crossing points does not satisfy the predetermined third condition, the section-specific process may be terminated.
- the step of determining whether there is more than a predetermined sixth level of energy in the frequency band associated with the screaming of the human among the frequency bands of the section signal subjected to the Fourier transform, the sixth predetermined number of the first signal ( Subdividing each of the 160 P sections into sub-P sections, in the sub-P section, a value at the minimum frequency f mi of the first signal and a maximum frequency f ma of the first signal; Generating a vector using a value of), calculating energy of a predetermined first frequency band using absolute values of vectors included in the predetermined first frequency band, in the first signal, Determining whether an energy pattern between frequency bands satisfies a fourth predetermined condition, and an energy pattern for each frequency in the candidate section NS1 is defined immediately before the candidate section And determining whether it is continuous on the time axis compared to the energy pattern for each frequency in the immediately preceding section NS2, and if it is determined that it is not continuous on the time axis, the section-specific process may be terminated.
- the step of determining whether the energy pattern for each frequency in the candidate section NS1 is continuous on the time axis in comparison with the energy pattern for each frequency in the immediately preceding section NS2 defined immediately before the candidate section,
- the first energy ratio E1 between the bands having energy above the predetermined sixth level in the previous section NS2 and the second energy ratio between bands having energy above the predetermined sixth level in the candidate section Determining whether the difference of E2 is smaller than a predetermined eighth reference value, and if the difference between the first energy ratio E1 and the second energy ratio E2 is smaller than the predetermined eighth reference value, It may be intended to terminate section-specific processes.
- the present invention can provide a method for quickly determining whether or not a person screams when a dangerous situation occurs.
- FIG. 1 is a block diagram of a smartphone according to an embodiment of the present invention.
- FIGS. 2A to 2C are flowcharts illustrating a series of execution processes for the 'section-specific process' according to an embodiment of the present invention
- FIG. 2D is a series for the 'scream recognition process' according to an embodiment of the present invention.
- the flowchart shows the execution process of.
- FIG. 3 is a view for explaining a process of executing a section for scream detection according to an embodiment of the present invention.
- FIG. 4 is a view for explaining a 'section' defined in accordance with an embodiment of the present invention.
- FIG. 5A is a graph illustrating an 'FFT signal' obtained by performing an FFT with respect to an 'FFT candidate section' according to an embodiment of the present invention
- FIG. 5B illustrates the 'FFT signal' according to an embodiment of the present invention
- FIG. 5C illustrates a portion of the 'N-FFT signal', which is a normalized frequency signal obtained by normalization.
- FIG. 6 is a graph illustrating a reconstructed 'S-FFT signal SS2' according to an embodiment of the present invention.
- FIG. 7A illustrates a part of the graph divided by dividing each P section into ten 'sub-P sections' in the graph of FIG. 5B.
- FIG. 7B is an enlarged view illustrating an enlarged portion H of FIG. 7A according to an exemplary embodiment of the present invention.
- FIG. 8 illustrates an example of frequency component values that can be detected over time when screaming occurs on a time-frequency plane.
- FIG. 10 shows a scream detection system according to an embodiment of the present invention.
- FIG. 1 illustrates a configuration diagram of a smartphone (terminal) according to an embodiment of the present invention.
- the smartphone (terminal) 200 may include a microphone 210, a processor 220, a storage 230, and a communicator 240.
- the app When the scream detection dedicated application (hereinafter, referred to as an app) is executed in the smartphone, the app may be configured to operate in the background.
- the microphone 210 may be configured to collect sound, and the sound collected by the microphone 210 may be input to the processor 220.
- the processing unit 220 may be configured to execute the steps of FIGS. 2A to 2D to be described later.
- the storage 230 may store the execution result of the processing unit 220, and when the scream is detected in the processing unit 220, transmit the result to the communication unit 240.
- the communication unit 240 may be configured to transmit whether to detect the scream to the server (300).
- FIGS. 2A through 2C are flowcharts illustrating a series of execution processes for 'section-specific processes' according to an embodiment of the present invention.
- 2d is a flowchart illustrating a series of execution processes for the 'scream recognition process' according to an embodiment of the present invention.
- Figure 2a shows a first execution step for the section-by-section process according to an embodiment of the present invention.
- FIG. 3 is a view for explaining a process of executing a section for scream detection according to an embodiment of the present invention.
- each of the steps described below can be executed by digital processing in a processing device (eg, the processing unit 220) of a mobile wireless terminal such as a smart phone.
- a processing device eg, the processing unit 220
- a mobile wireless terminal such as a smart phone.
- a value of F or S may be matched. For this purpose, for example, if k sections are defined, an array having k elements may be defined. F or S may be stored in the corresponding element of the array when the section-specific process is performed for each of the sections.
- step S10 the time series 'audio signal 1' sampled on the time axis may be obtained.
- Both the horizontal axis and the vertical axis of FIG. 3 may have discrete values.
- a signal of some of the audio signals 1 may be selected using the window 10 having a predetermined time length T.
- the selected signal may be referred to as a 'window signal 11'.
- step S12 the signal value of the section determined as the silence section T_S, S1 to S3 of the 'window signal 11' may be changed to '0'.
- step S13 it may be determined whether the energy of the 'window signal 11' corresponds to the energy of the voice.
- step S14 may be executed, and the window signal 11 may be considered to have passed the step S13.
- the window signal 11 passing through step S13 may be referred to as a candidate window signal .
- step (S14) Can be divided into in step (S14), the two sections being separated from each other and has a length (T / 2) of half of the length (T) of a “candidate window signal” "window signal” (A1, B1).
- FIG. 4 is a view for explaining a 'section' defined in accordance with an embodiment of the present invention.
- step S15 it may be determined whether a statistical value of a signal included in each section (eg, A1) of the 'candidate window signal' divided in step S14 satisfies the first predetermined condition.
- the statistical value may be a concept including an average, a variance, and a standard deviation.
- 'F' may be output for each of the sections that are not satisfied and the process for each section may be terminated.
- 'F' is a symbol indicating that the section corresponding thereto is not related to screaming.
- step S16 may be executed if the statistical value satisfies the predetermined first condition, and the section may be considered to have passed step S15.
- the section passing through step S15 may be referred to as a candidate section 20.
- 4 shows an example in which the overlap length is 0 for convenience.
- step S17 it may be determined whether the energy and the statistical value of each of the 'parts ' satisfy the second predetermined condition.
- each of the "parts” when the energy and the statistical value of each of the "parts" satisfies the predetermined second condition, each of the "parts” is it can be determined to be associated with the voice. In this case, it may be output as (Y, N) whether each part is related to the voice.
- the 'part ' related to the voice can correspond to the symbol 'Y', and the part not can correspond to the symbol 'N'.
- step S18 parts N, which are determined to be non-negative, out of the 12 'parts 30' included in each 'candidate section 20' are successively more than a first predetermined number (eg, three). You can determine if it appears.
- a first predetermined number eg, three
- 'F' may be output and the process for each section may be terminated.
- 'F' is a symbol indicating that the corresponding section is not related to screaming.
- the 'candidate section ' in which parts N determined to be non-negative, does not appear consecutively above the predetermined first number, may be determined to include a voice that may include screaming, and step S18. Can be considered to pass.
- "Candidate section, the said passage may be referred to hereinafter" FFT candidate section ".
- Step S19 may be performed for the 'FFT candidate section ' .
- the 'FFT candidate section ' may mean a voice signal that has passed all the above-described step (S10) to step (S18).
- Figure 2b shows a second execution step according to an embodiment of the present invention.
- FIG. 5A illustrates a graph of an ' FFT signal ' obtained by performing an FFT on an 'FFT candidate section ' according to an embodiment of the present invention
- FIG. 5B illustrates the 'FFT signal ' according to an embodiment of the present invention.
- Figure 5c shows a part of the" N-FFT signal.
- the horizontal axis of each graph represents frequency f
- the vertical axis represents amplitude A.
- an FFT signal SS1 which is a signal in a frequency domain obtained by performing an FFT on the FFT candidate section, may be calculated.
- the maximum value MAX and the minimum value MIN may be detected with respect to the FFT signal SS1.
- step S21 it may be determined whether the maximum value is equal to or greater than a first predetermined reference value.
- 'F' may be output and the process for each section may be terminated.
- 'F' is a symbol indicating that the 'FFT candidate section ' has nothing to do with screaming.
- the process may proceed to step S22.
- Step S21 may be performed to exclude the case where the maximum value is larger than a value that can come out when screaming.
- step S22 the magnitude of the FFT signal SS1 is normalized such that the maximum value and the minimum value are respectively the maximum value ex: 1 and the minimum value ex: 0 of the predetermined first normalization section 50, respectively. Can be.
- Step S22 may be a step for removing the influence of the background noise environment different for each situation.
- the FFT signal SS1 may be divided into 160 ' P sections 60' along the frequency axis f.
- an array having 160 elements representing each 'P section ' may be defined.
- step (S24) by defining a search for the inflection point 70 of the 'FFT signal (SS1), to the frequency value and the amplitude of the turning point 70, the key point (key point) ""
- the first key point array (first key point array).
- step S25 the difference in magnitude between two consecutive 'key points' on the frequency axis f may be defined as the depth 80 and stored in the first depth array. have.
- the 'depth' may have a value from -1 to 1. And 'depth' may be related to the magnitude of the energy at that frequency.
- step S26 the pair of 'key points' whose absolute value of the depth (e.g., d2) is smaller than the second predetermined reference value is removed from the 'first depth array' to thereby remove the 'first depth'. Update the array.
- the depth d4 may be defined again from the elements included in the updated first depth array, and the defined depth may be stored in the second depth array.
- step S27 the 'P intervals' whose absolute value of depth exists between two consecutive 'key points' having a predetermined third reference value or more are valid ' effective P intervals 90' It can be defined as.
- a plurality of valid P sections may be defined.
- Each 'effective P section 90' may include one or more 'P sections ' .
- the index 2, and index 6 may each mean a second P region, the sixth region of the P 'FFT signal (SS1)'.
- the 'effective P section' (eg, section 90a) of the plurality of 'effective P sections 90' whose depth is smaller than a fourth predetermined reference value is a 'N-FFT signal' within the section. It may be partially normalized such that the maximum value M1 and minimum value m1 of 'have a maximum value MAX1 and a minimum value MIN1 of a predetermined partial normalization section, respectively.
- the size of the key point included in the partially normalized valid P section is updated to the partially normalized value and stored in the second key point array, except for the partially normalized valid P section.
- the keypoints included in the remaining P section may be stored in the 'second keypoint array' without updating the value.
- the minimum value MIN1 and the maximum value MAX1 of the predetermined partial normalization interval may have values other than 0 and 1.
- the minimum value MIN1 and the maximum value MAX1 of the predetermined partial normalization interval may be 0.2 and 0.8, respectively.
- the reason for performing the partial normalization is to perform the analysis described below.
- the reconstructed ' S- FFT signal SS2' may be generated by connecting 'key points' stored in the 'second key point array'.
- 6 is a graph illustrating a reconstructed 'S-FFT signal SS2' according to an embodiment of the present invention.
- the horizontal axis of the reconstructed S-FFT signal (SS2) graph represents the frequency (f)
- the vertical axis represents the amplitude (A).
- each 'key point' is connected in a straight line, but may be connected in a curve.
- the graph of the FFT signal may be smoothed and changed to a simpler graph.
- An example of the simply changed graph may be the S-FFT signal SS2 described above. )to be.
- step (S30) it has a point with the determined reconstruction of the 'S-FFT signal (SS2)' pre fifth reference value can be referred to as 'R- crossing point (Reference amplitude crossing point)'.
- the number of 'R-crossing points' may be checked.
- the predetermined fifth reference value may mean any one value selected from a range of values that the ' S- FFT signal SS2' may have.
- the predetermined fifth reference value may be Ry, and the 'R-crossing point' may include R1 to R10.
- step S31 it may be determined whether the number of 'R-crossing points' satisfies a predetermined third condition. That is, if the number of 'R-crossing points' is smaller than the second predetermined number, 'F' may be output and the process for each section may be terminated. 'F' is a symbol indicating that the ' FFT candidate section' has nothing to do with screaming.
- step S32 may be executed.
- Figure 2c shows a third execution step according to an embodiment of the present invention.
- each of 160 'P sections 60' defined in the 'FFT signal SS1' is divided into ten sections along the frequency axis f. In this way, the 'FFT signal SS1' may be divided into a total of 1600 ' sub- P sections 120'.
- FIG. 7A illustrates a part of the graph divided by dividing each P section into ten 'sub-P sections' in the graph of FIG. 5B.
- FIG. 7B is an enlarged view illustrating an enlarged portion H of FIG. 7A according to an exemplary embodiment of the present invention. Definitions of the horizontal axis and the vertical axis of the graph of FIG. 7A are the same as those of FIG. 5B.
- a minimum frequency f mi and a maximum frequency f ma may be defined.
- the minimum frequency f mi is the frequency of the start point of the sub-P section in each 'sub-P section'
- the maximum frequency f ma is the sub- in each 'sub-P section 120'. It may mean the frequency of the end point of the P section.
- step S33 for each 'sub-P section 120', the value of the FFT signal SS1 at the minimum frequency f mi and the FFT signal SS1 at the maximum frequency f ma Using the value of can generate a vector (b1 ⁇ b4). Since the 'sub-P section ' is 1,600 in total, 1,600 of the vectors may be generated.
- the reason why the vector is used in the present invention is that the computation time for scream detection can be shortened.
- the energy of an arbitrary first frequency band fa may be calculated by adding the absolute value of the vertical axis values of the vectors included in the arbitrary first frequency band among 1,600 vectors.
- the specific frequency bands may mean, for example, [2Khz- ⁇ f1, 2Khz- ⁇ f1] and [6Khz- ⁇ f2, 6Khz + ⁇ f2].
- the generated scream may include strong energy in the fundamental frequency band H0, the first harmonic band H1, the second harmonic band H2, the third harmonic band H3, and the fourth harmonic band H4. .
- the frequency component indicated by the solid line in FIG. 8 represents a band having energy above a predetermined sixth level, and the other regions represent a band having energy below the predetermined sixth level.
- a point having a concentration proportional to the magnitude of energy included in a specific frequency of the vertical axis at a specific time on the horizontal axis may be displayed at a point where the specific time and the specific frequency intersect.
- step S35 it may be determined whether the energy pattern of the frequency bands in the currently determined section NS1 is continuous on the time axis with respect to the energy pattern of the frequency bands in the immediately preceding section NS2, which is defined just before. have.
- the center frequency of the band having energy above the predetermined sixth level is called cf11
- the center frequency of the band having energy above the predetermined sixth level in the currently determined section is referred to as cf12.
- cf11-cf12 it may be determined whether cf11-cf12 is smaller than the seventh predetermined reference value.
- 'F' may be output and the process for each section may be terminated.
- 'F' is a symbol indicating that the current judgment object has no relation to the section screaming.
- the cf11-cf12 is smaller than the predetermined seventh reference value, it may be determined that the energy pattern of the frequency bands in the section NS1 is continuously changed with respect to the energy pattern of the frequency bands in the section NS2. And the next step.
- step S35_1 can be executed under the following conditions. That is, in the immediately preceding section NS2, the energy ratio between the bands r11 and r12 having the predetermined sixth level or more energy may be defined as E1. In the section NS1 that is currently determined, an energy ratio between the bands r21 and r22 having the energy equal to or greater than the sixth level may be defined as E2. At this time, it can be determined whether E1-E2 is smaller than the eighth predetermined value. At this time, if E1-E2 is larger than the predetermined eighth reference value, the corresponding section may be determined as F and the process for each section may be terminated.
- 'F' is a symbol indicating that the section NS1 that is the current judgment object has nothing to do with screaming.
- E1-E2 when E1-E2 is smaller than the predetermined eighth reference value, it may be determined as 'S (Scream)'.
- 'S' is a symbol indicating that 'screaming information is included' in the section NS1 currently being determined.
- step S34, step S35, and step S35-1 it may be defined as a step of determining whether an energy pattern of predetermined predetermined frequency bands satisfies the predetermined fifth condition.
- each section to be determined may be assigned a value of 'F' or 'S'. That is, in order to be determined that the section to be determined includes screaming information (S), the step S10 to step S36 must be passed. The section may be determined to be unrelated to screaming (F).
- Figure 2d shows a scream recognition process that is a fourth execution step according to an embodiment of the present invention.
- N may generally mean an average number of sections included during a time when the scream is maintained. N may be preset by the user.
- step S37 it may be determined whether the number of sections including scream information among the N past sections is M or less. Where M is less than or equal to N. When the number of sections including the screaming information is M or less, it may be finally determined that no screaming exists in the N past sections, and the scream recognition process may be terminated.
- step S39 may be executed.
- step S38 it may be determined whether there are at least P consecutive sections among the N past sections not including the scream information. In this case, if there are more than P sections that do not include the scream information among the N past sections, it may be finally determined that no scream exists in the N past sections, and the scream recognition process may be terminated. Can be.
- step S40 may be executed.
- step S39 it may be determined whether the center frequencies cf1 to cf12 of the fundamental frequency band HO where energy is concentrated among the N past sections increase and decrease from the past to the present. At this time, if it is determined that the center frequency of the fundamental frequency band H0 does not take the form of increasing and decreasing from the past to the present, it may be finally determined that no scream exists in the N past sections, and the scream recognition process Can be terminated.
- step S40 may be executed.
- step S40 it may be determined whether the reduced time is longer than the increased time of the center frequency. In this case, when it is determined that the time reduced by the center frequency is shorter than the increase time, it may be finally determined that no scream exists in the N past sections, and the scream recognition process may be terminated.
- step S41 if it is determined that the reduced time is longer than the increased time of the center frequency, it can be finally determined that screaming has occurred (step S41).
- a Fourier transform may be performed on a section signal included in the window signal, and a 'FFT signal ' , which is a frequency domain signal obtained by the Fourier transform, may be generated.
- step S110 the shape of the FFT signal is smoothed, a 'S-FFT signal', which is a frequency domain signal obtained by the smoothing, is generated, and has a predetermined fifth reference value among the S-FFT signals. It may be determined whether the number of points satisfies the third predetermined condition.
- operation S120 it may be determined whether an energy pattern of predetermined specific frequency bands satisfies a predetermined fifth condition.
- the step of determining whether the fifth condition is satisfied is performed only when the third condition is satisfied, and the section signal includes a signal corresponding to the screaming only when the fifth condition is satisfied. Otherwise, it may be determined that the section signal does not include a signal corresponding to screaming.
- FIG. 10 shows a scream detection system according to an embodiment of the present invention.
- the subscriber of the scream detection-only app may execute the scream detection-only app in the terminal 200.
- the terminal 200 may determine whether the scream is detected in real time. In this case, when the scream is detected, the scream detection information may be transmitted to the server 300. If the subscriber is in a dangerous situation, the server 300 may register information of a predetermined person who is to be contacted or information such as 119 or a police station. When the server 300 receives the information that the scream detection has been received from the terminal 200, it may be configured to transmit the fact to the third terminal 400.
- the third terminal 400 may be a terminal of a predetermined person, or may correspond to a terminal or a telephone such as a safety reporting center or a police station.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Discrete Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Alarm Systems (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Development Economics (AREA)
- Computer Security & Cryptography (AREA)
Abstract
수집된 오디오신호 중 미리 결정된 시간 길이를 갖는 윈도우에 의해 선택된 윈도우신호가 사람의 비명에 해당하는 신호를 포함하는지 여부를 결정하는 비명여부 판단방법으로서, 'FFT신호' 및 'S-FFT신호'를 생성하는 단계, 상기 S-FFT신호 중 미리 결정된 제5기준값을 갖는 지점의 개수가 미리 결정된 제3조건을 만족하는지 여부를 판단하는 단계, 및 미리 결정된 특정 주파수 대역들의 에너지 패턴이 미리 결정된 제5조건을 만족하는지 여부를 판단하는 단계를 포함하는 섹션별 프로세스를 수행하도록 되어 있다.
Description
본 발명은 전자분야에서의 신호처리기술에 관한 것으로서, 특히 오디오 신호 중 사람의 비명을 검출할 수 있는 기술에 관한 것이다.
번화가, 차도주변, 및 골목길 공원 등과 같은 공공장소에서의 소매치기, 강도, 및 성범죄 등 위험 상황 발생에 따른 안전에 대한 문제가 대두되고 있다. 이러한 위험 상황 발생을 방지하기 위한 하나의 수단으로서 소위 '안심귀가서비스'와 같은 서비스를 제공할 수 있다. 안심귀가서비스는 위급상황 발생 시, 이동무선단말에서 제공하는 기능을 이용하여 상기 위급상황을 수동으로 또는 자동으로 다른 사람들에게 알리는 과정을 포함할 수 있다. 위급상황을 자동으로 알리기 위해서는 위급상황을 자동으로 인식할 수 있어야 한다.
위급상황의 경우 비명이 발생할 수 있다. 이러한 비명을 비명이 아닌 소리로부터 구분할 수 있다면 위급상황을 자동으로 인식할 수 있다. 마이크로폰으로 획득한 신호가 비명에 해당하는지 여부를 판단하기 위해서는 신호에 대한 주파수분석을 수행하는 과정이 필요하다. 주파수분석을 하기 위해서는 상당히 큰 계산량이 요구될 수 있다. 따라서 스마트폰과 같은 이동무선단말과 같이 배터리로 동작하는 장치에서, 종래 기술에 따른 주파수분석 방법을 이용하여 계속하여 비명 여부를 판단하는 경우 스마트폰의 사용시간을 크게 단축하게 될 수 있다. 이 경우 비명 여부를 판단하는 어플리케이션이 제공되더라도 사용자들로부터 외면당할 수 있다.
따라서 비명 여부를 인식하기 위한 계산량을 줄임으로써 배터리 소모량을 낮추는 기술이 필요하다.
상술한 문제를 해결하기 위해, 본 발명에서는 위험 상황 발생 시 사람이 소리를 질렀을 때 비명인지 아닌지를 신속하게 판단하는 방법을 제공하고자 한다. 이러한 방법을 통해, 예컨대 스마트폰의 애플리케이션에서 신속하게 경찰 및/또는 미리 지정된 사람에게 연락이 취해질 수 있다.
본 발명의 일 관점에 따라, 수집된 오디오신호 중 미리 결정된 시간 길이(time length)를 갖는 윈도우에 의해 선택된 윈도우신호가 사람의 비명에 해당하는 신호를 포함하는지 여부를 결정하는 비명여부 판단방법을 제공할 수 있다. 이때, 상기 윈도우신호에 포함되어 정의되는 섹션신호에 대하여 푸리에 변환을 수행하고, 상기 푸리에 변환에 의해 얻은 주파수 영역신호인 'FFT신호
'를 생성하는 단계(S19), 상기 FFT신호의 모양을 스무딩(smoothing)하고, 상기 스무딩에 의해 얻은 주파수 영역신호인 'S-
FFT신호'를 생성하며, 상기 S-FFT신호 중 미리 결정된 제5기준값을 갖는 지점(point)의 개수가 미리 결정된 제3조건을 만족하는지 여부를 판단하는 단계(S26 ~ S29), 및 미리 결정된 특정 주파수 대역들의 에너지 패턴이 미리 결정된 제5조건을 만족하는지 여부를 판단하는 단계(S34, S35, S35-1)를 포함하는 섹션별 프로세스를 수행하도록 되어 있을 수 있다. 그리고 상기 제5조건을 만족하는지 여부를 판단하는 단계는 상기 제3조건을 만족하는 경우에만 수행하도록 되어 있고, 상기 제5조건을 만족하는 경우에만 상기 섹션신호가 비명에 해당하는 신호를 포함한다고 결정하고, 그렇지 않으면 상기 섹션신호가 비명에 해당하는 신호를 포함하지 않는다고 결정하는 것을 특징으로 할 수 있다.
이때, 상기 'FFT신호
'를 생성하는 단계 이전에, 상기 섹션신호의 통계값이 미리 결정된 제1조건을 만족하는지 여부를 결정하는 단계(S15, S17)를 더 포함하며, 상기 'FFT신호
'를 생성하는 단계는 상기 섹션신호가 상기 제1조건을 만족하는 경우에만 수행되도록 되어 있을 수 있다.
이때, 상기 'FFT신호
'를 생성하는 단계와 상기 'S-
FFT신호'를 생성하는 단계 사이에, 상기 FFT신호의 크기를 정규화하는 단계(S22)를 더 포함할 수 있다.
이때, 상기 'FFT신호
'를 생성하는 단계와 상기 정규화하는 단계 사이에, 상기 FFT신호의 최대값이 미리 결정된 제1기준값 이하인지 여부를 결정하는 단계(S21)를 더 포함하고, 상기 정규화하는 단계는 상기 FFT신호의 최대값이 상기 제1기준값 이하인 경우에만 실행되도록 되어 있을 수 있다.
이때, 시간영역에서 연속적으로 정의되는 N개의 상기 섹션신호들에 대하여 상기 섹션별 프로세스를 실행하여, 상기 N개의 섹션신호들 각각이 비명에 해당하는 신호를 포함하는지 여부를 결정하도록 되어 있을 수 있다. 이때, 상기 N개의 섹션신호들 중 에너지가 집중되어 있는 기본주파수 대역의 중심주파수가 과거로부터 현재까지 증가하다가 감소하는 것으로 판단된 경우에는, 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴지 여부를 판단하는 단계(S40)를 포함하는 비명인식 프로세스를 수행하도록 되어 있으며, 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴 경우에만 비명이 발생한 것으로 결정하는 것을 특징으로 할 수 있다.
이때, 상기 비명인식 프로세스는, 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴지 여부를 판단하는 단계 이전에, 상기 N개의 섹션신호들 중 사람의 비명에 관한 정보가 포함된 섹션신호들이 M개 이상 존재하는지 여부를 판단하는 단계(단, N>M)(S37), 및 상기 M개 이상 존재하는 것으로 판단된 경우에는, 상기 N개의 섹션신호들 중 사람의 비명에 관한 정보가 포함되어 있지 않은 것으로 결정된 섹션신호들이 시간축 상에서 P개 이상 연속하여 존재하는지 여부를 판단하는 단계(S38)를 더 포함할 수 있다. 이때, 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴지 여부를 판단하는 단계는, 상기 N개의 섹션신호들 중 사람의 비명에 관한 정보가 포함되어 있지 않은 것으로 결정된 섹션신호들이 시간축 상에서 P개 이상 연속하여 존재하지 않는다고 판단된 경우에만 실행될 수 있다.
본 발명의 일 관점에 따라, 수집된 오디오신호 중 미리 결정된 시간 길이(time length)를 갖는 윈도우에 의해 선택된 윈도우신호가 사람의 비명에 해당하는 신호를 포함하는지 여부를 결정하도록 되어 있는 처리부를 포함하는 비명여부 판단장치를 제공할 수 있다. 이때, 상기 처리부는, 상기 윈도우신호에 포함되어 정의되는 섹션신호에 대하여 푸리에 변환을 수행하고, 상기 푸리에 변환에 의해 얻은 주파수 영역신호인 'FFT신호
'를 생성하는 단계(S19), 상기 FFT신호의 모양을 스무딩(smoothing)하고, 상기 스무딩에 의해 얻은 주파수 영역신호인 'S-
FFT신호'를 생성하며, 상기 S-FFT신호 중 미리 결정된 제5기준값을 갖는 지점(point)의 개수가 미리 결정된 제3조건을 만족하는지 여부를 판단하는 단계(S26 ~ S29), 및 미리 결정된 특정 주파수 대역들의 에너지 패턴이 미리 결정된 제5조건을 만족하는지 여부를 판단하는 단계(S34, S35, S35-1)를 포함하는 섹션별 프로세스를 수행하도록 되어 있을 수 있다. 이때, 상기 제5조건을 만족하는지 여부를 판단하는 단계는 상기 제3조건을 만족하는 경우에만 수행하도록 되어 있고, 상기 제5조건을 만족하는 경우에만 상기 섹션신호가 비명에 해당하는 신호를 포함한다고 결정하고, 그렇지 않으면 상기 섹션신호가 비명에 해당하는 신호를 포함하지 않는다고 결정하는 것을 특징으로 할 수 있다.
이때, 상기 처리부는, 상기 'FFT신호
'를 생성하는 단계 이전에, 상기 섹션신호의 통계값이 미리 결정된 제1조건을 만족하는 여부를 결정하는 단계(S15, S17)를 더 처리하도록 되어 있으며, 상기 'FFT신호
'를 생성하는 단계는 상기 섹션신호가 상기 제1조건을 만족하는 경우에만 수행되도록 되어 있을 수 있다.
이때, 상기 처리부는, 상기 'FFT신호
'를 생성하는 단계 이후에, 상기 FFT신호의 크기를 정규화하는 단계, 및 상기 FFT신호의 최대값이 미리 결정된 제1기준값 이하인지 여부를 결정하는 단계(S21)를 더 처리하도록 되어 있으며, 상기 정규화하는 단계는 상기 FFT신호의 최대값이 상기 제1기준값 이하인 경우에만 실행되도록 되어 있을 수 있다.
이때, 상기 처리부는, 시간영역에서 연속적으로 정의되는 N개의 상기 섹션신호들에 대하여 상기 섹션별 프로세스를 실행하여, 상기 N개의 섹션신호들 각각이 비명에 해당하는 신호를 포함하는지 여부를 결정하도록 되어 있을 수 있다. 그리고 상기 N개의 섹션신호들 중 에너지가 집중되어 있는 기본주파수 대역의 중심주파수가 과거로부터 현재까지 증가하다가 감소하는 것으로 판단된 경우에는, 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴지 여부를 판단하는 단계(S40)를 포함하는 비명인식 프로세스를 수행하도록 되어 있으며, 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴 경우에만 비명이 발생한 것으로 결정하는 것을 특징으로 할 수 있다.
본 발명의 다른 관점에 따라 제공되는 비명여부 판단방법은, 시간영역에서 연속적으로 정의되는 N개의 상기 섹션신호들 각각이 비명에 해당하는 신호를 포함하는지 여부를 결정하는 섹션별 프로세스를 복수 회 수행하도록 되어 있을 수 있다. 또한, 상기 N개의 섹션신호들 중 에너지가 집중되어 있는 기본주파수 대역의 중심주파수가 과거로부터 현재까지 증가하다가 감소하는 것으로 판단된 경우에는, 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴지 여부를 판단하는 단계(S40)를 포함하는 비명인식 프로세스를 수행하도록 되어 있고, 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴 경우에만 비명이 발생한 것으로 결정하는 것을 특징으로 할 수 있다.
이때, 상기 비명인식 프로세스는, 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴지 여부를 판단하는 단계 이전에, 상기 N개의 섹션신호들 중 사람의 비명에 관한 정보가 포함된 섹션신호들이 M개 이상 존재하는지 여부를 판단하는 단계(단, N>M)(S37), 및 상기 M개 이상 존재하는 것으로 판단된 경우에는, 상기 N개의 섹션신호들 중 사람의 비명에 관한 정보가 포함되어 있지 않은 것으로 결정된 섹션신호들이 시간축 상에서 P개 이상 연속하여 존재하는지 여부를 판단하는 단계(S38)를 더 포함할 수 있다. 그리고 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴지 여부를 판단하는 단계는, 상기 N개의 섹션신호들 중 사람의 비명에 관한 정보가 포함되어 있지 않은 것으로 결정된 섹션신호들이 시간축 상에서 P개 이상 연속하여 존재하지 않는다고 판단된 경우에만 실행될 수 있다.
본 발명의 다른 관점에 따라 제공되는 비명여부 판단장치는, 시간영역에서 연속적으로 정의되는 N개의 상기 섹션신호들 각각이 비명에 해당하는 신호를 포함하는지 여부를 결정하는 섹션별 프로세스를 복수 회 수행하도록 되어 있는 처리부를 포함할 수 있다. 이때, 상기 처리부는, 상기 N개의 섹션신호들 중 에너지가 집중되어 있는 기본주파수 대역의 중심주파수가 과거로부터 현재까지 증가하다가 감소하는 것으로 판단된 경우에는, 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴지 여부를 판단하는 단계(S40)를 포함하는 비명인식 프로세스를 수행하도록 되어 있고, 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴 경우에만 비명이 발생한 것으로 결정하는 것을 특징으로 할 수 있다.
이때, 상기 비명인식 프로세스는, 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴지 여부를 판단하는 단계 이전에, 상기 N개의 섹션신호들 중 사람의 비명에 관한 정보가 포함된 섹션신호들이 M개 이상 존재하는지 여부를 판단하는 단계(단, N>M)(S37), 및 상기 M개 이상 존재하는 것으로 판단된 경우에는, 상기 N개의 섹션신호들 중 사람의 비명에 관한 정보가 포함되어 있지 않은 것으로 결정된 섹션신호들이 시간축 상에서 P개 이상 연속하여 존재하는지 여부를 판단하는 단계(S38)를 더 포함할 수 있다. 그리고 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴지 여부를 판단하는 단계는, 상기 N개의 섹션신호들 중 사람의 비명에 관한 정보가 포함되어 있지 않은 것으로 결정된 섹션신호들이 시간축 상에서 P개 이상 연속하여 존재하지 않는다고 판단된 경우에만 실행될 수 있다.
본 발명의 또 다른 관점에 따라, (1)두 개의 섹션신호들로 분할되는 윈도우신호가 사람의 음성인지 여부를 판단하는 단계; (2)상기 윈도우신호가 사람의 음성이라고 판단된 경우, 상기 각 섹션신호의 통계값을 기초로 상기 각 섹션신호를 미리 결정된 제1조건에 따라 테스트하는 단계; (3)상기 두 개의 섹션신호 중 상기 테스트를 통과한 섹션신호에 대하여 푸리에 변환을 수행하는 단계; 및 (4)상기 푸리에 변환이 수행된 섹션신호의 주파수 대역들 중 사람의 비명에 연관된 주파수 대역에 미리 결정된 제6수준 이상의 에너지가 존재하는지를 판단하는 단계를 포함하는 섹션별 프로세스, 및 비명인식 프로세스를 이용하여 비명을 검출하는 비명검출방법을 제공할 수 있다. 이때, 상기 섹션별 프로세스는, 상기 윈도우신호가 사람의 음성이 아니라고 판단되면 상기 두 개의 섹션신호에는 사람의 비명에 관한 정보가 포함되지 않은 것으로 결정하고, 상기 두 개의 섹션신호들 중 상기 미리 결정된 제1조건에 따른 테스트를 통과하지 못한 섹션신호에는 사람의 비명에 관한 정보가 포함되지 않은 것으로 결정하고, 상기 사람의 비명에 연관된 주파수 대역에 상기 미리 결정된 제6수준 이상의 에너지가 존재하지 않는 섹션신호에는 사람의 비명에 관한 정보가 포함되지 않은 것으로 결정하고, 상기 사람의 비명에 연관된 주파수 대역에 상기 미리 결정된 제6수준 이상의 에너지가 존재하는 섹션신호에는 사람의 비명에 관한 정보가 포함된 것으로 결정하는 것을 특징으로 할 수 있다. 그리고 상기 비명인식 프로세스는, 마이크로폰에서 검출된 소정의 길이의 오디오 신호에 대하여, 상기 섹션별 프로세스를 복수 회 수행함으로써 상기 오디오 신호에 대하여 정의되는 복수 개의 상기 섹션신호들 각각에 사람의 비명에 관한 정보가 포함되어 있는지를 판단하는 단계, 및 상기 복수 개의 섹션신호들 중 사람의 비명에 관한 정보가 포함된 섹션신호들이 미리 결정된 제4횟수 이상 존재하며, 그리고 상기 복수 개의 섹션신호들 중 사람의 비명에 관한 정보가 포함되어 있지 않은 것으로 결정된 섹션신호들이 시간축 상에서 상기 미리 결정된 제4횟수 이상 연속하여 존재하지 않는 경우에는 상기 오디오 신호에 사람의 비명소리가 포함된 것으로 결정하는 단계를 포함할 수 있다.
이때, 상기 윈도우신호가 사람의 음성인지 여부를 판단하는 단계는 상기 윈도우신호 중 사일런스 구간의 신호 값을 '0'으로 변경하는 단계, 및 상기 윈도우신호가 갖는 에너지가 음성에너지에 대응하는지 판단하는 단계를 포함하며, 상기 윈도우신호가 갖는 에너지가 음성에너지에 대응하지 않는다고 판단된 경우, 상기 섹션별 프로세스를 종료하도록 되어 있을 수 있다.
이때, 상기 각 섹션신호의 통계값을 기초로 상기 각 섹션신호를 미리 결정된 제1조건에 따라 테스트하는 단계는, 상기 테스트에 통과한 섹션신호를 후보섹션신호로 선택하는 단계, 상기 후보섹션신호의 후보섹션구간을 시간 축에서 서로 오버랩되며 동일한 시간 길이를 갖는 미리 결정된 제5개수의 파트들로 분할하는 단계, 상기 파트들 각각의 에너지값 및 통계값이 미리 결정된 제2조건을 만족하는지 판단하는 단계, 및 상기 각 후보섹션에 포함된 상기 미리 결정된 제5개수의 파트들 중 음성이 아니라고 판단되는 파트들이 미리 결정된 제1개수 이상 연속적으로 나타나는지 판단하는 단계를 포함할 수 있다. 그리고 상기 각 후보섹션에 포함된 상기 미리 결정된 제5개수의 파트들 중 음성이 아니라고 판단되는 파트들이 미리 결정된 제1개수 이상 연속적으로 나타난 경우, 상기 섹션별 프로세스를 종료하도록 되어 있을 수 있다.
이때, 상기 푸리에 변환을 수행하는 단계 이후에, 상기 푸리에 변환이 수행된 제1신호(SS1)에 대하여 제1최대값(MAX) 및 제1최소값(MIN)을 검출하여, 상기 제1최대값이 미리 결정된 제1기준치 이상인지의 여부를 판단하는 단계, 및 상기 제1최대값이 상기 미리 결정된 제1기준치 이상이라고 판단된 경우, 상기 섹션별 프로세스를 종료하고, 상기 제1최대값이 상기 미리 결정된 제1기준치 이상이 아니라고 판단된 경우, 상기 제1최대값과 상기 제1최소값이 각각 미리 결정된 제1정규화구간의 제2최대값(1) 및 제2최대값(0)이 되도록 제1정규화를 수행하는 단계를 더 수행하도록 되어 있을 수 있다.
이때, 상기 제1신호(SS1)를 주파수축을 기준으로 미리 결정된 제6개수(160개) 만큼의 P구간으로 분할하는 단계, 상기 제1신호의 변곡점을 검색하여 상기 변곡점의 주파수값 및 크기를 키포인트로 정의하여 제1키포인트 어레이에 저장하는 단계, 상기 주파수축을 기준으로 연속된 두 개의 키포인트들 간의 크기의 차이를 깊이로 정의하여 제1깊이 어레이에 저장하는 단계, 및 상기 깊이의 절대값이 미리 결정된 제2기준값보다 작은 한 쌍의 키포인트들을 상기 제1깊이 어레이에서 제거하여 상기 제1깊이 어레이를 갱신하는 단계를 더 포함할 수 있다.
이때, 상기 깊이의 절대값이 미리 결정된 제3기준값 이상이 되는 두 개의 연속된 키포인트들 사이의 P구간들을 유효한 유효P구간들로 결정하는 단계, 상기 유효P구간들 중 상기 깊이가 미리 결정된 제4기준값보다 작은 유효P구간은 상기 유효P구간 내에서의 제1신호의 최대값(M1) 및 최소값(m1)이 각각 미리 결정된 제2정규화 구간의 최대값(MAX1) 및 최소값(MIN1)을 갖도록 제2정규화를 수행하는 단계, 상기 제1키포인트 어레이에서, 상기 제2정규화가 수행된 유효P구간에 포함된 키포인트들의 크기를 정규화된 값으로 갱신하여 제2키포인트 어레이에 저장하는 단계, 상기 제2키포인트 어레이에 저장된 키포인트들을 연결하여 제2신호(SS2)를 생성하는 단계, 상기 제2신호 중 미리 결정된 제5기준값을 갖는 R-크로싱 포인트의 개수를 확인하는 단계, 및 상기 R-크로싱 포인트의 개수가 미리 결정된 제3조건을 만족하는지 판단하는 단계를 포함할 수 있다. 그리고 상기 R-크로싱 포인트의 개수가 상기 미리 결정된 제3조건을 만족하지 않으면, 상기 섹션별 프로세스를 종료하도록 되어 있을 수 있다.
이때, 상기 푸리에 변환이 수행된 섹션신호의 주파수 대역들 중 사람의 비명에 연관된 주파수 대역에 미리 결정된 제6수준 이상의 에너지가 존재하는지를 판단하는 단계는, 상기 제1신호의 상기 미리 결정된 제6개수(160개)의 P구간 각각을 sub-P구간으로 세부분할하는 단계, 상기 sub-P구간에서, 상기 제1신호의 최소주파수(fmi)에서의 값과 상기 제1신호의 최대주파수(fma)에서의 값을 이용하여 벡터를 생성하는 단계, 미리 결정된 제1주파수 대역의 에너지를 상기 미리 결정된 제1주파수 대역에 포함된 벡터들의 절대값들을 이용하여 계산하는 단계, 상기 제1신호에서, 특정 주파수 대역들 간의 에너지 패턴이 미리 결정된 제4조건을 만족하는지 판단하는 단계, 및 상기 후보섹션(NS1)에서의 주파수 별 에너지 패턴이 상기 후보섹션 바로 직전에 정의되어 있는 바로 이전 섹션(NS2)에서의 주파수 별 에너지 패턴과 비교하여 시간 축 상에서 연속적인지 판단하는 단계를 포함하며, 상기 시간 축 상에서 연속적이지 않다고 판단된 경우, 상기 섹션별 프로세스를 종료하도록 되어 있을 수 있다.
이때, 상기 후보섹션(NS1)에서의 주파수 별 에너지 패턴이 상기 후보섹션 바로 직전에 정의되어 있는 바로 이전 섹션(NS2)에서의 주파수 별 에너지 패턴과 비교하여 시간 축 상에서 연속적인지 판단하는 단계는, 상기 바로 이전 섹션(NS2)에서 상기 미리 결정된 제6수준 이상의 에너지를 갖는 대역의 제1중심주파수(cf11)와 상기 후보섹션에서 상기 미리 결정된 제6수준 이상의 에너지를 갖는 대역의 제2중심주파수(cf12)의 차가 미리 결정된 제7기준값보다 작은지의 여부를 판단하는 단계를 포함하며, 상기 제1중심주파수(cf11)와 상기 제2중심주파수(cf12)의 차가 상기 미리 결정된 제7기준값보다 작으면 상기 섹션별 프로세스를 종료하도록 되어 있을 수 있다.
이때, 상기 후보섹션(NS1)에서의 주파수 별 에너지 패턴이 상기 후보섹션 바로 직전에 정의되어 있는 바로 이전 섹션(NS2)에서의 주파수 별 에너지 패턴과 비교하여 시간 축 상에서 연속적인지 판단하는 단계는, 상기 바로 이전 섹션(NS2)에서 상기 미리 결정된 제6수준 이상의 에너지를 갖는 대역들 간의 제1에너지 비율(E1)과 상기 후보섹션에서 상기 미리 결정된 제6수준 이상의 에너지를 갖는 대역들 간의 제2에너지 비율(E2)의 차가 미리 결정된 제8기준값보다 작은지의 여부를 판단하는 단계를 더 포함하며, 상기 제1에너지 비율(E1)과 제2에너지 비율(E2)의 차가 상기 미리 결정된 제8기준값보다 작으면 상기 섹션별 프로세스를 종료하도록 되어 있을 수 있다.
본 발명에 따르면, 본 발명에서는 위험 상황 발생 시 사람이 소리를 질렀을 때 비명인지 아닌지를 신속하게 판단하는 방법을 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 스마트폰의 구성도를 나타낸 것이다.
도 2a 내지 도 2c는 본 발명의 일 실시예에 따른 '섹션별 프로세스'를 위한 일련의 실행 과정을 순서도로 나타낸 것이고, 도 2d는 본 발명의 일 실시예에 따른 '비명인식 프로세스'를 위한 일련의 실행 과정을 순서도로 나타낸 것이다.
도 3은 본 발명의 일 실시예에 따른 비명검출을 위한 섹션별 프로세스 실행 과정을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따라 정의되는 '섹션'을 설명하기 위한 도면이다.
도 5a는 본 발명의 일 실시예에 따른 'FFT후보섹션'에 대하여 FFT를 수행하여 얻은 'FFT신호'를 그래프로 나타낸 것이고, 도 5b는 본 발명의 일 실시예에 따라 상기 'FFT신호'를 정규화하여 얻은 정규화된 주파수신호인 'N-FFT신호'를 그래프로 나타낸 것이며, 도 5c는 상기 'N-FFT신호'의 일부를 나타낸 것이다.
도 6은 본 발명의 일 실시예에 따른 재구성된 'S-FFT신호(SS2)'를 그래프로 나타낸 것이다.
도 7a은 도 5b의 그래프에서, 각각의 P구간을 10개의 'sub-P구간'으로 분할하여 구분한 그래프의 일 부분을 나타낸 것이다. 도 7b는 본 발명의 일 실시예에 따라 도 7a의 H부분을 확대한 확대도이다.
도 8은 비명이 발생한 경우 시간의 흐름에 따라 검출할 수 있는 주파수 성분 값을 시간-주파수 평면 상에 나타낸 예이다.
도 9는 본 발명의 일 실시예에 따른 섹션별 프로세스를 나타낸 것이다.
도 10은 본 발명의 일 실시예에 따른 비명 검출 시스템을 나타낸 것이다.
이하, 본 발명의 실시예를 첨부한 도면을 참고하여 설명한다. 그러나 본 발명은 본 명세서에서 설명하는 실시예에 한정되지 않으며 여러 가지 다른 형태로 구현될 수 있다. 본 명세서에서 사용되는 용어는 실시예의 이해를 돕기 위한 것이며, 본 발명의 범위를 한정하고자 의도된 것이 아니다. 또한, 이하에서 사용되는 단수 형태들은 문구들이 이와 명백히 반대의 의미를 나타내지 않는 한 복수 형태들도 포함한다.
도 1은 본 발명의 일 실시예에 따른 스마트폰(단말기)의 구성도를 나타낸 것이다.
스마트폰(단말기)(200)은 마이크로폰(210), 처리부(220), 저장부(230), 및 통신부(240)를 포함할 수 있다. 스마트폰 내에서 비명검출 전용 애플리케이션(이하, 앱)을 실행하면, 상기 앱은 백그라운드에서 동작하도록 되어 있을 수 있다. 마이크로폰(210)에서 소리를 수집하도록 되어 있으며, 마이크로폰(210)에서 수집된 소리는 처리부(220)로 입력되도록 되어 있을 수 있다. 이때, 처리부(220)에서 후술할 도 2a 내지 도 2d의 단계들이 실행되도록 되어 있을 수 있다. 저장부(230)에서는 처리부(220)의 실행 결과가 저장될 수 있으며, 처리부(220)에서 비명이 검출된 경우 통신부(240)에 그 결과를 송신하도록 되어 있을 수 있다. 통신부(240)에서는 비명검출여부를 서버(300)로 송신하도록 되어 있을 수 있다.
도 2a 내지 도 2c는 본 발명의 일 실시예에 따른 '섹션별 프로세스'를 위한 일련의 실행 과정을 순서도로 나타낸 것이다.
도 2d는 본 발명의 일 실시예에 따른 '비명인식 프로세스'를 위한 일련의 실행 과정을 순서도로 나타낸 것이다.
<
섹셜별
프로세스>
도 2a는 본 발명의 일 실시예에 따른 섹션별 프로세스를 위한 제1실행단계를 나타낸 것이다.
도 3은 본 발명의 일 실시예에 따른 비명검출을 위한 섹션별 프로세스 실행 과정을 설명하기 위한 도면이다.
이하 설명되는 각 단계들은, 스마트폰과 같은 이동무선단말의 처리장치(예컨대, 처리부(220))에서 디지털 프로세싱에 의해 실행될 수 있다는 점은 쉽게 이해될 수 있다.
이하 설명하는 상기 섹션별 프로세스에서 정의하는 각각의 섹션에 대하여는 F 또는 S의 값을 매칭시킬 수 있다. 이를 위하여 예컨대, k개의 섹션이 정의되는 경우 k개의 요소(element)를 갖는 어레이를 정의할 수도 있다. 각각의 상기 섹션에 대하여 상기 섹션별 프로세스가 수행되면 상기 어레이의 해당 요소에는 F 또는 S가 저장될 수 있다.
단계(S10)에서, 시간 축에서 샘플링된 타임 시리즈 '오디오 신호(1)'를 획득할 수 있다. 도 3의 가로축 및 세로축은 모두 이산값(discrete value)을 가질 수 있다.
단계(S11)에서, 미리 결정된 시간 길이(T)를 갖는 윈도우(10)를 이용하여 상기 오디오 신호(1) 중 일부의 신호를 선택할 수 있다. 상기 선택된 신호를 '윈도우 신호(11)'라고 지칭할 수 있다.
단계(S12)에서, '윈도우 신호(11)' 중 사일런스 구간(T_S, S1~S3)으로 판단되는 구간의 신호 값을 '0'으로 변경할 수 있다.
단계(S13)에서, '윈도우 신호(11)'가 갖는 에너지가 음성의 에너지에 대응하는지 판단할 수 있다.
이때, '윈도우 신호(11)'가 갖는 에너지가 음성의 에너지에 대응하지 않는다면, 비명정보가 없는 것으로 간주하며, 'F(=false)'를 출력하고 섹션별 프로세스를 종료할 수 있다. 여기서 'F'는 상기 윈도우 신호가 비명과 관련 없음을 나타내는 기호이다.
이와 달리, '윈도우 신호(11)'가 갖는 에너지가 음성의 에너지에 대응한다면, 단계(S14)를 실행할 수 있으며, '윈도우 신호(11)'가 단계(S13)을 통과한 것으로 간주할 수 있다. 그리고 단계(S13)을 통과한 '윈도우 신호(11)'를 '후보
윈도우
신호'라고 지칭할 수 있다.
단계(S14)에서, 상기 '후보 윈도우 신호'를 '윈도우 신호'의 길이(T)의 절반의 길이(T/2)를 갖는 서로 구분되는 두 개의 섹션(A1, B1)으로 구분할 수 있다.
도 4는 본 발명의 일 실시예에 따라 정의되는 '섹션'을 설명하기 위한 도면이다.
단계(S15)에서, 단계(S14)에서 구분된 '후보 윈도우 신호'의 각 섹션(예컨대, A1)에 포함된 신호의 통계값이 미리 결정된 제1조건을 만족하는지 판단할 수 있다. 이때, 상기 통계값은 평균, 분산, 및 표준편차를 포함하는 개념일 수 있다.
이때, 상기 통계값이 상기 미리 결정된 제1조건을 만족하지 않으면, 만족하지 않는 상기 각 섹션에 대하여 'F'를 출력하고 섹션별 프로세스를 종료할 수 있다. 여기서 'F'는, 여기에 대응되는 상기 섹션이 비명과 관련 없음을 나타내는 기호이다.
이와 달리, 판단 대상이 되는 섹션에 대하여, 상기 통계값이 상기 미리 결정된 제1조건을 만족하면 단계(S16)을 실행할 수 있으며, 상기 섹션은 단계(S15)를 통과한 것으로 간주할 수 있다. 그리고 단계(S15)를 통과한 섹션을 '후보섹션(20)'이라고 지칭할 수 있다.
단계(S16)에서, 상기 '후보섹션(20)'을, 시간 축에서 서로 오버랩되며 동일한 시간 길이를 갖는 12개의 구간들로 분할 수 있으며, 분할된 상기 각 구간을 '파트(30)'라고 정의할 수 있다. 도 4는, 편의를 위하여 오버랩 길이가 0인 예를 나타낸 것이다.
단계(S17)에서, 상기 각 '파트'의 에너지 및 통계값이 미리 결정된 제2조건을 만족하는지 판단할 수 있다.
이때, 상기 각 '파트'의 에너지 및 통계값이 상기 미리 결정된 제2조건을 만족하지 않으면, 각 '파트'가 비명과 관련 없는 것으로 판단할 수 있다.
이와 달리, 상기 각 '파트'의 에너지 및 통계값이 상기 미리 결정된 제2조건을 만족하면, 상기 각 '파트'가 음성과 관련된 것으로 판단할 수 있다. 이때, 각 파트별로 음성에 관련되었는지의 여부를 (Y, N)로 출력할 수 있다. 음성에 관련된 '파트'는 'Y'라는 기호에 대응시키고, 그렇지 않은 파트는 'N'이라는 기호에 대응시킬 수 있다.
단계(S18)에서, 각 '후보섹션(20)'에 포함된 12개의 '파트(30)' 중 음성이 아니라고 판단되는 파트(N)들이 미리 결정된 제1개수(예컨대, 3개) 이상 연속적으로 나타나는지 판단할 수 있다.
이때, 상기 각 후보섹션에 포함된 12개의 파트 중 음성이 아니라고 판단되는 파트(N)들이 상기 미리 결정된 제1개수 이상 연속적으로 나타난다면, 'F'를 출력하고 섹션별 프로세스를 종료할 수 있다. 여기서 'F'는, 대응되는 상기 섹션이 비명과 관련 없음을 나타내는 기호이다.
이와 달리, 음성이 아니라고 판단되는 파트(N)들이 상기 미리 결정된 제1개수 이상 연속적으로 나타나지 않는 '후보섹션'은, 비명이 포함되어 있을 수 있는 음성을 포함한다고 판단할 수 있으며, 단계(S18)를 통과할 것으로 간주할 수 있다. 상기 통과한 '후보섹션'은 이하 'FFT후보섹션'이라고 지칭할 수 있다. 상기 'FFT후보섹션'에 대해서는 단계(S19)를 실행할 수 있다. 상기 'FFT후보섹션'은 상술한 단계(S10) 내지 단계(S18)을 모두 통과한 음성신호를 의미할 수 있다.
도 4에 나타낸 예에서, 상기 미리 결정된 제1개수가 3으로 정의된 경우, 음성이 아니라고 판단되는 파트(N)의 개수가 3개가 넘으므로 'F'를 출력하고 섹션별 프로세스를 종료할 수 있다.
도 2b는 본 발명의 일 실시예에 따른 제2실행단계를 나타낸 것이다.
도 5a는 본 발명의 일 실시예에 따른 'FFT후보섹션'에 대하여 FFT를 수행하여 얻은 'FFT신호
'를 그래프로 나타낸 것이고, 도 5b는 본 발명의 일 실시예에 따라 상기 'FFT신호'를 정규화하여 얻은 정규화된 주파수신호인 'N-
FFT신호
'를 그래프로 나타낸 것이며, 도 5c는 상기 'N-FFT신호'의 일부를 나타낸 것이다. 각 그래프의 가로축은 주파수(f)를 나타내고, 세로축은 진폭(A)을 나타낸다.
단계(S19)에서, 상기 FFT후보섹션에 대하여 FFT를 수행하여 얻은 주파수 도메인에서의 신호인 FFT신호(SS1)를 산출할 수 있다.
단계(S20)에서, FFT신호(SS1)에 대하여, 최대값(MAX) 및 최소값(MIN)을 검출할 수 있다.
단계(S21)에서, 상기 최대값이 미리 결정된 제1기준치 이상인지의 여부를 판단할 수 있다.
이때, 상기 최대값이 상기 미리 결정된 제1기준치 이상인 경우에는, 'F'를 출력하고 섹션별 프로세스를 종료할 수 있다. 여기서 'F'는 상기 'FFT후보섹션'이 비명과 무관함을 나타내는 기호이다.
이와 달리, 상기 최대값이 상기 미리 결정된 제1기준치 이하인 경우에는 단계(S22)로 진행할 수 있다.
단계(S21)은 상기 최대값이 비명 시에 나올 수 있는 값보다 큰 경우를 배제하기 위하여 수행될 수 있다.
단계(S22)에서, 상기 최대값과 최소값이 각각 미리 결정된 제1정규화구간(50)의 최대값(ex: 1) 및 최소값(ex: 0)이 되도록 상기 FFT신호(SS1)의 크기를 정규화할 수 있다. 단계(S22)는 상황 별로 다른 배경소음 환경에 따른 영향을 제거하기 위한 단계일 수 있다.
단계(S23)에서, 주파수 축(f)을 따라 FFT신호(SS1)를 160개의 'P구간(60)'으로 분할할 수 있다. 이때, 각 'P구간'을 나타내는 160개의 요소를 갖는 어레이를 정의할 수 있다.
단계(S24)에서, 'FFT신호(SS1)'의 변곡점(70)을 검색하여 상기 변곡점(70)의 주파수 값 및 크기를 '키포인트
(key point)'로 정의하여 '제1키포인트 어레이(first key point array)'에 저장할 수 있다.
단계(S25)에서, 주파수 축(f)에서 연속된 두 개의 '키포인트(key point)'들 간의 크기의 차이를 깊이(80)로 정의하여 '제1깊이 어레이(first depth array)'에 저장할 수 있다.
이때, 만일 상기 미리 결정된 제1정규화구간(50)의 최대값 및 최소값이 각각 1 및 0으로 정의된 경우, '깊이'는 -1부터 1까지의 값을 가질 수 있다. 그리고 '깊이'는 해당 주파수에서의 에너지의 크기와 연관되어 있을 수 있다.
단계(S26)에서, 깊이의 절대값(예컨대, d2)이 미리 결정된 제2기준값보다 작은 한 쌍의 '키포인트(key point)'들을 상기 '제1깊이 어레이'로부터 제거하여, 상기 '제1깊이 어레이'를 갱신할 수 있다.
이때, 갱신된 상기 '제1깊이 어레이'에 속한 요소들로부터 깊이(d4)를 다시 정의할 수 있으며, 상기 다시 정의된 깊이를 '제2깊이 어레이(second depth array)'에 저장할 수 있다.
단계(S27)에서, 깊이의 절대값이 미리 결정된 제3기준값 이상을 갖는 두 개의 연속된 '키포인트(key point)'들 사이에 존재하는 상기 'P구간'들을 유효한 '유효
P구간(90)'이라고 정의할 수 있다. 이때, 복수 개의 유효 P구간들이 정의될 수 있다. 상기 각 '유효 P구간(90)'은 한 개 이상의 상기 'P구간'을 포함할 수 있다. 예컨대, 인덱스 2를 갖는 P구간(60b), 및 인덱스 6을 갖는 P구간(60c)에 존재하는 두 개의 키포인트(key point) 간의 깊이가 상기 제3기준값 이상이면, 인덱스 2~6의 P구간들이 한 개의 '유효 P구간'에 속하는 것으로 간주할 수 있다. 이때, 인덱스 2, 및 인덱스 6은 각각 'FFT신호(SS1)'의 2번째 P구간, 6번째 P구간을 의미할 수 있다.
단계(S28)에서, 복수 개의 '유효 P구간(90)' 중 상기 깊이가 미리 결정된 제4기준값보다 작은 '유효 P구간'(예컨대, 90a 구간)은, 그 구간 내에서의 'N-FFT신호'의 최대값(M1)과 최소값(m1)이 각각 미리 결정된 부분정규화 구간의 최대값(MAX1) 및 최소값(MIN1)을 갖도록 부분정규화할 수 있다.
이때, 상기 '부분정규화된 유효 P구간'에 포함된 키포인트(key point)의 크기를 상기 부분정규화된 값으로 갱신하여 상기 '제2키포인트 어레이'에 저장하고, 상기 부분정규화된 유효 P구간을 제외한 나머지 P구간에 포함된 키포인트들은 그 값을 갱신하지 않은 상태로 상기 '제2키포인트 어레이'에 저장할 수 있다.
이때, 상기 미리 결정된 부분정규화 구간의 최소값(MIN1) 및 최대값(MAX1)은 0 및 1이 아닌 다른 값을 가질 수 있다. 예컨대, 상기 미리 결정된 부분정규화 구간의 최소값(MIN1) 및 최대값(MAX1)은 각각 0.2 및 0.8일 수 있다. 상기 부분정규화를 수행하는 이유는, 이하 설명하는 분석을 수행하기 위함이다.
단계(S29)에서, 상기 '제2키포인트 어레이'에 저장된 '키포인트'(key point)들을 연결하여 재구성된 'S-
FFT신호(SS2)'를 생성할 수 있다. 도 6은 본 발명의 일 실시예에 따른 재구성된 'S-FFT신호(SS2)'를 그래프로 나타낸 것이다. 이때, 상기 재구성된 S-FFT신호(SS2) 그래프의 가로축은 주파수(f)를 나타내며, 세로축은 진폭(A)을 나타낸다. 도 6에서는 편의상 각 '키포인트(key point)'들 사이를 직선으로 연결하였으나 곡선으로 연결할 수도 있다.
상기 단계(S26) 내지 단계(S29)를 수행하면 상기 FFT신호의 그래프가 스무딩(smoothing)되어 더 단순한 형태의 그래프로 변경될 수 있으며, 이렇게 단순하게 변경된 그래프의 예가 상술한 S-FFT신호(SS2)이다.
단계(S30)에서, 상기 재구성된 'S-FFT신호(SS2)' 중 미리 결정된 제5기준값을 갖는 포인트를 'R-
크로싱
포인트(Reference amplitude crossing point)'라고 지칭할 수 있다. 그리고 'R-크로싱 포인트'의 개수를 체크할 수 있다. 이때, 상기 미리 결정된 제5기준값은 상기 'S-
FFT
신호(SS2)'가 가질 수 있는 범위의 값 중 선택된 어느 하나의 값을 의미할 수 있다. 예컨대, 도 6에서 상기 미리 결정된 제5기준값은 Ry일 수 있으며, 'R-크로싱 포인트'는 R1~R10을 포함할 수 있다.
단계(S31)에서, 'R-크로싱 포인트'의 개수가 미리 결정된 제3조건을 만족하는지 판단할 수 있다. 즉, 'R-크로싱 포인트'의 개수가 미리 결정된 제2개수보다 작으면, 'F'를 출력하고, 섹션별 프로세스를 종료할 수 있다. 여기서 'F'는 상기 'FFT후보섹션'이 비명과 무관함을 나타내는 기호이다.
이와 달리, 'R-크로싱 포인트'의 개수가 상기 미리 결정된 제2개수보다 크면, 단계(S32)을 실행할 수 있다.
도 2c는 본 발명의 일 실시예에 따른 제3실행단계를 나타낸 것이다.
단계(S32)에서, 'FFT신호(SS1)'에서 정의한 160개의 'P구간(60)'을 각각, 주파수축(f)을 따라서 10개의 구간으로 분할한다. 이렇게 하면 'FFT신호(SS1)'는 총 1600개의 'sub-
P구간(120)'으로 나뉠 수 있다.
도 7a은 도 5b의 그래프에서, 각각의 P구간을 10개의 'sub-P구간'으로 분할하여 구분한 그래프의 일 부분을 나타낸 것이다. 도 7b는 본 발명의 일 실시예에 따라 도 7a의 H부분을 확대한 확대도이다. 도 7a의 그래프의 가로축과 세로축의 정의는 도 5b와 동일하다.
각 'sub-P구간(120)'에 대하여, 최소주파수(fmi) 및 최대주파수(fma)를 정의할 수 있다. 이때, 최소주파수(fmi)는 각 'sub-P구간'에서의 sub-P구간 시작점의 주파수를 의미하고, 최대주파수(fma)는 각 'sub-P구간(120)'에서의 sub-P구간 종료점의 주파수를 의미할 수 있다.
단계(S33)에서, 각 'sub-P구간(120)'에 대하여, 상기 최소주파수(fmi)에서의 FFT신호(SS1)의 값과 상기 최대주파수(fma)에서의 FFT신호(SS1)의 값을 이용하여 벡터(b1~b4)를 생성할 수 있다. 'sub-P구간'은 총 1,600개이므로 상기 벡터는 총 1,600개가 생성될 수 있다.
본 발명에서 벡터를 사용하는 이유는 비명검출을 위한 연산시간을 단축시킬 수 있기 때문이다.
이때, 임의의 제1주파수 대역(fa)의 에너지를, 1,600개의 벡터 중 상기 임의의 제1주파수 대역에 포함된 벡터들의 세로축 값의 절대값을 더함으로써 계산할 수 있다.
단계(S34)에서, '특정 주파수 대역들 간의 에너지 패턴'이 미리 결정된 제4조건을 만족하는지 판단할 수 있다. 예컨대, '특정 주파수 대역들 간의 에너지 비율'이 상기 미리 결정된 제4조건을 만족하는지 판단할 수 있다. 이때, 상기 특정 주파수 대역들은 예컨대, [2Khz - Δf1, 2Khz - Δf1] 및 [6Khz - Δf2, 6Khz + Δf2]를 의미할 수 있다.
도 8은 비명이 발생한 경우 시간의 흐름에 따라 검출할 수 있는 주파수 성분 값을 시간-주파수 평면 상에 나타낸 예이다. 그래프의 가로축은 시간(t)을 나타내며, 세로축은 주파수(f)를 나타낸다. 발생한 비명은, 기본주파수 대역(H0), 제1하모닉 대역(H1), 제2하모닉 대역(H2), 제3하모닉 대역(H3), 제4하모닉 대역(H4)에서 강한 에너지를 포함할 수 있다.
이때, 도 8에서 실선으로 표시된 주파수 성분은 미리 결정된 제6수준 이상의 에너지를 갖는 대역을 나타낸 것이며, 그 밖의 영역은 상기 미리 결정된 제6수준 이하의 에너지를 갖는 대역을 나타낸 것이다. 그러나 도 8과 달리, 가로축의 특정 시간에서 세로축의 특정 주파수에 포함된 에너지의 크기에 비례하는 농도를 갖는 점을, 상기 특정 시간 및 상기 특정 주파수가 교차하는 지점에 표시할 수도 있다.
단계(S35)에서, 현재 판단대상인 섹션(NS1)에서의 주파수 대역들의 에너지 패턴이 바로 이전에 정의되어 있는 바로 이전 섹션(NS2)에서의 주파수 대역들의 에너지 패턴에 대하여 시간 축 상에서 연속적인지 판단할 수 있다.
예컨대, 바로 이전 섹션(NS2)에서 상기 미리 결정된 제6수준 이상의 에너지를 갖는 대역의 중심주파수를 cf11이라고 하고, 현재 판단대상인 섹션에서 상기 미리 결정된 제6수준 이상의 에너지를 갖는 대역의 중심주파수를 cf12라고 할 때에, cf11-cf12가 미리 결정된 제7기준값보다 작은지의 여부를 판단할 수 있다. 이때, 상기 cf11-cf12가 상기 미리 결정된 제7기준값보다 크면 'F'를 출력하고 섹션별 프로세스를 종료할 수 있다. 여기서 'F'는 상기 현재 판단대상이 섹션이 비명과 무관함을 나타내는 기호이다.
이와 달리, 상기 cf11-cf12가 상기 미리 결정된 제7기준값보다 작으면 섹션(NS1)에서의 주파수 대역들의 에너지 패턴이 섹션(NS2)에서의 주파수 대역들의 에너지 패턴에 대하여 연속적으로 변화한 것이라고 판단할 수 있으며, 그 다음 단계를 실행할 수 있다.
그 다음, 단계(S35_1)을 다음과 같은 조건에 의해 실행할 수 있다. 즉, 바로 이전 섹션(NS2)에서 상기 미리 결정된 제6수준 이상의 에너지를 갖는 대역들(r11, r12) 간의 에너지 비율을 E1이라고 정의할 수 있다. 그리고 현재 판단대상인 섹션(NS1)에서 상기 미리 결정된 제6수준 이상의 에너지를 갖는 대역들(r21, r22) 간의 에너지 비율을 E2라고 정의할 수 있다. 이 때에, E1-E2가 미리 결정된 제8기준값보다 작은지의 여부를 판단할 수 있다. 이때, E1-E2가 상기 미리 결정된 제8기준값보다 크면, 해당 섹션을 F로 판정하고 섹션별 프로세스를 종료할 수 있다. 여기서 'F' 상기 현재 판단대상인 섹션(NS1)이 비명과 무관함을 나타내는 기호이다.
이와 달리, 상기 E1-E2가 상기 미리 결정된 제8기준값보다 작으면 'S(Scream)'로 판정할 수 있다. 여기서 'S'는 상기 현재 판단대상인 섹션(NS1)에 '비명정보가 포함'되어 있음을 나타내는 기호이다.
상술한 단계(S34), 단계(S35), 및 단계(S35-1)을 통틀어, 미리 결정된 특정 주파수 대역들의 에너지 패턴이 미리 결정된 제5조건을 만족하는지 여부를 판단하는 단계로 정의할 수 있다.
지금까지의 과정을 통하여, 판단대상이 되는 각 섹션에는 'F' 또는 'S'의 값이 할당될 수 있다. 즉, 판단대상이 되는 섹션에 비명정보가 포함되어 있는 것(S)으로 판단되려면 단계(S10) 내지 단계(S36)을 통과해야 하며, 이 중 어느 하나의 단계에서라도 탈락하는 경우에는 상기 판단대상이 되는 섹션은 비명과는 관련이 없는 것(F)으로 판단될 수 있다.
<비명인식 프로세스>
도 2d는 본 발명의 일 실시예에 따른 제4실행단계인 비명인식 프로세스를 나타낸 것이다.
단계(S36)에서, 현재 판단대상 섹션(NS1)을 기준으로, 미리 결정된 제3개수인 N개의 과거 섹션들 각각에 대하여 비명정보가 포함되어 있는지 여부를 확인할 수 있다. 이때, 상기 N은 일반적으로 비명이 발생한 경우 상기 비명이 유지되는 시간 동안 포함되는 섹션의 평균적인 개수를 의미할 수 있다. N은 사용자에 의해 미리 설정될 수 있다.
단계(S37)에서, N개의 과거 섹션들 중 비명정보가 포함되어 있는 섹션들의 개수가 M개 이하인지 판단할 수 있다. 이때, M은 N보다 작거나 같다. 상기 비명정보가 포함되어 있는 섹션들의 개수가 M개 이하이면, 상기 N개의 과거 섹션들에는 비명이 존재하지 않는다고 최종적으로 판단하고 상기 비명인식 프로세스를 종료할 수 있다.
이와 달리, 상기 비명정보가 포함되어 있는 섹션들의 개수가 M개 이하가 아니라면, 단계(S39)을 실행할 수 있다.
단계(S38)에서, N개의 과거 섹션들 중 비명정보가 포함되어 있지 않은 섹션들이 P개 이상 연속되어 있는지 판단할 수 있다. 이때, N개의 과거 섹션들 중 비명정보가 포함되어 있지 않은 섹션들이 P개 이상 연속되어 있다면, 상기 N개의 과거 섹션들에는 비명이 존재하지 않는다고 최종적으로 판단할 수 있으며, 상기 비명인식 프로세스를 종료할 수 있다.
예컨대, 'S(scream)'가 비명이라고 판단된 섹션을 나타내는 것으로 정의하고, 'F(false)'가 비명이 아니라고 판단된 섹션을 나타내는 것으로 정의한 경우, N=11 이고 P=4라면, 11개의 섹션들 중 비명정보가 포함되어 있지 않은 섹션(F)들이 4개 이상 연속되어 있으므로 비명정보가 포함되어 있지 않다고 판단할 수 있어, 비명인식 프로세스는 종료될 수 있다.
이와 달리, N개의 과거 섹션들 중 비명정보가 포함되어 있지 않은 섹션들이 P개 이상 연속되어 있지 않다면, 단계(S40)을 실행할 수 있다.
단계(S39)에서, N개의 과거 섹션들 중 에너지가 집중되어 있는 기본주파수 대역(H0)의 중심주파수(cf1~cf12)가 과거에서부터 현재까지 증가하다가 감소하는지 판단할 수 있다. 이때, 기본주파수 대역(H0)의 중심주파수가 과거에서부터 현재까지 증가하다가 감소하는 형태를 취하지 않는다고 판단되면, 상기 N개의 과거 섹션들에는 비명이 존재하지 않는다고 최종적으로 판단할 수 있으며, 상기 비명인식 프로세스를 종료할 수 있다.
이와 달리, 상기 기본주파수 대역의 중심주파수가 과거에서부터 현재까지 증가하다가 감소하는 형태를 취하는 경우, 단계(S40)를 실행할 수 있다.
단계(S40)에서, 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴지 여부를 판단할 수 있다. 이때, 상기 중심주파수가 증가한 시간보다 감소한 시간이 짧다고 판단된 경우, 상기 N개의 과거 섹션들에는 비명이 존재하지 않는다고 최종적으로 판단할 수 있으며, 상기 비명인식 프로세스를 종료할 수 있다.
이와 달리, 상기 중심주파수가 증가한 시간보다 감소한 시간이 길다고 판단된 경우, 비명이 발생했다고 최종적으로 결정할 수 있다(단계(S41)).
지금까지의 과정을 통하여, 판단대상이 되는 각 섹션이 분석되는 매 순간마다 비명발생여부가 최종적으로 결정될 수 있다. 즉, 비명이 발생했는지를 최종적으로 판단하기 위해서는 단계(S37) 내지 단계(S42)을 통과해야 하며, 이 중 어느 하나의 단계에서라도 탈락하는 경우에는 비명이 발생했다고 판단하지 않는다.
도 9는 본 발명의 일 실시예에 따른 섹션별 프로세스를 나타낸 것이다.
단계(S100)에서, 윈도우신호에 포함되어 정의되는 섹션신호에 대하여 푸리에 변환을 수행하고, 상기 푸리에 변환에 의해 얻은 주파수 영역신호인 'FFT신호'를 생성할 수 있다.
단계(S110)에서, 상기 FFT신호의 모양을 스무딩(smoothing)하고, 상기 스무딩에 의해 얻은 주파수 영역신호인 'S-FFT신호'를 생성하며, 상기 S-FFT신호 중 미리 결정된 제5기준값을 갖는 지점(point)의 개수가 미리 결정된 제3조건을 만족하는지 여부를 판단할 수 있다.
단계(S120)에서, 미리 결정된 특정 주파수 대역들의 에너지 패턴이 미리 결정된 제5조건을 만족하는지 여부를 판단할 수 있다.
이때, 상기 제5조건을 만족하는지 여부를 판단하는 단계는 상기 제3조건을 만족하는 경우에만 수행하도록 되어 있고, 상기 제5조건을 만족하는 경우에만 상기 섹션신호가 비명에 해당하는 신호를 포함한다고 결정하고, 그렇지 않으면 상기 섹션신호가 비명에 해당하는 신호를 포함하지 않는다고 결정할 수 있다.
도 10은 본 발명의 일 실시예에 따른 비명 검출 시스템을 나타낸 것이다.
비명검출 전용 앱의 가입자는 단말기(200)에서 비명검출 전용 앱을 실행시킬 수 있다. 단말기(200)에서는 단말기의 마이크로폰을 통해 소리를 수집한 후 비명검출 여부를 실시간 파악할 수 있다. 이때, 비명이 검출되면 서버(300)로 비명검출정보를 송신할 수 있다. 서버(300)에는 상기 가입자가 위험한 상황에 처해 있을 경우, 연락되도록 되어 있는 미리 지정되어 있는 특정 사람의 정보, 또는 119, 경찰서와 같은 정보가 등록되어 있을 수 있다. 서버(300)에서, 단말기(200)로부터 비명검출이 되었다는 정보를 수신받으면, 제3단말기(400)로 그 사실을 송신하도록 되어 있을 수 있다. 제3단말기(400)는 상술한 바와 같이 미리 지정되어 있는 특정 사람의 단말기일 수도 있고, 안전신고센터, 경찰서 등의 단말기 또는 전화기에 해당할 수도 있다.
상술한 본 발명의 실시예들을 이용하여, 본 발명의 기술 분야에 속하는 자들은 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에 다양한 변경 및 수정을 용이하게 실시할 수 있을 것이다. 특허청구범위의 각 청구항의 내용은 본 명세서를 통해 이해할 수 있는 범위 내에서 인용관계가 없는 다른 청구항에 결합될 수 있다.
Claims (10)
- 수집된 오디오신호 중 미리 결정된 시간 길이(time length)를 갖는 윈도우에 의해 선택된 윈도우신호가 사람의 비명에 해당하는 신호를 포함하는지 여부를 결정하는 비명여부 판단방법으로서,상기 윈도우신호에 포함되어 정의되는 섹션신호에 대하여 푸리에 변환을 수행하고, 상기 푸리에 변환에 의해 얻은 주파수 영역신호인 'FFT신호 '를 생성하는 단계;상기 FFT신호의 모양을 스무딩(smoothing)하고, 상기 스무딩에 의해 얻은 주파수 영역신호인 'S- FFT신호'를 생성하며, 상기 S-FFT신호 중 미리 결정된 제5기준값을 갖는 지점(point)의 개수가 미리 결정된 제3조건을 만족하는지 여부를 판단하는 단계; 및미리 결정된 특정 주파수 대역들의 에너지 패턴이 미리 결정된 제5조건을 만족하는지 여부를 판단하는 단계;를 포함하는 섹션별 프로세스를 수행하도록 되어 있으며,상기 제5조건을 만족하는지 여부를 판단하는 단계는 상기 제3조건을 만족하는 경우에만 수행하도록 되어 있고,상기 제5조건을 만족하는 경우에만 상기 섹션신호가 비명에 해당하는 신호를 포함한다고 결정하고, 그렇지 않으면 상기 섹션신호가 비명에 해당하는 신호를 포함하지 않는다고 결정하는 것을 특징으로 하는,비명여부 판단방법.
- 제1항에 있어서,상기 'FFT신호 '를 생성하는 단계 이전에, 상기 섹션신호의 통계값이 미리 결정된 제1조건을 만족하는지 여부를 결정하는 단계;를 더 포함하며,상기 'FFT신호 '를 생성하는 단계는 상기 섹션신호가 상기 제1조건을 만족하는 경우에만 수행되도록 되어 있는,비명여부 판단방법.
- 제1항에 있어서,상기 'FFT신호 '를 생성하는 단계와 상기 'S- FFT신호'를 생성하는 단계 사이에,상기 FFT신호의 크기를 정규화하는 단계;를 더 포함하는,비명여부 판단방법.
- 제3항에 있어서,상기 'FFT신호 '를 생성하는 단계와 상기 정규화하는 단계 사이에,상기 FFT신호의 최대값이 미리 결정된 제1기준값 이하인지 여부를 결정하는 단계;를 더 포함하고,상기 정규화하는 단계는 상기 FFT신호의 최대값이 상기 제1기준값 이하인 경우에만 실행되도록 되어 있는,비명여부 판단방법.
- 제1항에 있어서,시간영역에서 연속적으로 정의되는 N개의 상기 섹션신호들에 대하여 상기 섹션별 프로세스를 실행하여, 상기 N개의 섹션신호들 각각이 비명에 해당하는 신호를 포함하는지 여부를 결정하도록 되어 있고,상기 N개의 섹션신호들 중 에너지가 집중되어 있는 기본주파수 대역의 중심주파수가 과거로부터 현재까지 증가하다가 감소하는 것으로 판단된 경우에는, 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴지 여부를 판단하는 단계;를 포함하는 비명인식 프로세스를 수행하도록 되어 있으며,상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴 경우에만 비명이 발생한 것으로 결정하는 것을 특징으로 하는,비명여부 판단방법.
- 제5항에 있어서,상기 비명인식 프로세스는,상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴지 여부를 판단하는 단계 이전에,상기 N개의 섹션신호들 중 사람의 비명에 관한 정보가 포함된 섹션신호들이 M개 이상 존재하는지 여부를 판단하는 단계(단, N>M); 및상기 M개 이상 존재하는 것으로 판단된 경우에는, 상기 N개의 섹션신호들 중 사람의 비명에 관한 정보가 포함되어 있지 않은 것으로 결정된 섹션신호들이 시간축 상에서 P개 이상 연속하여 존재하는지 여부를 판단하는 단계;를 더 포함하며,상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴지 여부를 판단하는 단계는, 상기 N개의 섹션신호들 중 사람의 비명에 관한 정보가 포함되어 있지 않은 것으로 결정된 섹션신호들이 시간축 상에서 상기 P개 이상 연속하여 존재하지 않는다고 판단된 경우에만 실행되는,비명여부 판단방법.
- 수집된 오디오신호 중 미리 결정된 시간 길이(time length)를 갖는 윈도우에 의해 선택된 윈도우신호가 사람의 비명에 해당하는 신호를 포함하는지 여부를 결정하도록 되어 있는 처리부를 포함하는 비명여부 판단장치로서,상기 처리부는,상기 윈도우신호에 포함되어 정의되는 섹션신호에 대하여 푸리에 변환을 수행하고, 상기 푸리에 변환에 의해 얻은 주파수 영역신호인 'FFT신호 '를 생성하는 단계;상기 FFT신호의 모양을 스무딩(smoothing)하고, 상기 스무딩에 의해 얻은 주파수 영역신호인 'S- FFT신호'를 생성하며, 상기 S-FFT신호 중 미리 결정된 제5기준값을 갖는 지점(point)의 개수가 미리 결정된 제3조건을 만족하는지 여부를 판단하는 단계; 및미리 결정된 특정 주파수 대역들의 에너지 패턴이 미리 결정된 제5조건을 만족하는지 여부를 판단하는 단계;를 포함하는 섹션별 프로세스를 수행하도록 되어 있으며,상기 제5조건을 만족하는지 여부를 판단하는 단계는 상기 제3조건을 만족하는 경우에만 수행하도록 되어 있고,상기 제5조건을 만족하는 경우에만 상기 섹션신호가 비명에 해당하는 신호를 포함한다고 결정하고, 그렇지 않으면 상기 섹션신호가 비명에 해당하는 신호를 포함하지 않는다고 결정하는 것을 특징으로 하는,비명여부 판단장치.
- 제7항에 있어서,상기 처리부는,상기 'FFT신호 '를 생성하는 단계 이전에, 상기 섹션신호의 통계값이 미리 결정된 제1조건을 만족하는 여부를 결정하는 단계;를 더 처리하도록 되어 있으며,상기 'FFT신호 '를 생성하는 단계는 상기 섹션신호가 상기 제1조건을 만족하는 경우에만 수행되도록 되어 있는,비명여부 판단장치.
- 제7항에 있어서,상기 처리부는,상기 'FFT신호 '를 생성하는 단계 이후에,상기 FFT신호의 크기를 정규화하는 단계; 및상기 FFT신호의 최대값이 미리 결정된 제1기준값 이하인지 여부를 결정하는 단계;를 더 처리하도록 되어 있으며,상기 정규화하는 단계는 상기 FFT신호의 최대값이 상기 제1기준값 이하인 경우에만 실행되도록 되어 있는,비명여부 판단장치.
- 제7항에 있어서,상기 처리부는,시간영역에서 연속적으로 정의되는 N개의 상기 섹션신호들에 대하여 상기 섹션별 프로세스를 실행하여, 상기 N개의 섹션신호들 각각이 비명에 해당하는 신호를 포함하는지 여부를 결정하도록 되어 있고,상기 N개의 섹션신호들 중 에너지가 집중되어 있는 기본주파수 대역의 중심주파수가 과거로부터 현재까지 증가하다가 감소하는 것으로 판단된 경우에는, 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴지 여부를 판단하는 단계;를 포함하는 비명인식 프로세스를 수행하도록 되어 있으며,상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴 경우에만 비명이 발생한 것으로 결정하는 것을 특징으로 하는,비명여부 판단장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/075,169 US10468049B2 (en) | 2016-02-03 | 2016-03-24 | Scream detection method and apparatus therefor |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2016-0013423 | 2016-02-03 | ||
KR1020160013423A KR101800425B1 (ko) | 2016-02-03 | 2016-02-03 | 비명 검출 방법 및 이를 위한 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2017135507A1 true WO2017135507A1 (ko) | 2017-08-10 |
Family
ID=59499909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2016/003006 WO2017135507A1 (ko) | 2016-02-03 | 2016-03-24 | 비명 검출 방법 및 이를 위한 장치 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10468049B2 (ko) |
KR (1) | KR101800425B1 (ko) |
WO (1) | WO2017135507A1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115696163B (zh) * | 2022-09-26 | 2024-12-27 | 苏州井利电子股份有限公司 | 一种电子琴喇叭检测系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008049462A (ja) * | 2006-08-28 | 2008-03-06 | National Institute Of Advanced Industrial & Technology | 叫び声を用いたロボットの緊急停止方法及びシステム |
KR20080077874A (ko) * | 2007-02-21 | 2008-08-26 | 삼성전자주식회사 | 음성 특징벡터 추출장치 및 방법과 이를 채용하는음성인식시스템 및 방법 |
KR100952894B1 (ko) * | 2007-01-30 | 2010-04-16 | 후지쯔 가부시끼가이샤 | 음향 판정 방법 및 음향 판정 장치 |
JP2011053557A (ja) * | 2009-09-03 | 2011-03-17 | Raytron:Kk | 悲鳴検出装置および悲鳴検出方法 |
KR101578108B1 (ko) * | 2014-09-01 | 2015-12-16 | 상명대학교서울산학협력단 | 오디오 데이터 기반의 감시 시스템을 위한 비명 검출 장치 및 그 방법 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100703593B1 (ko) | 2005-08-08 | 2007-04-06 | 경북대학교 산학협력단 | Dtpa-비스(피콜린아미드)리간드,이를 포함하는가돌리늄 착물 및 이들의 제조 방법 |
-
2016
- 2016-02-03 KR KR1020160013423A patent/KR101800425B1/ko active IP Right Grant
- 2016-03-24 US US16/075,169 patent/US10468049B2/en not_active Expired - Fee Related
- 2016-03-24 WO PCT/KR2016/003006 patent/WO2017135507A1/ko active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008049462A (ja) * | 2006-08-28 | 2008-03-06 | National Institute Of Advanced Industrial & Technology | 叫び声を用いたロボットの緊急停止方法及びシステム |
KR100952894B1 (ko) * | 2007-01-30 | 2010-04-16 | 후지쯔 가부시끼가이샤 | 음향 판정 방법 및 음향 판정 장치 |
KR20080077874A (ko) * | 2007-02-21 | 2008-08-26 | 삼성전자주식회사 | 음성 특징벡터 추출장치 및 방법과 이를 채용하는음성인식시스템 및 방법 |
JP2011053557A (ja) * | 2009-09-03 | 2011-03-17 | Raytron:Kk | 悲鳴検出装置および悲鳴検出方法 |
KR101578108B1 (ko) * | 2014-09-01 | 2015-12-16 | 상명대학교서울산학협력단 | 오디오 데이터 기반의 감시 시스템을 위한 비명 검출 장치 및 그 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR101800425B1 (ko) | 2017-12-20 |
US10468049B2 (en) | 2019-11-05 |
KR20170092280A (ko) | 2017-08-11 |
US20190035419A1 (en) | 2019-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020149591A1 (en) | Method and apparatus for detecting abnormality of caller | |
WO2019088462A1 (ko) | 혈압 추정 모델 생성 시스템 및 방법과 혈압 추정 시스템 및 방법 | |
WO2013176329A1 (ko) | 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법 | |
WO2020207035A1 (zh) | 骚扰电话拦截方法、装置、设备及存储介质 | |
WO2014200137A1 (ko) | 핑거프린트에 기반한 광고 검출 시스템 및 방법 | |
EP3076554A1 (en) | Method for creating a weighted compressed representation of a dataset | |
WO2020153572A1 (ko) | 사운드 이벤트 탐지 모델 학습 방법 | |
WO2018128238A1 (ko) | 디스플레이 장치를 이용한 가상 상담 시스템 및 방법 | |
WO2016114601A1 (ko) | 위치정보 수집이 필요 없는 재난알림 서비스 방법 및 이를 위한 재난알림 서버, 애플리케이션 시스템 | |
WO2014058270A1 (en) | Voice converting apparatus and method for converting user voice thereof | |
WO2020253115A1 (zh) | 基于语音识别的产品推荐方法、装置、设备和存储介质 | |
WO2010041836A2 (en) | Method of detecting skin-colored area using variable skin color model | |
CN112362304B (zh) | 一种在多根光缆中识别目标光缆的方法及相应的系统 | |
WO2022240163A1 (ko) | Mems 기반 보조 지진 관측망에서 지진을 감지하는 방법, 이를 수행하기 위한 기록 매체 및 장치 | |
CN112261230B (zh) | 快递电话接听率考核方法、装置、设备、系统及存储介质 | |
WO2017135507A1 (ko) | 비명 검출 방법 및 이를 위한 장치 | |
WO2022250219A1 (ko) | 이상 음원 결정 방법 및 ai 음향 영상 카메라 | |
WO2022075714A1 (ko) | 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체 | |
WO2021118072A1 (ko) | 음성 및 영상 정보를 활용한 의미있는 구간을 검출하기 위한 방법 및 이를 위한 장치 | |
WO2023059116A1 (ko) | 시각적 피로발생구간 판단 방법 및 그 장치 | |
WO2019035544A1 (ko) | 학습을 이용한 얼굴 인식 장치 및 방법 | |
WO2020213785A1 (ko) | 발화 패턴의 무한성 개선을 위한 딥러닝 기반의 텍스트 문장 자동 생성시스템 | |
WO2016080695A1 (ko) | 음향 정보에 기초한 사용자 다수 행위 인식 방법 | |
CN111934800B (zh) | 一种广播内容监测方法及系统 | |
WO2023063718A1 (en) | Method and system for device feature analysis to improve user experience |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 16889485 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 16889485 Country of ref document: EP Kind code of ref document: A1 |