WO2015111771A1 - 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기 - Google Patents

음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기 Download PDF

Info

Publication number
WO2015111771A1
WO2015111771A1 PCT/KR2014/000726 KR2014000726W WO2015111771A1 WO 2015111771 A1 WO2015111771 A1 WO 2015111771A1 KR 2014000726 W KR2014000726 W KR 2014000726W WO 2015111771 A1 WO2015111771 A1 WO 2015111771A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
average energy
voiced
energy
frame
Prior art date
Application number
PCT/KR2014/000726
Other languages
English (en)
French (fr)
Inventor
배명진
이상길
백금란
Original Assignee
숭실대학교산학협력단
(주) 지씨에스씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 숭실대학교산학협력단, (주) 지씨에스씨 filed Critical 숭실대학교산학협력단
Priority to US15/113,764 priority Critical patent/US9934793B2/en
Publication of WO2015111771A1 publication Critical patent/WO2015111771A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Definitions

  • the present invention relates to a alcohol discrimination method using voice analysis in a time domain, a recording medium and a terminal for performing the same.
  • Drunk driving accidents can vary in degree from person to person, but most often occur in a drunken or drunk state.
  • a method of measuring drinking status there is a method of measuring alcohol concentration in the air exhaled during breathing using a breathing breathalyzer equipped with an alcohol sensor and a method of measuring alcohol concentration in blood flow using a laser.
  • the former method is used as a method for controlling drunkards, and the Widmark formula for estimating blood alcohol concentration by a blood collection method with the driver's consent for a driver who disagrees with some alcohol measurement.
  • the Widmark formula for estimating blood alcohol concentration by a blood collection method with the driver's consent for a driver who disagrees with some alcohol measurement.
  • One aspect of the present invention relates to a drinking determination method capable of analyzing drinking in the time domain by analyzing voice, a recording medium for performing the same, and a terminal.
  • a method for discriminating drinking alcohol converts an input voice signal into a plurality of voice frames, extracts an average energy of each voice frame, and divides the plurality of voice frames into sections having a predetermined length.
  • the average energy of the plurality of voice frames included in the section may be extracted, and the average energy of the plurality of neighboring sections may be compared to determine whether to drink.
  • Converting the input voice signal into a plurality of voice frames and extracting an average energy of each voice frame determines whether the plurality of voice frames correspond to voiced sound, unvoiced sound, or background noise.
  • the voice analysis may be performed to extract the average energy of the voice frame corresponding to the voiced sound.
  • the average energy of the voice frame included in each section may be extracted, and whether to drink alcohol may be determined according to the difference value of the extracted average energy.
  • Determining whether to drink by comparing the average energy between the plurality of neighboring sections, if the difference value of the average energy between the plurality of neighboring sections is less than a predetermined threshold value, it is determined that the drinking state, and the predetermined threshold value If greater than, it can be determined that the non-drinking state.
  • the alcohol determination terminal converts the input voice signal to generate a voice frame and outputs it; and the voice frame input through the voice input unit is voiced sound, unvoiced sound or background noise
  • a voiced / unvoiced sound analyzer for determining whether one of the voiced sounds belongs to any one of the following; a voice frame energy detector configured to extract an average energy of a voice frame determined to be voiced by the voiced / unvoiced voice analyzer; and the voiced sound.
  • a section energy detector for detecting an average energy of a section including a plurality of voice frames; And a drinking determination unit configured to determine whether to drink by extracting a difference value of the average energy of the neighboring sections detected by the section energy detector.
  • the voiced / unvoiced sound analyzer may receive a voice frame, extract predetermined features, and determine whether the voice frame is voiced, unvoiced, or background noise based on the extracted features.
  • the alcohol determination unit may include a storage unit which stores a threshold value in advance so as to determine whether the alcohol is drunk, and a difference calculator which calculates a difference between average energy of neighboring sections.
  • the difference calculating unit may detect an average energy difference value of a section set to partially overlap the neighboring section, or detect an average energy difference value of a section set to not overlap the neighboring section.
  • the voice input unit may generate the voice frame by receiving the voice signal through a microphone provided in itself or by receiving a voice signal transmitted remotely.
  • the recording medium according to an embodiment of the present invention may be a computer-readable recording medium having a computer program recorded thereon for determining whether to drink by the above-described drinking determination terminal.
  • FIG. 1 is a control block diagram of a drinking determination terminal according to an embodiment of the present invention
  • FIG. 2 is a view for explaining a concept of converting a voice signal into a voice frame in the voice input unit included in the alcohol determination terminal according to an embodiment of the present invention
  • Figure 3 is a control block diagram of the voice / unvoiced sound analysis unit included in the alcohol determination terminal according to an embodiment of the present invention
  • FIG. 4 is a view for explaining a section setting operation of the voice frame energy detection unit included in the alcohol determination terminal according to an embodiment of the present invention
  • 5A to 5B are diagrams for explaining a section setting operation of a section energy detection unit included in a drinking determination terminal according to one embodiment of the present invention
  • FIG. 6 is a control block diagram of the alcohol determination unit included in the alcohol determination terminal according to an embodiment of the present invention.
  • FIG. 7 is a control flow diagram illustrating a drinking determination method according to an embodiment of the present invention.
  • FIG. 1 is a control block diagram of a drinking determination terminal according to an embodiment of the present invention.
  • the alcohol determination terminal 100 converts the input voice signal to generate a voice frame and outputs the voice frame 110, a voice / voice analysis unit 120 analyzing whether the voice frame is for voiced sound or unvoiced sound,
  • the voice frame energy detector 130 detects energy of the voice frame
  • the section energy detector 140 detects energy of the section including the plurality of voice frames
  • the energy of the section including the voice frame to determine whether to drink alcohol. It may include a drinking determination unit 150.
  • the voice input unit 110 may receive a human voice and convert the voice into voice data, and convert the voice data into a voice frame in a frame unit and output the voice data.
  • the voiced / unvoiced sound analyzer 120 may extract a predetermined feature by receiving a voice frame and analyze whether the input voice frame is for voiced sound, unvoiced sound or noise according to the extracted features.
  • the voiced / unvoiced sound analyzer 120 determines whether the input voice frame is voiced, unvoiced, or background noise based on the recognition result of the above-described method, and converts the voice frame into voiced, unvoiced, or background noise according to the result. Can be output separately.
  • the voice frame energy detector 130 may calculate an average energy of the voice frame determined as voiced sound.
  • the average energy is calculated as the sum of the squares of the N samples from the short time energy "n-N + 1" to "n" with respect to the sample n, which will be described later.
  • the section energy detector 140 may detect average energy of a section set by a predetermined length.
  • the section energy detector 140 detects average energy of two neighboring sections.
  • the alcohol determination unit 150 may calculate an average energy difference value between two neighboring sections, and determine whether to drink alcohol according to the calculated difference value.
  • the alcohol determination unit 150 may determine whether to drink by comparing the average energy difference value between two neighboring sections before drinking and the average energy difference value between two neighboring sections after drinking.
  • the average energy difference between two neighboring sections before drinking may be set to a threshold value in advance and uniformly applied, and the threshold value may be an optimal value set by an experiment or a threshold set by personal customization.
  • Drinking alcohol reduces the ability to control the size of the voice, which does not lead to a smooth conversation like rhythm using energy changes. Accordingly, the loud sound is pronounced even when the sound is continuously pronounced loudly or pronounced small. Accordingly, it is possible to determine whether to drink according to the difference in the energy change during a certain period.
  • the alcohol determination unit 150 determines that the alcohol is in a drinking state when the difference in energy between neighboring sections in the voice frame is smaller than a predetermined threshold value.
  • FIG. 2 is a view for explaining a concept of converting a voice signal into a voice frame in the voice input unit included in the alcohol determination terminal according to an embodiment of the present invention.
  • the analog audio signal is converted into speech data by sampling at a size of 8000 samples per second and 16 bits (65535 steps).
  • the voice input unit 110 may convert the input voice signal into voice data and convert the voice data into voice frame data in units of frames.
  • voice frame data has 256 energy values.
  • the voice input unit 110 generates a voice frame and transmits the information to the voice / voice analysis unit 120.
  • FIG. 3 is a control block diagram of the voice / unvoiced sound analysis unit included in the alcohol determination terminal according to an embodiment of the present invention.
  • the voice / voice analysis unit 120 receives a voice frame and extracts a predetermined feature from the feature extractor 121, a recognition unit 122 that derives a recognition result of the voice frame, and a voice input according to the recognition result. It may include a determination unit 123 for determining whether the frame is for voiced sound, unvoiced sound or background noise, and a separate output unit 124 for separating and outputting a voice frame according to the determination result.
  • the feature extractor 121 receives a periodic characteristic of harmonics or a magnitude of a low band voice signal energy region (RMSE: Root Mean Squared Energy of Signal) from the voice frame.
  • RMSE Root Mean Squared Energy of Signal
  • ZC Zero-Crossing Count
  • the recognition unit 122 may generally be composed of a neural network. This is useful for analyzing complex problems that are nonlinear, that is, mathematically unsolvable due to the nature of neural networks, and are suitable for analyzing voice signals and judging them as voiced or unvoiced and background noise based on the analysis results. Because.
  • the recognition unit 122 composed of such neural networks may give preset weights to the features extracted from the feature extractor 121 and derive a recognition result of the speech frame through a neural network calculation process.
  • the recognition result refers to a value calculated as a result of calculating each calculation element according to a weight given to each feature of each voice frame with respect to the voice frame.
  • the determination unit 123 determines whether the input voice signal is a voiced sound or an unvoiced sound according to the above-described recognition result, that is, a value calculated from the recognition unit 122, and separates the output according to the determination result of the determination unit 123.
  • the unit 124 may separate and output the voice frame into voiced sound, unvoiced sound or background noise.
  • FIG. 4 is a view for explaining the section setting operation of the voice frame energy detector included in the alcohol determination terminal according to an embodiment of the present invention.
  • the voice frame energy detector 130 may calculate an average energy of the voice frame determined as voiced sound.
  • the average energy is calculated as the sum of the squares of the N samples from short time energy "n-N + 1" to "n" for sample n.
  • the formula is as follows.
  • Equation 1 the average energy of each voice frame determined as voiced sound may be calculated.
  • 5A to 5C are diagrams for explaining a section setting operation of a section energy detection unit included in a drinking determination terminal according to an embodiment of the present invention.
  • the section energy detector 140 may divide the plurality of voice frames determined as voiced sound into predetermined sections, and detect the average energy of the voice frames included in the sections, that is, the section average energy. On the other hand, since the above-described voice frame energy detector 130 calculates the average energy for each voice frame determined as voiced sound, the section energy detector 140 detects the section average energy using the average energy for each voice frame. can do.
  • the section energy detector 140 may detect an average energy of a section set by a predetermined length sector 1.
  • the section energy detector 140 may calculate the average energy of the section by the following equation.
  • Fn is the number of speech frames in the interval
  • En (k) is the average energy of the k-th speech frame.
  • the section energy detector 140 may detect average energy of two neighboring sections using the above-described method.
  • the neighboring section may be set in a form in which a voice frame of a certain section is overlapped as shown in FIG. 5B or in a form in which a predetermined section is set from a next frame of the last voice frame of one section as shown in FIG. 5C. Can be implemented.
  • FIG. 6 is a control block diagram of a alcohol determination unit included in the alcohol determination terminal according to an embodiment of the present invention.
  • the alcohol determination unit 150 may include a difference calculating unit 151 for calculating a difference between average energy of two neighboring sections, and a storage unit 152 for storing a threshold value in advance so as to determine whether to drink alcohol. Can be.
  • the difference calculator 151 may calculate an average energy difference value of a neighboring section transmitted from the section energy detector 140 by the following equation.
  • E d1 is an average energy of one section including a plurality of voice frames
  • E d2 is an average energy of a section neighboring E d1 .
  • ⁇ and ⁇ are constant values set in advance so that the average energy difference value can be more easily recognized.
  • the above-described embodiment uses a method of calculating a difference value of average energy between two neighboring sections as an example, but compares the average energy by calculating a ratio of the average energy between the two sections.
  • it is included in the embodiment of the present invention. That is, all methods for determining whether to drink by comparing the average energy between the two sections will be included in the embodiment of the present invention.
  • FIG. 7 is a control flowchart illustrating a method of discriminating drinking according to an embodiment of the present invention.
  • the voice input unit 110 may receive a voice from the outside.
  • the voice may be input through a microphone (not shown) provided in the drinking determination terminal 100 or may be transmitted remotely.
  • a communication unit not shown
  • the communication unit may be provided to transmit a signal transmitted from another remote location, or to send the calculated information to the outside.
  • the voice input unit 110 may convert the input voice into voice data and convert the voice data into voice frame data.
  • the voice input unit 110 may generate a plurality of voice frames for the input voice and transmit the generated voice frames to the voice / voice analysis unit 120.
  • the voiced / unvoiced sound analyzer 120 receives a voice frame, extracts predetermined features, and determines whether the voice frame corresponds to voiced sound, unvoiced sound, or background noise according to the extracted features. do.
  • the voiced / unvoiced sound analyzer 120 may extract a voice frame corresponding to voiced sound from a plurality of input voice frames. (220, 230, 240)
  • the voice frame energy detector 130 detects an average energy of each voice frame determined as voiced sound.
  • the section energy detector 140 detects average energy of two neighboring sections.
  • the alcohol determination unit 150 may calculate an average energy difference value between two neighboring sections, and determine whether to drink by comparing the calculated value with a predetermined threshold value. On the other hand, the alcohol determination unit 150 determines that the average energy difference between two adjacent sections is less than the threshold value, and that the alcohol is in a drinking state, and if it is large, it is determined to be in a non-drinking state. (260, 270, 280, 290)
  • the difference in average energy between two neighboring sections is calculated to determine a drinking state, but the difference value of the average energy between four sections or other number of sections instead of two neighboring sections is determined.
  • a method of calculating and comparing the average energy of the plurality of sections may be compared in such a manner as to calculate a relative ratio between the average energy of two adjacent sections, not a difference value of the average energy between two adjacent sections.
  • all possible ways are included in one embodiment of the present invention.
  • the alcohol determination method performed by the above-described alcohol determination terminal 100 may be implemented in a computer-readable recording medium having a computer program recorded thereon.

Abstract

음성을 분석하여 시간 영역에서 음주 여부를 분석할 수 있는 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기를 개시한다. 음주 판별 단말기는 입력된 음성 신호를 변환하여 음성 프레임을 생성하고 이를 출력하는 음성 입력부와, 음성 입력부를 통해 입력되는 음성 프레임이 유성음, 무성음 또는 배경 잡음 중 어느 하나에 속하는지 여부를 판단하는 유/무성음 분석부와, 유/무성음 분석부에 의해 유성음으로 판단된 음성 프레임의 평균 에너지를 추출하는 음성 프레임 에너지 검출부와, 유성음으로 판단된 음성 프레임을 복수 개 포함되는 구간의 평균 에너지를 검출하는 구간 에너지 검출부 및 구간 에너지 검출부에 의해 검출된 이웃하는 구간의 평균 에너지의 차이값을 추출하여 음주 여부를 판단하는 음주 판별부를 포함하므로, 시간 영역에서 음성 신호를 분석하여 음주 여부를 판단할 수 있다.

Description

음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
시간 영역에서 음성 분석을 이용한 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기에 관한 것이다.
음주운전 사고는 개인에 따라 정도의 차이는 있을 수 있으나 대부분 만취나 반취상태에서 발생하는 경우가 많다. 음주상태를 측정하는 방법으로는 알코올 센서가 장착된 호흡형 음주측정기기를 사용하여 호흡 시에 내뿜는 공기에서 알코올 농도를 측정하는 방법과 레이저를 이용하여 혈류량에 포함된 알코올 농도를 측정하는 방법이 있다. 일반적으로 음주 단속에 사용되는 방법으로는 흔히 전자의 방법이 사용되는데, 일부 음주측정에 불복하는 운전자에 대해 운전자의 동의를 얻어 혈액 채취 등의 방법으로 혈중 알코올 농도를 추정하는 위드마크(Widmark) 공식을 사용하는 경우도 있다.
음주운전을 사전에 방지하고자 운전자의 알코올 섭취여부를 판독하여 자동차의 시동장치를 제어하는 기술이 실용화되어, 일부 자동차에 장착되어 시판되고 있다. 이러한 기술은 알코올 측정센서가 장착된 검출기기를 자동차의 시동장치에 부착하여 자동차의 시동을 On/Off하는 원리로서 국내외 자동차 회사들이 활발히 연구하고 있는 분야이다. 이러한 방법들은 알코올 센서를 사용하기 때문에 비교적 정확한 알코올농도를 측정할 수 있다. 그러나, 자동차 실내 환경과 같이 먼지나 습기가 많은 환경에서는 알코올 센서의 정확도가 떨어지고, 잦은 고장으로 인하여 반영구적이지 못하다. 또한, 센서의 수명이 짧아 전자장치에 결합된 센서를 교환하기 위하여 전자장치를 수리하여야 하는 불편함이 있다.
본 발명의 일측면은 음성을 분석하여 시간 영역에서 음주 여부를 분석할 수 있는 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기에 관한 것이다.
이를 위한 본 발명의 일측면에 의한 음주 판별 방법은 입력되는 음성 신호를 복수 개의 음성 프레임으로 변환하여 각각의 음성 프레임의 평균 에너지를 추출하고, 상기 복수 개의 음성 프레임을 미리 정해진 길이만큼의 구간으로 나누어 상기 구간에 포함되는 복수 개의 음성 프레임의 평균 에너지를 추출하며, 이웃하는 복수 개의 구간간의 평균 에너지를 비교하여 음주 여부를 판별할 수 있다.
상기 입력되는 음성 신호를 복수 개의 음성 프레임으로 변환하여 각각의 음성 프레임의 평균 에너지를 추출하는 것은, 상기 복수 개의 음성 프레임이 유성음에 해당하는지, 무성음에 해당하는지, 또는 배경 잡음에 해당하는지 여부를 판별하고, 상기 유성음에 해당하는 음성 프레임의 평균 에너지를 각각 추출하는 것인 음성 분석을 이용할 수 있다.
상기 이웃하는 복수 개의 구간간의 평균 에너지를 비교하여 음주 여부를 판별하는 것은, 상기 이웃하는 구간이 서로 간에 중복되는 영역이 생기도록 설정하거나, 상기 이웃하는 구간이 서로 간에 중복되는 영역이 생기지 않도록 설정하고, 각각의 구간 안에 포함되는 음성 프레임의 평균 에너지를 추출하고, 추출된 평균 에너지의 차이값에 따라 음주 여부를 판별할 수 있다.
상기 이웃하는 복수 개의 구간간의 평균 에너지를 비교하여 음주 여부를 판별하는 것은, 상기 이웃하는 복수 개의 구간간의 평균 에너지의 차이값이 미리 정해진 임계값보다 작으면 음주 상태인 것으로 판단하고, 미리 정해진 임계값보다 크면 비음주 상태인 것으로 판단할 수 있다.
그리고, 본 발명의 일실시예에 의한 음주 판별 단말기는 입력된 음성 신호를 변환하여 음성 프레임을 생성하고 이를 출력하는 음성 입력부;와, 상기 음성 입력부를 통해 입력되는 음성 프레임이 유성음, 무성음 또는 배경 잡음 중 어느 하나에 속하는지 여부를 판단하는 유/무성음 분석부;와, 상기 유/무성음 분석부에 의해 유성음으로 판단된 음성 프레임의 평균 에너지를 추출하는 음성 프레임 에너지 검출부;와, 상기 유성음으로 판단된 음성 프레임을 복수 개 포함되는 구간의 평균 에너지를 검출하는 구간 에너지 검출부; 및 상기 구간 에너지 검출부에 의해 검출된 이웃하는 구간의 평균 에너지의 차이값을 추출하여 음주 여부를 판단하는 음주 판별부를 포함할 수 있다.
상기 유/무성음 분석부는 음성 프레임을 입력받아 기 설정된 특징들을 추출하고, 상기 추출된 특징들에 따라 상기 음성 프레임이 유성음, 무성음 또는 배경 잡음인지 여부를 판단할 수 있다.
상기 음주 판별부는 음주 여부를 판단할 수 있도록 임계값을 미리 저장하는 저장부와, 이웃하는 구간의 평균 에너지의 차이값을 산출하는 차이 산출부를 포함할 수 있다.
상기 차이 산출부는 상기 이웃하는 구간이 일부 중복되도록 설정된 구간의 평균 에너지 차이값을 검출하거나, 상기 이웃하는 구간이 중복되지 않도록 설정된 구간의 평균 에너지 차이값을 검출할 수 있다.
상기 음성 입력부는 자체적으로 구비된 마이크를 통해 상기 음성 신호를 입력받거나, 원격으로 전송되는 음성 신호를 수신하여 상기 음성 프레임을 생성할 수 있다.
그리고, 본 발명의 일실시예에 의한 기록매체는 상술한 음주 판별 단말기에 의해 음주 여부를 판단하기 위한, 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록매체일 수 있다.
이상에서 설명한 바와 같이, 본 발명의 일측면에 의하면 입력되는 음성을 분석하여 시간 영역에서 음주 여부를 판별할 수 있게 된다.
도 1은 본 발명의 일실시예에 의한 음주 판별 단말기의 제어블록도
도 2는 본 발명의 일실시예에 의한 음주 판별 단말기에 포함되는 음성 입력부에서 음성 신호를 음성 프레임으로 변환시키는 개념을 설명하기 위한 도면
도 3은 본 발명의 일실시예에 의한 음주 판별 단말기에 포함되는 유/무성음 분석부의 제어블록도
도 4는 본 발명의 일실시예에 의한 음주 판별 단말기에 포함되는 음성 프레임 에너지 검출부의 구간 설정 동작을 설명하기 위한 도면
도 5a 내지 도 5b는 본 발명의 일실시예에 의한 음주 판별 단말기에 포함되는 구간 에너지 검출부의 구간 설정 동작을 설명하기 위한 도면
도 6은 본 발명의 일실시예에 의한 음주 판별 단말기에 포함되는 음주 판별부의 제어블록도
도 7은 본 발명의 일실시예에 의한 음주 판별 방법을 도시한 제어흐름도
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 사용하기로 한다.
도 1은 본 발명의 일실시예에 의한 음주 판별 단말기의 제어블록도이다.
음주 판별 단말기(100)는 입력된 음성 신호를 변환하여 음성 프레임을 생성하고 이를 출력하는 음성 입력부(110), 음성 프레임이 유성음에 대한 것인지 무성음에 대한 것인지 분석하는 유/무성음 분석부(120), 음성 프레임의 에너지를 검출하는 음성 프레임 에너지 검출부(130), 복수 개의 음성 프레임이 포함된 구간의 에너지를 검출하는 구간 에너지 검출부(140) 및 음성 프레임이 포함된 구간의 에너지를 이용하여 음주 여부를 판별하는 음주 판별부(150)을 포함할 수 있다.
음성 입력부(110)는 사람의 음성을 입력받아 음성 데이터로 변환하고, 음성 데이터를 프레임 단위의 음성 프레임으로 변환하여 출력할 수 있다.
유/무성음 분석부(120)는 음성 프레임을 입력받아 기 설정된 특징들을 추출하고, 추출된 특징들에 따라 입력된 음성 프레임이 유성음, 무성음 또는 잡음에 대한 것인지 여부를 분석할 수 있다.
유/무성음 분석부(120)는 상술한 방식에 의한 인식 결과에 따라 입력된 음성 프레임이 유성음, 무성음 또는 배경잡음인지에 대한 판단을 하고, 그 결과에 따라 음성 프레임을 유성음, 무성음 또는 배경 잡음으로 분리하여 출력할 수 있다.
음성 프레임 에너지 검출부(130)는 유성음으로 판별된 음성 프레임에 대한 평균 에너지를 산출할 수 있다. 평균 에너지는 표본 n에 대해서 단시간(short time) 에너지 "n-N+1"에서 “n"까지 N개의 표본의 제곱의 합으로 계산되며 구체적인 방법은 후술한다.
구간 에너지 검출부(140)는 미리 정해진 길이만큼 설정된 구간의 평균에너지를 검출할 수 있다. 구간 에너지 검출부(140)는 이웃하는 2개의 구간의 평균에너지를 검출한다.
음주 판별부(150)는 이웃하는 2개의 구간 간의 평균 에너지 차이값을 산출하고, 산출된 차이값에 따라 음주 여부를 판별할 수 있다.
음주 판별부(150)는 음주 전 이웃하는 2개의 구간 간의 평균 에너지 차이값과, 음주 후 이웃하는 2개의 구간 간의 평균 에너지 차이값을 비교하여 음주 여부를 판별할 수 있다. 이 때, 음주 전 이웃하는 2개의 구간 간의 평균 에너지 차이값을 미리 임계값으로 설정하여 일률적으로 적용할 수 있으며, 임계값은 실험에 의해 설정된 최적값이거나, 개인 맞춤형으로 미리 설정된 임계값일 수 있다.
한편, 음주를 하게 되면 목소리의 크기를 제어하는 능력이 저하되어 에너지 변화를 이용해 리듬을 타듯 대화를 매끄럽게 이끌지 못한다. 이에 따라, 연속적으로 소리를 크게 내어 발음하거나 아니면 작게 발음해야 할 경우에도 크게 발음하게 된다. 이에 따라, 일정 구간 동안의 에너지 변화에 대한 차이에 따라 음주 여부를 판별할 수 있게 된다.
음주 판별부(150)는 음성 프레임에서 이웃하는 구간 사이의 에너지의 차이가 일정 임계값보다 작을 경우 음주 상태인 것으로 판단하게 된다.
도 2는 본 발명의 일실시예에 의한 음주 판별 단말기에 포함되는 음성 입력부에서 음성 신호를 음성 프레임으로 변환시키는 개념을 설명하기 위한 도면이다.
통상적으로 아날로그 음성신호는 초당 8000개의 샘플과 16비트(65535단계)의 크기로 샘플링하여 음성데이터로 변환된다.
음성 입력부(110)는 입력되는 음성 신호를 음성 데이터로 변환하고, 음성 데이터를 프레임 단위의 음성 프레임 데이터로 변환할 수 있다. 여기서, 하나의 음성 프레임 데이터는 256개의 에너지 값을 갖게 된다.
음성 데이터는 도 2에서와 같이, 입력되는 음성에 따라 다수의 음성 프레임들(n=프레임의 개수, n=1,2,3,....)로 구성된다.
음성 입력부(110)는 음성 프레임을 생성한 후, 그 정보를 유/무성음 분석부(120)로 전송한다.
도 3은 본 발명의 일실시예에 의한 음주 판별 단말기에 포함되는 유/무성음 분석부의 제어블록도이다.
유/무성음 분석부(120)는 음성 프레임을 입력받아 기 설정된 특징들을 추출하는 특징 추출부(121)와, 음성 프레임의 인식 결과를 도출하는 인식부(122)와, 인식 결과에 따라 입력된 음성 프레임이 유성음에 대한 것인지 무성음에 대한 것인지, 또는 배경 잡음에 의한 것인지를 판별하는 판단부(123)와, 판별 결과에 따라 음성 프레임을 분리하여 출력하는 분리 출력부(124)를 포함할 수 있다.
특징 추출부(121)는 음성 입력부(110)을 통해 음성 프레임이 입력되면, 그 음성 프레임으로부터 고조파의 주기적 특성 또는 저대역 음성 신호 에너지 영역의 크기(RMSE : Root Mean Squared Energy of Signal)나 0점 교차 횟수(Zero-Crossing Count : ZC) 등과 같은 특징들을 추출할 수 있다.
인식부(122)는 일반적으로 신경망으로 구성될 수 있다. 이는 신경망의 특성상, 비선형적, 즉 수학적으로 해결 가능하지 않은 복잡한 문제들을 분석하는데 유용하기 때문에, 음성 신호들을 분석하고, 분석된 결과에 따라 해당 음성 신호를 유성음 또는 무성음 및 배경 잡음으로 판단하기에 적합하기 때문이다. 이러한 신경망으로 구성된 인식부(122)는 특징 추출부(121)로부터 추출된 특징들에 기 설정된 가중치를 부여하고, 신경망 계산 과정을 통해 음성 프레임의 인식 결과를 도출할 수 있다. 여기서 인식 결과라는 것은 음성 프레임에 대해 각 음성 프레임의 특징별로 부여된 가중치에 따라 각각의 계산 요소를 계산한 결과, 산출된 값을 말한다.
판단부(123)는 상술한 인식 결과, 즉 인식부(122)로부터 산출된 값에 따라 입력된 음성 신호가 유성음인지 무성음인지에 대한 판단을 하고, 판단부(123)의 판단 결과에 따라 분리 출력부(124)는 음성 프레임을 유성음, 무성음 또는 배경잡음으로 분리하여 출력할 수 있다.
한편, 유성음의 경우 다양한 특징들이 무성음 및 배경 잡음과 확연히 차이가 나므로, 이를 구분하기는 상대적으로 쉬운 편이며 공지된 여러 가지 기술이 있다. 예를 들어, 유성음의 경우 고조파가 일정 주기를 반복하여 나타나는 주기적 특성을 가지고 있는 반면, 배경 잡음은, 고조파라는 특징을 가지지 않는다. 그런데, 무성음의 경우에는 고조파가 있기는 하여도 그것이 가지는 주기성이 약하다. 다시 말해, 유성음의 경우 고조파가 하나의 프레임 안에서도 반복된다는 특성이 있으나, 무성음의 경우 고조파가 있다고는 하나, 고조파의 주기성과 같은 유성음의 특성이, 몇 개 이상의 프레임에 걸쳐서 나타나게 될 정도로 약하게 나타난다는 특성이 있다
도 4는 본 발명의 일실시예에 의한 음주 판별 단말기에 포함되는 음성 프레임 에너지 검출부의 구간 설정 동작을 설명하기 위한 도면이다.
음성 프레임 에너지 검출부(130)는 유성음으로 판별된 음성 프레임에 대한 평균 에너지를 산출할 수 있다. 평균 에너지는 표본 n에 대해서 단시간(short time) 에너지 "n-N+1"에서 “n"까지 N개의 표본의 제곱의 합으로 계산되며 그 수식은 다음과 같다.
수식 1
Figure PCTKR2014000726-appb-I000001
수식 1을 통해, 유성음으로 판별된 음성 프레임의 각각의 평균에너지가 산출될 수 있다.
도 5a 내지 도 5c는 본 발명의 일실시예에 의한 음주 판별 단말기에 포함되는 구간 에너지 검출부의 구간 설정 동작을 설명하기 위한 도면이다.
구간 에너지 검출부(140)는 유성음으로 판별된 복수 개의 음성 프레임을 미리 정해진 일정 구간으로 나누고, 일정 구간에 포함되는 음성 프레임의 평균 에너지 즉, 구간 평균 에너지를 검출할 수 있다. 한편, 상술한 음성 프레임 에너지 검출부(130)가 유성음으로 판별된 음성 프레임에 대한 평균 에너지를 각각 산출하므로, 구간 에너지 검출부(140)는 각각의 음성 프레임에 대한 평균에너지를 이용하여 구간 평균 에너지를 검출할 수 있다.
구간 에너지 검출부(140)는 도 5a에 도시한 것처럼, 미리 정해진 길이(sector 1)만큼 설정된 구간의 평균에너지를 검출할 수 있다. 구간 에너지 검출부(140)는 다음과 같은 수식에 의해 구간의 평균에너지를 구할 수 있다.
수식 2
Figure PCTKR2014000726-appb-I000002
여기서 Fn은 구간 내 음성 프레임의 개수이며, En(k)는 k번째 음성 프레임의 평균에너지이다.
구간 에너지 검출부(140)는 상술한 방법을 이용하여 이웃하는 2개의 구간의 평균에너지를 검출할 수 있다. 여기서 이웃하는 구간은, 도 5b에 도시한 것처럼, 일정 구간의 음성 프레임이 중복되는 형태로 설정되거나, 도 5c에 도시한 것처럼, 하나의 구간의 마지막 음성 프레임의 다음 프레임부터 일정 구간 설정되는 형태로 구현될 수 있다.
도 6은 본 발명의 일실시예에 의한 음주 판별 단말기에 포함되는 음주 판별부의 제어블록도이다.
음주 판별부(150)는 이웃하는 2개의 구간의 평균 에너지의 차이값을 산출하는 차이 산출부(151)와, 음주 여부를 판별할 수 있도록 임계값을 미리 저장하는 저장부(152)를 포함할 수 있다.
차이 산출부(151)는 구간 에너지 검출부(140)로부터 전송되는 이웃하는 구간의 평균에너지 차이값을 다음과 같은 수식에 의해 산출할 수 있다.
수식 3
Figure PCTKR2014000726-appb-I000003
여기서, Ed1은 복수 개의 음성 프레임을 포함하는 어느 하나의 구간의 평균 에너지이며, Ed2는 Ed1에 이웃하는 구간의 평균 에너지이다. 그리고, α, β는 평균 에너지 차이값을 보다 쉽게 인지할 수 있도록 미리 설정된 상수값이다.
한편, 상술한 실시예는 그 일예로 이웃하는 2개의 구간간의 평균에너지의 차이값을 계산하는 방식을 사용하였지만, 2개의 구간간의 평균에너지의 비율을 계산하는 등의 방식으로 평균 에너지를 비교하는 방식도 본 발명의 실시예에 포함되는 것은 물론이다. 즉, 2개의 구간간의 평균 에너지를 비교하여 음주 여부를 판단하는 모든 방식이 본 발명의 실시예에 포함되게 된다.
도 7은 본 발명의 일실시예에 의한 음주 판별 방법을 도시한 제어흐름도이다.
음성 입력부(110)는 외부로부터 음성을 입력받을 수 있다. 음성은 음주 판별 단말기(100)에 구비된 마이크(미도시)를 통해 입력되거나, 원격에서 송신될 수 있다. 상술한 실시예에서는 통신부(미도시)를 도시하지는 않았지만, 기타 원격에서 송신되는 신호를 송신하거나, 산출된 정보를 외부로 보내기 위해 통신부가 구비될 수 있음은 물론이다.(200)
음성 입력부(110)는 입력된 음성을 음성 데이터로 변환하고, 음성 데이터를 음성 프레임 데이터로 변환할 수 있다. 음성 입력부(110)는 입력되는 음성에 대한 복수 개의 음성 프레임을 생성하여 유/무성음 분석부(120)에 전송할 수 있다.(210)
유/무성음 분석부(120)는 음성 프레임을 입력받아, 기 설정된 특징들을 추출하고, 추출된 특징들에 따라 음성 프레임이 유성음에 해당하는지, 무성음에 해당하는지, 또는 배경 잡음에 해당하는지 여부를 판단한다. 유/무성음 분석부(120)는 입력되는 복수 개의 음성 프레임 중 유성음에 해당하는 음성 프레임을 추출할 수 있다.(220,230,240)
음성 프레임 에너지 검출부(130)는 유성음으로 판별된 음성 프레임의 각각의 평균에너지를 검출한다.(250)
구간 에너지 검출부(140)는 이웃하는 2개의 구간의 평균 에너지를 검출한다. 음주 판별부(150)는 이웃하는 2개의 구간의 평균 에너지 차이값을 산출하고, 산출된 값과 미리 정해진 임계값을 비교하여 음주 여부를 판별할 수 있다. 한편, 음주 판별부(150)는 이웃하는 2개의 구간의 평균 에너지 차이값이 임계값보다 작으면 음주 상태인 것으로 판별하고, 크면 비음주 상태인 것으로 판단한다.(260,270,280,290)
한편, 상술한 방식에 의하면, 이웃하는 2개의 구간간의 평균 에너지의 차이값을 산출하여 음주 상태를 판별하였지만, 이웃하는 2개의 구간이 아닌 4개의 구간이나 다른 개수의 구간간의 평균 에너지의 차이값을 산출하여 비교하는 방식이 사용될 수 있음은 물론이며, 이웃하는 2개의 구간 간의 평균 에너지의 차이값이 아닌 그 2개의 평균 에너지간의 상대적인 비율을 산출하는 등의 방식으로, 복수 개의 구간간의 평균 에너지를 비교할 수 있는 모든 방식이 본 발명의 일실시예에 포함되는 것은 물론이다.
한편, 상술한 음주 판별 단말기(100)에 의해 수행되는 음주 판별 방법은 컴퓨터 프로그램이 기록된 컴퓨터로 판독할 수 있는 기록매체에 구현될 수 있음은 물론이다.
비록 본 발명이 상기에서 언급한 바람직한 실시예와 관련하여 설명되어졌지만, 본 발명의 요지와 범위로부터 벗어남이 없이 다른 다양한 수정 및 변형이 가능한 것은 당업자라면 용이하게 인식할 수 있을 것이며, 이러한 변경 및 수정은 모두 첨부된 특허청구범위의 범위에 속함은 자명하다.

Claims (10)

  1. 입력되는 음성 신호를 복수 개의 음성 프레임으로 변환하여 각각의 음성 프레임의 평균 에너지를 추출하고,
    상기 복수 개의 음성 프레임을 미리 정해진 길이만큼의 구간으로 나누어 상기 구간에 포함되는 복수 개의 음성 프레임의 평균 에너지를 추출하며,
    이웃하는 복수 개의 구간간의 평균 에너지를 비교하여 음주 여부를 판별하는 음성 분석을 이용한 음주 판별 방법.
  2. 제 1 항에 있어서,
    상기 입력되는 음성 신호를 복수 개의 음성 프레임으로 변환하여 각각의 음성 프레임의 평균 에너지를 추출하는 것은,
    상기 복수 개의 음성 프레임이 유성음에 해당하는지, 무성음에 해당하는지, 또는 배경 잡음에 해당하는지 여부를 판별하고, 상기 유성음에 해당하는 음성 프레임의 평균 에너지를 각각 추출하는 것인 음성 분석을 이용한 음주 판별 방법.
  3. 제 1 항에 있어서,
    상기 이웃하는 복수 개의 구간 간의 평균 에너지를 비교하여 음주 여부를 판별하는 것은,
    상기 이웃하는 구간이 서로 간에 중복되는 영역이 생기도록 설정하거나, 상기 이웃하는 구간이 서로 간에 중복되는 영역이 생기지 않도록 설정하고, 각각의 구간 안에 포함되는 음성 프레임의 평균 에너지를 추출하고, 추출된 평균 에너지의 차이값에 따라 음주 여부를 판별하는 것인 음성 분석을 이용한 음주 판별 방법.
  4. 제 1 항에 있어서,
    상기 이웃하는 복수 개의 구간 간의 평균 에너지를 비교하여 음주 여부를 판별하는 것은,
    상기 이웃하는 복수 개의 구간간의 평균 에너지의 차이값이 미리 정해진 임계값보다 작으면 음주 상태인 것으로 판단하고, 미리 정해진 임계값보다 크면 비음주 상태인 것으로 판단하는 음성 분석을 이용한 음주 판별 방법.
  5. 입력된 음성 신호를 변환하여 음성 프레임을 생성하고 이를 출력하는 음성 입력부;
    상기 음성 입력부를 통해 입력되는 음성 프레임이 유성음, 무성음 또는 배경 잡음 중 어느 하나에 속하는지 여부를 판단하는 유/무성음 분석부;
    상기 유/무성음 분석부에 의해 유성음으로 판단된 음성 프레임의 평균 에너지를 추출하는 음성 프레임 에너지 검출부;
    상기 유성음으로 판단된 음성 프레임을 복수 개 포함되는 구간의 평균 에너지를 검출하는 구간 에너지 검출부; 및
    상기 구간 에너지 검출부에 의해 검출된 이웃하는 구간 간의 평균 에너지를 비교하여 음주 여부를 판단하는 음주 판별부를 포함하는 음주 판별 단말기.
  6. 제 5 항에 있어서,
    상기 유/무성음 분석부는 음성 프레임을 입력받아 기 설정된 특징들을 추출하고, 상기 추출된 특징들에 따라 상기 음성 프레임이 유성음, 무성음 또는 배경 잡음인지 여부를 판단하는 것인 음주 판별 단말기.
  7. 제 5 항에 있어서,
    상기 음주 판별부는 음주 여부를 판단할 수 있도록 임계값을 미리 저장하는 저장부와, 이웃하는 구간의 평균 에너지의 차이값을 산출하는 차이 산출부를 포함하는 음주 판별 단말기.
  8. 제 7 항에 있어서,
    상기 차이 산출부는 상기 이웃하는 구간이 일부 중복되도록 설정된 구간 간의 평균 에너지의 차이값을 검출하거나, 상기 이웃하는 구간이 중복되지 않도록 설정된 구간의 평균 에너지 차이값을 검출하는 것인 음주 판별 단말기.
  9. 제 5 항에 있어서,
    상기 음성 입력부는 자체적으로 구비된 마이크를 통해 상기 음성 신호를 입력받거나, 원격으로 전송되는 음성 신호를 수신하여 상기 음성 프레임을 생성하는 것인 음주 판별 단말기.
  10. 제 5 항에 따른 음주 판별 단말기에 의해 음주 여부를 판단하기 위한, 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록매체.
PCT/KR2014/000726 2014-01-24 2014-01-24 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기 WO2015111771A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US15/113,764 US9934793B2 (en) 2014-01-24 2014-01-24 Method for determining alcohol consumption, and recording medium and terminal for carrying out same

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2014-0008741 2014-01-24
KR1020140008741A KR101621774B1 (ko) 2014-01-24 2014-01-24 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기

Publications (1)

Publication Number Publication Date
WO2015111771A1 true WO2015111771A1 (ko) 2015-07-30

Family

ID=53681564

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2014/000726 WO2015111771A1 (ko) 2014-01-24 2014-01-24 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기

Country Status (3)

Country Link
US (1) US9934793B2 (ko)
KR (1) KR101621774B1 (ko)
WO (1) WO2015111771A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015111771A1 (ko) 2014-01-24 2015-07-30 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
KR101621778B1 (ko) 2014-01-24 2016-05-17 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
US9916844B2 (en) 2014-01-28 2018-03-13 Foundation Of Soongsil University-Industry Cooperation Method for determining alcohol consumption, and recording medium and terminal for carrying out same
KR101621780B1 (ko) * 2014-03-28 2016-05-17 숭실대학교산학협력단 차신호 주파수 프레임 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101569343B1 (ko) 2014-03-28 2015-11-30 숭실대학교산학협력단 차신호 고주파 신호의 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101621797B1 (ko) * 2014-03-28 2016-05-17 숭실대학교산학협력단 시간 영역에서의 차신호 에너지법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
US9899038B2 (en) 2016-06-30 2018-02-20 Karen Elaine Khaleghi Electronic notebook system
US10235998B1 (en) 2018-02-28 2019-03-19 Karen Elaine Khaleghi Health monitoring system and appliance
KR102650138B1 (ko) * 2018-12-14 2024-03-22 삼성전자주식회사 디스플레이장치, 그 제어방법 및 기록매체
US10559307B1 (en) * 2019-02-13 2020-02-11 Karen Elaine Khaleghi Impaired operator detection and interlock apparatus
KR102575979B1 (ko) 2021-05-17 2023-09-08 (주) 로완 스마트링을 이용한 음주 상태 모니터링 방법 및 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100497837B1 (ko) * 2002-10-16 2005-06-28 이시우 유무선 통신망과 음성신호를 이용한 음주상태의 안내서비스 시스템
JP2010015027A (ja) * 2008-07-04 2010-01-21 Nissan Motor Co Ltd 車両用飲酒検知装置及び車両用飲酒検知方法

Family Cites Families (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9419388D0 (en) * 1994-09-26 1994-11-09 Canon Kk Speech analysis
KR100206205B1 (ko) 1995-12-23 1999-07-01 정몽규 음성 인식 기능을 이용한 음주운전 방지장치 및 방법
US6446038B1 (en) * 1996-04-01 2002-09-03 Qwest Communications International, Inc. Method and system for objectively evaluating speech
US5776055A (en) 1996-07-01 1998-07-07 Hayre; Harb S. Noninvasive measurement of physiological chemical impairment
KR100201256B1 (ko) 1996-08-27 1999-06-15 윤종용 음성을 이용한 차량 시동 제어장치
JP2955247B2 (ja) * 1997-03-14 1999-10-04 日本放送協会 話速変換方法およびその装置
US6006188A (en) * 1997-03-19 1999-12-21 Dendrite, Inc. Speech signal processing for determining psychological or physiological characteristics using a knowledge base
KR19990058415A (ko) 1997-12-30 1999-07-15 윤종용 음주 운전 방지 시스템
US6748301B1 (en) 1999-07-24 2004-06-08 Ryu Jae-Chun Apparatus and method for prevention of driving of motor vehicle under the influence of alcohol and prevention of vehicle theft
US6427137B2 (en) * 1999-08-31 2002-07-30 Accenture Llp System, method and article of manufacture for a voice analysis system that detects nervousness for preventing fraud
US7222075B2 (en) * 1999-08-31 2007-05-22 Accenture Llp Detecting emotions using voice signal analysis
US6151571A (en) * 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
US6275806B1 (en) * 1999-08-31 2001-08-14 Andersen Consulting, Llp System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters
JP4696418B2 (ja) 2001-07-25 2011-06-08 ソニー株式会社 情報検出装置及び方法
DE60204827T2 (de) * 2001-08-08 2006-04-27 Nippon Telegraph And Telephone Corp. Anhebungsdetektion zur automatischen Sprachzusammenfassung
EP1300831B1 (en) * 2001-10-05 2005-12-07 Sony Deutschland GmbH Method for detecting emotions involving subspace specialists
AU2003218320A1 (en) * 2002-03-21 2003-10-08 U.S. Army Medical Research And Materiel Command Methods and systems for detecting, measuring, and monitoring stress in speech
US8972266B2 (en) * 2002-11-12 2015-03-03 David Bezar User intent analysis extent of speaker intent analysis system
US20040167774A1 (en) * 2002-11-27 2004-08-26 University Of Florida Audio-based method, system, and apparatus for measurement of voice quality
KR100511316B1 (ko) * 2003-10-06 2005-08-31 엘지전자 주식회사 음성신호의 포만트 주파수 검출방법
DE60320414T2 (de) * 2003-11-12 2009-05-20 Sony Deutschland Gmbh Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen
WO2005114576A1 (ja) * 2004-05-21 2005-12-01 Asahi Kasei Kabushiki Kaisha 動作内容判定装置
US8938390B2 (en) * 2007-01-23 2015-01-20 Lena Foundation System and method for expressive language and developmental disorder assessment
US9300790B2 (en) * 2005-06-24 2016-03-29 Securus Technologies, Inc. Multi-party conversation analyzer and logger
US8478596B2 (en) 2005-11-28 2013-07-02 Verizon Business Global Llc Impairment detection using speech
KR100664271B1 (ko) 2005-12-30 2007-01-04 엘지전자 주식회사 음원분리가 가능한 휴대용 단말기 및 그 방법
KR100717625B1 (ko) * 2006-02-10 2007-05-15 삼성전자주식회사 음성 인식에서의 포먼트 주파수 추정 방법 및 장치
KR100762596B1 (ko) * 2006-04-05 2007-10-01 삼성전자주식회사 음성 신호 전처리 시스템 및 음성 신호 특징 정보 추출방법
EP1850328A1 (en) 2006-04-26 2007-10-31 Honda Research Institute Europe GmbH Enhancement and extraction of formants of voice signals
US7925508B1 (en) 2006-08-22 2011-04-12 Avaya Inc. Detection of extreme hypoglycemia or hyperglycemia based on automatic analysis of speech patterns
US7962342B1 (en) * 2006-08-22 2011-06-14 Avaya Inc. Dynamic user interface for the temporarily impaired based on automatic analysis for speech patterns
JP5039045B2 (ja) * 2006-09-13 2012-10-03 日本電信電話株式会社 感情検出方法、感情検出装置、その方法を実装した感情検出プログラム及びそのプログラムを記録した記録媒体
WO2008096421A1 (ja) 2007-02-07 2008-08-14 Pioneer Corporation 酒酔い運転防止装置、酒酔い運転防止方法、及び、酒酔い運転防止プログラム
WO2009000073A1 (en) 2007-06-22 2008-12-31 Voiceage Corporation Method and device for sound activity detection and sound signal classification
KR101441896B1 (ko) 2008-01-29 2014-09-23 삼성전자주식회사 적응적 lpc 계수 보간을 이용한 오디오 신호의 부호화,복호화 방법 및 장치
JPWO2010001512A1 (ja) * 2008-07-03 2011-12-15 パナソニック株式会社 印象度抽出装置および印象度抽出方法
US8775184B2 (en) * 2009-01-16 2014-07-08 International Business Machines Corporation Evaluating spoken skills
US8788270B2 (en) * 2009-06-16 2014-07-22 University Of Florida Research Foundation, Inc. Apparatus and method for determining an emotion state of a speaker
WO2011011413A2 (en) * 2009-07-20 2011-01-27 University Of Florida Research Foundation, Inc. Method and apparatus for evaluation of a subject's emotional, physiological and/or physical state with the subject's physiological and/or acoustic data
US9613630B2 (en) 2009-11-12 2017-04-04 Lg Electronics Inc. Apparatus for processing a signal and method thereof for determining an LPC coding degree based on reduction of a value of LPC residual
JP5834449B2 (ja) 2010-04-22 2015-12-24 富士通株式会社 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
US9715540B2 (en) * 2010-06-24 2017-07-25 International Business Machines Corporation User driven audio content navigation
AU2010357179A1 (en) * 2010-07-06 2013-02-14 Rmit University Emotional and/or psychiatric state detection
JP5017534B2 (ja) 2010-07-29 2012-09-05 ユニバーサルロボット株式会社 飲酒状態判定装置及び飲酒状態判定方法
JP5709980B2 (ja) 2011-04-08 2015-04-30 三菱電機株式会社 音声認識装置およびナビゲーション装置
EP2708040B1 (en) * 2011-05-11 2019-03-27 Robert Bosch GmbH System and method for emitting and especially controlling an audio signal in an environment using an objective intelligibility measure
CA2836196C (en) * 2011-05-17 2021-06-29 University Health Network Breathing disorder identification, characterization and diagnosis methods, devices and systems
ES2364401B2 (es) * 2011-06-27 2011-12-23 Universidad Politécnica de Madrid Método y sistema para la estimación de parámetros fisiológicos de la fonación.
JP5664480B2 (ja) * 2011-06-30 2015-02-04 富士通株式会社 異常状態検出装置、電話機、異常状態検出方法、及びプログラム
US11344225B2 (en) 2013-01-24 2022-05-31 B. G. Negev Technologies And Applications Ltd. Determining apnea-hypopnia index AHI from speech
IN2013CH00818A (ko) * 2013-02-25 2015-08-14 Cognizant Technology Solutions India Pvt Ltd
JP6263868B2 (ja) * 2013-06-17 2018-01-24 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
KR101475894B1 (ko) * 2013-06-21 2014-12-23 서울대학교산학협력단 장애 음성 개선 방법 및 장치
CN106409313B (zh) * 2013-08-06 2021-04-20 华为技术有限公司 一种音频信号分类方法和装置
US20150127343A1 (en) 2013-11-04 2015-05-07 Jobaline, Inc. Matching and lead prequalification based on voice analysis
US20150142446A1 (en) * 2013-11-21 2015-05-21 Global Analytics, Inc. Credit Risk Decision Management System And Method Using Voice Analytics
WO2015111771A1 (ko) 2014-01-24 2015-07-30 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
US9916844B2 (en) 2014-01-28 2018-03-13 Foundation Of Soongsil University-Industry Cooperation Method for determining alcohol consumption, and recording medium and terminal for carrying out same
US10004431B2 (en) 2014-03-13 2018-06-26 Gary Stephen Shuster Detecting medical status and cognitive impairment utilizing ambient data
KR20150123579A (ko) * 2014-04-25 2015-11-04 삼성전자주식회사 사용자 음성으로부터 감정정보를 확인하는 방법 및 장치
US9685166B2 (en) * 2014-07-26 2017-06-20 Huawei Technologies Co., Ltd. Classification between time-domain coding and frequency domain coding

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100497837B1 (ko) * 2002-10-16 2005-06-28 이시우 유무선 통신망과 음성신호를 이용한 음주상태의 안내서비스 시스템
JP2010015027A (ja) * 2008-07-04 2010-01-21 Nissan Motor Co Ltd 車両用飲酒検知装置及び車両用飲酒検知方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BAEK, GEUM RAN ET AL.: "A Study on Detecting Decision Parameter about Drinking in Time Domain", THE JOURNAL OF KOREA INFORMATION AND COMMUNICATIONS SOCIETY (WINTER, January 2013 (2013-01-01), pages 784 - 785 *
GEUMRAN BAEK ET AL.: "A Study on Voice Sobriety Test Algorithm in a Time-Frequency Domain", INTERNATIONAL JOURNAL OF MULTIMEDIA & UBIQUITOUS ENGINEERING, vol. 8, no. 5, September 2013 (2013-09-01), pages 395 - 402, XP055214914 *
LEE, WON HUI ET AL.: "Valid-frame Distance Deviation of Drunk and non-Drunk Speech", THE JOURNAL OF KOREA INFORMATION AND COMMUNICATIONS SOCIETY (WINTER, 23 January 2014 (2014-01-23), pages 876 - 877, XP055214931 *

Also Published As

Publication number Publication date
US20170004848A1 (en) 2017-01-05
KR101621774B1 (ko) 2016-05-19
US9934793B2 (en) 2018-04-03
KR20150088926A (ko) 2015-08-04

Similar Documents

Publication Publication Date Title
WO2015111771A1 (ko) 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
WO2015115677A1 (ko) 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
WO2017104875A1 (ko) 음성의 톤, 템포 정보를 이용한 감정인식 방법 및 그 장치
CN111597877A (zh) 一种基于无线信号的跌倒检测方法
WO2014058270A1 (en) Voice converting apparatus and method for converting user voice thereof
JP2008171343A5 (ko)
WO2015133713A1 (en) Voice synthesis apparaatus and method for synthesizing voice
WO2015111772A1 (ko) 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
WO2016126147A1 (ko) 코골이 검출 장치 및 방법
WO2020045789A1 (ko) 반려동물의 감정 상태 감지 시스템 및 방법
CN105916090B (zh) 一种基于智能化语音识别技术的助听器系统
WO2015147363A1 (ko) 차신호 주파수 프레임 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
WO2017111386A1 (ko) 입력 신호의 특징 파라미터 추출 장치 및 그를 이용한 화자 인식 장치
US7418385B2 (en) Voice detection device
WO2021256889A1 (ko) 오디오 인식을 활용한 라이프로그 장치 및 그 방법
US20230162755A1 (en) Object left-behind detection method, object left-behind detection apparatus, and program
US3846586A (en) Single oral input real time analyzer with written print-out
WO2015147364A1 (ko) 시간 영역에서의 차신호 에너지법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
WO2021107333A1 (ko) 딥러닝 기반 감지상황에서의 음향 사건 탐지 방법
Liu et al. Hypemasality detection in cleft palate speech based on natural computation
WO2015147362A1 (ko) 차신호 고주파 신호의 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
WO2023113448A1 (ko) 엣지 컴퓨터 환경에서의 감정 인식 장치 및 그 방법
WO2023054887A1 (ko) 딥 러닝 기반 영유아 자폐 스펙트럼 장애 예측 장치 및 방법
WO2022124452A1 (ko) 딥러닝 알고리즘을 이용한 소음 제거 방법 및 장치
WO2021153843A1 (ko) 가중치를 이용한 음성 신호의 스트레스 판별 방법 및 그를 위한 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14879838

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15113764

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14879838

Country of ref document: EP

Kind code of ref document: A1