KR101621766B1 - 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기 - Google Patents

음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기 Download PDF

Info

Publication number
KR101621766B1
KR101621766B1 KR1020140010173A KR20140010173A KR101621766B1 KR 101621766 B1 KR101621766 B1 KR 101621766B1 KR 1020140010173 A KR1020140010173 A KR 1020140010173A KR 20140010173 A KR20140010173 A KR 20140010173A KR 101621766 B1 KR101621766 B1 KR 101621766B1
Authority
KR
South Korea
Prior art keywords
formant
voice
voiced
unit
linear prediction
Prior art date
Application number
KR1020140010173A
Other languages
English (en)
Other versions
KR20150090334A (ko
Inventor
배명진
이상길
백금란
Original Assignee
숭실대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 숭실대학교산학협력단 filed Critical 숭실대학교산학협력단
Priority to KR1020140010173A priority Critical patent/KR101621766B1/ko
Priority to PCT/KR2014/000780 priority patent/WO2015115677A1/ko
Priority to US15/115,118 priority patent/US9916844B2/en
Publication of KR20150090334A publication Critical patent/KR20150090334A/ko
Application granted granted Critical
Publication of KR101621766B1 publication Critical patent/KR101621766B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4845Toxicology, e.g. by detection of alcohol, drug or toxic products
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Molecular Biology (AREA)
  • Veterinary Medicine (AREA)
  • Surgery (AREA)
  • Medical Informatics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Toxicology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

복수 개의 선형 예측 차수에 따른 선형 예측 코딩을 적용하여 생성된 복수 개의 포만트 에너지 간의 차이에 따라 음주 여부를 판별할 수 있는 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기를 개시한다.
음주 판별 단말기는 음성 신호를 입력받아 음성 프레임으로 변환하여 출력하는 음성 입력부와, 음성 프레임 중 유성음에 해당하는 음성 프레임을 추출하는 유/무성음 분석부와, 유성음에 해당하는 음성 프레임에 복수 개의 선형 예측 차수에 따른 선형 예측 코딩을 적용하여 복수 개의 포만트 에너지를 산출하는 LPC 처리부 및LPC 처리부에 의해 산출된 복수 개의 포만트 에너지 간의 차이에 따라 음주 여부를 판단하는 음주 판별부를 포함하므로, 복수 개의 선형 예측 차수에 따른 선형 예측 코딩을 음성 신호에 적용하여 생성된 포만트 에너지의 변화량에 따라 음주 상태를 판별할 수 있다.

Description

음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기{Alcohol Analyzing Method, Recording Medium and Apparatus For Using the Same}
음성 분석을 이용한 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기에 관한 것이다.
음주운전 사고는 개인에 따라 정도의 차이는 있을 수 있으나 대부분 만취나 반취상태에서 발생하는 경우가 많다. 음주상태를 측정하는 방법으로는 알코올 센서가 장착된 호흡형 음주측정기기를 사용하여 호흡 시에 내뿜는 공기에서 알코올 농도를 측정하는 방법과 레이저를 이용하여 혈류량에 포함된 알코올 농도를 측정하는 방법이 있다. 일반적으로 음주 단속에 사용되는 방법으로는 흔히 전자의 방법이 사용되는데, 일부 음주측정에 불복하는 운전자에 대해 운전자의 동의를 얻어 혈액 채취 등의 방법으로 혈중 알코올 농도를 추정하는 위드마크(Widmark) 공식을 사용하는 경우도 있다.
음주운전을 사전에 방지하고자 운전자의 알코올 섭취여부를 판독하여 자동차의 시동장치를 제어하는 기술이 실용화되어, 일부 자동차에 장착되어 시판되고 있다. 이러한 기술은 알코올 측정센서가 장착된 검출기기를 자동차의 시동장치에 부착하여 자동차의 시동을 On/Off하는 원리로서 국내외 자동차 회사들이 활발히 연구하고 있는 분야이다. 이러한 방법들은 알코올 센서를 사용하기 때문에 비교적 정확한 알코올농도를 측정할 수 있다. 그러나, 자동차 실내 환경과 같이 먼지나 습기가 많은 환경에서는 알코올 센서의 정확도가 떨어지고, 잦은 고장으로 인하여 반영구적이지 못하다. 또한, 센서의 수명이 짧아 전자장치에 결합된 센서를 교환하기 위하여 전자장치를 수리하여야 하는 불편함이 있다.
한국공개특허 제10-2012-0074314호 한국등록특허 제10-0664271호
본 발명의 일측면은 복수 개의 선형 예측 차수에 따른 선형 예측 코딩을 적용하여 생성된 복수 개의 포만트 에너지 간의 차이에 따라 음주 여부를 판별할 수 있는 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기에 관한 것이다.
이를 위한 본 발명의 일측면에 의한 음주 판별 방법은 음성 신호를 입력받아 복수 개의 음성 프레임으로 변환하고, 상기 복수 개의 음성 프레임 중 유성음에 해당하는 음성 프레임을 추출하고, 상기 유성음에 해당하는 음성 프레임에 복수 개의 선형 예측 차수에 따른 선형 예측 코딩을 적용하여 복수 개의 포만트 에너지를 산출하며, 상기 복수 개의 포만트 에너지간의 차이를 산출하고, 상기 차이에 따라 음주 상태를 판단할 수 있다.
상기 복수 개의 포만트 에너지간의 차이를 산출하는 것은, 상기 유성음으로 판단된 음성 프레임 각각에 대해 2개의 선형 예측 차수를 적용하여 2개의 포만트 에너지를 구하고, 상기 2개의 포만트 에너지간의 차이를 거리값으로 산출하는 것을 포함할 수 있다.
상기 복수 개의 포만트 에너지간의 차이를 산출하고, 상기 차이에 따라 음주 상태를 판단하는 것은, 상기 복수 개의 포만트 에너지간의 차이에 대한 평균 에너지를 상기 유성음으로 판단된 모든 음성 프레임 각각에 대해 산출하고, 이전 음성프레임과 현재 음성프레임 간의 평균에너지 비율값을 구해 상기 음주 상태를 판단할 수 있다.
상기 이전 음성프레임과 현재 음성프레임 간의 평균에너지 비율값을 구해 상기 음주 상태를 판단하는 것은, 상기 이전 음성프레임과 현재 음성프레임 간의 평균 에너지 비율값을 상기 유성음으로 판단된 모든 음성 프레임에 대해 산출하고, 각각의 음성 프레임의 평균 에너지가 미리 정해진 임계값보다 크면 카운팅하여 그 개수를 산출하고, 카운팅 된 개수에 따라 상기 음주 상태를 판단할 수 있다.
상기 카운팅된 개수에 따라 상기 음주 상태를 판단하는 것은, 상기 카운팅된 개수와 상기 유성음으로 판단된 전체 음성 프레임의 개수의 비율을 산출하고, 상기 산출된 비율이 미리 정해진 비율값보다 작으면 음주 상태인 것으로 판단하며, 상기 산출된 비율이 미리 정해진 비율값보다 크면 비음주 상태인 것으로 판단할 수 있다.
상기 유성음에 해당하는 음성 프레임에 복수 개의 선형 예측 차수에 따른 선형 예측 코딩을 적용하여 복수 개의 포만트 에너지를 산출하는 것은, 상기 유성음에 해당하는 음성 프레임에 대해 저차 선형 예측 차수와 고차 선형 예측 차수를 적용하여 각각의 선형 예측 차수에 따른 포만트 에너지를 산출할 수 있다.
상기 유성음에 해당하는 음성 프레임에 저역 통과 필터를 적용하여 일정 주파수 이상의 고조파를 필터링하는 것을 더 포함할 수 있다.
그리고, 본 발명의 일실시예에 의한 기록 매체는 상술한 음주 판별 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능할 수 있다.
그리고, 본 발명의 일실시예에 의한 음주 판별 단말기는 음성 신호를 입력받아 음성 프레임으로 변환하여 출력하는 음성 입력부;와, 상기 음성 프레임 중 유성음에 해당하는 음성 프레임을 추출하는 유/무성음 분석부;와, 상기 유성음에 해당하는 음성 프레임에 복수 개의 선형 예측 차수에 따른 선형 예측 코딩을 적용하여 복수 개의 포만트 에너지를 산출하는 LPC 처리부; 및 상기 LPC 처리부에 의해 산출된 복수 개의 포만트 에너지 간의 차이에 따라 음주 여부를 판단하는 음주 판별부를 포함할 수 있다.
상기 유/무성음 분석부에 의해 유성음으로 분석된 음성 프레임에 대해 일정 주파수 이상의 신호를 필터링하는 LPF 적용부를 더 포함할 수 있다.
상기 LPC 처리부는 상기 유성음으로 분석된 모든 음성 프레임에 대해 2개의 선형 예측 차수에 따른 선형 예측 코딩을 적용하여 2개의 포만트 에너지를 추출할 수 있다.
상기 음주 판별부는 상기 복수 개의 선형 예측 차수에 따른 선형 예측 코딩을 적용하여 생성된 복수 개의 포만트 에너지간의 차이를 산출하는 차이 산출부를 포함할 수 있다.
상기 음주 판별부는 상기 차이 산출부에 의해 산출된 복수 개의 포만트 에너지 차이의 평균 에너지를 산출하는 평균 에너지 산출부를 더 포함할 수 있다.
상기 음주 판별부는 현재 음성 프레임의 포만트 에너지 차이의 평균 에너지와 이전 음성 프레임의 포만트 에너지 차이의 평균 에너지의 비율을 산출하고, 상기 비율이 미리 정해진 임계값보다 크면 카운트하는 카운팅부를 더 포함할 수 있다.
상기 음주 판별부는 상기 유성음으로 분석된 전체 음성 프레임의 개수 대비 상기 카운팅부에 의해 카운트된 개수의 비율을 산출하고, 상기 비율이 미리 정해진 비율값보다 작으면 음주로 판단하는 판단부를 더 포함할 수 있다.
이상에서 설명한 바와 같이, 본 발명의 일측면에 의하면 복수 개의 선형 예측 차수에 따른 선형 예측 코딩을 음성 신호에 적용하여 생성된 포만트 에너지의 변화량에 따라 음주 상태를 판별할 수 있다.
도 1a 및 도 1b는 본 발명의 일실시예에 의한 음주 판별 단말기의 제어블록도
도 2는 본 발명의 일실시예에 의한 음주 판별 단말기에 포함되는 음성 입력부에서 음성 신호를 음성 프레임으로 변환시키는 개념을 설명하기 위한 도면
도 3은 본 발명의 일실시예에 의한 음주 판별 단말기에 포함되는 유/무성음 분석부의 제어블록도
도 4a 및 도 4b는 본 발명의 일실시예에 의한 음주 판별 단말기에 포함되는 LPC 처리부에 의해 산출되는 음성 프레임의 포만트 에너지 그래프
도 5는 본 발명의 일실시예에 의한 음주 판별 단말기에 포함되는 음주 판별부의 제어블록도
도 6은 도 5의 차이 산출부에서 산출하는 복수 개의 포만트 에너지간의 차이값을 나타내는 그래프
도 7은 본 발명의 일실시예에 의한 음주 판별 방법을 나타내는 제어흐름도
도 8은 본 발명의 다른 실시예에 의한 음주 판별 방법을 나타내는 제어흐름도
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 사용하기로 한다.
도 1a 및 도 1b는 본 발명의 일실시예에 의한 음주 판별 단말기의 제어블록도이다.
도 1a를 참조하면, 음주 판별 단말기(100)는 음성 입력부(110), 유/무성음 분석부(120), LPC 처리부(130) 및 음주 판별부(140)를 포함할 수 있다.
음성 입력부(110)는 사람의 음성을 입력받아 음성 데이터로 변환하고, 음성 데이터를 프레임 단위의 음성 프레임 데이터로 변환하여 출력할 수 있다. 음성 입력부(110)는 FFT(Fast Fourier Transform) 등의 변환 방식을 통해 주파수 도메인으로 음성 신호를 변환할 수 있다.
유/무성음 분석부(120)는 음성 프레임을 입력받아 기 설정된 특징들을 추출하고, 추출된 특징들에 따라 입력된 음성 프레임이 유성음, 무성음 또는 잡음에 대한 것인지 여부를 분석할 수 있다.
유/무성음 분석부(120)는 상술한 방식에 의한 인식 결과에 따라 입력된 음성 프레임이 유성음, 무성음 또는 배경 잡음인지에 대한 판단을 하고, 그 결과에 따라 음성 프레임을 유성음, 무성음 또는 배경 잡음으로 분리하여 출력할 수 있다.
LPC(Linear Prediction Coding) 처리부(130)는 유/무성음 분석부(120)에 의해 유성음으로 판별된 음성 프레임에 선형 예측 코딩(LPC)을 적용하여 포만트 에너지를 구할 수 있다. LPC 처리부(130)는 음성 프레임에 선형 예측 코딩 적용 시 선형 예측 차수를 다르게 적용하여 복수 개의 포만트 에너지를 구할 수 있다. 예를 들어, LPC 처리부(130)는 LPC 10차와 LPC 4차를 적용하여 음성 프레임에 대한 2개의 포만트 에너지를 구할 수 있다. 한편, 음성 신호에 선형 예측 코딩을 적용하여 신호 처리를 수행하는 방법에 대해서는 한국공개특허 제10-2012-0074314호 및 한국등록특허 제10-0664271호에 상세히 설명되어 있다.
음주 판별부(140)는 복수 개의 선형 예측 차수를 적용하여 생성된 복수 개의 포만트 에너지간의 차이값을 계산할 수 있다. 음주 판별부(140)는 LPC 처리부(130)에 의해 입력되는 모든 음성 프레임 각각에 대해 복수 개의 선형 예측 차수를 적용하여 복수 개의 포만트 에너지가 구해지면, 복수 개의 포만트 에너지간의 차이값을 모든 음성 프레임 각각에 대해 구한다.
음주 판별부(140)는 음성 프레임의 포만트 에너지간의 차이값에 대한 평균 에너지를 각각의 음성 프레임에 대해 구할 수 있다. 음주 판별부(140)는 입력되는 음성 프레임 중 이전 음성 프레임과 현재 음성 프레임 간의 비율값을 구하고, 그 비율값이 미리 정해진 임계값보다 큰 음성 프레임의 개수를 카운팅하고, 카운팅된 개수와 유성음으로 판단된 전체 음성 프레임의 개수의 비율을 구해 음주 여부를 판별할 수 있다.
이는, 음주 전에는 포만트 에너지가 LPC 차수 차에 민감하게 나타나고, 음주 후에는 포만트 에너지가 LPC 차수 차에 민감하게 나타나지 않기 때문에 가능한 음주 판별 방법이다. 음주 후에는 음성 프레임의 포만트 포락은 비음화의 영향으로 포만트 평탄화가 주로 나타나기 때문에 LPC 차수에 대한 포만트 변화량, 특히 각 포만트의 최대값에서 변화량이 둔감하게 나타나는 경향이 있다. 따라서, 음주전과 비교해보면, LPC 차수 차이에 둔감하게 변하는 특징이 생기게 된다.
도 1b는 도 1a의 블록에서 LPF(Low Pass Filter) 적용부(125)가 추가된 것을 도시한 도면이다.
LPF(Low Pass Filter) 적용부(125)는 유/무성음 분석부(120)에 의해 유성음으로 분리된 음성 신호에 대해 저역 통과 필터를 적용시켜, 일정 주파수 이내의 신호만 필터링할 수 있다. LPF 적용부(125)는 선택적인 구성이며, 3.5 kHz 이내의 신호만 통과시켜 제4포만트(F4)를 걸러낼 수 있다.
즉, 음성 신호에서 제4포만트는 조음 기관에 의해 변화가 거의 없으므로, 작업량을 줄이기 위해 제4포만트를 포함한 고조파를 필터링하고, 필터링된 저대역 신호에 대해서만 작업을 수행할 수 있다.
도 2는 본 발명의 일실시예에 의한 음주 판별 단말기에 포함되는 음성 입력부에서 음성 신호를 음성 프레임으로 변환시키는 개념을 설명하기 위한 도면이다.
통상적으로 아날로그 음성신호는 초당 8000개의 샘플과 16비트(65535단계)의 크기로 샘플링하여 음성데이터로 변환된다.
음성 입력부(110)는 입력되는 음성 신호를 음성 데이터로 변환하고, 음성 데이터를 프레임 단위의 음성 프레임 데이터로 변환할 수 있다. 여기서, 하나의 음성 프레임 데이터는 256개의 에너지 값을 갖게 된다.
음성 데이터는 도 2에서와 같이, 입력되는 음성에 따라 다수의 음성 프레임들(n=프레임의 개수, n=1,2,3,....)로 구성된다.
음성 입력부(110)는 음성 프레임을 생성한 후, 그 정보를 유/무성음 분석부(120)로 전송한다.
도 3은 본 발명의 일실시예에 의한 음주 판별 단말기에 포함되는 유/무성음 분석부의 제어블록도이다.
유/무성음 분석부(120)는 음성 프레임을 입력받아 기 설정된 특징들을 추출하는 특징 추출부(121)와, 음성 프레임의 인식 결과를 도출하는 인식부(122)와, 인식 결과에 따라 입력된 음성 프레임이 유성음에 대한 것인지 무성음에 대한 것인지, 또는 배경 잡음에 의한 것인지를 판별하는 판단부(123)와, 판별 결과에 따라 음성 프레임을 분리하여 출력하는 분리 출력부(124)를 포함할 수 있다.
특징 추출부(121)는 음성 입력부(110)를 통해 음성 프레임이 입력되면, 그 음성 프레임으로부터 고조파의 주기적 특성 또는 저대역 음성 신호 에너지 영역의 크기(RMSE : Root Mean Squared Energy of Signal)나 0점 교차 횟수(Zero-Crossing Count : ZC) 등과 같은 특징들을 추출할 수 있다.
인식부(122)는 일반적으로 신경망으로 구성될 수 있다. 이는 신경망의 특성상, 비선형적, 즉 수학적으로 해결 가능하지 않은 복잡한 문제들을 분석하는데 유용하기 때문에, 음성 신호들을 분석하고, 분석된 결과에 따라 해당 음성 신호를 유성음 또는 무성음 및 배경 잡음으로 판단하기에 적합하기 때문이다. 이러한 신경망으로 구성된 인식부(122)는 특징 추출부(121)로부터 추출된 특징들에 기 설정된 가중치를 부여하고, 신경망 계산 과정을 통해 음성 프레임의 인식 결과를 도출할 수 있다. 여기서 인식 결과라는 것은 음성 프레임에 대해 각 음성 프레임의 특징별로 부여된 가중치에 따라 각각의 계산 요소를 계산한 결과, 산출된 값을 말한다.
판단부(123)는 상술한 인식 결과, 즉 인식부(122)로부터 산출된 값에 따라 입력된 음성 신호가 유성음인지 무성음인지에 대한 판단을 하고, 판단부(123)의 판단 결과에 따라 분리 출력부(124)는 음성 프레임을 유성음, 무성음 또는 배경잡음으로 분리하여 출력할 수 있다.
한편, 유성음의 경우 다양한 특징들이 무성음 및 배경 잡음과 확연히 차이가 나므로, 이를 구분하기는 상대적으로 쉬운 편이며 공지된 여러 가지 기술이 있다. 예를 들어, 유성음의 경우 고조파가 일정 주기를 반복하여 나타나는 주기적 특성을 가지고 있는 반면, 배경 잡음은, 고조파라는 특징을 가지지 않는다. 그런데, 무성음의 경우에는 고조파가 있기는 하여도 그것이 가지는 주기성이 약하다. 다시 말해, 유성음의 경우 고조파가 하나의 프레임 안에서도 반복된다는 특성이 있으나, 무성음의 경우 고조파가 있다고는 하나, 고조파의 주기성과 같은 유성음의 특성이, 몇 개 이상의 프레임에 걸쳐서 나타나게 될 정도로 약하게 나타난다는 특성이 있다
도 4a 및 도 4b는 본 발명의 일실시예에 의한 음주 판별 단말기에 포함되는 LPC 처리부에 의해 산출되는 음성 프레임의 포만트 에너지 그래프이다.
LPC 처리부(130)는 상술한 것처럼, 유성음으로 판단된 음성 프레임에 복수 개의 선형 예측 차수를 적용하여 포만트 에너지를 구할 수 있다.
도 4a는 높은 선형 예측 차수(예를 들면, 10차)를 적용하여 추출한 포만트 에너지를 도시한 도면이며, 도 4b는 낮은 선형 예측 차수(예를 들면, 4차)를 적용하여 추출한 포만트 에너지를 도시한 것이다.
선형 예측 차수 정보는 선형 예측 코딩에서 현재 음성 신호를 예측하기 위해 이용되는 이전 신호의 개수를 나타내므로, 선형 예측 차수 정보가 큰 정수를 나타낼수록 예측에 이용되는 이전 신호의 개수가 많아짐을 알 수 있다.
도 4a 및 도 4b에 도시한 것처럼, 높은 선형 예측 차수를 적용하여 추출된 포만트 에너지 그래프는 보다 많은 이전 신호를 참조하여 현재 신호를 예측하기 때문에 보다 정확하고 민감한 그래프가 생성되며, 낮은 선형 예측 차수를 적용하여 추출된 포만트 에너지 그래프는 보다 적은 이전 신호를 참조하여 현재 신호를 예측하기 때문에 상대적으로 덜 민감한 형태의 그래프가 추출된다.
도 5는 본 발명의 일실시예에 의한 음주 판별 단말기에 포함되는 음주 판별부의 제어블록도이며, 도 6은 도 5의 차이 산출부에서 산출하는 복수 개의 포만트 에너지간의 차이값을 나타내는 그래프이다.
음주 판별부(140)는 차이 산출부(141), 평균 에너지 산출부(142), 카운팅부(143), 판정부(144) 및 저장부(145)를 포함할 수 있다.
차이 산출부(141)는 복수 개의 선형 예측 차수를 적용하여 생성된 복수 개의 포만트 에너지간의 차이값을 계산할 수 있다. 도 6을 참조하면, 2개의 포만트 에너지간의 차이값은 빗금친 부분으로 표시되었으며, 수식 1과 같이 표현될 수 있다.
수식 1
FE_distance(k) = FE_L(k) - FE_H(k)
여기서, FE_distance(k)는 두 개의 포만트 에너지간의 차이를 거리로 환산한 함수(도 6의 빗금 참조)이며, FE_L(k)는 낮은 선형 예측 차수(예를 들면, 4차)를 적용하여 추출된 포만트 에너지이며, FE_H(k)는 높은 선형 예측 차수(예를 들면, 10차)를 적용하여 추출된 포만트 에너지이다.
한편, 상술한 4차 및 10차 선형 예측 차수를 4차 및 10차 뿐만 아니라, 다양한 선형 예측 차수를 적용하는 것이 본 발명의 일실시예에 포함되는 것은 물론이다.
평균 에너지 산출부(142)는 차이 산출부(141)에 의해 산출된 복수 개의 포만트 에너지 차이값의 평균 에너지를 산출할 수 있다. 평균 에너지 산출부(142)는 유성음으로 판단된 음성 프레임에 선형 예측 차수를 적용하여 포만트 에너지가 추출된 후, 포만트 에너지간의 차이가 산출되면, 산출된 포만트 에너지 차이의 평균 에너지를 각각의 음성 프레임 별로 산출할 수 있다. 수식 2를 참조하면,
수식 2
Figure 112014008943878-pat00001

여기서, f는 프레임의 번호이며, tEH(f)는 프레임별 포만트 에너지 차이의 평균 에너지이다.
카운팅부(143)는 현재 음성 프레임의 선형 예측 차수별 포만트 에너지 차이의 평균 에너지와 이전 음성 프레임의 선형 예측 차수별 포만트 에너지 차이의 평균 에너지의 비율을 구할 수 있다. 카운팅부(143)는 수식 3을 적용하여 현재 프레임과 이전 프레임 간의 포만트 에너지 차이의 평균 에너지의 비율을 구할 수 있다.
수식 3
Figure 112014008943878-pat00002

여기서 tEH(f-1)는 이전 프레임의 선형 예측 차수별 포만트 에너지 차이의 평균 에너지이며, tEH(f)는 현재 프레임의 선형 예측 차수별 포만트 에너지 차이의 평균 에너지이며, tEH는 이전 음성 프레임과 현재 음성 프레임의 포만트 에너지 차이의 평균 에너지 비율값이다.
카운팅부(143)는 유성음으로 판단된 모든 음성 프레임에 대해, 이전 음성 프레임과 현재 음성 프레임의 포만트 에너지 차이의 평균 에너지 비율값(tEH)을 각각 구하고, 음성 프레임별로 구해진 비율값이 미리 정해진 임계값(Vth)보다 크면 카운트를 증가시키고, 그렇지 않으면 그대로 둔다.
판정부(144)는 유성음으로 판단된 전체 음성 프레임의 개수 대비 카운트된 개수의 비율(Rate)를 구한 다음, 미리 정해진 비율값(Rth)보다 작으면 음주로 판단하게 된다. 판정부(144)는 다음과 같은 수식 4에 의해 비율을 산출할 수 있다.
수식 4
Figure 112014008943878-pat00003

여기서, Rate는 전체 음성 프레임의 개수 대비 카운트된 개수의 비율이며, C는 카운트 개수, T는 유성음으로 판단된 전체 음성 프레임의 개수이다.
저장부(145)는 상술한 임계값 및 비율값을 미리 저장할 수 있다.
도 7은 본 발명의 일실시예에 의한 음주 판별 방법을 나타내는 제어흐름도이다.
음성 입력부(110)는 사람의 음성을 입력받아 음성 데이터로 변환하고, 음성 데이터를 프레임 단위의 음성 프레임으로 변환하여 출력할 수 있다.(200,205)
유/무성음 분석부(120)는 음성 프레임을 입력받아 기 설정된 특징들을 추출하고, 추출된 특징들에 따라 입력된 음성 프레임이 유성음, 무성음 또는 배경 잡음에 대한 것인지 여부를 분석할 수 있다.(210)
유/무성음 분석부(120)는 상술한 방식에 의한 인식 결과에 따라 입력된 음성 프레임이 유성음인지 무성음인지에 대한 판단을 하고, 그 결과에 따라 유성음에 해당하는 음성 프레임을 추출하여 출력할 수 있다.(215)
LPC 처리부(130)는 유/무성음 분석부(120)에 의해 유성음으로 판별된 음성 프레임에 선형 예측 코딩(LPC)을 적용하여 포만트 에너지를 구할 수 있다. LPC 처리부(130)는 음성 프레임에 선형 예측 코딩 적용 시 선형 예측 차수를 다르게 적용하여 복수 개의 포만트 에너지를 구할 수 있다.(220)
음주 판별부(140)는 복수 개의 선형 예측 차수를 적용하여 생성된 복수 개의 포만트 에너지간의 차이값을 계산할 수 있다. 음주 판별부(140)는 LPC 처리부(130)에 의해 입력되는 모든 음성 프레임 각각에 대해 복수 개의 선형 예측 차수를 적용하여 복수 개의 포만트 에너지가 구해지면, 복수 개의 포만트 에너지간의 차이값을 모든 음성 프레임 각각에 대해 구한다.(225)
음주 판별부(140)는 음성 프레임의 포만트 에너지간의 차이값에 대한 평균 에너지를 각각의 음성 프레임에 대해 구할 수 있다.(230)
음주 판별부(140)는 이전 음성 프레임과 현재 음성 프레임 간의 평균 에너지의 비율값을 구하고, 그 비율값이 미리 정해진 임계값보다 큰 음성 프레임에 대해 카운팅한다.(235,240)
음주 판별부(140)는 유성음으로 판단된 전체 음성 프레임의 개수와 240단계에서 구해진 카운팅된 음성 프레임의 개수의 비율을 산출하고, 그 비율이 미리 정해진 비율값(Rth)보다 작으면 음주로 판단하며, 그 반대의 경우 비음주로 판단한다.(245,250)
한편, 상술한 음주 판별 방법을 실행하기 위한 컴퓨터 프로그램이 기록된 기록 매체가 본 발명의 일실시예에 포함되며, 기록매체는 컴퓨터로 판독 가능하다.
도 8은 본 발명의 다른 실시예에 의한 음주 판별 방법을 나타내는 제어흐름도이다.
도 8의 제어 방법은 도 7의 제어 방법과 비교 시, 320단계가 추가되며 그 외의 단계는 모두 동일하므로 도 7의 설명으로 대체한다.
320 단계에서, LPF 적용부(125)는 유/무성음 분석부(120)에 의해 유성음에 해당하는 음성 프레임이 추출되면, 저역 통과 필터를 적용하여 일정 주파수(예를 들면, 3.5kHz) 이상의 고조파를 필터링한다. 예를 들면, 제1포만트, 제2포만트, 제3포만트, 제4포만트, 제5포만트에 해당하는 주파수 중 제4포만트 이상의 음성 신호를 필터링하여 작업량을 줄일 수 있다.
비록 본 발명이 상기에서 언급한 바람직한 실시예와 관련하여 설명되어졌지만, 본 발명의 요지와 범위로부터 벗어남이 없이 다른 다양한 수정 및 변형이 가능한 것은 당업자라면 용이하게 인식할 수 있을 것이며, 이러한 변경 및 수정은 모두 첨부된 특허청구범위의 범위에 속함은 자명하다.

Claims (15)

  1. 음성 신호를 입력받아 복수 개의 음성 프레임으로 변환하고,
    상기 복수 개의 음성 프레임 중 유성음에 해당하는 음성 프레임을 추출하고,
    상기 유성음에 해당하는 음성 프레임에 복수 개의 선형 예측 차수에 따른 선형 예측 코딩을 적용하여 복수 개의 포만트 에너지를 산출하며,
    상기 복수 개의 포만트 에너지간의 차이를 산출하고, 상기 차이에 따라 음주 상태를 판단하며,
    상기 복수 개의 포만트 에너지간의 차이를 산출하고, 상기 차이에 따라 음주 상태를 판단하는 것은,
    상기 복수 개의 포만트 에너지간의 차이에 대한 평균 에너지를 상기 유성음으로 판단된 모든 음성 프레임 각각에 대해 산출하고, 이전 음성프레임과 현재 음성프레임 간의 평균에너지 비율값을 구해 상기 음주 상태를 판단하는 것인 음주 판별 방법.
  2. 제 1 항에 있어서,
    상기 복수 개의 포만트 에너지간의 차이를 산출하는 것은,
    상기 유성음으로 판단된 음성 프레임 각각에 대해 2개의 선형 예측 차수를 적용하여 2개의 포만트 에너지를 구하고,
    상기 2개의 포만트 에너지간의 차이를 거리값으로 산출하는 것을 포함하는 음주 판별 방법.
  3. 삭제
  4. 제 1 항에 있어서,
    상기 이전 음성프레임과 현재 음성프레임 간의 평균에너지 비율값을 구해 상기 음주 상태를 판단하는 것은,
    상기 이전 음성프레임과 현재 음성프레임 간의 평균 에너지 비율값을 상기 유성음으로 판단된 모든 음성 프레임에 대해 산출하고, 각각의 음성 프레임의 평균 에너지가 미리 정해진 임계값보다 크면 카운팅하여 그 개수를 산출하고, 카운팅 된 개수에 따라 상기 음주 상태를 판단하는 것을 포함하는 음주 판별 방법.
  5. 제 4 항에 있어서,
    상기 카운팅된 개수에 따라 상기 음주 상태를 판단하는 것은,
    상기 카운팅된 개수와 상기 유성음으로 판단된 전체 음성 프레임의 개수의 비율을 산출하고, 상기 산출된 비율이 미리 정해진 비율값보다 작으면 음주 상태인 것으로 판단하며, 상기 산출된 비율이 미리 정해진 비율값보다 크면 비음주 상태인 것으로 판단하는 음주 판별 방법.
  6. 제 1 항에 있어서,
    상기 유성음에 해당하는 음성 프레임에 복수 개의 선형 예측 차수에 따른 선형 예측 코딩을 적용하여 복수 개의 포만트 에너지를 산출하는 것은,
    상기 유성음에 해당하는 음성 프레임에 대해 저차 선형 예측 차수와 고차 선형 예측 차수를 적용하여 각각의 선형 예측 차수에 따른 포만트 에너지를 산출하는 것인 음주 판별 방법.
  7. 제 1 항에 있어서,
    상기 유성음에 해당하는 음성 프레임에 저역 통과 필터를 적용하여 일정 주파수 이상의 고조파를 필터링하는 것을 더 포함하는 음주 판별 방법.
  8. 제 1 항에 따른 음주 판별 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록매체.
  9. 음성 신호를 입력받아 음성 프레임으로 변환하여 출력하는 음성 입력부;
    상기 음성 프레임 중 유성음에 해당하는 음성 프레임을 추출하는 유/무성음 분석부;
    상기 유성음에 해당하는 음성 프레임에 복수 개의 선형 예측 차수에 따른 선형 예측 코딩을 적용하여 복수 개의 포만트 에너지를 산출하는 LPC 처리부; 및
    상기 LPC 처리부에 의해 산출된 복수 개의 포만트 에너지 간의 차이에 따라 음주 여부를 판단하는 음주 판별부를 포함하며,
    상기 음주 판별부가 상기 LPC 처리부에 의해 산출된 복수 개의 포만트 에너지 간의 차이에 따라 음주 여부를 판단하는 것은,
    상기 복수 개의 포만트 에너지간의 차이에 대한 평균 에너지를 상기 유성음으로 판단된 모든 음성 프레임 각각에 대해 산출하고, 이전 음성프레임과 현재 음성프레임 간의 평균에너지 비율값을 구해 음주 상태를 판단하는 것인 음주 판별 단말기.
  10. 제 9 항에 있어서,
    상기 유/무성음 분석부에 의해 유성음으로 분석된 음성 프레임에 대해 일정 주파수 이상의 신호를 필터링하는 LPF 적용부를 더 포함하는 음주 판별 단말기.
  11. 제 9 항에 있어서,
    상기 LPC 처리부는 상기 유성음으로 분석된 모든 음성 프레임에 대해 2개의 선형 예측 차수에 따른 선형 예측 코딩을 적용하여 2개의 포만트 에너지를 추출하는 음주 판별 단말기.
  12. 제 9 항에 있어서,
    상기 음주 판별부는 상기 복수 개의 선형 예측 차수에 따른 선형 예측 코딩을 적용하여 생성된 복수 개의 포만트 에너지간의 차이를 산출하는 차이 산출부를 포함하는 음주 판별 단말기.
  13. 제 12 항에 있어서,
    상기 음주 판별부는 상기 차이 산출부에 의해 산출된 복수 개의 포만트 에너지 차이의 평균 에너지를 산출하는 평균 에너지 산출부를 더 포함하는 음주 판별 단말기.
  14. 제 13 항에 있어서,
    상기 음주 판별부는 현재 음성 프레임의 포만트 에너지 차이의 평균 에너지와 이전 음성 프레임의 포만트 에너지 차이의 평균 에너지의 비율을 산출하고, 상기 비율이 미리 정해진 임계값보다 크면 카운트하는 카운팅부를 더 포함하는 음주 판별 단말기.
  15. 제 14 항에 있어서,
    상기 음주 판별부는 상기 유성음으로 분석된 전체 음성 프레임의 개수 대비 상기 카운팅부에 의해 카운트된 개수의 비율을 산출하고, 상기 비율이 미리 정해진 비율값보다 작으면 음주로 판단하는 판정부를 더 포함하는 음주 판별 단말기.
KR1020140010173A 2014-01-28 2014-01-28 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기 KR101621766B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020140010173A KR101621766B1 (ko) 2014-01-28 2014-01-28 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
PCT/KR2014/000780 WO2015115677A1 (ko) 2014-01-28 2014-01-28 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
US15/115,118 US9916844B2 (en) 2014-01-28 2014-01-28 Method for determining alcohol consumption, and recording medium and terminal for carrying out same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140010173A KR101621766B1 (ko) 2014-01-28 2014-01-28 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기

Publications (2)

Publication Number Publication Date
KR20150090334A KR20150090334A (ko) 2015-08-06
KR101621766B1 true KR101621766B1 (ko) 2016-06-01

Family

ID=53757239

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140010173A KR101621766B1 (ko) 2014-01-28 2014-01-28 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기

Country Status (3)

Country Link
US (1) US9916844B2 (ko)
KR (1) KR101621766B1 (ko)
WO (1) WO2015115677A1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101621778B1 (ko) 2014-01-24 2016-05-17 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
US9934793B2 (en) 2014-01-24 2018-04-03 Foundation Of Soongsil University-Industry Cooperation Method for determining alcohol consumption, and recording medium and terminal for carrying out same
WO2015115677A1 (ko) 2014-01-28 2015-08-06 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
KR101621780B1 (ko) * 2014-03-28 2016-05-17 숭실대학교산학협력단 차신호 주파수 프레임 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101621797B1 (ko) * 2014-03-28 2016-05-17 숭실대학교산학협력단 시간 영역에서의 차신호 에너지법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101569343B1 (ko) 2014-03-28 2015-11-30 숭실대학교산학협력단 차신호 고주파 신호의 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
CA2953619A1 (en) * 2014-06-05 2015-12-10 Interdev Technologies Inc. Systems and methods of interpreting speech data
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
CN110289004B (zh) * 2019-06-18 2021-09-07 暨南大学 一种基于深度学习的人工合成声纹检测系统及方法
CN113542863B (zh) * 2020-04-14 2023-05-23 深圳Tcl数字技术有限公司 一种声音处理方法、存储介质以及智能电视

Family Cites Families (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9419388D0 (en) * 1994-09-26 1994-11-09 Canon Kk Speech analysis
KR100206205B1 (ko) 1995-12-23 1999-07-01 정몽규 음성 인식 기능을 이용한 음주운전 방지장치 및 방법
US6446038B1 (en) * 1996-04-01 2002-09-03 Qwest Communications International, Inc. Method and system for objectively evaluating speech
US5776055A (en) 1996-07-01 1998-07-07 Hayre; Harb S. Noninvasive measurement of physiological chemical impairment
KR100201256B1 (ko) 1996-08-27 1999-06-15 윤종용 음성을 이용한 차량 시동 제어장치
JP2955247B2 (ja) * 1997-03-14 1999-10-04 日本放送協会 話速変換方法およびその装置
US6006188A (en) * 1997-03-19 1999-12-21 Dendrite, Inc. Speech signal processing for determining psychological or physiological characteristics using a knowledge base
KR19990058415A (ko) 1997-12-30 1999-07-15 윤종용 음주 운전 방지 시스템
WO2001007281A1 (en) 1999-07-24 2001-02-01 Novtech Co Ltd Apparatus and method for prevention of driving of motor vehicle under the influence of alcohol and prevention of vehicle theft
US7222075B2 (en) * 1999-08-31 2007-05-22 Accenture Llp Detecting emotions using voice signal analysis
US6275806B1 (en) * 1999-08-31 2001-08-14 Andersen Consulting, Llp System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters
US6427137B2 (en) * 1999-08-31 2002-07-30 Accenture Llp System, method and article of manufacture for a voice analysis system that detects nervousness for preventing fraud
JP4696418B2 (ja) 2001-07-25 2011-06-08 ソニー株式会社 情報検出装置及び方法
EP1300831B1 (en) * 2001-10-05 2005-12-07 Sony Deutschland GmbH Method for detecting emotions involving subspace specialists
US7283962B2 (en) * 2002-03-21 2007-10-16 United States Of America As Represented By The Secretary Of The Army Methods and systems for detecting, measuring, and monitoring stress in speech
KR100497837B1 (ko) 2002-10-16 2005-06-28 이시우 유무선 통신망과 음성신호를 이용한 음주상태의 안내서비스 시스템
US8972266B2 (en) * 2002-11-12 2015-03-03 David Bezar User intent analysis extent of speaker intent analysis system
US20040167774A1 (en) * 2002-11-27 2004-08-26 University Of Florida Audio-based method, system, and apparatus for measurement of voice quality
KR100511316B1 (ko) * 2003-10-06 2005-08-31 엘지전자 주식회사 음성신호의 포만트 주파수 검출방법
EP1531458B1 (en) * 2003-11-12 2008-04-16 Sony Deutschland GmbH Apparatus and method for automatic extraction of important events in audio signals
US8938390B2 (en) * 2007-01-23 2015-01-20 Lena Foundation System and method for expressive language and developmental disorder assessment
US9300790B2 (en) * 2005-06-24 2016-03-29 Securus Technologies, Inc. Multi-party conversation analyzer and logger
US8478596B2 (en) 2005-11-28 2013-07-02 Verizon Business Global Llc Impairment detection using speech
KR100664271B1 (ko) 2005-12-30 2007-01-04 엘지전자 주식회사 음원분리가 가능한 휴대용 단말기 및 그 방법
KR100717625B1 (ko) * 2006-02-10 2007-05-15 삼성전자주식회사 음성 인식에서의 포먼트 주파수 추정 방법 및 장치
KR100762596B1 (ko) 2006-04-05 2007-10-01 삼성전자주식회사 음성 신호 전처리 시스템 및 음성 신호 특징 정보 추출방법
EP1850328A1 (en) 2006-04-26 2007-10-31 Honda Research Institute Europe GmbH Enhancement and extraction of formants of voice signals
US7962342B1 (en) 2006-08-22 2011-06-14 Avaya Inc. Dynamic user interface for the temporarily impaired based on automatic analysis for speech patterns
US7925508B1 (en) 2006-08-22 2011-04-12 Avaya Inc. Detection of extreme hypoglycemia or hyperglycemia based on automatic analysis of speech patterns
WO2008032787A1 (fr) 2006-09-13 2008-03-20 Nippon Telegraph And Telephone Corporation ProcÉDÉ de dÉtection de sensations, dispositif de dÉtection de sensations, programme de dÉtection de sensations contenant le procÉDÉ, et support d'enregistrement contenant le programme
US20100010689A1 (en) 2007-02-07 2010-01-14 Pioneer Corporation Drunken driving prevention device, drunken driving prevention method, and drunken driving prevention program
CA2690433C (en) * 2007-06-22 2016-01-19 Voiceage Corporation Method and device for sound activity detection and sound signal classification
KR101441896B1 (ko) 2008-01-29 2014-09-23 삼성전자주식회사 적응적 lpc 계수 보간을 이용한 오디오 신호의 부호화,복호화 방법 및 장치
JP5077107B2 (ja) * 2008-07-04 2012-11-21 日産自動車株式会社 車両用飲酒検知装置及び車両用飲酒検知方法
US8788270B2 (en) * 2009-06-16 2014-07-22 University Of Florida Research Foundation, Inc. Apparatus and method for determining an emotion state of a speaker
WO2011011413A2 (en) * 2009-07-20 2011-01-27 University Of Florida Research Foundation, Inc. Method and apparatus for evaluation of a subject's emotional, physiological and/or physical state with the subject's physiological and/or acoustic data
WO2011059254A2 (en) 2009-11-12 2011-05-19 Lg Electronics Inc. An apparatus for processing a signal and method thereof
JP5834449B2 (ja) * 2010-04-22 2015-12-24 富士通株式会社 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
AU2010357179A1 (en) * 2010-07-06 2013-02-14 Rmit University Emotional and/or psychiatric state detection
WO2012014301A1 (ja) 2010-07-29 2012-02-02 ユニバーサルロボット株式会社 飲酒状態判定装置及び飲酒状態判定方法
US9230538B2 (en) 2011-04-08 2016-01-05 Mitsubishi Electric Corporation Voice recognition device and navigation device
US9659571B2 (en) 2011-05-11 2017-05-23 Robert Bosch Gmbh System and method for emitting and especially controlling an audio signal in an environment using an objective intelligibility measure
CA2836196C (en) * 2011-05-17 2021-06-29 University Health Network Breathing disorder identification, characterization and diagnosis methods, devices and systems
ES2364401B2 (es) * 2011-06-27 2011-12-23 Universidad Politécnica de Madrid Método y sistema para la estimación de parámetros fisiológicos de la fonación.
JP5664480B2 (ja) * 2011-06-30 2015-02-04 富士通株式会社 異常状態検出装置、電話機、異常状態検出方法、及びプログラム
WO2014115115A2 (en) * 2013-01-24 2014-07-31 B. G. Negev Technologies And Applications Ltd. Determining apnea-hypopnia index ahi from speech
JP6263868B2 (ja) 2013-06-17 2018-01-24 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
KR101475894B1 (ko) * 2013-06-21 2014-12-23 서울대학교산학협력단 장애 음성 개선 방법 및 장치
CN106409313B (zh) 2013-08-06 2021-04-20 华为技术有限公司 一种音频信号分类方法和装置
US20150127343A1 (en) 2013-11-04 2015-05-07 Jobaline, Inc. Matching and lead prequalification based on voice analysis
US9934793B2 (en) 2014-01-24 2018-04-03 Foundation Of Soongsil University-Industry Cooperation Method for determining alcohol consumption, and recording medium and terminal for carrying out same
WO2015115677A1 (ko) 2014-01-28 2015-08-06 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
US20150262429A1 (en) 2014-03-13 2015-09-17 Gary Stephen Shuster Systems, devices and methods for sensory augmentation to achieve desired behaviors or outcomes
KR20150123579A (ko) * 2014-04-25 2015-11-04 삼성전자주식회사 사용자 음성으로부터 감정정보를 확인하는 방법 및 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Chan-Joong Jung 외 3인, ‘Speech Sobriety Test Based on Formant Energy Distribution’, International Journal of Multimedia and Ubiquitous Engineering Vol.8 No.6, 2013, pp.209-216*
Geumran Baek 외 1인, ‘A Study on Judgment of Intoxication State Using Speech’, Computer Application for Database, Education, and Ubiquitous Computing Vol.352, 2012, pp.277-282

Also Published As

Publication number Publication date
US20160379669A1 (en) 2016-12-29
WO2015115677A1 (ko) 2015-08-06
KR20150090334A (ko) 2015-08-06
US9916844B2 (en) 2018-03-13

Similar Documents

Publication Publication Date Title
KR101621766B1 (ko) 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
KR101621774B1 (ko) 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
KR100744352B1 (ko) 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
JP5229234B2 (ja) 非音声区間検出方法及び非音声区間検出装置
KR101437830B1 (ko) 음성 구간 검출 방법 및 장치
JP2017528752A5 (ko)
JP2012242214A (ja) 異音検査方法及び異音検査装置
Khanagha et al. Phonetic segmentation of speech signal using local singularity analysis
KR101621778B1 (ko) 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
JPH10254476A (ja) 音声区間検出方法
JP2010230814A (ja) 音声信号評価プログラム、音声信号評価装置、音声信号評価方法
KR101808810B1 (ko) 음성/무음성 구간 검출 방법 및 장치
Kolhatkar et al. Implementation of pitch detection algorithms for pathological voices
Sadjadi et al. Robust front-end processing for speaker identification over extremely degraded communication channels
US9907509B2 (en) Method for judgment of drinking using differential frequency energy, recording medium and device for performing the method
Sangeetha et al. Robust automatic continuous speech segmentation for indian languages to improve speech to speech translation
CN103839544A (zh) 语音激活检测方法和装置
KR20130098810A (ko) 실내 공기질 위해성 통합 분석 시스템 및 방법
CN106133835B (zh) 用于使用时域中的差分能量判断饮酒的方法、用于执行该方法的记录介质和装置
US9916845B2 (en) Method for determining alcohol use by comparison of high-frequency signals in difference signal, and recording medium and device for implementing same
KR101895896B1 (ko) 음성의 음질 평가 장치 및 방법, 이를 수행하기 위한 기록 매체
JP4970371B2 (ja) 情報処理装置
Luu Real-time noise-robust speech detection
Park et al. Cluster-Based Discriminative Weight Training Framework for Voice Activity Detection
Mathivanan et al. Multi Channel Voice Active Detection Using Instance Filed Auto-Interrelation Function

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190401

Year of fee payment: 4