KR20060066416A - 음성 코덱을 이용한 후두 원격 진단 서비스 장치 및 그 방법 - Google Patents

음성 코덱을 이용한 후두 원격 진단 서비스 장치 및 그 방법 Download PDF

Info

Publication number
KR20060066416A
KR20060066416A KR1020040105008A KR20040105008A KR20060066416A KR 20060066416 A KR20060066416 A KR 20060066416A KR 1020040105008 A KR1020040105008 A KR 1020040105008A KR 20040105008 A KR20040105008 A KR 20040105008A KR 20060066416 A KR20060066416 A KR 20060066416A
Authority
KR
South Korea
Prior art keywords
laryngeal
information
voice codec
parameter
diagnostic
Prior art date
Application number
KR1020040105008A
Other languages
English (en)
Inventor
김현우
김도영
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020040105008A priority Critical patent/KR20060066416A/ko
Priority to US11/177,261 priority patent/US20060129390A1/en
Publication of KR20060066416A publication Critical patent/KR20060066416A/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • G10L2025/903Pitch determination of speech signals using a laryngograph

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은 음성 코덱을 이용한 후두 원격 진단 서비스 장치 및 그 방법에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은 음성 코덱을 사용하는 시스템 측으로부터 전송받은 파라미터(선형 예측 계수, 피치 등)를 이용하여 후두 질환 또는/및 후두 상태를 결정하기 위한 후두 원격 진단 서비스 장치 및 그 방법을 제공하는데 그 목적이 있음.
3. 발명의 해결방법의 요지
본 발명은, 음성 코덱을 이용한 후두 원격 진단 서비스 장치에 있어서, 외부의 네트워크를 통하여 사용자 정보와 외부 기기에 사용되는 음성 코덱 정보를 수집하기 위한 사용자 정보/음성 코덱 정보 수집 수단; 상기 사용자 정보/음성 코덱 정보 수집 수단에서 수집한 음성 코덱 정보를 바탕으로 상기 네트워크 측으로부터 전달받은 비트열에서 진단 파라미터를 추출하기 위한 파라미터 추출 수단; 음성 코덱의 종류와 비트율을 고려하여 진단 파라미터를 미리 저장하고 있는 저장 수단; 상기 파라미터 추출 수단에서 추출한 진단 파라미터를 상기 음성 코덱 정보를 바탕으로 상기 저장 수단의 정보와 비교하기 위한 파라미터 비교 수단; 및 상기 파라미터 비교 수단에서의 비교 결과를 바탕으로 후두 질환 또는/및 후두 상태를 결정(진단)하기 위한 후두 질환 또는/및 후두 상태 결정 수단을 포함함.
4. 발명의 중요한 용도
본 발명은 후두 원격 진단 서비스 등에 이용됨.
음성 코덱 정보, 사용자 정보, 음성 비트열, 후두 질환 원격 진단 서비스, 진단 파라미터 추출/비교

Description

음성 코덱을 이용한 후두 원격 진단 서비스 장치 및 그 방법{A remote service apparatus and method that diagnoses laryngeal disorder or/and state using a speech codec}
도 1은 본 발명이 적용되는 통신 시스템의 일실시예 구성도,
도 2는 본 발명에 따른 음성 코덱을 이용한 후두 원격 진단 서비스 장치의 일실시예 구성도,
도 3은 본 발명에 따른 음성 코덱을 이용한 후두 원격 진단 서비스 방법에 대한 일실시예 흐름도이다.
* 도면의 주요 부분에 대한 부호의 설명
21 : 사용자 정보/음성 코덱 정보 수집부 22 : 파라미터 추출부
23 : 파라미터 비교부 24 : 데이터베이스
25 : 후두 질환 또는/및 후두 상태 결정부
본 발명은 음성 코덱을 이용한 후두 원격 진단 서비스 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 선형 예측(linear prediction) 기술에 기반하는 음성 코덱을 사용하는 통신 시스템(단말기, 네트워크)을 통해 후두 질환 여부 또는/및 후두 상태를 원격으로 진단하기 위한 후두 원격 진단 서비스 장치 및 그 방법에 관한 것이다.
일반적으로 디지털 기술에 의한 음성 전송에서는 네트워크의 대역폭을 절약하기 위해 정보의 양을 최소화하는 음성 코덱을 사용한다. 이 때, 대부분의 음성 코덱은 높은 압축률을 장점으로 하는 선형 예측 기술에 기반을 둔다.
한편, 음성은 성문(glottis)과 성관(vocal tract)을 통해 숨을 내쉼으로써 발생한다. 다시 말해 폐에서 나온 잡음과 같은 공기가 성대(glottal cord)의 떨림(vibration)에 의해 주기적인 형태를 갖고 성관에 의해 공명(resonance)을 갖는다. 선형 예측 기술에 기반을 둔 음성 코덱은 이러한 음성 발생 과정을 모델링하여 높은 압축률을 이룬다. 이 때, 소스는 임의의 여기 신호(random excitation)나 코드 여기 신호(code excitation)로 모델링하고, 피치 필터는 성대의 떨림을 모델링하고, 선형 예측 필터(linear prediction filter)는 성관의 공명을 모델링한다.
이처럼, 선형 예측 기술에 기반하는 음성 코덱은 선형 예측 계수(LPC : Linear Prediction Coefficients) 정보, 피치(pitch) 정보, 여기 신호(excitation) 정보를 파라미터로 갖는다. 즉, 음성 코덱은 선형 예측 계수(또는 LSP, ISP), 피치 주기와 이득, 여기 신호를 표현하는 세 파라미터를 양자화하여 비트열(bitstream) 로 바꾸는 방식으로 압축한다. 이러한 대표적인 음성 코덱으로는 IP(Internet Protocol)망에서 사용되는 "G.729A", "G.723.1" 등이 있고, 무선이동통신에서 사용되는 EVRC(Enhanced Variable Rate Codec), QCELP(Qualcomm Code Excited Linear Prediction), AMR(Adaptive Multi-Rate), SMV(Selective Mode Vocoder) 등이 있다.
한편, 음성 성분을 분석하여 후두 질환(laryngeal disorder)을 진단하거나 후두 상태를 판정하기 위한 다양한 기술들이 개발되어 왔다. 최근 연구 결과를 보면 음성 신호(excitation)의 파형에는 개인의 특성이 잘 반영되어 있고, 음질(vocal quality) 및 후두 질환과 연관되어 있음을 보여주고 있다. 일반적으로 후두 질환을 측정하는 척도(measure)로 신호의 퍼터베이션(perturbation), 잡음 성분, 스펙트럼 특성, 켑스트럼(Cepstrum)과 같은 음향 특성을 사용한다. 일예로 선형 예측 계수 및 피치를 직접 이용하거나 약간 변형하여 이용하는 방법도 그 중 한 방법이다. 이 때, 이용되는 파라미터는 음성 코덱으로 압축한 파라미터와 유사하거나 동일하다.
한편, 네트워크를 통해 후두 질환 또는/및 후두 상태를 진단하려는 시도가 있었다. 그 중 한 방법은 시스템으로부터 후두암 진단이 요청되면 웹을 통해 사용자의 정보를 받고 음성을 녹음받아 음성 파라미터를 추출하고 신경망으로 후두암 여부를 판정한다. 그러나 이러한 종래의 진단 방법은 녹음된 음성에서 파라미터를 직접 계산해야 하므로 많은 계산량이 요구되는 문제점이 있다. 또한 웹이라는 망의 제약되어 있고, 데이터 저장을 위한 메모리가 요구되는 단점이 있다.
한편, 또 다른 종래 방법은 단말기에 음성을 분석하는 칩을 직접 내장하여 웹 보드를 통해 메인 서버와 접속하여 자신의 음성 분석에 대한 상세한 정보를 제공받는 기술이다. 이러한 종래 방법은 음성에 나타나는 신체 정보, 정서 상태를 분석할 수 있는 칩을 부가적으로 단말기에 내장하여야 하기 때문에 비용 문제가 발생한다.
본 발명은 상기 문제점을 해결하기 위하여 제안된 것으로, 음성 코덱을 사용하는 시스템 측으로부터 전송받은 파라미터(선형 예측 계수, 피치 등)를 이용하여 후두 질환 또는/및 후두 상태를 결정하기 위한 후두 원격 진단 서비스 장치 및 그 방법을 제공하는데 그 목적이 있다.
즉, 본 발명은 선형 예측(linear prediction) 기술에 기반하는 음성 코덱을 사용하는 통신 시스템(단말기, 네트워크)을 통해 음성 코덱 정보 등을 전달받아 후두 질환 또는/및 후두 상태를 원격으로 진단하기 위한 후두 원격 진단 서비스 장치 및 그 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
상기 목적을 달성하기 위한 본 발명의 장치는, 음성 코덱을 이용한 후두 원격 진단 서비스 장치에 있어서, 외부의 네트워크를 통하여 사용자 정보와 외부 기기에 사용되는 음성 코덱 정보를 수집하기 위한 사용자 정보/음성 코덱 정보 수집 수단; 상기 사용자 정보/음성 코덱 정보 수집 수단에서 수집한 음성 코덱 정보를 바탕으로 상기 네트워크 측으로부터 전달받은 비트열에서 진단 파라미터를 추출하기 위한 파라미터 추출 수단; 음성 코덱의 종류와 비트율을 고려하여 진단 파라미터를 미리 저장하고 있는 저장 수단; 상기 파라미터 추출 수단에서 추출한 진단 파라미터를 상기 음성 코덱 정보를 바탕으로 상기 저장 수단의 정보와 비교하기 위한 파라미터 비교 수단; 및 상기 파라미터 비교 수단에서의 비교 결과를 바탕으로 후두 질환 또는/및 후두 상태를 결정(진단)하기 위한 후두 질환 또는/및 후두 상태 결정 수단을 포함하는 것을 특징으로 한다.
한편, 본 발명의 방법은, 음성 코덱을 이용한 후두 원격 진단 서비스 방법에 있어서, 외부의 사용자 단말기와 호가 설정됨에 따라 사용자 정보와 외부 기기에 사용되는 음성 코덱 정보를 수집하는 단계; 상기 사용자 단말기 측으로 음성 데이터를 요구하여 상기 사용자 단말기의 음성 코덱에서 비트열로 변환된 데이터를 전달받는 단계; 상기 전달받은 비트열에서 진단 파라미터를 획득하는 진단 파라미터 획득 단계; 상기 획득한 진단 파라미터를 음성 코덱의 종류와 비트율을 고려하여 미리 구축되어 있는 데이터베이스의 정보와 비교하는 단계; 및 상기 비교 결과를 전체 평균과 개인의 편차를 바탕으로 분석하여 후두 질환 여부 또는/및 후두 상태를 판정하는 단계를 포함하는 것을 특징으로 한다.
이처럼, 본 발명에서는 상기 첫 번째 종래 기술의 문제점을 해결하기 위하여, 기존의 선형 예측 기술에 기반을 둔 음성 코덱 정보를 네트워크를 통하여 전달받고 이것을 사용하여 후두 질환 또는/및 후두 상태를 원격으로 진단함으로써, 선형 예측 계수 및 피치와 같은 파라미터를 위한 계산 과정을 없애거나 계산량을 대폭 줄일 수 있다. 또한 음성 코덱을 사용하는 모든 네트워크에서 진단이 가능하므로 공간적 제약이 줄어들고, 음성 코덱이 실시간으로 동작하므로 실시간 진단이 가능하다.
또한 본 발명에서는 상기 두 번째 종래 기술의 문제점을 해결하기 위하여, 기존의 음성 코덱을 사용하여 구한 파라미터를 사용함으로써, 음성 분석을 위한 추가적인 칩이 필요 없어 가격이 저렴하다. 또한 기존의 단말기와 네트워크를 그대로 사용할 수 있기 때문에 구현과 서비스가 용이하다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.
도 1은 본 발명이 적용되는 통신 시스템의 일실시예 구성도로서, 사용자가 선형 예측 기술에 기반한 음성 코덱을 사용하여 원격으로 후두 질환 또는/및 후두 상태 정보를 얻는 과정을 설명하기 위한 전체 시스템의 구성도이다.
먼저, 도 2를 참조하여 그 전체적인 동작을 살펴보면, 사용자 단말기(11)가 사용자의 음성을 선형 예측 기술에 기반을 둔 음성 코덱을 사용하여 비트열로 변환한 후에 해당 음성 코덱에 대한 정보와 함께 네트워크(12)를 통해 후두 원격 진단 서비스를 제공하는 서버(13)로 전송하는 과정, 및 상기 후두 원격 진단 서비스를 제공하는 서버(13)가 상기 네트워크(12)를 통하여 전달받은 비트열에서 음성 코덱 정보(네트워크의 음성 코덱 정보를 포함할 수도 있음)를 바탕으로 선형 예측 계수, 피치 정보 등을 직/간접적으로 가공하여 파라미터를 추출(및 변형)한 후에, 추출한 파라미터를 음성 코덱 정보를 고려하면서 데이터베이스에 기 저장되어 있는 정보와 비교하여 후두 질환 또는/및 후두 상태를 결정하는 과정을 포함하여 이루어진다.
이를 좀 더 상세히 살펴보면 다음과 같다.
일예로, 사용자가 이동통신 단말기를 이용하는 경우에, 이동통신 단말기가 음성을 입력받아 EVRC, QCELP 등과 같은 해당 음성 코덱을 이용하여 선형 예측 계수, 피치, 여기 신호 등을 나타내는 파라미터를 비트열로 변환하여 전송한다.
한편, 사용자가 IP 망을 이용하는 경우 SIP(Session Initiation Protocol) 폰, 메가코(MEGACO) 폰, 개인용 컴퓨터(PC)에서 동작하는 소프트폰 등을 이용하여 음성을 입력받아 "G.729A", "G.723.1" 등과 같은 해당 음성 코덱을 사용하여 비트열로 변환하여 전송한다.
이렇게 압축된 정보는 사용자가 속해있는 무선망이나 IP 망, 전화망 등과 같은 네트워크(12)를 통해 후두 원격 진단 서비스를 제공하는 서버(13)로 전송된다.
그러면, 후두 원격 진단 서비스를 제공하는 서버(13)는 상기 네트워크(12)를 통하여 전달받은 비트열에서 음성 코덱 정보(네트워크의 음성 코덱 정보를 포함할 수도 있음)를 바탕으로 선형 예측 계수, 피치 정보 등을 직/간접적으로 가공하여 파라미터를 추출(및 변형)한 후에, 추출한 파라미터를 음성 코덱의 종류 및 비트율을 고려하면서 데이터베이스에 기 저장되어 있는 정보와 비교하여 후두 질환 여부 또는/및 후두 상태, 추가 진료와 같은 부가 정보를 판단하여 다시 네트워크(12)를 통해 사용자 단말기(11)로 진단 결과를 전달한다.
도 2는 본 발명에 따른 음성 코덱을 이용한 후두 원격 진단 서비스 장치의 일실시예 구성도이다.
도 2에 도시된 바와 같이, 본 발명에 따른 음성 코덱을 이용한 후두 원격 진단 서비스 장치는, 외부의 네트워크(12)를 통하여 사용자 정보와 단말기 및 네트워크에 사용되는 음성 코덱 정보를 수집하기 위한 사용자 정보/음성 코덱 정보 수집부(21), 상기 사용자 정보/음성 코덱 정보 수집부(21)에서 수집한 음성 코덱 정보를 바탕으로 상기 네트워크 측으로부터 전달받은 비트열에서 선형 예측 계수(LPC), 피치 정보 등과 같은 진단 파라미터를 추출하기 위한 파라미터 추출부(22), 음성 코덱의 종류와 비트율을 고려하여 진단 파라미터를 미리 저장하고 있는 데이터베이스(24), 상기 파라미터 추출부(22)에서 추출한 진단 파라미터를 상기 음성 코덱 정보를 바탕으로 상기 데이터베이스(24)의 정보와 비교하기 위한 파라미터 비교부(23), 및 상기 파라미터 비교부(23)에서의 비교 결과를 바탕으로 후두 질환 또는/및 후두 상태를 결정(진단)하기 위한 후두 질환 또는/및 후두 상태 결정부(25)를 포함한다.
그 동작을 좀 더 상세히 살펴보면, 먼저 사용자 단말기(11)와 후두 원격 진단 서비스를 제공하는 서버(13) 간에 호가 설정되면 사용자 정보와 단말기 및 네트워크에 사용되는 음성 코덱 정보를 알아낸다. 다시 말해 후두 원격 진단 서비스를 제공하는 서버(13) 측이 사용자 단말기(11)를 통하여 식별자(ID), 사용자 나이, 사용자 성별, 지역(방언의 사용 유무) 등과 같은 사용자 정보를 얻고, 사용자 단말기(11)와 네트워크(12)에서 지원하는 음성 코덱의 종류와 비트율, 음성 활동 검출기(VAD)와 패킷 손실 은닉(PLC) 사용 여부 등과 같은 음성 코덱 정보를 알아낸다. 또한 네트워크 상에서 트랜스코딩(transcoding)이 발생하였는지, 발생하였다면 탠덤(tandem) 방식인지 또는 탠덤리스(tandemless) 방식인지를 알아낸다.
다음으로, 네트워크(12)를 통하여 전송받은 비트열에서 음성 코덱 정보를 바탕으로 선형 예측 계수, 피치 주기와 이득 정보 등을 얻는다. 이러한 파라미터를 직접 이용할 수도 있고 파라미터를 변형하여 다른 정보를 얻어 이용할 수도 있다. 예컨대 피치의 변형(variation)을 구할 수도 있다. 또한 더 많은 정보가 필요하다면 복호기(decoder)를 사용하여 음성을 합성하여 다른 파라미터를 추출할 수도 있다.
이후, 추출한 파라미터에 대해서 음성 코덱의 종류와 비트율을 고려하여 미리 구축되어 있는 데이터베이스(24)를 바탕으로 비교 작업을 수행한다. 이 때, 사용자의 성별, 나이, 지역 등과 같은 개인의 특성도 고려해야 한다. 파라미터 비교부(23)를 통해 수행된 비교 결과를 바탕으로 후두 질환 여부 또는/및 후두 상태를 판정한다.
이 때, 후두 질환 여부 또는/및 후두 상태를 판정하는 과정을 구체적인 예를 들어 좀 더 상세히 살펴보면, 이타쿠라-사이토 척도(Itakura-Saito distortion mesure)를 사용하여 추출한 파라미터와 데이터베이스의 비교값을 계량화하는 방식이다. 이러한 방식은 음성 분석에서 많이 채택되는 방식이다. 추출한 파라미터를 x, 이미 데이터베이스로 구축된 특정 코덱에 대한 특정 후두 질환의 파라미터를 y라 하면, 두 파라미터를 비교한 값 d(x,y)는 아래의 [수학식 1]과 같다.
Figure 112004058646298-PAT00001
여기서 ,
Figure 112004058646298-PAT00002
는 x와 y의 자기상관(Autocorrelation)이다. 먼저, 비교값 d(x,y)를 계산하고, 비교값이 미리 결정된 한계값(Threshold)보다 크면 특정 후두 질환을 갖고 있음으로 판정하고, 비교값이 한계값보다 작으면 건강한 상태로 판정한다. 지금의 예시에서는 성별, 나이, 지역 등과 같은 개인의 특성은 고려하지는 않았다. 이것은 단지 비교하여 판정하는 하나의 예시이다.
도 3은 본 발명에 따른 음성 코덱을 이용한 후두 원격 진단 서비스 방법에 대한 일실시예 흐름도이다.
먼저, 사용자 단말기(11)와 후두 원격 진단 서비스를 제공하는 서버(13)가 네트워크(12)를 통하여 호를 설정한다(31).
이처럼 호가 설명되면, 후두 원격 진단 서비스를 제공하는 서버(13)가 단말기 및 네트워크에 사용되는 음성 코덱 정보를 수집한다(32).
그리고 후두 원격 진단 서비스를 제공하는 서버(13)가 사용자 단말기(11) 측에 추가적인 사용자 정보를 요구한다(33). 예컨대 사용자를 식별하기 위한 식별자(ID)와 성별, 나이, 직업, 지역(방언 사용 여부), 현재 감정 상태, 이메일(E-mail)로 자세한 진단 결과를 통지받을지 여부 등을 요구한다. 또한 경우에 따라서는 사용자의 음성 코덱이 다양한 비트율을 지원할 경우에 정확한 진단을 위해 높은 비트율 모드를 사용하도록 요청할 수도 있다. 그리고 다양한 음성 코덱을 지원하는 경우에는 16kHz 샘플링 데이터를 사용하는 광대역(wideband) 코덱을 사용하도록 요청할 수도 있다.
그에 따라 사용자 단말기(11)가 추가 요구된 정보 내용을 출력(예 : 디스플레이)하여 해당 정보를 입력 또는 선택하도록 한 후에 그 결과(사용자 정보)를 상기 후두 원격 진단 서비스를 제공하는 서버(13) 측으로 전달한다(34).
그러면, 후두 원격 진단 서비스를 제공하는 서버(13)가 사용자 정보를 전달받아 식별자를 확인하고 사용자 단말기(11) 측으로 음성 데이터를 요구한다(35). 이 때, 보다 정확한 파라미터를 추출하기 위해 특정한 발음을 하도록 요구할 수도 있다.
그러면, 사용자 단말기(11)가 사용자로부터 입력받은 음성 데이터를 선형 예측 기술에 기반을 둔 음성 코덱을 사용하여 비트열로 변환하여 후두 원격 진단 서비스를 제공하는 서버(13)로 전송한다(36). 이 때, 해당 음성 코덱 정보를 함께 전 송할 수도 있다("32" 과정을 여기서 수행 가능하다는 의미임).
그러면, 후두 원격 진단 서비스를 제공하는 서버(13)는 전달받은 비트열로부터 선형 예측 계수, 피치 정보 등과 같은 진단 파라미터를 얻고 이것을 직/간접적으로 변형하여 필요한 파라미터를 더 얻을 수도 있다(37). 그리고 정확한 후두 진단을 위해 복호기(decoder)를 사용해서 음성을 합성하여 진단에 필요한 다른 파라미터를 얻을 수도 있다.
이후, 후두 원격 진단 서비스를 제공하는 서버(13)는 상기 추출한 진단 파라미터를 음성 코덱의 종류와 비트율을 고려하여 미리 구축되어 있는 데이터베이스(24)의 정보와 비교한다(38). 이 때, 사용자의 성별, 나이, 지역 등과 같은 개인의 특성도 고려해야 한다.
이후, 상기 비교 결과를 전체 평균과 개인의 편차를 바탕으로 분석하여 후두 질환 여부 또는/및 후두 상태를 판정한다(39). 이 때, 앞서 얻은 사용자의 특성과 음성 코덱 정보 등을 이용한다.
이후, 사용자 단말기(11)로 후두 질환 또는/및 후두 상태 진단 결과를 전달하면서 부가적으로 지난 결과와의 차이, 재검일 등과 같은 부가 정보도 사용자 단말기(11)로 전송한다(40). 또한 이메일(E-mail)이나 우편물 등과 같은 방법으로 자세한 진단 결과를 전달할 수도 있다.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상 의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.
상기와 같은 본 발명은, 선형 예측(linear prediction) 기술에 기반하는 음성 코덱을 사용하는 통신 시스템(단말기, 네트워크)을 통해 음성 코덱 정보 등을 전달받아 후두 질환 또는/및 후두 상태를 원격으로 진단할 수 있도록 한다.
즉, 본 발명은 기존의 선형 예측 기술에 기반을 둔 음성 코덱 정보를 네트워크를 통하여 전달받아 후두 질환 또는/및 후두 상태를 원격으로 진단함으로써, 선형 예측 계수 및 피치 등과 같은 파라미터를 위한 계산 과정을 없애거나 계산량을 대폭 줄일 수 있는 효과가 있다. 다시 말하면 기존의 음성 코덱의 파라미터를 후두 질환 또는/및 후두 상태 진단의 측정 도구로 사용하기 때문에 음성으로부터 후두 질환 또는/및 후두 상태 진단을 위한 파라미터를 추출하기 위한 계산량을 대폭 감소시킬 수 있는 효과가 있다.
또한 본 발명은 음성 코덱을 사용하는 모든 네트워크에서 진단이 가능하므로 사용자에게 시공간적 제약을 줄여 줄 수 있고, 음성 코덱이 실시간으로 동작하므로 실시간 진단이 가능한 효과가 있다.
또한 본 발명은 기존의 전송받은 음성 코덱 정보를 사용함으로써, 음성 분석을 위한 추가적인 칩이 필요 없어 가격이 저렴하다.
또한 본 발명은 기존의 단말기와 네트워크를 그대로 사용할 수 있기 때문에 구현과 서비스가 용이한 효과가 있다.

Claims (10)

  1. 음성 코덱을 이용한 후두 원격 진단 서비스 장치에 있어서,
    외부의 네트워크를 통하여 사용자 정보와 외부 기기에 사용되는 음성 코덱 정보를 수집하기 위한 사용자 정보/음성 코덱 정보 수집 수단;
    상기 사용자 정보/음성 코덱 정보 수집 수단에서 수집한 음성 코덱 정보를 바탕으로 상기 네트워크 측으로부터 전달받은 비트열에서 진단 파라미터를 추출하기 위한 파라미터 추출 수단;
    음성 코덱의 종류와 비트율을 고려하여 진단 파라미터를 미리 저장하고 있는 저장 수단;
    상기 파라미터 추출 수단에서 추출한 진단 파라미터를 상기 음성 코덱 정보를 바탕으로 상기 저장 수단의 정보와 비교하기 위한 파라미터 비교 수단; 및
    상기 파라미터 비교 수단에서의 비교 결과를 바탕으로 후두 질환 또는/및 후두 상태를 결정(진단)하기 위한 후두 질환 또는/및 후두 상태 결정 수단
    을 포함하는 음성 코덱을 이용한 후두 원격 진단 서비스 장치.
  2. 제 1 항에 있어서,
    상기 파라미터 추출 수단은,
    선형 예측 기술에 기반을 둔 음성 코덱을 사용하여 변환한 비트열로부터 선 형 예측 계수(LPC) 및 피치 정보 등과 같은 진단 파라미터를 추출하는 것을 특징으로 하는 음성 코덱을 이용한 후두 원격 진단 서비스 장치.
  3. 제 2 항에 있어서,
    상기 파라미터 추출 수단은,
    상기 네트워크를 통하여 전송받은 비트열에서 음성 코덱 정보를 바탕으로 선형 예측 계수, 피치 주기와 이득 정보 등과 같은 진단 파라미터를 추출하고, 상기 추출한 진단 파라미터를 변형하는 것을 특징으로 하는 음성 코덱을 이용한 후두 원격 진단 서비스 장치.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 사용자 정보/음성 코덱 정보 수집 수단은,
    외부의 사용자 단말기를 통하여 사용자 식별자(ID), 사용자 나이, 사용자 성별, 지역(방언의 사용 유무)과 같은 사용자 정보를 얻고, 상기 사용자 단말기와 상기 네트워크에서 지원하는 음성 코덱의 종류와 비트율, 음성 활동 검출기(VAD)와 패킷 손실 은닉(PLC) 사용 여부와 같은 음성 코덱 정보를 수집하는 것을 특징으로 하는 음성 코덱을 이용한 후두 원격 진단 서비스 장치.
  5. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 후두 질환 또는/및 후두 상태 결정 수단은,
    상기 파라미터 비교 수단에서의 비교 결과를 전체 평균과 개인의 편차를 바탕으로 분석하여 후두 질환 여부 또는/및 후두 상태를 판정하는 것을 특징으로 하는 음성 코덱을 이용한 후두 원격 진단 서비스 장치.
  6. 음성 코덱을 이용한 후두 원격 진단 서비스 방법에 있어서,
    외부의 사용자 단말기와 호가 설정됨에 따라 사용자 정보와 외부 기기에 사용되는 음성 코덱 정보를 수집하는 단계;
    상기 사용자 단말기 측으로 음성 데이터를 요구하여 상기 사용자 단말기의 음성 코덱에서 비트열로 변환된 데이터를 전달받는 단계;
    상기 전달받은 비트열에서 진단 파라미터를 획득하는 진단 파라미터 획득 단계;
    상기 획득한 진단 파라미터를 음성 코덱의 종류와 비트율을 고려하여 미리 구축되어 있는 데이터베이스의 정보와 비교하는 단계; 및
    상기 비교 결과를 전체 평균과 개인의 편차를 바탕으로 분석하여 후두 질환 여부 또는/및 후두 상태를 판정하는 단계
    를 포함하는 음성 코덱을 이용한 후두 원격 진단 서비스 방법.
  7. 제 6 항에 있어서,
    상기 사용자 단말기로 후두 질환 또는/및 후두 상태 진단 결과를 전달하는 전달 단계
    를 더 포함하는 음성 코덱을 이용한 후두 원격 진단 서비스 방법.
  8. 제 7 항에 있어서,
    상기 전달 단계는,
    현재 진단 결과와 지난 결과와의 차이, 재검일과 같은 부가 정보를 함께 상기 사용자 단말기로 전송하는 것을 특징으로 하는 음성 코덱을 이용한 후두 원격 진단 서비스 방법.
  9. 제 6 항 내지 제 8 항 중 어느 한 항에 있어서,
    상기 진단 파라미터 획득 단계는,
    선형 예측 기술에 기반을 둔 음성 코덱을 사용하여 변환한 비트열로부터 선형 예측 계수(LPC) 및 피치 정보 등과 같은 진단 파라미터를 추출하는 것을 특징으로 하는 음성 코덱을 이용한 후두 원격 진단 서비스 방법.
  10. 제 9 항에 있어서,
    상기 진단 파라미터 획득 단계는,
    네트워크를 통하여 전송받은 비트열에서 음성 코덱 정보를 바탕으로 선형 예측 계수, 피치 주기와 이득 정보 등과 같은 진단 파라미터를 추출하고, 상기 추출한 진단 파라미터를 변형하는 것을 특징으로 하는 음성 코덱을 이용한 후두 원격 진단 서비스 방법.
KR1020040105008A 2004-12-13 2004-12-13 음성 코덱을 이용한 후두 원격 진단 서비스 장치 및 그 방법 KR20060066416A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020040105008A KR20060066416A (ko) 2004-12-13 2004-12-13 음성 코덱을 이용한 후두 원격 진단 서비스 장치 및 그 방법
US11/177,261 US20060129390A1 (en) 2004-12-13 2005-07-08 Apparatus and method for remotely diagnosing laryngeal disorder/laryngeal state using speech codec

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040105008A KR20060066416A (ko) 2004-12-13 2004-12-13 음성 코덱을 이용한 후두 원격 진단 서비스 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR20060066416A true KR20060066416A (ko) 2006-06-16

Family

ID=36585174

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040105008A KR20060066416A (ko) 2004-12-13 2004-12-13 음성 코덱을 이용한 후두 원격 진단 서비스 장치 및 그 방법

Country Status (2)

Country Link
US (1) US20060129390A1 (ko)
KR (1) KR20060066416A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9055861B2 (en) 2011-02-28 2015-06-16 Samsung Electronics Co., Ltd. Apparatus and method of diagnosing health by using voice

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9271074B2 (en) * 2005-09-02 2016-02-23 Lsvt Global, Inc. System and method for measuring sound
KR101475894B1 (ko) * 2013-06-21 2014-12-23 서울대학교산학협력단 장애 음성 개선 방법 및 장치
WO2016109334A1 (en) * 2014-12-31 2016-07-07 Novotalk, Ltd. A method and system for online and remote speech disorders therapy
US10475530B2 (en) * 2016-11-10 2019-11-12 Sonde Health, Inc. System and method for activation and deactivation of cued health assessment
CN110074759B (zh) * 2019-04-23 2023-06-06 平安科技(深圳)有限公司 语音数据辅助诊断方法、装置、计算机设备及存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5148483A (en) * 1983-08-11 1992-09-15 Silverman Stephen E Method for detecting suicidal predisposition
EP0542628B1 (en) * 1991-11-12 2001-10-10 Fujitsu Limited Speech synthesis system
US5761633A (en) * 1994-08-30 1998-06-02 Samsung Electronics Co., Ltd. Method of encoding and decoding speech signals
JPH10260692A (ja) * 1997-03-18 1998-09-29 Toshiba Corp 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
US6330499B1 (en) * 1999-07-21 2001-12-11 International Business Machines Corporation System and method for vehicle diagnostics and health monitoring
US6353810B1 (en) * 1999-08-31 2002-03-05 Accenture Llp System, method and article of manufacture for an emotion detection system improving emotion recognition
EP1187100A1 (en) * 2000-09-06 2002-03-13 Koninklijke KPN N.V. A method and a device for objective speech quality assessment without reference signal
US7139699B2 (en) * 2000-10-06 2006-11-21 Silverman Stephen E Method for analysis of vocal jitter for near-term suicidal risk assessment
SE517026C2 (sv) * 2000-11-17 2002-04-02 Forskarpatent I Syd Ab Metod och anordning för talanalys
US6633839B2 (en) * 2001-02-02 2003-10-14 Motorola, Inc. Method and apparatus for speech reconstruction in a distributed speech recognition system
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
EP1300831B1 (en) * 2001-10-05 2005-12-07 Sony Deutschland GmbH Method for detecting emotions involving subspace specialists
US20040167774A1 (en) * 2002-11-27 2004-08-26 University Of Florida Audio-based method, system, and apparatus for measurement of voice quality
DE60320414T2 (de) * 2003-11-12 2009-05-20 Sony Deutschland Gmbh Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen
US7457753B2 (en) * 2005-06-29 2008-11-25 University College Dublin National University Of Ireland Telephone pathology assessment

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9055861B2 (en) 2011-02-28 2015-06-16 Samsung Electronics Co., Ltd. Apparatus and method of diagnosing health by using voice
US9198613B2 (en) 2011-02-28 2015-12-01 Samsung Electronics Co., Ltd. Apparatus and method of diagnosing health by using voice

Also Published As

Publication number Publication date
US20060129390A1 (en) 2006-06-15

Similar Documents

Publication Publication Date Title
US9875752B2 (en) Voice profile management and speech signal generation
CN108922538B (zh) 会议信息记录方法、装置、计算机设备及存储介质
US10010288B2 (en) Screening for neurological disease using speech articulation characteristics
US8784311B2 (en) Systems and methods of screening for medical states using speech and other vocal behaviors
JP5006343B2 (ja) 不侵入の信号の品質評価
US8214242B2 (en) Signaling correspondence between a meeting agenda and a meeting discussion
US7269561B2 (en) Bandwidth efficient digital voice communication system and method
US20070192108A1 (en) System and method for detection of emotion in telecommunications
Kuresan et al. Fusion of WPT and MFCC feature extraction in Parkinson’s disease diagnosis
JP2008170820A (ja) コンテンツ提供システム及び方法
US9208798B2 (en) Dynamic control of voice codec data rate
WO2022213787A1 (zh) 音频编码方法、音频解码方法、装置、计算机设备、存储介质及计算机程序产品
US8682650B2 (en) Speech-quality assessment method and apparatus that identifies part of a signal not generated by human tract
US20060129390A1 (en) Apparatus and method for remotely diagnosing laryngeal disorder/laryngeal state using speech codec
JP2022502189A (ja) スピーチ分析による肺気量の推定
García et al. Automatic emotion recognition in compressed speech using acoustic and non-linear features
EP2541544A1 (en) Voice sample tagging
CN112712820A (zh) 一种音色分类方法、装置、设备和介质
JP2006039559A (ja) 移動通信端末機のplpを利用した音声コーディング装置及び方法
CN117253485B (zh) 一种数据处理方法、装置、设备及存储介质
JP7110057B2 (ja) 音声認識システム
Almér Evaluation of the Perceived Speech Quality for G729D and Opus: With Different Network Scenarios and an Implemented VoIP Application
Lovrenčič et al. Qos estimation and prediction of input modality in degraded ip networks
KR100701253B1 (ko) 이동통신 환경 하에서의 서버 기반 음성 인식을 위한음성부호화 방법 및 장치
Park Signal Enhancement of a Variable Rate Vocoder with a Hybrid domain SNR Estimator

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application