KR101864824B1

KR101864824B1 - 발화자에 대한 신뢰도 측정 장치 및 방법

Info

Publication number: KR101864824B1
Application number: KR1020160145922A
Authority: KR
Inventors: 백성욱; 양수연; 이미영; 권순일; 전석봉; 박성호; 정재형; 구본우; 박준렬
Original assignee: 세종대학교산학협력단
Priority date: 2016-11-03
Filing date: 2016-11-03
Publication date: 2018-06-05
Also published as: KR20180049689A; WO2018084379A1

Abstract

본 발명은 음성 데이터에 대한 신뢰도 측정 프로그램이 저장된 메모리 및 메모리에 저장된 프로그램을 실행하는 프로세서를 포함한다. 이때, 프로세서는 프로그램의 실행에 따라, 음성 데이터로부터 특징 및 키워드를 추출하고 특징 및 키워드에 기초하여 음성 데이터를 발화하는 발화자에 대응하는 복수의 요소를 추출하며, 복수의 요소 간의 상관관계를 분석하여 발화자에 대한 신뢰도를 산출한다. 그리고 요소는 키워드, 감정의성어, 배경음, 발화자의 성별, 발화자의 연령대 및 발화자의 심리 상태 중 적어도 하나 이상을 포함한다.

Description

발화자에 대한 신뢰도 측정 장치 및 방법{APPARATUS AND METHOD FOR RELIABILITY MEASUREMENT OF SPEAKER}

본 발명은 발화자에 대한 신뢰도 측정 장치 및 방법에 관한 것이다.

경찰서 또는 소방서 등과 같은 비상 센터로 접수되는 긴급 신고 전화 중 장난 전화와 같은 허위 신고가 증가하고 있다. 이러한 허위 신고에 의해 비상 센터에서는 긴급하게 인력 및 장비를 투입하는 일이 잦아지고 있으며, 이를 통한 물질적인 피해 및 인명 피해가 발행할 수 있다.

최근에는 신고자의 상황을 판단하고, 허위 신고 여부를 판단할 수 있는 자동화된 신뢰도 측정 방법을 사용하고 있다. 이러한 종래의 긴급 신고 전화에 대한 신뢰도 측정 방법은 주파수 성분에 기반하여 추출되는 특징 또는 신고자의 상태 정보 등을 이용하여 발화자의 신뢰도를 판단할 수 있다. 이러한 방법은 정확도가 높지 않다는 문제가 있다. 또한, 이러한 방법은 단편적인 내용만을 추출할 수 있으므로, 발화자의 상황을 판단하는데 한계가 있다.

이와 관련되어, 한국 공개특허공보 제10-1188142호(발명의 명칭: "비상센터로 걸려오는 장난전화를 처리하는 시스템, 서버 및 방법")는 비상센터로 걸려오는 장난전화의 전화번호에 해당하는 휴대단말기가 등록된 휴대단말기인지 미등록 휴대 단말기인지를 구분하여 장난전화를 처리할 수 있는 시스템, 서버 및 방법을 개시하고 있다.

본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 발화자의 음성 데이터로부터 추출된 복수의 요소의 관계에 기초하여 해당 발화자의 신뢰도를 측정하는 장치 및 방법을 제공한다.

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 발화자에 대한 신뢰도 측정 장치는 음성 데이터에 대한 신뢰도 측정 프로그램이 저장된 메모리 및 메모리에 저장된 프로그램을 실행하는 프로세서를 포함한다. 이때, 프로세서는 프로그램의 실행에 따라, 음성 데이터로부터 특징 및 키워드를 추출하고 특징 및 키워드에 기초하여 음성 데이터를 발화하는 발화자에 대응하는 복수의 요소를 추출하며, 복수의 요소 간의 상관관계를 분석하여 발화자에 대한 신뢰도를 산출한다. 그리고 요소는 키워드, 감정의성어, 배경음, 발화자의 성별, 발화자의 연령대 및 발화자의 심리 상태 중 적어도 하나 이상을 포함한다.

또한, 본 발명의 제 2 측면에 따른 신뢰도 측정 장치의 발화자에 대한 신뢰도 측정 방법은 발화자에 대응하는 음성 데이터로부터 특징을 추출하는 단계; 발화자에 대응하는 음성 데이터로부터 키워드를 추출하는 단계; 특징 및 키워드에 기초하여 발화자에 대응하는 복수의 요소를 추출하는 단계; 및 복수의 요소 간의 상관관계를 분석하여 발화자에 대한 신뢰도를 산출하는 단계를 포함한다. 이때, 요소는 키워드, 감정의성어, 배경음, 발화자의 성별, 발화자의 연령대 및 발화자의 심리 상태 중 적어도 하나 이상을 포함한다.

본 발명은 긴급 신고 전화로부터 실시간으로 발화자의 신뢰도를 산출할 수 있다. 본 발명은 신고 전화 중 허위 신고 또는 허위 신고를 의심할 내용이 포함되어 있는 경우, 빠르게 감지할 수 있다. 본 발명은 허위 신고를 미리 감지할 수 있으므로 불필요한 인력 투입을 방지할 수 있어 효율적이며, 예산 절감 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 신뢰도 측정 장치의 블록도이다.
도 2는 본 발명의 일 실시예에 따른 복수의 발화자에 대한 음성 데이터의 예시도이다.
도 3은 본 발명의 일 실시예에 따른 신뢰도 측정 프로그램의 예시도이다.
도 4a 및 도 4b는 본 발명의 일 실시예에 따른 요소에 대한 예시도이다.
도 5는 본 발명의 일 실시예에 따른 제 1 음성 데이터 및 제 2 음성 데이터로부터 추출된 요소에 대한 예시도이다.
도 6은 본 발명의 일 실시예에 따른 성별 매핑 테이블, 연령대별 매핑 테이블 및 심리별 매핑 테이블의 예시도이다.
도 7은 본 발명의 일 실시예에 따른 배경음별 매핑 테이블 및 감정의성어별 매핑 테이블의 예시도이다.
도 8은 본 발명의 일 실시예에 따른 키워드 및 연령대에 대한 상관관계의 예시도이다.
도 9는 본 발명의 일 실시예에 따른 키워드 및 연령에 대한 상관관계의 예시도이다.
도 10은 본 발명의 일 실시예에 따른 신뢰도 측정 장치의 발화자에 대한 신뢰도 측정 방법에 대한 순서도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

다음은 도 1 내지 도 9를 참조하여 본 발명의 일 실시예에 따른 신뢰도 측정 장치(100)를 설명한다.

도 1은 본 발명의 일 실시예에 따른 신뢰도 측정 장치(100)의 블록도이다.

신뢰도 측정 장치(100)는 발화자의 음성 데이터(150)를 이용하여 해당 발화자의 신뢰도를 측정한다. 이때, 신뢰도 측정 장치(100)는 메모리(110) 및 프로세서(120)를 포함한다.

메모리(110)는 음성 데이터(150)에 대한 신뢰도 측정 프로그램(300)이 저장된다. 이때, 메모리(110)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 저장된 정보를 유지하기 위하여 전력이 필요한 휘발성 저장장치를 통칭하는 것이다.

또한, 신뢰도 측정 장치(100)는 데이터베이스(160)를 더 포함할 수 있다. 이때, 데이터베이스(160)는 도 1과 같이 신뢰도 측정 장치(100)와 연결된 것이거나, 신뢰도 측정 장치(100) 내에 서비스로 추가된 것일 수 있으나, 이에 한정된 것은 아니다.

음성 데이터(150)는 발화자가 발화한 음성 신호 또는 발화자의 주변 배경의 음성 신호를 포함할 수 있다.

또한, 음성 데이터(150)는 한 명 이상의 발화자를 통하여 발화된 음성 신호를 포함할 수 있다. 이때, 음성 데이터(150)에 복수의 발화자의 음성 신호가 포함된 경우, 프로세서(120)는 음성 데이터(150)를 전처리하여, 각각의 발화자에 대응하는 음성 신호를 추출하여 분석 대상 음성 데이터를 생성할 수 있다.

도 2는 본 발명의 일 실시예에 따른 복수의 발화자에 대한 음성 데이터의 예시도이다.

예를 들어, 음성 데이터(150)는 긴급 신고 센터에 신고자가 전화로 신고를 하는 내용을 포함하는 음성 데이터일 수 있다. 이때, 해당 음성 데이터(150)의 발화자는 신고자와 해당 신고를 접수하는 접수자일 수 있다.

프로세서(120)는 전화를 통한 신고자 및 접수자 간의 대화를 포함하는 음성 데이터(150)를 실시간으로 수신하거나, 신고자 및 접수자 간의 대화를 녹음한 음성 데이터를 수신할 수 있다. 프로세서(120)는 음성 데이터(150)로부터 신고자의 음성 데이터 및 접수자의 음성 데이터를 분리할 수 있다. 도 2의 (a)의 음성 데이터는 도 2의 (b)와 같은 신고자의 음성 데이터 및 도 2의 (c)와 같은 접수자의 음성 데이터로 분리할 수 있다. 그리고 프로세서(120)는 신고자의 음성 데이터에 대하여 신뢰도를 측정할 수 있다.

한편, 프로세서(120)는 음성 데이터(150)에 대한 신뢰도 측정 프로그램(300)에 기초하여 음성 데이터(150)에 대하여 신뢰도를 측정할 수 있다.

도 3은 본 발명의 일 실시예에 따른 신뢰도 측정 프로그램(300)의 예시도이다.

신뢰도 측정 프로그램(300)은 특징 추출 모듈(310), 키워드 추출 모듈(320), 요소 추출 모듈(330) 및 신뢰도 판단 모듈(340)을 포함할 수 있다.

구체적으로 프로세서(120)는 특징 추출 모듈(310)을 통하여 음성 데이터(150)로부터 특징을 추출할 수 있다. 예를 들어, 프로세서(120)는 음성 데이터(150)로부터 기본 주파수(fundamental frequency) 또는 포먼트 주파수(formant frequency)를 특징으로 추출할 수 있다. 또한, 프로세서(120)는 음성 데이터(150)로부터 발화자의 발화 속도 및 발화자의 묵음 정보를 특징으로 추출할 수 있다. 이때, 묵음 정보는 음성 데이터(150)에 포함되는 묵음 구간의 빈도 또는 묵음 구간의 길이를 포함할 수 있다.

또한, 프로세서(120)는 특징 추출 모듈(310) 및 주파수 정보에 기초하여 음성 데이터(150)로부터 발화자의 발화 정보를 추가적인 특징으로 추출할 수 있다. 이때, 발화 정보는 발화자가 동일 음절 또는 동일 단어를 발화한 횟수를 포함할 수 있다. 또는 발화 정보는 해당 발화자의 발성의 강도, 해당 발화자의 음절 별 발성 길이의 규칙성 및 특정 음절에 대한 반복 발화 여부 등을 포함할 수 있다.

예를 들어, 프로세서(120)는 음성 데이터(150)로부터 해당 발화자가 동일한 단어 또는 동일한 음절을 반복하여 발화하는 여부를 판단할 수 있다. 그리고 프로세서(120)는 해당 발화자가 동일한 단어 또는 동일한 음절을 반복하여 발화하는 경우, 해당 단어 또는 음절을 추출하고, 해당 단어 또는 음절의 반복 횟수를 계산하여 발화 정보로 추출할 수 있다.

프로세서(120)는 키워드 추출 모듈(320)을 통하여, 음성 데이터(150)를 텍스트로 변환할 수 있다. 그리고 프로세서(120)는 키워드 추출 모듈(320)을 통하여, 변환된 텍스트에 기초하여 음성 데이터로부터 단어를 추출할 수 있다. 이때, 키워드 추출 모듈(320)은 데이터베이스(160)에 포함된 세부 데이터베이스인 키워드 데이터베이스(350)에 기초하여 음성 데이터로부터 단어를 추출할 수 있다.

이때, 키워드 추출 모듈(320)은 별도의 STT(speech to text) 라이브러리 및 형태소 분석기(morphological analyzer)에 기초하여 음성 데이터(150)를 텍스트로 변환하고, 단어를 추출할 수 있으나, 이에 한정된 것은 아니다.

음성 데이터(150)로부터 특징 및 단어가 추출되면 프로세서(120)는 요소 추출 모듈(330)을 통하여, 복수의 요소를 추출할 수 있다. 그리고 프로세서(120)는 요소 추출 모듈(330)을 통하여, 각 요소 간의 상관관계를 산출할 수 있다. 이때, 요소 및 요소 간의 상관관계는 도 3을 참조하여 상세하게 설명한다.

도 4a 및 도 4b는 본 발명의 일 실시예에 따른 요소에 대한 예시도이다.

도 4a를 참조하면, 프로세서(120)는 음성 데이터(150)로부터 6개의 요소를 추출할 수 있다. 이때, 프로세서(120)는 각 요소 간의 상관관계를 산출할 수 있다. 상관관계는 하나 이상의 요소에 대한 분석을 통하여 산출될 수 있다. 또한, 상관관계는 정수 또는 실수로 표현할 수 있다. 이때, 분석은 통계적 분석일 수도 있으며, 휴리스틱 분석일 수도 있으나, 이에 한정된 것은 아니다.

또한, 각 요소는 그래프(graph) 구조에서 정점(vertex)으로 표현될 수 있다. 복수의 요소 간의 관계는 그래프의 정점 간의 간선(edge)으로 표현될 수 있다. 이때, 간선은 상관관계의 정도를 나타내는 가중치(weight)를 포함할 수 있다.

예를 들어, 복수의 요소 간의 관계는 점선 또는 실선으로 표현될 수 있다. 도 4a를 참조하면, 제 5 요소와 상관관계가 있는 다른 요소는 점섬으로 표시될 수 있다. 또한, 제 6 요소와 상관관계가 있는 다른 요소는 실선으로 표시될 수 있다.

도 4a를 참조하면 제 1 요소는 제 5 요소 및 제 6 요소와 상관관계가 존재할 수 있다. 이때, 제 1 요소와 제 5 요소 간의 상관관계 및 제 1 요소와 제 6 요소는 각각 가중치(W₅₁, W₆₁)를 포함할 수 있다. 또한, 제 1 요소는 제 2 요소, 제 3 요소 및 제 4 요소와 상관관계가 존재하지 않을 수 있다. 이때, 상관관계가 존재하지 않은 것을 의미하는 가중치는 0이 될 수 있다.

또한, 제 2 요소 및 제 3 요소는 제 6 요소 및 제 5 요소와 각각 상관관계에 대응하는 가중치(W₅₂, W₆₂, W₅₃, W₆₃)가 존재할 수 있다. 또한, 제 4 요소는 제 6 요소와 상관관계에 대응하는 가중치(W₆₄)가 존재하며, 제 5 요소는 제 1 요소, 제 2 요소, 제 3 요소 및 제 6 요소와의 상관관계에 대응하는 가중치(W₅₁, W₅₂, W₅₃, W₆₅)가 존재할 수 있다. 그리고 제 6 요소는 제 1 요소, 제 2 요소, 제 3 요소, 제 4 요소 및 제 5 요소와 상관관계에 대응하는 가중치(W₆₁, W₆₂, W₆₃, W₆₄, W₆₅)가 존재할 수 있다.

예를 들어, 도 4b를 참조하면 제 1 요소는 성별이 될 수 있다. 또한, 제 2 요소는 연령대가 될 수 있으며, 제 3 요소는 심리 특히 당황이 될 수 있다. 제 4 요소는 배경음, 제 5 요소는 감정의성어, 제 6 요소는 키워드가 될 수 있다.

한편, 프로세서(120)는 요소 추출 모듈(330)을 통하여, 음성 데이터로부터 요소를 추출할 수 있다. 이때, 요소 추출 모듈(330)은 세부 모듈로 성별 판단 모듈(331), 연령 판단 모듈(332), 심리 판단 모듈(333), 키워드 분석 모듈(334), 감정의성어 추출 모듈(335) 및 배경음 추출 모듈(336)을 포함할 수 있다. 그러므로 프로세서(120)는 발화자의 신뢰도를 측정하기 위하여 추출해야 하는 요소에 따라, 요소 추출 모듈(330)의 세부 모듈을 선택하여 사용하거나, 추가하여 사용할 수 있다.

구체적으로 프로세서(120)는 음성 데이터(150)로부터 추출된 특징 및 성별 판단 모듈(331)을 통하여 발화자의 성별을 추정할 수 있다. 이때, 성별 판단 모듈(331)은 기생성된 성별 판단 모델에 기초하여 특징으로부터 발화자의 성별을 추정할 수 있다.

성별 판단 모델은 성별이 판별된 기수집된 복수의 사용자의 음성 데이터에 기초하여 생성된 것이다.

구체적으로 프로세서(120)는 기수집된 복수의 사용자의 음성 데이터에서 특징을 추출할 수 있다. 이때, 특징은 앞에서 설명한 바와 같이 기본 주파수 및 포먼트 주파수일 수 있다. 그리고 프로세서(120)는 기 수집된 복수의 사용자의 특징에 기초하여 성별 판단 모델을 모델링할 수 있다. 또는, 프로세서(120)는 기 수집된 복수의 사용자의 특징에 기초하여 각 성별에 대응하는 성도(vocal tract) 길이를 정규화하여 성별 판단 모델을 생성 할 수 있다.

또한, 프로세서(120)는 음성 데이터(150)로부터 추출된 특징 및 연령 판단 모듈(332)에 기초하여 해당 발화자의 연령 또는 연령대를 추정할 수 있다. 이때, 프로세서(120)는 특징에 포함된 포먼트 주파수, 묵음 구간의 빈도 수 및 발성 속도 들을 이용하여 해당 발화자의 연령 또는 연령대를 추정할 수 있다. 예를 들어, 연령대는 어린이, 성인 및 노인으로 구분될 수 있다. 이때, 어린이는 만 12세 미만을 의미하며, 성인은 만 13세 이상 만 64세 미만을 의미하며, 노인은 만 65세 이상을 의미할 수 있으나, 이에 한정된 것은 아니다.

또한, 연령 판단 모듈(332)은 기생성된 연령대 판단 모델에 기초하여 특징으로부터 발화자의 연령대를 추정할 수 있다. 이때, 프로세서(120)는 앞에서 성별 판단 모델을 생성하는 과정과 유사하게 각 연령대에 대응하여 기수집된 음성 데이터로부터 추출된 주파수 또는 각 연령대에 대응하는 성도(vocal tract) 길이를 정규화하여 성별 판단 모델을 생성 할 수 있다.

프로세서(120)는 심리 판단 모듈(333) 및 음성 데이터(150)로부터 추출된 특징에 기초하여 발화자의 심리 상태를 추정할 수 있다. 이때, 심리 판단 모듈(333)은 발화자의 심리를 평정(neutral) 및 당황(panic)으로 구분할 수 있다.

예를 들어, 프로세서(120)는 심리 판단 모듈(333)을 통하여 기본 주파수, 포먼트 주파수 및 묵음 정보에 기초하여 심리 상태를 추정할 수 있다. 또한, 프로세서(120)는 심리 판단 모듈(333)을 통하여 특징에 포함된 발화 정보에 기초하여 심리 상태를 추정할 수 있다.

또는, 프로세서(120)는 심리 판단 모듈(333)을 통하여 특징 및 단어에 기초하여, 음성 데이터에 포함된 수정 빈도를 추출할 수 있다. 그리고 프로세서(120)는 수정 빈도를 이용하여 발화자의 심리를 판단할 수 있다. 이때, 프로세서(120)는 앞서 설명한 키워드 추출 모듈(320)을 통하여 추출된 단어 중 키워드 데이터베이스(350)에 저장된 발언을 수정하는 단어가 포함된 경우, 이를 수정 키워드로 판단할 수 있다. 그리고 프로세서(120)는 수정 키워드의 발생 개수를 수정 빈도로 추출할 수 있다.

프로세서(120)는 추출된 단어, 키워드 분석 모듈(334) 및 키워드 데이터베이스(350)를 이용하여 음성 데이터(150)로부터 키워드를 추출할 수 있다. 이때, 키워드는 음성 데이터(150)에 포함된 위치 또는 장소를 추정할 수 있는 단어가 될 수 있다. 또는, 키워드는 음성 데이터(150)에 포함된 발화자의 상황 또는 상태(context)를 감지할 수 있는 단어가 될 수 있다.

프로세서(120)는 단어 및 감정의성어 추출 모듈(335)을 통하여 음성 데이터에 포함된 감정의성어를 추출할 수 있다. 이때, 감정의성어 추출 모듈(335)은 데이터베이스(160)에 저장된 감정의성어 데이터베이스(360)에 기초하여 추출된 단어로부터 감정의성어를 추출할 수 있다.

또한, 프로세서(120)는 배경음 추출 모듈(335)을 통하여 음성 데이터(150)로부터 배경음을 추출할 수 있다. 이때, 배경음은 음성 데이터(150)에서 발화자의 음성 신호를 제거한 음성 신호로부터 산출될 수 있다.

예를 들어, 배경음 추출 모듈(335)은 기수집된 배경음의 음성 신호를 분석하여 음성 신호 별 배경음을 매칭하고 데이터베이스(160)에 저장할 수 있다. 배경음 추출 모듈(335)은 데이터베이스(160)에 저장된 배경음에 기초하여 음성 데이터(150)에 포함된 배경음을 추출하고, 배경음의 종류를 추정할 수 있다. 이때, 배경음의 종류는 차소리, 지하철 소리, 엘리베이터 소리 및 쇼핑 센터 내의 소음 등이 될 수 있으나, 이에 한정된 것은 아니다.

이와 같이, 프로세서(120)는 요소 추출 모듈(330)을 통하여 발화자로부터 복수의 요소를 추출할 수 있다.

도 5는 본 발명의 일 실시예에 따른 제 1 음성 데이터 및 제 2 음성 데이터로부터 추출된 요소에 대한 예시도이다.

예를 들어, 도 5의 (a)를 참조하면, 프로세서(120)는 제 1 음성 데이터로부터 성별로 "여성"을 추출하고, 연령대로 "어린이"를 추출하고 심리로 "당황", 배경음으로 "차소리", 감정의성어로 "에구구(노인/고통)", 키워드로 "차소리"를 추출할 수 있다.

또한, 도 5의 (b)를 참조하면, 프로세서(120)는 제 2 음성 데이터로부터 성별로 "여성"을 추출하고, 연령대로 "성인"를 추출하고 심리로 "당황", 배경음으로 "차소리", 감정의성어로 "으악", 키워드로 "엘리베이터"를 추출할 수 있다.

한편, 프로세서(120)는 추출된 요소를 이용하여 음성 데이터(150)에 대한 신뢰도를 산출할 수 있다. 이때, 프로세서(120)는 신뢰도 판단 모듈(340)을 통하여 복수의 요소 간의 가중치를 산출할 수 있다. 그리고 프로세서(120)는 신뢰도 측정 모듈(340)을 통하여 복수의 요소 간의 가중치에 기초하여 신뢰도를 산출할 수 있다.

이때, 신뢰도는 복수의 요소 간의 논리적 타당성에 기초하여 산출될 수 있는 스코어를 통하여 산출될 수 있다.

예를 들어, 제 1 음성 데이터 및 제 2 음성 데이터로부터 각각 6개의 요소가 추출되면, 프로세서(120)는 각 요소의 스코어를 산출할 수 있다. 이때, 프로세서(120)는 데이터베이스(160)에 저장된 가중치 데이터베이스(380)에 기초하여 각 요소 간의 가중치를 추출할 수 있다. 가중치 데이터베이스(380)는 각 요소에 포함될 수 있는 데이터 간의 매핑 여부에 기초하여 생성된 매핑 데이터베이스(370)에 기초하여 생성될 수 있다.

또한, 프로세서(120)는 키워드 및 다른 요소 간의 논리적 타당성 또는 감정의성어 및 다른 요소 간의 논리적 타당성을 판단할 수 있다. 이때, 논리적 타당성은 미리 정의된 것으로 신뢰성 측정 장치(100)의 관리자 또는 전문가를 통하여 수집된 것일 수 있다.

그리고 프로세서(120)는 논리적 타당성에 기초하여 각 요소별 스코어를 산출할 수 있다. 프로세서(120)는 산출된 스코어 및 가중치에 기초하여 해당 음성 데이터(150)에 대응하는 신뢰도를 산출할 수 있다. 임의의 두 요소 간의 스코어는 논리적 타당성이 있으면 양수가 되도록 설정하며, 논리적 타당성이 없으면 음수가 되도록 설정하고, 논리적 타당성을 판단할 수 없는 경우 0이 되도록 설정할 수 있다.

예를 들어, 프로세서(120)는 임의의 두 요소 간의 논리적 타당성이 있으면 스코어를 1로 설정할 수 있다. 또한, 프로세서(120)는 논리적 타당성이 없으면 스코어를 -1로 설정할 수 있으며, 논리적 타당성을 판단할 수 없으면 스코어를 0으로 설정할 수 있으나, 이에 한정된 것은 아니다.

그리고 프로세서(120)는 키워드 및 다른 요소 간의 스코어와 감정의성어 및 다른 요소 간의 스코어를 산출하고, 이를 통하여 해당 음성 데이터(150)에 대응하는 신뢰도를 산출할 수 있다. 이때, 프로세서는 각 스코어의 합을 이용하여 신뢰도를 산출할 수 있다.

한편, 매핑 데이터베이스(370)는 성별 매핑 테이블, 연령대별 매핑 테이블, 심리별 매핑 테이블, 배경음별 매핑 테이블 및 감정의성어별 매핑 테이블 등을 포함할 수 있다.

성별 매핑 테이블은 키워드와 성별, 및 감정의성어와 성별 간의 논리적 타당성에 기초하여 설정된 것일 수 있다. 또한, 연령대별 매핑 테이블은 연령대와 키워드, 및 연령대와 감정의성어 간의 논리적 타당성에 기초하여 설정된 것이다. 심리별 매핑 테이블은 심리와 키워드, 및 심리와 감정의성어 간의 논리적 타당성에 기초하여 설정된 것이며, 배경음 매핑 테이블은 배경음과 키워드 간의 논리적 타당성에 기초하여 설정된 것이고, 감정의성어 매핑 테이블은 감정의성어 및 키워드 간의 논리적 타당성에 기초하여 설정된 것이다.

도 6은 본 발명의 일 실시예에 따른 성별 매핑 테이블, 연령대별 매핑 테이블 및 심리별 매핑 테이블의 예시도이다. 또한, 도 7은 본 발명의 일 실시예에 따른 배경음별 매핑 테이블 및 감정의성어별 매핑 테이블의 예시도이다.

예를 들어, 도 6의 (a) 및 도 6의 (b)를 참조하면 프로세서(120)는 기수집된 음성 데이터에 기초하여 성별 매핑 테이블 및 연령대별 매핑 테이블을 생성할 수 있다. 또한, 도 6의 (c)를 참조하면 프로세서는 기수집된 음성 데이터에 기초하여 심리별 매핑 테이블을 생성할 수 있다.

이때, 성별 매핑 테이블은 성별과 키워드, 및 성별과 감정의성어 간의 스코어를 정의한 것이다. 성별 매핑 테이블은 성별에 따라 적합한 키워드 및 감성의성어와, 부적합한 키워드 및 감성의성어를 포함할 수 있다. 예를 들어, 성별 매핑 테이블은 성별이 남성의 경우, "으악" 및 "허걱"과 같은 감정의성어가 적합하다고 판단하고, 이에 따라 스코어가 설정된 것일 수 있다. 또한, 매핑 테이블은 여성의 경우, "누나", "아내"와 같은 키워드가 부적합하다고 판단하고, 이에 따라 스코어가 설정된 것일 수 있다.

연령대별 매핑 테이블은 연령대와 키워드, 및 연령대와 감정의성어 간의 매핑 여부 또는 스코어를 정의한 것이다. 심리별 매핑 테이블은 심리와 키워드, 및 심리와 감정의성어 간의 스코어를 정의한 것이다.

또한, 매핑 테이블은 성별에 따른 키워드 또는 감성의성어의 스코어를 수치화하여 포함할 수 있다. 만약, 스코어가 음수인 경우 두 요소 간의 스코어는 부적합한 관계임을 나타낼 수 있다. 또한, 스코어가 양수인 경우 두 요소 간의 스코어는 적합한 관계임을 나타낼 수 있다. 또한, 스코어가 0인 경우, 두 요소 간의 스코어가 없음을 나타낼 수 있다.

예를 들어, 논리적으로 타당하여 논리적으로 적합한 관계인 경우, 두 요소 간의 스코어를 1로 설정하고, 논리적으로 타당하지 않아 부적합한 관계인 경우, 두 요소 간의 스코어를 -1로 설정하며, 두 요소 간에 관계가 없을 경우 0으로 설정할 수 있다.

또한, 도 7의 (a) 및 도 7의 (b)를 참조하면 프로세서(120)는 기수집된 음성 데이터에 기초하여 배경음별 매핑 테이블 및 감정의성어별 매핑 테이블을 생성할 수 있다. 이때, 배경음별 매핑 테이블은 배경음과 키워드, 및 배경음과 감정의성어 간의 스코어를 정의한 것이다.

한편, 프로세서(120)는 매핑 테이블 및 가중치 데이터베이스에 기초하여 해당 음성 데이터에 대응하는 신뢰도를 산출할 수 있다.

예를 들어, 프로세서(120)는 매핑 테이블에 기초하여 각 요소 간의 가중치를 산출할 수 있다. 이때, 가중치는 매핑 테이블에 저장된 각 요소별로 설정된 스코어에 기초하여 산출될 수 있다. 그리고 프로세서(120)는 산출된 가중치를 가중치 데이터베이스(380)에 저장할 수 있다. 프로세서(120)는 가중치 데이터베이스(380)에 기초하여 음성 데이터로부터 추출된 요소 간의 상관관계를 산출할 수 있다.

도 8은 본 발명의 일 실시예에 따른 키워드 및 연령대에 대한 상관관계의 예시도이다. 또한, 도 9는 본 발명의 일 실시예에 따른 키워드 및 연령에 대한 상관관계의 예시도이다.

도 8을 참조하면 프로세서(120)는 특정 음성 데이터로부터 키워드로 "소방관 아저씨", "멍멍이" 및 "엄마"를 추출하고, 연령대로 "어린이"를 추출할 수 있다. 그리고 프로세서(120)는 특정 음성 데이터로부터 추출된 키워드 각각과 연령의 스코어를 산출할 수 있다. 예를 들어, 프로세서(120)는 키워드 "엄마" 및 연령대 "어린이"의 스코어로 1을 산출할 수 있다. 같은 방법으로 프로세서(120)는 각 키워드와 연령대의 스코어를 산출할 수 있다. 그리고 프로세서(120)는 각 스코어의 합에 기초하여 해당 음성 데이터의 신뢰도로 산출할 수 있다.

도 9와 같이, 프로세서(120)는 다른 음성 데이터로부터 키워드로 "낙뢰", "헐", "엄마" 및 "사고"를 추출하고, 연령대로 "노인"을 추출할 수 있다. 그리고 프로세서(120)는 추출된 키워드 각각과 연령의 스코어를 산출할 수 있다. 예를 들어, 프로세서(120)는 키워드 "엄마"와 연령 "노인"의 스코어는 -1을 산출할 수 있다. 이와 같은 방법으로 프로세서(120)는 각 키워드와 연령대의 스코어를 산출할 수 있다. 프로세서(120)는 각 스코어의 합을 해당 음성 데이터의 키워드 및 연령대에 대응하는 신뢰도로 산출할 수 있다.

한편, 프로세서(120)는 음성 데이터(150)로부터 산출된 해당 발화자에 대한 신뢰도에 기초하여 해당 발화자의 신뢰 여부를 판단할 수 있다.

예를 들어, 프로세서(120)는 산출된 신뢰도 및 미리 정해진 임계값을 비교할 수 있다. 이때, 미리 정해진 임계값은 신뢰도 측정 장치(100)의 관리자 또는 전문가가 미리 정한 값일 수 있다. 이때, 미리 정해진 임계값은 0이 될 수 있으나, 이에 한정된 것은 아니다.

프로세서(120)는 산출된 신뢰도가 미리 정해진 임계값 이상인 경우, 해당 발화자를 신뢰할 수 있다고 판단할 수 있다. 이와 반대로 산출된 신뢰도가 미리 정해진 임계값 미만인 경우 프로세서(120)는 해당 발화자를 신뢰할 수 없다고 판단할 수 있다.

예를 들어, 프로세서(120)는 제 1 음성 데이터로부터 요소로 "여성", "어린이", "당황", "차소리", "에구구(노인/고통)" 및 "차사고"를 추출할 수 있다. 이때, 제 5 요소인 "에구구"와 "어린이"의 가중치가 "-3"이고, 제 6 요소인 "당황" 및 "차소리"의 가중치가 각 1이므로, 프로세서(120)는 제 1 음성 데이터에 대응하는 발화자의 신뢰도로 1을 산출할 수 있다. 같은 방법으로 도 5의 (b)를 참조하면, 프로세서(120)는 제 2 음성 데이터에 대응하는 발화자의 신뢰도로 -4를 산출할 수 있다.

그리고 미리 정해진 임계값이 0인 경우, 프로세서(120)는 제 1 음성 데이터에 대응하는 발화자를 신뢰할 수 있는 발화자로 판단할 수 있다. 프로세서(120)는 제 2 음성 데이터에 대응하는 발화자를 신뢰할 수 없는 발화자로 판단할 수 있다.

한편, 프로세서(120)는 해당 발화자의 신뢰도가 미리 정해진 임계값 이하로 해당 발화자가 신뢰할 수 없는 발화자로 판단 된 경우, 해당 발화자로부터 추가적인 음성 데이터를 수집할 수 있다. 예를 들어, 프로세서(120)는 데이터베이스(160)에 저장된 발화자의 신뢰도를 확인하기 위한 질문 리스트에 기초하여, 추가적인 질문을 수행할 수 있다. 그리고 프로세서(120)는 이를 통하여 추가적인 음성 데이터를 수집할 수 있다.

프로세서(120)는 추가적인 음성 데이터에 대응하는 신뢰도를 재산출 할 수 있다. 그리고 프로세서(120)는 재산출된 신뢰도를 이용하여 해당 발화자의 신뢰여부를 판단할 수 있다. 이때, 해당 발화자가 다시 신뢰할 수 없는 발화자로 판단된 경우, 프로세서(120)는 앞에서 설명한 신뢰도 재산출 과정을 반복하여 진행할 수 있다.

다음은 도 10을 참조하여 본 발명의 일 실시예에 따른 신뢰도 측정 장치(100)의 발화자에 대한 신뢰도 측정 방법을 설명한다.

도 10은 본 발명의 일 실시예에 따른 신뢰도 측정 장치(100)의 발화자에 대한 신뢰도 측정 방법에 대한 순서도이다.

신뢰도 측정 장치(100)는 발화자에 대응하는 음성 데이터(150)로부터 특징을 추출한다(S500).

또한, 신뢰도 측정 장치(100)는 발화자에 대응하는 음성 데이터(150)로부터 키워드를 추출한다(S510).

신뢰도 측정 장치(100)는 특징 및 키워드에 기초하여 발화자에 대응하는 복수의 요소를 추출한다(S520).

그리고 신뢰도 측정 장치(100)는 복수의 요소 간의 상관관계를 분석한다(S530). 또한, 신뢰도 측정 장치(100)는 상관관계에 기초하여 발화자에 대한 신뢰도를 산출한다(S540). 이때, 신뢰도는 데이터베이스(160)에 기초하여 각 요소 간의 가중치를 추출하여 산출될 수 있다.

또한, 신뢰도를 산출한 이후, 신뢰도 측정 장치(100)는 신뢰도 및 미리 정해진 임계값을 비교하여 발화자의 신뢰 여부를 판단할 수 있다.

그리고 신뢰도 측정 장치(100)는 신뢰도가 미리 정해진 임계값 미만인 경우, 해당 발화자를 신뢰할 수 없는 발화자로 판단할 수 있다. 또한, 신뢰도 측정 장치(100)는 신뢰도가 미리 정해진 임계값 이상인 경우, 해당 발화자를 신뢰할 수 있는 발화자로 판단할 수 있다.

이때, 신뢰도 측정 장치(100)는 발화자가 신뢰할 수 없는 발화자로 판단되는 경우, 발화자에 대응하는 음성 데이터를 재수집할 수 있다. 그리고 신뢰도 측정 장치(100)는 재수집된 음성 데이터에 기초하여, 특징 및 키워드를 추출하고, 복수의 요소를 추출하며, 이를 이용하여 신뢰도를 산출하는 것을 반복하여 수행할 수 있다.

본 발명의 일 실시예에 따른 발화자에 대한 신뢰도 측정 장치 및 신뢰도 측정 방법은 긴급 신고 전화로부터 실시간으로 발화자의 신뢰도를 산출할 수 있다. 발화자에 대한 신뢰도 측정 장치 및 신뢰도 측정 방법은 신고 전화 중 허위 신고 또는 허위 신고를 의심할 내용이 포함되어 있는 경우, 빠르게 감지할 수 있다. 발화자에 대한 신뢰도 측정 장치 및 신뢰도 측정 방법은 허위 신고를 미리 감지할 수 있으므로 불필요한 인력 투입을 방지할 수 있어 효율적이며, 예산 절감 효과가 있다.

본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.

본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 신뢰도 측정 장치
110: 메모리
120: 프로세서
130: 신고자
140: 접수자
150: 음성 데이터
160: 데이터베이스

Claims

발화자에 대한 신뢰도 측정 장치에 있어서,
음성 데이터에 대한 신뢰도 측정 프로그램이 저장된 메모리 및
상기 메모리에 저장된 프로그램을 실행하는 프로세서를 포함하되,
상기 프로세서는 상기 프로그램의 실행에 따라, 음성 데이터로부터 특징 및 키워드를 추출하고, 상기 특징 및 상기 키워드에 기초하여 상기 음성 데이터를 발화하는 발화자에 대응하는 복수의 요소를 추출하며, 상기 복수의 요소 간의 상관관계를 분석하여 상기 발화자에 대한 신뢰도를 산출하되,
상기 요소는 키워드, 감정의성어, 배경음, 상기 발화자의 성별, 상기 발화자의 연령대 및 상기 발화자의 심리 상태 중 적어도 하나 이상을 포함하는 것이고,
상기 음성 데이터는 신고자 및 접수자의 대화에 기초하여 생성된 것이되,
상기 프로세서는, 상기 음성 데이터로부터 상기 신고자 및 접수자에 각각 대응하는 음성 데이터를 추출하고, 상기 신고자에 대응하는 음성 데이터에 기초하여 상기 신고자의 신뢰도를 산출하는, 신뢰도 측정 장치.
제 1 항에 있어서,
상기 특징은 상기 음성 데이터에 기초하여 추출된 기본 주파수(fundamental frequency), 포먼트 주파수(formant frequency), 묵음 정보, 발화 정보 상기 발화자의 발화 속도 중 하나 이상을 포함하되,
상기 묵음 정보는 상기 음성 데이터에 포함된 묵음 구간 빈도 또는 묵음 구간 길이를 포함하고,
상기 발화 정보는 상기 발화자의 음절 별 발성 길이 또는 상기 발화자가 동일 음절을 발화한 횟수를 포함하는, 신뢰도 측정 장치.
제 1 항에 있어서,
데이터베이스를 더 포함하고,
상기 프로세서는 상기 데이터베이스에 기초하여 추출된 상기 각 요소 간의 가중치에 기초하여 상기 신뢰도를 산출하는, 신뢰도 측정 장치.
제 1 항에 있어서,
상기 프로세서는 상기 신뢰도 및 미리 정해진 임계값을 비교하여 상기 발화자의 신뢰 여부를 판단하는, 신뢰도 측정 장치.
제 4 항에 있어서,
상기 프로세서는 상기 신뢰도가 미리 정해진 임계값 미만인 경우, 상기 발화자에 대응하는 음성 데이터를 재수집하고, 상기 재수집된 음성 데이터에 대하여 상기 발화자에 대한 신뢰도를 재산출하는, 신뢰도 측정 장치.
삭제
제 1 항에 있어서,
상기 음성 데이터는 실시간 전화 음성 데이터인, 신뢰도 측정 장치.
신뢰도 측정 장치의 발화자에 대한 신뢰도 측정 방법에 있어서,
상기 발화자에 대응하는 음성 데이터로부터 특징을 추출하는 단계;
상기 발화자에 대응하는 음성 데이터로부터 키워드를 추출하는 단계;
상기 특징 및 상기 키워드에 기초하여 상기 발화자에 대응하는 복수의 요소를 추출하는 단계; 및
상기 복수의 요소 간의 상관관계를 분석하여 상기 발화자에 대한 신뢰도를 산출하는 단계를 포함하되,
상기 요소는 키워드, 감정의성어, 배경음, 상기 발화자의 성별, 상기 발화자의 연령대 및 상기 발화자의 심리 상태 중 적어도 하나 이상을 포함하는 것이고,
상기 음성 데이터는 신고자 및 접수자의 대화에 기초하여 생성된 것이되,
상기 음성 데이터로부터 상기 신고자 및 접수자에 각각 대응하는 음성 데이터를 추출하여, 상기 신고자에 대응하는 음성 데이터에 기초하여 상기 신고자의 신뢰도를 산출하는 것인, 신뢰도 측정 방법.
제 8 항에 있어서,
상기 발화자에 대한 신뢰도를 산출하는 단계는,
상기 각 요소 간의 가중치를 추출하고, 상기 가중치에 기초하여 상기 신뢰도를 산출하는 것인, 신뢰도 측정 방법.
제 8 항에 있어서,
상기 발화자에 대한 신뢰도를 산출하는 단계 이후에, 상기 신뢰도 및 미리 정해진 임계값을 비교하여 상기 발화자의 신뢰 여부를 판단하는 단계를 더 포함하는, 신뢰도 측정 방법.
제 10 항에 있어서,
상기 발화자의 신뢰 여부를 판단하는 단계 이후에,
상기 신뢰도가 미리 정해진 임계값 미만인 경우, 상기 발화자에 대응하는 음성 데이터를 재수집하고,
상기 재수집된 음성 데이터에 기초하여, 상기 특징을 추출하는 단계, 상기 키워드를 추출하는 단계, 상기 복수의 요소를 추출하는 단계 및 상기 신뢰도를 산출하는 단계를 반복 수행하는, 신뢰도 측정 방법.
제 8 항 내지 제 11 항 중 어느 한 항에 기재된 방법을 컴퓨터 상에서 수행하기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.