KR102149541B1

KR102149541B1 - 보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 장치 및 방법

Info

Publication number: KR102149541B1
Application number: KR1020190155164A
Authority: KR
Inventors: 김지혁; 최정문
Original assignee: (주)위세아이텍
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-08-28

Abstract

보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 장치 및 방법이 개시되며 본원의 일 실시예에 따른 음성 데이터의 변수 도출 장치는 보험 청구와 연계된 음성 데이터를 분석 대상 텍스트로 변환하는 전처리를 통해 상기 음성 데이터를 정형화하는 데이터 전처리부, 분석대상 관련 도메인 지식을 반영한 부당청구 탐지를 위한 단어 사전과 분석에 사용되지 않는 불용어 사전을 구축하는 단어 사전 구축부, 상기 분석 대상 텍스트를 벡터로 변환하는 텍스트 벡터화부 및 상기 분석 대상 텍스트에서 추출된 벡터를 부당청구 패턴 탐지에 대응하는 차원으로 변환하는 차원 축소부를 포함할 수 있다.

Description

보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 장치 및 방법{DEVICE AND METHOD FOR DERIVING VARIABLE VOICE DATA FOR DETECTING CLAIMS FRAUDULENT}

본원은 보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 장치 및 방법에 관한 것이다.

기존의 보험금 부당청구 탐지는 대부분 기존의 비즈니스 룰 기반으로 청구된 보험 사건에 대해 전문가의 경험과 지식을 바탕으로 룰을 도출하는 방법으로 부당청구를 탐지하고, 보험사기를 방지하고 있다.

하지만 전문가의 규칙 기반 보험금 부당청구 방법은 시간적, 경제적으로 비효율적인 부분이 많다. 전문가들의 조사에 기반해 보험금 부당청구를 탐지하는 데에는 인력이 한정적이고, 빅데이터 시대에 모든 데이터를 처리하는 데에는 시간적, 경제적 제약이 따른다.

또한 보험회사는 보험사기에 대해 아무런 조치도 취하지 않은 채 보험금 누수를 방치할 수도 없고, 보험사기를 완전히 밝혀낸다는 목적 하에 무한대의 조사비용을 지출할 수도 없다. 이에 보험회사는 보험사기로부터 누수보험금을 줄이는 한편 지나치게 많은 조사비용을 지출하지 않는 적정한 선에서 조사노력의 수준을 결정할 필요가 있다. 따라서 기존의 보험사기 방지시스템은 새로운 방법이 필요하고, 새로운 사기패턴도 탐지할 수 있는 방법이 필요하다.

본원의 배경이 되는 기술은 한국등록특허공보 제10-0862181호에 개시되어 있다.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 비정형 데이터인 음성 데이터를 활용하여 보험금의 부당청구 패턴 및 부당청구의 신규 패턴을 검출하기 위한 보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 장치 및 방법을 제공하는 것을 목적으로 한다.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 부당청구 데이터를 학습하여 새로운 부당청구 패턴을 검출하는 보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 장치 및 방법을 제공하는 것을 목적으로 한다.

다만, 본원의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들도 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 일 실시예에 따른 보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 장치는 보험 청구와 연계된 음성 데이터를 분석 대상 텍스트로 변환하는 전처리를 통해 상기 음성 데이터를 정형화하는 데이터 전처리부, 분석대상 관련 도메인 지식을 반영한 부당청구 탐지를 위한 단어 사전과 분석에 사용되지 않는 불용어 사전을 구축하는 단어 사전 구축부, 상기 분석 대상 텍스트를 벡터로 변환하는 텍스트 벡터화부 및 상기 분석 대상 텍스트에서 추출된 벡터를 부당청구 패턴 탐지에 대응하는 차원으로 변환하는 차원 축소부를 포함할 수 있다.

본원의 일 실시예에 따르면, 상기 데이터 전처리부는, STT 기법에 기초하여 상기 음성 데이터를 상기 분석 대상 텍스트로 변환하되, 오인식된 텍스트는 후처리를 통해 상기 분석 대상 텍스트로 변환할 수 있다.

본원의 일 실시예에 따르면, 상기 데이터 전처리부는, 오인식 사전을 구축하고, 상기 오인식 사전에 기초하여 상기 오인식된 텍스트를 상기 분석 대상 텍스트로 변환할 수 있다.

본원의 일 실시예에 따르면, 상기 텍스트 벡터화부는 상기 분석 대상 텍스트의 단어 및 문장간 유사도를 산출하고, 상기 유사도를 벡터로 변환할 수 있다.

본원의 일 실시예에 따르면, 상기 텍스트 벡터화부는, 상기 분석 대상 텍스트의 비정형 텍스트에 대한 형태소 분석을 통해 정형화 이후 상기 유사도에 기초한 벡터로의 변환을 수행할 수 있다.

본원의 일 실시예에 따르면, 상기 음성 데이터 및 보험청구 내역 데이터를 저장하는 데이터베이스를 더 포함하고, 상기 차원 축소부는, 상기 벡터를 보험청구 내역 데이터에 대응하는 차원으로 축소할 수 있다.

본원의 일 실시예에 따르면, 상기 축소된 벡터 및 상기 보험청구 내역 데이터에 기초한 특질 변수를 입력으로 하는 군집 알고리즘에 기초하여 신규 패턴을 검출하는 신규 패턴 분류부를 더 포함할 수 있다.

본원의 일 실시예에 따르면, 상기 신규 패턴 분류부는,

상기 특질 변수의 빈도에 기초하여 상기 군집 알고리즘을 통해 상기 특질 변수를 복수개의 패턴으로 군집하고, 상기 패턴의 군집간 분리도에 기초하여 상기 신규 패턴을 검출할 수 있다.

본원의 일 실시예에 따른 음성 데이터의 변수 도출 장치에 의한 보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 방법은 보험 청구와 연계된 음성 데이터를 분석 대상 텍스트로 변환하는 전처리를 통해 상기 음성 데이터를 정형화하는 단계, 분석대상 관련 도메인 지식을 반영한 부당청구 탐지를 위한 단어 사전과 분석에 사용되지 않는 불용어 사전을 구축하는 단계, 상기 분석 대상 텍스트를 벡터로 변환하는 단계 및 상기 분석 대상 텍스트에서 추출된 벡터를 부당청구 패턴 탐지에 대응하는 차원으로 변환하는 단계를 포함할 수 있다.

본원의 일 실시예에 따르면, 상기 음성 데이터를 정형화하는 단계는, STT 기법에 기초하여 상기 음성 데이터를 상기 분석 대상 텍스트로 변환하되, 오인식된 텍스트는 후처리를 통해 상기 분석 대상 텍스트로 변환할 수 있다.

본원의 일 실시예에 따르면, 상기 음성 데이터를 정형화하는 단계는, 오인식 사전에 기초하여 상기 오인식된 텍스트를 상기 분석 대상 텍스트로 변환할 수 있다.

본원의 일 실시예에 따르면, 상기 벡터로 변환하는 단계는, 상기 분석 대상 텍스트의 단어 및 문장간 유사도를 산출하고, 상기 유사도를 벡터로 변환할 수 있다.

본원의 일 실시예에 따르면, 상기 음성 데이터 및 보험청구 내역 데이터를 저장하는 단계를 더 포함하고, 상기 부당청구 패턴 탐지에 대응하는 차원으로 변환하는 단계는, 상기 벡터를 보험청구 내역 데이터에 대응하는 차원으로 축소할 수 있다.

본원의 일 실시예에 따르면, 상기 축소된 벡터 및 상기 보험청구 내역 데이터에 기초한 특질 변수를 입력으로 하는 군집 알고리즘에 기초하여 신규 패턴을 검출하는 단계를 더 포함할 수 있다.

본원의 일 실시예에 따르면, 상기 신규 패턴을 검출하는 단계는, 상기 특질 변수의 빈도에 기초하여 상기 군집 알고리즘을 통해 상기 특질 변수를 복수개의 패턴으로 군집하고, 상기 패턴의 군집간 분리도에 기초하여 상기 신규 패턴을 검출할 수 있다.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본원을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 추가적인 실시예가 존재할 수 있다.

전술한 본원의 과제 해결 수단에 의하면, 비정형 데이터인 음성 데이터를 활용하여 보험금의 부당청구 패턴 및 부당청구의 신규 패턴을 검출하기 위한 보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 장치 및 방법을 제공할 수 있다.

전술한 본원의 과제 해결 수단에 의하면, 부당청구 데이터를 학습하여 새로운 부당청구 패턴을 검출하는 보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 장치 및 방법을 제공할 수 있다.

도 1은 본원의 일 실시예에 따른 보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 장치의 구성을 도시한 도면이다.
도 2는 본원의 일 실시예에 따른 보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 장치의 오인식 텍스트의 후처리의 예를 도시한 도면이다.
도 3은 본원의 일 실시예에 따른 보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 장치의 불용어 사전을 활용한 분석 대상 텍스트의 예를 도시한 도면이다.
도 4는 본원의 일 실시예에 따른 보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 장치의 분석 대상 텍스트의 벡터를 축소하는 예를 도시한 도면이다.
도 5는 본원의 일 실시예에 따른 보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 장치의 음성 데이터를 변수화 하기 위한 흐름을 도시한 도면이다.
도 6은 본원의 일 실시예에 따른 보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 장치의 신규 패턴 검출의 예를 도시한 도면이다.
도 7은 본원의 일 실시예에 따른 음성 데이터의 변수 도출 장치에 의한 보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 방법의 흐름을 도시한 도면이다.

아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다.

본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에", "상부에", "상단에", "하에", "하부에", "하단에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.

본원 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함" 한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.

도 1은 본원의 일 실시예에 따른 보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 장치의 구성을 도시한 도면이다.

도 1을 참조하면, 음성 데이터의 변수 도출 장치(100)는 데이터 전처리부(110), 단어 사전 구축부(120), 텍스트 벡터화부(130), 차원 축소부(140), 데이터베이스(150) 및 신규 패턴 분류부(160)를 포함할 수 있다. 데이터 전처리부(110)는 보험 청구와 연계된 음성 데이터를 분석 대상 텍스트로 변환할 수 있다. 음성 데이터는 보험금 청구를 위해 청구자와 보험사와의 통화, 사고 발생시의 블랙박스의 녹음 등의 소리 데이터를 포함할 수 있으나 이에 한정되는 것은 아니다. 분석 대상 텍스트란 음성 데이터로부터 텍스트로 변환된 데이터를 의미하며, 비정형 데이터인 음성데이터를 텍스트화 함으로써, 부당청구 검출을 위한 변수로 활용할 수 있다. 데이터베이스(150)는 음성 데이터 및 보험청구 내역 데이터를 저장할 수 있다. 보험청구 내역 데이터는 예시적으로, 보험금을 청구한 청구 데이터, 보험 또는 보조금 관련 계약 데이터, 보험금의 지급 데이터, 보험 설계사 데이터, 고객 데이터 및 보험사기 적발 결과 데이터 중 적어도 하나를 포함할 수 있다.

데이터 전처리부(110)는 STT(speech to text) 기법에 기초하여 음성 데이터를 분석 대상 텍스트로 변환할 수 있다. 데이터 전처리부(110)는 상기 기법에 한정하지 않고 다양한 음성 처리 기법을 통해 음성 데이터를 분석 대상 텍스트로 변환할 수 있다.

도 2는 본원의 일 실시예에 따른 보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 장치의 오인식 텍스트의 후처리의 예를 도시한 도면이다.

도 2를 참조하면, 데이터 전처리부(110)는 음성인식을 통해 오인식된 텍스트는 후처리를 통해 분석 대상 텍스트로 변환될 수 있다. 예시적으로, 데이터 전처리부(110)는 오인식 사전을 구축할 수 있다. 오인식 사전이란, 오인식된 단어를 유의미한 단어로 변환하기 위해 구축된 것으로, 오인식으로 판단된 단어와 정정된 후의 단어를 연계하여 저장함으로써 구축될 수 있다. 따라서, 오인식의 후처리가 반복될수록 보다 정확한 오인식 사전으로 업데이트될 수 있다.

도 3은 본원의 일 실시예에 따른 보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 장치의 불용어 사전을 활용한 분석 대상 텍스트의 예를 도시한 도면이다.

단어 사전 구축부(120)는 분석대상 관련 도메인 지식을 반영한 부당청구 탐지를 위한 단어 사전과 분석에 사용되지 않는 불용어 사전을 구축할 수 있다. 단어 사전은 관련 업종, 즉 보험 청구와 관련하여 특화된 단어, 비즈니스 용어 등이 반영된 사전을 의미한다. 불용어 사전은 일반적인 단어, 문자이나, 부당청구 탐지를 위한 변수로서 활용되지 않는 텍스트, 비문 등을 포함하는 사전을 의미한다.

도 3을 참조하면, 데이터 전처리부(110)는 음성 데이터를 텍스트화 하고, 변환된 텍스트에 대한 형태소 분석을 수행할 수 있다. 이후, 형태소 분석 결과에 대해 단어 사전 및 불용어 사전을 통해 텍스트를 필터링할 수 있고, 최종적으로 유의미한 텍스트로 구성된 분석 대상 텍스트를 산출할 수 있다. 즉, 단어 사전 구축부(120)의 단어 사전 및 불용어 사전을 통해 텍스트로 변환된 음성데이터로부터 부당청구 탐지를 위한 변수에 활용되는 텍스트와 활용되지 않는 텍스트를 구분할 수 있으며, 이를 통해 보다 최적화된 분석 대상 텍스트가 산출될 수 있다.

도 4는 본원의 일 실시예에 따른 보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 장치의 분석 대상 텍스트의 벡터를 축소하는 예를 도시한 도면이다.

텍스트 벡터화부(130)는 분석 대상 텍스트를 벡터로 변환할 수 있다. 분석 대상 텍스트가 변환되는 벡터는 Doc2vec를 활용한 100차원 벡터일 수 있다. Doc2vec는 텍스트 데이터를 벡터화하는 알고리즘으로서, 기 공지된 기법이므로 구체적인 설명은 생략한다.

텍스트 벡터화부(130)는 분석 대상 텍스트의 단어 및 문장간 유사도를 산출하고, 유사도를 벡터로 변환할 수 있다. 예시적으로, 문장간 유사도는 있는 메도이드(medoids), 자카드 계수(Jaccard Coefficient), 해밍 거리(Hamming Distance), 타니모토 유사도(Tanimoto Similarity), 코사인 유사도(Cosine Similarity) 등 다양한 텍스트 처리 기법을 통해 산출될 수 있다. 텍스트 벡터화부(130)는 산출된 유사도를 벡터로 변환할 수 있다.

또한, 텍스트 벡터화부(130)는 분석 대상 텍스트의 비정형 텍스트에 대한 형태소 분석을 통해 정형화 이후 상기 유사도에 기초한 벡터로의 변환을 수행할 수 있다. 도 4를 참조하면, 벡터화된 분석 대상 텍스트는 100차원의 벡터로서, 룰 기반 FDS(부당청구 탐지 시스템)에 적용하기에 너무 고차원일 수 있다. 이에 텍스트 벡터화부(130)는 고차원의 벡터값을 보험청구 내역 데이터와 함께 보험금의 부당청구를 검출하기 위한 변수로 사용하기 위해, 상기 벡터를 보험청구 내역 데이터에 대응하는 차원으로 축소할 수 있다. 텍스트 벡터화부는 고차원의 벡터를 압축하여 저차원의 벡터로 축소할 수 있다.

도 5는 본원의 일 실시예에 따른 보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 장치의 음성 데이터를 변수화 하기 위한 흐름을 도시한 도면이다.

이상 살펴본 바와 같이, 음성 데이터의 변수 도출 장치(100)는 비정형 데이터인 음성 데이터를 텍스트화하고, 변환된 텍스트의 후처리를 통해 분석 대상 텍스트로 변환하며, 분석 대상 텍스트간의 유사도에 기초하여 벡터화 할 수 있다. 또한, 상기 벡터를 부당청구 패턴 탐지를 위한 변수와 동일한 차원으로 축소함으로써, 음성 데이터를 부당청구 패턴 탐지를 위한 변수로서 활용할 수 있다.

도 6은 본원의 일 실시예에 따른 보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 장치의 신규 패턴 검출의 예를 도시한 도면이다.

신규 패턴 분류부(160)는 축소된 벡터 및 보험청구 내역 데이터에 기초한 특질 변수를 입력으로 하는 군집 알고리즘에 기초하여 신규 패턴을 검출할 수 있다. 또한, 신규 패턴 분류부(160)는 특질 변수의 빈도에 기초하여 군집 알고리즘을 통해 상기 특질 변수를 복수개의 패턴으로 군집하고, 패턴의 군집간 분리도에 기초하여 상기 신규 패턴을 검출할 수 있다. 먼저, 데이터 전처리부(110)는 상기 보험청구 내역 데이터로부터 특질 변수를 추출할 수 있다. 보험청구 내역 데이터에는 차원이 축소된 분석 대상 텍스트를 포함할 수 있다.

보험청구 내역 데이터의 정형화는 예를 들어, 고객 데이터인 경우, 고객의 소득 수준, 고객이 방문한 병원의 수, 고객이 신청한 질병 사유의 개수 등을 수치화하는 것을 의미한다. 또한, 데이터 전처리부(110)에 의해 도출되는 특질 변수는 보험금 청구와 관련되어 수치화된 값을 가질 수 있는 변수로, 예를 들어, 고객 ID 번호, 보험사기자 여부, 동일 병명으로 중복 신청한 개수, 계약 체결 년월 개수, 하루최대 계약 개수, 지불 승인된 증권 개수, 지불 신청한 증권 개수, 고객이 체결한 증권 개수, 보장성 보험 청구 횟수, 신용 등급 변화량, 가입한 계약의 종류, 유의 병원 방문 총 횟수, 고객이 신청한 질병 사유의 개수, 고객이 만난 의사의 명수, 고객이 방문한 병원의 개수, 유효 입/통원 총 일수, 진료 과목 개수, 고객 소득 수준, FP(Financial Planner) 변경 횟수, 실손 처리 개수, 사기 FP 계약 개수 중 적어도 하나를 포함할 수 있다.

신규 패턴 분류부(160)는 특질 변수를 입력으로 하는 비지도 학습 기반의 군집 알고리즘에 기초하여 부당청구의 신규 패턴을 분류할 수 있다. 구체적으로, 비지도 학습이란 학습용 데이터를 구축하는 것이 아닌 데이터 자체를 분석하거나 군집하면서 학습하는 알고리즘을 의미한다. 이는 공지된 사항이므로 구체적인 설명은 생략한다.

신규 패턴 분류부(160)는 보험청구 내역 데이터의 빈도에 기초하여 특질 변수를 복수개의 청구 패턴으로 군집할 수 있다. 예시적으로, 신규 패턴 검출부(130)는 K-means 클러스터링 알고리즘, SOM(Self-Organizing-Maps) 알고리즘 EM & Canopy 알고리즘 중 적어도 하나의 알고리즘에 기초하여 부당청구의 신규 패턴을 분류할 수 있다. K-means 클러스터링 알고리즘은 전통적인 분류기법으로 대상집단을 거리의 평균값(유사도)을 기준으로 K개의 군집으로 반복 세분화 하는 기법이고, SOM알고리즘은 인공신경망을 기반으로 훈련집합의 입력 패턴을 가중치로 학습하여 군집화하는 기법이다. 또한 EM & Canopy 알고리즘은 주어진 초기값으로 가능성이 최대인 것부터 반복 과정을 통해 파라미터 값을 갱신하여 군집화 하는 기법을 의미한다.

신규 패턴 분류부(160)는 특질 변수의 빈도에 기초하여 군집 알고리즘을 통해 특질 변수를 복수개의 패턴으로 군집할 수 있다. 즉 패턴은 동질성 있는 특질 변수들의 군집일 수 있다. 또한, 패턴의 군집간 분리도 즉 군집간 거리에 기초하여 신규 패턴을 검출할 수 있다.

도 6은 특질 변수의 빈도에 따라 군집된 패턴을 나타내며, 서로 다른 패턴에 속한 특질 변수들의 빈도가 유사한 경우, 도6에 도시된 바와 같이 동일 내지 유사한 색(파란색)으로 구분될 수 있다. 즉 패턴 상호간 색이 동일 내지 유사한 경우 군집간 분리도가 낮다고 할 수 있다. 또한, 특질 변수간 유사한 빈도로 군집된 패턴은 정상적인 보험 청구로 인해 발생하는 특질 변수의 빈도에 기초하여 군집된 패턴 즉, 부당청구가 아닌 정상적인 청구 패턴인 것으로 판단할 수 있다.

한편, 유사한 빈도를 가진 특질 변수들과 다른 빈도를 가진 특질 변수들로 군집된 패턴의 경우 도 6에 도시된 바와 같이 전술한 패턴과는 다른 색(빨간색)으로 구분될 수 있다. 이러한 패턴은 정상적인 패턴의 특질 변수의 빈도와는 다르므로(예를 들어, FP변경횟수가 정상적인 청구 패턴의 특질 변수에 비해 상대적으로 많은 경우), 부당청구의 신규 패턴일 수 있고, 신규 패턴 분류부(160)에 의해 검출 될 수 있다.

도 7은 본원의 일 실시예에 따른 음성 데이터의 변수 도출 장치에 의한 보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 방법의 흐름을 도시한 도면이다.

도 7에 도시된 보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 방법은 앞선 도1 내지 도 6를 통해 설명된 음성 데이터의 변수 도출 장치(100)에 의하여 수행될 수 있다. 따라서 이하 생략된 내용이라고 하더라도 도 1 내지 도 6을 통해 음성 데이터의 변수 도출 장치(100)에 대하여 설명된 내용은 도 7에도 동일하게 적용될 수 있다.

도 7을 참조하면, 단계 S710에서 데이터 전처리부(110)는 보험 청구와 연계된 음성 데이터를 분석 대상 텍스트로 변환할 수 있다. . 음성 데이터는 보험금 청구를 위해 청구자와 보험사와의 통화, 사고 발생시의 블랙박스의 녹음 등의 소리 데이터를 포함할 수 있으나 이에 한정되는 것은 아니다. 분석 대상 텍스트란 음성 데이터로부터 텍스트로 변환된 데이터를 의미하며, 비정형 데이터인 음성데이터를 텍스트화 함으로써, 부당청구 검출을 위한 변수로 활용할 수 있다. 또한, 데이터 전처리부(110)는 STT(speech to text) 기법에 기초하여 음성 데이터를 분석 대상 텍스트로 변환할 수 있다. 데이터 전처리부(110)는 상기 기법에 한정하지 않고 다양한 음성 처리 기법을 통해 음성 데이터를 분석 대상 텍스트로 변환할 수 있다.

데이터 전처리부(110)는 음성인식을 통해 오인식된 텍스트는 후처리를 통해 분석 대상 텍스트로 변환될 수 있다. 예시적으로, 데이터 전처리부(110)는 오인식 사전을 구축할 수 있다. 오인식 사전이란, 오인식된 단어를 유의미한 단어로 변환하기 위해 구축된 것으로, 오인식으로 판단된 단어와 정정된 후의 단어를 연계하여 저장함으로써 구축될 수 있다. 따라서, 오인식의 후처리가 반복될수록 보다 정확한 오인식 사전으로 업데이트될 수 있다.

단계 S720에서 단어 사전 구축부(120)는 분석대상 관련 도메인 지식을 반영한 부당청구 탐지를 위한 단어 사전과 분석에 사용되지 않는 불용어 사전을 구축할 수 있다. 단어 사전은 관련 업종, 즉 보험 청구와 관련하여 특화된 단어, 비즈니스 용어 등이 반영된 사전을 의미한다. 불용어 사전은 일반적인 단어, 문자이나, 부당청구 탐지를 위한 변수로서 활용되지 않는 텍스트, 비문 등을 포함하는 사전을 의미한다. 데이터 전처리부(110)는 음성 데이터를 텍스트화 하고, 변환된 텍스트에 대한 형태소 분석을 수행할 수 있다. 이후, 형태소 분석 결과에 대해 단어 사전 및 불용어 사전을 통해 텍스트를 필터링할 수 있고, 최종적으로 유의미한 텍스트로 구성된 분석 대상 텍스트를 산출할 수 있다. 즉, 단어 사전 구축부(120)의 단어 사전 및 불용어 사전을 통해 텍스트로 변환된 음성데이터로부터 부당청구 탐지를 위한 변수에 활용되는 텍스트와 활용되지 않는 텍스트를 구분할 수 있으며, 이를 통해 보다 최적화된 분석 대상 텍스트가 산출될 수 있다.

단계 S730에서 텍스트 벡터화부(130)는 분석 대상 텍스트를 벡터로 변환할 수 있다. 분석 대상 텍스트가 변환되는 벡터는 Doc2vec를 활용한 100차원 벡터일 수 있다. Doc2vec는 텍스트 데이터를 벡터화하는 알고리즘으로서, 기 공지된 기법이므로 구체적인 설명은 생략한다. 텍스트 벡터화부(130)는 분석 대상 텍스트의 단어 및 문장간 유사도를 산출하고, 유사도를 벡터로 변환할 수 있다. 예시적으로, 문장간 유사도는 있는 메도이드(medoids), 자카드 계수(Jaccard Coefficient), 해밍 거리(Hamming Distance), 타니모토 유사도(Tanimoto Similarity), 코사인 유사도(Cosine Similarity) 등 다양한 텍스트 처리 기법을 통해 산출될 수 있다. 텍스트 벡터화부(130)는 산출된 유사도를 벡터로 변환할 수 있다.

단계 S740에서 텍스트 벡터화부(130)는 분석 대상 텍스트의 비정형 텍스트에 대한 형태소 분석을 통해 정형화 이후 상기 유사도에 기초한 벡터로의 변환을 수행할 수 있다. 텍스트 벡터화부(130)는 고차원의 벡터값을 보험청구 내역 데이터와 함께 보험금의 부당청구를 검출하기 위한 변수로 사용하기 위해, 상기 벡터를 보험청구 내역 데이터에 대응하는 차원으로 축소할 수 있다. 텍스트 벡터화부는 고차원의 벡터를 압축하여 저차원의 벡터로 축소할 수 있다.

본원의 일 실시예에 따르면, 신규 패턴 분류부(160)가 축소된 벡터 및 보험청구 내역 데이터에 기초한 특질 변수를 입력으로 하는 군집 알고리즘에 기초하여 신규 패턴을 검출하는 단계를 포함할 수 있다. 신규 패턴 분류부(160)는 특질 변수의 빈도에 기초하여 군집 알고리즘을 통해 상기 특질 변수를 복수개의 패턴으로 군집하고, 패턴의 군집간 분리도에 기초하여 상기 신규 패턴을 검출할 수 있다. 먼저, 데이터 전처리부(110)는 상기 보험청구 내역 데이터로부터 특질 변수를 추출할 수 있다. 보험청구 내역 데이터에는 차원이 축소된 분석 대상 텍스트를 포함할 수 있다. 신규 패턴 분류부(160)는 특질 변수를 입력으로 하는 비지도 학습 기반의 군집 알고리즘에 기초하여 부당청구의 신규 패턴을 분류할 수 있다.

본원의 일 실시 예에 따른, 보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 방법은, 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.

100: 음성 데이터의 변수 도출 장치
110: 데이터 전처리부
120: 단어 사전 구축부
130: 텍스트 벡터화부
140: 차원 축소부
150: 데이터베이스
160: 신규 패턴 분류부

Claims

보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 장치에 있어서,
보험 청구와 연계된 음성 데이터를 분석 대상 텍스트로 변환하는 전처리를 통해 상기 음성 데이터를 정형화하는 데이터 전처리부;
분석대상 관련 도메인 지식을 반영한 부당청구 탐지를 위한 단어 사전과 분석에 사용되지 않는 불용어 사전을 구축하는 단어 사전 구축부;
상기 단어 사전 및 불용어 사전을 통해 필터링된 상기 분석 대상 텍스트를 벡터로 변환하는 텍스트 벡터화부;
상기 분석 대상 텍스트에서 추출된 벡터를 부당청구 패턴 탐지에 대응하는 차원으로 변환하는 차원 축소부; 및
신규 패턴을 검출하는 신규 패턴 분류부를 포함하고,
상기 텍스트 벡터화부는,
상기 분석 대상 텍스트의 단어 및 문장간 유사도를 산출하고,
상기 분석 대상 텍스트의 비정형 텍스트에 대한 형태소 분석을 통한 정형화 이후, 상기 분석 대상 텍스트를 상기 유사도에 기초하여 벡터화하고,
상기 차원 축소부가 벡터화된 상기 분석 대상 텍스트의 벡터를 보험청구 내역 데이터에 대응하는 차원으로 축소함으로써 상기 분석 대상 텍스트의 벡터가 부당청구 패턴 탐지를 위한 변수와 동일한 차원으로 축소되고,
상기 신규 패턴 분류부는,
축소된 상기 분석 대상 텍스트의 벡터 및 상기 보험청구 내역 데이터에 기초한 특질 변수를 입력으로 하는 군집 알고리즘에 기초하여 상기 신규 패턴을 검출하는 것인, 음성 데이터의 변수 도출 장치.
제1항에 있어서,
상기 데이터 전처리부는,
STT 기법에 기초하여 상기 음성 데이터를 상기 분석 대상 텍스트로 변환하되,
오인식된 텍스트는 후처리를 통해 상기 분석 대상 텍스트로 변환되는 것인, 음성 데이터의 변수 도출 장치.
제2항에 있어서,
상기 데이터 전처리부는,
오인식 사전을 구축하고, 상기 오인식 사전에 기초하여 상기 오인식된 텍스트를 상기 분석 대상 텍스트로 변환하는 것인, 음성 데이터의 변수 도출 장치.
제1항에 있어서,
상기 텍스트 벡터화부는
상기 유사도를 벡터로 변환하는 것인, 음성 데이터의 변수 도출 장치.
삭제
제1항에 있어서,
상기 음성 데이터 및 보험청구 내역 데이터를 저장하는 데이터베이스를 더 포함하는 것인, 음성 데이터의 변수 도출 장치.
삭제
제1항에 있어서,
상기 신규 패턴 분류부는,
상기 특질 변수의 빈도에 기초하여 상기 군집 알고리즘을 통해 상기 특질 변수를 복수개의 패턴으로 군집하고, 상기 패턴의 군집간 분리도에 기초하여 상기 신규 패턴을 검출하는 것인, 음성 데이터의 변수 도출 장치.
음성 데이터의 변수 도출 장치에 의한 보험금 부당청구 패턴 탐지를 위한 음성 데이터의 변수 도출 방법에 있어서,
보험 청구와 연계된 음성 데이터를 분석 대상 텍스트로 변환하는 전처리를 통해 상기 음성 데이터를 정형화하는 단계;
분석대상 관련 도메인 지식을 반영한 부당청구 탐지를 위한 단어 사전과 분석에 사용되지 않는 불용어 사전을 구축하는 단계;
상기 단어 사전 및 불용어 사전을 통해 필터링된 상기 분석 대상 텍스트를 벡터로 변환하는 단계;
상기 분석 대상 텍스트에서 추출된 벡터를 부당청구 패턴 탐지에 대응하는 차원으로 변환하는 단계; 및
군집 알고리즘에 기초하여 신규 패턴을 검출하는 단계를 포함하고,
상기 벡터로 변환하는 단계는
상기 분석 대상 텍스트의 단어 및 문장간 유사도를 산출하고,
상기 분석 대상 텍스트의 비정형 텍스트에 대한 형태소 분석을 통한 정형화 이후, 상기 분석 대상 텍스트를 상기 유사도에 기초하여 벡터화하고,
상기 부당청구 패턴 탐지에 대응하는 차원으로 변환하는 단계에서 벡터화된 상기 분석 대상 텍스트의 벡터를 보험청구 내역 데이터에 대응하는 차원으로 축소됨으로써, 상기 분석 대상 텍스트의 벡터가 부당청구 패턴 탐지를 위한 변수와 동일한 차원으로 축소되고,
상기 신규 패턴을 검출하는 단계는,
축소된 상기 분석 대상 텍스트의 벡터 및 상기 보험청구 내역 데이터에 기초한 특질 변수를 입력으로 하는 군집 알고리즘에 기초하여 상기 신규 패턴을 검출하는 것인, 음성 데이터의 변수 도출 방법.
제9항에 있어서,
상기 음성 데이터를 정형화하는 단계는,
STT 기법에 기초하여 상기 음성 데이터를 상기 분석 대상 텍스트로 변환하되,
오인식된 텍스트는 후처리를 통해 상기 분석 대상 텍스트로 변환되는 것인, 음성 데이터의 변수 도출 방법.
제10항에 있어서,
상기 음성 데이터를 정형화하는 단계는,
오인식 사전에 기초하여 상기 오인식된 텍스트를 상기 분석 대상 텍스트로 변환하는 것인, 음성 데이터의 변수 도출 방법.
제9항에 있어서,
상기 벡터로 변환하는 단계는,
상기 유사도를 벡터로 변환하는 것인, 음성 데이터의 변수 도출 방법.
삭제
제9항에 있어서,
상기 음성 데이터 및 보험청구 내역 데이터를 저장하는 단계를 더 포함하는 것인, 음성 데이터의 변수 도출 방법.
삭제
제9항에 있어서,
상기 신규 패턴을 검출하는 단계는,
상기 특질 변수의 빈도에 기초하여 상기 군집 알고리즘을 통해 상기 특질 변수를 복수개의 패턴으로 군집하고, 상기 패턴의 군집간 분리도에 기초하여 상기 신규 패턴을 검출하는 것인, 음성 데이터의 변수 도출 방법.
제9항 내지 제12항, 제14항 및 제16항 중 어느 한 항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록한 컴퓨터에서 판독 가능한 기록매체.