KR102248687B1

KR102248687B1 - 음성 기술을 이용한 원격 진료 시스템 및 방법

Info

Publication number: KR102248687B1
Application number: KR1020200115582A
Authority: KR
Inventors: 전하린; 김용식; 권순용; 주경돈; 강병진; 박동현; 김도현
Original assignee: 주식회사 퍼즐에이아이
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2021-05-06

Abstract

본 발명은 원격 진료 상황에서 전달되는 영상 및 음성 정보 중 음성 정보를 선택적으로 추출하는 음성 정보 추출부, 상기 음성 정보 추출부에 수집된 음성 정보 중 발화 위치를 선별하는 발화 위치 선별부 및 상기 발화 위치에 포함된 복수의 음성 프레임이 미리 설정된 검증 구간에 해당하도록 누적됨에 따라, 누적된 복수의 음성 프레임을 분석하여 검증 대상 화자 정보가, 접근이 허용된 사전 등록 화자 정보와 일치하는지 여부를 실시간 검증하는 화자 인식부를 포함하고, 상기 화자 인식부는, 상기 검증 대상 화자 정보와 상기 사전 등록 화자 정보의 일치 여부에 따른 검증 결과에 따라 선택적으로 원격 진료가 제한되게 한다.

Description

음성 기술을 이용한 원격 진료 시스템 및 방법{Telemedicine system and method for using voice technology}

본 발명은 음성 기술을 이용한 원격 진료 시스템 및 방법에 관한 것으로서, 더욱 상세하게는 인식된 화자 정보가 정상 접근에 해당하는 경우에만 원격 진료가 이루어지고, 진료 내용을 음성 인식과 워터마크 기술을 통해 암호화된 의료 기록을 남김으로써, 원격 진료의 남용을 방지할 수 있는 음성 기술을 이용한 원격 진료 시스템 및 방법에 관한 것이다.

일반적으로, 음성 기술이란 음성을 가공하여 실생활에 활용하기 위한 모든 기술을 의미하며, '음성인식', '화자인증', '음성합성', '음성 암호화'등의 범주로 나누어 연구가 활발히 진행되고 있다.

여기서, 음성 인식 기술이란 화자의 음성을 알아들어 기계가 자동으로 텍스트로 변환해주는 기술을 의미하며, 최근에는 이러한 기술을 활용하여 제조업, 의료업, 방위산업 등 많은 산업에서 응용되어 각 산업의 업무 생산성을 증진시키는 도구로써 기술이 활용되고 있다.

이러한 음성인식 기술은 크게 '음성 인식'과 '화자 인증'으로 나뉘는데, 음성 인식은 어떤 사람이 이야기하든 상관없이 불특정 다수가 말한 '내용'을 알아듣는 것인 반면, 화자 인증은 '누가' 이 이야기를 했는지를 구별하는 것이다.

또한, 음성 인식 기술은 음성 신호에 포함된 언어 정보를 컴퓨터가 추출하여 문자 정보로 바꾸어 주는 기술이며, 최근 심층신경망을 활용한 학습 기반 기술이 연구되고 있고, 음성 인식 기술의 발전과 동반하여 화자 인증 연구도 활발히 연구되고 있다.

화자 인증 기술의 일례로, '목소리 인증 서비스'가 있으며, 만약 음성만으로 '누구'인지 주체를 정확하고 신속하게 확인할 수 있다면, 각종 분야에서 개인 인증을 위해 필요했던 기존의 방법들, 예를 들어 로그인 후 비밀번호 입력, 공인인증서 인증 등과 같은 번거로운 단계를 줄여 이용자의 편의를 제공할 수 있을 것이다.

이때, 화자 인증 기술은 최초 사용자의 음성을 등록한 뒤 이후에, 인증 요청시마다 사용자가 발화한 음성과 등록된 음성을 비교하여 일치 여부로 인증을 수행하며, 사용자가 음성을 등록하면, 음성 데이터에서 특징점을 수초(ex, 10sec) 단위로 추출할 수 있는데, 이러한 특징점은 억양, 말 빠르기 등 다양한 유형으로 추출될 수 있고 이러한 특징점의 조합으로 사용자들을 식별할 수 있다.

그러나, 등록 사용자가 음성을 등록하거나 인증할 때 인근에 위치하는 제3자가 등록 사용자의 음성을 무단 녹음하고, 해당 녹음 파일로 화자 인증을 시도하는 상황이 발생 가능하므로, 화장 인증 기술의 보안성이 문제될 수 있다.

만일, 이러한 상황이 발생한다면, 사용자에게 막대한 피해가 발생하게 될 것이며, 화자 인증에 대한 신뢰도는 낮아질 수 밖에 없고, 그에 따라 화자 인증 기술의 효용성이 저하될 뿐만 아니라, 음성 인증 데이터 위조 또는 변조가 빈번히 발생할 수 있다.

이를 해결하기 위해, 화자 인증 기술은 미리 학습해둔 등록 사용자의 음성 데이터 모델과 제3자의 음성 데이터의 유사도를 계산하는 방식으로 인증을 수행할 수 있으며, 특히 학습 모델에 심층 신경망이 사용될 수 있다.
이와 같은 종래기술이 등록특허 10-2069135호(화자 음성 인증 서비스에서 스푸핑을 검출하는 음성 인증 시스템)에 개시되어 있다.

더불어, 최근 의료 통합 관리 시스템의 의료 기록 보안을 위해 생체 정보로 인증하여 의료 기록을 작성 및 수정하는 기술이 개발되고 있다.

다시 말해, 전자 의무 기록에 환자와 의료인이 접근하는 경우에 바이오인식 기반 인증 모델을 적용한 보안 기술이 개발되고 있다.

하지만, 개인의 건강/의료 정보 교환이 인증된 도메인 간에 안전하게 가용된 정보만을 송수신하도록 지원할 수 있으며, 전자 의무 기록의 접근을 제한하는 보안 기술 및 모델이 여전히 요구되고 있다.

또한, 의료 기록 및 자문 데이터가 생성 및 전송되는 과정에서 보안 문제 및 해킹 가능성이 존재하므로, 의료 사고 발생시 진료 기록의 위조가 가능한 문제가 있다.

본 발명의 목적은, 원격 진료 상황에서 검증 대상 화자 정보를 최소 단위의 음성 프레임 누적을 통해 실시간으로 추출하고, 이와 같이 누적된 검증 대상 화자 정보의 음성 프레임을 분석하여 미리 설정된 검증 구간 내에서 접근이 허용된 사전 등록 화자의 정보와 일치된 경우에만 정상 접근으로 판단, 원격 진료가 이루어지고, 진료 내용을 음성 인식과 워터마크 기술을 통해 암호화된 의료 기록을 남김으로써, 대리 진료 등과 같은 원격 진료의 남용을 방지할 수 있도록 하는 음성 기술을 이용한 원격 진료 시스템 및 방법에 관한 것이다.

본 발명에 따른 음성 기술을 이용한 원격 진료 시스템은 원격 진료 상황에서 전달되는 영상 및 음성 정보 중 음성 정보를 선택적으로 추출하는 음성 정보 추출부, 상기 음성 정보 추출부에 수집된 음성 정보 중 발화 위치를 선별하는 발화 위치 선별부 및 상기 발화 위치에 포함된 복수의 음성 프레임이 미리 설정된 검증 구간에 해당하도록 누적됨에 따라, 누적된 복수의 음성 프레임을 분석하여 검증 대상 화자 정보가, 접근이 허용된 사전 등록 화자 정보와 일치하는지 여부를 실시간 검증하는 화자 인식부를 포함하고, 상기 화자 인식부는 상기 검증 대상 화자 정보와 상기 사전 등록 화자 정보의 일치 여부에 따른 검증 결과에 따라 선택적으로 원격 진료가 제한되게 하는 것을 특징으로 한다.

여기서, 상기 검증 구간은 상기 발화 위치 선별부에서 초 단위로 전송되는 음성 프레임이 적어도 5 초 이상 누적된 구간으로 설정된다.

이러한 상기 화자 인식부는 상기 검증 구간에 누적된 복수의 음성 프레임에 대한 특징 벡터가 상기 사전 등록 화자 정보에 대한 미리 저장된 음성 프레임의 특징 벡터와 일치하면, 정상 접근으로 판단한다.

그리고, 상기 화자 인식부는 상기 검증 구간에 누적된 복수의 음성 프레임에 대한 특징 벡터가 상기 사전 등록 화자 정보에 대한 미리 저장된 음성 프레임의 특징 벡터와 불일치하면, 비정상 접근으로 판단한다.

또한, 상기 발화 위치 선별부는 VAD(Voice Activity Detection) 기술을 이용하여 발화 위치를 선별한다.

또한, 본 발명에 따른 음성 기술을 이용한 원격 진료 시스템은 상기 화자 인식부를 통한 정상 접근의 검증 결과에 따라, 상기 검증 대상 화자의 음성 정보를 기반으로 생성된 음성 이미지에 워터마크(watermark) 및 개별 정보를 삽입하는 워터마크 삽입부를 더 포함하며, 상기 개별 정보는, 의료 코드, 환자 개인 정보 및 의료 기록 정보 중 적어도 하나 이상을 포함한다.

한편, 본 발명에 따른 음성 기술을 이용한 원격 진료 방법은 원격 진료 상황에서 전달되는 영상 및 음성 정보 중 음성 정보를 선택적으로 추출하는 음성 정보 추출 단계, 상기 음성 정보 추출 단계에서 수집된 음성 정보 중 발화 위치를 선별하는 발화 위치 선별 단계 및 상기 발화 위치에 포함된 복수의 음성 프레임이 미리 설정된 검증 구간에 해당하게 누적됨에 따라, 누적된 복수의 음성 프레임을 분석, 검증 대상 화자가, 접근이 허용된 사전등록 화자 정보와 일치하는지 여부를 실시간으로 검증하는 화자 인식 단계를 포함하고, 상기 화자 인식 단계는, 상기 검증 대상 화자 정보와 상기 사전 등록 화자 정보의 일치 여부에 따른 검증 결과에 따라 선택적으로 원격 진료가 제한되게 하는 것을 특징으로 한다.

여기서, 상기 검증 구간은 상기 발화 위치 선별 단계에서 초 단위로 전송되는 음성 프레임이 적어도 5 초 이상 누적된 구간으로 설정된다.

이러한 상기 화자 인식 단계는 상기 검증 구간에 누적된 복수의 음성 프레임에 대한 특징 벡터가 상기 사전 등록 화자 정보에 대한 미리 저장된 음성 프레임의 특징 벡터와 일치하면, 정상 접근으로 판단한다.

그리고, 상기 화자 인식 단계는 상기 검증 구간에 누적된 복수의 음성 프레임에 대한 특징 벡터가 상기 사전 등록 화자 정보에 대한 미리 저장된 음성 프레임의 특징 벡터와 불일치하면, 비정상 접근으로 판단한다.

여기서, 상기 화자 인식 단계는 비정상 접근 판단 시, 재인증을 통해 상기 검증 구간에 누적된 복수의 음성 프레임에 대한 특징 벡터가 상기 사전 등록 화자 정보에 대한 음성 프레임의 특징 벡터와 일치하는지 여부를 다시 검증하는 재인증 수행 단계를 더 구비한다.

한편, 본 발명에 따른 음성 기술을 이용한 원격 진료 방법은 상기 화자 인식 단계를 통한 정상 접근의 검증 결과에 따라, 상기 검증 대상 화자의 음성 정보를 기반으로 생성된 음성 이미지에 워터마크(watermark) 및 개별 정보를 삽입하는 워터마크 삽입 단계를 더 포함하며, 상기 개별 정보는 의료 코드, 환자 개인 정보 의료 기록 정보 중 적어도 하나 이상을 포함한다.

본 발명은, 원격 진료 상황에서 검증 대상 화자 정보를 최소 단위의 음성 프레임 누적을 통해 실시간으로 추출하고, 이와 같이 누적된 검증 대상 화자 정보의 음성 프레임을 분석하여 미리 설정된 검증 구간 내에서 접근이 허용된 사전 등록 화자의 정보와 일치된 경우에만 정상 접근으로 판단, 원격 진료가 이루어지고, 진료 내용을 음성 인식과 워터마크 기술을 통해 암호화된 의료 기록을 남김으로써, 대리 진료 등과 같은 원격 진료의 남용을 방지할 수 있도록 하는 효과를 갖는다.

그리고, 본 발명은 화자 인식을 통하여 정상 접근으로 판단된 경우에 따라, 해당 음성 이미지에 워터마크 및 개별 정보를 삽입하여 의료 기록으로 저장되도록 함으로써, 원격 진료를 위해 입력된 음성에 대한 위변조를 미연에 방지할 수 있는 효과를 갖는다.

또한, 본 발명은 검증 구간 내에서의 음성 프레임에 대한 특징 벡터 비교를 통해 검증 대상 화자가 사전 등록 화자와 불일치한 것으로 판단되면, 이러한 검증 결과를 통해 비정상 접근으로 판단, 그에 따른 시스템 접근이 제한되도록 함으로써, 음성 인증 기술을 통한 화자 인식 안전성 및 신뢰성을 향상시킬 수 있는 효과를 갖는다.

도 1 은 본 발명의 일실시예에 따른 음성 기술을 이용한 원격 진료 시스템을 개략적으로 보여주는 도면이다.
도 2 는 본 발명의 일실시예에 따른 음성 기술을 이용한 원격 진료 시스템에 대한 구성을 보여주는 도면이다.
도 3 은 본 발명의 일실시예에 따른 음성 기술을 이용한 원격 진료 시스템에 대한 발화 위치 선별을 일례로 보여주는 도면이다.
도 4 는 본 발명의 일실시예에 따른 음성 기술을 이용한 원격 진료 시스템에 대한 화자 인식을 일례로 보여주는 도면이다.
도 5 는 본 발명의 일실시예에 따른 음성 기술을 이용한 원격 진료 시스템에 대한 환자 및 의사의 원격 진료 화면을 보여주는 도면이다.
도 6 은 본 발명의 일실시예에 따른 음성 기술을 이용한 원격 진료 시스템에 대한 학습모델 서버를 보여주는 도면이다.
도 7 은 본 발명의 일실시예에 따른 음성 기술을 이용한 원격 진료 시스템에 대한 특징 벡터(D-벡터)를 추출하는 일례를 도시한 도면이다.
도 8 은 본 발명의 일실시예에 따른 음성 기술을 이용한 원격 진료 시스템에 대한 음성 이미지를 생성하는 일례를 도시한 도면이다.
도 9 는 본 발명의 다른 실시예에 따른 음성 기술을 이용한 원격 진료 방법을 순차적으로 보여주는 도면이다.

이하, 첨부된 도면을 참조하면서 본 발명에 따른 바람직한 실시 예를 상세히 설명하기로 한다.

본 발명의 이점 및 특징, 그리고 그것을 달성하는 방법은 첨부된 도면과 함께 상세하게 후술 되어 있는 실시 예들을 참조하면 명확해질 것이다.

그러나, 본 발명은 이하에 개시되는 실시 예들에 의해 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

또한, 본 발명을 설명함에 있어 관련된 공지 기술 등이 본 발명의 요지를 흐리게 할 수 있다고 판단되는 경우 그에 관한 자세한 설명은 생략하기로 한다.

도 1 은 본 발명의 일실시예에 따른 음성 기술을 이용한 원격 진료 시스템을 개략적으로 보여주는 도면이고, 도 2 는 본 발명의 일실시예에 따른 음성 기술을 이용한 원격 진료 시스템에 대한 구성을 보여주는 도면이며, 도 3 은 본 발명의 일실시예에 따른 음성 기술을 이용한 원격 진료 시스템에 대한 발화 위치 선별을 일례로 보여주는 도면이다.

그리고, 도 4 는 본 발명의 일실시예에 따른 음성 기술을 이용한 원격 진료 시스템에 대한 화자 인식을 일례로 보여주는 도면이고, 도 5 는 본 발명의 일실시예에 따른 음성 기술을 이용한 원격 진료 시스템에 대한 환자 및 의사의 원격 진료 화면을 보여주는 도면이며, 도 6 은 본 발명의 일실시예에 따른 음성 기술을 이용한 원격 진료 시스템에 대한 학습모델 서버를 보여주는 도면이다.

또한, 도 7 은 본 발명의 일실시예에 따른 음성 기술을 이용한 원격 진료 시스템에 대한 특징 벡터(D-벡터)를 추출하는 일례를 도시한 도면이, 도 8 은 본 발명의 일실시예에 따른 음성 기술을 이용한 원격 진료 시스템에 대한 음성 이미지를 생성하는 일례를 도시한 도면이다.

도 1 내지 도 2에 도시된 바와 같이, 본 실시예에 따른 음성 기술을 이용한 원격 진료 시스템은 대리 처방, 대리 진료 등과 같은 원격 진료의 남용을 방지함과 동시에, 원격 진료를 위해 입력된 음성에 대한 위변조를 미연에 방지할 수 있도록 음성 정보 추출부(100), 발화 위치 선별부(200), 화자 인식부(300) 및 워터마크 삽입부(400)를 포함한다.

화상 서버는 일례로 환자와 의사에 해당하는 클라이언트 사이에서 영상 및 음성 정보가 서로 송수신되도록 하며, 또한 음성 정보 추출부(100)는 원격 진료 상황에서 전달되는 영상 및 음성 정보 중 음성 정보를 선택적으로 추출한다.

여기서, 음성 정보 추출부(100)는 아날로그 신호인 검증 대상 화자의 음성을 크게 표본화(sampling), 양자화(quantizing) 및 부호화(encoding) 등의 3 단계로 나누어진 PCM(Pulse Code Modulation) 과정을 거쳐 A/D 변조시킴으로써, 음성 정보를 생성할 수 있다.

음성 정보 추출부(100)의 경우, 별도의 음성 스푸핑 탐지부(110)를 구비할 수 있으며, 이러한 음성 스푸핑 탐지부(110)는 음성 정보 추출부(100)를 통해 생성된 음성 정보를 이용하여 화자 인식부(300)를 통한 화자 검증이 이루어짐에 있어 변조 여부를 확인하기 위한 수단으로 사용될 수 있다.

음성 정보 추출부(100)는 디스플레이 모듈을 갖는 모든 유무선 가전/통신 단말을 포함할 수 있으며, 이동 통신 단말 이외에 컴퓨터, 노트북, 태블릿 PC 등의 정보 통신 기기이거나, 이를 포함하는 장치일 수 있다.

음성 정보 추출부(100)의 디스플레이 모듈은 음성 인증 결과 여부를 출력할 수 있고, 액정 디스플레이(liquid crystal display, LCD), 박막 트랜지스터 액정 디스플레이(Thin Film Transistor-Liquid Crystal Display, TFT LCD), 유기 발광 다이오드(Organic Light-Emitting Diode, OLED), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전자잉크 디스플레이(e-ink display), 투명 디스플레이(Transparent Organic Light Emitting Diode, TOLED) 중에서 적어도 하나를 포함할 수 있으며, 디스플레이 모듈이 터치스크린인 경우에는 음성 입력과 동시에 각종 정보를 출력할 수 있다.

발화 위치 선별부(200)는 음성 정보 추출부(100)에서 추출되어 수집된 음성 정보 중 발화 위치를 선별한다.

이러한 발화 위치 선별부(200)는 음성과 묵음 사이를 구분하는 기능을 가진 VAD(Voice Activity Detection) 기술을 통해 수집된 음성 정보 중 발화가 이루어진 구간에 대한 선택적인 선별이 이루어지게 하며, 그에 따라 묵음을 제외한 미리 설정된 검증 구간(A)에 해당하는 음성 정보를 선별하는데, 여기서 다수의 화자가 인식된 경우, 각각의 음성 프레임(1, 1')을 선별하도록 한다(도 3 참조).

화자 인식부(300)는 발화 위치에 포함된 복수의 음성 프레임(1)이 미리 설정된 검증 구간(A)에 해당하게 누적됨에 따라, 검증 구간(A)을 형성하는 복수의 음성 프레임(1)을 실시간으로 분석, 검증 대상 화자가 원격 진료 시스템에 접근이 허용된 사전 등록 화자 정보와 일치하는 여부를 검증한다.

즉, 도 4에 도시된 바와 같이, 검증 구간(A)은 발화 위치 선별부(200)에서 초단위로 전송되는 음성 프레임(1)이 적어도 5초 이상 누적된 구간으로 설정되는데, 화자 인식부(300)는 음성 프레임(1)이 5초 이상 누적되어 검증 구간(A)을 형성하게 되면, 누적된 음성 프레임(1)에 대한 특징 벡터를 분석하여 사전 등록 화자 정보에 포함된 특징 벡터와 서로 일치하는지의 검증을 실시간으로 수행하도록 한다.

여기서, 본 실시예에서는 검증 구간(A)이 상기와 같이 음성 프레임(1)이 5초 누적된 구간으로 설정되는 것으로 설명되었으나, 이는 분석이 수행되기 위한 최소 시간에 해당하는 것일 뿐 정해진 것은 아니며, 예를 들어 10초 등과 같이 이 보다 더 많은 음성 프레임(1)이 누적되어 형성된 구간으로 설정될 수도 있다.

화자 인식부(300)는, 만일 검증 구간(A)에서 누적된 음성 프레임(1)에 대한 특징 벡터가, 사전 등록 화자 정보에 대한 미리 저장된 음성 프레임의 특징 벡터와 일치하면, 정상 접근으로 판단한다.

다시 말해, 원격 진료 시스템에 접속하게 되면, 원격 진료 시스템에는 최초 등록 시 입력한 음성 정보를 기반으로 추출된 음성 프레임의 특징 벡터가 저장되어 있으므로, 검증 구간(A)에 누적된 검증 대상 화자의 음성 프레임(1)에 대한 특징 벡터가, 상기와 같이 미리 저장된 사전 등록 화자 정보에 대한 음성 프레임의 특징 벡터와 서로 일치하면, 정상 접근이 이루어진 것으로 실시간으로 판단하여 검증 대상 화자가 자신의 증상에 대해 이야기하고 있는 것으로 판단할 수 있다.

이와 같이, 정상 접근으로 판단되면, 해당 검증 대상 화자의 음성 정보를 기반으로 생성된 음성 이미지에 워터마크 및 의료 코드, 환자 개인 정보 및 의료 기록 정보와 같은 개별 정보가 삽입되어 데이터베이스(DB)에 저장되며, 저장된 정보는 서버(S)에 환자 별로 저장되게 된다.

여기서, 정상 접근으로 판단됨에 따라 원격 진료가 진행되면, 도 5에 도시된 바와 같이, 의사의 원격 진료 화면에는 환자 정보, 진료 차트, 처방전 등이 기록될 수 있고, 이러한 기록은 원격 진료 시스템에서 의사의 음성 정보를 자동 인식하여 기록 및 저장되게 하는 형태일 수도 있다.

전술된 바와 같은, 정상 접근 여부의 판단을 위한 특징 벡터의 분석은, 검증 구간(A)에 누적된 복수의 음성 프레임(1)으로부터 추출된 특징 벡터를 편집 거리(Edit Distance) 알고리즘에 적용하여 접근이 허용된, 다시 말해 미리 저장된 사전 등록 화자의 특징 벡터와의 비교를 통해 그 일치 여부를 검증할 수 있다.

이러한 화자의 일치 여부 검증을 위해 음성 이미지를 생성하고, 특징 벡터를 추출하기 위한 본 실시예에서의 특징을 설명하면 다음과 같다.

도 6을 참조하면, 학습모델 서버(10)는 음성 정보를 기반으로 소정의 시간 동안의 음성 프레임을 생성하는 프레임 생성부(11), 음성 프레임을 기반으로 음성 주파수를 분석하고, 음성 주파수를 이미지화하여 음성 이미지를 시계열로 생성하는 주파수 분석부(12) 및 음성 이미지를 심층 신경망 모델에 학습시켜 특징 벡터를 추출하는 신경망 학습부(13)를 포함할 수 있다.

통상적인 음성 인식 기술에서 0.5초(8,000 프레임) 내지 1초(16,000 프레임) 시간 동안에 연속된 음성 프레임을 모아 하나의 음소를 찾게 되는데, 그에 따라 프레임 생성부(11)는 디지털화한 음성 정보를 음성 프레임으로 생성하며, 초당 샘플의 횟수 비율을 의미하는 샘플링 레이트(sampling rate)에 따라 프레임의 개수를 결정한다(도 8의 (a) 참조).

이때, 단위는 헤르츠(Hz)이며, 주파수 16,000 Hz를 가지는 16,000개의 음성 프레임을 확보할 수 있다.

그리고, 주파수 분석부(12)는 프레임 생성부(11)에서 생성된 음성 프레임을 STFT(Short Time Fourier Transform) 알고리즘에 적용하여 음성 이미지를 생성하는 것이 바람직하다.

여기서, STFT 알고리즘은 복원이 용이한 알고리즘으로, 시계열 데이터를 시간대별 주파수로 분석하여 출력하는 알고리즘이다.

따라서, 주파수 분석부(12)는 소정 시간 동안의 음성 정보에 기반하여 생성된 음성 프레임을 STFT 알고리즘에 입력함으로써, 가로축은 시간축, 세로축은 주파수, 각 픽셀은 각 주파수의 세기 정보를 나타내는 이미지로 출력할 수 있다(도 8의 (b) 참조).

그리고, 상기와 같은 음성 이미지의 경우, 주파수 분석부(12)를 통해 출력될 수도 있으나, 음성 정보에 기반하여 생성된 음성 프레임을 주파수 분석부(12)를 거치지 않고, 바로 후술될 신경망 학습부(13)의 심층 신경망(DNN) 모델에 적용하여 출력되게 할 수도 있다.

또한, 주파수 분석부(12)는 STFT 알고리즘뿐만 아니라 Mel-Spectrogram, Mel-filterbank, MFCC(Mel-Frequency Cepstral Coefficient)의 특징 추출 알고리즘을 이용하여 음성 이미지인 분광파형도(spectrogram)를 생성할 수 있다.

즉, 도 8의 (b)의 이미지에서 RGB값이 낮고, 색변조가 적은 픽셀, 더욱 바람직하게는 식별에 대한 중요도가 낮은 픽셀에 의료 코드, 환자 개인 정보 및 의료 기록 정보 중 어느 하나 이상을 포함하는 개별 정보 및 워터마크를 삽입할 수 있다.

그리고, 신경망 학습부(13)의 심층 신경망(DNN) 모델은 LSTM(Long Short Term Memory) 신경망 모델을 포함하는 것이 바람직하나 이에 한정 하지 않고, 특징 벡터는 D-벡터인 것이 바람직하다.

이때, 신경망 학습부(13)는 심층 신경망(DNN) 모델의 여러 계열 중 시신경 구조를 모방한 합성공 신경망(Convolutional Neural Network, CNN), 현재 입력신호와 과거 입력신호들에 각각 다른 가중치를 부여함으로써, 데이터 처리에 특화된 시간지연 신경망(Time-Delay Neural Network, TDNN), 시계열 데이터의 장기 의존성 문제에 강인한 장단기 메모리(Long Short-Term Memory, LSTM) 모델 등을 통해 학습을 수행할 수 있으나, 이에 한정되지 않음은 당업자에게 자명하다 할 것이다.

심층 신경망(DNN) 모델은 음성 이미지로부터 화자 음성의 특성인 특징 벡터를 추출할 수 있으며, 이때 음성 이미지를 학습시키는 과정에서 심층 신경망 모델의 은닉층(Layer)은 입력된 특징에 맞게 변환할 수 있으며, 출력된 특징 벡터는 화자를 식별 가능하도록 최적화하여 가공될 수 있다(도 7 참조).

특히, 심층 신경망(DNN) 모델은 장기 의존성을 학습할 수 있는 특별한 종류인 LSTM 신경망 모델일 수 있으며, LSTM 신경망 모델은 순환 신경망(Recurrent Neural Network, RNN)의 일종이므로, 입력 데이터의 시계열적 상관 관계를 추출하는 데 주로 사용된다.

또한, 특징 벡터인 D-벡터는 심층 신경망(Deep Neural Network, DNN) 모델로부터 추출된 특징 벡터로, 특히 시계열 데이터에 대한 심층 신경망 모델(DNN)의 종류인 순환 신경망(RNN)의 특징 벡터이며, 특정한 발성을 가지는 화자의 특성을 표현할 수 있다.

다시 말해, 신경망 학습부(13)는 음성 이미지를 LSTM 신경망 모델의 은닉층에 입력하여 특징 벡터인 D-벡터를 출력한다.

이때, D-벡터는 16진수의 알파벳과 숫자 조합의 행렬 또는 배열 형태로 가공되는 것이 바람직하며, 소프트웨어 구축에 쓰이는 식별자 표준인 범용 고유 식별자(Universal Unique Identifier, UUID) 형태로 가공될 수 있고, 이때 범용 고유 식별자 간에 중복되지 않는 특성을 가지는 식별자 표준으로, 화자의 음성 식별에 최적화된 식별자일 수 있다.

학습모델 데이터베이스(14)는 지정된 화자의 음성 정보에 대응하는 음성 이미지, D-벡터 등을 저장하는 논리적 또는 물리적인 저장 서버를 의미한다.

한편, 화자 인식부(300)는 만일 검증 구간(A)에서 누적된 음성 프레임(1)에 대한 특징 벡터가 사전 등록 화자 정보에 대한 미리 저장된 음성 프레임의 특징 벡터와 불일치하면, 다시 말해 각각의 특징 벡터 사이의 유사도가 미리 설정된 임계값(threshold) 보다 낮으면, 비정상 접근으로 판단한다(도 4 참조).

예를 들어, 도 4에 도시된 바와 같이, 검증 구간(A)에서 검증 대상 화자가 아닌 다른 화자의 음성 프레임(1')이 포함되면, 그에 따른 검증 구간(A)에 대한 특징 벡터 또한 서로 다르게 출력되기 때문에, 이를 통해 비정상 접근으로 판단할 수 있으며, 그에 따라 음성으로 환자를 사칭한 대리 처방이 이루어지는 것일 수 있기 때문에, 화자 검증이 중단되도록 한다.

일반적으로, 화자 인증에서의 스푸핑(spoofing)은 사칭자가 시스템을 속일 목적으로 음성을 위조한 뒤, 이를 이용해 인증을 받으려는 행위를 말하며, 시스템 신뢰도가 낮을수록 범죄에 취약하기 때문에, 특히 금융거래와 같이 사칭으로 인한 피해가 큰 분야에 화자 인증 기술을 적용하기 위해서는 높은 신뢰도가 필수적이다.

이러한 스푸핑 공격의 유형에는 리플레이(등록된 사용자의 음성을 미리 녹음해둔 뒤, 인증 요청 시 이를 재생), 음성 변조(임의의 음성을 등록된 사용자의 음성으로 변소), 음성 합성(등록된 특정 텍스트의 사용자 음성 생성) 등이 있는데, 본 실시예에서는 실시간으로 의사와 환자 간 대화 시의 음성 정보를 추출, 음성 정보에 포함된 음성 프레임(1)에 대한 특징 벡터의 비교를 통해 화자를 인증하기 때문에, 리플레이 등과 같은 스푸핑 공격에 의한 대리 처방을 방지할 수 있다.

한편, 전술된 바와 같이 비정상 접근으로 판단되면, 화자 인식부(300)는 환자의 원격 진료 시스템 화면에 해당되는 정보가 표시되도록 하고, 이와 함께 음성 정보 추출부(100)를 통해 음성 정보의 추출이 다시 이루어질 수 있도록 재인증이 수행되며, 재인증이 수행됨에 따라 도 4에서와 같이 검증 구간(A) 내에서 다시 검증 대상 화자의 음성 프레임에 대한 특징 벡터가 사전 등록 화자의 음성 프레임에 대한 특징 벡터가 일치하게 되면, 정상 접근으로의 판단이 이루어질 수 있다.

따라서, 본 실시예에서는 검증 구간(A)에 누적된 복수의 음성 프레임(1)에 대한 특징 벡터가, 사전 등록 화자 정보에 대한 미리 저장된 음성 프레임의 특징 벡터와 일치한 경우에만 선택적으로 원격 진료가 이루어지게 하여 대리 처방, 대리 진료 등과 같은 원격 진료의 남용을 방지할 수 있도록 한다.

이와 같이, 본 실시예에서는 재인증을 통해 다시 정상 접근으로 판단되면, 해당 음성 이미지에 워터마크 및 개별 정보가 삽입되어 저장되도록 한다.

이를 위해, 화자 인식부(300)를 통한 정상 접근의 검증 결과에 따라 검증 대상 화자의 음성 정보를 기반으로 생성된 음성 이미지에 워터마크 및 개별 정보를 삽입하여 저장되도록 하는 워터마크 삽입부(400)를 포함한다.

이러한 워터마크 및 개별정보 삽입은 음성 정보를 음성 이미지로 변환하여 그에 삽입할 수도 있으며, 또는 화자의 음성을 디지털화한 음성 정보를 음성 정보 추출부(100)로부터 수신하여 다차원 배열로 변환한 음성 변환 데이터의 최하위비트(Least Significant Bit, LSB)에 직접 삽입할 수도 있다.

그리고, 이때 음성 변환 데이터는 음성 정보를 가변하는 특정 다차원으로 배열한 변환값으로, 변환값 중에서 LSB를 선택하여 워터마크 및 개별 정보를 삽입하는 것이 바람직하나, 변환값 중 최상위비트(Most Significant Bit, MSB)를 선택하여 워터마크 및 개별 정보를 삽입할 수도 있다.

또한, 생성된 상기 워터마크 및 상기 개별정보의 경우 암호화 알고리즘 고급 암호화 표준(Advanced Encryption Standard, AES)에 적용하여 암호화 및 복호화를 수행함으로써, 생성할 수 있으며, 통상 AES는 민감하지만 비밀로 분류되지는 않은 자료들에 대해 보안을 유지하기 위해 정부기관들이 사용하는 암호화 표준 대칭키 암호화 방식이다.

워터마크 삽입부(400)는 주파수 계수를 변화시키는 방법으로 DFT(Discrete Fourier Transform), DCT(Discrete Cosine Transform), DWT(Discrete Wavelet Transform) 등의 변환 방법을 이용하여 워터마크를 삽입할 수 있다.

이러한 방식은 워터마크를 삽입하여 전송하거나 또는 저장하기 위해 압축할 때 워터마크가 삽입된 데이터가 깨지지 않도록 하며, 전송 중에 생길 수 있는 노이즈나 여러 가지 형태의 변형 및 공격에도 데이터 추출을 가능케한다.

즉, 음성 이미지 각각의 픽셀뿐만 아니라 음성 정보에 대한 음성 변환 데이터에 워터마크 및 개별 정보를 삽입함으로써, 화자의 실제 음성인 원본 음성 데이터의 위조 및 변조에 강인함(Robustness)을 향상시킬 수 있다.

그에 따라, 본 실시예에서는 정상 접근 결과에 따라 검증 대상 화자의 음성 정보에 워터마크 및 개별 정보를 삽입하여 저장되도록 함으로써, 원격 진료를 위해 입력된 음성에 대한 위변조를 미연에 방지할 수 있다.

이하, 도 9 는 본 발명의 다른 실시예에 따른 음성 기술을 이용한 원격 진료 방법을 순차적으로 보여주는 도면이다.

도 9에 도시된 바와 같이, 본 실시예에 따른 음성 기술을 이용한 원격 진료 방법을 순차적으로 설명하면 다음과 같다.

먼저, 음성 정보 추출부(100)를 통해 원격 진료 상황에서 전달되는 영상 및 음성 정보 중 음성 정보를 선택적으로 추출한다(S100).

이후, 발화 위치 선별부(200)를 이용하여 음성 정보 추출 단계(S100)에서 수집된 음성 정보 중 발화 위치를 선별한다(S200).

이와 같이, 검증 구간(A), 더욱 바람직하게는 발화 위치 선별부(200)에서 초 단위로 전송되는 음성 프레임(1)이 5초 이상 누적되어 검증 구간(A)이 만들어지면, 화자 인식부(300)는 5초 이상에 해당하는 검증 구간(A) 내에서의 검증 대상 화자 정보가 접근이 허용된 사전 등록 화자 정보와 일치하는지 여부를 실시간으로 검증한다(S300).

이때, 검증 결과, 만일 화자 인식부(300)를 검증 구간(A)에서 누적된 5개의 검증 대상 화자의 음성 프레임(1)의 특징 벡터가 사전 등록 화자 정보에 대한 미리 저장된 음성 프레임의 특징 벡터와 일치하는 것으로 판단되면(S400), 정상 접근이 이루어짐에 따라 원격 진료 시스템을 이용하여 검증 대상 화자가 의사에게 자신의 증상에 대해 이야기한 것으로 판단할 수 있다(S500).

상기와 같이, 정상 접근으로 판단되면, 워터마크 삽입부(400)를 통해 검증 대상 화자의 음성 정보를 기반으로 생성된 음성 이미지에 워터마크 및 개별 정보, 예를 들어 의무화된 의료 기록 정보인 의료 코드, 환자 개인 정보 및 의료 기록 중 적어도 하나 이상을 삽입하여 워터마크 데이터베이스에 저장되게 한다(S600).

여기서, 만일 화자 인식 단계(S400)를 통한 검증 결과, 검증 구간(A) 내에서 검증 대상 화자의 음성 프레임(1)에 대한 특징 벡터가 사전 등록 화자 정보에 대한 음성 프레임의 특징 벡터와 서로 불일치하면, 즉 각각의 특징 벡터 사이의 유사도가 미리 설정된 임계값(threshold) 보다 낮으면, 비정상 접근으로 판단한다(S410).

다시 말해, 검증 구간(A)에서 검증 대상 화자가 아닌 다른 화자의 음성 프레임(1')이 포함되면(도 4 참조), 검증 구간(A)에 대한 특징 벡터 또한 사전 등록 화자에 대한 음성 프레임의 특징 벡터와 서로 다른게 출력되기 때문에, 이를 통해 비정상 접근으로 판단할 수 있으며, 그에 따라 음성으로 환자를 사칭한 대리 처방이 이루어지는 것일 수 있기 때문에, 화자 검증이 중단되도록 한다.

만일, 상기와 같이 비정상 접근으로 판단되면(S410), 환자의 원격 진료 시스템 화면에 해당 정보가 표시되게 하여, 음성 정보 추출부(100)를 통해 음성 정보의 추출이 다시 이루어지게 하는 재인증이 수행될 수 있다(S420).

이와 같이, 재인증이 수행됨에 따라 추후 화자 인식 단계(S400)를 통해 검증 구간(A) 내에서 다시 검증 대상 화자의 음성 프레임에 대한 특징 벡터가 사전 등록 화자의 음성 프레임에 대한 특징 벡터가 일치하게 되면, 다시 정상 접근으로의 판단이 이루어질 수 있다.

따라서, 본 실시예에서는 검증 구간(A)에 누적된 복수의 음성 프레임(1)에 대한 특징 벡터가, 사전 등록 화자 정보에 대한 미리 저장된 음성 프레임의 특징 벡터와 일치한 경우에만 선택적으로 원격 진료가 이루어지게 하여(S500), 대리 처방, 대리 진료 등과 같은 원격 진료의 남용을 방지할 수 있으며, 또한 재인증을 통해 다시 정상 접근으로 판단되면, 해당 음성 이미지에 워터마크 및 개별 정보가 삽입되어 저장되도록 함으로써(S600), 음성 인증의 기술을 통한 화자 인식 안전성 및 신뢰성을 향상시킬 수 있다.

이상의 본 발명은 도면에 도시된 실시 예(들)를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형이 이루어질 수 있으며, 상기 설명된 실시예(들)의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 청구범위의 기술적 사상에 의해 정해여야 할 것이다.

1, 1' : 음성 프레임 100 : 음성 정보 추출부
110 : 스푸핑 탐지부 200 : 발화 위치 선별부
300 : 화자 인식부 400 : 워터마크 삽입부
A : 검증 구간

Claims

원격 진료 상황에서 전달되는 영상 및 음성 정보 중 음성 정보를 선택적으로 추출하는 음성 정보 추출부;
상기 음성 정보 추출부에 수집된 음성 정보 중 발화 위치를 선별하는 발화 위치 선별부; 및
상기 발화 위치에 포함된 복수의 음성 프레임이 미리 설정된 검증 구간에 해당하도록 누적됨에 따라, 누적된 복수의 음성 프레임을 분석하여 검증 대상 화자 정보가, 접근이 허용된 사전 등록 화자 정보와 일치하는지 여부를 실시간 검증하는 화자 인식부;를 포함하고,
상기 화자 인식부는, 상기 검증 대상 화자 정보와 상기 사전 등록 화자 정보의 일치 여부에 따른 검증 결과에 따라 선택적으로 원격 진료가 제한되게 하고,
상기 검증 구간은,
상기 발화 위치 선별부에서 초 단위로 전송되는 음성 프레임이 적어도 5 초 이상 누적된 구간으로 하되 가장 최근의 구간으로 설정되고,
상기 화자 인식부는,
상기 검증 구간에 누적된 복수의 음성 프레임에 대한 특징 벡터가 상기 사전 등록 화자 정보에 대한 미리 저장된 음성 프레임의 특징 벡터와 일치하면, 정상 접근으로 판단하고, 불일치하면, 비정상 접근으로 판단하며,
비정상 접근으로 판단되면, 화자검증이 중단되도록 하고,
상기 화자 인식부를 통한 정상 접근의 검증 결과에 따라, 정상 접근으로 판단될 경우, 상기 검증 대상 화자의 음성 정보를 기반으로 생성된 음성 이미지에 워터마크(watermark) 및 개별 정보를 삽입하는 워터마크 삽입부를 더 포함하며,
상기 개별 정보는, 의료 코드, 환자 개인 정보 및 의료 기록 정보 중 적어도 하나 이상을 포함하는 것을 특징으로 하는 음성 기술을 이용한 원격 진료 시스템.
삭제
삭제
삭제
제 1 항에 있어서,
상기 발화 위치 선별부는,
VAD(Voice Activity Detection) 기술을 이용하여 발화 위치를 선별하는 것을 특징으로 하는 음성 기술을 이용한 원격 진료 시스템.
삭제
음성 정보 추출부가 원격 진료 상황에서 전달되는 영상 및 음성 정보 중 음성 정보를 선택적으로 추출하는 음성 정보 추출 단계;
발화 위치 선별부가 상기 음성 정보 추출 단계에서 수집된 음성 정보 중 발화 위치를 선별하는 발화 위치 선별 단계; 및
화자 인식부가 상기 발화 위치에 포함된 복수의 음성 프레임이 미리 설정된 검증 구간에 해당하게 누적됨에 따라, 누적된 복수의 음성 프레임을 분석, 검증 대상 화자가, 접근이 허용된 사전등록 화자 정보와 일치하는지 여부를 실시간으로 검증하는 화자 인식 단계;를 포함하고,
상기 화자 인식부는, 상기 검증 대상 화자 정보와 상기 사전 등록 화자 정보의 일치 여부에 따른 검증 결과에 따라 선택적으로 원격 진료가 제한되게 하고,
상기 검증 구간은,
상기 발화 위치 선별부에서 초 단위로 전송되는 음성 프레임이 적어도 5 초 이상 누적된 구간으로 하되 가장 최근의 구간으로 설정되고,
상기 화자 인식부는,
상기 검증 구간에 누적된 복수의 음성 프레임에 대한 특징 벡터가 상기 사전 등록 화자 정보에 대한 미리 저장된 음성 프레임의 특징 벡터와 일치하면, 정상 접근으로 판단하고, 불일치하면, 비정상 접근으로 판단하며,
비정상 접근으로 판단되면, 화자검증이 중단되도록 하고,
상기 화자 인식부를 통한 정상 접근의 검증 결과에 따라, 정상 접근으로 판단될 경우, 상기 검증 대상 화자의 음성 정보를 기반으로 생성된 음성 이미지에 워터마크(watermark) 및 개별 정보를 삽입하는 워터마크 삽입부를 더 포함하며,
상기 개별 정보는, 의료 코드, 환자 개인 정보 및 의료 기록 정보 중 적어도 하나 이상을 포함하는 것을 특징으로 하는 음성 기술을 이용한 원격 진료 방법.
삭제
삭제
삭제
삭제
삭제