WO2024029799A1

WO2024029799A1 - 인지 장애와 연관된 정보를 제공하는 방법 및 장치

Info

Publication number: WO2024029799A1
Application number: PCT/KR2023/010412
Authority: WO
Inventors: 고명진; 허동석
Original assignee: 주식회사 실비아헬스
Priority date: 2022-08-05
Filing date: 2023-07-19
Publication date: 2024-02-08
Also published as: KR102472910B9; KR102472910B1; KR20240020151A

Abstract

본 발명은 전자 장치의 정보 제공 방법으로서, 화자의 원본 음성 데이터를 획득하는 단계; 제1 인코더를 사용하여 상기 원본 음성 데이터를 기반으로 화자 식별 임베딩을 획득하는 단계; 제2 인코더를 사용하여 상기 원본 음성 데이터 및 상기 화자 식별 임베딩을 기반으로 콘텐츠 임베딩을 획득하는 단계; 타겟 모델을 사용하여 상기 콘텐츠 임베딩을 기반으로 상기 화자의 선별 정보를 확인하는 단계; 및 상기 선별 정보를 기반으로 결과 정보를 제공하는 단계를 포함하는 전자 장치의 정보 제공 방법에 관한 것이다.

Description

인지 장애와 연관된 정보를 제공하는 방법 및 장치

본 명세서의 실시 예는 인지 장애와 연관된 정보를 제공하는 방법 및 장치에 관한 것이다.

치매는 사람의 정신 능력과 사회적 활동을 할 수 있는 능력의 소실을 말하며, 어떤 사람의 일상생활의 장애를 가져올 정도로 충분히 심할 때 우리는 이를 치매라 부른다. 사람의 연령이 증가함에 따라 치매의 발병율 또한 함께 증가하는 것이 알려져 있고, 이에 따라 평균 수명이 증가하며 급속한 고령화가 진행되고 있는 오늘날 사회에서는 치매의 치료 및 예방 방법에 대한 관심이 갈수록 커지고 있다.

치매는 여러 가지 질환들에 의해 나타나는 병적 증상이며, 치매의 증상은 원인 질환의 종류와 정도에 따라 매우 다양하게 나타난다. 치매의 대표적인 증상 중 하나는 인지기능 저하 증상이며, 기억력 감퇴, 언어 능력 저하, 시공간 파악 능력 저하, 판단력 및 일상생활 수행 능력의 저하 등이 포함된다. 치매의 진단을 위한 하나의 방법으로는 언어 능력을 확인하기 위한 음성 테스트가 있다. 음성을 인지 장애 선별에 이용하는 것은 많은 연구에서 검증 및 시도되었다. 치매, 파킨슨 병 등의 경우 조기 발견 신호로 발화, 대화로부터 언어적(linguistic), 음향적(phonetic) 저하를 많이 이용한다. 이와 같이 음향적 특징뿐만 아니라 언어적, 의미적 특징을 모두 찾을 수 있는 음성, 특히 자유 발화는 인지 장애 선별에 많이 이용되고 있다.

한편 화자의 음성 데이터는 화자의 개인적 특성(나이, 성별, 음색 등)과 관련된 화자 식별 정보 및 음성과 직접적으로 연관되는 특성(리듬, 침묵율 등)과 관련된 콘텐츠 식별 정보를 포함할 수 있다. 치매 진단에 있어서 음성 데이터로부터 화자 식별 정보가 제거된 콘텐츠 식별 정보만을 추출하여 활용한다면, 음성의 리듬, 끊김의 정도, 침묵율, 특이도와 같이 인지 장애 선별에 더욱 중요한 요소에 집중함으로써 인지 장애 선별 정확도를 높일 것으로 기대된다. 따라서 화자의 음성 데이터로부터 콘텐츠 식별 정보를 추출하는 방법 및 추출 모델을 학습하는 방법이 요구된다.

본 명세서의 실시 예는 상술한 문제점을 해결하기 위하여 제안된 것으로, 화자의 음성 데이터로부터 개인적 특성(나이, 성별, 음색 등)을 제거한 콘텐츠 임베딩을 추출하는 모델 학습 방법 및 콘텐츠 임베딩을 활용한 정보 제공 방법을 제공하는 것을 목적으로 한다. 상기 기술을 통해 추출한 콘텐츠 임베딩을 활용하면 개인적 특성으로 인해 선별하기 어려웠던 경도 인지 장애 선별과 같은 작업의 정확도 상승을 기대할 수 있다.

상술한 과제를 달성하기 위하여, 본 명세서의 일 실시 예에 따르는 전자 장치의 정보 제공 방법은, 화자의 원본 음성 데이터를 획득하는 단계; 제1 인코더를 사용하여 상기 원본 음성 데이터를 기반으로 화자 식별 임베딩을 획득하는 단계; 제2 인코더를 사용하여 상기 원본 음성 데이터 및 상기 화자 식별 임베딩을 기반으로 콘텐츠 임베딩을 획득하는 단계; 타겟 모델을 사용하여 상기 콘텐츠 임베딩을 기반으로 상기 화자의 선별 정보를 확인하는 단계; 및 상기 선별 정보를 기반으로 결과 정보를 제공하는 단계를 포함하는 것을 특징으로 한다.

일 실시 예에 따르면, 상기 콘텐츠 임베딩을 획득하는 단계는 상기 원본 음성 데이터와 상기 화자 식별 임베딩을 연결하여(concatenate) 상기 제2 인코더에 입력하는 단계를 더 포함하는 것을 특징으로 한다.

일 실시 예에 따르면, 상기 제2 인코더는 상기 콘텐츠 임베딩 및 상기 제2 인코더에 대응하는 제2 디코더를 사용하여 상기 화자 식별 임베딩을 디코딩하여 생성된 출력 음성 데이터 및 상기 원본 음성 데이터의 비교를 기반으로 학습되는 것을 특징으로 한다.

일 실시 예에 따르면, 상기 제2 인코더 및 상기 제2 디코더는 상기 출력 음성 데이터 및 상기 원본 음성 데이터의 차이를 최소화하도록 학습되는 것을 특징으로 한다.

일 실시 예에 따르면, 상기 화자 식별 임베딩을 획득하는 단계는 상기 원본 음성 데이터를 기반으로 적어도 하나의 부분 음성 데이터를 포함하는 부분 음성 데이터 세트를 확인하는 단계; 및 상기 제1 인코더를 사용하여 상기 부분 음성 데이터 세트를 기반으로 상기 화자 식별 임베딩을 획득하는 단계를 포함하는 것을 특징으로 한다.

일 실시 예에 따르면, 상기 제1 인코더는 LSTM(Long Short Term Memory) 및 정류 선형 유닛(Rectified Linear Unit, ReLU) 중 적어도 하나를 포함하는 것을 특징으로 한다.

일 실시 예에 따르면, 상기 제2 인코더는 컨벌루션 레이어, 양방향 LSTM(bidirectional LSTM) 및 다운샘플링 유닛 중 적어도 하나를 포함하는 것을 특징으로 한다.

일 실시 예에 따르면, 상기 화자 식별 임베딩은 상기 원본 음성 데이터에 포함된 음색(timbre) 정보를 포함하는 것을 특징으로 한다.

일 실시 예에 따르면, 상기 콘텐츠 임베딩은 상기 원본 음성 데이터에 포함된 리듬(rhythm), 피치(pitch) 및 콘텐츠 정보를 포함하는 것을 특징으로 한다.

일 실시 예에 따르면, 상기 타겟 모델은 완전연결층(fully connected layer)을 포함하고, 상기 완전연결층은 복수의 콘텐츠 임베딩과 상기 복수의 콘텐츠 임베딩 각각에 대응하는 라벨을 기반으로 학습되는 것을 특징으로 한다.

일 실시 예에 따르면, 상기 선별 정보는 간이 정신 상태 검사(Mini-Mental State Examination; MMSE)와 연관된 스코어를 포함하는 것을 특징으로 한다.

일 실시 예에 따르면, 상기 결과 정보는 상기 선별 정보에 대응하는 인지 훈련 세트에 대한 정보를 포함하는 것을 특징으로 한다.

본 명세서의 일 실시 예에 따르는 정보를 제공하는 전자 장치는, 적어도 하나의 명령어를 저장하는 메모리; 및 상기 적어도 하나의 명령어를 실행함으로써, 화자의 원본 음성 데이터를 획득하고, 제1 인코더를 사용하여 상기 원본 음성 데이터를 기반으로 화자 식별 임베딩을 획득하고, 제2 인코더를 사용하여 상기 원본 음성 데이터 및 상기 화자 식별 임베딩을 기반으로 콘텐츠 임베딩을 획득하고, 타겟 모델을 사용하여 상기 콘텐츠 임베딩을 기반으로 상기 화자의 선별 정보를 확인하고, 상기 선별 정보를 기반으로 결과 정보를 제공하는 프로세서를 포함하는 것을 특징으로 한다.

본 명세서의 일 실시 예에 따르는 비일시적 컴퓨터 판독 가능 저장 매체는, 컴퓨터 판독 가능 명령어들을 저장하도록 구성되는 매체를 포함하고, 상기 컴퓨터 판독 가능 명령어들은 프로세서에 의해 실행되는 경우 상기 프로세서가: 화자의 원본 음성 데이터를 획득하는 단계; 제1 인코더를 사용하여 상기 원본 음성 데이터를 기반으로 화자 식별 임베딩을 획득하는 단계; 제2 인코더를 사용하여 상기 원본 음성 데이터 및 상기 화자 식별 임베딩을 기반으로 콘텐츠 임베딩을 획득하는 단계; 타겟 모델을 사용하여 상기 콘텐츠 임베딩을 기반으로 상기 화자의 선별 정보를 확인하는 단계; 및 상기 선별 정보를 기반으로 결과 정보를 제공하는 단계를 포함하는 전자 장치의 정보 제공 방법을 수행하도록 하는 것을 특징으로 한다.

본 명세서의 실시 예에 따르면 음성으로부터 콘텐츠 임베딩을 추출함으로써, 해당 임베딩에는 화자를 식별할 수 있는 개인 특성(나이, 성별, 음색 등)과 같이 인지 장애와 연관이 적고 오히려 선별에 방해되는 요소가 제거되었으므로 인지 장애 선별의 정확도를 더욱 높일 수 있다. 또한 콘텐츠 임베딩은 음성의 리듬, 끊김의 정도, 침묵율, 특이도와 같이 보다 인지 장애 선별에 더 중요한 요소를 포함하므로, 화자 관련 정보보다는 콘텐츠 관련 정보에 집중하여 화자의 음성 데이터로부터 인지 장애 특징을 더욱 효과적으로 선별할 수 있다.

도 1은 본 명세서의 일 실시 예에 따른 전자 장치의 각 구성을 개략적으로 도시하는 예시적인 도면이다.

도 2는 본 명세서의 일 실시 예에 따른 음성 변환 시스템의 동작 방법을 설명하기 위한 개략적인 도면이다.

도 3은 본 명세서의 일 실시 예에 따른 전자 장치의 인지 장애와 연관된 정보 제공 방법의 흐름을 나타내는 순서도이다.

도 4는 본 명세서의 일 실시 예에 따른 음성 데이터로부터 콘텐츠 임베딩을 분리하기 위한 전반적인 아키텍처를 나타내는 도면이다.

도 5a 및 도 5b는 본 명세서의 일 실시 예에 따른 화자 인코더 및 콘텐츠 인코더를 나타내는 도면이다.

도 6은 본 명세서의 일 실시 예에 따른 전자 장치의 학습 프로세스를 개략적으로 나타낸 도면이다.

도 7은 본 명세서의 일 실시 예에 따른 콘텐츠 임베딩을 사용한 분류 모델의 성능을 나타내는 표이다.

이하, 본 발명의 실시 예를 첨부된 도면을 참조하여 상세하게 설명한다.

실시 예를 설명함에 있어서 본 발명이 속하는 기술 분야에 익히 알려져 있고 본 발명과 직접적으로 관련이 없는 기술 내용에 대해서는 설명을 생략한다. 이는 불필요한 설명을 생략함으로써 본 발명의 요지를 흐리지 않고 더욱 명확히 전달하기 위함이다.

마찬가지 이유로 첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 개략적으로 도시되었다. 또한, 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니다. 각 도면에서 동일한 또는 대응하는 구성요소에는 동일한 참조 번호를 부여하였다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

이 때, 처리 흐름도 도면들의 각 블록과 흐름도 도면들의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수 있음을 이해할 수 있을 것이다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 흐름도 블록(들)에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 흐름도 블록(들)에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 흐름도 블록(들)에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

또한, 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실행 예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.

이 때, 본 실시 예에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 “~부”, “~모듈” 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

명세서 전체에서 기재된 “a, b, 및 c 중 적어도 하나”의 표현은, ‘a 단독’, ‘b 단독’, ‘c 단독’, ‘a 및 b’, ‘a 및 c’, ‘b 및 c’, 또는 ‘a,b,c 모두’를 포괄할 수 있다.

아래에서는 첨부한 도면을 참고하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.

도 1을 참조하면, 전자 장치(100)는 프로세서(110) 및 메모리(120)를 포함할 수 있고, 인지 장애와 연관된 정보를 제공하는 방법을 수행할 수 있다. 도 1에 도시된 전자 장치(100)에는 본 실시 예들과 관련된 구성요소들만이 도시되어 있다. 따라서, 전자 장치(100)에는 도 1에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있음은 당해 기술분야의 통상의 기술자에게 자명하다. 또한, 도 1에는 전자 장치(100)로 도시되었지만, 인지 장애와 연관된 정보를 제공하는 방법을 수행할 수 있는 전자 장치라면 모두 전자 장치(100)로 대체될 수 있다.

프로세서(110)는 전자 장치(100)에서의 인지 장애와 연관된 정보 제공을 위한 전반적인 기능들을 제어하는 역할을 한다. 예를 들어, 프로세서(110)는 전자 장치(100) 내의 메모리(120)에 저장된 프로그램들을 실행함으로써, 전자 장치(100)를 전반적으로 제어한다. 프로세서(110)는 전자 장치(100) 내에 구비된 CPU(central processing unit), GPU(graphics processing unit), AP(application processor) 등으로 구현될 수 있으나, 이에 제한되지 않는다.

메모리(120)는 전자 장치(100) 내에서 처리되는 각종 데이터들을 저장하는 하드웨어로서, 메모리(120)는 전자 장치(100)에서 처리된 데이터들 및 처리될 데이터들을 저장할 수 있다. 또한, 메모리(120)는 전자 장치(100)에 의해 구동될 애플리케이션들, 드라이버들 등을 저장할 수 있다. 메모리(120)는 DRAM(dynamic random access memory), SRAM(static random access memory) 등과 같은 RAM(random access memory), ROM(read-only memory), EEPROM(electrically erasable programmable read-only memory), CD-ROM, 블루레이 또는 다른 광학 디스크 스토리지, HDD(hard disk drive), SSD(solid state drive), 또는 플래시 메모리를 포함할 수 있다.

화자의 음성 데이터를 이용하여 치매를 진단하는 방법이 널리 활용되고 있다. 음성을 이용한 치매의 분류를 위한 하나의 접근법으로는 x-벡터 및 d-벡터와 같은 종래의 음성 임베딩 기술을 이용하는 것이 있다. 이들 임베딩은 주로 화자 선별 과제를 통해 학습되기 때문에 학습을 마친 임베딩은 나이, 성별, 민족과 같은 인구학적(demographic) 특성 및 음색과 같은 화자 식별을 위한 음향 특징을 많이 담고 있다. 그러나, 치매 진단에 있어서는 이러한 화자 식별 정보보다 리듬 및 침묵율과 같은 음성 자체와 관련된 정보가 더욱 중요한 것으로 고려되고 있다.

이 점에 착안하여, 본 명세서에서는 음성 데이터로부터 인지 장애를 자동으로 선별하기 위해 음성으로부터 화자 식별 임베딩을 분리하는 방법을 설명한다. 화자의 특성을 나타내는 식별 정보가 제거된 음성 데이터를 기반으로 하는 인지 장애 선별 방법은 화자의 특성 정보만을 기반으로 인지 장애를 선별하는 방법에 비해 뛰어난 성능을 가질 것이다. 음성 데이터로부터 화자 식별 임베딩 및 콘텐츠 임베딩을 분리하기 위해 음성 변환을 위한 자동 인코더 기반 프레임워크인 AutoVC 프레임워크의 일부가 사용될 수 있다. AutoVC 프레임워크는 화자 식별 임베딩 및 콘텐츠 임베딩을 각각 생성하는 두 개의 개별 인코더와, 임베딩들의 조합으로부터 변환된 음성을 출력하는 디코더를 포함한다. 전자 장치(100)는 이러한 AutoVC 프레임워크의 일부 구성을 기반으로 음성 데이터로부터 콘텐츠 임베딩을 분리할 수 있다.

도 2를 참조하면, AutoVC 프레임워크를 기반으로 하는 음성 변환 시스템(200)이 도시된다. 음성 변환 시스템(200)은 화자 A의 음성 데이터 S를 획득할 수 있고, 음성 데이터는 리듬, 콘텐츠, 피치 및 음색에 대한 정보를 포함할 수 있다. 음성 변환 시스템(200)에 포함된 인코더(210)는 이러한 음성 데이터 S로부터 화자의 특성을 포함하는 음색 정보를 제거한 콘텐츠 벡터 Z를 추출할 수 있고, 콘텐츠 벡터 Z는 화자 고유의 특성이 제거된 콘텐츠와 관련된 정보만을 포함하게 된다. 이 콘텐츠 벡터 Z는 음성 변환 시스템(200)에 입력된 다른 화자 B의 음색 정보와 함께 음성 변환 시스템(200)에 포함된 디코더(220)에 의해 디코딩될 수 있으며, 디코딩 결과 출력된 음성 데이터

는 A가 말한 콘텐츠를 마치 B가 말하는 것처럼 재생될 수 있다.

본 명세서에서는 도 2에 도시된 음성 변환 시스템(200)의 인코더(210)를 채용하여 화자의 고유 특성이 제거된 콘텐츠 임베딩을 추출하고, 추출된 콘텐츠 임베딩을 기반으로 인지 장애와 연관된 정보를 제공하는 방법이 논의된다.

이하, 전자 장치(100)에서 인지 장애와 연관된 정보를 제공하기 위한 방법의 흐름을 도 3을 참조하여 상세하게 설명하기로 한다.

도 3은 본 명세서의 일 실시 예에 따른 전자 장치의 인지 장애와 연관된 정보 제공 방법의 흐름을 나타내는 순서도이다. 도 3에 도시된 각 단계의 수행 주체는 도 1에 도시된 전자 장치(100)를 포함할 수 있다.

단계 S310에서, 전자 장치는 원본 음성 데이터를 획득할 수 있다.

일 실시 예에서, 전자 장치는 인지 장애 선별 또는 치매 예방을 위한 애플리케이션이 설치된 사용자 단말기를 포함할 수 있고, 전자 장치는 전자 장치에 구비된 입력부를 통해 원본 음성 데이터를 획득할 수 있다. 예를 들어, 사용자는 그의 단말기에 설치된 인지 장애 선별 또는 치매 예방 애플리케이션을 통해 음성 평가를 수행할 수 있고, 그림 설명하기 검사 및 스토리텔링 검사 등을 위해 사용자의 음성을 사용자 단말기에 입력할 수 있다. 입력된 음성은 원본 음성 데이터로서 전자 장치의 프로세서로 제공될 수 있다.

일 실시 예에서, 인코더 및 타겟 모델의 트레이닝 및 검증을 위한 음성 데이터는 예를 들어, DementiaBank Pitt Corpus와 같은 공개된 데이터 세트로부터 획득될 수 있다. DementiaBank Pitt Corpus는 치매의 종적 연구에 사용된 수많은 가공되지 않은 오디오 파일을 포함하는 가장 큰 공개된 데이터 세트이다. 전자 장치(100)는 데이터 세트로부터 건강한 사람(대조군) 및 인지 장애를 갖는 사람 모두의 음성 샘플 데이터를 획득할 수 있다.

단계 S320에서, 전자 장치는 제1 인코더를 사용하여 원본 음성 데이터를 기반으로 화자 식별 임베딩을 획득할 수 있다. 화자 식별 임베딩은 화자의 음성 데이터에서 화자를 식별할 수 있는 개인 특성(예를 들어, 나이, 성별, 음색 등)을 나타내는 데이터를 지칭할 수 있다.

일 실시 예에서, 전자 장치는 원본 음성 데이터를 기반으로 적어도 하나의 부분 음성 데이터를 포함하는 부분 음성 데이터 세트를 확인하고, 제1 인코더를 사용하여 부분 음성 데이터 세트를 기반으로 화자 식별 임베딩을 획득할 수 있다. 여러 음성 데이터들은 동일한 화자에 대하여 적어도 하나의 부분 음성 데이터 세트로 분할될 수 있다. 이는 이후 동일 화자에 대한 화자 식별 임베딩을 추출하는 용도로 사용될 수 있으며, 이 화자 식별 임베딩과 데이터들을 비교하여 각 데이터마다 콘텐츠 임베딩을 추출하여 학습하기 위한 것이다.

일 실시 예에서, 전자 장치는 제1 인코더를 사용하여 적어도 하나의 부분 음성 데이터 각각에 대한 화자 식별 임베딩을 추출하고, 상기 적어도 하나의 부분 음성 데이터 각각에 대한 화자 식별 임베딩의 평균을 계산하여 원본 음성 데이터에 대응하는 화자 식별 임베딩을 획득할 수 있다. 이와 같이 적어도 하나의 부분 음성 데이터 각각에 대한 화자 식별 임베딩의 평균을 계산함으로써, 적어도 하나의 부분 음성 데이터 각각에 대한 화자 식별 임베딩에 포함된 콘텐츠 관련 정보를 정규화하고, 화자 식별 정보로부터 보다 잘 분리되도록 할 수 있다.

일 실시 예에서, 제1 인코더는 LSTM(Long Short Term Memory) 및 정류 선형 유닛(Rectified Linear Unit, ReLU) 중 적어도 하나를 포함할 수 있다. 전자 장치는 동일 화자의 음성 데이터를 기반으로 화자 식별 임베딩 추출 모델의 학습을 수행할 수 있으며, 학습을 위해 LSTM 및 정류 선형 유닛 중 적어도 하나를 포함한 제1 인코더가 이용될 수 있다. 학습을 마친 모델은 동일한 화자의 음성 데이터들에 대해 유사한 화자 식별 임베딩을 출력할 것이다.

단계 S330에서, 전자 장치는 제2 인코더를 사용하여 원본 음성 데이터 및 화자 식별 임베딩을 기반으로 콘텐츠 임베딩을 획득할 수 있다. 콘텐츠 임베딩은 화자의 음성 데이터에서 화자를 식별할 수 있는 개인 특성(예를 들어, 나이, 성별, 음색 등)이 제거된 데이터를 지칭할 수 있으며, 음성의 리듬, 피칭, 끊김의 정도, 침묵율, 특이도 등의 정보를 포함할 수 있다.

일 실시 예에서, 전자 장치는 원본 음성 데이터와 화자 식별 임베딩을 연결하여(concatenate) 제2 인코더에 입력할 수 있다.

일 실시 예에서, 제2 인코더는 컨벌루션 레이어, 양방향 LSTM(bidirectional LSTM) 및 다운샘플링 유닛 중 적어도 하나를 포함할 수 있다. 전자 장치는 원본 음성 데이터 및 화자 식별 임베딩으로부터 컨벌루션 레이어, 양방향 LSTM 및 다운샘플링 유닛 중 적어도 하나를 포함하는 제2 인코더를 사용하여 콘텐츠 임베딩을 추출할 수 있다.

일 실시 예에서, 제2 인코더는 콘텐츠 임베딩 및 제2 인코더에 대응하는 제2 디코더를 사용하여 화자 식별 임베딩을 디코딩하여 생성된 출력 음성 데이터 및 원본 음성 데이터의 비교를 기반으로 학습될 수 있다. 전자 장치는 학습 과정에서 제2 인코더에 입력된 음성과 동일한 화자의 화자 식별 인베딩을 제2 디코더에 입력하여 출력 음성 데이터를 디코딩하도록 구성될 수 있다. 콘텐츠 임베딩 및 화자 식별 임베딩의 디코딩을 통해 원본 음성 데이터와 유사한 출력 음성 데이터가 추출되며, 원본 음성 데이터와 출력 음성 데이터의 차를 최소화하도록 제2 인코더 및 제2 디코더가 학습될 수 있다. 즉, 전자 장치는 출력 음성 데이터와 원본 음성 데이터의 차를 최소화하도록 제2 인코더 및 제2 디코더를 학습함으로써, 제2 인코더의 콘텐츠 임베딩 추출을 학습하도록 구성될 수 있다.

단계 S340에서, 전자 장치는 타겟 모델을 사용하여 콘텐츠 임베딩에 대응하는 화자의 선별 정보를 확인할 수 있다. 타겟 모델은 인지 장애 선별 모델을 포함할 수 있다. 타겟 모델은 콘텐츠 임베딩을 입력으로 하고 화자의 인지 장애와 관련된 선별 정보를 출력으로 할 수 있으며, 분류 모델 또는 회귀 모델을 포함할 수 있다. 분류 모델의 경우 선별 정보는 참 또는 거짓의 이진 정보를 포함하고, 회귀 모델의 경우 선별 정보는 0과 1 사이의 확률 값을 포함할 수 있다.

일 실시 예에서, 선별 정보는 치매를 유발할 수 있는 다양한 요인과, 요인 각각에 대응하는 위험도 또는 스코어로 구성된 벡터를 포함할 수 있다.

일 실시 예에서, 선별 정보는 간이 정신 상태 검사(Mini-Mental State Examination; MMSE)와 연관된 스코어를 포함할 수 있다 (예를 들어, 0 ~ 30점). 전자 장치는 화자의 상기 스코어를 기반으로 예를 들어, 24점 이상인 경우 확정적 정상, 20~23점인 경우 치매 의심, 및 19점 이하인 경우 확정적 치매의 진단을 할 수 있다.

일 실시 예에서, 타겟 모델은 완전연결층(fully connected layer)을 포함하고, 완전연결층은 복수의 콘텐츠 임베딩과 복수의 콘텐츠 임베딩 각각에 대응하는 라벨을 기반으로 학습될 수 있다. 라벨은 분류 모델의 경우 참 또는 거짓의 이진 정보를 포함하고, 회귀 모델의 경우 0과 1 사이의 확률 값을 포함할 수 있으며, 전자 장치는 복수의 콘텐츠 임베딩과 각각에 대응하는 라벨을 통해 완전연결층을 사전 학습시킬 수 있다.

단계 S350에서, 전자 장치는 선별 정보를 기반으로 결과 정보를 제공할 수 있다. 전자 장치는 화자가 치매로 판단되는 경우, 치매의 치료를 위한 약 처방, 운동법, 인지 훈련, 식단, 관리 방법 등에 대한 정보를 제공할 수 있다.

일 실시 예에서, 선별 정보는 인지 장애와 연관된 스코어를 포함할 수 있고, 전자 장치는 스코어를 기반으로 화자의 인지 장애의 경중에 따라 다른 치료 또는 예방과 관련된 정보를 제공할 수 있다.

일 실시 예에서, 결과 정보는 선별 정보에 대응하는 인지 훈련 세트에 대한 정보를 포함할 수 있다. 예를 들어, MMSE와 연관된 화자의 스코어가 21점 내지 24점인 경우, 인지 훈련 A, B, C를 순서대로 수행하도록 하는 루틴이 결과 정보로서 제공될 수 있고, MMSE와 연관된 화자의 스코어가 20점 이하라면, 인지 훈련 C, D, E, F, G를 순서대로 수행하도록 하는 루틴이 결과 정보로서 제공될 수 있다. 이와 같이, 전자 장치는 화자의 선별 정보에 적합한 인지 훈련 루틴을 제공하여 화자에 맞춤화된 치매 예방 및 치료 방법을 제공할 수 있다.

도 4에 도시된 예시에서, X_i는 화자 i의 음성으로부터 계산된 N Х T 크기의 멜 스펙트로그램(mel spectrogram)이다. N은 멜 주파수 빈의 개수이며(여기서는 64ms의 윈도우 및 16ms의 스텝 크기로 80으로 설정), T는 타임 스텝의 개수이다. 콘텐츠 인코더 E_C(420)는 입력으로 각 시간 스텝(프레임)에서 화자 식별 임베딩과 연결된 X_i를 취하며, 이를 기반으로 콘텐츠 임베딩 C_i를 리턴할 수 있다.

유사하게, 화자 인코더 E_S(410)는 입력으로 2차원 멜 스펙트로그램의 형태의 화자 i의 음성이 주어질 때 화자 식별 임베딩 S_i를 리턴할 수 있다. 본 실시 예에서 화자 식별 임베딩은 발화(utterance) 레벨의 화자 식별 임베딩의 평균으로 계산될 수 있다. 전자 장치(100)는 각 화자에 대해, 화자 식별 임베딩의 세트와 그의 산술 평균을 계산하여 화자 고유의 식별 임베딩을 획득할 수 있으며, 화자 식별 임베딩의 세트는 각 임베딩이 화자의 전체 음성을 구성하는 하나의 발화에 대응할 수 있다. 이는 화자 식별 임베딩 내에 인코딩된 콘텐츠 정보를 그들의 평균을 취함으로써 정규화하기 위한 것이다. 동일한 화자에 대한 화자 식별 임베딩 내의 콘텐츠 관련 요소는 다양한 값을 가지는 반면 화자 관련 요소는 상대적으로 일정한 값을 가질 것이므로, 이들의 평균을 취하면 콘텐츠 관련 요소로부터 화자 관련 요소가 더욱 분리될 것이다.

즉, 전자 장치는 원본 음성 데이터 X_i를 복수의 샘플링 데이터 (또는 부분 발화) {x_i,0, ..., x_i,n}로 분할할 수 있고, 콘텐츠 임베딩 Ci는 다음과 같이 나타낼 수 있다.

여기서,

이다.

일 실시 예에서, 복수의 샘플링 데이터는 원본 음성 데이터를 기반으로 확인된 적어도 하나의 부분 음성 데이터를 포함하는 부분 음성 데이터 세트를 포함할 수 있다.

한편 콘텐츠 인코더를 학습시키기 위해서는 화자 식별 임베딩 S_i와 콘텐츠 임베딩 C_i를 결합하여 음성을 재구성하는 디코더 D(430)가 필요하며, 디코더 D(430)를 통해 추정된 음성 데이터

와 원본 음성 데이터 X_i의 차이가 최소가 되도록 손실 함수가 구성되어 학습될 수 있다.

도 5a 및 도 5b는 본 명세서의 일 실시 예에 따른 화자 인코더 및 콘텐츠 인코더를 각각 나타내는 도면이다.

도 5a를 참조하면, 음성 데이터로부터 화자 식별 임베딩을 추출하기 위한 화자 인코더 E_S의 예시적인 연산 과정이 도시된다. 화자 인코더 E_S는 복수의 LSTM(510) 및 정류 선형 유닛(520)을 포함할 수 있다.

도 5b를 참조하면, 음성 데이터 및 화자 식별 임베딩을 기반으로 콘텐츠 임베딩을 추출하기 위한 콘텐츠 인코더 E_C의 예시적인 연산 과정이 도시된다. 콘텐츠 인코더 E_C는 복수의 컨벌루션 레이어(530), 복수의 양방향 LSTM(540) 및 다운샘플링 유닛(550)을 포함할 수 있다.

도 6을 참조하면, 전자 장치에서 화자 인코더, 콘텐츠 인코더(AutoVC 기반의 인코더/디코더) 및 타겟 모델을 학습하는 개략적인 프로세스가 도시된다. 먼저 리듬, 피치, 콘텐츠, 및 음색의 정보를 포함하는 원본 음성 데이터(601)가 동일 화자에 대해 수집되어 화자 식별 인코더(602)를 학습하는 데 활용될 수 있다. 이와 같이 학습된 화자 식별 인코더(602)는 원본 음성 데이터(601)로부터 화자를 식별할 수 있는 음색을 포함하는 화자 식별 임베딩(603)을 추출할 수 있다.

한편, AutoVC 인코더(604)는 화자의 원본 음성 데이터(601)로부터 음색을 제외한 콘텐츠 관련 정보만을 포함하는 콘텐츠 임베딩(605)을 추출하고, 화자 식별 임베딩(603)과 콘텐츠 임베딩(605)은 AutoVC 디코더(606)를 통해 디코딩되어 원본 음성 데이터(601)와 유사한 출력 음성 데이터(607)를 생성할 수 있다. 생성된 출력 음성은 원본 음성 데이터와의 비교를 통해 AutoVC 인코더(604) 및 디코더(606)를 학습하는 데 활용될 수 있다.

AutoVC 인코더(604)를 사용하여 추출된 콘텐츠 임베딩(605)은 치매 또는 대조군에 대응하는 라벨(608)과 함께 타겟 모델을 포함하는 치매 분류기(609)를 학습시킬 수 있고, 치매 분류기(609)는 입력된 콘텐츠 임베딩(605)에 대응하는 치매 또는 대조군인지에 대한 예측 라벨(610)을 출력할 수 있다.

도 7을 참조하면, 4개의 기계 학습 분류기, 즉, 선형 판별 분석(Linear Discriminant Analysis, LDA), 서포트 벡터 머신(Support Vector Machine, SVM), 결정 트리(Decision Tree, DT), 및 랜덤 포레스트(Random Forest, RF)의 각 입력에 대한 성능을 표시하는 표(700)가 도시된다. x-벡터, d-벡터뿐만 아니라 AutoVC 학습에 사용된 화자 식별 인코더로 추출된 화자 식별 임베딩보다도 AutoVC 인코더로 추출된 콘텐츠 임베딩을 사용한 분류 모델의 성능이 가장 뛰어남을 확인할 수 있다.

한편, 본 명세서와 도면에는 본 발명의 바람직한 실시 예에 대하여 개시하였으며, 비록 특정 용어들이 사용되었으나, 이는 단지 본 발명의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예 외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.

Claims

전자 장치의 정보 제공 방법으로서,

화자의 원본 음성 데이터를 획득하는 단계;

제1 인코더를 사용하여 상기 원본 음성 데이터를 기반으로 화자 식별 임베딩을 획득하는 단계;

제2 인코더를 사용하여 상기 원본 음성 데이터 및 상기 화자 식별 임베딩을 기반으로 콘텐츠 임베딩을 획득하는 단계;

타겟 모델을 사용하여 상기 콘텐츠 임베딩을 기반으로 상기 화자의 선별 정보를 확인하는 단계; 및

상기 선별 정보를 기반으로 결과 정보를 제공하는 단계를 포함하는, 전자 장치의 정보 제공 방법.
제1항에 있어서,

상기 콘텐츠 임베딩을 획득하는 단계는

상기 원본 음성 데이터와 상기 화자 식별 임베딩을 연결하여(concatenate) 상기 제2 인코더에 입력하는 단계를 더 포함하는, 전자 장치의 정보 제공 방법.
제1항에 있어서,

상기 제2 인코더는 상기 콘텐츠 임베딩 및 상기 제2 인코더에 대응하는 제2 디코더를 사용하여 상기 화자 식별 임베딩을 디코딩하여 생성된 출력 음성 데이터 및 상기 원본 음성 데이터의 비교를 기반으로 학습되는, 전자 장치의 정보 제공 방법.
제3항에 있어서,

상기 제2 인코더 및 상기 제2 디코더는 상기 출력 음성 데이터 및 상기 원본 음성 데이터의 차이를 최소화하도록 학습되는 것을 특징으로 하는, 전자 장치의 정보 제공 방법.
제1항에 있어서,

상기 화자 식별 임베딩을 획득하는 단계는

상기 원본 음성 데이터를 기반으로 적어도 하나의 부분 음성 데이터를 포함하는 부분 음성 데이터 세트를 확인하는 단계; 및

상기 제1 인코더를 사용하여 상기 부분 음성 데이터 세트를 기반으로 상기 화자 식별 임베딩을 획득하는 단계를 포함하는, 전자 장치의 정보 제공 방법.
제1항에 있어서,

상기 제1 인코더는 LSTM(Long Short Term Memory) 및 정류 선형 유닛(Rectified Linear Unit, ReLU) 중 적어도 하나를 포함하는, 전자 장치의 정보 제공 방법.
제1항에 있어서,

상기 제2 인코더는 컨벌루션 레이어, 양방향 LSTM(bidirectional LSTM) 및 다운샘플링 유닛 중 적어도 하나를 포함하는, 전자 장치의 정보 제공 방법.
제1항에 있어서,

상기 화자 식별 임베딩은 상기 원본 음성 데이터에 포함된 음색(timbre) 정보를 포함하는, 전자 장치의 정보 제공 방법.
제1항에 있어서,

상기 콘텐츠 임베딩은 상기 원본 음성 데이터에 포함된 리듬(rhythm), 피치(pitch) 및 콘텐츠 정보를 포함하는, 전자 장치의 정보 제공 방법.
제1항에 있어서,

상기 타겟 모델은 완전연결층(fully connected layer)을 포함하고,

상기 완전연결층은 복수의 콘텐츠 임베딩과 상기 복수의 콘텐츠 임베딩 각각에 대응하는 라벨을 기반으로 학습되는, 전자 장치의 정보 제공 방법.
제1항에 있어서,

상기 선별 정보는 간이 정신 상태 검사(Mini-Mental State Examination; MMSE)와 연관된 스코어를 포함하는, 전자 장치의 정보 제공 방법.
제1항에 있어서,

상기 결과 정보는 상기 선별 정보에 대응하는 인지 훈련 세트에 대한 정보를 포함하는, 전자 장치의 정보 제공 방법.
정보를 제공하는 전자 장치로서,

적어도 하나의 명령어를 저장하는 메모리; 및

상기 적어도 하나의 명령어를 실행함으로써, 화자의 원본 음성 데이터를 획득하고, 제1 인코더를 사용하여 상기 원본 음성 데이터를 기반으로 화자 식별 임베딩을 획득하고, 제2 인코더를 사용하여 상기 원본 음성 데이터 및 상기 화자 식별 임베딩을 기반으로 콘텐츠 임베딩을 획득하고, 타겟 모델을 사용하여 상기 콘텐츠 임베딩을 기반으로 상기 화자의 선별 정보를 확인하고, 상기 선별 정보를 기반으로 결과 정보를 제공하는 프로세서를 포함하는, 정보를 제공하는 전자 장치.
비일시적 컴퓨터 판독 가능 저장 매체로서,

컴퓨터 판독 가능 명령어들을 저장하도록 구성되는 매체를 포함하고,

상기 컴퓨터 판독 가능 명령어들은 프로세서에 의해 실행되는 경우 상기 프로세서가:

화자의 원본 음성 데이터를 획득하는 단계;

제1 인코더를 사용하여 상기 원본 음성 데이터를 기반으로 화자 식별 임베딩을 획득하는 단계;

제2 인코더를 사용하여 상기 원본 음성 데이터 및 상기 화자 식별 임베딩을 기반으로 콘텐츠 임베딩을 획득하는 단계;

타겟 모델을 사용하여 상기 콘텐츠 임베딩을 기반으로 상기 화자의 선별 정보를 확인하는 단계; 및

상기 선별 정보를 기반으로 결과 정보를 제공하는 단계를 포함하는 전자 장치의 정보 제공 방법을 수행하도록 하는, 비일시적 컴퓨터 판독 가능 저장 매체.