RU2758648C1 - Способ диагностирования пациента на наличие признаков респираторной инфекции посредством cnn с механизмом внимания и система для его осуществления - Google Patents

Способ диагностирования пациента на наличие признаков респираторной инфекции посредством cnn с механизмом внимания и система для его осуществления Download PDF

Info

Publication number
RU2758648C1
RU2758648C1 RU2021105412A RU2021105412A RU2758648C1 RU 2758648 C1 RU2758648 C1 RU 2758648C1 RU 2021105412 A RU2021105412 A RU 2021105412A RU 2021105412 A RU2021105412 A RU 2021105412A RU 2758648 C1 RU2758648 C1 RU 2758648C1
Authority
RU
Russia
Prior art keywords
speech
breathing
cnn
patient
data
Prior art date
Application number
RU2021105412A
Other languages
English (en)
Inventor
Павел Романович Самсонов
Дмитрий Михайлович Михайлов
Вера Васильевна Чуманская
Original Assignee
Общество с ограниченной ответственностью «Кардио Маркер»
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью «Кардио Маркер» filed Critical Общество с ограниченной ответственностью «Кардио Маркер»
Priority to RU2021105412A priority Critical patent/RU2758648C1/ru
Application granted granted Critical
Publication of RU2758648C1 publication Critical patent/RU2758648C1/ru
Priority to PCT/RU2022/050051 priority patent/WO2022186727A1/ru

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01DSEPARATION
    • B01D53/00Separation of gases or vapours; Recovering vapours of volatile solvents from gases; Chemical or biological purification of waste gases, e.g. engine exhaust gases, smoke, fumes, flue gases, aerosols
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics

Abstract

Изобретение относится к области информационных и коммуникационных технологий (ИКТ), специально предназначенных для медицинской диагностики, в частности к способу и системе диагностирования респираторной инфекции на основе анализа акустических данных пациента с помощью методов глубокого обучения. Предложен способ, в котором с помощью метода глубокого обучения решается задача определения по записям кашля, дыхания и речи пациента вероятности наличия у него заражения респираторной инфекцией, оказывающей влияние на дыхательный тракт человека. В заявленном изобретении для диагностирования респираторной инфекции используют реализованный в клиент-серверном приложении алгоритм глубокого обучения посредством сверточных нейронных сетей CNN с механизмом внимания, диагноз ставится на основании решений по трём веткам - кашля, дыхания и речи. Группа изобретений предназначена для обеспечения способа и системы быстрого диагностирования респираторной инфекции у пациента с большой точностью. 2 н. и 8 з.п. ф-лы, 9 ил.

Description

ОБЛАСТЬ ТЕХНИКИ
Изобретение относится к области информационных и коммуникационных технологий (ИКТ), специально предназначенных для медицинской диагностики, в частности к способу и системе диагностирования респираторной инфекции на основе анализа акустических данных пациента с помощью методов глубокого обучения.
УРОВЕНЬ ТЕХНИКИ
Эпидемии инфекционных заболеваний, вызванные респираторными вирусами, стали происходить в мире все чаще. Так, например, мировая эпидемия коронавирусной инфекции COVID-2019, которая вызвана респираторным вирусом SARS-CoV-2, явилась неожиданным испытанием для общественности. Волнообразное распространение вирусной инфекции приводит к неоднородному росту числа зараженных во времени. Резкое увеличение количества пациентов приводит к многократному утяжелению и усложнению труда медицинских работников, которые стремятся оказать помощь каждому больному. Эпидемия коронавирусной инфекции выявила проблемы в области здравоохранения, связанные с невозможностью быстрого перераспределения материальных и человеческих ресурсов по различным регионам, а также показала необходимость минимизировать контакты с потенциально больными гражданами с помощью выполнения экспресс диагностики состояния их физического здоровья.
Данная проблема в настоящее время решается современными средствами, которые предоставляют методы машинного обучения и алгоритмы глубокого обучения, путем снабжения больниц специальным программным обеспечением, способным помочь доктору в диагностировании заболевания, с одной стороны. С другой стороны, посредством предоставления пациенту мобильного приложения, позволяющего выполнить нужное количество аудиозаписей, и передать их системе, находящейся на сервере, которая выполнит их обработку, после чего выдаст заключение о состоянии физического здоровья в контексте наличия либо отсутствия респираторного заболевания, и отправит его на мобильное устройство пользователя.
На сегодняшний день существует несколько подходов, посвященных диагностированию респираторных инфекций. Основная идея большей части из них основана на обработке аудиосигналов человеческого тела: кашля, дыхания, звуков грудной клетки. Помимо обработки звуков тела человека, для диагностирования, например COVID-19, методами глубокого обучения также используются снимки рентгена и компьютерной томографии грудной клетки.
По результатам исследований, проведенным исследовательскими группами, простые бинарные классификаторы данных, в основе которых лежит логистическая регрессия, градиентный бустинг и метод опорных векторов (SVM) дают точность до 82%. Подход, использующий случайный лес, дает точность классификации на тестовых данных, достигающую 66.74%. Некоторые исследователи идут по пути разработки классификатора, представленного тремя ветками и медиатором по аналогии принятия решения на основе независимых мнений нескольких врачей.
Наиболее близким аналогом заявляемого изобретения является техническое решение, раскрытое в заявке US 2019088367 А1. Описан способ определения патологии легких по звуковому респираторному сигналу, который включает ввод множества аудиофайлов, содержащих обучающий набор, в искусственную нейронную сеть (ИНС), при этом множество аудиофайлов содержат сеансы с пациентами с известными патологиями известной степени тяжести. Способ дополнительно включает аннотирование множества аудиофайлов метаданными, относящимися к пациентам с известными патологиям, и анализ множества аудиофайлов, при этом анализ включает извлечение спектрограмм для каждого из множества аудиофайлов и множества дескрипторов, связанных с хрипом и влажным хрипом во множестве аудиофайлов. Кроме того, способ включает обучение ИНС с использованием множества аудиофайлов, спектрограмм, метаданных и множества дескрипторов. Наконец, способ включает определение патологии легких, связанной с новой записью звука, введенной в ИНС.
В отличие от наиболее близкого аналога, в заявленном решении для диагностирования респираторного заболевания на основе анализа акустических данных пациента используют реализованный в клиент-серверном приложении алгоритм глубокого обучения посредством сверточных нейронных сетей CNN с механизмом внимания (attention). Положительный или отрицательный результат наличия у пациента респираторной инфекции, например COVID-19, ставится только при совпадении диагнозов задачи классификации по трем типам акустических данных кашля, дыхания, речи, получаемых от пациента, что снижает вероятность ошибки.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Техническая проблема, на решение которой направлено заявляемое изобретение, заключается в разработке способа и системы диагностирования пациента на наличие признаков респираторной инфекции на основе анализа акустических данных пациента - кашля, дыхания и речи, с использованием алгоритма глубокого обучения посредством CNN с механизмом внимания (attention), и диагноз ставится на основании решений по трем веткам - кашля, дыхания и речи.
Техническим результатом заявляемого изобретения является обеспечение способа и системы быстрого диагностирования респираторной инфекции у пациента с большой точностью.
Указанный технический результат достигается за счет того, что: Способ диагностирования пациента на наличие признаков респираторной инфекции содержит следующие этапы:
- получение от пациента аудиозаписей кашля, дыхания, речи;
- получение трех наборов спектрограмм отдельно для каждой из аудиозаписей кашля, дыхания, речи;
- для каждого из трех наборов спектрограмм дополнительная сегментация набора спектрограмм на отдельные фрагменты с пересечениями по времени, в результате которой получают сегментированную аудиозапись отдельно для каждой из аудиозаписей кашля, дыхания, речи;
- для каждой из трех сегментированных аудиозаписей экстракция из сегментированной аудиозаписи признаков путем обработки полученных фрагментов спектрограмм посредством CNN энкодера;
- для каждой ветки кашля, дыхания, речи осуществляют:
подачу данных, полученных на выходе с CNN энкодера, на вход первого слоя блока внимания для поиска взаимосвязей между различными частями данных; одновременно указанные данные с выхода CNN энкодера поступают на вход второго слоя блока внимания, где они линейно поэлементно умножаются с выходными данными первого слоя блока внимания, и результат подается на вход слоя сверточной нейронной сети CNN с механизмом внимания для выделения существенных взаимосвязей без изменения размерности, и данные, полученные на выходе слоя сверточной нейронной сети CNN с механизмом внимания, передают в полносвязный слой сверточной нейронной сети CNN с механизмом внимания, и на выходе поучают сформированный вектор признаков;
- конкатенация векторов признаков, полученных для каждой ветки кашля, дыхания, речи;
- преобразование полученного в результате конкатенации вектора с применением линейного слоя с гиперболическим тангенсом в качестве его функции активации, в результате которого получают результирующий вектор признаков;
- формирование заключения о наличии признаков респираторной инфекции у пациента на основании результирующего вектора признаков.
В способе может быть дополнительно осуществлена нормализация соответствующих требуемым параметрам аудиозаписей кашля, дыхания, речи, в результате которой получают нормализованные аудиозаписи кашля, дыхания, речи.
В способе может быть осуществлена проверка исходных данных на соответствие требуемым формату данных, частоте дискретизации, битрейту, количеству каналов.
В способе может быть получен набор спектрограмм для аудиозаписи с использованием оконного преобразования Фурье или вейвлет-преобразования.
В способе респираторной инфекцией может являться коронавирусная инфекция (COVID-19).
В способе полученные данные, на основе которых формируют заключение о наличии признаков коронавирусной инфекции (COVID-19) у пациента, могут быть отображены на шкалу значений от 0 до 1, путем применения к указанным данным функции сигмоиды.
Дистанционная автоматизированная система оказания медицинской экспресс помощи по диагностике пациента на наличие признаков респираторной инфекции содержит, по крайней мере, следующее:
- клиентский модуль, с помощью которого осуществляют аудиозапись кашля, дыхания, речи пациента, и передают полученные аудиозаписи на сервер;
- сервер для осуществления обработки полученных аудиозаписей кашля, дыхания, речи пациента, причем
- получают три набора спектрограмм отдельно для каждой из аудиозаписей кашля, дыхания, речи;
- для каждого из трех наборов спектрограмм осуществляют дополнительную сегментацию набора спектрограмм на отдельные фрагменты с пересечениями по времени, в результате которой получают сегментированную аудиозапись отдельно для каждой из аудиозаписей кашля, дыхания, речи;
- для каждой из трех сегментированных аудиозаписей проводят экстракцию из сегментированной аудиозаписи признаков путем обработки полученных фрагментов спектрограмм посредством CNN энкодера;
- для каждой ветки кашля, дыхания, речи осуществляют:
подачу данных, полученных на выходе с CNN энкодера, на вход первого слоя блока внимания для поиска взаимосвязей между различными частями данных; одновременно указанные данные с выхода CNN энкодера поступают на вход второго слоя блока внимания, где они линейно поэлементно умножаются с выходными данными первого слоя блока внимания, и результат подается на вход слоя сверточной нейронной сети CNN с механизмом внимания для выделения существенных взаимосвязей без изменения размерности, и данные, полученные на выходе слоя сверточной нейронной сети CNN с механизмом внимания, передают в полносвязный слой сверточной нейронной сети CNN с механизмом внимания, и на выходе поучают сформированный вектор признаков;
- проводят конкатенацию векторов признаков, полученных для каждой ветки кашля, дыхания, речи;
- преобразуют полученные в результате конкатенации вектора с применением линейного слоя с гиперболическим тангенсом в качестве его функции активации, в результате которого получают результирующий вектор признаков;
- формируют заключения о наличии признаков респираторной инфекции у пациента на основании результирующего вектора признаков;
- передают сформированное заключение о наличии признаков респираторной инфекции у пациента на клиентский модуль для отображения.
В системе респираторной инфекцией может являться коронавирусная инфекция COVID-19.
В системе клиентский модуль может отображать сформированное заключение о наличии признаков коронавирусной инфекции (COVID-19) у пациента на шкалу значений от 0 до 1, путем применения к указанным данным функции сигмоиды.
В системе дополнительно может быть осуществлена нормализация соответствующих требуемым параметрам аудиозаписей кашля, дыхания, речи, в результате которой получают нормализованные аудиозаписи кашля, дыхания, речи.
В системе может быть осуществлена проверка исходных данных на соответствие требуемым формату данных, частоте дискретизации, битрейту, количеству каналов.
В системе может быть получен набор спектрограмм для аудиозаписи с использованием оконного преобразования Фурье или вейвлет-преобразования.
ОПИСАНИЕ ЧЕРТЕЖЕЙ
Реализация изобретения будет описана в дальнейшем в соответствии с прилагаемыми чертежами, которые представлены для пояснения сути изобретения и никоим образом не ограничивают область изобретения.
Изобретение проиллюстрировано фигурами 1 - 9, на которых изображены:
Фиг. 1 - общая архитектура системы.
Фиг. 2 - вейвлет Морле и его первая производная.
Фиг. 3 - функция Фабиуса и ее первая производная.
Фиг. 4- извлечение признаков с применением оконного преобразования Фурье.
Фиг. 5 (а), (б) - извлечение признаков с применением оконного преобразования Фурье, взвешивание.
Фиг. 6 (а), (б) - извлечение признаков с применением оконного преобразования Фурье, разложение единицы.
Фиг. 7 - схема извлечения признаков с применением оконного преобразования Фурье.
Фиг. 8 - архитектура блока внимания, реализованного в системе.
Фиг. 9 - общая схема вычислительного устройства.
ДЕТАЛЬНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ
В приведенном ниже подробном описании реализации изобретения приведены многочисленные детали реализации, призванные обеспечить отчетливое понимание настоящего изобретения. Однако, квалифицированному в предметной области специалисту будет очевидно, каким образом можно использовать настоящее изобретение, как с данными деталями реализации, так и без них. В других случаях хорошо известные методы, процедуры и компоненты не были описаны подробно, чтобы не затруднять излишне понимание особенностей настоящего изобретения.
Кроме того, из приведенного изложения будет ясно, что изобретение не ограничивается приведенной реализацией. Многочисленные возможные модификации, изменения, вариации и замены, сохраняющие суть и форму настоящего изобретения, будут очевидными для квалифицированных в предметной области специалистов.
Настоящее изобретение направлено на оказание экспресс помощи пациенту в ситуации, когда требуется предварительная диагностика заболевания, удовлетворяющая заданным требованиям точности.
Заявленное изобретение представляет собой клиент-серверную систему. Аудиоданные получают на мобильном устройстве пациента или каком-либо ином устройстве сбора аудиоинформации, например, смартфоне, планшете, компьютере, умной колонке и т.д. При этом один пациент передает данные столько раз, сколько это необходимо, и такого типа, который необходим, для анализа системой. Аудиоданные получают на сервере, осуществляют предобработку данных для решения последующей задачи анализа наличия или отсутствия респираторной инфекции. Задачу классификации решают путем применения реализованного в системе алгоритма глубокого обучения посредством CNN с механизмом внимания (attention). Формируют заключение по конкретному пользователю и передают заключение, сформированное системой, на мобильное устройство пользователя либо иным способом, для предоставления пользователю возможности ознакомиться с предварительным заключением, сформированным системой.
Общая архитектура метода CNN с блоком внимания представлена на Фиг. 1. Система решения задачи классификации представлена ансамблем нейронных сетей, которые реализованы в виде трех независимых веток дерева принятия решения, с последующей конкретизацией результатов полносвязными слоями.
На вход системы подаются нормализованные аудиозаписи трех типов: речь, кашель, дыхание. Аудиозапись каждого типа имеет одинаковый процесс как предобработки, так и последующей обработки. Схема процесса обработки каждой записи представлена на Фиг. 1. Каждый тип аудиозаписей параллельно обрабатывается в отдельной ветке дерева принятия решения перед последующим этапом объединения информации для формирования заключения по каждому пациенту [1].
Последовательность предобработки аудиозаписей включает следующие
этапы:
- нормализация: проверка и конвертация параметров аудиозаписи по каждому из трех типов;
- нарезка и извлечение признаков для каждого отдельного окна аудиозаписи;
- получение вектора признаков с помощью CNN с механизмом внимания для полной аудиозаписи.
Проверка и конвертация аудиозаписи.
Аудиозаписи от пользователей поступают в блок обработки. Блок проверяет аудиофайл на соответствие требованиям системы по формату данных, частоте дискретизации, битрейту, количеству каналов. При несовпадении параметров происходит конвертация данных к требуемым параметрам системы.
- перевод аудиодорожки в числовой массив;
- перевод из стерео- в моно- режим;
- ресемплинг к частоте дискретизации 44.1 кГц.
При невозможности конвертации к требуемым параметрам блок генерирует ошибку с указанием невалидных параметров аудиофайла. Нарезка и экстракция признаков.
На этапе экстракции признаков в аудиофайлах выделяются наиболее значимые признаки, которые выражены в виде числового вектора и получены путем сверток из многомерной матрицы (спектрограммы). Экстракция признаков может быть проведена разными способами, например, такими как интегральные преобразования (оконное преобразование Фурье, вейвлет-преобразование, и другие), извлечение i-векторов, скрытые марковские модели, и другие.
Непрерывные интегральные преобразования анализа временных сигналов.
Существуют различные семейства интегральных преобразований нестационарных временных сигналов. Предполагают, что временной сигнал переводится в область частот, где удобнее проводить анализ поведения динамики процесса и проще извлекать числовые характеристики. При этом, существуют различные виды частотно-временных интегральных преобразований, осуществляющих перевод сигнала в частотную область. Помимо преобразования Фурье (FT) в приложениях анализа сигналов применяют также оконное преобразование Фурье (STFT), преобразование Габора (GT), вейвлет преобразование (WT), функцию распределения Вигнера (WDF), и т.д. [2].
Оконное преобразование Фурье (STFT).
По определению, непрерывное оконное преобразование Фурье (1) представимо в виде интеграла:
Figure 00000001
где w(⋅) - оконная функция, позволяющая выполнять селекцию интересующего отрезка времени, и проводить дополнительную обработку внутри него. В случае, когда в качестве оконной функции выбирают функцию Гаусса, оконное преобразование Фурье (STFT) называют преобразованием Габора (GT).
Вейвлет преобразование WT.
Обобщением STFT является вейвлет преобразование. В общем случае, интегральное вейвлет-преобразование (2) записывается в виде:
Figure 00000002
где ядром преобразования является вейвлет функция
Figure 00000003
(⋅), а в самом преобразовании используется ее комплексное сопряжение
Figure 00000003
*(⋅). В то время как оконная функция в STFT зависит от одного параметра т, определяющего сдвиг во времени, вейвлет в CWT зависит от двух параметров а, b которые отвечают за масштаб (сжатие или растяжение ядра преобразования) и сдвиг (трансляцию), соответственно. Например, в качестве ядра
Figure 00000003
(⋅) в медицинских приложениях применяют вейвлет Морле (3), то есть функцию вида:
Figure 00000004
На Фиг. 2 представлена вейвлет функция Морле и ее первая производная.
Кроме того, вейвлет функция должна удовлетворять следующим свойствам [3].
1. Конечность энергии
Figure 00000005
2. Условие допустимости
Figure 00000006
3. Для комплексных вейвлет функций преобразование Фурье должно быть действительным и обращаться в нуль для отрицательных частот.
Отметим, что существуют различные способы построения вейвлет-систем как ортогональных, так и неортогональных. Так, в качестве аппроксимационного базиса для построения различных систем вейвлет функций могут быть использованы бесконечно-дифференцируемые сплайны или атомарные функции [4]. Примеры вычисления количественных характеристик временных сигналов с помощью подобных синтезированных систем вейвлет функций также представлены в [5]. Пример простейшей атомарной функции, совпадающей с функцией Фабиуса на отрезке [0; 2] показан на Фиг. 3.
Отметим, что существуют библиотека визуализации вейвлет систем на Python [6] и библиотека вейвлет-преобразований на Python [7].
Дискретные интегральные преобразования анализа временных сигналов.
В силу дискретности входных данных, возникает необходимость учета конечности числа отсчетов, и, как следствие, появляются дискретные аналоги непрерывных интегральных преобразований, указанных выше.
Дискретный вариант непрерывного оконного преобразования Фурье (DWFT).
Дискретный вариант непрерывного оконного преобразования Фурье (DWFT) принимает вид:
Figure 00000007
где X(k) - дискретная частоты временной последовательности x(n), n - временной индекс, k - частотный индекс, N - количество отсчетов, w(n) - отсчеты оконной функции. При этом, оконная функция может быть выбрана различными способами. Так, в практических приложениях используется окно Ханна, которое определяется следующим образом:
Figure 00000008
Извлечение i-векторов.
Метод i-векторов представляет собой метод выделения и использования вспомогательных признаков. На настоящий момент, класс методов i-векторов является сравнительно новым способом решения задач распознавания объектов различной природы. Первоначально метод i-векторов возник для решения задачи распознавания речи. Идея метода основана на представлении моделей выражений гауссовой смеси λ = {ωi, μi, Σi} (6)
Figure 00000009
При этом, изображение этого выражения также применяется в качестве вектора признаков в языковом классификаторе [8]. Применение оконного преобразования Фурье.
Для примера рассмотрим схему извлечения признаков методом дискретного оконного преобразования Фурье. Стандартная схема применения DWFT состоит в следующем. Из полного сигнала с данными выделяется фрагмент (окно) определенной длины для анализа (Фиг. 4).
Та часть сигнала, которая попала в область интереса, скалярно умножается на некую оконную функцию, т.е. происходит «взвешивание» (Фиг. 5 (а), (б)).
При этом, сумма сдвигов оконной функции Ханна (5) обеспечивает разложение единицы (Фиг. 6 (а), (б)). Однако, в качестве оконных функций можно также использовать вейвлеты и атомарные функции, сумма сдвигов которых также удовлетворяет разложению единицы.
Описанный подход позволяет получить спектрограмму, после чего она разбивается на фрагменты длительности 1 секунда с шагом 0.5 секунд, которые подаются на вход CNN энкодера, одинакового для каждого фрагмента.
При этом, CNN энкодер служит для извлечения (экстракции) репрезентативных (значимых) признаков и уменьшения размерности входных данных в блок внимания. Энкодер состоит из четырех блоков, включающих в себя операцию свертки с ядром фиксированного размера, слой активации с функцией LeakyReLu, метод прореживания с заданной вероятностью исключения нейрона для предотвращения переобучения и батчнормализацию. Энкодер обрабатывает поступившие в качестве входных данных окна спектрограммы и полученные признаки, которые затем подаются на вход блока механизма внимания (Фиг. 7).
CNN с механизмом внимания
Решение задачи классификации представляет собой алгоритм глубокого обучения CNN с механизмом внимания (attention) [9-11], который описан ниже.
CNN с механизмом внимания состоит из CNN энкодера и блока внимания. Каждый отдельный фрагмент аудиозаписи после прохождения через экстракторы признаков попадает в один и тот же энкодер, одинаковый для всех фреймов I_k, k = 1,…,s, результат работы которого является входом для блока внимания (блок Attention layer).
Механизм внимания.
Схема, описывающая механизм внимания реализованной CNN, представлена на Фиг. 8, на примере одной ветки кашля дерева принятия предварительного решения о наличии либо отсутствии заболевания у пользователя.
Входные данные для блока внимания Attention layer представляют собой скалярный вектор, который поступает одновременно на вход слою Attention map и слою Direct multiplication для поиска взаимосвязей между различными частями входных данных. Далее, выход слоя Attention map линейно поэлементно умножается с исходным вектором, и результат подается на вход слою Attentive features, который выделяет существенные взаимосвязи, не изменяя размерности, и передает результат в полносвязный слой. При этом механизм внимания реализуют слои Attention map и Direct multiplication, a CNN с механизмом внимания состоит из CNN энкодера, блока внимания Attention layer, слоя Attentive features и полносвязного слоя FC (Фиг. 8).
Вектор признаков, который получается после прохождения через слои CNN с механизмом внимания, подается на вход полносвязного слоя, который на выходе выдает вероятность заражения пациента респираторной инфекцией, например COVID-19, по шкале от 0 до 1, где 0 - это полностью здоров, а 1 - это абсолютно болен.
Особенности обучения модели.
При обучении модели используется оптимизационный алгоритм adam и происходит снижение скорости обучения алгоритма в 10 раз каждые 100 шагов, а также применяется гладкий косинусный коэффициент скорости обучения.
Описанный метод может быть реализован с использованием любого устройства, имеющего микрофон и способного использовать его на запись (включая, но не ограничиваясь: диктофон, кнопочный мобильный телефон, смартфон, умные часы, терминал, умная колонка и т.п.). Специализированное программное обеспечение, адаптированное под указанное устройство, помогает пользователю выполнить необходимую последовательность шагов для подготовки и записи звуковых файлов. Записанные в файлы данные передаются на сервер с развернутой на нем системой обработки файлов через любые каналы передачи данных. Система на сервере обрабатывает звуковые файлы в соответствии с методом, описанным выше, и передает результат пользователю (или иному адресату (как человеку, так и другой системе, определенному настройкой системы) с использованием адаптируемых форматов и любых доступных каналов связи.
Детальное описание процесса обработки трех типов аудиозаписей от пациента: кашля, дыхания, речи.
- Конвертирование формата исходных данных в используемый в системе формат для хранения и работы с аудиоданными.
- Нормализация данных - приведение параметров аудиосигнала к значениям параметров, используемых в системе.
- Запись нормализованных данных, полученных в результате первичной обработки и нормализации.
- Применение дискретного интегрального преобразования:
- использование оконного преобразования Фурье (или вейвлет-преобразования) для получения набора спектрограмм нормализованных аудиоданных;
- дополнительная сегментация спектрограмм на отдельные фрагменты (окна/фреймы) с пересечениями по времени.
- Экстракция признаков из сегментированных данных:
- к полученным сегментированным данным применяются сверточные нейронные сети CNN, в результате получается набор преобразованных спектрограмм, которые подаются на вход блоку с механизмом внимания;
- на выходе блока с механизмом внимания получается сформированный вектор признаков.
- Конкатенация (объединение) полученных векторов признаков от трех исходных аудиозаписей от пациента: кашля, дыхания, речи.
- Преобразование полученного вектора с применением полносвязного слоя, посредством применения гиперболического тангенса в качестве функции активации.
- Формирование заключения о здоровье пациента:
- однозначное заключение о здоровье пациента производится в бинарном формате (здоров/болен);
- полученные данные отображаются на шкалу значений от 0 до 1, путем применения к данным функции сигмоиды.
Система выполняет сбор и анализ аудиоданных пациента, и осуществляет экспресс диагностику по каждому пациенту, не нарушая законов и других нормативных актов, регулирующих обработку персональных данных пациентов, а также обеспечивает конфиденциальность обрабатываемой в системе медицинской и иной информации.
На Фиг. 9 представлена общая схема вычислительного устройства (N00), обеспечивающего обработку данных, необходимую для реализации заявленного решения.
В общем случае устройство (N00) содержит такие компоненты, как: один или более процессоров (N01), по меньшей мере одну память (N02), средство хранения данных (N03), интерфейсы ввода/вывода (N04), средство В/В (N05), средства сетевого взаимодействия (N06).
Процессор (N01) устройства выполняет основные вычислительные операции, необходимые для функционирования устройства (N00) или функциональности одного или более его компонентов. Процессор (N01) исполняет необходимые машиночитаемые команды, содержащиеся в оперативной памяти (N02). Выполнение вычислительных операций может выполняться как на Центральном вычислительном процессоре (ЦПУ), так и на графических ядрах (GPU).
Память (N02), как правило, выполнена в виде ОЗУ и содержит необходимую программную логику, обеспечивающую требуемый функционал.
Средство хранения данных (N03) может выполняться в виде HDD, SSD дисков, рейд массива, сетевого хранилища, флэш-памяти, оптических накопителей информации (CD, DVD, MD, Blue-Ray дисков) и т.п. Средство (N03) позволяет выполнять долгосрочное хранение различного вида информации.
Интерфейсы (N04) представляют собой стандартные средства для подключения и работы с серверной частью, например, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire и т.п.
Выбор интерфейсов (N04) зависит от конкретного исполнения устройства (N00), которое может представлять собой персональный компьютер, мейнфрейм, серверный кластер, тонкий клиент, смартфон, ноутбук и т.п.
В качестве средств В/В данных (N05) в любом воплощении системы должна использоваться клавиатура. Аппаратное исполнение клавиатуры может быть любым известным: это может быть, как встроенная клавиатура, используемая на ноутбуке или нетбуке, так и обособленное устройство, подключенное к настольному компьютеру, серверу или иному компьютерному устройству. Подключение при этом может быть, как проводным, при котором соединительный кабель клавиатуры подключен к порту PS/2 или USB, расположенному на системном блоке настольного компьютера, так и беспроводным, при котором клавиатура осуществляет обмен данными по каналу беспроводной связи, например, радиоканалу, с базовой станцией, которая, в свою очередь, непосредственно подключена к системному блоку, например, к одному из USB-портов. Помимо клавиатуры, в составе средств В/В данных также может использоваться: джойстик, дисплей (сенсорный дисплей), проектор, тачпад, манипулятор мышь, трекбол, световое перо, динамики, микрофон и т.п.
Средства сетевого взаимодействия (N06) выбираются из устройств, обеспечивающих сетевой прием и передачу данных, например, Ethernet карту, WLAN/Wi-Fi модуль, Bluetooth модуль, BLE модуль, NFC модуль, IrDa, RFID модуль, GSM модем и т.п. С помощью средств (N05) обеспечивается организация обмена данными по проводному или беспроводному каналу передачи данных, например, WAN, PAN, ЛВС (LAN), Интранет, Интернет, WLAN, WMAN или GSM, 3G, 4G, 5G.
Компоненты устройства (N00) сопряжены посредством общей шины передачи данных (N10).
В настоящих материалах заявки представлено предпочтительное раскрытие осуществления заявленного технического решения, которое не должно использоваться как ограничивающее иные, частные воплощения его реализации, которые не выходят за рамки испрашиваемого объема правовой охраны и являются очевидными для специалистов в соответствующей области техники.
Специалисту в данной области техники должно быть понятно, что различные вариации заявляемого способа и системы не изменяют сущность изобретения, а лишь определяют его конкретные воплощения и применения.
Источники
[1] С. Deshpande et. al. Audio, Speech, Language, & Signal Processing for COVID-19: A Comprehensive Overview. 2020. arXiv:2011.14445v1.
[2] Al-Khassaweneh M., Abdelrahman B. A signal processing approach for the diagnosis of asthma from cough sounds. J Med Eng Technol, 2013; 37(3): 165-171.
DOI: 10.3109/03091902.2012.758322.
[3] Jin Y., Angelini E., Laine A. 2005. Wavelets in medical image processing: denoising, segmentation, and registration. Springer, Boston.
DOI: 10.1007/0-306-48551-6_6.
[4] Cooklev Т., Berbecel G.I., Venetsanopoulos A.N. Wavelets and Differential-Dilation Equations. IEEE Transactions on signal processing, 2000; 48(8): 2258-2268.
DOI: 10.1109/78.852007.
[5] Kravchenko V.F., Perez-Meana H.M., Ponomaryov V.I. 2009. Adaptive digital processing of multidimensional signals with applications. Fizmatlit, Moscow.
URL: https://www.elibrary.ru/item.asp?id=19594648.
[6] Визуализатор вейвлетов на Python http://wavelets.pybytes.com/.
[7] Библиотека вейвлетов на Python https://pywavelets.readthedocs.io/.
[8] Tomashenko N.A., Khokhlov Yu.Yu., Larchera A.,
Figure 00000010
Ya., Matveev Yu.N.
Gaussian mixture models for adaptation of deep neural network acoustic models in automatic speech recognition systems. Scientific and Technical Journal of Information Technologies, Mechanics and Optics, 2016; 16(6): 1063-1072.
DOI: 10.17586/2226-1494-2016-16-6-1063-1072.
[9] M. Pahar et. al. COVID-19 Cough Classification using Machine Learning and Global Smartphone Recordings. 2020. arXiv:2012.01926v1.
[10] A. Imran et. al. AI4COVID-19: Al Enabled Preliminary Diagnosis for COVID-19 from Cough Samples via an App.2020. arXiv:2004.01275v6.
[11] J. Amoh et. al. Deep Neural Networks For Identifying Cough Sounds. 2016. 10(5), 1003-1011.
DOI: 10.1109/TBCAS.2016.2598794.

Claims (32)

1. Способ диагностирования пациента на наличие признаков коронавирусной инфекции COVID-19, содержащий следующие этапы:
- получение от пациента аудиозаписей кашля, дыхания, речи;
- проверка аудиозаписей кашля, дыхания, речи на соответствие параметрам системы и получение соответствующих параметрам системы аудиозаписей кашля, дыхания, речи;
- получение трех наборов спектрограмм отдельно для каждой из соответствующих параметрам системы аудиозаписей кашля, дыхания, речи;
- для каждого из трех наборов спектрограмм дополнительная сегментация набора спектрограмм на отдельные фрагменты с пересечениями по времени, в результате которой получают сегментированную аудиозапись отдельно для каждой из аудиозаписей кашля, дыхания, речи;
- для каждой из трех сегментированных аудиозаписей экстракция из сегментированной аудиозаписи признаков путем обработки полученных фрагментов спектрограмм посредством CNN энкодера;
- для каждой ветки кашля, дыхания, речи осуществляют:
подачу данных, полученных на выходе с CNN энкодера, на вход первого слоя блока внимания для поиска взаимосвязей между различными частями данных; одновременно указанные данные с выхода CNN энкодера поступают на вход второго слоя блока внимания, где они линейно поэлементно умножаются с выходными данными первого слоя блока внимания, и результат подается на вход слоя сверточной нейронной сети CNN с механизмом внимания для выделения существенных взаимосвязей без изменения размерности, и данные, полученные на выходе слоя сверточной нейронной сети CNN с механизмом внимания, передают в полносвязный слой сверточной нейронной сети CNN с механизмом внимания и на выходе получают сформированный вектор признаков;
- конкатенация векторов признаков, полученных для каждой ветки кашля, дыхания, речи;
- преобразование полученного в результате конкатенации вектора с применением линейного слоя с гиперболическим тангенсом в качестве его функции активации, в результате которого получают результирующий вектор признаков;
- формирование заключения о наличии признаков коронавирусной инфекции COVID-19 у пациента на основании результирующего вектора признаков.
2. Способ по п. 1, характеризующийся тем, что дополнительно осуществляют нормализацию соответствующих параметрам системы аудиозаписей кашля, дыхания, речи, в результате которой получают нормализованные аудиозаписи кашля, дыхания, речи.
3. Способ по п. 1, характеризующийся тем, что проверяют аудиозаписи кашля, дыхания, речи на соответствие следующим параметрам системы: формату данных, частоте дискретизации, битрейту, количеству каналов.
4. Способ по п. 1, характеризующийся тем, что получают набор спектрограмм для аудиозаписи с использованием оконного преобразования Фурье или вейвлет-преобразования.
5. Способ по п. 1, характеризующийся тем, что полученные данные, на основе которых формируют заключение о наличии признаков коронавирусной инфекции (COVID-19) у пациента, отображаются на шкалу значений от 0 до 1, путем применения к указанным данным функции сигмоиды.
6. Дистанционная автоматизированная система оказания медицинской экспресс-помощи по диагностике пациента на наличие признаков коронавирусной инфекции COVID-19, содержащая, по крайней мере, следующее:
- клиентский модуль, с помощью которого осуществляют аудиозапись кашля, дыхания, речи пациента и передают полученные аудиозаписи на сервер;
- сервер для осуществления обработки полученных аудиозаписей кашля, дыхания, речи пациента, причем
- проверяют аудиозаписи кашля, дыхания, речи на соответствие параметрам системы и получение соответствующих параметрам системы аудиозаписей кашля, дыхания, речи;
- получают три набора спектрограмм отдельно для каждой из соответствующих параметрам системы аудиозаписей кашля, дыхания, речи;
- для каждого из трех наборов спектрограмм осуществляют дополнительную сегментацию набора спектрограмм на отдельные фрагменты с пересечениями по времени, в результате которой получают сегментированную аудиозапись отдельно для каждой из аудиозаписей кашля, дыхания, речи;
- для каждой из трех сегментированных аудиозаписей проводят экстракцию из сегментированной аудиозаписи признаков путем обработки полученных фрагментов спектрограмм посредством CNN энкодера;
- для каждой ветки кашля, дыхания, речи осуществляют:
подачу данных, полученных на выходе с CNN энкодера, на вход первого слоя блока внимания для поиска взаимосвязей между различными частями данных; одновременно указанные данные с выхода CNN энкодера поступают на вход второго слоя блока внимания, где они линейно поэлементно умножаются с выходными данными первого слоя блока внимания, и результат подается на вход слоя сверточной нейронной сети CNN с механизмом внимания для выделения существенных взаимосвязей без изменения размерности, и данные, полученные на выходе слоя сверточной нейронной сети CNN с механизмом внимания, передают в полносвязный слой сверточной нейронной сети CNN с механизмом внимания и на выходе получают сформированный вектор признаков;
- проводят конкатенацию векторов признаков, полученных для каждой ветки кашля, дыхания, речи;
- преобразуют полученные в результате конкатенации вектора с применением линейного слоя с гиперболическим тангенсом в качестве его функции активации, в результате которого получают результирующий вектор признаков;
- формируют заключения о наличии признаков респираторной инфекции у пациента на основании результирующего вектора признаков;
- передают сформированное заключение о наличии признаков коронавирусной инфекции COVID-19 у пациента на клиентский модуль для отображения.
7. Система по п. 6, характеризующаяся тем, что клиентский модуль отображает сформированное заключение о наличии признаков коронавирусной инфекции (COVID-19) у пациента, на шкалу значений от 0 до 1, путем применения к указанным данным функции сигмоиды.
8. Система по п. 6, характеризующаяся тем, что дополнительно осуществляют нормализацию соответствующих параметрам системы аудиозаписей кашля, дыхания, речи, в результате которой получают нормализованные аудиозаписи кашля, дыхания, речи.
9. Система по п. 6, характеризующаяся тем, что проверяют аудиозаписи кашля, дыхания, речи на соответствие следующим параметрам системы: формату данных, частоте дискретизации, битрейту, количеству каналов.
10. Система по п. 6, характеризующаяся тем, что получают набор спектрограмм для аудиозаписи с использованием оконного преобразования Фурье или вейвлет-преобразования.
RU2021105412A 2021-03-03 2021-03-03 Способ диагностирования пациента на наличие признаков респираторной инфекции посредством cnn с механизмом внимания и система для его осуществления RU2758648C1 (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2021105412A RU2758648C1 (ru) 2021-03-03 2021-03-03 Способ диагностирования пациента на наличие признаков респираторной инфекции посредством cnn с механизмом внимания и система для его осуществления
PCT/RU2022/050051 WO2022186727A1 (ru) 2021-03-03 2022-02-15 Диагностика респираторной инфекции посредством cnn с механизмом внимания

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2021105412A RU2758648C1 (ru) 2021-03-03 2021-03-03 Способ диагностирования пациента на наличие признаков респираторной инфекции посредством cnn с механизмом внимания и система для его осуществления

Publications (1)

Publication Number Publication Date
RU2758648C1 true RU2758648C1 (ru) 2021-11-01

Family

ID=78466724

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2021105412A RU2758648C1 (ru) 2021-03-03 2021-03-03 Способ диагностирования пациента на наличие признаков респираторной инфекции посредством cnn с механизмом внимания и система для его осуществления

Country Status (2)

Country Link
RU (1) RU2758648C1 (ru)
WO (1) WO2022186727A1 (ru)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115497502A (zh) * 2022-11-07 2022-12-20 图灵人工智能研究院(南京)有限公司 基于人体表征判别新冠感染的方法、系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070118054A1 (en) * 2005-11-01 2007-05-24 Earlysense Ltd. Methods and systems for monitoring patients for clinical episodes
US20100179438A1 (en) * 2006-11-01 2010-07-15 Biancamed Limited System and method for monitoring cardiorespiratory parameters
US20190088367A1 (en) * 2012-06-18 2019-03-21 Breathresearch Inc. Method and apparatus for training and evaluating artificial neural networks used to determine lung pathology
TW201934082A (zh) * 2018-02-06 2019-09-01 財團法人工業技術研究院 肺音監測裝置及肺音監測方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070118054A1 (en) * 2005-11-01 2007-05-24 Earlysense Ltd. Methods and systems for monitoring patients for clinical episodes
US20100179438A1 (en) * 2006-11-01 2010-07-15 Biancamed Limited System and method for monitoring cardiorespiratory parameters
US20190088367A1 (en) * 2012-06-18 2019-03-21 Breathresearch Inc. Method and apparatus for training and evaluating artificial neural networks used to determine lung pathology
TW201934082A (zh) * 2018-02-06 2019-09-01 財團法人工業技術研究院 肺音監測裝置及肺音監測方法

Also Published As

Publication number Publication date
WO2022186727A1 (ru) 2022-09-09

Similar Documents

Publication Publication Date Title
Lella et al. Automatic diagnosis of COVID-19 disease using deep convolutional neural network with multi-feature channel from respiratory sound data: cough, voice, and breath
Despotovic et al. Detection of COVID-19 from voice, cough and breathing patterns: Dataset and preliminary results
Hamdi et al. Attention-based hybrid CNN-LSTM and spectral data augmentation for COVID-19 diagnosis from cough sound
Alqudah et al. Classification of heart sound short records using bispectrum analysis approach images and deep learning
Abayomi-Alli et al. BiLSTM with data augmentation using interpolation methods to improve early detection of parkinson disease
Chang et al. DAG-SVM based infant cry classification system using sequential forward floating feature selection
Kranthi Kumar et al. COVID-19 disease diagnosis with light-weight CNN using modified MFCC and enhanced GFCC from human respiratory sounds
Chen et al. Automatic detection of Alzheimer’s disease using spontaneous speech only
Ulukaya et al. MSCCov19Net: multi-branch deep learning model for COVID-19 detection from cough sounds
Milling et al. Is speech the new blood? recent progress in ai-based disease detection from audio in a nutshell
Hoyos-Barceló et al. Efficient computation of image moments for robust cough detection using smartphones
Kumar et al. Ensemble multimodal deep learning for early diagnosis and accurate classification of COVID-19
RU2758648C1 (ru) Способ диагностирования пациента на наличие признаков респираторной инфекции посредством cnn с механизмом внимания и система для его осуществления
Verde et al. A deep learning approach for voice disorder detection for smart connected living environments
Zhang et al. A voice feature extraction method based on fractional attribute topology for Parkinson’s disease detection
Kwon et al. A temporal dependency feature in lower dimension for lung sound signal classification
Shuvo et al. NRC-Net: Automated noise robust cardio net for detecting valvular cardiac diseases using optimum transformation method with heart sound signals
RU2758649C1 (ru) Технология анализа акустических данных на наличие признаков заболевания covid-19
Huang et al. Fast diagnosis of bowel activities
Minami et al. Automatic classification of respiratory sounds based on convolutional neural network with multi images
Wang et al. PCTMF-Net: heart sound classification with parallel CNNs-transformer and second-order spectral analysis
CN116664956A (zh) 基于多任务自动编码器的图像识别方法及系统
Jayalakshmy et al. Bayesian optimized GoogLeNet based respiratory signal prediction model from empirically decomposed gammatone visualization
Özseven A Review of Infant Cry Recognition and Classification based on Computer-Aided Diagnoses
Zewail et al. Resource-Aware Identification Of COVID-19 Cough Sounds Using Wavelet Scattering Embeddings