WO2018151628A1

WO2018151628A1 - Алгоритм комплексного дистанционного бесконтактного мультиканального анализа психоэмоционального и физиологического состояния объекта по аудио- и видеоконтенту

Info

Publication number: WO2018151628A1
Application number: PCT/RU2018/000230
Authority: WO
Inventors: Георгий Игоревич ПЛИЕВ
Original assignee: Георгий Игоревич ПЛИЕВ
Priority date: 2017-02-17
Filing date: 2018-04-11
Publication date: 2018-08-23
Also published as: RU2017105271A; RU2708807C2; RU2017105271A3

Abstract

Изобретение представляет собой алгоритм, систему методов, способ и создаваемый на их основе программно-аппаратный комплекс по дистанционному, бесконтактному, мультиканальному сбору, фиксации, классификации, кластеризации и интерпретации информации тела человека (понимая под ней сигналы и артефакты, считываемые с мимического, голосового, кинесического, вегетативного, окулографического и семантического каналов), получаемой посредством анализа аудио- и видеоконтента; по автоматическому преобразованию и последующей обработке данных через предварительно обученный методами глубокого машинного обучения и искусственных нейронных сетей классификатор; и выдаче на выходе отчета и комплексной оценки психоэмоциональных и общих физиологических состояний индивида в режиме реального времени.

Description

«Алгоритм комплексного дистанционного бесконтактного мультиканального анализа психоэмоционального и физиологического состояния объекта по аудио- и видеоконтенту»

Область техники

Изобретение относится к области нейрокогнитивных исследований и технологий, общей, клинической, пато- и нейропсихологии, психофизиологии, нейробиологии, нейролингвистики, обработки больших данных, компьютерного и машинного зрения, робототехники, глубокого машинного обучения и искусственных нейронных сетей, искусственного интеллекта, а также интернета вещей (1оТ), биоинформатики, индустрии безопасности, подбора персонала, дополненной и виртуальной реальности, медицины, юриспруденции и криминалистики, интеллектуальных систем транспорта, спорта.

Уровень техники

Известны методы, способы, продукты и технологии для «считывания», классификации, интерпретации базовых эмоций человека; диагностики состояния здоровья по внешне наблюдаемым признакам; контактного и дистанционного мониторинга физиологических параметров живого организма, а также смежные технологии (например, анализ поведения, окулография в нейромаркетинге и пр.), которые типологически и функционально сближаются с настоящим Изобретением, но обладают рядом ограничений и существенных недостатков.

- Технология канадской компании NuraLogix и заявки на патенты (Patent applications) под общим названием «System And Method For Detecting Invisible Human Emotion» (США, Канада: WO 2016/049757 Al ; EC: EP 3030151 Al): позиционируются как система и метод для дистанционной неинвазивной детекции невидимых естественных эмоций индивида путем захвата и обработки изображения (image-capture based system) с высокой разрешающей способностью. Система позволяет вести мониторинг изменений концентрации гемоглобина (кислородонасыщения) крови, замерять подкожный кровоток (сеть капилляров лица), фиксировать динамику изменений цвета пикселя в единицу времени. Недостатки: неуниверсальность, моноканальность, выключенность общего физиологического контекста, прямая зависимость от освещения и внешней среды, отсутствие доказательств стабильной работы в обычных, повседневных условиях.

- Технология израильской компании Nemesysco с корпусом выпущенных патентов под названием «Apparatus And Methods For Detecting Emotions» (патент EC EP 1038291 B l): аппаратный комплекс (анализатор) и детекция эмоционального статуса, а также бинарной конструкции «правда/ложь» индивида через послойный анализ эмоционально-окрашенных образцов голоса, его интонационных, а также частотных и тембральных характеристик, громкости и диапазона, собственная интерпретационная решетка и выдача результатов в виде «подвижного графика-кристалла». Недостатки: научная необоснованность многих тезисов, отраженная в публикациях критика со стороны международного научного сообщества, бездоказательность предложенного метода, фактическая неуниверсальность, моноканальность, выключенность общего физиологического контекста.

- Технология корейской компании Samsung Electronics с заявкой на патент под названием «Method and Apparatus for recognizing an emotion of an individual based on Facial Action Units» (США: US 2012/0101735 Al): аппаратный комплекс и метод распознавания индивидуальных эмоций человека путем детекции экспрессий лица, построения 3D полигональных моделей лица по узловым точкам (Action Units). Является одним из множества подобных проектов и патентов, заявляющих о точности, малых искажениях и высокой скорости обработки данных с выдачей результата в виде классификации эмоций по шести ключевым «чистым» категориям и их смеси применительно к тому или иному отрезку времени записи. Недостатки: распространенность метода и его повсеместное внедрение в качестве объективной данности, моно- или биканальность (с учетом глаз), отсутствие внимания к уровню микроэкспрессий, эмоциональным оттенкам и принципиально смешанным/пограничным состояниям, иным физиологическим показателям организма, устарелость фундаментальной нейрокультурной теории эмоций и авторской Системы кодирования лицевых движений П.Экмана и её критика.

Британская технология исследовательского коллектива из Университета Оксфорд с заявкой на патент под названием «Automated Recognition Algorithm for Detecting Facial Expressions)) (США: US 2013/0300900 Al): алгоритм распознавания и видео-аналитическая система для автоматической детекции спонтанных микроэкспрессий человеческого лица краткой длительности. Недостатки: относительная распространенность метода и его повсеместное внедрение, моноканальность, недостаточная проработка концепции и классификации релевантных микровыражений на больших и дифференцированных выборках в отрыве от иных физиологических и психоэмоциональных показателей, отсутствие внимания к эмоциональным оттенкам и принципиально смешанным/пограничным состояниям, опора на устаревающую нейрокультурную теорию эмоций.

- Технология американской компании Simple Emotion Inc. с выпущенным патентом под названием «System and method for recognizing emotional state from a speech signal)) (США: US 201 1/0295607 Al): компьютеризированный метод, софт и система по распознаванию эмоций в голосовом и речевом сигналах, сбор статистической информации для сравнения с лабораторными образцами набора акустических данных, скоринговый подход для нахождения корреляций и разнесения по классифицирующим графам базовых эмоций человека, выдача

з вероятностного результата пользователю. Недостатки: моноканальность, оперирование упрощенной схемой эмоциональных состояний, специфическая научная аргументация, вынесение за скобки общего физиологического состояния индивида и ситуативных контекстов, оказывающих воздействие на функционирование вокально-речевого аппарата человека в конкретный период времени.

Некоторые технологические аспекты оценки эмоциональных состояний человека раскрыты в следующих научных публикациях, которые могут быть включены в уровень техники для описываемого Изобретения:

Система кодирования лицевых движений (СКЛиД) (англ. Facial Action Coding System (FACS): http : //www . paul ekm an . com/prod uct- category/facs/

Beatrice de Gelder, "Emotions and the Body"

Carroll Izard, "The Psychology of Emotions"

Steven Pinker, "The Stuff of Thought: Language as a Window into Human Nature"

Steven Pinker, "The Language Instinct: How the Mind Creates Language":

David Sander (Editor), Klaus Scherer (Editor), "Oxford Companion to Emotion and the Affective Sciences" (Oxford University Press, 2009)

Kenneth Holmqvist, Marcus Nystrom etc., "Eye Tracking: A comprehensive guide to methods and measures" (Oxford University Press, 2015)

Michael Horsley (Editor), Natasha Toon (Editor) etc., "Current Trends in Eye Tracking Research" (Springer, 2014)

Amit Konar, Aruna Chakraborty, "Emotion Recognition: A Pattern Analysis Approach" (Wiley, 2015) Priyanka A. Abhang, Bharti W. Gawali, Suresh C. Mehrotra, "Introduction to EEG- and Speech-Based Emotion Recognition" (Academic Press, 2016)

Rosalind W. Picard, "Affective Computing" (MIT Press, 2000)

В.И.Шаховский, "Лингвистическая теория эмоций", Москва, 2008.

Несмотря на наличие ряда известных и доказавших свою ограниченную прикладную полезность продуктов и решений (например, полиграф), а также разнообразного программного обеспечения, выполняющего функции детекции «правда/ложь», определения простых эмоций (6+1) по фотографии и т.п., имеющих нередко сугубо игровой характер, общедоступной массовой (с ответвлениями в специализированные сегменты) дистанционной бесконтактной точной мультиканальной технологии комплексной диагностики, оценки и анализа психоэмоционального и физиологического состояния (шкалы состояний, включая смешанные, оттенки, степень проявленности, отклонения от нормы и пр.) объекта (с вероятным расширительным толкованием: учитываются не только люди, но и животные) в онлайн-режиме через аудио-видео контент в настоящий момент не имеется, поэтому Изобретение является новым.

В сравнении, например, с известным полиграфом (под которым понимается техническое средство, используемое при проведении инструментальных психофизиологических исследований для синхронной регистрации параметров дыхания, сердечно-сосудистой активности, электрического сопротивления кожи, а также, при наличии необходимости и возможности, других физиологических параметров с последующим представлением результатов регистрации этих параметров в аналоговом или цифровом виде, предназначенном для оценки достоверности сообщённой информации) и программными решениями по биометрии и распознаванию эмоций, описываемое Изобретение является: - мультиканальным, то есть позволяющим одновременно сравнивать данные, поступающие минимум по двум каналам в их различных сочетаниях;

- дистанционным, то есть не требующим непосредственной физической регистрации оцениваемых параметров, что позволяет получать эти параметры из имеющегося аудио-видео контента;

- бесконтактным, неинвазивным;

- более точным;

- высокоскоростным;

- более стабильным;

- более чувствительным;

- резистентным к внешним условиям среды и качеству изначального контента;

- встраиваемым в любые мобильные, облачные и прочие платформы и программно-аппаратным комплексом.

Описание Изобретения

Параллельно с качественным повышением компьютерной грамотности человека и сознательным, повсеместным и порой тотальным (особенно в возрастной категории до 35 лет) перемещением деятельности в интернет-пространство, социальные сети, дополненную и виртуальную реальность (AR/VR), ослабляются практические навыки межличностных коммуникаций, способность к «живому» и непосредственному восприятию, считыванию, распознаванию эмоций, состояний, реакций, концептов и т.д., не опосредованных технологическими решениями и изобретениями. Поэтому критически важным для социального бытования субъекта является возможность компенсировать недостаток подобных компетенций через обращение к соответствующему инструментарию, способному скорректировать, сориентировать, подсказать и помочь - на

б базе психоэмоциональной, физиологической и пр. бесконтактной аналитики - сконструировать максимально эффективные и адекватные моменту поведенческие стратегии, модели (само-)идентификации.

Можно автоматизировать, роботизировать и интеллектуализировать (используя элементы «слабого», прикладного искусственного интеллекта) многие операции и функции, позволяющие сводить воедино human data (то есть всю преобразованную совокупность сигналов и артефактов человеческого тела, отражающего внутренний процессинг и механизмы мозга, сознания и психики) и получать в конце цикла обработки- интерпретации релевантные и верифицируемые результаты. Оптимальным способом собрать human data представляется обращение к аудиовизуальному потоковому и прочему контенту, где данные «снимаются» непрерывно и динамически, что позволяет избежать ложных или крайне приблизительных ходов и выводов, возникающих из статики образа, мгновенной фиксации изображения «только здесь и сейчас» (фотография) без предыстории и инерционного шлейфа состояния, ухваченного в отдельно взятом ракурсе.

Изобретение используется для сбора, регистрации, структурирования, иерархизации, кластеризации, обработки и интерпретации информации тела человека (физиологические, акустические и оптические данные - «human data») при помощи технологий искусственных нейронных сетей и потенциала глубокого машинного обучения. Проводится анализ и даётся комплексная оценка психоэмоционального и физиологического состояния субъекта по всему полю функционально значимых каналов, характеристик, установленных отклонений от среднестатистической нормы. Изобретение может также применяться для измерения уровня стресса, бесконтактной детекции лжи, выявления признаков, свидетельствующих о ранних/латентных фазах и/или рисках социально критических заболеваний (болезни Паркинсона, Альцгеймера), психических заболеваний и патологий (шизофрении и пр поражения речевых отделов коры головного мозга (афазия) и проч.

Искомое изобретение (алгоритм, система методов) представляет собой способ аудио- и видеорегистрации, обработки и последующего анализа информации тела человека, который заключается в следующем:

1. Производится сбор и фиксация (посредством любых доступных дистанционных, неинвазивных аудио-видео средств) оптических и акустических данных об объекте (живом организме). Сбор может вестись как непосредственно путём наблюдения, съемки, регистрации, так и до начала анализа (способ предусматривает возможность работы с предварительно полученной и записанной информацией);

2. На основании входящих («input») оптических и акустических данных выявляются признаки, соотносимые с базовыми ячейками интерпретативных решеток каждого канала (например, данные мимики X свидетельствуют о состоянии Y), разработанных концептуально и методически и взятых за референтные в ходе НИР, проявления внутреннего психоэмоционального и общего физиологического состояния объекта (живого организма);

3. Выявленные частные (поканальные) признаки проявления внутреннего психоэмоционального и физиологического состояния объекта (живого организма) интегрируются в синтетическую скоринговую модель и обрабатываются посредством обученного классификатора (нейросеть), при этом система самостоятельно находит межканальные связи,паттерны и расхождения, подтверждает или опровергает наличие классифицирующих общее состояние организма признаков, принимает статистически вероятное решение. Обучение классификатора и обработка информации осуществляются относящимся к Изобретению способом; 4. Генерируется и выдаётся («output») в виде диаграммы, шкалы или иной визуализации показателей и значений комплексная информация о психоэмоциональном состоянии (доминирующие эмоции, уровень стресса, правда/ложь, утомление, возбужденность и т.д.) и об общем физиологическом состоянии объекта (живого организма).

Указанный способ реализуется путем применения предварительно обученного классификатора. Обученный классификатор представляет собой результат предварительно проведенной кластеризации с использованием математико-статистических методов глубокого машинного обучения и архитектур искусственных нейронных сетей всех возможных психоэмоциональных и физиологических состояний объекта (условно чистых и смешанных), составляющих их признаков и артефактов, динамики проявления признаков во времени.

Настоящий способ находит своё практическое воплощение в Программно-аппаратном комплексе, сконструированном на основе и вокруг технологического ядра.

Соответственно, на первом шаге необходим входящий поток оптической и акустической информации, который группируется в следующие каналы:

1. Мимический (мимика): экспрессии и микроэкспрессии лица;

2. Голосовой (акустический): вокально-акустический и речевой сигналы;

3. Окулографический и окуломоторный (глаза): глазодвигательная активность, моргание, направление взора, размеры зрачка;

4. Проксемический и кинесический: язык тела, жестикуляция, положение тела в пространстве, пространственная и временная знаковая система общения; 5. Сигналы вегетативной нервной системы: частота сердечных сокращений (ЧСС), электрическая активность кожи (ЭАК/КГР), плетизмограмма (кровенаполнение и сосудистые реакции организма), артериальное давление, электрокардиограмма (ЭЭГ), температура тела, спирометрия (измерение объёмных и скоростных показателей дыхания);

6. Семантический (контент-анализ и контекст речи).

Классификация и обработка признаков проявления внутреннего психоэмоционального и общего физиологического состояния объекта (живого организма) происходит путем использования одного или комбинации нескольких методов, описанных в настоящей заявке.

Настоящее изобретение включает в себя способы комбинации каналов с целью достижения наиболее корректной и адекватной классификации психоэмоциональных и физиологических состояний с наименьшими затратами, так как применение сразу всех каналов приводит к чрезмерным допущениям, искажениям и, как следствие, совокупным издержкам, а применение некоторых сочетаний может быть неэффективным. Методы классификации и обработки признаков проявления внутреннего психоэмоционального и общего физиологического состояния объекта (живого организма) обуславливают только определенные сочетания каналов, при которых достигается искомый технический результат:

1. Мимический + Голосовой;

2. Мимический + Окулографический и окуломоторный;

3. Мимический + Проксемический и кинесический;

4. Мимический + Сигналы вегетативной нервной системы;

5. Мимический + Семантический;

6. Голосовой + Окулографический и окуломоторный;

7. Голосовой + Проксемический и кинесический;

ю 8. Голосовой + Сигналы вегетативной нервной системы;

9. Голосовой + Семантический;

10. Окулографический и окуломоторный + Проксемический и кинесический;

1 1. Окулографический и окуломоторный + Сигналы вегетативной нервной системы;

12. Окулографический и окуломоторный + Семантический;

13. Проксемический и кинесический + Сигналы вегетативной нервной системы;

14. Проксемический и кинесический + Семантический;

15. Сигналы вегетативной нервной системы + Семантический.

Отдельные парные сочетания ранее применялись в исследованиях и изобретениях (например, рабочей в современной науке является и активно разрабатывается диада «голосовой + семантический»), однако только максимальное количество комбинаций (в том числе относящихся к ноу-хау Изобретения) позволяют добиться требуемой мультимодальности, эффективности и точности анализа состояний объекта (живого организма). С технической точки зрения задача мультиканальной фиксации (при этом принципиально неинвазивной, дистанционной и бесконтактной, что предопределило отсутствие в нашем случае одного и регулярно используемого канала сбора данных: ЭЭГ - регистрации электроэнцефалограммы головного мозга с использованием точечных электродов) состояний до сих пор является достаточно сложной, требующей абсолютно точной синхронизации всех элементов оборудования в едином временном контуре, многопоточной формализованной записи данных в каждом канале с отсутствием задержек и минимизацией шумов, искажающих сигналы, тонкой настройки специализированного инструментария. Несмотря на наличие некоторых базовых алгоритмов (восходящих, например, в окулографии к 1970-80-м гг.), вплоть до середины 2010-х годов постановка подобных экспериментальных сессий оказывалась затруднительной, поскольку в свободном доступе не имелось высокочувствительного интеллектуального софта и аппаратных средств (hardware) лабораторного и коммерческого типов, обеспечивающих необходимый уровень и качество распознания, считывания и трансляции на сервер/в облако динамически собираемых данных человеческого тела (в частности, «продвинутых» айтрекинговых систем, носимых девайсов для измерения физиологических параметров, MS Kinect и аналогов для улавливания движений и жестов и т.п.). Поскольку мультиканальные данные в требуемом для анализа качестве не собирались (исследовательские команды делали ставку, как правило,на моно- или биканальность, прежде всего мимику и голос, и максимально простые теории вроде «шести базовых эмоций плюс нейтральное состояние»), то и классификаторы на них не обучались. Переход к мультимодальности вызван как «дозреванием» технических средств (включая развитие сверхточных нейронных сетей в проектах глубокого обучения), оказывающихся теперь в распоряжении исследователей, так и постепенным пересмотром устоявшихся научных концепций ввиду их недостаточности и наличия критического числа допущений генерализирующего и универсализирующего свойства, опровергаемых новейшими полевыми экспериментами (например, https://naked- science.ru/article/sci/vyrazheniya-lic-okazalis-neuniversalny).

Изобретение позиционируется как универсальное, максимально инвариантное к этническим, национальным, культурным, социальным, гендерным, возрастным и прочим различиям.

Алгоритм метода классификации и обработки признаков проявления внутреннего психоэмоционального и общего физиологического состояния объекта (живого организма) заключается в следующем:

Оценка = F (паттерны канала 1 + паттерны канала 2 + ... + паттерны канала п, где под паттерном понимается повторяющийся шаблон, прослеживаемая закономерность проявления признаков в каждом канале);

- Оценка - внутреннее психоэмоциональное и общее физиологическое состояние объекта;

F(x) - интерпретация текущего набора выявленных паттернов.

Промежуточным этапом применения метода является формирование матрицы классов состояний объектов, в которой фиксируются паттерны с указанием типа канала и времени регистрации.

Интерпретация состояния матрицы является ключевой частью метода. Набор данных, собранный в ходе экспериментальной серии, содержит множество возможных состояний матрицы, эти данные были уже кластеризированы в рамках эксперимента благодаря фиксации физиологических проявлений и проведенной специалистами разметки поведенческого анализа. Решение задачи классификации (обучение с учителем, т.н. «supervised learning») позволяет получить обученный классификатор. Обучение проводилось на массиве собранных и кластеризированных мультимодальных данных: было создано две базы данных (информационных массива), условно обозначенных, например, как «humandatel» и «humandate2», разница между ними сводилась к объему собранных данных, при этом humandate2 - корпус, на котором выполнялось обучение классификатора (2/3 всего объема), a humandatel - корпус, на котором проверялась работа алгоритма (1/3 от всего объема).

После запуска программы классификатор обучился на базе humandate2, затем определил, насколько точно классифицированы данные из базы humandatel .

Метод обучения на малой выборке (до 100 человек) относится к числу классических и уже устоявшихся в практике проектов типа deep learning. Если свести его описание к нескольким пунктам, то получается следующая логическая цепочка:

Искусственная нейронная сеть состоит из элементов, называемых математическими нейронами. Математический нейрон имеет несколько входов и один выход. На вход нейрона поступают сигналы, каждый вход в свою очередь имеет вес. Линейная комбинация входов называется состоянием нейрона.

Нейроны, составляющие сеть, разбиты на группы, называемые слоями. В сетях прямого распространения сигнал проходит послойно в одном направлении - от входа к выходу. Нейроны одного слоя активируются одновременно, причем каждый нейрон может иметь связи с нейронами следующего слоя, а связь нейрона на самого себя (петли) и/или связи с предыдущими слоями (обратные связи) в этой схеме отсутствуют.

Первый слой называется входным или распределительным, нейроны этого слоя не изменяют сигнал и просто распределяют его нейронам второго слоя. Второй и следующие за ним слои называются обрабатывающими и выполняют работу по преобразованию входного сигнала.

Обучение нейронной сети — это настройка весов в соответствии с учебным множеством, и важным элементом этой процедуры является способ оценки работы сети или функция потери. В качестве функции потери для нейронных сетей обычно используется среднеквадратичная ошибка (MSQE)

Введя функцию потери, мы теперь можем формально поставить задачу обучения классификатора следующим образом: процедура обучения нейронной сети— это минимизация функции потери в пространстве весов. В нашем случае нейронная сеть позволяет на основе обучающей выборки создать классификатор, который комбинацию выявленных паттернов в различных каналах будет относить к известному состоянию с определенной степенью вероятности. Таким образом, введенное выше понятие «интерпретация матрицы классов состояний» - это еще один классификатор нейросети, интерпретирующий выявленные другими классификаторами нейросетей паттерны в каждом из каналов.

По итогу лабораторных исследований точность классификации составила порядка 84,199%, ложные или некорректные результаты были получены не более чем в 15,801% случаев. Здесь необходимо отметить, разумеется, что указанные цифры - итог последовательной научно- исследовательской теоретической, прикладной экспериментальной работы и прототипирования в условно идеальных, предварительно заданных и контролируемых лабораторных условиях. Испытания действенности полученного алгоритма на более широкой выборке (около 1500 человек) испытуемых в максимально естественных ситуативных обстоятельствах и разнообразных условиях среды будут проведены далее (2017 г.) с фокусом на конкретно-продуктовые и отраслевые технологические решения, что будет отражено в последующих патентных заявках.

Метод использует инструменты математической статистики, нейронных сетей, глубинное обучение {«deep learnings) для определения схожести найденной матрицы классов состояний с соответствующим набором матриц, построенных в рамках создания набора данных для обучения классификатора.

Анализ видео- и аудио-фрагмента состоит из следующих блоков:

1. Выявление признаков (feature extraction).

2. Очистка признаков (feature reduction).

3. Выявление паттернов (pattern recognition) в каждом канале и разнесение их по классам состояний (pattern classification).

4. Интерпретация матрицы классов состояний.

Процесс сводится к обозначенным итерациям: в каждом из каналов на статистически релевантной выборке из группы распознанных и очищенных признаков выявляются характерные паттерны, относимые к различным классам психоэмоциональны и физиологических состояний с разной степенью вероятности, вместе образующие совокупность - множество, закладываемое в матрицу классов состояний. В случае если данные о состояниях противоречат друг другу, задача точной дефиниции психоэмоционального и физиологического состояния объекта требует интерпретации, когда определяется, насколько и в какой мере каждый канал соотносится с данными других каналов в конкретном аудиовизуальном фрагменте.

Это позволяет в рамках скоринговой модели зафиксировать, данным какого/каких каналов в рассматриваемом эпизоде можно доверять, а каким - нет. Интерпретация матрицы классов состояний - это побочный эффект от большого числа анализируемых каналов, в каждом из которых в тех или иных временных промежутках возможно наличие помех, шумов, либо уникальных признаков, неизвестных для модели, что искажает собираемые данные.

Метод может использоваться как на потоковых данных, с online выдачей оценки, так и на готовых данных (под которыми понимаются, например, записанные/скачанные видеоролики, вручную или автоматически выгружаемые в облако, с последующей выдачей оценки потребителю в виде сформированного отчета со статистикой).

Изобретательский уровень

Подавляющее большинство алгоритмических моделей, программных продуктов на их основе и изобретений в указанной области оперируют преобразованными данными {human data), считываемыми с одного или нескольких (не более трёх) телесных каналов (напр., только мимика, только акустика, только окулография (айтрекинг), или же мимика+айтрекинг, акустика+речь и т.п.). Принципиально мультиканальное (более шести основных каналов в сбалансированной комбинации, выделенной в рамках системного метода), комплексное, интеллектуальное (с использованием предварительно обученного классификатора, искусственных нейронных сетей, компьютерного зрения и глубокого машинного обучения), дистанционное, бесконтактное, высокоточное (более 80%), скоростное (меньшие совокупные временные затраты на процедуру приема-анализа-выдачи результата), достоверное и верифицируемое решение по оценке психоэмоционального (включая эмоциональный фон) и общего физиологического (включая состояние здоровье и детекцию возможных отклонений от нормы) состояния объекта в динамике через массовый аудио-видео потоковый контент в настоящий момент отсутствует.

Экспериментальные данные, подтверждающие промышленную применимость

Данные, полученные в рамках экспериментальной серии, позволяют говорить о степени достоверности метода интерпретации психоэмоционального и физиологического состояния по наблюдаемым в рамках обозначенных каналов реакциям как о превышающей 80% (на выборке из 30 человек) достоверности предсказания. На примере ниже дан график, отражающий интегрированный показатель физиологической реакции (ЧСС, Плетизмограмма, КГР, АД) одного испытуемого длительностью 60 сек. На соответствующем этому графику видеофрагменте программно-аппаратным комплексом были выявлены паттерны в рамках трех каналов (мимика, голос, окулография), относящиеся к классу стрессовой реакции. Время регистрации паттернов 50,920 сек - 53,880 сек. График интегрированного показателя показывает, что соответствующая стрессовая физиологическая реакция у испытуемого наблюдалась в границах 50,400 сек - 54,600 сек.

В рамках всей выборки длительностью 31 :22: 14,960 физиологическая регистрация стресса была зарегистрирована в 481 случае общей длительностью 00:42:00,440. В свою очередь Программно- аппаратный комплекс выявил соответствующие стрессу паттерны в 1 173 видеофрагментах (889 в канале мимика, 284 в канале окулографии) и в 350 аудиофрагментах, общей длительностью в 00:39: 10,500 сек и 00:31 : 19,000 соответственно. В итоге из 481 случая Программно-аппаратный комплекс выявил 405 случаев, указав на 716 фрагментов, попадающих в границы фрагментов, зарегистрированных физиологически.

Таким образом, вероятность предсказания наличия стресса у респондента по видео- и аудиоматериалам методом, реализованным в прототипе Изобретении, составляет 84,199%.

Схожие данные были получены в серии подобных экспериментов.

В отношении более сложных психоэмоциональных и физиологических реакций, а также классифицированных состояний, исходя из оценки набора паттернов в различных каналах, предварительный расчет показывает больший разброс значения вероятности правильного обнаружения подобных состояний в сравнении с базовыми эмоциями. Значимый порог в 66% преодолевается уточнением обучающей выборки, а именно увеличением её объема и дифференциацией.

Примеры применения и описание кейсов с использованием

Искомое изобретение (алгоритм, система методов, программный комплекс) может применяться в различных отраслях и дисциплинах, что влечет за собой типологическую вариативность кейсов. Ограничимся перечислением нескольких практических аспектов промышленного применения Изобретения:

- нейрофизиологические и нейропсихологические исследования: лабораторное аналитическое оборудование (анализаторы);

- нейробиология: оборудование для вычленения корреляций между внешне наблюдаемыми признаками и внутренними процессами (вспомогательный инструментарий для исследования мозга и психики);

- психоанализ, общая и социальная психология: прикладной инструментарий для оценки поведения индивида в определенных ситуативных (в том числе смоделированных, дискурсивных) контекстах;

- юриспруденция и криминалистика: оборудование для судебных экспертиз, профайлинга, дистанционной детекции лжи;

- индустрия безопасности: биометрическое оборудование с дополнительным распознаванием эмоций, психических и физиологических состояний человека в условиях массовых скоплений людей, инфраструктурных объектов (аэропорты, железнодорожные и автовокзалы и т.п.);

- интеллектуальные системы транспорта: встроенные камеры (в руль, приборные доски и т.д.) и софт для определения состояний оператора (водителя авто, ж/д, грузового, авиа- и морского транспорта и пр.) в режиме реального времени, выдача рекомендаций или автоматический перевод в режим автопилотирования;

- нейромаркетинг - продвинутый инструментарий для бесконтактной (скрытой) оценки эмоциональных и физиологических реакций/откликов потребителя на стимул: рекламные ролики, билборды, видеоряд, цветовую гамму, упаковку, дизайн изделия и пр.

- отбор персонала: встроенный софт для бесконтактной (скрытой) оценки кандидатов в ходе очных или дистанционных собеседований;

- видеоагрегаторы: встроенный софт по анализу состояний субъекта на выложенных видеозаписях или в режиме стриминга;

- аудио- и видео-мессенджеры: встроенный софт массового использования для анализа психоэмоциональных и физиологических состояний и реакций собеседника/-ов в режиме коллинга/диалога, в том числе при оказании телемедицинских услуг и дистанционного медицинского консультирования;

- Интернет вещей и масс-маркет: встроенный в телефоны, планшетные компьютеры, часы-браслеты и т.д. софт для определения собственных и собеседника/-ов психоэмоциональных и физиологических состояний и реакций в естественных условиях коммуникации и взаимодействия со средой;

- дополненная и виртуальная реальность, game-индустрия: встроенный в игровые консоли софт, встраивание аналитического софта в шлемы виртуальной реальности и т.д.;

- 40-анимация, киноиндустрия: . инструментарий и софт для считывания и анализа «живых» состояний и реакций субъекта (актера) в заданных сценарных ситуациях с последующим их анимационным воспроизведением (аватары, мультипликационные герои и т.д.);

- медицина: оборудование и софт дистанционной бесконтактной оценки психоэмоциональных и физиологических состояний субъекта, мультиканальный сбор и интерпретация сигнальных данных для генерации предиктивных и прогностических моделей (предпосылки и риски развития социально критических заболеваний - инсульт, инфаркт, болезни Паркинсона и Альцгеймера, шизофрения и расстройства центральной нервной системы, иные отклонения от нормы);

- робототехника: встраивание «распознающего» софта в робототехнические системы, способные - в парадигме самообучения и адаптации форм «слабого» искусственного интеллекта, - корректным и эффективным образом коммуницировать с оператором/потребителем;

- спорт: оборудование и софт для оценки психоэмоциональных и физиологических состояний индивида в условиях высоких нагрузок/перегрузок;

- космос: оборудование и софт для оценки психоэмоциональных и физиологических состояний индивида в условиях стартовых перегрузок/невесомости/работы за пределами орбитальной космической станции;

- affective computing и исследования по искусственному интеллекту: вспомогательный софт, помогающий адекватно смоделировать, транспонировать, воссоздать естественный психоэмоциональный мир человека в «организме» компьютера.

I. Г лоссарий - перечень терминов и их значения

Алгоритм - точный набор инструкций и предписаний, задающих вычислительный процесс, описывающих последовательность действий для достижения результата, решения задачи. Метод - способ достижения какой-либо цели, решения конкретной задачи; совокупность приемов или операций практического или теоретического освоения (познания) действительности.

Способ - совокупность и порядок действий, используемых для решения какой-либо задачи.

Система— совокупность взаимосвязанных элементов, образующих целостность или единство.

Системный подход— направление методологии научного познания, в основе которого лежит рассмотрение объекта как системы: целостного комплекса взаимосвязанных элементов, совокупности взаимодействующих объектов, совокупности сущностей и отношений.

Аудио и видео контент - совокупность аудио- и видеоматериалов любого типа.

Потоковый контент - данные, требующие от пользователей определенной скорости для их воспроизведения. Потоковое содержимое передается пользователям с максимально возможной скоростью, которую поддерживают клиент, серверы и сеть.

Данные {data) - представление фактов и идей в формализованном виде, пригодном для передачи и обработки в некотором информационном процессе.

Состояние - отвлечённое понятие, обозначающее множество устойчивых значений переменных параметров объекта. Состояние характеризуется тем, что описывает переменные свойства объекта, объект в динамике.

Психоэмоциональное состояние — особая форма психических состояний человека с преобладанием эмоционального реагирования по типу доминанты. Эмоция - психический процесс средней продолжительности, отражающий субъективное оценочное отношение к существующим или возможным ситуациям.

Физиология - комплекс естественнонаучных дисциплин, изучающих как жизнедеятельность организма в целом, так и отдельных систем и процессов, органов, клеток, клеточных структур. Физиология стремится раскрыть механизмы регуляции, закономерности жизнедеятельности организма и его взаимодействия с окружающей средой.

Информация тела человека {human data)— совокупность сигналов, внешних проявлений и артефактов человеческого тела, отражающая внутренний процессинг и механизмы функционирования мозга, сознания и психики.

Канал, каналы - локализация отдельных групп сигналов, внешних проявлений и артефактов в определенных зонах человеческого тела.

Мимика, мимический канал - «выразительные движения мышц лица, являющиеся одной из форм проявления тех или иных чувств человека» или «движения мускулатуры в координированных комплексах, отражающие разнообразные психические состояния человека».

Экспрессия - яркое мимическое проявление чувств, эмоций, настроений, мыслей.

Микроэкспрессия - полное, сжатое во времени мимическое выражение эмоции.

Окулография (отслеживание глаз, трекинг глаз; айтрекинг) — определение координат взора («точки пересечения оптической оси глазного яблока и плоскости наблюдаемого объекта или экрана, на котором предъявляется некоторый зрительный раздражитель»).

Окуломоторика - моторика глазодвигательных нервов. Проксемика - область социальной психологии и семиотики, занимающаяся изучением пространственной и временной знаковой системы общения индивида.

инесика, кинесический канал - совокупность телодвижений (жестов, мимики), применяемых в процессе человеческого общения (за исключением движений речевого аппарата).

Язык тела {body language)— знаковые элементы поз и движений различных частей тела, при помощи которых, как и при помощи слов, структурно оформляются и кодируются мысли и чувства, передаются идеи и эмоции.

Акустика - наука о звуке, изучающая физическую природу звука и проблемы, связанные с его возникновением, распространением, восприятием и воздействием, исследующая упругие колебания и волны от самых низких (условно от 0 Гц) до высоких частот.

Речевой аппарат — это совокупность и взаимодействие органов человека, необходимых для производства речи.

Акустический сигнал— возмущение упругой среды, проявляющееся в возникновении акустических колебаний различной формы и длительности.

Речевой сигнал - звук, образуемый произносительным аппаратом человека с целью языкового общения.

Голос - совокупность звуков, возникающих в результате колебания голосовых связок.

Оптика - раздел физики, рассматривающий явления, связанные с распространением электромагнитных волн видимого, инфракрасного и ультрафиолетового диапазонов спектра.

Вегетатика, Вегетативная нервная система - часть нервной системы организма, комплекс центральных и периферических клеточных структур, регулирующих функциональный уровень организма, необходимый для адекватной реакции всех его систем.

Семантика— раздел лингвистики, изучающий смысловое значение единиц языка.

Семантика речи - использование языка, отдельных слов и их частей как средств выражения мыслей, эмоций и чувств, применение их для обозначения предметов, явлений и действий.

Контент-анализ или анализ содержания — стандартная методика исследования в области общественных наук, предметом анализа которой является содержание текстовых массивов и продуктов коммуникативной корреспонденции .

Контекст - условие осмысленного употребления той или иной конкретной языковой единицы в речи (письменной или устной), с учётом её языкового окружения и ситуации речевого общения.

Программный комплекс, программно-аппаратный комплекс - набор технических и программных средств, работающих совместно для выполнения одной или нескольких сходных задач.

Нейронная сеть - теоретическая модель, а также её программное или аппаратное воплощение, построенная по принципу организации и функционирования биологических нейронных сетей — сетей нервных клеток живого организма.

Машинное обучение (Machine learning) — обширный подраздел искусственного интеллекта, математическая дисциплина, использующая разделы математической статистики, численных методов оптимизации, теории вероятностей, дискретного анализа, и извлекающая знания из данных.

Глубинное или глубокое обучение (Deep learning) — набор алгоритмов машинного обучения, которые пытаются моделировать высокоуровневые абстракции в данных, используя архитектуры, состоящие из множества нелинейных трансформаций.

Классификатор - систематизированный перечень наименованных объектов, каждому из которых в соответствии с принципами и основанием классификации дан уникальный код. Классификация объектов производится согласно правилам распределения заданного множества объектов на подмножества (классификационные группировки) в соответствии с установленными признаками их различия или сходства.

МПК A61B 5/00

A61B 5/16

Глоссарий (перечень терминов и их значения) Алгоритм - точный набор инструкций и предписаний, задающих вычислительный процесс, описывающих последовательность действий для достижения результата, решения задачи.

Метод - способ достижения какой-либо цели, решения конкретной задачи; совокупность приемов или операций практического или теоретического освоения (познания) действительности.

Потоковый контент - данные, требующие от пользователей определенной скорости для их воспроизведения. Потоковое содержимое передается пользователям с максимально возможной скоростью, которую поддерживают клиент, серверы и сеть. Данные {data) - представление фактов и идей в формализованном виде, пригодном для передачи и обработки в некотором информационном процессе.

Психоэмоциональное состояние — особая форма психических состояний человека с преобладанием эмоционального реагирования по типу доминанты.

Эмоция - психический процесс средней продолжительности, отражающий субъективное оценочное отношение к существующим или возможным ситуациям.

Информация тела человека {human data) - совокупность сигналов, внешних проявлений и артефактов человеческого тела, отражающая внутренний процессинг и механизмы функционирования мозга, сознания и психики.

Канал, каналы - локализация отдельных групп сигналов, внешних проявлений и артефактов в определенных зонах человеческого тела. Мимика, мимический канал - «выразительные движения мышц лица, являющиеся одной из форм проявления тех или иных чувств человека» или «движения мускулатуры в координированных комплексах, отражающие разнообразные психические состояния человека». Экспрессия - яркое мимическое проявление чувств, эмоций, настроений, мыслей.

Окуломоторика - моторика глазодвигательных нервов.

Проксемика - область социальной психологии и семиотики, занимающаяся изучением пространственной и временной знаковой системы общения индивида.

Кинесика, кинесический канал - совокупность телодвижений (жестов, мимики), применяемых в процессе человеческого общения (за исключением движений речевого аппарата).

Язык тела (body language)— знаковые элементы поз и движений различных частей тела, при помощи которых, как и при помощи слов, структурно оформляются и кодируются мысли и чувства, передаются идеи и эмоции.

Речевой сигнал - звук, образуемый произносительным аппаратом человека с целью языкового общения. Голос - совокупность звуков, возникающих в результате колебания голосовых связок.

Контент-анализ или анализ содержания — стандартная методика исследования в области общественных наук, предметом анализа которой является содержание текстовых массивов и продуктов коммуникативной корреспонденции.

Машинное обучение {Machine learning) — обширный подраздел искусственного интеллекта, математическая дисциплина, использующая разделы математической статистики, численных методов оптимизации, теории вероятностей, дискретного анализа, и извлекающая знания из данных.

Глубинное или глубокое обучение {Deep learning) — набор алгоритмов машинного обучения, которые пытаются моделировать высокоуровневые абстракции в данных, используя архитектуры, состоящие из множества нелинейных трансформаций.

Claims

Формула изобретения «Алгоритм комплексного дистанционного бесконтактного мультиканального анализа психоэмоционального и физиологического состояния объекта по аудио- и видеоконтенту»

1. Способ комплексного дистанционного бесконтактного мультиканального анализа психоэмоционального и физиологического состояния субъекта по аудио-видео данным с использованием комбинаций источников информации, отличающийся тем, что для его применения используют матрицу классов состояний субъектов, состояние которой оценивается с применением обучаемых компьютерных алгоритмов, а интерпретация результатов осуществляется с применением математически- статистических методов, которые оперируют предварительно составленным банком данных, содержащим сведения о паттернах состояния и их оценки.

2. Способ по п.1, отличающийся тем, что для его применения используют матрицу классов состояний субъектов, состояние которой оценивается с применением обучаемых компьютерных алгоритмов, а интерпретация результатов осуществляется с применением математически-статистических методов, которые оперируют предварительно составленным банком данных, содержащим сведения о паттернах состояния и их оценки, при котором в качестве каналов исходных данных используют сочетание мимического и голосового каналов.

3. Способ по п.1 , отличающийся тем, что для его применения используют матрицу классов состояний субъектов, состояние которой оценивается с применением обучаемых компьютерных алгоритмов, а интерпретация результатов осуществляется с применением математически-статистических методов, которые оперируют предварительно составленным банком данных, содержащим сведения о паттернах состояния и их оценки, при котором в качестве каналов исходных данных используют сочетание мимического, окулографического и окуломоторного каналов.

4. Способ по п.1, отличающийся тем, что для его применения используют матрицу классов состояний субъектов, состояние которой оценивается с применением обучаемых компьютерных алгоритмов, а интерпретация результатов осуществляется с применением математически-статистических методов, которые оперируют предварительно составленным банком данных, содержащим сведения о паттернах состояния и их оценки, при котором в качестве каналов исходных данных используют сочетание мимического, проксемического и кинесического каналов.

5. Способ по п.1, отличающийся тем, что для его применения используют матрицу классов состояний субъектов, состояние которой оценивается с применением обучаемых компьютерных алгоритмов, а интерпретация результатов осуществляется с применением математически-статистических методов, которые оперируют предварительно составленным банком данных, содержащим сведения о паттернах состояния и их оценки, при котором в качестве каналов исходных данных используют сочетание мимического канала и канала сигналов вегетативной нервной системы.

6. Способ по п.1, отличающийся тем, что для его применения используют матрицу классов состояний субъектов, состояние которой оценивается с применением обучаемых компьютерных алгоритмов, а интерпретация результатов осуществляется с применением математически-статистических методов, которые оперируют предварительно составленным банком данных, содержащим сведения о паттернах состояния и их оценки, при котором в качестве каналов исходных данных используют сочетание мимического и семантического каналов.

7. Способ по п.1, отличающийся тем, что для его применения используют матрицу классов состояний субъектов, состояние которой оценивается с

зз применением обучаемых компьютерных алгоритмов, а интерпретация результатов осуществляется с применением математически-статистических методов, которые оперируют предварительно составленным банком данных, содержащим сведения о паттернах состояния и их оценки, при котором в качестве каналов исходных данных используют сочетание голосового, окулографического и окуломоторного каналов.

8. Способ по п.1, отличающийся тем, что для его применения используют матрицу классов состояний субъектов, состояние которой оценивается с применением обучаемых компьютерных алгоритмов, а интерпретация результатов осуществляется с применением математически-статистических методов, которые оперируют предварительно составленным банком данных, содержащим сведения о паттернах состояния и их оценки, при котором в качестве каналов исходных данных используют сочетание голосового, проксемического и кинесического каналов.

9. Способ по п.1, отличающийся тем, что для его применения используют матрицу классов состояний субъектов, состояние которой оценивается с применением обучаемых компьютерных алгоритмов, а интерпретация результатов осуществляется с применением математически-статистических методов, которые оперируют предварительно составленным банком данных, содержащим сведения о паттернах состояния и их оценки, при котором в качестве каналов исходных данных используют сочетание голосового канала и канала сигналов вегетативной нервной системы.

10. Способ по п.1, отличающийся тем, что для его применения используют матрицу классов состояний субъектов, состояние которой оценивается с применением обучаемых компьютерных алгоритмов, а интерпретация результатов осуществляется с применением математически-статистических методов, которые оперируют предварительно составленным банком данных, содержащим сведения о паттернах состояния и их оценки, при котором в качестве каналов исходных данных используют сочетание голосового и семантического каналов.

1 1. Способ по п.1, отличающийся тем, что для его применения используют матрицу классов состояний субъектов, состояние которой оценивается с применением обучаемых компьютерных алгоритмов, а интерпретация результатов осуществляется с применением математически-статистических методов, которые оперируют предварительно составленным банком данных, содержащим сведения о паттернах состояния и их оценки, при котором в качестве каналов исходных данных используют сочетание окулографического и окуломоторного канала и проксемического и кинесического канала.

12. Способ по п.1, отличающийся тем, что для его применения используют матрицу классов состояний субъектов, состояние которой оценивается с применением обучаемых компьютерных алгоритмов, а интерпретация результатов осуществляется с применением математически-статистических методов, которые оперируют предварительно составленным банком данных, содержащим сведения о паттернах состояния и их оценки, при котором в качестве каналов исходных данных используют сочетание окулографического и окуломоторного канала и канала сигналов вегетативной нервной системы.

13. Способ по п.1, отличающийся тем, что для его применения используют матрицу классов состояний субъектов, состояние которой оценивается с применением обучаемых компьютерных алгоритмов, а интерпретация результатов осуществляется с применением математически-статистических методов, которые оперируют предварительно составленным банком данных, содержащим сведения о паттернах состояния и их оценки, при котором в качестве каналов исходных данных используют сочетание окулографического и окуломоторного канала и семантического канала.

14. Способ по п.1, отличающийся тем, что для его применения используют матрицу классов состояний субъектов, состояние которой оценивается с применением обучаемых компьютерных алгоритмов, а интерпретация результатов осуществляется с применением математически-статистических методов, которые оперируют предварительно составленным банком данных, содержащим сведения о паттернах состояния и их оценки, при котором в качестве каналов исходных данных используют сочетание проксемического и кинесического канала и канала сигналов вегетативной нервной системы.

15. Способ по п.1, отличающийся тем, что для его применения используют матрицу классов состояний субъектов, состояние которой оценивается с применением обучаемых компьютерных алгоритмов, а интерпретация результатов осуществляется с применением математически-статистических методов, которые оперируют предварительно составленным банком данных, содержащим сведения о паттернах состояния и их оценки, при котором в качестве каналов исходных данных используют сочетание проксемического и кинесического канала и семантического канала.

16. Способ по п.1, отличающийся тем, что для его применения используют матрицу классов состояний субъектов, состояние которой оценивается с применением обучаемых компьютерных алгоритмов, а интерпретация результатов осуществляется с применением математически-статистических методов, которые оперируют предварительно составленным банком данных, содержащим сведения о паттернах состояния и их оценки, при котором в качестве каналов исходных данных используют сочетание семантического канала и канала сигналов вегетативной нервной системы.

17. Способ по п.1, отличающийся тем, что для его применения используют матрицу классов состояний субъектов, состояние которой оценивается с применением обучаемых компьютерных алгоритмов, а интерпретация результатов осуществляется с применением математически-статистических методов, которые оперируют предварительно составленным банком данных, содержащим сведения о паттернах состояния и их оценки, и включает этапы поиска признаков, очистки признаков, поиска паттернов, классификации паттернов, выбора метода интерпретации и выдачи результата.

18. Способ по п.1, отличающийся тем, что для его применения используют матрицу классов состояний субъектов, состояние которой оценивается с применением обучаемых компьютерных алгоритмов, а интерпретация результатов осуществляется с применением математически-статистических методов, которые оперируют предварительно составленным банком данных, содержащим сведения о паттернах состояния и их оценки, при котором по результатам анализа входящих данных с соответствующих каналов рассчитывается один или несколько интегрированных оценочных показателей состояния живого субъекта, которые затем накладываются на матрицу паттернов с целью определения логической области, характеризующей состояние живого субъекта.

19. Способ по п.1, отличающийся тем, что для его применения используют матрицу классов состояний субъектов, состояние которой оценивается с применением обучаемых компьютерных алгоритмов, а интерпретация результатов осуществляется с применением математически-статистических методов, которые оперируют предварительно составленным банком данных, содержащим сведения о паттернах состояния и их оценки, при котором наблюдение и выдача результатов осуществляются в режиме реального времени (мониторинга).

20. Способ по п.1, отличающийся тем, что для его применения используют матрицу классов состояний субъектов, состояние которой оценивается с применением обучаемых компьютерных алгоритмов, а интерпретация результатов осуществляется с применением математически-статистических методов, которые оперируют предварительно составленным банком данных, содержащим сведения о паттернах состояния и их оценки, при котором в состав программно-аппаратного комплекса включается программно- аппаратный модуль машинного видения.

21. Способ по п.1, отличающийся тем, что для его применения используют матрицу классов состояний субъектов, состояние которой оценивается с применением обучаемых компьютерных алгоритмов, а интерпретация результатов осуществляется с применением математически-статистических методов, которые оперируют предварительно составленным банком данных, содержащим сведения о паттернах состояния и их оценки, при котором в состав программно-аппаратного комплекса включается программно- аппаратный модуль сематического распознавания речи.