RU2729147C1

RU2729147C1 - Способ автоматизированной оценки качества распознавания речи пациентом

Info

Publication number: RU2729147C1
Application number: RU2020112853A
Authority: RU
Inventors: Валерий Степанович Сироткин; Владимир Владимирович Ханыков
Original assignee: Общество С Ограниченной Ответственностью "Центр Коррекции Слуха И Речи "Мелфон" (Ооо "Цкср "Мелфон")
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2020-08-05

Abstract

Настоящее изобретение относится к области вычислительной техники для автоматизированной оценки качества распознавания речи пациентом. Технический результат заключается в обеспечении автоматической оценки качества распознавания речи пациентом за счет преобразования голосовых ответов пациента в текстовый формат и сравнения результатов с тестовой последовательностью слов. Технический результат достигается за счет выполнения с помощью вычислительного устройства пациента распознавания произнесенного пациентом слова и его преобразования в текстовую форму; фиксации с помощью вычислительного устройства пациента оценки комфортности восприятия аудиосигнала пациента каждого произнесенного слова с помощью шкалы Ликерта; осуществления передачи текстовой формы распознанных слов на центральное вычислительное устройство и данных оценок комфортности восприятия аудиосигнала по шкале Ликерта, и осуществления на центральном вычислительном устройстве сравнения текстовой формы слов, произнесенных пациентом, с соответствующими словами звуковой последовательности, и выполнения расчета уровня разборчивости речи на основании сравнения полученных текстовых данных распознанных слов пациентом со шкалой разборчивости в зависимости от доли верно распознанных слов. 8 з.п. ф-лы, 4 ил.

Description

ОБЛАСТЬ ТЕХНИКИ

Настоящее изобретение относится области медицины, в частности к автоматизированной оценке качества распознавания речи пациентом.

УРОВЕНЬ ТЕХНИКИ

Основной характеристикой любого канала передачи речи, включая слуховой тракт восприятия речи человека, является понятность речи. Для определения этой характеристики в технических системах связи применяют статистический метод с участием большого числа слушателей и дикторов.

Под разборчивостью речи понимают относительное или процентное количество принятых (понятых) элементов речи из общего числа переданных по каналу связи. Элементы речи составляют слоги, звуки, слова, фразы, цифры. В соответствии им поставлены слоговая, звуковая, словесная, смысловая и цифровая разборчивость. Для измерения разборчивости разработаны артикуляционные таблицы слогов, звукосочетаний и слов с учетом встречаемости их в русской речи.

Термином «социальная адекватность слуха» обозначают способность человека воспринимать звуковые стимулы различной сложности (включая речевые) и участвовать в диалоге. У людей с уровнем слуха ниже «социально адекватного» возникают сложности в общении с окружающими, появляются проблемы на работе, в быту. Так называемая стигма тугоухости заставляет людей скрывать свою коммуникативную проблему десятилетиями!

Исследования слуховой функции осуществляется посредством двух групп методов: Субъективных (психоакустических):

- исследование слуха речью;

- исследование слуха при помощи камертонов;

- субъективная аудиометрия.

Объективных:

- объективная (компьютерная) аудиометрия;

- акустическая рефлексометрия;

- тимпанометрия;

- отоакустическая эмиссия;

- безусловные рефлекторные реакции;

условные реакции на звук.

При всех субъективных методах исследования слуха сам испытуемый оценивает: слышит он звук или нет и каким-либо иным способом и сообщает об этом специалисту.

При объективных методах обследования полученные результаты не зависят от желания пациента, регистрация их в большинстве случаев происходит при помощи специальной аппаратуры.

К сожалению, результаты практически всех видов диагностики слуха, кроме прямой оценки разборчивости слуха речью, описывают результаты обследования в специфических терминах (децибелы, аудиограммы, номера пиков кривых и т.д.) и не дают пациенту объективной информации о его «реальной степени социальной адекватности». Все это множество научных терминов не даёт человеку прямого ответа: как хорошо, или как плохо, он слышит и понимает «обычную» речь собеседника в реальном шуме, окружающем его ежедневно. Многочисленные результаты современных высокоточных обследований нужны специалистам; человеку с нарушениями слуха нужно знать только одно - насколько хорошо он понимает речь собеседника в обычных условиях Для такой бытовой комплексной оценки хорошо под-ходит методика оценки удовлетворённости Ликерта.

Самым простым и доступным методом является исследование слуха речью. Достоинства этого метода заключаются в его соответствии основной роли слуховой функции у человека — служить средством речевого общения.

При исследовании слуха речью применяется шепотная и громкая речь. Конечно, оба эти понятия не включают точной дозировки силы и высоты звука, однако некоторые показатели, определяющие динамическую (силовую) и частотную характеристику шепотной и громкой речи, все же имеются.

При исследовании слуха речью весь речевой" материал произносится на резервном воздухе (вдох-выдох-речь). Это способствует уравниванию громкости при предъявлении всего речевого материала у разных лиц.

Важным обстоятельством при исследовании слуха является "заглушение" неисследуемго уха. Есть несколько способов заглушения: вложить в ушной проход ватку с вазелином, ввести в ушной проход палец, смоченный водой, вдавить в слуховой проход козелок уха, потирать тыльную сторону ладони, закрывающей ухо, другой рукой.

Основным преимуществом исследования слуха речью является его «физиологическая понятность» для испытуемого. Основными проблемными препятствиями для широкого применения являются:

- невозможность обеспечения воспроизводимости результатов для разных испытателей, так и для одного испытателя в разное время;

- относительную длительность и трудоёмкость испытаний.

Из существующего уровня техники известны различные подходы по оценке распознаваемости речи. Известно программное обеспечение DIRAC (http://asm-tm.ru/7841- izmerenie-razborchivosti-rechi-v-po-dirac.html), которое позволяет оценить акустическую обстановку помещения на предмет распознаваемости речи внутри него. Однако данный подход не применим для тестирования слуховых возможностей пациентов.

Известен способ диагностики уровня слуха (патент RU 2467691 C1. 27.11.2012). в котором используют речевую таблицу В. Воячека, которую записывают в память цифрового устройства в звуковом формате mp3. После повторения пациентом слов определяют процент правильно повторяемых от общего числа слов таблицы. При этом используют клавиатуру устройства для регистрации ответа пациента при громкостях звукового сигнала 10. 20 и 30% от максимальной мощности наушников соответственно. Затем выявляют снижение процента разборчивости речи. При снижении процента разборчивости речи менее 95% по любому размеру мощности наушников судят о наличии тугоухости.

Недостатком данного решения является недостаточная точность оценки разборчивости речи пациентом. которая заключается в отсутствии автоматизации процесса распознавания ответов пациента. с помощью перевода ответов пациента из голосового формата в текстовый для анализа правильности услышанных слов. в также использовании разнесенной акустической системы. что позволяет более точно смоделировать варианты окружающей обстановки с генерированием шумового сигнала в процессе воспроизведения тестовой последовательности тестовых слов.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Решением существующей технической проблемы в данной области техники является создание нового способа для качественной автоматизированной оценки разборчивости речи пациентом с помощью программно-аппаратного комплекса (ПАК).

Основным техническим результатом является обеспечение автоматической оценки качества распознавания речи пациентом. за счет преобразования голосовых ответов пациента в текстовый формат и сравнения результатов с тестовой последовательностью слов.

Заявленное изобретение осуществляется с помощью реализации способа автоматизированной оценки качества распознавания речи пациентом. выполняемого с помощью программного-аппаратного комплекса (ПАК). содержащего звуковую систему.

вычислительное устройство пациента и центральное вычислительное устройство, при этом способ содержит этапы, на которых:

- формируют с помощью центрального вычислительного устройства звуковую последовательность слов, воспроизводимую с помощью аудиосистемы и шумовой сигнал, причем аудиосистема содержит по меньшей мере четыре динамика, расположенных вокруг пациента и повернутых к нему под углом 45⁰, при этом последовательность слов воспроизводится из динамиков, расположенных перед пациентом, а шумовой сигнал - из всех динамиков аудиосистемы, и после каждого воспроизведенного слова система переходит в режим ожидания отклика от пациента;

- фиксируют отклик пациента, представляющий собой произношение воспроизведенного слова, и осуществляют его запись с помощью средства звукозаписи вычислительного устройства пациента;

- выполняют с помощью вычислительного устройства пациента распознавание произнесенного пациентом слова и его преобразование в текстовую форму;

- фиксируют с помощью вычислительного устройства пациента оценку комфортности восприятия аудиосигнала пациента каждого произнесенного слова с помощью шкалы Ликерта;

- осуществляют передачу текстовой формы распознанных слов на центральное вычислительное устройство и данные оценок комфортности восприятия аудиосигнала по шкале Ликерта;

- осуществляют на центральном вычислительном устройстве сравнение текстовой формы слов, произнесенных пациентом, с соответствующими словами звуковой последовательности, и выполняют расчет уровня разборчивости речи на основании сравнения полученных текстовых данных распознанных слов пациентом со шкалой разборчивости, в зависимости от доли верно распознанных слов.

В одном из частных примеров реализации способа звуковая последовательность слов воспроизводится с уровнем громкости от 32 до 72 дБ, предпочтительно 50-55 дБ.

В другом частном примере реализации способа шумовой сигнал воспроизводится с уровнем громкости на 10 - 15 дБ ниже уровня сигнала звуковой последовательности.

В другом частном примере реализации способа вычислительное устройство пациента представляет собой планшет или смартфон.

В другом частном примере реализации способа средство звукозаписи вычислительного устройства пациента представляет собой встроенный или выносной микрофон.

В другом частном примере реализации способа шумовой сигнал имитирует розовый шум, уличный шум, бытовой шум или офисный шум.

В другом частном примере реализации способа передача данных от устройства пациента на центральное вычислительное устройство осуществляется по беспроводному каналу передачи данных по протоколу Wi-Fi

В другом частном примере реализации способа шумовой сигнал воспроизводится непрерывно и равномерно со всех сторон.

В другом частном примере реализации способа преобразование речи пациента в текстовую форму осуществляют с помощью модели машинного обучения.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Фиг. 1 иллюстрирует ПАК для реализации заявленного способа.

Фиг. 2 иллюстрирует пример интерфейса вычислительного устройства пациента.

Фиг. 3 иллюстрирует шкалу оценки разборчивости речи.

Фиг. 4 иллюстрирует схему вычислительного устройства.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ

Как показано на Фиг. 1, заявленное изобретение осуществляется с помощью ПАК (100), который содержит содержащего звуковую систему (140), вычислительное устройство пациента (130) и центральное вычислительное устройство (110). Центральное вычислительное устройство (110) представляет собой компьютер, с которым взаимодействует оператор (10), например, врач или специалист-аудиолог, осуществляющий процесс тестирования пациента (20).

Центральное вычислительное устройство (110) соединено посредством проводного и/или беспроводного канала передачи данных (120) с устройством пациента (130), которое может представлять собой смартфон или планшет под управлением iOS или Android. В качестве центрального устройства (110) также возможно применение планшета, смартфона или фаблета, работающего также под управлением операционной системы Android, iOS и т.п.

В качестве канала передачи данных (120) может использоваться проводной и/или беспроводной тип передачи данных, например, LAN, WLAN, Bluetooth, Wi-Fi, Wi-Fi Direct и любой другой тип передачи данных, обеспечивающий прием-передачу требуемой информации между элементами комплекса (100).

Звуковая система (140) содержит по меньшей мере четыре динамика (141)-(144), которые размещаются по периметру в углах помещения на удалении не менее 0,5 м от стен. Динамики системы (140) устанавливаются по кругу от места расположения пациента (20), чтобы обеспечивать формирование объемного акустического поля. Звуковая система (140) подключена к центральному устройству (110) и обеспечивает воспроизведение требуемых звуковых сигналов. Динамики системы (140) располагаются на заданном удалении от пациента (20), например, 1.5 м под заданным углом, предпочтительно 45⁰, для обеспечения наиболее качественного формирования акустической обстановки.

Под качеством распознавания речи следует понимать уровень распознавания речи и уровень комфорта прослушивания. При тестировании распознавания речи в шуме специалист (10) выбирает один из возможных речевых тестов, содержащих отдельные слова, например:

- Тест Г ринберга;

- Тест Неймана;

- Односложные слова;

- Числа.

Каждый из этих тестов содержит некоторое количество слов, которые последовательно воспроизводятся в случайном порядке через фронтальные динамики (141, 144) от пациента (20).

Дополнительно специалист (10) выбирает один или несколько звуковых сигналов шума, например:

- Розовый шум;

- Уличные шумы;

- Бытовые шумы;

- Офисные шумы.

Шумовой сигнал воспроизводится непрерывно и равномерно со всех сторон посредством динамиков (141) - (144) звуковой системы (140) и позволяет более качественно смоделировать бытовые ситуации, с которыми сталкивается пациент (20) в повседневной жизни. Формирование шума необходимо для повышения функциональной составляющей теста и отражения реальной картины восприятия речи пациентом (20).

Применение шумового сигнала позволяет повысить качество оценки распознавания речи пациентом, за счет его воспроизведения параллельно с полезным аудиосигналом последовательности слов.

Специалист (10) может установить для каждого звука (речевого теста и каждого шума) значение громкости. Полезный сигнал тестовой речевой последовательности воспроизводится в диапазоне от 32 до 72 дБ, но предпочтительным уровнем громкости (нормальная речь) является 50 - 55 дБ. Шумовой сигнал воспроизводится с уровнем громкости на 10 - 15 дБ ниже уровня полезного сигнала. Специалист (10) с помощью устройства (110) задаёт количество тестовых слов в сеансе. Далее программная платформа устройства (110) выбирает случайным образом заданное количество слов из всего массива и поочередно воспроизводит пациенту (20) с заданной громкостью.

В ходе теста система воспроизводит одно слово и переходит в режим ожидания голосового ответа пациента (20). Ответ пациента (20) фиксируется средством звукозаписи устройства (130), в частности, микрофоном, который может быть встроенным в устройство (130) или внешним (выносным) устройством, например, в виде гарнитуры и т.п.

После получения отклика от пациента (20), в частности, после произнесения им слова, воспроизведенного звуковой системой (140), программное обеспечение вычислительного устройства (130) преобразует этот ответ в текст и отправляет этот текст на центральное устройство (110) для оценки. Преобразование устной речи в текст может быть реализовано с помощью различного программного обеспечения, в том числе с использованием моделей машинного обучения, например, Google Cloud Speech API или любого другого программного обеспечения для осуществления данной функции. Само преобразование речевого потока в текст происходит на облачном сервисе, например, сервисе Google. Приложение на устройстве пациента (130) принимает речевой сигнал (голос), шифрует его, отправляет его посредством сети Интернет на упомянутый облачный сервис и получает в ответ текстовое сообщение.

Распознавание считается удачным, если среди распознанных в текстовой форме распознавателем слов хотя бы одно совпадает и исходным текстом в воспроизводимой выборке тестовых слов. Независимо от результата распознавания пациенту (20) предлагается с помощью устройства (130) оценить комфортность понимания слова по шкале Ликерта.

В ходе проведения тестирования фиксация отклика пациентом (20) осуществляется с помощью мобильного устройства (130) при использовании графического интерфейса, представленного на Фиг. 2. В ходе проверки комфортности восприятия звуков, пациенту (20) необходимо формировать оценку восприятия воспроизводимого каждого звука в тестовой серии. Оценка формируется пациентом (20) с помощью кнопок графического интерфейса, соответствующим шкале Ликерта (211)-(215).

Каждый полученный отклик от устройства пациента (21) фиксируется на центральном устройстве управления (110). Отклик пациента по каждому звуку заносится в протокол с указанием соответствующей оценки, выставленной пациентом при нажатии на соответствующую кнопку (211)-(215). Также фиксируется, что пациент (20) услышал воспроизведенный звук - «да/нет» и верно или неверно распознал слово при его произнесении, в связи с чем на дисплее устройства (130) появляются соответствующие уведомления (230, 240).

Эта оценка пациента используется только для оценки уровня комфорта восприятия произнесённого слова и не может использоваться для оценки разборчивости (понимания), поскольку способность слышать и понимать устную речь представляют собой разные уровни владения устной речью.

Весь ход теста протоколируется с указанием произнесённого тестового слова, слова, произнесённого пациентом (20) и отметки о результате распознавания. После оценки результатов тестирования всего количества тестовых слов, заданного специалистом (10), определяется доля правильно распознанных тестовых слов как частное от деления количества правильно распознанных слов к общему их количеству, и в соответствии со шкалой разборчивости, представленной на Фиг. 3, оценивается уровень разборчивости.

Важным преимуществом предложенного способа является возможность оценки самим пациентом (20) обеспеченным при тестировании уровня физиологического комфорта прослушивания тестовых слов, что позволяет оценить степень социальной адекватности его слуха. Наличие дискомфорта прослушивания даже при высоком уровне разборчивости указывает на необходимость дополнительных диагностических тестов.

Ниже приводится пример протокола тестирования, формируемого на центральном устройстве (110).

Тестирование с аппаратами: слева - нет, справа - нет Тест "Распознавание речи в шуме".

Звук "Все тесты Неймана" 50 дБ, спереди Звук "Шум Улица" 40 дБ, со всех сторон Комментарий: Планшет пациента подключён

Тестовая последовательность

№	Слово	Врач	Пациент	Ответ пациента
25	Карандаш	Верно	Комфортно
41	Глаза	Верно	На грани
53	Шар	Верно	Очень комфортно
38	Стул	Верно	На грани
28	Уши	Неверно	Некомфортно	Мыши
50	Яблоко	Верно	Комфортно

16	Заяц	Неверно	На грани	Конец
48	Лошадь	Верно	Комфортно

Количество воспроизведённых слов: 8 Результат: Удачно 6 / 8 - 75.0 % слов Оценка уровня разборчивости: ОТЛИЧНАЯ, 0.75 по шкале разборчивости.

Оценка уровня комфортности прослушивания: НЕОБХОДИМЫ УТОЧНЕНИЯ.

По итогам тестирования за счет сравнения ответов пациента (20), преобразованных из речевого в текстовый формат и сравнения со словами тестовой группы, воспроизводимой устройством (110), формируется качественная оценка распознавания речи, предоставляемая пациенту (20), сравниваемая с представленной на Фиг. 3 со шкалой разборчивости речи. Также, данная оценка может использоваться для дальнейшей настройки слуховых аппаратов пациента (20), назначения дополнительных процедур, направления для получения медицинского заключения и т.п.

На Фиг. 4 представлен общий пример вычислительного компьютерного устройства (300), которое может применяться для реализации вычислительных устройств, входящих в комплекс (100). В общем случае устройство (300) содержит такие компоненты, как: один или более процессоров (301), по меньшей мере одну оперативную память (302), средство постоянного хранения данных (303), интерфейсы ввода/вывода (304), средство В/В (305), средства сетевого взаимодействия (306).

Процессор (301) устройства выполняет основные вычислительные операции, необходимые для функционирования устройства (300) или функционала одного или более его компонентов. Процессор (301) исполняет необходимые машиночитаемые команды, содержащиеся в оперативной памяти (302).

Память (302), как правило, выполнена в виде ОЗУ и содержит необходимую программную логику, обеспечивающую требуемый функционал. Средство хранения данных (303) может выполняться в виде HDD, SSD дисков, рейд массива, сетевого хранилища, флэш-памяти, оптических накопителей информации (CD, DVD, MD, Blue-Ray дисков) и т.п. Средство (303) позволяет выполнять долгосрочное хранение различного вида информации, например, истории обработки запросов (логов), идентификаторов пользователей, звуковые файлы и т.п.

Интерфейсы (304) представляют собой стандартные средства для подключения и работы различного вида устройств (300), например, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire и т.п. Выбор интерфейсов (304) зависит от конкретного исполнения устройства (300), которое может представлять собой персональный компьютер, мейнфрейм, серверный кластер, тонкий клиент, смартфон, ноутбук и т.п.

В качестве средств В/В данных (305) может использоваться: клавиатура, джойстик, дисплей (сенсорный дисплей), проектор, тачпад, манипулятор мышь, трекбол, световое перо, динамики, микрофон и т.п.

Средства сетевого взаимодействия (306) выбираются из устройства, обеспечивающий сетевой прием и передачу данных, например, Ethernet карту, WLAN/Wi-Fi модуль, Bluetooth модуль, BLE модуль, NFC модуль, IrDa, RFID модуль, GSM модем и т.п. С помощью средства (306) обеспечивается организация обмена данными по проводному или беспроводному каналу передачи данных, например, WAN, PAN, ЛВС (LAN), Интранет, Интернет, WLAN, WMAN или GSM.

Компоненты устройства (300), как правило, сопряжены посредством общей шины передачи данных.

В настоящих материалах заявки было представлено предпочтительное раскрытие осуществление заявленного технического решения, которое не должно использоваться как ограничивающее иные, частные воплощения его реализации, которые не выходят за рамки испрашиваемого объема правовой охраны и являются очевидными для специалистов в соответствующей области техники.

Claims

1. Способ автоматизированной оценки качества распознавания речи пациентом, выполняемый с помощью программно-аппаратного комплекса (ПАК), содержащего звуковую систему, вычислительное устройство пациента и центральное вычислительное устройство, при этом способ содержит этапы, на которых:

- формируют с помощью центрального вычислительного устройства звуковую последовательность слов, воспроизводимую с помощью аудиосистемы, и шумовой сигнал, причем аудиосистема содержит по меньшей мере четыре динамика, расположенных вокруг пациента и повернутых к нему под углом 45°, при этом последовательность слов воспроизводится из динамиков, расположенных перед пациентом, а шумовой сигнал - из всех динамиков аудиосистемы, и после каждого воспроизведенного слова система переходит в режим ожидания отклика от пациента;

2. Способ по п.1, характеризующийся тем, что звуковая последовательность слов воспроизводится с уровнем громкости от 32 до 72 дБ, предпочтительно 50-55 дБ.

3. Способ по п.2, характеризующийся тем, что шумовой сигнал воспроизводится с уровнем громкости на 10–15 дБ ниже уровня сигнала звуковой последовательности.

4. Способ по п.1, характеризующийся тем, что вычислительное устройство пациента представляет собой планшет или смартфон.

5. Способ по п.1, характеризующийся тем, что средство звукозаписи вычислительного устройства пациента представляет собой встроенный или выносной микрофон.

6. Способ по п.1, характеризующийся тем, что шумовой сигнал имитирует розовый шум, уличный шум, бытовой шум или офисный шум.

7. Способ по п.1, характеризующийся тем, что передача данных от устройства пациента на центральное вычислительное устройство осуществляется по беспроводному каналу передачи данных по протоколу Wi-Fi.

8. Способ по п.1, характеризующийся тем, что шумовой сигнал воспроизводится непрерывно и равномерно со всех сторон.

9. Способ по п.1, характеризующийся тем, что преобразование речи пациента в текстовую форму осуществляют с помощью модели машинного обучения.