RU2729147C1 - Способ автоматизированной оценки качества распознавания речи пациентом - Google Patents
Способ автоматизированной оценки качества распознавания речи пациентом Download PDFInfo
- Publication number
- RU2729147C1 RU2729147C1 RU2020112853A RU2020112853A RU2729147C1 RU 2729147 C1 RU2729147 C1 RU 2729147C1 RU 2020112853 A RU2020112853 A RU 2020112853A RU 2020112853 A RU2020112853 A RU 2020112853A RU 2729147 C1 RU2729147 C1 RU 2729147C1
- Authority
- RU
- Russia
- Prior art keywords
- patient
- computing device
- words
- speech
- reproduced
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 34
- 238000011511 automated evaluation Methods 0.000 title abstract 2
- 230000004044 response Effects 0.000 claims abstract description 19
- 230000008447 perception Effects 0.000 claims abstract description 11
- 230000005236 sound signal Effects 0.000 claims abstract description 9
- 230000009466 transformation Effects 0.000 claims abstract description 3
- 230000005540 biological transmission Effects 0.000 claims description 11
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 abstract description 34
- 238000006243 chemical reaction Methods 0.000 abstract description 5
- 238000011156 evaluation Methods 0.000 abstract description 2
- 239000000126 substance Substances 0.000 abstract 1
- 230000013707 sensory perception of sound Effects 0.000 description 17
- 230000003203 everyday effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 210000000613 ear canal Anatomy 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 208000016354 hearing loss disease Diseases 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 206010011878 Deafness Diseases 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000012076 audiometry Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000010370 hearing loss Effects 0.000 description 2
- 231100000888 hearing loss Toxicity 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 229920000742 Cotton Polymers 0.000 description 1
- 241001025261 Neoraja caerulea Species 0.000 description 1
- 241000746998 Tragus Species 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 235000019271 petrolatum Nutrition 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000011514 reflex Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
Настоящее изобретение относится к области вычислительной техники для автоматизированной оценки качества распознавания речи пациентом. Технический результат заключается в обеспечении автоматической оценки качества распознавания речи пациентом за счет преобразования голосовых ответов пациента в текстовый формат и сравнения результатов с тестовой последовательностью слов. Технический результат достигается за счет выполнения с помощью вычислительного устройства пациента распознавания произнесенного пациентом слова и его преобразования в текстовую форму; фиксации с помощью вычислительного устройства пациента оценки комфортности восприятия аудиосигнала пациента каждого произнесенного слова с помощью шкалы Ликерта; осуществления передачи текстовой формы распознанных слов на центральное вычислительное устройство и данных оценок комфортности восприятия аудиосигнала по шкале Ликерта, и осуществления на центральном вычислительном устройстве сравнения текстовой формы слов, произнесенных пациентом, с соответствующими словами звуковой последовательности, и выполнения расчета уровня разборчивости речи на основании сравнения полученных текстовых данных распознанных слов пациентом со шкалой разборчивости в зависимости от доли верно распознанных слов. 8 з.п. ф-лы, 4 ил.
Description
ОБЛАСТЬ ТЕХНИКИ
Настоящее изобретение относится области медицины, в частности к автоматизированной оценке качества распознавания речи пациентом.
УРОВЕНЬ ТЕХНИКИ
Основной характеристикой любого канала передачи речи, включая слуховой тракт восприятия речи человека, является понятность речи. Для определения этой характеристики в технических системах связи применяют статистический метод с участием большого числа слушателей и дикторов.
Под разборчивостью речи понимают относительное или процентное количество принятых (понятых) элементов речи из общего числа переданных по каналу связи. Элементы речи составляют слоги, звуки, слова, фразы, цифры. В соответствии им поставлены слоговая, звуковая, словесная, смысловая и цифровая разборчивость. Для измерения разборчивости разработаны артикуляционные таблицы слогов, звукосочетаний и слов с учетом встречаемости их в русской речи.
Термином «социальная адекватность слуха» обозначают способность человека воспринимать звуковые стимулы различной сложности (включая речевые) и участвовать в диалоге. У людей с уровнем слуха ниже «социально адекватного» возникают сложности в общении с окружающими, появляются проблемы на работе, в быту. Так называемая стигма тугоухости заставляет людей скрывать свою коммуникативную проблему десятилетиями!
Исследования слуховой функции осуществляется посредством двух групп методов: Субъективных (психоакустических):
- исследование слуха речью;
- исследование слуха при помощи камертонов;
- субъективная аудиометрия.
Объективных:
- объективная (компьютерная) аудиометрия;
- акустическая рефлексометрия;
- тимпанометрия;
- отоакустическая эмиссия;
- безусловные рефлекторные реакции;
условные реакции на звук.
При всех субъективных методах исследования слуха сам испытуемый оценивает: слышит он звук или нет и каким-либо иным способом и сообщает об этом специалисту.
При объективных методах обследования полученные результаты не зависят от желания пациента, регистрация их в большинстве случаев происходит при помощи специальной аппаратуры.
К сожалению, результаты практически всех видов диагностики слуха, кроме прямой оценки разборчивости слуха речью, описывают результаты обследования в специфических терминах (децибелы, аудиограммы, номера пиков кривых и т.д.) и не дают пациенту объективной информации о его «реальной степени социальной адекватности». Все это множество научных терминов не даёт человеку прямого ответа: как хорошо, или как плохо, он слышит и понимает «обычную» речь собеседника в реальном шуме, окружающем его ежедневно. Многочисленные результаты современных высокоточных обследований нужны специалистам; человеку с нарушениями слуха нужно знать только одно - насколько хорошо он понимает речь собеседника в обычных условиях Для такой бытовой комплексной оценки хорошо под-ходит методика оценки удовлетворённости Ликерта.
Самым простым и доступным методом является исследование слуха речью. Достоинства этого метода заключаются в его соответствии основной роли слуховой функции у человека — служить средством речевого общения.
При исследовании слуха речью применяется шепотная и громкая речь. Конечно, оба эти понятия не включают точной дозировки силы и высоты звука, однако некоторые показатели, определяющие динамическую (силовую) и частотную характеристику шепотной и громкой речи, все же имеются.
При исследовании слуха речью весь речевой" материал произносится на резервном воздухе (вдох-выдох-речь). Это способствует уравниванию громкости при предъявлении всего речевого материала у разных лиц.
Важным обстоятельством при исследовании слуха является "заглушение" неисследуемго уха. Есть несколько способов заглушения: вложить в ушной проход ватку с вазелином, ввести в ушной проход палец, смоченный водой, вдавить в слуховой проход козелок уха, потирать тыльную сторону ладони, закрывающей ухо, другой рукой.
Основным преимуществом исследования слуха речью является его «физиологическая понятность» для испытуемого. Основными проблемными препятствиями для широкого применения являются:
- невозможность обеспечения воспроизводимости результатов для разных испытателей, так и для одного испытателя в разное время;
- относительную длительность и трудоёмкость испытаний.
Из существующего уровня техники известны различные подходы по оценке распознаваемости речи. Известно программное обеспечение DIRAC (http://asm-tm.ru/7841- izmerenie-razborchivosti-rechi-v-po-dirac.html), которое позволяет оценить акустическую обстановку помещения на предмет распознаваемости речи внутри него. Однако данный подход не применим для тестирования слуховых возможностей пациентов.
Известен способ диагностики уровня слуха (патент RU 2467691 C1. 27.11.2012). в котором используют речевую таблицу В. Воячека, которую записывают в память цифрового устройства в звуковом формате mp3. После повторения пациентом слов определяют процент правильно повторяемых от общего числа слов таблицы. При этом используют клавиатуру устройства для регистрации ответа пациента при громкостях звукового сигнала 10. 20 и 30% от максимальной мощности наушников соответственно. Затем выявляют снижение процента разборчивости речи. При снижении процента разборчивости речи менее 95% по любому размеру мощности наушников судят о наличии тугоухости.
Недостатком данного решения является недостаточная точность оценки разборчивости речи пациентом. которая заключается в отсутствии автоматизации процесса распознавания ответов пациента. с помощью перевода ответов пациента из голосового формата в текстовый для анализа правильности услышанных слов. в также использовании разнесенной акустической системы. что позволяет более точно смоделировать варианты окружающей обстановки с генерированием шумового сигнала в процессе воспроизведения тестовой последовательности тестовых слов.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Решением существующей технической проблемы в данной области техники является создание нового способа для качественной автоматизированной оценки разборчивости речи пациентом с помощью программно-аппаратного комплекса (ПАК).
Основным техническим результатом является обеспечение автоматической оценки качества распознавания речи пациентом. за счет преобразования голосовых ответов пациента в текстовый формат и сравнения результатов с тестовой последовательностью слов.
Заявленное изобретение осуществляется с помощью реализации способа автоматизированной оценки качества распознавания речи пациентом. выполняемого с помощью программного-аппаратного комплекса (ПАК). содержащего звуковую систему.
вычислительное устройство пациента и центральное вычислительное устройство, при этом способ содержит этапы, на которых:
- формируют с помощью центрального вычислительного устройства звуковую последовательность слов, воспроизводимую с помощью аудиосистемы и шумовой сигнал, причем аудиосистема содержит по меньшей мере четыре динамика, расположенных вокруг пациента и повернутых к нему под углом 450, при этом последовательность слов воспроизводится из динамиков, расположенных перед пациентом, а шумовой сигнал - из всех динамиков аудиосистемы, и после каждого воспроизведенного слова система переходит в режим ожидания отклика от пациента;
- фиксируют отклик пациента, представляющий собой произношение воспроизведенного слова, и осуществляют его запись с помощью средства звукозаписи вычислительного устройства пациента;
- выполняют с помощью вычислительного устройства пациента распознавание произнесенного пациентом слова и его преобразование в текстовую форму;
- фиксируют с помощью вычислительного устройства пациента оценку комфортности восприятия аудиосигнала пациента каждого произнесенного слова с помощью шкалы Ликерта;
- осуществляют передачу текстовой формы распознанных слов на центральное вычислительное устройство и данные оценок комфортности восприятия аудиосигнала по шкале Ликерта;
- осуществляют на центральном вычислительном устройстве сравнение текстовой формы слов, произнесенных пациентом, с соответствующими словами звуковой последовательности, и выполняют расчет уровня разборчивости речи на основании сравнения полученных текстовых данных распознанных слов пациентом со шкалой разборчивости, в зависимости от доли верно распознанных слов.
В одном из частных примеров реализации способа звуковая последовательность слов воспроизводится с уровнем громкости от 32 до 72 дБ, предпочтительно 50-55 дБ.
В другом частном примере реализации способа шумовой сигнал воспроизводится с уровнем громкости на 10 - 15 дБ ниже уровня сигнала звуковой последовательности.
В другом частном примере реализации способа вычислительное устройство пациента представляет собой планшет или смартфон.
В другом частном примере реализации способа средство звукозаписи вычислительного устройства пациента представляет собой встроенный или выносной микрофон.
В другом частном примере реализации способа шумовой сигнал имитирует розовый шум, уличный шум, бытовой шум или офисный шум.
В другом частном примере реализации способа передача данных от устройства пациента на центральное вычислительное устройство осуществляется по беспроводному каналу передачи данных по протоколу Wi-Fi
В другом частном примере реализации способа шумовой сигнал воспроизводится непрерывно и равномерно со всех сторон.
В другом частном примере реализации способа преобразование речи пациента в текстовую форму осуществляют с помощью модели машинного обучения.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Фиг. 1 иллюстрирует ПАК для реализации заявленного способа.
Фиг. 2 иллюстрирует пример интерфейса вычислительного устройства пациента.
Фиг. 3 иллюстрирует шкалу оценки разборчивости речи.
Фиг. 4 иллюстрирует схему вычислительного устройства.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ
Как показано на Фиг. 1, заявленное изобретение осуществляется с помощью ПАК (100), который содержит содержащего звуковую систему (140), вычислительное устройство пациента (130) и центральное вычислительное устройство (110). Центральное вычислительное устройство (110) представляет собой компьютер, с которым взаимодействует оператор (10), например, врач или специалист-аудиолог, осуществляющий процесс тестирования пациента (20).
Центральное вычислительное устройство (110) соединено посредством проводного и/или беспроводного канала передачи данных (120) с устройством пациента (130), которое может представлять собой смартфон или планшет под управлением iOS или Android. В качестве центрального устройства (110) также возможно применение планшета, смартфона или фаблета, работающего также под управлением операционной системы Android, iOS и т.п.
В качестве канала передачи данных (120) может использоваться проводной и/или беспроводной тип передачи данных, например, LAN, WLAN, Bluetooth, Wi-Fi, Wi-Fi Direct и любой другой тип передачи данных, обеспечивающий прием-передачу требуемой информации между элементами комплекса (100).
Звуковая система (140) содержит по меньшей мере четыре динамика (141)-(144), которые размещаются по периметру в углах помещения на удалении не менее 0,5 м от стен. Динамики системы (140) устанавливаются по кругу от места расположения пациента (20), чтобы обеспечивать формирование объемного акустического поля. Звуковая система (140) подключена к центральному устройству (110) и обеспечивает воспроизведение требуемых звуковых сигналов. Динамики системы (140) располагаются на заданном удалении от пациента (20), например, 1.5 м под заданным углом, предпочтительно 450, для обеспечения наиболее качественного формирования акустической обстановки.
Под качеством распознавания речи следует понимать уровень распознавания речи и уровень комфорта прослушивания. При тестировании распознавания речи в шуме специалист (10) выбирает один из возможных речевых тестов, содержащих отдельные слова, например:
- Тест Г ринберга;
- Тест Неймана;
- Односложные слова;
- Числа.
Каждый из этих тестов содержит некоторое количество слов, которые последовательно воспроизводятся в случайном порядке через фронтальные динамики (141, 144) от пациента (20).
Дополнительно специалист (10) выбирает один или несколько звуковых сигналов шума, например:
- Розовый шум;
- Уличные шумы;
- Бытовые шумы;
- Офисные шумы.
Шумовой сигнал воспроизводится непрерывно и равномерно со всех сторон посредством динамиков (141) - (144) звуковой системы (140) и позволяет более качественно смоделировать бытовые ситуации, с которыми сталкивается пациент (20) в повседневной жизни. Формирование шума необходимо для повышения функциональной составляющей теста и отражения реальной картины восприятия речи пациентом (20).
Применение шумового сигнала позволяет повысить качество оценки распознавания речи пациентом, за счет его воспроизведения параллельно с полезным аудиосигналом последовательности слов.
Специалист (10) может установить для каждого звука (речевого теста и каждого шума) значение громкости. Полезный сигнал тестовой речевой последовательности воспроизводится в диапазоне от 32 до 72 дБ, но предпочтительным уровнем громкости (нормальная речь) является 50 - 55 дБ. Шумовой сигнал воспроизводится с уровнем громкости на 10 - 15 дБ ниже уровня полезного сигнала. Специалист (10) с помощью устройства (110) задаёт количество тестовых слов в сеансе. Далее программная платформа устройства (110) выбирает случайным образом заданное количество слов из всего массива и поочередно воспроизводит пациенту (20) с заданной громкостью.
В ходе теста система воспроизводит одно слово и переходит в режим ожидания голосового ответа пациента (20). Ответ пациента (20) фиксируется средством звукозаписи устройства (130), в частности, микрофоном, который может быть встроенным в устройство (130) или внешним (выносным) устройством, например, в виде гарнитуры и т.п.
После получения отклика от пациента (20), в частности, после произнесения им слова, воспроизведенного звуковой системой (140), программное обеспечение вычислительного устройства (130) преобразует этот ответ в текст и отправляет этот текст на центральное устройство (110) для оценки. Преобразование устной речи в текст может быть реализовано с помощью различного программного обеспечения, в том числе с использованием моделей машинного обучения, например, Google Cloud Speech API или любого другого программного обеспечения для осуществления данной функции. Само преобразование речевого потока в текст происходит на облачном сервисе, например, сервисе Google. Приложение на устройстве пациента (130) принимает речевой сигнал (голос), шифрует его, отправляет его посредством сети Интернет на упомянутый облачный сервис и получает в ответ текстовое сообщение.
Распознавание считается удачным, если среди распознанных в текстовой форме распознавателем слов хотя бы одно совпадает и исходным текстом в воспроизводимой выборке тестовых слов. Независимо от результата распознавания пациенту (20) предлагается с помощью устройства (130) оценить комфортность понимания слова по шкале Ликерта.
В ходе проведения тестирования фиксация отклика пациентом (20) осуществляется с помощью мобильного устройства (130) при использовании графического интерфейса, представленного на Фиг. 2. В ходе проверки комфортности восприятия звуков, пациенту (20) необходимо формировать оценку восприятия воспроизводимого каждого звука в тестовой серии. Оценка формируется пациентом (20) с помощью кнопок графического интерфейса, соответствующим шкале Ликерта (211)-(215).
Каждый полученный отклик от устройства пациента (21) фиксируется на центральном устройстве управления (110). Отклик пациента по каждому звуку заносится в протокол с указанием соответствующей оценки, выставленной пациентом при нажатии на соответствующую кнопку (211)-(215). Также фиксируется, что пациент (20) услышал воспроизведенный звук - «да/нет» и верно или неверно распознал слово при его произнесении, в связи с чем на дисплее устройства (130) появляются соответствующие уведомления (230, 240).
Эта оценка пациента используется только для оценки уровня комфорта восприятия произнесённого слова и не может использоваться для оценки разборчивости (понимания), поскольку способность слышать и понимать устную речь представляют собой разные уровни владения устной речью.
Весь ход теста протоколируется с указанием произнесённого тестового слова, слова, произнесённого пациентом (20) и отметки о результате распознавания. После оценки результатов тестирования всего количества тестовых слов, заданного специалистом (10), определяется доля правильно распознанных тестовых слов как частное от деления количества правильно распознанных слов к общему их количеству, и в соответствии со шкалой разборчивости, представленной на Фиг. 3, оценивается уровень разборчивости.
Важным преимуществом предложенного способа является возможность оценки самим пациентом (20) обеспеченным при тестировании уровня физиологического комфорта прослушивания тестовых слов, что позволяет оценить степень социальной адекватности его слуха. Наличие дискомфорта прослушивания даже при высоком уровне разборчивости указывает на необходимость дополнительных диагностических тестов.
Ниже приводится пример протокола тестирования, формируемого на центральном устройстве (110).
Тестирование с аппаратами: слева - нет, справа - нет Тест "Распознавание речи в шуме".
Звук "Все тесты Неймана" 50 дБ, спереди Звук "Шум Улица" 40 дБ, со всех сторон Комментарий: Планшет пациента подключён
Тестовая последовательность
№ | Слово | Врач | Пациент | Ответ пациента |
25 | Карандаш | Верно | Комфортно | |
41 | Глаза | Верно | На грани | |
53 | Шар | Верно | Очень комфортно | |
38 | Стул | Верно | На грани | |
28 | Уши | Неверно | Некомфортно | Мыши |
50 | Яблоко | Верно | Комфортно |
16 | Заяц | Неверно | На грани | Конец |
48 | Лошадь | Верно | Комфортно |
Количество воспроизведённых слов: 8 Результат: Удачно 6 / 8 - 75.0 % слов Оценка уровня разборчивости: ОТЛИЧНАЯ, 0.75 по шкале разборчивости.
Оценка уровня комфортности прослушивания: НЕОБХОДИМЫ УТОЧНЕНИЯ.
По итогам тестирования за счет сравнения ответов пациента (20), преобразованных из речевого в текстовый формат и сравнения со словами тестовой группы, воспроизводимой устройством (110), формируется качественная оценка распознавания речи, предоставляемая пациенту (20), сравниваемая с представленной на Фиг. 3 со шкалой разборчивости речи. Также, данная оценка может использоваться для дальнейшей настройки слуховых аппаратов пациента (20), назначения дополнительных процедур, направления для получения медицинского заключения и т.п.
На Фиг. 4 представлен общий пример вычислительного компьютерного устройства (300), которое может применяться для реализации вычислительных устройств, входящих в комплекс (100). В общем случае устройство (300) содержит такие компоненты, как: один или более процессоров (301), по меньшей мере одну оперативную память (302), средство постоянного хранения данных (303), интерфейсы ввода/вывода (304), средство В/В (305), средства сетевого взаимодействия (306).
Процессор (301) устройства выполняет основные вычислительные операции, необходимые для функционирования устройства (300) или функционала одного или более его компонентов. Процессор (301) исполняет необходимые машиночитаемые команды, содержащиеся в оперативной памяти (302).
Память (302), как правило, выполнена в виде ОЗУ и содержит необходимую программную логику, обеспечивающую требуемый функционал. Средство хранения данных (303) может выполняться в виде HDD, SSD дисков, рейд массива, сетевого хранилища, флэш-памяти, оптических накопителей информации (CD, DVD, MD, Blue-Ray дисков) и т.п. Средство (303) позволяет выполнять долгосрочное хранение различного вида информации, например, истории обработки запросов (логов), идентификаторов пользователей, звуковые файлы и т.п.
Интерфейсы (304) представляют собой стандартные средства для подключения и работы различного вида устройств (300), например, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire и т.п. Выбор интерфейсов (304) зависит от конкретного исполнения устройства (300), которое может представлять собой персональный компьютер, мейнфрейм, серверный кластер, тонкий клиент, смартфон, ноутбук и т.п.
В качестве средств В/В данных (305) может использоваться: клавиатура, джойстик, дисплей (сенсорный дисплей), проектор, тачпад, манипулятор мышь, трекбол, световое перо, динамики, микрофон и т.п.
Средства сетевого взаимодействия (306) выбираются из устройства, обеспечивающий сетевой прием и передачу данных, например, Ethernet карту, WLAN/Wi-Fi модуль, Bluetooth модуль, BLE модуль, NFC модуль, IrDa, RFID модуль, GSM модем и т.п. С помощью средства (306) обеспечивается организация обмена данными по проводному или беспроводному каналу передачи данных, например, WAN, PAN, ЛВС (LAN), Интранет, Интернет, WLAN, WMAN или GSM.
Компоненты устройства (300), как правило, сопряжены посредством общей шины передачи данных.
В настоящих материалах заявки было представлено предпочтительное раскрытие осуществление заявленного технического решения, которое не должно использоваться как ограничивающее иные, частные воплощения его реализации, которые не выходят за рамки испрашиваемого объема правовой охраны и являются очевидными для специалистов в соответствующей области техники.
Claims (15)
1. Способ автоматизированной оценки качества распознавания речи пациентом, выполняемый с помощью программно-аппаратного комплекса (ПАК), содержащего звуковую систему, вычислительное устройство пациента и центральное вычислительное устройство, при этом способ содержит этапы, на которых:
- формируют с помощью центрального вычислительного устройства звуковую последовательность слов, воспроизводимую с помощью аудиосистемы, и шумовой сигнал, причем аудиосистема содержит по меньшей мере четыре динамика, расположенных вокруг пациента и повернутых к нему под углом 45°, при этом последовательность слов воспроизводится из динамиков, расположенных перед пациентом, а шумовой сигнал - из всех динамиков аудиосистемы, и после каждого воспроизведенного слова система переходит в режим ожидания отклика от пациента;
- фиксируют отклик пациента, представляющий собой произношение воспроизведенного слова, и осуществляют его запись с помощью средства звукозаписи вычислительного устройства пациента;
- выполняют с помощью вычислительного устройства пациента распознавание произнесенного пациентом слова и его преобразование в текстовую форму;
- фиксируют с помощью вычислительного устройства пациента оценку комфортности восприятия аудиосигнала пациента каждого произнесенного слова с помощью шкалы Ликерта;
- осуществляют передачу текстовой формы распознанных слов на центральное вычислительное устройство и данные оценок комфортности восприятия аудиосигнала по шкале Ликерта;
- осуществляют на центральном вычислительном устройстве сравнение текстовой формы слов, произнесенных пациентом, с соответствующими словами звуковой последовательности, и выполняют расчет уровня разборчивости речи на основании сравнения полученных текстовых данных распознанных слов пациентом со шкалой разборчивости, в зависимости от доли верно распознанных слов.
2. Способ по п.1, характеризующийся тем, что звуковая последовательность слов воспроизводится с уровнем громкости от 32 до 72 дБ, предпочтительно 50-55 дБ.
3. Способ по п.2, характеризующийся тем, что шумовой сигнал воспроизводится с уровнем громкости на 10–15 дБ ниже уровня сигнала звуковой последовательности.
4. Способ по п.1, характеризующийся тем, что вычислительное устройство пациента представляет собой планшет или смартфон.
5. Способ по п.1, характеризующийся тем, что средство звукозаписи вычислительного устройства пациента представляет собой встроенный или выносной микрофон.
6. Способ по п.1, характеризующийся тем, что шумовой сигнал имитирует розовый шум, уличный шум, бытовой шум или офисный шум.
7. Способ по п.1, характеризующийся тем, что передача данных от устройства пациента на центральное вычислительное устройство осуществляется по беспроводному каналу передачи данных по протоколу Wi-Fi.
8. Способ по п.1, характеризующийся тем, что шумовой сигнал воспроизводится непрерывно и равномерно со всех сторон.
9. Способ по п.1, характеризующийся тем, что преобразование речи пациента в текстовую форму осуществляют с помощью модели машинного обучения.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2020112853A RU2729147C1 (ru) | 2020-04-02 | 2020-04-02 | Способ автоматизированной оценки качества распознавания речи пациентом |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2020112853A RU2729147C1 (ru) | 2020-04-02 | 2020-04-02 | Способ автоматизированной оценки качества распознавания речи пациентом |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2729147C1 true RU2729147C1 (ru) | 2020-08-05 |
Family
ID=72086015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2020112853A RU2729147C1 (ru) | 2020-04-02 | 2020-04-02 | Способ автоматизированной оценки качества распознавания речи пациентом |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2729147C1 (ru) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2743049C1 (ru) * | 2020-09-07 | 2021-02-15 | Общество С Ограниченной Ответственностью "Центр Коррекции Слуха И Речи "Мелфон" (Ооо "Цкср "Мелфон") | Способ доврачебной оценки качества распознавания речи, скрининговой аудиометрии и программно-аппаратный комплекс, его реализующий |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030171922A1 (en) * | 2000-09-06 | 2003-09-11 | Beerends John Gerard | Method and device for objective speech quality assessment without reference signal |
EP1465156A1 (en) * | 2003-03-31 | 2004-10-06 | Koninklijke KPN N.V. | Method and system for determining the quality of a speech signal |
US20050131676A1 (en) * | 2003-12-11 | 2005-06-16 | International Business Machines Corporation | Quality evaluation tool for dynamic voice portals |
RU2379767C2 (ru) * | 2005-06-27 | 2010-01-20 | Нокиа Корпорейшн | Коррекция ошибок для систем распознавания речи |
US7966187B1 (en) * | 2001-02-15 | 2011-06-21 | West Corporation | Script compliance and quality assurance using speech recognition |
-
2020
- 2020-04-02 RU RU2020112853A patent/RU2729147C1/ru active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030171922A1 (en) * | 2000-09-06 | 2003-09-11 | Beerends John Gerard | Method and device for objective speech quality assessment without reference signal |
US7966187B1 (en) * | 2001-02-15 | 2011-06-21 | West Corporation | Script compliance and quality assurance using speech recognition |
EP1465156A1 (en) * | 2003-03-31 | 2004-10-06 | Koninklijke KPN N.V. | Method and system for determining the quality of a speech signal |
US20050131676A1 (en) * | 2003-12-11 | 2005-06-16 | International Business Machines Corporation | Quality evaluation tool for dynamic voice portals |
RU2379767C2 (ru) * | 2005-06-27 | 2010-01-20 | Нокиа Корпорейшн | Коррекция ошибок для систем распознавания речи |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2743049C1 (ru) * | 2020-09-07 | 2021-02-15 | Общество С Ограниченной Ответственностью "Центр Коррекции Слуха И Речи "Мелфон" (Ооо "Цкср "Мелфон") | Способ доврачебной оценки качества распознавания речи, скрининговой аудиометрии и программно-аппаратный комплекс, его реализующий |
WO2022050877A1 (ru) * | 2020-09-07 | 2022-03-10 | Общество с ограниченной ответственностью "Центр коррекции слуха и речи "МЕЛФОН" | Доврачебная оценка качества распознавания речи и скрининговая аудиометрия |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Humes et al. | Speech-recognition difficulties of the hearing-impaired elderly: The contributions of audibility | |
Preminger et al. | Quantifying the relation between speech quality and speech intelligibility | |
Gelfand | Optimizing the reliability of speech recognition scores | |
Souza et al. | Relating working memory to compression parameters in clinically fit hearing aids | |
Reinhart et al. | Intelligibility and clarity of reverberant speech: Effects of wide dynamic range compression release time and working memory | |
US20110152708A1 (en) | System and method of speech sound intelligibility assessment, and program thereof | |
US9044157B2 (en) | Assessment system of speech sound listening, and method and program thereof | |
JP2017529198A (ja) | 聴力検査を定義して実行するためのシステム | |
Larangeira et al. | Speech nasality and nasometry in cleft lip and palate | |
RU2467691C1 (ru) | Способ диагностики уровня слуха | |
Sierra-Polanco et al. | Changes of voice production in artificial acoustic environments | |
Billings et al. | Speech-in-Noise Testing: An Introduction for Audiologists | |
RU2729147C1 (ru) | Способ автоматизированной оценки качества распознавания речи пациентом | |
Bruns et al. | Automated speech audiometry for integrated Voice over Internet Protocol communication services | |
RU2743049C1 (ru) | Способ доврачебной оценки качества распознавания речи, скрининговой аудиометрии и программно-аппаратный комплекс, его реализующий | |
KR20220102763A (ko) | 하이브리드 기법을 적용한 소음하 숫자 기반 청력 검사 방법 및 청력 검사 장치 | |
TW200932195A (en) | Audiometry and screening system, and method thereof | |
Gordon-Hickey et al. | Intertester reliability of the acceptable noise level | |
RU2720401C1 (ru) | Многофункциональный интерактивный программно-аппаратный комплекс для объективной оценки уровня субъективной удовлетворенности пациента результатами электроакустической коррекции слуха и способ его применения | |
Stipancic et al. | Tipping the scales: Indiscriminate use of interval scales to rate diverse dysarthric features | |
Camargo et al. | Relationship between hearing capacity and performance on tasks of speech perception in children with hearing loss | |
RU2765108C1 (ru) | Способ и программно-аппаратный комплекс для доврачебной предварительной классифицирующей многофакторной оценки возможности слухового анализатора человека при проведении массовых профилактических осмотров населения | |
Zanichelli et al. | Percentage of Consonants Correct (PCC) in children with and without hearing loss | |
RU2446741C1 (ru) | Способ оценки нарушений слухового восприятия речевых сигналов | |
Law et al. | Comparison of Conventional Audiometry with a Game-Based Audiometric Application for Screening the Hearing Thresholds of Children and Adults |