RU2820074C1

RU2820074C1 - Способ преобразования цифрового растрового изображения в звуковой сигнал для технологии визуально-аудиального сенсорного замещения

Info

Publication number: RU2820074C1
Application number: RU2024101864A
Authority: RU
Inventors: Анастасия Сергеевна Буторова; Егор Александрович Корюкин; Александр Петрович Сергеев
Filing date: 2024-01-26
Publication date: 2024-05-28

Abstract

Изобретение относится к области акустики. Способ преобразования цифрового растрового изображения в звуковой сигнал заключается в том, что цифровые данные двумерного массива пикселей произвольного статического изображения или отдельного кадра видеоизображения вводят в оперативную память микропроцессорной системы, выполняют обработку цифровых данных массива, воспроизводят полученный сигнал в виде звуковых колебаний. При этом двумерный массив пикселей разбивают на строки и столбцы пикселей так, что ширина каждой строки массива равна 1 пикселю, а ширина столбцов массива увеличивается по линейному закону по мере смещения от центра массива к периферии влево и вправо. Амплитуда звуковой волны вычисляется пропорционально средней яркости пикселей пересечения строки и столбца, частота звуковой волны – пропорционально координате положения пересечения по вертикальной оси. Суммы звуковых волн записывают в аудиофайл последовательно от центра к периферии, при воспроизведении аудиофайла громкость в левом и правом каналах уменьшают по линейному закону. Технический результат – снижение разрешающей способности изображения и сокращение числа вычислительных ресурсов.

Description

Изобретение относится к области цифровой обработки данных, в частности к способам преобразования изображений в звуковой сигнал, и предназначено для использования в технологии визуально-аудиального сенсорного замещения. Технический результат может найти применение в разработке ассистивных технологий для людей с ограниченными возможностями здоровья по зрению, а также в разработке человеко-машинных интерфейсов.

По данным Всемирной организации здравоохранения, по меньшей мере 2,2 млрд человек во всем мире живут с той или иной формой нарушения зрения или слепотой. Из них около 1,2 млрд имеют необратимые повреждения зрительной сенсорной системы [Всемирный доклад о проблемах зрения [World report on vision] // Женева: Всемирная организация здравоохранения; 2020. Лицензия: CC BY-NC-SA 3.0 IGO]. C 1990-х годов известны устройства сенсорного замещения, которые преобразуют информацию одной сенсорной модальности (например, зрительной) в информацию другой сенсорной модальности (аудиальную или тактильную). Устройства визуально-аудиального сенсорного замещения преобразовывают изображения, поступающие с видеокамеры, в звуковой сигнал и подают его на вход слуховой сенсорной системы.

Известен способ [Meijer, P.B.L. Image-audio transformation system // US5097326, 17.03.1992], при котором преобразование изображения в звуковой сигнал осуществляется сканированием изображения слева направо. Высота положения объекта в поле зрения кодируется звуковым тоном: чем выше положение объекта в поле зрения, тем выше тон его звучания. Яркость объекта кодируется громкостью: чем ярче (светлее) объект, тем громче он звучит. В способе [Маковецкий В.В., Крикушенко А.В., Крикушенко В.В. Визуально-звуковая система для слепых и слабовидящих людей // Патент РФ 2679866 от 13.02.2019. Бюл. № 5] преобразование изображения в звук осуществляется по схожим принципам.

В указанных решениях пользователю передается информация обо всем поле зрения видеокамеры без предварительной обработки. Недостаток такого подхода заключается в том, что звуковой сигнал, помимо информации, значимой для навигации пользователя, содержит избыточную информацию. В результате пользователю требуется много времени, чтобы проанализировать поступающий звуковой сигнал. В результате у пользователя возникает сенсорная перегрузка и снижается продуктивность использования устройства сенсорного замещения [Sensory substitution and the neural correlates of navigation in blindness / D.-R. Chebat, V. Harrar, R. Kupers, S. Maidenbaum, A. Amedi, M. Ptito // Mobility of Visually Impaired People: Springer. 2018. P. 167–200; Navigating from a depth image converted into sound / C. Stoll, R. Palluel-Germain, V. Fristot, D. Pellerin, D. Alleysson, C. Graff // Applied Bionics and Biomechanics. 2015. Vol. 2015. 27019586. doi: 10.1155/2015/543492].

Наиболее близким аналогом (прототипом) настоящего изобретения является способ преобразования цифрового растрового изображения в звуковой образ для произвольного статического изображения или отдельного кадра видеоизображения [Фрейдман А. В. Способ преобразования изображения в звуковой образ // Патент РФ 2649422 от 03.04.2018. Бюл. № 10]. В предложенном способе двумерный массив данных изображения, содержащий значения яркости и цветности каждого пикселя изображения, представляют в виде одномерного массива с помощью спиралеобразной развертки от центра изображения к его периферии. На периферии развертки значения яркости и цветности усредняются для нескольких рядом расположенных пикселей, в результате на основе полученного одномерного массива формируют массив данных звуковой волны.

Прототип имеет следующие существенные недостатки. Во-первых, к массиву данных исходного изображения каждые пол-оборота спирали добавляется избыточная информация в виде сигналов-разделителей, имеющих маргинальные частоты ниже и выше всех частот, кодирующих исходное изображение. В верхней точке спирали добавляется высокочастотный сигнал-разделитель, в нижней точке спирали – низкочастотный сигнал-разделитель. Это приводит к тому, что пользователь тратит дополнительное время и когнитивные ресурсы, чтобы обрабатывать и различать левые пол-оборота спирали и правые пол-оборота спирали. Кроме того, на микропроцессорную обработку расходуются дополнительные вычислительные ресурсы. Второй недостаток предложенного способа-прототипа заключается в том, что он не учитывает горизонтальную ориентированность поля зрения человека. Спиралеобразная развертка захватывает участок изображения квадратной формы и искажает горизонтальную составляющую изображения.

Предлагаемое техническое решение свободно от упомянутых недостатков и отличается тем, что для достижения технического результата ширина столбцов двумерного массива пикселей по мере смещения от центра массива к периферии влево и вправо увеличивается по линейному закону. Значения звукового сигнала, полученные после преобразования, записываются в аудиофайл последовательно от центра к периферии, при воспроизведении аудиофайла громкость воспроизведения в левом и правом каналах уменьшается по линейному закону.

Техническим результатом, обеспечиваемым приведенной совокупностью признаков, во-первых, является снижение разрешающей способности изображения, в результате чего снижается нагрузка на слуховую сенсорную систему пользователя и повышается продуктивность использования системы визуально-аудиального сенсорного замещения. Во-вторых, технический результат заключается в сокращении числа вычислительных ресурсов и времени, необходимого для выполнения преобразования изображения в звуковой сигнал.

Предлагаемый способ осуществляется следующим образом.

На первом этапе статическое изображение или отдельный кадр видеоизображения, предварительно полученный с цифровой видеокамеры и представленный в цифровом виде как двумерная матрица пикселей, вводят в оперативную память микропроцессорной системы. Пиксель – неделимая (наименьшая) точка цифрового растрового изображения или отдельного кадра видеоизображения. Пиксель характеризуется прямоугольной формой, цветом, яркостью (интенсивностью) и размерами.

Цифровое растровое изображение или отдельный кадр видеоизображения представляют собой совокупность пикселей. При обработке совокупность пикселей изображения представляется в виде двумерного массива, таким образом каждому пикселю изображения присваивается два индекса, определяющих координаты положения пикселя по вертикальной и горизонтальной осям. В настоящем способе преобразования цифрового растрового изображения в звуковой сигнал используются два параметра пикселя: яркость (интенсивность) пикселя и координата положения пикселя по вертикальной оси.

На втором этапе выполняется обработка цифровых данных двумерного массива пикселей с помощью микропроцессора и их преобразование в звуковой сигнал. Для этого двумерный массив пикселей разбивается на строки и столбцы пикселей, ширина каждой строки массива равна 1 пикселю, ширина столбцов массива варьируются. Чтобы варьировать ширину столбцов, массив разбивают пополам на две одинаковые части: левую и правую, для левой половины массива ширину первого справа столбца задают равной 1 пикселю, для правой половины массива ширину первого слева столбца задают равной 1 пикселю. Затем по мере смещения от центра массива к периферии влево и вправо ширину столбцов пикселей увеличивают по линейному закону. Для каждого пересечения строки и столбца вычисляют амплитуду и частоту звуковой волны. Амплитуда звуковой волны вычисляется пропорционально средней яркости пикселей этого пересечения, при этом чем выше средняя яркость пикселей пересечения, тем больше амплитуда звукового сигнала. Частота звуковой волны вычисляется пропорционально координате положения пересечения по вертикальной оси, при этом чем больше координата положения пересечения по вертикальной оси, тем выше частота его звучания. В результате звуковые волны суммируют по столбцам, полученные суммы звуковых волн записывают в аудиофайл последовательно от центра к периферии, при этом в левый канал аудиофайла записывают суммы звуковых волн для левой половины массива, в правый канал аудиофайла записывают суммы звуковых волн для правой половины массива.

На третьем этапе осуществляется воспроизведение полученного сигнала в виде звуковых колебаний с помощью аудиосистемы. Аудиофайл, полученный на предыдущем этапе, воспроизводят таким образом, что громкость воспроизведения в левом и правом каналах аудиофайла уменьшается по линейному закону.

В результате произвольное статическое изображение или отдельный кадр видеоизображения воспроизводятся в виде звукового сигнала пользователю системы визуально-аудиального сенсорного замещения.

Реализация изобретения может осуществляться следующим образом. В качестве источника цифрового растрового изображения может использоваться цифровая видеокамера, в том числе веб-камера, камера мобильного телефона, планшета или ноутбука. Преобразование цифрового растрового изображения настоящим способом может осуществляться в режиме реального времени с помощью микропроцессора стационарного компьютера, ноутбука, планшета или мобильного телефона, на который установлена компьютерная программа, реализующая вышеописанный способ преобразования изображения в звуковой сигнал. Для воспроизведения звукового сигнала может быть использована как собственная аудиосистема стационарного компьютера, ноутбука, планшета или мобильного телефона, так и внешняя аудиосистема (колонки, наушники).

Claims

Способ преобразования цифрового растрового изображения в звуковой сигнал для произвольного статического изображения или отдельного кадра видеоизображения, представленного в цифровом виде как двумерная матрица пикселей, при котором вводят цифровые данные двумерного массива пикселей в оперативную память микропроцессорной системы, выполняют обработку цифровых данных двумерного массива пикселей с помощью микропроцессора, воспроизводят полученный сигнал в виде звуковых колебаний с помощью аудиосистемы, отличающийся тем, что двумерный массив пикселей разбивают на строки и столбцы пикселей, при этом ширину каждой строки массива задают равной 1 пикселю, а ширину столбцов массива варьируют, для этого массив делят пополам, для левой половины массива ширину первого справа столбца задают равной 1 пикселю, для правой половины массива ширину первого слева столбца задают равной 1 пикселю, затем по мере смещения от центра массива к периферии влево и вправо ширину столбцов пикселей увеличивают по линейному закону, после чего для каждого пересечения строки и столбца вычисляют амплитуду звуковой волны пропорционально средней яркости пикселей этого пересечения, вычисляют частоту звуковой волны пропорционально координате положения пересечения по вертикальной оси, в результате суммируют звуковые волны по столбцам, вводят полученные суммы звуковых волн в аудиофайл последовательно от центра к периферии, при этом в левый канал аудиофайла вводят суммы звуковых волн для левой половины массива, в правый канал аудиофайла вводят суммы звуковых волн для правой половины массива, после чего воспроизводят аудиофайл, при этом громкость воспроизведения в левом и правом каналах аудиофайла уменьшают по линейному закону.