RU2820074C1 - Способ преобразования цифрового растрового изображения в звуковой сигнал для технологии визуально-аудиального сенсорного замещения - Google Patents

Способ преобразования цифрового растрового изображения в звуковой сигнал для технологии визуально-аудиального сенсорного замещения Download PDF

Info

Publication number
RU2820074C1
RU2820074C1 RU2024101864A RU2024101864A RU2820074C1 RU 2820074 C1 RU2820074 C1 RU 2820074C1 RU 2024101864 A RU2024101864 A RU 2024101864A RU 2024101864 A RU2024101864 A RU 2024101864A RU 2820074 C1 RU2820074 C1 RU 2820074C1
Authority
RU
Russia
Prior art keywords
array
pixels
columns
width
image
Prior art date
Application number
RU2024101864A
Other languages
English (en)
Inventor
Анастасия Сергеевна Буторова
Егор Александрович Корюкин
Александр Петрович Сергеев
Original Assignee
Федеральное государственное автономное образовательное учреждение высшего образования "Уральский федеральный университет имени первого Президента России Б.Н. Ельцина"
Filing date
Publication date
Application filed by Федеральное государственное автономное образовательное учреждение высшего образования "Уральский федеральный университет имени первого Президента России Б.Н. Ельцина" filed Critical Федеральное государственное автономное образовательное учреждение высшего образования "Уральский федеральный университет имени первого Президента России Б.Н. Ельцина"
Application granted granted Critical
Publication of RU2820074C1 publication Critical patent/RU2820074C1/ru

Links

Abstract

Изобретение относится к области акустики. Способ преобразования цифрового растрового изображения в звуковой сигнал заключается в том, что цифровые данные двумерного массива пикселей произвольного статического изображения или отдельного кадра видеоизображения вводят в оперативную память микропроцессорной системы, выполняют обработку цифровых данных массива, воспроизводят полученный сигнал в виде звуковых колебаний. При этом двумерный массив пикселей разбивают на строки и столбцы пикселей так, что ширина каждой строки массива равна 1 пикселю, а ширина столбцов массива увеличивается по линейному закону по мере смещения от центра массива к периферии влево и вправо. Амплитуда звуковой волны вычисляется пропорционально средней яркости пикселей пересечения строки и столбца, частота звуковой волны – пропорционально координате положения пересечения по вертикальной оси. Суммы звуковых волн записывают в аудиофайл последовательно от центра к периферии, при воспроизведении аудиофайла громкость в левом и правом каналах уменьшают по линейному закону. Технический результат – снижение разрешающей способности изображения и сокращение числа вычислительных ресурсов.

Description

Изобретение относится к области цифровой обработки данных, в частности к способам преобразования изображений в звуковой сигнал, и предназначено для использования в технологии визуально-аудиального сенсорного замещения. Технический результат может найти применение в разработке ассистивных технологий для людей с ограниченными возможностями здоровья по зрению, а также в разработке человеко-машинных интерфейсов.
По данным Всемирной организации здравоохранения, по меньшей мере 2,2 млрд человек во всем мире живут с той или иной формой нарушения зрения или слепотой. Из них около 1,2 млрд имеют необратимые повреждения зрительной сенсорной системы [Всемирный доклад о проблемах зрения [World report on vision] // Женева: Всемирная организация здравоохранения; 2020. Лицензия: CC BY-NC-SA 3.0 IGO]. C 1990-х годов известны устройства сенсорного замещения, которые преобразуют информацию одной сенсорной модальности (например, зрительной) в информацию другой сенсорной модальности (аудиальную или тактильную). Устройства визуально-аудиального сенсорного замещения преобразовывают изображения, поступающие с видеокамеры, в звуковой сигнал и подают его на вход слуховой сенсорной системы.
Известен способ [Meijer, P.B.L. Image-audio transformation system // US5097326, 17.03.1992], при котором преобразование изображения в звуковой сигнал осуществляется сканированием изображения слева направо. Высота положения объекта в поле зрения кодируется звуковым тоном: чем выше положение объекта в поле зрения, тем выше тон его звучания. Яркость объекта кодируется громкостью: чем ярче (светлее) объект, тем громче он звучит. В способе [Маковецкий В.В., Крикушенко А.В., Крикушенко В.В. Визуально-звуковая система для слепых и слабовидящих людей // Патент РФ 2679866 от 13.02.2019. Бюл. № 5] преобразование изображения в звук осуществляется по схожим принципам.
В указанных решениях пользователю передается информация обо всем поле зрения видеокамеры без предварительной обработки. Недостаток такого подхода заключается в том, что звуковой сигнал, помимо информации, значимой для навигации пользователя, содержит избыточную информацию. В результате пользователю требуется много времени, чтобы проанализировать поступающий звуковой сигнал. В результате у пользователя возникает сенсорная перегрузка и снижается продуктивность использования устройства сенсорного замещения [Sensory substitution and the neural correlates of navigation in blindness / D.-R. Chebat, V. Harrar, R. Kupers, S. Maidenbaum, A. Amedi, M. Ptito // Mobility of Visually Impaired People: Springer. 2018. P. 167–200; Navigating from a depth image converted into sound / C. Stoll, R. Palluel-Germain, V. Fristot, D. Pellerin, D. Alleysson, C. Graff // Applied Bionics and Biomechanics. 2015. Vol. 2015. 27019586. doi: 10.1155/2015/543492].
Наиболее близким аналогом (прототипом) настоящего изобретения является способ преобразования цифрового растрового изображения в звуковой образ для произвольного статического изображения или отдельного кадра видеоизображения [Фрейдман А. В. Способ преобразования изображения в звуковой образ // Патент РФ 2649422 от 03.04.2018. Бюл. № 10]. В предложенном способе двумерный массив данных изображения, содержащий значения яркости и цветности каждого пикселя изображения, представляют в виде одномерного массива с помощью спиралеобразной развертки от центра изображения к его периферии. На периферии развертки значения яркости и цветности усредняются для нескольких рядом расположенных пикселей, в результате на основе полученного одномерного массива формируют массив данных звуковой волны.
Прототип имеет следующие существенные недостатки. Во-первых, к массиву данных исходного изображения каждые пол-оборота спирали добавляется избыточная информация в виде сигналов-разделителей, имеющих маргинальные частоты ниже и выше всех частот, кодирующих исходное изображение. В верхней точке спирали добавляется высокочастотный сигнал-разделитель, в нижней точке спирали – низкочастотный сигнал-разделитель. Это приводит к тому, что пользователь тратит дополнительное время и когнитивные ресурсы, чтобы обрабатывать и различать левые пол-оборота спирали и правые пол-оборота спирали. Кроме того, на микропроцессорную обработку расходуются дополнительные вычислительные ресурсы. Второй недостаток предложенного способа-прототипа заключается в том, что он не учитывает горизонтальную ориентированность поля зрения человека. Спиралеобразная развертка захватывает участок изображения квадратной формы и искажает горизонтальную составляющую изображения.
Предлагаемое техническое решение свободно от упомянутых недостатков и отличается тем, что для достижения технического результата ширина столбцов двумерного массива пикселей по мере смещения от центра массива к периферии влево и вправо увеличивается по линейному закону. Значения звукового сигнала, полученные после преобразования, записываются в аудиофайл последовательно от центра к периферии, при воспроизведении аудиофайла громкость воспроизведения в левом и правом каналах уменьшается по линейному закону.
Техническим результатом, обеспечиваемым приведенной совокупностью признаков, во-первых, является снижение разрешающей способности изображения, в результате чего снижается нагрузка на слуховую сенсорную систему пользователя и повышается продуктивность использования системы визуально-аудиального сенсорного замещения. Во-вторых, технический результат заключается в сокращении числа вычислительных ресурсов и времени, необходимого для выполнения преобразования изображения в звуковой сигнал.
Предлагаемый способ осуществляется следующим образом.
На первом этапе статическое изображение или отдельный кадр видеоизображения, предварительно полученный с цифровой видеокамеры и представленный в цифровом виде как двумерная матрица пикселей, вводят в оперативную память микропроцессорной системы. Пиксель – неделимая (наименьшая) точка цифрового растрового изображения или отдельного кадра видеоизображения. Пиксель характеризуется прямоугольной формой, цветом, яркостью (интенсивностью) и размерами.
Цифровое растровое изображение или отдельный кадр видеоизображения представляют собой совокупность пикселей. При обработке совокупность пикселей изображения представляется в виде двумерного массива, таким образом каждому пикселю изображения присваивается два индекса, определяющих координаты положения пикселя по вертикальной и горизонтальной осям. В настоящем способе преобразования цифрового растрового изображения в звуковой сигнал используются два параметра пикселя: яркость (интенсивность) пикселя и координата положения пикселя по вертикальной оси.
На втором этапе выполняется обработка цифровых данных двумерного массива пикселей с помощью микропроцессора и их преобразование в звуковой сигнал. Для этого двумерный массив пикселей разбивается на строки и столбцы пикселей, ширина каждой строки массива равна 1 пикселю, ширина столбцов массива варьируются. Чтобы варьировать ширину столбцов, массив разбивают пополам на две одинаковые части: левую и правую, для левой половины массива ширину первого справа столбца задают равной 1 пикселю, для правой половины массива ширину первого слева столбца задают равной 1 пикселю. Затем по мере смещения от центра массива к периферии влево и вправо ширину столбцов пикселей увеличивают по линейному закону. Для каждого пересечения строки и столбца вычисляют амплитуду и частоту звуковой волны. Амплитуда звуковой волны вычисляется пропорционально средней яркости пикселей этого пересечения, при этом чем выше средняя яркость пикселей пересечения, тем больше амплитуда звукового сигнала. Частота звуковой волны вычисляется пропорционально координате положения пересечения по вертикальной оси, при этом чем больше координата положения пересечения по вертикальной оси, тем выше частота его звучания. В результате звуковые волны суммируют по столбцам, полученные суммы звуковых волн записывают в аудиофайл последовательно от центра к периферии, при этом в левый канал аудиофайла записывают суммы звуковых волн для левой половины массива, в правый канал аудиофайла записывают суммы звуковых волн для правой половины массива.
На третьем этапе осуществляется воспроизведение полученного сигнала в виде звуковых колебаний с помощью аудиосистемы. Аудиофайл, полученный на предыдущем этапе, воспроизводят таким образом, что громкость воспроизведения в левом и правом каналах аудиофайла уменьшается по линейному закону.
В результате произвольное статическое изображение или отдельный кадр видеоизображения воспроизводятся в виде звукового сигнала пользователю системы визуально-аудиального сенсорного замещения.
Реализация изобретения может осуществляться следующим образом. В качестве источника цифрового растрового изображения может использоваться цифровая видеокамера, в том числе веб-камера, камера мобильного телефона, планшета или ноутбука. Преобразование цифрового растрового изображения настоящим способом может осуществляться в режиме реального времени с помощью микропроцессора стационарного компьютера, ноутбука, планшета или мобильного телефона, на который установлена компьютерная программа, реализующая вышеописанный способ преобразования изображения в звуковой сигнал. Для воспроизведения звукового сигнала может быть использована как собственная аудиосистема стационарного компьютера, ноутбука, планшета или мобильного телефона, так и внешняя аудиосистема (колонки, наушники).

Claims (1)

  1. Способ преобразования цифрового растрового изображения в звуковой сигнал для произвольного статического изображения или отдельного кадра видеоизображения, представленного в цифровом виде как двумерная матрица пикселей, при котором вводят цифровые данные двумерного массива пикселей в оперативную память микропроцессорной системы, выполняют обработку цифровых данных двумерного массива пикселей с помощью микропроцессора, воспроизводят полученный сигнал в виде звуковых колебаний с помощью аудиосистемы, отличающийся тем, что двумерный массив пикселей разбивают на строки и столбцы пикселей, при этом ширину каждой строки массива задают равной 1 пикселю, а ширину столбцов массива варьируют, для этого массив делят пополам, для левой половины массива ширину первого справа столбца задают равной 1 пикселю, для правой половины массива ширину первого слева столбца задают равной 1 пикселю, затем по мере смещения от центра массива к периферии влево и вправо ширину столбцов пикселей увеличивают по линейному закону, после чего для каждого пересечения строки и столбца вычисляют амплитуду звуковой волны пропорционально средней яркости пикселей этого пересечения, вычисляют частоту звуковой волны пропорционально координате положения пересечения по вертикальной оси, в результате суммируют звуковые волны по столбцам, вводят полученные суммы звуковых волн в аудиофайл последовательно от центра к периферии, при этом в левый канал аудиофайла вводят суммы звуковых волн для левой половины массива, в правый канал аудиофайла вводят суммы звуковых волн для правой половины массива, после чего воспроизводят аудиофайл, при этом громкость воспроизведения в левом и правом каналах аудиофайла уменьшают по линейному закону.
RU2024101864A 2024-01-26 Способ преобразования цифрового растрового изображения в звуковой сигнал для технологии визуально-аудиального сенсорного замещения RU2820074C1 (ru)

Publications (1)

Publication Number Publication Date
RU2820074C1 true RU2820074C1 (ru) 2024-05-28

Family

ID=

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4000565A (en) * 1975-05-05 1977-01-04 International Business Machines Corporation Digital audio output device
US4322744A (en) * 1979-12-26 1982-03-30 Stanton Austin N Virtual sound system for the visually handicapped
US4812746A (en) * 1983-12-23 1989-03-14 Thales Resources, Inc. Method of using a waveform to sound pattern converter
CN1053542A (zh) * 1990-01-15 1991-08-07 陈平 利用光——声像变换使盲人能观察景物的装置
US5097326A (en) * 1989-07-27 1992-03-17 U.S. Philips Corporation Image-audio transformation system
AU3839999A (en) * 1998-05-12 1999-11-29 University Of Manchester Institute Of Science & Technology, The Visualising images
RU2188611C2 (ru) * 1999-10-28 2002-09-10 Сокольский Валерий Николаевич Способ ориентации слепого и устройство для его осуществления
GB2441434A (en) * 2006-08-29 2008-03-05 David Charles Dewhurst AUDIOTACTILE VISION SUBSTITUTION SYSTEM e.g. FOR THE BLIND
CN102688120A (zh) * 2012-06-08 2012-09-26 綦峰 彩色声像导盲方法及彩色声像导盲仪
CN203596902U (zh) * 2013-12-05 2014-05-14 无锡焺通微电子有限公司 具有线性功率音量控制的音频功率放大集成电路芯片
RU2568265C1 (ru) * 2014-07-28 2015-11-20 Борис Иванович Волков Способ создания музыкального произведения и устройство его осуществления
RU2649422C2 (ru) * 2013-08-28 2018-04-03 Андрей Витальевич Фрейдман Способ преобразования изображения в звуковой образ
US11185445B2 (en) * 2015-06-12 2021-11-30 Eyesynth, S.L. Portable system that allows blind or visually impaired persons to interpret the surrounding environment by sound and touch

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4000565A (en) * 1975-05-05 1977-01-04 International Business Machines Corporation Digital audio output device
US4322744A (en) * 1979-12-26 1982-03-30 Stanton Austin N Virtual sound system for the visually handicapped
US4812746A (en) * 1983-12-23 1989-03-14 Thales Resources, Inc. Method of using a waveform to sound pattern converter
US5097326A (en) * 1989-07-27 1992-03-17 U.S. Philips Corporation Image-audio transformation system
CN1053542A (zh) * 1990-01-15 1991-08-07 陈平 利用光——声像变换使盲人能观察景物的装置
AU3839999A (en) * 1998-05-12 1999-11-29 University Of Manchester Institute Of Science & Technology, The Visualising images
RU2188611C2 (ru) * 1999-10-28 2002-09-10 Сокольский Валерий Николаевич Способ ориентации слепого и устройство для его осуществления
GB2441434A (en) * 2006-08-29 2008-03-05 David Charles Dewhurst AUDIOTACTILE VISION SUBSTITUTION SYSTEM e.g. FOR THE BLIND
CN102688120A (zh) * 2012-06-08 2012-09-26 綦峰 彩色声像导盲方法及彩色声像导盲仪
RU2649422C2 (ru) * 2013-08-28 2018-04-03 Андрей Витальевич Фрейдман Способ преобразования изображения в звуковой образ
CN203596902U (zh) * 2013-12-05 2014-05-14 无锡焺通微电子有限公司 具有线性功率音量控制的音频功率放大集成电路芯片
RU2568265C1 (ru) * 2014-07-28 2015-11-20 Борис Иванович Волков Способ создания музыкального произведения и устройство его осуществления
US11185445B2 (en) * 2015-06-12 2021-11-30 Eyesynth, S.L. Portable system that allows blind or visually impaired persons to interpret the surrounding environment by sound and touch

Similar Documents

Publication Publication Date Title
Capelle et al. A real-time experimental prototype for enhancement of vision rehabilitation using auditory substitution
US8068644B2 (en) System for seeing using auditory feedback
CN107708624B (zh) 允许盲人或视障人士通过声音或触觉了解周围环境的便携式系统
US20200053464A1 (en) User interface for controlling audio zones
JPH01160264A (ja) 画像処理方法
CN101916569B (zh) 一种显示声音的方法和装置
US20170064444A1 (en) Signal processing apparatus and method
RU2820074C1 (ru) Способ преобразования цифрового растрового изображения в звуковой сигнал для технологии визуально-аудиального сенсорного замещения
US20110229033A1 (en) Image Processing Method, and Program
US20220225049A1 (en) An apparatus and associated methods for capture of spatial audio
US20170215005A1 (en) Audio refocusing methods and electronic devices utilizing the same
KR102583038B1 (ko) 지향성 스케일링 시스템들 및 방법들
CN111787464B (zh) 一种信息处理方法、装置、电子设备和存储介质
US20210314723A1 (en) An Apparatus, Method and Computer Program for Representing a Sound Space
Wang et al. Conveying visual information with spatial auditory patterns
JP4762870B2 (ja) 信号特徴抽出方法、信号特徴抽出装置、信号特徴抽出プログラム、及びその記録媒体
CN108564580B (zh) 基于人类视觉系统的图像质量评价方法
Riahi et al. VBTones a visual to auditory device for the blind
WO2019087763A1 (ja) 画像処理装置、画像処理方法、プログラム、および表示装置
CN109819318B (zh) 一种图像处理、直播方法、装置、计算机设备及存储介质
Gadgil et al. Image Debanding Using Iterative Adaptive Sparse Filtering
Zhang et al. ISEE: A Wearable Image-Sound Translation System for Partially Sighted People
Göktürk et al. REAL TIME SENSORY SUBSTITUTION FOR THE BLIND
US4929937A (en) Circuit for generating image signal
JP2023513318A (ja) マルチメディアコンテンツ