RU2649422C2 - Method of image conversion to sound image - Google Patents
Method of image conversion to sound image Download PDFInfo
- Publication number
- RU2649422C2 RU2649422C2 RU2013139845A RU2013139845A RU2649422C2 RU 2649422 C2 RU2649422 C2 RU 2649422C2 RU 2013139845 A RU2013139845 A RU 2013139845A RU 2013139845 A RU2013139845 A RU 2013139845A RU 2649422 C2 RU2649422 C2 RU 2649422C2
- Authority
- RU
- Russia
- Prior art keywords
- image
- pixels
- digital
- data
- sound wave
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B21/00—Teaching, or communicating with, the blind, deaf or mute
Abstract
Description
Изобретение относится к способам преобразования визуальной информации в другие виды с целью ее восприятия инвалидами по зрению (слепыми) или людьми с ослабленным зрением. В настоящем изобретении предлагается преобразование зрительной информации в звуковую форму (воспринимаемую слухом). После обучения восприятию мобильная система на базе данного изобретения должна заменить слепому зрение. The invention relates to methods for converting visual information into other types with a view to its perception by the visually impaired (blind) or people with impaired vision. The present invention provides the conversion of visual information into a sound form (perceived by hearing). After learning perception, a mobile system based on this invention should replace blind vision.
Помимо выше описанного основного применения данное изобретение должно также помочь зрячим людям облегчить задачу визуального мониторинга в таких приложениях, как видеонаблюдение, охрана объектов или восприятие дополнительных видов (например, восприятие водителем автомобиля изображения с камеры заднего вида, не отвлекаясь от основного вида спереди). In addition to the main application described above, this invention should also help sighted people ease the task of visual monitoring in applications such as video surveillance, object protection or the perception of additional views (for example, the perception by the car driver of an image from a rear view camera without being distracted from the main front view).
Существуют различные способы представления визуальной информации в звуковом виде. Например, способ формирования акустического образа [патент Российской Федерации 2119785, 1998.10.10] требует сложной четырехкомпонентной системы источников аудиосигнала, которая не сможет применяться в мобильном устройстве. There are various ways to present visual information in audio form. For example, a method of forming an acoustic image [patent of the Russian Federation 2119785, 1998.10.10] requires a complex four-component system of audio sources that cannot be used in a mobile device.
Метод и система для получения аудио образа из графических данных [европейский патент EP 1369839, 2003.12.10] позволяют создать аудиообразы для небольших по размеру изображений, например символов. Однако этот метод в настоящее время не актуален в связи с наличием систем прямого преобразования TTS (text-to-speech = текст-в-речь), которые способны озвучивать символьную информацию после распознавания текста с помощью компьютерной программы, а для представления произвольного изображения данный метод непригоден из-за ограниченной разрешающей способности. The method and system for obtaining an audio image from graphic data [European patent EP 1369839, 2003.12.10] allows you to create audio images for small-sized images, such as characters. However, this method is currently not relevant due to the presence of direct TTS (text-to-speech = text-to-speech) systems that are capable of voicing symbolic information after recognizing text using a computer program, and for presenting an arbitrary image, this method unsuitable due to limited resolution.
В изобретении [патент Японии JP 2004020869, 2004.01.22] используется панорамная камера (all azimuth imaging apparatus), позволяющая получить звуковой сигнал о том, что данное место вам знакомо. The invention [Japanese patent JP 2004020869, 2004.01.22] uses a panoramic camera (all azimuth imaging apparatus), which allows you to receive an audio signal that this place is familiar to you.
Способ представления видеоинформации [патент РФ 2223552, 2004.02.10] предназначен для представления цветных изображений в виде комбинации массива выпуклых и плоских точек (тактильное восприятие) и звуковых сигналов (восприятие слухом). Данный способ дает невысокую разрешающую способность и требует довольно большого времени на «ощупывание» изображения. The method of presenting video information [RF patent 2223552, 2004.02.10] is intended to represent color images as a combination of an array of convex and flat points (tactile perception) and sound signals (perception by hearing). This method gives a low resolution and requires a fairly long time to "feel" the image.
Устройство идентификации цвета [патент WO 2005085781, 2005.09.15] выделяет лишь один цвет в изображении, и этот цвет преобразует в звуковой сигнал. По этому звуковому сигналу человеком распознается цвет. Очевидно, что данное устройство дает слишком мало информации для ориентации слепому. The color identification device [patent WO2005085781, 2005.09.15] emits only one color in the image, and this color converts into an audio signal. By this sound signal, a person recognizes the color. Obviously, this device provides too little information to target the blind.
Наиболее близким аналогом (прототипом) настоящего изобретения является метод и устройство для визуализации изображений с помощью звука [патент США US 6963656, 2005.11.08]. Данный метод предполагает шифрование пространственной информации в форму полифонической музыкальной последовательности. Ввиду недостаточной разрешающей способности данного метода предполагается разбиение изображения на части с выделением некоторых признаков, которые кодируются по частям. The closest analogue (prototype) of the present invention is a method and device for visualizing images using sound [US patent US 6963656, 2005.11.08]. This method involves encrypting spatial information in the form of a polyphonic musical sequence. Due to the insufficient resolution of this method, it is supposed to divide the image into parts with the allocation of some features that are encoded in parts.
Недостатком прототипа является то, что этот метод не является универсальным ввиду бесконечного разнообразия возможного разбиения произвольного изображения на отдельные части. The disadvantage of the prototype is that this method is not universal due to the infinite variety of possible splitting of an arbitrary image into separate parts.
Для последующего рассмотрения настоящего изобретения определим понимание следующих терминов. For a further review of the present invention, we define an understanding of the following terms.
Цифровое растровое изображение – совокупность числовых элементов (пикселей, см. ниже), которые с определенной точностью и масштабом представляют некоторое изображение, являющееся или прямым, или косвенным (например, через фантазию художника) отражением материального мира. Эти числовые элементы могут обрабатываться в микропроцессорных системах, таких как компьютер, мобильный телефон, цифровая фото- или видеокамера. Для удобства обработки эта совокупность числовых элементов представляется в виде двумерного массива, так что отдельный элемент изображения имеет два индекса, определяющих координату местоположения данного элемента в прямоугольной области, ограничивающей изображение. A digital raster image is a collection of numerical elements (pixels, see below), which with a certain accuracy and scale represent a certain image that is either direct or indirect (for example, through the imagination of the artist) a reflection of the material world. These numerical elements can be processed in microprocessor systems, such as a computer, mobile phone, digital camera or video camera. For ease of processing, this set of numerical elements is represented as a two-dimensional array, so that a single image element has two indexes that determine the location coordinate of this element in the rectangular region bounding the image.
Пиксель (англ. Pixel = Picture Element) – «наименьший элемент поверхности визуализации, которому может быть независимым образом заданы цвет, интенсивность и другие характеристики изображения» (ГОСТ 27459-87). Размер пикселя определяет масштаб изображения, который для цели представления в звуковом виде не является существенным. Поэтому далее в описании будем подразумевать, что каждый отдельный пиксель как элемент изображения характеризуется только цветом и интенсивностью (яркостью). Pixel (English Pixel = Picture Element) - “the smallest element of the visualization surface, which can be independently set the color, intensity and other characteristics of the image” (GOST 27459-87). The pixel size determines the scale of the image, which is not significant for the purpose of presentation in audio form. Therefore, in the description below, we will mean that each individual pixel as an image element is characterized only by color and intensity (brightness).
Итак, информация, воспринимаемая зрением, может быть преобразована в форму цифрового растрового изображения с помощью сканера, фото- или видеокамеры. Полученные цифровые данные с помощью обработки могут быть тем или иным способом преобразованы в форму звуковых колебаний, которые при воспроизведении воспринимаются как звуковые (акустические) образы. So, the information perceived by vision can be converted into the form of a digital raster image using a scanner, camera or video camera. The digital data obtained by processing can be converted in one way or another into the form of sound vibrations, which when reproduced are perceived as sound (acoustic) images.
Сущность настоящего изобретения состоит в том, что двумерный массив данных (яркость и цвет для каждого пикселя) растрового изображения с помощью спиралеобразной развертки (начиная из центра изображения к его периферии) представляется в виде одномерного массива, который служит основой для синтеза цифрового массива данных звуковой волны. При этом данные яркости пикселей формируют текущую амплитуду (огибающую) звуковой волны, а данные цветности пикселей формируют величину текущей частоты колебания звуковой волны. Для монохромного изображения звуковой сигнал будет однотонным (сигнал будет меняться только по амплитуде). The essence of the present invention is that a two-dimensional data array (brightness and color for each pixel) of a raster image using a spiral scan (starting from the center of the image to its periphery) is represented as a one-dimensional array, which serves as the basis for the synthesis of a digital sound wave data array . In this case, the pixel luminance data forms the current amplitude (envelope) of the sound wave, and the pixel color data form the magnitude of the current sound wave frequency. For a monochrome image, the audio signal will be solid (the signal will only vary in amplitude).
Для того чтобы было ясно, какую часть спирали отображает в данный момент звуковой сигнал, после каждого пол-оборота спирали в звуковую последовательность сигналов вставлен один из двух сигналов-разделителей, имеющих частоты ниже и выше всех возможных частот, кодирующих цвета изображения. Например, если спираль начинается с верхнего пикселя начального оборота спирали, то после каждого нечетного пол-оборота вставлен низкочастотный разделитель (в нижней точки спирали), а после каждого четного пол-оборота вставлен высокочастотный разделитель (в верхней точки спирали). In order to make it clear which part of the spiral the sound signal is currently displaying, after each half-turn of the spiral, one of the two splitter signals is inserted into the sound sequence of signals, having frequencies below and above all possible frequencies encoding the color of the image. For example, if a spiral starts from the top pixel of the initial revolution of the spiral, then after each odd half-turn, a low-frequency separator is inserted (at the bottom of the spiral), and after every even half-revolution a high-frequency separator is inserted (at the top of the spiral).
В случае больших изображений (с большим числом пикселей) для получения приемлемой длины звуковой волны изображение на периферии «загрубляется», т.е. данные пикселей объединяются и усредняются. В результате один «виртуальный» пиксель заменяет несколько исходных. Например, четыре расположенные рядом пикселя (квадратом 2х2) заменяются одним эквивалентным пикселем, у которого цвет будет соответствовать частоте, равной среднеарифметическому от частот цвета четырех исходных пикселей, и яркость эквивалентного пикселя будет равна среднеарифметическому значению яркости четырех исходных пикселей. По мере удаления от начальной точки спирали число объединяемых пикселей возрастает. Например, сначала некоторое число оборотов спирали кодирование производится без объединения пикселей, затем несколько оборотов спирали с объединением и усреднением по 4 (2х2) рядом расположенных пикселей, захватывая в 2 раза более широкую полосу пикселей, далее – некоторое число оборотов спирали с объединением и усреднением по 9 (3х3) рядом расположенных пикселей, потом несколько оборотов спирали с объединением и усреднением по 16 (4х4) соседних пикселей и т.д. Таким образом, время, необходимое для воспроизведения части звуковой волны, соответствующей одному обороту спирали на периферии изображения, покрывающему широкую площадь изображения, существенно уменьшается. При этом уменьшается разрешающая способность – информация от периферийных частей изображения представляется в обобщенном виде – так же, как человеческий глаз воспринимает информацию с периферийной части картины, когда взгляд сосредоточен в ее центре. In the case of large images (with a large number of pixels), in order to obtain an acceptable sound wavelength, the image at the periphery is “roughened”, pixel data is combined and averaged. As a result, one “virtual” pixel replaces several original ones. For example, four adjacent pixels (a 2x2 square) are replaced by one equivalent pixel, in which the color will correspond to a frequency equal to the arithmetic average of the color frequencies of the four source pixels, and the brightness of the equivalent pixel will be equal to the arithmetic average of the brightness of the four source pixels. As you move away from the starting point of the spiral, the number of pixels to be combined increases. For example, at first a certain number of spiral revolutions is encoded without combining pixels, then several spiral revolutions are combined and averaged over 4 (2x2) adjacent pixels, capturing a 2-fold wider band of pixels, then a certain number of spiral revolutions are combined and averaged over 9 (3x3) adjacent pixels, then several turns of the spiral with the union and averaging of 16 (4x4) neighboring pixels, etc. Thus, the time required to reproduce the part of the sound wave corresponding to one revolution of the spiral on the periphery of the image, covering a wide area of the image, is significantly reduced. At the same time, the resolution decreases - the information from the peripheral parts of the image is presented in a generalized form - just like the human eye perceives information from the peripheral part of the picture when the gaze is concentrated in its center.
Центральная точка, с которой первоначально начинается спиралеобразная развертка изображения, служит аналогом «точки взгляда», т.е. места, куда сфокусированы глаза человека, когда он начинает осматривать картинку. Звуковая волна, сформированная на базе спиралеобразной развертки, начиная из некоторой начальной точки изображения, отличной от центральной, будет аналогом «перемещения взгляда» при осмотре картинки глазами. Перемещение начальной точки развертки из центра изображения в иную точку изображения, получение и воспроизведение соответствующих звуковых образов для слуха подобны последовательному осмотру изображения, когда глаза фокусируют взгляд последовательно на разные участки изображения. При этом область, непосредственно примыкающая к начальной точке, там, где объединения и усреднения данных пикселей еще нет, будет иметь наилучшее разрешение. Поэтому эта область будет основой формирования наиболее информативной части звуковой волны. Наличие указательного устройства в системе (мышь, тачпад, сенсорный экран) позволит слепому перемещать виртуальный «взгляд» и многократно формировать звуковые образы для одного и того же растрового изображения, воспринимая которые можно будет опознавать представленный на картинке образ. The central point, from which the spiral-like scanning of the image begins, serves as an analogue of the “point of view", i.e. places where the person’s eyes are focused when he begins to examine the picture. A sound wave formed on the basis of a spiral scan, starting from a certain starting point of the image, different from the central one, will be an analogue of “moving eyes” when viewing the picture with eyes. Moving the starting point of the scan from the center of the image to another point in the image, receiving and reproducing the corresponding sound images for hearing is similar to sequential viewing of the image, when the eyes focus the eye sequentially on different parts of the image. At the same time, the area directly adjacent to the starting point, where there is still no union and averaging of these pixels, will have the best resolution. Therefore, this area will be the basis for the formation of the most informative part of the sound wave. The presence of a pointing device in the system (mouse, touchpad, touch screen) will allow the blind to move the virtual “look” and repeatedly generate sound images for the same bitmap, perceiving which it will be possible to recognize the image presented in the picture.
На Фиг.1 представлен принцип спиралеобразной развертки данных растрового изображения в одномерный массив для кодирования с целью получения сигнала звуковой волны и варианты его осуществления.Figure 1 shows the principle of a spiral scan of raster image data into a one-dimensional array for encoding in order to obtain a sound wave signal and its implementation options.
На Фиг.2 представлен принцип кодирования данных пикселей с помощью набора звуковых волн для монохромного и цветного изображения. Для варианта цветного изображения показана вставка разделительных сигналов.Figure 2 shows the principle of encoding pixel data using a set of sound waves for monochrome and color images. For the color image option, insertion of separation signals is shown.
На Фиг.3 представлено объединение пикселей с загрублением разрешающей способности по мере удаления развертки от начальной точки спирали к периферийным участкам изображения для быстрого охвата всего изображения. Figure 3 shows the combination of pixels with coarsening of the resolution as the sweep moves from the starting point of the spiral to the peripheral portions of the image to quickly capture the entire image.
На Фиг.4 представлено последовательное формирование нескольких звуковых сигналов для одного растрового изображения посредством изменения начальной точки спиралеобразной развертки для лучшего распознавания образов, присутствующих на изображении. Figure 4 shows the sequential formation of several audio signals for a single raster image by changing the starting point of the spiral scan for better recognition of the images present in the image.
Реализация изобретения не представляет технических проблем. В качестве источника растрового изображения может использоваться цифровой фотоаппарат или цифровая видеокамера, камера мобильного телефона, web-камера ноутбука, планшета или стационарного компьютера. The implementation of the invention does not present technical problems. As a source of a raster image, a digital camera or digital video camera, a mobile phone camera, a web camera of a laptop, tablet or desktop computer can be used.
Преобразование видеоданных в звуковые данные согласно настоящему способу осуществляется универсальным способом, не зависящим от того, что представлено на изображении. Такое преобразование не связано с распознаванием образов, и, следовательно, оно не потребует больших вычислительных ресурсов, сравнимых с потребностями искусственного интеллекта. Поэтому оно может осуществляться с помощью мобильной компьютерной или микропроцессорной системы в реальном времени. В качестве такой системы может использоваться, например, микропроцессорная система цифрового фотоаппарата, цифровой видеокамеры, мобильного телефона/смартфона, карманного/планшетного компьютера, ноутбука. Если нет требования мобильности, возможно использование и стационарного компьютера. The conversion of video data into audio data according to the present method is carried out in a universal way, independent of what is shown in the image. Such a transformation is not associated with pattern recognition, and, therefore, it will not require large computational resources comparable to the needs of artificial intelligence. Therefore, it can be carried out using a mobile computer or microprocessor system in real time. As such a system, for example, the microprocessor system of a digital camera, digital video camera, mobile phone / smartphone, pocket / tablet computer, laptop can be used. If there is no mobility requirement, you can use a desktop computer.
Практически для всех перечисленных устройств, кроме цифрового фотоаппарата, система воспроизведения звука и указательное устройство (мышь, трекбол, тачпад – сенсорная панель или сенсорный экран) являются стандартными элементами, входящими в комплектацию. Поэтому при наличии программы, реализующей вышеописанный способ преобразования изображения в звуковой образ, данные системы способны стать устройством, получающим технический результат согласно настоящему изобретению.For almost all of the listed devices, except for a digital camera, the sound reproduction system and pointing device (mouse, trackball, touchpad - touch panel or touch screen) are standard elements that are included in the package. Therefore, if there is a program that implements the above method of converting an image into an audio image, these systems can become a device that receives a technical result according to the present invention.
Claims (20)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2013139845A RU2649422C2 (en) | 2013-08-28 | 2013-08-28 | Method of image conversion to sound image |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2013139845A RU2649422C2 (en) | 2013-08-28 | 2013-08-28 | Method of image conversion to sound image |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2013139845A RU2013139845A (en) | 2015-03-10 |
RU2649422C2 true RU2649422C2 (en) | 2018-04-03 |
Family
ID=53279538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2013139845A RU2649422C2 (en) | 2013-08-28 | 2013-08-28 | Method of image conversion to sound image |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2649422C2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247761B (en) * | 2017-06-01 | 2021-10-15 | 武汉理工大学 | Track coding method based on bitmap |
CN112857560B (en) * | 2021-02-06 | 2022-07-22 | 河海大学 | Acoustic imaging method based on sound frequency |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4322744A (en) * | 1979-12-26 | 1982-03-30 | Stanton Austin N | Virtual sound system for the visually handicapped |
US5097326A (en) * | 1989-07-27 | 1992-03-17 | U.S. Philips Corporation | Image-audio transformation system |
WO1999058087A2 (en) * | 1998-05-12 | 1999-11-18 | University Of Manchester Institute Of Science And Technology | Visualising images |
RU2188611C2 (en) * | 1999-10-28 | 2002-09-10 | Сокольский Валерий Николаевич | Method and device for supporting blind person orientation |
-
2013
- 2013-08-28 RU RU2013139845A patent/RU2649422C2/en not_active Application Discontinuation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4322744A (en) * | 1979-12-26 | 1982-03-30 | Stanton Austin N | Virtual sound system for the visually handicapped |
US5097326A (en) * | 1989-07-27 | 1992-03-17 | U.S. Philips Corporation | Image-audio transformation system |
WO1999058087A2 (en) * | 1998-05-12 | 1999-11-18 | University Of Manchester Institute Of Science And Technology | Visualising images |
RU2188611C2 (en) * | 1999-10-28 | 2002-09-10 | Сокольский Валерий Николаевич | Method and device for supporting blind person orientation |
Non-Patent Citations (2)
Title |
---|
Łukasz Błaszak, Marek Domański. Spiral Coding Order of Macroblocks with Applications to SNR-Scalable Video Compression // IEEE International Conference on Image Processing, 2005. ICIP 2005. * |
Первозванский А.А. Поиск. М.: Наука. Гл. ред. физ.-мат. лит., 1970, с. 30-31. * |
Also Published As
Publication number | Publication date |
---|---|
RU2013139845A (en) | 2015-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102458339B1 (en) | Electronic Apparatus generating 360 Degrees 3D Stereoscopic Panorama Images and Method thereof | |
EP2496196B1 (en) | Representing visual images by alternative senses | |
US9558591B2 (en) | Method of providing augmented reality and terminal supporting the same | |
US8068644B2 (en) | System for seeing using auditory feedback | |
JP5969537B2 (en) | 3D video converter and conversion method for 2D video based on visual interest | |
US11185445B2 (en) | Portable system that allows blind or visually impaired persons to interpret the surrounding environment by sound and touch | |
KR101932537B1 (en) | Method and Apparatus for displaying the video on 3D map | |
JP2012521708A (en) | Method and apparatus for correcting an image using a saliency map based on color frequency | |
KR101723210B1 (en) | Method For Producting Virtual Stereo Studio Image In Real-Time Virtual Stereo Studio System | |
US9760965B2 (en) | Information embedding device, information detecting device, information embedding method, and information detecting method | |
KR20150141057A (en) | Method and apparatus for generating image data using a region of interest which is determined by position information | |
KR100345591B1 (en) | Image-processing system for handling depth information | |
RU2649422C2 (en) | Method of image conversion to sound image | |
JP2022533755A (en) | Apparatus and associated methods for capturing spatial audio | |
JP5598981B2 (en) | Perceptual stimulus information generation system | |
US11051376B2 (en) | Lighting method and system to improve the perspective colour perception of an image observed by a user | |
KR20070010306A (en) | Device taking a picture and method to generating the image with depth information | |
EP2747415A1 (en) | Image processing device, image processing method, and recording medium | |
US20120033043A1 (en) | Method and apparatus for processing an image | |
CN110087059B (en) | Interactive auto-stereoscopic display method for real three-dimensional scene | |
Matta et al. | Auditory eyes: Representing visual information in sound and tactile cues | |
JP2024050150A (en) | IMAGING APPARATUS, CONTROL METHOD FOR IMAGING APPARATUS, PROGRAM, AND STORAGE MEDIUM | |
RU2021110227A (en) | Device and method for processing audiovisual data | |
JP2008249862A (en) | Image display device and image display method | |
Göktürk et al. | REAL TIME SENSORY SUBSTITUTION FOR THE BLIND |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FA93 | Acknowledgement of application withdrawn (no request for examination) |
Effective date: 20160829 |
|
FZ9A | Application not withdrawn (correction of the notice of withdrawal) |
Effective date: 20170116 |