WO2016198721A1 - Sistema portátil de interpretación sonora o táctil del entorno para personas invidentes o con deficiencia visual - Google Patents

Sistema portátil de interpretación sonora o táctil del entorno para personas invidentes o con deficiencia visual Download PDF

Info

Publication number
WO2016198721A1
WO2016198721A1 PCT/ES2016/070441 ES2016070441W WO2016198721A1 WO 2016198721 A1 WO2016198721 A1 WO 2016198721A1 ES 2016070441 W ES2016070441 W ES 2016070441W WO 2016198721 A1 WO2016198721 A1 WO 2016198721A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
region
signal
touch
processing means
Prior art date
Application number
PCT/ES2016/070441
Other languages
English (en)
French (fr)
Inventor
Antonio QUESADA HERVÁS
Original Assignee
Eyesynth, S.L.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to MX2017015146A priority Critical patent/MX2017015146A/es
Priority to BR112017026545-1A priority patent/BR112017026545B1/pt
Application filed by Eyesynth, S.L. filed Critical Eyesynth, S.L.
Priority to CN201680034434.0A priority patent/CN107708624B/zh
Priority to US15/578,636 priority patent/US11185445B2/en
Priority to EP16806940.9A priority patent/EP3308759B1/en
Priority to CA2986652A priority patent/CA2986652A1/en
Priority to RU2017144052A priority patent/RU2719025C2/ru
Priority to DK16806940.9T priority patent/DK3308759T3/da
Priority to JP2018516636A priority patent/JP6771548B2/ja
Priority to ES16806940T priority patent/ES2780725T3/es
Priority to KR1020177037503A priority patent/KR102615844B1/ko
Priority to AU2016275789A priority patent/AU2016275789B2/en
Publication of WO2016198721A1 publication Critical patent/WO2016198721A1/es
Priority to IL255624A priority patent/IL255624B/en
Priority to CONC2017/0012744A priority patent/CO2017012744A2/es
Priority to HK18107660.4A priority patent/HK1248093A1/zh

Links

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61FFILTERS IMPLANTABLE INTO BLOOD VESSELS; PROSTHESES; DEVICES PROVIDING PATENCY TO, OR PREVENTING COLLAPSING OF, TUBULAR STRUCTURES OF THE BODY, e.g. STENTS; ORTHOPAEDIC, NURSING OR CONTRACEPTIVE DEVICES; FOMENTATION; TREATMENT OR PROTECTION OF EYES OR EARS; BANDAGES, DRESSINGS OR ABSORBENT PADS; FIRST-AID KITS
    • A61F9/00Methods or devices for treatment of the eyes; Devices for putting-in contact lenses; Devices to correct squinting; Apparatus to guide the blind; Protective devices for the eyes, carried on the body or in the hand
    • A61F9/08Devices or methods enabling eye-patients to replace direct visual perception by another kind of perception
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H3/00Appliances for aiding patients or disabled persons to walk about
    • A61H3/06Walking aids for blind persons
    • A61H3/061Walking aids for blind persons with electronic detecting or guiding means
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • G01B11/22Measuring arrangements characterised by the use of optical techniques for measuring depth
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/02Alarms for ensuring the safety of persons
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B3/00Audible signalling systems; Audible personal calling systems
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B6/00Tactile signalling systems, e.g. personal calling systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H3/00Appliances for aiding patients or disabled persons to walk about
    • A61H3/06Walking aids for blind persons
    • A61H3/061Walking aids for blind persons with electronic detecting or guiding means
    • A61H2003/063Walking aids for blind persons with electronic detecting or guiding means with tactile perception
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images

Definitions

  • the invention relates to assistive devices for people with some limitation or disability.
  • the invention relates to a support system aimed primarily at people who are blind or visually impaired.
  • environmental image analysis devices are also known, configured to interpret said images and map them as sounds to their users, so that sound representations of the distance of the objects that are obtained are obtained. they compose these images, thus integrating a three-dimensional projection that serves the user to orient and alert him of possible obstacles in his path.
  • these devices are, again, ineffective in terms of computing requirements, which translates into practice in a low response speed, and calculation defects that cause inaccuracies and Inappropriate user experience for users. Examples of such devices based on full image mapping are patent applications ES 2133078 A1 and US 2009/122161 A1.
  • patent application ES 2517765 A1 proposes a device configured to provide a sound bank and associate each point of the images obtained with at least one sound from said sound bank, creating a map of encoded sounds and representing a plane of the captured three-dimensional space. Said device is also adapted to sequentially reproduce a sound from each of the points defined in the map, said sound being associated with a space represented horizontal lines, in order to facilitate the compensation of errors derived from a bad placement of the device by users, for example in embodiments based on glasses, where poor horizontality can result in a faulty calculation of distances to the user.
  • the present invention is mainly applicable to people with vision problems. However, it could be applicable in other types of scenarios and circumstances where the sense of sight cannot be used or an alternative guidance system is necessary. Assistance for people is provided with a description of the environment through an interpretation of the objects and obstacles that exist around it that is transmitted through a signal, preferably sound or touch (for example, a vibration transmitted through the sense of touch).
  • the generation of said signal is made from a stereo image processing to obtain a representation of areas with greater color intensity, which correspond to more distant regions while others of lower color intensity are associated with regions located closer . Therefore, an object of the invention relates to a portable sound or tactile interpretation system of the environment for a blind person comprising:
  • processing means that combine both images in real time and establish at least one vertical strip with information about the depth of the elements of the combined image, where said processing means further divide the vertical strip into a plurality of regions; define, for each region, a sound or tactile signal based on its depth and height in the image; define a sound or tactile output signal from the sound or touch signals of each region of the vertical strip;
  • the vertical strip is central to the combined image and the user when moving scans the environment. This mode of operation of the invention will be referred to as "tracking mode".
  • the processing of only a vertical strip of the image obtained by the cameras allows, on the one hand, to restrict the depth analysis to the region of interest that is optimal for its users (since it corresponds to the central focus point), avoiding the regions peripherals that provide information of less interest.
  • This optimization it is possible to substantially reduce the system calculation requirement, without negatively affecting the information acquired.
  • a vertical line will condense the depth information on the horizon, this being the most relevant for the location of obstacles by the user.
  • the information corresponding to the peripheral lateral vision is generated with the natural movement of the head towards the sides by the user during the movement, which displaces the vertical line of analysis and allows to acquire the remaining information, without the need to continuously process the complete image acquired by the cameras.
  • a horizontal head movement of a few degrees makes it possible to naturally cover the user's frontal region, for all the depths of the horizon (which are covered by vertical line analysis). Through this technical optimization, a saving in calculation requirement of approximately 90% is estimated against the alternatives of the prior art. Additionally, the processing of the vertical line in front of the entire image captured by the cameras allows to avoid the presence of noise pollution due to nearby peripheral objects, whose presence is close to the user, but does not directly impede its passage. In this sense, the use of this system shares many similarities with the mode of operation of tracking or scoring by means of a cane for the blind, which allows a quick learning of its handling.
  • a plurality of lateral vertical stripes are established in the combined image on each side of the central vertical strip, and a left and right lateral lateral sound or tactile signal is defined from the regions of each strip. left side and each right side strip respectively, the user without moving can scan the environment.
  • This mode of operation of the invention will be referred to as "complete landscape mode".
  • the processing means are adapted to provide a simultaneous analysis of the plurality of lateral vertical strips, so that a region of segmentation of the entire image acquired by the cameras is processed horizontally.
  • the complete landscape mode means, in comparison to the tracking mode, a greater calculation requirement, but provides more information regarding the peripheral lateral regions of the system user.
  • the reduction of the processed space to a plurality of vertical lines means, like the tracking mode, a significant improvement in process times and resource consumption compared to the solutions known in the state of the art.
  • the modes of operation of the processing means are activated and deactivated by the user, so that the simultaneous analysis of the plurality of lateral vertical strips is alternatable with the analysis of a single vertical strip.
  • said user can use, depending on the situation in which he is, the mode of operation of tracing (that is, by processing depths in a central vertical line), which will be effective in most situations of daily use, and the full landscape mode (using a plurality of vertical stripes), if additional information about lateral peripheral regions is required.
  • the playback means reproduces in stereo, combining a left side sound or touch signal and a right side sound or touch signal.
  • the processing means define a sound or tactile intensity of the sound or touch signal as a function of the height of the region in the vertical strip.
  • the processing means define a frequency of the sound or touch signal as a function of the depth of the region.
  • the depth of a region is determined based on the level of gray on a depth map of the surrounding image.
  • the region comprises at least one pixel.
  • the system comprises a support structure to be carried by the user where the reproduction means and the two cameras can be located.
  • the generation of said signal is based on an electroactive polymer (EAP), or on a membrane of an elastomer capable of modifying its shape in response to voltage.
  • EAP electroactive polymer
  • the signal can be generated mechanically, using a small vibration generator motor.
  • the frequency of said sound signal is chosen within the range between 100 Hz and 18000 Hz.
  • the reproduction means are cochlear headphones.
  • it leaves the ear free and the signal is received via bone. This achieves that the user can talk at the same time without interfering with the generated sound signal, or vice versa.
  • the support structure is chosen from at least a pair of glasses, a headband, neck support, chest support, shoulder support, or a handheld device.
  • the generated sound signal is non-verbal, to avoid saturating the user with continuous spoken messages that, after prolonged use, cause discomfort and fatigue.
  • a non-verbal message is also faster to recognize and can be combined with other tasks. Therefore, the invention is usable without generating language barriers derived from language.
  • FIG. 1 shows a simplified block diagram of an embodiment of the invention.
  • FIG. 2 shows the pixelated image of a toroid analyzed by the invention.
  • FIG. 3 shows pixelated and processed image of the toroid of FIG. 2.
  • FIG. 4 shows a simplified flow chart of the procedure followed by the system of the invention.
  • FIG. 5 shows an embodiment of the invention based on glasses.
  • FIG. 1 a block diagram with the main elements of the system of the invention is shown.
  • the images are acquired by a pair of cameras (3i, 3d) in stereo.
  • They are located on both sides of the face and at the eye level of the user, to facilitate the focus towards the region of interest with head movements.
  • the cameras (3i, 3d) are preferably aligned in parallel.
  • the circuitry of the cameras (3i, 3d) itself makes a preprocessing of the captured image to serve a stable flow of images, avoiding artifacts and geometric or chromatic aberrations.
  • the circuitry of the sensors offers a pair of images synchronized over time.
  • this video stream is transmitted to a process unit (2).
  • the process unit (2) is preferably a specific hardware design that implements the image to audio / vibration conversion algorithm.
  • a cable (6) is provided to communicate the cameras (3i, 3d) with the process unit (2).
  • wireless transmission is contemplated.
  • the process unit (2) converts the stereoscopic images into a grayscale depth map. Previously, a disparity map is generated (without scale information).
  • Depth map means grayscale image, in which the absolute black color means maximum distance (depending on the scale we use) and the pure white color means maximum proximity (depending on the scale we use).
  • the rest of the gray range specifies intermediate distances.
  • Disparity map means the resulting image that is obtained from the superposition of a pair of stereo images, which are subjected to mathematical processing.
  • the binocular disparity map expresses, in one image, the pixel-level differences between two stereo images.
  • the mathematical disparity algorithm having the distance between cameras and some calibration files thereof, the difference between pixels can be translated to real distances. Thanks to this process, it is known how far from the camera each portion (pixel size) of the image taken is. A gray scale is used to express that distance.
  • a conversion to depth map After a mathematical process in which distance / gray level scale is applied, a depth map is obtained. From the generated depth map, a conversion algorithm developed for this purpose is applied, with high optimization and, therefore, less demand for computing resources, which allows spatial depth data to be converted to audio more efficiently than in known systems.
  • each pixel in the depth map has an associated coordinate (X, Y) that corresponds to the pixel positions captured by the cameras.
  • each pixel has an associated gray level (G) that provides information about the depth, that is, the distance at which the region associated with that pixel is located.
  • FIG. 3 illustrates in a simplified way a division of the column or central vertical strip into 3 zones according to their gray level.
  • Zone “A” is black
  • zone “B” is white
  • zone “C” is gray.
  • 3 different intensity values are associated with each zone (silence for zone “A”, maximum volume for zone “B” and an average sound intensity for zone “C.” It is to be understood that many are usually defined more ranges of gray level and therefore associated sound intensity.
  • the sound signal is composed by adding the individual signals corresponding to the pixels of each zone.
  • a disparity mapping is made: Given the difference between pixels of the images and having the camera data (FOV, interocular distance, specific calibration) triangulations can be established, therefore associating pixels at distances in the real world. With this information, the image is processed to give a depth map. It is a contour image of objects and grayscale expressing their real volumes and distances. In this way, we have a single joint image that contains spatial information of the scene.
  • FOV interocular distance, specific calibration
  • Example of operation in Tracking Mode We take FIG. 3. To analyze the image we will have to move the head from left to right in a gesture of denial. Thus, the central cursor (in red) will completely track the toroid. The generated sound will be heard in the center of the stereo panorama (since it will always be the center of the axis of our vision) With this tracking the horizontal size of the object is delimited (the movement of our neck will serve as a reference) and the vertical size we It will be given by the frequency range.
  • Full Landscape Mode Let's take to analyze FIG. 2. In this case you don't have to move your neck to interpret what's in front. The right side of the toroid will sound right in the stereo panorama. The central and left parts will sound analogously. The opening level of the stereo panorama will indicate the horizontal size of the toroid. The vertical size will be expressed by the frequency range, as in the Tracking mode.
  • the correspondence of the image with the stereo sound is as follows: Based on the image of a landscape, the sound signal corresponds to the areas it analyzes. The left area of the image will sound in the left stereo panorama. The right zone in the right stereo panorama. The central zone therefore, in the center of the stereo panorama (or what is the same, 50% left + 50% right).
  • the range of frequencies that specify the height factor has a value of 100Hz to 18000Hz, divided into equal fragments. We have chosen that range because it is wide enough to show sound in detail and narrow enough for an average person to cover them without problems (the human sound range goes from 20 Hz to 20,000 Hz).
  • the base frequency (100 Hz) is associated with the first lower row of pixels on the screen.
  • the higher frequency (18000 Hz) to the upper row of pixels. In between, the other frequency fragments are assigned. If the image were 128 pixels high, each row would correspond to a fragment. If we change the resolution, the fragments will be assigned proportionally to the height. This method is used for systems with low computing power. If we have raw power in which sound synthesis is generated in real time, we will divide the range of frequencies between the number of pixels of height and we will assign each frequency segment to each pixel, without interpolations or averages.
  • the spatial distance factor with respect to the user (Z axis) is associated with the volume factor generated by the algorithm, so that a black pixel will not have perceptible volume (that is, -infinity) and a white pixel will have the maximum volume (0 dB ).
  • This scale will be flexible and adaptive to the use of different measuring ranges (40 cm, 2 m, 6 m).
  • the duration of the sound per pixel is directly proportional to its "presence" on the screen. If a pixel remains continuously white, the sound will be repeated continuously.
  • Central column analysis is only used in tracking mode. In principle, a central column 1 pixel wide can be used. However, in order to soften the sound and avoid artifacts, the pixel values of the three central columns, or even five, will be averaged, depending on the resolution of the depth map (dependent on computing power).
  • a volume intensity (I) is associated with the gray scale value of a pixel.
  • each pixel can be seen as a "sound unit" with which it makes an audio composition.
  • the sound frequency ranges from 100Hz to 18000 Hz.
  • the X position of the pixel can be interpreted in two ways.
  • Full Landscape Mode Several columns of pixels associated with the scene will sound simultaneously. With this mode, it is not necessary to track. The image is represents (or "sounds") in full. For example, the further to the right the pixels are, the more it will sound on the right of the stereo panorama. Equally for the central and left regions.
  • the Full Landscape mode requires high computing power, so depending on the performance of the process unit (2), instead of sounding all the columns of the image, it can be optimized using five columns: Central, 45 e , - 45 e , 80 e , -80 e . More columns may be used depending on the process power.
  • the Y position of the pixel will define how it sounds in terms of frequency:
  • a pass-band filter or a generated sinusoidal frequency, or a pre-calculated sample with a specific frequency range, alternatives depending on the computing power of the device, with which the pixels in the upper zone will sound high and those in the lower zone will sound low.
  • the sound spectrum that each pixel will cover will be defined by the number of pixels that Y will have.
  • the tracking mode was selected and a depth image was obtained as FIG. 3 in which only 3 gray levels are distinguished as an approximation. Therefore, in the central column there are (from bottom to top): 10 black pixels, 12 white pixels, 2 black pixels, 8 gray pixels and 15 black pixels.
  • a color scale is established, where the target is assigned: 0 dB; to gray: -30 dB and to black - ⁇ dB.
  • the intensity of the signal that at that moment would be the analog mix of all the signals.
  • the user would appreciate different frequencies according to the pixel height position. More severe in the pixels of smaller height and more acute for those of greater height.
  • the sound generated by this column can be divided into a serious component with a high sound intensity (zone B) and an intermediate sound intensity component of more acute frequency (zone C).
  • This signal would be generated for both left and right channels (and would be played respectively in the headphones (4i, 4d)).
  • the depth image will be modified and with it the associated sound signal.
  • FIG. 4 you see a flow chart with some of the important steps that are carried out in the tracking mode.
  • FIG. 5 an embodiment of the invention implemented in glasses 1 is illustrated. However, it can be implemented in other types of products that serve as support. For example, it can be implemented in a cap, headband, neck support, chest support, shoulder support, or a handheld device.
  • the advantage of the glasses is that they are comfortable to wear and allow on the one hand the placement of the headphones (4i, 4d) in the desired position and on the other the precise focus of the cameras (3i, 3d) to the region of interest.
  • the process unit (2) is designed to be carried by the user in a pocket or on a belt. It is planned in the future to reduce its size to integrate it together with the glasses (1). When separated, a cable (6) takes the information captured by the cameras (3i, 3d) to the process unit (2). On the other hand, once this information is processed, the process unit (2) transmits the corresponding audio signals to the headphones (4i, 4d).
  • cochlear headphones are preferably used to free the ear canal. This improves user comfort, greatly reducing hearing fatigue and being much more hygienic for extended use sessions.
  • an interface associated with the processing unit (2) is provided with a range selection button to determine the analysis distance. For example: near, normal and far, with distances of 40 cm, 2 m and 6 m, respectively, or being defined by the user through an interface adapted to the effect. Pressing the button will they will select distances cyclically.
  • the range selection typically serves to adapt the scope to different scenarios and circumstances. For example to place objects on a table: 40 cm; to move around house 2 m; and to cross the street: 6 m.
  • the system comprises a wireless data transmission medium (for example by means of Wi-Fi, Bluetooth or other similar technologies) connected to the processing unit (2), where said transmission means are connected to an external device with wireless connection and / or to a wearable device.
  • the interface associated with the processing unit (2) is provided with an Analysis Mode button. The selection between modes will be cyclic.
  • Tracking Mode Analysis only in the central area of the image. The user will rotate the head cyclically from left to right, tracing the scene in a similar way as with a cane. The sound is monaural.
  • Full Landscape Mode The analysis is performed over the entire image.
  • the sound is stereo.
  • the user can perceive shapes and spaces throughout the entire field of vision simultaneously. For example, on the left (left stereo panorama) a column is perceived, in the center (central stereo panorama) a low table is perceived and on the right (right stereo panorama) the passage is free.
  • This scan mode is more complex in terms of sound, offering more information than Tracking Mode. It is easy to master but requires more training.

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Veterinary Medicine (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Ophthalmology & Optometry (AREA)
  • Vascular Medicine (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Epidemiology (AREA)
  • Pain & Pain Management (AREA)
  • Physical Education & Sports Medicine (AREA)
  • Rehabilitation Therapy (AREA)
  • Business, Economics & Management (AREA)
  • Emergency Management (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)
  • Traffic Control Systems (AREA)
  • Rehabilitation Tools (AREA)
  • Stereophonic System (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Studio Devices (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

La presente invención se refiere a un sistema portátil de interpretación sonora o táctil del entorno para personas invidentes o con deficiencias visuales, que comprende: dos cámaras (3i, 3d), separadas entre sí, configuradas para captar simultáneamente una imagen del entorno, y unos medios de generación (4i, 4d) de señales sonoras y/o táctiles de salida. Ventajosamente, el sistema comprende, adicionalmente, unos medios de procesamiento (2) conectados a las cámaras (3i, 3d) y a los medios de generación (4i, 4d) de señales sonoras y/o táctiles, configurados para combinar las imágenes captadas en tiempo real, y para procesar la información asociada a, al menos una franja vertical con información sobre la profundidad de los elementos de la imagen combinada, donde dichos medios de procesamiento (2) están además configurados para dividir la franja vertical en una o más regiones; para definir, en cada región, una señal sonora o táctil en función de la profundidad de la región y de la altura de la región; y para definir una señal sonora o táctil de salida a partir de las señales sonoras o táctiles de cada región de la franja vertical.

Description

DESCRIPCIÓN
SISTEMA PORTATIL DE INTERPRETACION SONORA O TACTIL DEL ENTORNO PARA PERSONAS INVIDENTES O CON DEFICIENCIA VISUAL
CAMPO DE LA INVENCIÓN
La invención se relaciona con los dispositivos de asistencia a personas con alguna limitación o minusvalía. En particular, la invención se refiere a un sistema de ayuda orientado principalmente a personas ciegas o con deficiencia visual.
ANTECEDENTES DE LA INVENCIÓN
Tradicionalmente, los usuarios con discapacidad visual dependen de ayudas básicas, como bastones y perros guía para desplazarse o reconocer su entorno. Aunque se han desarrollado sistemas que emplean un mayor nivel tecnológico, a menudo resultan invasivos y complejos de manejar. También suelen ser demasiado caros para que su uso deje de ser exclusivo. Habitualmente, los sistemas actuales suelen medir distancias a un punto, por ejemplo mediante el empleo de un láser, avisando acústicamente si un objeto se interpone en la trayectoria o no. Tales sistemas no proporcionan un análisis volumétrico de la escena, ni su respuesta tiene matices asociados a cambios de posición, tamaño o geometría (curvas, aristas, posición respecto a la línea de horizonte). Por otra parte, un análisis de una escena a través de la medición de distancias con muchos puntos precisa una gran capacidad de computación, que generalmente lo hace inviable para emplearse en tiempo real y/o en un dispositivo que sea portátil.
En este contexto, son también conocidos, en el estado de la técnica, dispositivos de análisis de imágenes del entorno, configurados para interpretar dichas imágenes y mapearlas como sonidos a sus usuarios, de forma que se obtienen representaciones sonoras de la distancia de los objetos que componen dichas imágenes, integrando así una proyección tridimensional que sirve al usuario para orientarse y alertarlo de posibles obstáculos en su camino. No obstante, dichos dispositivos son, de nuevo, ineficaces en cuanto a sus requisitos de computación, lo que se traduce en la práctica en una baja rapidez de respuesta, y defectos de cálculo que provocan imprecisiones y una experiencia de uso inadecuada para los usuarios. Ejemplos de este tipo de dispositivos basados en mapeado completo de las imágenes son las solicitudes de patente ES 2133078 A1 y US 2009/122161 A1. Como alternativa a estos dispositivos, la solicitud de patente ES 2517765 A1 propone un dispositivo configurado para proporcionar un banco de sonidos y asociar cada punto de las imágenes obtenidas con al menos un sonido de dicho banco de sonidos, creando un mapa de sonidos codificados y representando un plano del espacio tridimensional capturado. El citado dispositivo está adaptado, asimismo, para reproducir secuencialmente un sonido desde cada uno de los puntos definidos en el mapa, estando dicho sonido asociado a un espacio representado líneas horizontales, con el objetivo de facilitar la compensación de errores derivados de una mala colocación del dispositivo por parte de los usuarios, por ejemplo en realizaciones basadas en gafas, donde una mala horizontalidad puede derivar en un cálculo defectuoso de las distancias al usuario.
Si bien la citada alternativa permite remediar algunas de las deficiencias planteadas por dispositivos anteriores del estado de la técnica, posee aún la importante limitación derivada de su exigencia de recursos de computación, ya que, aunque esté configurada para representar patrones sonoros horizontales obtenidos de las imágenes, el procesamiento de las profundidades de las mismas se realiza analizando dichas imágenes de forma íntegra, de modo similar al de los sistemas antes citados. En consecuencia, la totalidad de los dispositivos conocidos requieren importantes recursos de computación, lo que limita severamente su rendimiento y sus capacidades. Adicionalmente, estos dispositivos exigen, por lo general, el uso de inclinómetros/gravímetros, lo que añade complejidad a los mismos, sin llegar a resolver completamente el problema de la precisión en el cálculo de profundidades.
Por tanto, existe una necesidad de sistemas efectivos para ayudar a personas con discapacidad visual capaces de facilitar una descripción comprensible del entorno mediante audio o señales táctiles fácilmente comprensibles), y que presenten a la vez un consumo reducido de recursos de cálculo y computación.
BREVE DESCRIPCIÓN DE LA INVENCIÓN La presente invención es principalmente aplicable a personas con problemas de visión. No obstante, podría ser aplicable en otro tipo de escenarios y circunstancias donde no se pueda emplear el sentido de la vista o sea preciso un sistema de guiado alternativo. La asistencia para personas se facilita con una descripción del entorno mediante una interpretación de los objetos y obstáculos que existen alrededor que se transmite a través de una señal, preferentemente sonora o táctil (por ejemplo, una vibración transmitida a través del sentido del tacto). La generación de dicha señal se hace a partir de un procesamiento de imágenes estéreo para obtener una representación de zonas con mayor intensidad de color, que se corresponden con regiones más lejanas en tanto que otras de menor intensidad de color se asocian a regiones situadas más cerca. Por tanto, un objeto de la invención se refiere a un sistema portátil de interpretación sonora o táctil del entorno para un invidente que comprende:
- dos cámaras, separadas entre sí, para captar simultáneamente una imagen del entorno,
- unos medios de procesamiento que combinan ambas imágenes en tiempo real y establecen, al menos, una franja vertical con información sobre la profundidad de los elementos de la imagen combinada, donde dichos medios de procesamiento además dividen la franja vertical en una pluralidad de regiones; definen, para cada región, una señal sonora o táctil en función de su profundidad y de su altura en la imagen; definen una señal sonora o táctil de salida a partir de las señales sonora o táctil de cada región de la franja vertical;
- unos medios de reproducción de la señal sonora o táctil de salida.
En una realización preferente de la invención, la franja vertical es central en la imagen combinada y el usuario al moverse escanea el entorno. Este modo de funcionamiento de la invención será denominado, de ahora en adelante, como "modo de rastreo".
El procesado de únicamente una franja vertical de la imagen obtenida por las cámaras permite, de una parte, restringir el análisis de profundidades a la región de interés que resulta óptima para sus usuarios (ya que corresponde al punto de enfoque central), evitando las regiones periféricas que aportan información de menor interés. Mediante esta optimización, se permite reducir sustancialmente la exigencia de cálculo del sistema, sin afectar negativamente a la información adquirida. Ello se debe a que una línea vertical condensará la información de profundidad en horizonte, siendo ésta la más relevante para la localización de obstáculos por parte del usuario. De este modo, la información correspondiente a la visión lateral periférica se genera con el movimiento natural de la cabeza hacia los lados por parte del usuario durante el movimiento, lo que desplaza la línea vertical de análisis y permite adquirir la información restante, sin la necesidad de procesar en continuo la imagen completa adquirida por las cámaras. Un movimiento de cabeza horizontal de unos pocos grados permite cubrir de modo natural la región frontal del usuario, para todas las profundidades de horizonte (que se cubren mediante el análisis de línea vertical). Mediante esta optimización técnica, se estima un ahorro en exigencia de cálculo de aproximadamente un 90% frente a las alternativas del estado de la técnica. Adicionalmente, el procesado de la línea vertical frente a la totalidad de la imagen captada por las cámaras permite evitar la presencia de contaminación sonora debida a objetos periféricos cercanos, cuya presencia se encuentra próxima al usuario, pero no obstaculiza directamente su paso. En este sentido, la utilización de este sistema comparte muchas similitudes con el modo de operación de rastreo o tanteo mediante un bastón para invidentes, lo cual permite un rápido aprendizaje de su manejo.
En otra realización preferente de la invención, se establece una pluralidad de franjas verticales laterales en la imagen combinada a cada lado de la franja vertical central, y se define una señal sonora o táctil lateral izquierda y lateral derecha a partir de las regiones de cada franja lateral izquierda y de cada franja lateral derecha respectivamente, el usuario sin moverse puede escanear el entorno. Este modo de funcionamiento de la invención será denominado, de ahora en adelante, como "modo de paisaje completo". En dicho modo, los medios de procesamiento están adaptados para proporcionar un análisis simultáneo de la pluralidad de franjas verticales laterales, de forma que se procesa, horizontalmente, una región de segmentación de la imagen completa adquirida por las cámaras. El modo de paisaje completo supone, en comparación con el modo de rastreo, una mayor exigencia de cálculo, pero aporta una mayor información respecto a las regiones laterales periféricas del usuario del sistema. No obstante, la reducción del espacio procesado a una pluralidad de líneas verticales supone, al igual que el modo de rastreo, una importante mejora en tiempos de proceso y consumo de recursos frente a las soluciones conocidas del estado de la técnica. En otra realización preferente de la invención, los modos de operación de los medios de procesamiento son activables y desactivables por parte del usuario, de forma que el análisis simultáneo de la pluralidad de franjas verticales laterales sea alternable con el análisis de una única franja vertical. Como consecuencia, dicho usuario puede utilizar, según la situación en la que se encuentre, el modo de funcionamiento de rastreo (esto es, mediante procesado de profundidades en una línea vertical central), que será efectivo en la mayoría de situaciones de uso cotidiano, y el modo de paisaje completo (mediante una pluralidad de franjas verticales), en caso de requerirse el aporte de información adicional acerca de las regiones periféricas laterales.
En una realización preferente de la invención, los medios de reproducción reproducen en estéreo, combinando una señal sonora o táctil lateral izquierda y una señal sonora o táctil lateral derecha.
En una realización preferente de la invención, los medios de procesamiento definen una intensidad sonora o táctil de la señal sonora o táctil en función de la altura de la región en la franja vertical.
En una realización preferente de la invención, los medios de procesamiento definen una frecuencia de la señal sonora o táctil en función de la profundidad de la región. En una realización preferente de la invención, la profundidad de una región se determina en función del nivel de gris sobre un mapa de profundidad de la imagen del entorno.
En una realización preferente de la invención, la región comprende al menos un píxel. En una realización preferente de la invención, el sistema comprende una estructura soporte para ser llevada por el usuario donde se pueden ubicar los medios de reproducción y las dos cámaras.
En una realización preferente de la invención basada en una señal táctil, la generación de dicha señal se basa en un polímero electroactivo (EAP), o en una membrana de un elastómero capaz de modificar su forma en respuesta a voltaje. Alternativamente, la señal se puede generar de forma mecánica, mediante un pequeño motor generador de vibraciones. En una realización preferente de la invención basada en una señal sonora, la frecuencia de dicha señal sonora se elige dentro del intervalo entre 100 Hz y 18000 Hz.
En una realización preferente de la invención, los medios de reproducción son unos auriculares cocleares. Ventajosamente, deja libre el oído y se recibe la señal vía ósea. Se consigue con ello que el usuario pueda conversar a la vez sin que se interfiera con la señal sonora generada, o viceversa. En una realización preferente de la invención, la estructura soporte se elige entre al menos unas gafas, una diadema, soporte de cuello, soporte pectoral, soporte en hombro, o un dispositivo de mano.
En una realización preferente de la invención, la señal sonora generada es no-verbal, para evitar saturar al usuario con continuos mensajes hablados que, tras un uso prolongado, producen molestias y cansancio. Un mensaje no-verbal resulta, además, más rápido de reconocer y puede simultanearse con otras tareas. Por ello, la invención es utilizable sin generarse barreras lingüísticas derivadas del idioma.
BREVE DESCRIPCIÓN DE LAS FIGURAS
La FIG. 1 muestra un diagrama de bloques simplificado de una realización de la invención.
La FIG. 2 muestra la imagen pixelada de un toroide analizado por la invención. La FIG. 3 muestra imagen pixelada y procesada del toroide de la FIG. 2.
La FIG. 4 muestra un diagrama de flujo simplificado del procedimiento seguido por el sistema de la invención.
La FIG. 5 muestra una realización de la invención basada en unas gafas.
DESCRIPCIÓN DETALLADA DE LA INVENCIÓN
Para mayor claridad, se describe un ejemplo de realización de la invención con referencia a las figuras sin carácter limitante y enfocado a señales sonora o táctil.
En la FIG. 1 se muestra un diagrama de bloques con los elementos principales del sistema de la invención. En dicho diagrama, se muestra cómo las imágenes se adquieren mediante un par de cámaras (3i, 3d) en estéreo. Preferiblemente, se sitúan a ambos lados de la cara y a la altura de los ojos del usuario, para facilitar el enfoque hacia la región de interés con movimientos de cabeza. Las cámaras (3i, 3d) están preferentemente alineadas en paralelo. La propia circuitería de las cámaras (3i, 3d) hace un pre-procesado de la imagen captada para servir un flujo de imágenes estable, evitando artefactos y aberraciones geométricas o cromáticas. La circuitería de los sensores ofrece una pareja de imágenes sincronizada en el tiempo.
Como resultado, este flujo de vídeo se transmite hacia una unidad de proceso (2). La unidad de proceso (2) es preferiblemente un diseño de hardware específico que implementa el algoritmo de conversión de imágenes a audio/vibración. Para comunicar las cámaras (3i, 3d) con la unidad de proceso (2), se ha previsto un cable (6). No obstante, en otras realizaciones más complejas se contempla la transmisión inalámbrica.
La unidad de proceso (2) convierte las imágenes estereoscópicas en un mapa de profundidad en escala de grises. Previamente, se genera un mapa de disparidad (sin información de escala).
Por mapa de profundidad se entiende imagen en escala de grises, en el que el color negro absoluto significa máxima lejanía (en función de la escala que usemos) y el color blanco puro significa cercanía máxima (en función de la escala que usemos). El resto de la gama de grises especifica distancias intermedias. No obstante, en otras realizaciones de la invención, es posible invertir el contraste y hacer que los colores más oscuros correspondan a las distancias más cercanas, o la utilización de una escala de colores prefijada, similar a una representación termográfica.
Por mapa de disparidad se entiende la imagen resultante que se obtiene a partir de la superposición de un par de imágenes estéreo, a las que se somete a un procesado matemático. El mapa de disparidad binocular expresa, en una imagen, las diferencias a nivel de pixel que hay entre dos imágenes estéreo. Mediante la aplicación del algoritmo matemático de disparidad, teniendo la distancia entre cámaras y unos ficheros de calibración de las mismas, se puede trasladar la diferencia entre píxeles a distancias reales. Gracias a este proceso, se sabe a qué distancia de la cámara se encuentra cada porción (tamaño pixel) de la imagen tomada. Se emplea una escala de grises para expresar esa distancia.
A continuación se hace una conversión a mapa de profundidad. Tras un proceso matemático en el que se aplica escala distancias/nivel de gris, se obtiene un mapa de profundidad. A partir del mapa de profundidad generado, se aplica un algoritmo de conversión desarrollado a tal efecto, de alta optimización y, por ello, menor exigencia de recursos de computación, que permite que los datos espaciales de profundidad se conviertan a audio de forma más eficiente que en los sistemas conocidos.
El resultado es que con una pareja de imágenes iniciales en estéreo, se consigue una señal sonora no-verbal en estéreo que se transmite al usuario a través de unos auriculares cocleares, o de conducción ósea (4i, 4d). Así se logra definir un lenguaje audiovisual que traslada intuitivamente al usuario información visual a información auditiva con fidelidad.
En la FIG. 2 aparece un ejemplo de mapa de profundidad en baja resolución de un toroide. Cada píxel del mapa de profundidad tiene asociada una coordenada (X, Y) que corresponde con las posiciones de pixel capturados por las cámaras. Además cada píxel tiene asociado un nivel de gris (G) que proporciona información sobre la profundidad, es decir la distancia a la que se encuentra la región asociada a dicho píxel.
La FIG. 3 ilustra simplificadamente una división de la columna o franja vertical central en 3 zonas según su nivel de gris. La zona "A" es negra, la zona "B" es blanca y la zona "C" que es gris. Según lo anterior, se asocian 3 valores de intensidad diferentes a cada zona (silencio para zona "A", volumen máximo para zona "B" y una intensidad sonora media para la zona "C". Se ha de entender que habitualmente se definen muchos más rangos de nivel de gris y por tanto de intensidad sonora asociada. La señal sonora se compone sumando las señales individuales correspondientes a los píxeles de cada zona.
Con la información proveniente del mapa de profundidad se construye una matriz o tabla con la información del entorno en ese momento. Esta información debe ser convertida en audio de acuerdo con las siguientes consideraciones:
- Con cada par de fotogramas estéreo se hace un mapeo de disparidad: Dada la diferencia entre píxeles de las imágenes y teniendo los datos de cámaras (FOV, distancia interocular, calibración específica) se pueden establecer triangulaciones, por tanto asociar píxeles a distancias en el mundo real. Con esta información, se procesa la imagen para dar un mapa de profundidad. Es una imagen de contorno de los objetos y escala de grises expresando sus volúmenes y distancias reales. De esta forma, tenemos una sola imagen conjunta que contiene información espacial de la escena.
Ejemplo de funcionamiento en Modo Rastreo: Tomamos la FIG.3. Para analizar la imagen habremos de mover la cabeza de izquierda a derecha en gesto de negación. Así, el cursor central (en rojo) rastreará por completo el toroide. El sonido generado se oirá en el centro del panorama estéreo (ya que siempre será el centro del eje de nuestra visión) Con este rastreo se delimitan el tamaño horizontal del objeto (el movimiento de nuestro cuello nos servirá como referencia) y el tamaño vertical nos lo dará el rango de frecuencias. Modo Paisaje Completo. Tomemos para analizar la FIG.2. En este caso no se tiene que mover el cuello para interpretar lo que hay delante. La parte derecha del toroide sonará a la derecha en el panorama estéreo. Análogamente sonarán las partes centrales e izquierdas. El nivel de apertura del panorama estéreo nos indicará el tamaño horizontal del toroide. El tamaño vertical vendrá expresado por el rango de frecuencias, tal y como en el modo Rastreo.
La correspondencia de la imagen con el sonido estéreo es la siguiente: Partiendo de imagen de un paisaje, la señal sonora corresponde a las zonas que analiza. La zona izquierda de la imagen sonará en el panorama estéreo izquierdo. La zona derecha en el panorama estéreo derecho. La zona central por tanto, en el centro del panorama estéreo (o lo que es lo mismo, 50% izquierda + 50% derecha).
El rango de frecuencias que especifican el factor altura tiene un valor de 100Hz a 18000Hz, divididos en fragmentos iguales. Hemos elegido ese rango porque es lo suficientemente ancho para mostrar sonido con detalle y lo suficientemente estrecho para que una persona media los pueda abarcar sin problemas (el rango humano de sonido va de 20 Hz a 20000 Hz). La frecuencia base (100 Hz) se asocia a la primera fila inferior de píxeles en pantalla. La frecuencia superior (18000 Hz) a la fila superior de píxeles. Entre medio se asignan los demás fragmentos de frecuencia. Si la imagen tuviese 128 pixeles de altura, cada fila correspondería a un fragmento. Si cambiamos la resolución, se asignarán los fragmentos proporcionalmente a la altura. Este método sirve para sistemas con potencia computacional baja. Si disponemos de potencia bruta en la que la síntesis de sonido se genera en tiempo real, haremos la división del rango de frecuencias entre el número de pixeles de altura y asignaremos cada segmento de frecuencia a cada pixel, sin interpolaciones o promediados.
- El factor distancia espacial respecto al usuario (eje Z) se asocia al factor volumen generado por el algoritmo, de manera que un pixel negro no tendrá volumen perceptible (o sea, -infinito) y un pixel blanco tendrá el máximo volumen (0 dB). Esta escala será flexible y adaptativa al uso de distintos rangos de medida (40 cm, 2 m, 6 m). - La duración del sonido por pixel es directamente proporcional a su "presencia" en pantalla. Si un pixel permanece continuamente blanco, el sonido se repetirá continuamente.
- El análisis de columna central sólo se usa en el modo rastreo. En principio, se puede emplear una columna central de 1 pixel de anchura. No obstante, a fin de suavizar el sonido y evitar artefactos, se promediarán los valores de pixel de las tres columnas centrales, o incluso cinco, dependiendo de la resolución del mapa de profundidad (dependiente del poder de computación).
Se asocia al valor en la escala de grises de un pixel, una intensidad de volumen (I). Así, el pixel con valores 0.0.0 (modelo RGB) corresponde con una región alejada y la intensidad asociada es silencio (l=0). Un pixel con valores 255.255.255 se corresponde con una región muy próxima y el volumen de la señal es máximo (l= 0 dB). De esta manera, cada pixel puede verse como una "unidad de sonido" con la que hace una composición de audio. Preferiblemente, la frecuencia sonora abarca desde los 100Hz hasta los 18000 Hz.
De acuerdo con el modo de funcionamiento, la posición X del pixel podrá interpretarse de dos maneras.
- Modo rastreo: Solamente sonarán las señales correspondientes a los pixeles de la columna central. Se rastrea de la escena cuando el usuario mueve la cabeza con el gesto de negación. Esto es análogo al rastreo con un bastón.
Modo Paisaje Completo: Sonarán simultáneamente varias columnas de pixeles asociados a la escena. Con este modo, no es necesario rastrear. La imagen se representa (o "suena") al completo. Por ejemplo, cuanto más a la derecha estén los píxeles, más sonará en la derecha del panorama estéreo. Igualmente para las regiones centrales y de la izquierda. El modo Paisaje Completo requiere de potencia computacional alta, por lo que dependiendo de las prestaciones de la unidad de proceso (2), en vez de sonar todas las columnas de la imagen, se puede optimizar usando cinco columnas: Central, 45e, -45e, 80e, -80e. Pueden usarse más columnas en función de la potencia de proceso. La posición Y del pixel (altura del objeto) definirá cómo suena en términos de frecuencia: Usaremos un filtro paso-banda (o una frecuencia senoidal generada, o una muestra precalculada con un rango específico de frecuencia, alternativas en función de la potencia de cálculo del dispositivo), con el que los píxeles de la zona alta sonarán agudos y los de la zona baja sonarán graves. El espectro de sonido que abarcará cada píxel vendrá definido por el número de píxeles que tendrá Y.
Ejemplo: Para aclarar cómo se hace la generación de sonido a partir de la imagen de profundidad, se presenta este ejemplo. Supongamos se ha seleccionado el modo rastreo y se ha obtenido una imagen de profundidad como la FIG. 3 en la que solamente se distinguen 3 niveles de gris como aproximación. Por tanto, en la columna central hay (de abajo a arriba): 10 píxeles negros, 12 píxeles blancos, 2 píxeles negros, 8 píxeles grises y 15 píxeles negros. Supongamos que se establece una escala de colores, donde se asigna al blanco: 0 dB; al gris: -30 dB y al negro -∞ dB. La intensidad de la señal que en ese instante sería la mezcla analógica de todas las señales.
El usuario apreciaría diferentes frecuencias según la posición en altura del píxel. Más grave en los píxeles de menor altura y más aguda para los de mayor altura. El sonido generado por esta columna se puede dividir en una componente grave con una intensidad sonora alta (zona B) y una componente de intensidad sonora intermedia de frecuencia más aguda (zona C). Esta señal se generaría para los dos canales izquierdo y derecho (y se reproduciría respectivamente en los auriculares (4i, 4d)). Cuando el usuario cambia la posición de las cámaras al girar la cabeza, se modificará la imagen de profundidad y con ello la señal sonora asociada. En la FIG. 4 se ve un diagrama de flujo con algunos de los pasos importantes que se llevan a cabo en la modalidad de rastreo. Un primer paso (P1 ) de captura de imágenes por las cámaras (3i, 3d), un paso de procesado (P2) para generar el mapa de profundidad, un paso de asignación (P3) para asociar frecuencia e intensidad sonora a cada píxel o grupos de píxeles de la columna central del mapa de profundidad, un paso (P4) de generación de la señal sonora resultante correspondiente a la columna central.
En la FIG. 5 se ilustra una realización de la invención implementada en unas gafas 1. No obstante, se puede implementar en otro tipo de productos que sirvan de soporte. Por ejemplo, puede implementarse en una gorra, diadema, soporte de cuello, soporte pectoral, soporte en hombro, o un dispositivo de mano. La ventaja de las gafas es que son cómodas de llevar y permiten por un lado la colocación de los auriculares (4i, 4d) en la posición deseada y por otro el enfoque preciso de las cámaras (3i, 3d) a la región de interés. La unidad de proceso (2) se diseña para ser portada por el usuario en un bolsillo o en un cinturón. Se prevé en un futuro reducir su tamaño para integrarla junto con las gafas (1 ). Al estar separadas, un cable (6) lleva la información captada por las cámaras (3i, 3d) a la unidad de proceso (2). Por otra parte, una vez procesada esta información, la unidad de proceso (2) transmite a los auriculares (4i, 4d) las señales de audio correspondientes.
La cantidad de información y detalle que presenta el sonido permite identificar formas y espacios con precisión inédita hasta el momento. En los ensayos realizados con invidentes, se ha constatado que permite reconocer formas concretas por cómo es el sonido que llevan asociado tras un corto periodo de entrenamiento. Por ejemplo, botellas, vasos y platos en una mesa tienen características sonoras que permiten distinguirlos.
Para transmitir el sonido, se emplea preferiblemente auriculares cocleares que permiten dejar libre el canal auditivo. Con esto mejora la comodidad del usuario, rebajando ampliamente el cansancio auditivo y siendo mucho más higiénicos para sesiones de uso prologado.
En una realización se prevé una interfaz asociada con la unidad de procesamiento (2) con un botón de selección de rango para determinar la distancia de análisis. Por ejemplo: cerca, normal y lejos, con distancias de 40 cm, 2 m y 6 m, respectivamente, o siendo definidas por el usuario a través de una interfaz adaptada al efecto. Al pulsar el botón se irán seleccionando distancias cíclicamente. La selección de rango sirve típicamente para adecuar el alcance a distintos escenarios y circunstancias. Por ejemplo para ubicar objetos en una mesa: 40 cm; para moverse por casa 2 m; y para cruzar la calle: 6 m. En otra realización preferente de la invención, el sistema comprende un medio de transmisión inalámbrica de datos (por ejemplo mediante Wi-Fi, Bluetooth u otras tecnologías análogas) conectado a la unidad de procesamiento (2), donde dichos medios de transmisión se encuentran conectados a un dispositivo, externo con conexión inalámbrica y/o a un dispositivo de tipo wearable.
En una realización se prevé que la interfaz asociada con la unidad de procesamiento (2), disponga de un botón de Modo de Análisis. La selección entre modos será cíclica.
Modo Rastreo: Análisis solamente en la zona central de la imagen. El usuario girará la cabeza cíclicamente de izquierda a derecha rastreando la escena de un modo análogo a como lo haría con un bastón. El sonido es monoaural.
Modo Paisaje completo: El análisis de se realiza sobre toda la imagen. El sonido es estéreo. De esta manera, el usuario puede percibir las formas y los espacios en todo el campo de visión simultáneamente. Por ejemplo, a la izquierda (panorama estéreo izquierda) se percibe una columna, en el centro (panorama estéreo central) se percibe una mesa baja y a la derecha (panorama estéreo derecha) el paso está libre. Este modo de exploración es más complejo en términos de sonido, al ofrecer más información que el Modo Rastreo. Es sencillo de dominar aunque precisa algo más de entrenamiento.

Claims

REIVINDICACIONES
1. - Sistema portátil de interpretación sonora o táctil del entorno para personas invidentes o con deficiencia visual, que comprende:
- dos cámaras (3i, 3d), separadas entre sí, configuradas para captar simultáneamente una imagen del entorno,
- unos medios de generación (4i, 4d) de señales sonoras y/o táctiles de salida; caracterizado por que comprende:
- unos medios de procesamiento (2) conectados a las cámaras (3i, 3d) y a los medios de generación (4i, 4d) de señales sonoras y/o táctiles, configurados para combinar las imágenes captadas en tiempo real, y para procesar la información asociada a, al menos una franja vertical con información sobre la profundidad de los elementos de la imagen combinada, donde dichos medios de procesamiento (2) están además configurados para dividir la franja vertical en una o más regiones; para definir, en cada región, una señal sonora o táctil en función de la profundidad de la región y de la altura de la región; y para definir una señal sonora o táctil de salida a partir de las señales sonoras o táctiles de cada región de la franja vertical.
2. - Sistema según la reivindicación anterior, donde la franja vertical es una franja central de la imagen combinada.
3. - Sistema según la reivindicación anterior, donde los medios de procesamiento (2) están configurados para procesar una pluralidad de franjas verticales laterales en la imagen combinada, a cada lado de la franja vertical central, y por que se definen una señal lateral izquierda y una señal lateral derecha, a partir de las regiones de cada franja lateral izquierda y de cada franja lateral derecha respectivamente.
4. - Sistema según la reivindicación anterior, donde los medios de procesamiento (2) están adaptados para proporcionar un análisis simultáneo de la pluralidad de franjas verticales laterales, de forma que se procese, horizontalmente, una región de segmentación sobre la imagen completa adquirida por las cámaras (3i, 3d).
5. - Sistema según la reivindicación anterior, donde el modo de operación de los medios de procesamiento (2) es configurable por el usuario, de forma que el modo de análisis simultáneo de la pluralidad de franjas verticales laterales y modo de análisis de una única franja vertical son activables y desactivables por dicho usuario.
6. - Sistema según cualquiera de las reivindicaciones anteriores, donde los medios de generación (4i, 4d) operan en estéreo, combinando una señal sonora o táctil lateral izquierda y una señal sonora o táctil lateral derecha, y/o donde el sonido generado es monoaural, siendo ambas modalidades seleccionares por el usuario.
7. - Sistema según cualquiera de las reivindicaciones anteriores, donde los medios de procesamiento (2) definen una intensidad de la señal sonora o táctil en función de la profundidad de la región.
8. - Sistema según la reivindicación anterior, donde los medios de procesamiento (2) definen una frecuencia de la señal sonora o táctil en función de la altura de la región en la franja vertical.
9.- Sistema según la reivindicación anterior, donde los medios de procesamiento
(2) están configurados para determinar la profundidad de una región, en función de la codificación del color en escala de grises o mediante un gradiente de color, sobre un mapa de profundidad de la imagen del entorno.
10.- Sistema según cualquiera de las reivindicaciones anteriores, que comprende una estructura soporte (1 ) para ser llevada por el usuario, y configurada para ubicar los medios de reproducción (4i, 4d) y las dos cámaras (3i, 3d).
1 1. - Sistema según cualquiera de las reivindicaciones anteriores, donde la señal táctil es una señal generada por vibración.
12. - Sistema según cualquiera de las reivindicaciones anteriores, donde la frecuencia de la señal sonora se elige dentro del intervalo entre 100 Hz y 18000 Hz.
13.- Sistema según cualquiera de las reivindicaciones anteriores, donde los medios de generación (4i, 4d) comprenden unos auriculares de conducción ósea.
14.- Sistema según cualquiera de las reivindicaciones anteriores, donde la estructura soporte (1 ) se elige entre al menos:
- unas gafas,
- una diadema, - soporte de cuello,
- soporte pectoral,
- soporte en hombro,
- soporte de mano.
15.- Sistema según cualquiera de las reivindicaciones anteriores, que comprende un medio de transmisión inalámbrica de datos conectado a la unidad de procesamiento (2), donde dichos medios de transmisión se encuentran conectados a un dispositivo externo con conexión inalámbrica, y/o a un dispositivo de tipo wearable.
PCT/ES2016/070441 2015-06-12 2016-06-10 Sistema portátil de interpretación sonora o táctil del entorno para personas invidentes o con deficiencia visual WO2016198721A1 (es)

Priority Applications (15)

Application Number Priority Date Filing Date Title
JP2018516636A JP6771548B2 (ja) 2015-06-12 2016-06-10 盲人又は視覚障害者が音声や触覚によって周囲環境を解釈することを可能にするポータブルシステム
DK16806940.9T DK3308759T3 (da) 2015-06-12 2016-06-10 Bærbart system, der gør det muligt for blinde eller synshæmmede personer at fortolke omgivelserne ved hjælp af lyd eller berøring
CN201680034434.0A CN107708624B (zh) 2015-06-12 2016-06-10 允许盲人或视障人士通过声音或触觉了解周围环境的便携式系统
BR112017026545-1A BR112017026545B1 (pt) 2015-06-12 2016-06-10 Sistema portátil que permite que pessoas cegas ou deficientes visuais interpretem o ambiente ao redor através de som ou de toque
EP16806940.9A EP3308759B1 (en) 2015-06-12 2016-06-10 Portable system that allows blind or visually impaired persons to interpret the surrounding environment by sound or touch
CA2986652A CA2986652A1 (en) 2015-06-12 2016-06-10 Portable system that allows blind or visually impaired persons to interpret the surrounding environment by sound or touch
ES16806940T ES2780725T3 (es) 2015-06-12 2016-06-10 Sistema portátil de interpretación sonora o táctil del entorno para personas invidentes o con deficiencia visual
MX2017015146A MX2017015146A (es) 2015-06-12 2016-06-10 Sistema portatil de interpretacion sonora o tactil del entorno para personas invidentes o con deficiencia visual.
US15/578,636 US11185445B2 (en) 2015-06-12 2016-06-10 Portable system that allows blind or visually impaired persons to interpret the surrounding environment by sound and touch
RU2017144052A RU2719025C2 (ru) 2015-06-12 2016-06-10 Портативная система, обеспечивающая восприятие слепыми или слабовидящими людьми окружающего пространства посредством звука или касания
KR1020177037503A KR102615844B1 (ko) 2015-06-12 2016-06-10 맹인 또는 시각 장애인에게 소리 또는 촉각에 의하여 주변환경을 이해할 수 있도록 하는 휴대용 시스템
AU2016275789A AU2016275789B2 (en) 2015-06-12 2016-06-10 Portable system that allows blind or visually impaired persons to interpret the surrounding environment by sound or touch
IL255624A IL255624B (en) 2015-06-12 2017-11-13 A portable system that allows blind or visually impaired people to decipher the immediate environment using sound or touch
CONC2017/0012744A CO2017012744A2 (es) 2015-06-12 2017-12-12 Sistema portátil de interpretación sonora o táctil del entorno para personas invidentes o con deficiencia visual
HK18107660.4A HK1248093A1 (zh) 2015-06-12 2018-06-13 允許盲人或視障人士通過聲音或觸覺了解周圍環境的便携式系統

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
ESP201530825 2015-06-12
ES201530825A ES2597155B1 (es) 2015-06-12 2015-06-12 Sistema portátil de interpretación sonora o táctil del entorno para un invidente

Publications (1)

Publication Number Publication Date
WO2016198721A1 true WO2016198721A1 (es) 2016-12-15

Family

ID=57504615

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/ES2016/070441 WO2016198721A1 (es) 2015-06-12 2016-06-10 Sistema portátil de interpretación sonora o táctil del entorno para personas invidentes o con deficiencia visual

Country Status (18)

Country Link
US (1) US11185445B2 (es)
EP (1) EP3308759B1 (es)
JP (1) JP6771548B2 (es)
KR (1) KR102615844B1 (es)
CN (1) CN107708624B (es)
AR (1) AR104959A1 (es)
AU (1) AU2016275789B2 (es)
BR (1) BR112017026545B1 (es)
CA (1) CA2986652A1 (es)
CO (1) CO2017012744A2 (es)
DK (1) DK3308759T3 (es)
ES (2) ES2597155B1 (es)
HK (1) HK1248093A1 (es)
IL (1) IL255624B (es)
MX (1) MX2017015146A (es)
PT (1) PT3308759T (es)
RU (1) RU2719025C2 (es)
WO (1) WO2016198721A1 (es)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107320296A (zh) * 2017-06-23 2017-11-07 重庆锦上医疗器械有限公司 视觉信号的空间三维声音表达系统及方法
CN108245385A (zh) * 2018-01-16 2018-07-06 曹醒龙 一种帮助视障人士出行的装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3551279B8 (en) * 2016-12-07 2023-10-11 Cortigent, Inc. Depth filter for visual prostheses
US10299982B2 (en) * 2017-07-21 2019-05-28 David M Frankel Systems and methods for blind and visually impaired person environment navigation assistance
JP7415139B2 (ja) * 2019-01-11 2024-01-17 ダイキン工業株式会社 環境条件記憶装置、環境条件記憶方法、操作装置、及び環境認識装置
EP3924873A4 (en) * 2019-02-12 2023-10-11 Can-U-C Ltd. STEREOPHONE DEVICE FOR THE BLIND AND VISUALLY IMPAIRED PERSONS
CA3165920A1 (en) 2020-04-30 2021-11-04 Shenzhen Shokz Co., Ltd. Bone conduction earphones
CN111862932B (zh) * 2020-07-02 2022-07-19 北京科技大学 一种将图像转化为声音的可穿戴助盲系统及方法
CN111862024A (zh) * 2020-07-14 2020-10-30 四川深瑞视科技有限公司 基于深度信息增强投影的工件检测系统及方法
KR20220008659A (ko) 2020-07-14 2022-01-21 김재현 시각 장애인 전용 목걸이

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3172075A (en) * 1959-11-27 1965-03-02 Nat Res Dev Apparatus for furnishing information as to positioning of objects
US4292678A (en) * 1978-08-14 1981-09-29 Leslie Kay Method of and apparatus for echo location of objects
EP0410045A1 (en) * 1989-07-27 1991-01-30 Koninklijke Philips Electronics N.V. Image audio transformation system, particularly as a visual aid for the blind
US20070016425A1 (en) * 2005-07-12 2007-01-18 Koren Ward Device for providing perception of the physical environment
US20090122648A1 (en) * 2007-11-12 2009-05-14 Trustees Of Boston University Acoustic mobility aid for the visually impaired
US20120092460A1 (en) * 2009-06-19 2012-04-19 Andrew Mahoney System And Method For Alerting Visually Impaired Users Of Nearby Objects
WO2013018090A1 (en) * 2011-08-01 2013-02-07 Abir Eliahu System and method for non-visual sensory enhancement

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100586893B1 (ko) * 2004-06-28 2006-06-08 삼성전자주식회사 시변 잡음 환경에서의 화자 위치 추정 시스템 및 방법
PT104120B (pt) * 2008-06-30 2010-11-23 Metro Do Porto S A Sistema de orientação, navegação e informação especialmente adaptado para pessoas cegas ou amblíopes

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3172075A (en) * 1959-11-27 1965-03-02 Nat Res Dev Apparatus for furnishing information as to positioning of objects
US4292678A (en) * 1978-08-14 1981-09-29 Leslie Kay Method of and apparatus for echo location of objects
EP0410045A1 (en) * 1989-07-27 1991-01-30 Koninklijke Philips Electronics N.V. Image audio transformation system, particularly as a visual aid for the blind
US20070016425A1 (en) * 2005-07-12 2007-01-18 Koren Ward Device for providing perception of the physical environment
US20090122648A1 (en) * 2007-11-12 2009-05-14 Trustees Of Boston University Acoustic mobility aid for the visually impaired
US20120092460A1 (en) * 2009-06-19 2012-04-19 Andrew Mahoney System And Method For Alerting Visually Impaired Users Of Nearby Objects
WO2013018090A1 (en) * 2011-08-01 2013-02-07 Abir Eliahu System and method for non-visual sensory enhancement

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"The vOICe at Tucson 2002''.", 4 May 2006 (2006-05-04), Retrieved from the Internet <URL:http://web.archive.org/web/20060504232231/http://www.seeingwithsound.com/tucson2002.html> *
J. BANKS ET AL.: "Non-parametric techniques for fast and robust stereo matching''.", IEEE TENCON - SPEECH AND IMAGE TECHNOLOGIES FOR COMPUTING AND TELECOMMUNICATIONS., 4 December 1997 (1997-12-04), pages 365 - 368, XP031172476, ISBN: 0-7803-4365-4, Retrieved from the Internet <URL:http://ieeexplore.ieee.org/stamp/stamp.jsp.?tp=&arnumber=647332> *
L. KAY: "Auditory perception of objects by blind persons, using a bioacoustic high resolution air sonar''.", J. ACOUST. SOC. AM., vol. 107, no. 6, 30 June 2000 (2000-06-30), pages 3266 - 3275, XP012001735, Retrieved from the Internet <URL:http://scitation.aip.org/content/asa/journal/jasa/107/6/10.1121/1.429399> *
P.B.L MEIJER: "An experimental System for auditory image representations''.", IEEE TRANSACTIONS ON BIOMEDICAL ENGINEERING, vol. 39, no. 2, 29 February 1992 (1992-02-29), pages 112 - 121, XP000246185, ISSN: 0018-9294, Retrieved from the Internet <URL:http;//ieeexplore.ieee.ors/stamp/stamp.jsp?tp=&arnumber=121642> *
See also references of EP3308759A4 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107320296A (zh) * 2017-06-23 2017-11-07 重庆锦上医疗器械有限公司 视觉信号的空间三维声音表达系统及方法
CN108245385A (zh) * 2018-01-16 2018-07-06 曹醒龙 一种帮助视障人士出行的装置

Also Published As

Publication number Publication date
HK1248093A1 (zh) 2018-10-12
ES2780725T3 (es) 2020-08-26
CO2017012744A2 (es) 2018-02-20
AU2016275789A1 (en) 2018-01-25
AU2016275789B2 (en) 2021-03-11
RU2719025C2 (ru) 2020-04-16
CA2986652A1 (en) 2016-12-15
IL255624A (en) 2018-01-31
DK3308759T3 (da) 2020-03-02
JP6771548B2 (ja) 2020-10-21
BR112017026545B1 (pt) 2022-07-12
MX2017015146A (es) 2018-03-28
EP3308759A1 (en) 2018-04-18
AR104959A1 (es) 2017-08-30
ES2597155A1 (es) 2017-01-16
CN107708624B (zh) 2021-12-14
KR102615844B1 (ko) 2023-12-21
ES2597155B1 (es) 2017-09-18
EP3308759B1 (en) 2019-11-27
EP3308759A4 (en) 2019-02-27
PT3308759T (pt) 2020-04-01
CN107708624A (zh) 2018-02-16
RU2017144052A3 (es) 2019-10-29
KR20180018587A (ko) 2018-02-21
BR112017026545A2 (pt) 2018-08-14
IL255624B (en) 2021-04-29
US11185445B2 (en) 2021-11-30
JP2018524135A (ja) 2018-08-30
US20180177640A1 (en) 2018-06-28
RU2017144052A (ru) 2019-07-12

Similar Documents

Publication Publication Date Title
ES2780725T3 (es) Sistema portátil de interpretación sonora o táctil del entorno para personas invidentes o con deficiencia visual
JP6904963B2 (ja) 拡張現実システムにおいてオーディオを指向させるための技法
CN204744865U (zh) 基于听觉的为视觉障碍人士传达周围环境信息的装置
US11277603B2 (en) Head-mountable display system
KR20180038552A (ko) 가상 및 증강 현실 시스템들 및 방법들
WO2017051570A1 (ja) 情報処理装置、情報処理方法、およびプログラム
CN116325771A (zh) 用于提供图像平移、倾斜和变焦功能的多传感器摄像系统、设备和方法
JP2015041936A (ja) 画像表示装置、並びに画像処理装置及び画像処理方法
JP2022549548A (ja) オーディオコンテンツを提示するときに触覚コンテンツのレベルを調整するための方法およびシステム
WO2019142432A1 (ja) 情報処理装置、情報処理方法及び記録媒体
Strumillo et al. Different approaches to aiding blind persons in mobility and navigation in the “Naviton” and “Sound of Vision” projects
Bălan et al. Assistive IT for Visually Imapired People
KR20190015903A (ko) 3차원 카메라와 헤드 마운트 디스플레이를 이용한 수술 녹화 및 중계 시스템
JP2022548811A (ja) 触覚コンテンツを制御するための方法およびシステム
CN106888420B (zh) 一种音频采集装置
ES2517765A1 (es) Dispositivo y método de análisis, almacenamiento y representación espacial mediante sonidos
US11259134B2 (en) Systems and methods for enhancing attitude awareness in telepresence applications
US12003944B2 (en) Systems and methods for enhancing attitude awareness in ambiguous environments
US11967335B2 (en) Foveated beamforming for augmented reality devices and wearables
Silva et al. Perceiving graphical and pictorial information via touch and hearing
ES2924844A1 (es) Dispositivo de visualizacion para realidad virtual compartida, sistema que comprende dicho dispositivo, y procedimiento de realidad virtual compartida usando dicho sistema
JP2012253447A (ja) 表示装置、表示システム、表示装置の制御方法、制御プログラム、及び記録媒体
JP2013150125A (ja) 立体映像システム、全天周映像生成装置、および、立体映像制御方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16806940

Country of ref document: EP

Kind code of ref document: A1

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 255624

Country of ref document: IL

ENP Entry into the national phase

Ref document number: 2986652

Country of ref document: CA

WWE Wipo information: entry into national phase

Ref document number: MX/A/2017/015146

Country of ref document: MX

WWE Wipo information: entry into national phase

Ref document number: 15578636

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2018516636

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: NC2017/0012744

Country of ref document: CO

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 20177037503

Country of ref document: KR

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2016806940

Country of ref document: EP

Ref document number: 2017144052

Country of ref document: RU

ENP Entry into the national phase

Ref document number: 2016275789

Country of ref document: AU

Date of ref document: 20160610

Kind code of ref document: A

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112017026545

Country of ref document: BR

ENP Entry into the national phase

Ref document number: 112017026545

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20171208