WO2011080361A1 - Método, dispositivo y sistema para lectura de displays - Google Patents

Método, dispositivo y sistema para lectura de displays Download PDF

Info

Publication number
WO2011080361A1
WO2011080361A1 PCT/ES2009/070644 ES2009070644W WO2011080361A1 WO 2011080361 A1 WO2011080361 A1 WO 2011080361A1 ES 2009070644 W ES2009070644 W ES 2009070644W WO 2011080361 A1 WO2011080361 A1 WO 2011080361A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
text
particles
portable device
segments
Prior art date
Application number
PCT/ES2009/070644
Other languages
English (en)
French (fr)
Inventor
Ricardo Ferreria Figueroa
Elisa Prada Carmelo
Javier Arcas Ruiz-Ruano
Javier GONZÁLEZ LODOSO
Jose Angel GUTIÉRREZ OLABARRIA
Alberto Isasi Andrieu
Original Assignee
Fundacion Robotiker
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fundacion Robotiker filed Critical Fundacion Robotiker
Priority to PCT/ES2009/070644 priority Critical patent/WO2011080361A1/es
Publication of WO2011080361A1 publication Critical patent/WO2011080361A1/es

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/02Recognising information on displays, dials, clocks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Definitions

  • the present invention belongs to the field of artificial vision, and more specifically, to the detection and interpretation of visual information offered by different types of displays.
  • FIG. 1 A shows an example of a passive background LCD, while the LCD of Figure 1 B is active background.
  • - Light emitting diodes or LEDs in English, “Light Emiting Diode”
  • Figure 1 C shows an LED display representing a clock that marks the time.
  • Thin film or TFT film transistors in English, "Thin film transistor”: Color graphic display whose active elements (pixels) allow the modification of the color of the subsequent active light. These displays allow high resolution representations.
  • Figure 2A illustrates a seven segment display.
  • Figure 2B illustrates a sixteen segment display (alphanumeric).
  • Figure 2C illustrates a display formed by a dot matrix, built with LEDs whose dimensions are 5x7, which allows alphanumeric representation.
  • the letter "A" is illustrated as an example.
  • Dot matrices pixels
  • They allow the configuration of characters and graphics. They usually use large matrices, for example, but not limited to 320x200.
  • Figure 2D illustrates several conventional graphic displays.
  • OCRs mobile optical character recognition
  • H. Shen and J. Coughlan (“Reading LCD / LED Displays with a Camera Cell Phone", 2nd IEEE Workshop on Embedded Computer Vision (ECVW '06), in collaboration with CVPR 2006, New York, June 2006) propose a seven-segment display reader computer application with the condition that they have their own lighting. This system is based on a simple light-dark contrast, taking into account the intensity of gray level.
  • a second proposal is that contributed by Silvio Ferreira et al. ("A Text Detection Technique Applied in the Framework of a Mobile Camera-Based Application", Faculty of Engineering, Mons (Belgium), June 2006), which bases the system in a PDA that has a camera to photograph the display and an embossed keypad to facilitate user management.
  • a master card allows you to take a photo-taking training supervised by the system itself.
  • the proposed system includes preprocessing of the captured image, characterization of the text texture based on Gabor filters, clustering of the text, correction of the orientation and perspective when necessary and analysis of the layout (in English, "layouf) final.
  • a system based on neural networks is provided that attempts to correct the identification of the photographed text in poor conditions.
  • the system proposed by Ferreira is aimed at identifying lines of text on A4 paper, such as text paragraphs in 1 or 2 columns and areas with titles. Once the paragraphs have been identified and oriented correctly, the system uses a commercial OCR system. Specifically, it is aimed at finding a large number of lines of dark text on a light background.
  • the present invention solves the aforementioned problems by means of a method, device and system oriented to the detection and interpretation of the visual information offered by the different types of displays, posters or signage based on both numerical, alphanumeric and iconographic characters.
  • the present invention provides a useful and affordable tool for blind or visually impaired people, which allows them to access the information offered by displays, signs or signs autonomously and independently, allowing them to improve their quality of life by integrating in a way more harmonized with the surrounding environment.
  • a method of interpreting visual information comprising alphanumeric characters, from a display, a poster or a signage.
  • the method comprises the following steps: from a digital image, convert the image to grayscale; segmenting said grayscale image, so that a black and white image formed by a plurality of particles is obtained; filter said plurality of particles, so that particles that do not contain information associated with a character of the original digital image are removed; dilate the remaining particles, so that a dilated image is obtained; select segments of said dilated image, trying that grouped segments correspond to a character of the original image; Decursivize the content of each of these segments; interpret the information of these segments through a character recognition algorithm.
  • the stage is performed: search in a dictionary for the equivalent term or terms to the set of identified characters.
  • a semantic check of said term or terms is preferably performed. This semantic check is preferably done through a lexical analysis of each term.
  • the search in a dictionary provides a text representative of the original image
  • the stage of displaying said text on a screen of a portable device is performed, so that it can be read according to conventional methods aimed at people with visual impairment.
  • the method allows these terms to be converted to voice.
  • the steps of: sending the original digital image to a human operator are performed; by said human operator, generate a representative text of said original image; send said text representative of the original image to a screen of a portable device, so that it can be read according to conventional methods aimed at people with visual impairment. In this case, this text can also be converted to voice.
  • a device comprising: means for, from a digital image, converting the image to grayscale; means for segmenting said grayscale image, so that a black and white image formed by a plurality of particles is obtained; means for filtering said plurality of particles, so that particles that do not contain information associated with a character of the original image are removed; means for dilating the remaining particles, so that a dilated image is obtained; means for selecting segments of said dilated image, trying that grouped segments correspond to a character of the original image; means for decursivizing the content of each of said segments; means for interpreting the information of said segments by means of a character recognition algorithm; means to search a dictionary for the term or terms equivalent to the set of identified characters.
  • the device comprises means for establishing a wireless telephone connection with a portable device.
  • the invention provides a system comprising: a portable device comprising means for establishing a wireless telephone connection; a device such as the one mentioned above configured to receive a digital image from the portable device through that wireless telephone connection and to send to said portable device a text representative of a set of characters included in said digital image.
  • the system comprises means for taking said digital image.
  • the portable device of the system further comprises means for converting said representative text to voice.
  • the system device comprises means for, if it is not able to automatically provide a text representative of the original image: send the original digital image to a human operator; receive from said human operator a representative text of said original image; send said text representative of the original image to a screen of a portable device, so that it can be read according to conventional methods aimed at people with visual impairment.
  • Figures 1 A, 1 B and 1 C represent several conventional displays according to different technologies.
  • Figures 2A, 2B, 2C and 2D show several conventional displays that differ in the way of representing information.
  • Figures 3A, 3B and 3C show three examples of captured images.
  • Figures 4A and 4B show an example of applying a first algorithm to obtain a grayscale image that was originally in color.
  • Figures 5A and 5B show an example of applying a second algorithm to obtain a grayscale image that was originally in color.
  • Figure 6 represents a three-dimensional representation of one of the filters used in the segmentation stage of the present invention.
  • Figures 7A, 7B and 7C show an example of extraction of elements of interest from texture characteristics of the image.
  • Figures 8A and 8B represent the image before and after the expansion stage according to the present invention.
  • Figure 9 represents the grouping of segments into boxes according to the present invention.
  • Figure 10 shows a graph resulting from the decursivization process according to the present invention.
  • Figures 1 1 A and 1 1 B represent an image before and after the decursivization step of the present invention.
  • Figure 12 represents an example of angle correction according to the present invention
  • Figure 13 illustrates an example of character recognition by OCR used in the present invention.
  • Figure 14 shows a schematic of the steps of the method according to an embodiment of the present invention.
  • Figures 15A, 15B and 15C illustrate a system according to an embodiment of the present invention and its operating alternatives.
  • Figures 16A and 16B illustrate a portable device according to an embodiment of the present invention.
  • Figure 17 illustrates an original image captured from the display, with its division into cells.
  • Pixel (from the English picture element, "image element") It is the smallest unit homogeneous in color that is part of a digital image.
  • Texture of an image It is a function of spatial variation in pixel values. It represents the appearance of the surface of an object: roughness, granularity, directionality of identifying features, etc. It is used to identify homogeneous regions in an image.
  • Particle (from English blob) It is the minimum number of pixels, connected to each other, that is isolated for further processing.
  • Region set of neighboring cells with a specific interest for the analysis of an image.
  • Character It is the minimum image with meaning to be identified.
  • a character can be, for example, a letter, a number or another symbol.
  • Segment an image Divide a digital image into several particles (set of pixels), in order to simplify or change the image and facilitate its interpretation.
  • Dilation Expansion of the silhouette of an original image, applying a specific geometric element.
  • Decursivize Eliminate the orientation or perspective component of a digital image, achieving an image in a plane perpendicular to the axis of the camera with which the digital image is taken.
  • the method is implemented in a system, which is described below in relation to Figures 15A, 15B and 15C.
  • the portable device oriented to the interpretation of the visual information offered by the different types of displays is also outlined below in relation to Figures 16A and 16B.
  • the portable device is capable of establishing a wireless or telephone connection with a remote computer.
  • Image processing is carried out on a remote computer (see fig. 15A), since the portable device does not have sufficient computing capacity for processing. Therefore, the portable device (for example, mobile phone or PDA) captures the image, sends it to a remote computer that performs the image processing and returns the text interpreted on the display to the portable device (Fig. 15B). If the remote computer is not able to correctly interpret the display, an image of the display is shown to an operator so that it can type the equivalent text and the computer returns that text to the portable device (Fig. 15C).
  • the portable device for example, mobile phone or PDA
  • the method comprises the following stages:
  • the photograph is based on a digital image obtained from a photograph taken on a display or on a sign or signage with alphanumeric content.
  • This photograph can be taken from any conventional image capture source, such as a webcam, a mobile phone or any digital camera of greater or lesser resolution and cost. These examples should be considered merely illustrative and not limiting.
  • the photograph is preferably taken by the portable device itself.
  • the portable device captures the image, sends it to a remote computer for processing, receives the text as a result of the processing and displays it (as text on the screen or by voice).
  • the processing is carried out on a remote computer to which the operator also has access for cases in which the automatic processing does not give a correct result.
  • the image capture (stage 0) takes into account non-ideal conditions, since such capture is most likely performed by people with visual impairment.
  • a mechanical accessory 160 has been designed that is attached or coupled to the portable device, which ensures that the image capture is carried out at a specific distance from the display, poster or signage, with a specific angle and with lighting conditions and controlled light. This mechanical accessory 160 is illustrated in Figures 16A and 16B.
  • Figures 3A, 3B and 3C show three examples of captured images corresponding to two microwave models. These examples show icons, numbers (time and program indication) and text ("end" of completion). In a particular, non-limiting example, the minimum resolution of the captured images is 640x480 pixels.
  • FIG. 14 shows a block diagram of the method of the invention. From said digital image 1401, the characteristics of the image are extracted on the remote computer and the elements of interest are located (step 1). In a first step, it is necessary to extract the characteristics of the image (stage 1), which comprises the sub-stages of: first, dividing the image into cells of equal size 1402 1403; then pass the captured image (usually a color image) to grayscale 1404 1405; then, select between dark background (or black) and light characters (or white) or vice versa, depending on the characteristics of the image. Note that, throughout the different stages, segmentation is used to divide the image according to different objectives (turn the image from color to gray, determine what is background, determine where the relevant information is (lines, etc.), etc. .). Figure 14 first identifies the color image (block
  • the algorithm used to pass the color images to grayscale is as follows:
  • GRAY Reverse (max (R, G, B)), where the colors red R (red), green G (green) and blue B (blue) are basic components of a color image, since from them they derive the rest of the colors.
  • the way to represent the value that contains the parameter of a certain color is represented internally in the computer by means of a set 8 bit
  • the translation of this 8-bit code (each with 2 possible values) into decimal format gives a scale of 0 to 255); where max (R, G, B) indicates that the maximum value of the three values corresponding to red, green and blue is chosen; and the "Inverse" function indicates that the inverse image is found, because the segmentation algorithm, explained below, looks for dark segments of a certain thickness surrounded by white zone.
  • Figures 4A and 4B try to illustrate how the above algorithm manages to pass a color image with light characters on a dark background (fig. 4A) to a grayscale image (fig. 4B).
  • the algorithm used to pass the color images to grayscale is the following:
  • the previous algorithm cannot be used, because in the case of backlighting (backlight of the display or poster or signage, which appears lighter than the characters), the dark characters can be saturated of the color of the backlight.
  • RGB background (100, 255, 255); (This combination of R, G, B values is an example of a clear image background).
  • RGB character (53, 105, 255); (This combination of R, G, B values is an example of a dark colored character).
  • the resulting grayscale image is obtained as follows:
  • Gray image (R + G + B) / 3. That is, a specific gray level is assigned based on the average value of the weights of the colors R, G, B.
  • the procedure automatically detects which zones are candidates to be "background" of the display, poster or signage and which zones correspond to characters of the display, poster or signage. This is achieved by a statistical analysis of the appearance of gray levels in the image (which is done after the grayscale step.
  • the captured image has been divided into cells, forming a matrix of cells (blocks 1402 1403 of Figure 14) In each one, the average values and variation of the pixel values are obtained, depending on these statistical values it is deduced if the cell under study corresponds to the background (a certain average level and little variance in color (it is done after moving to grayscale) of the pixels that make up the cell) or is a cell containing some character or fragment of it (a different average level and a greater variation in the colors of the pixels that make up the cell) .
  • Figure 5B illustrates how Figure 5A looks after applying the algorithm just described to said Figure 5A.
  • a segmentation algorithm is used that is able to locate horizontal, vertical or diagonal lines or contours of the image that correspond to dark areas surrounded by light areas, or vice versa.
  • texture-based segmentation algorithms are used, which allows the image to be divided into several sub-images, according to their texture.
  • the image is subjected to morphological filters oriented to enhance or enhance areas of the image with certain characteristics of thickness (width) and contrast with the environment.
  • morphological filters are Gabor filters. These filters examine the pixel by pixel image to determine horizontal, vertical or diagonal lines. That is, the filtering algorithm scans rows and columns of the image to determine consecutive pixels that have similar light intensities associated.
  • each image can be passed several filters and at least two orientations (horizontal and vertical).
  • a third diagonal orientation can be passed.
  • nine filters are passed: large horizontal, large vertical, large diagonal, medium horizontal, medium vertical, medium diagonal, small horizontal, small vertical, small diagonal.
  • the response images to each filter are added and an image with high value areas is obtained if they have had a high response to at least one of the filters (that is, they have the shape of the filter) and low ones in which they have not.
  • you can segment the areas of interest. That is, after filtering, only the areas whose texture responds best to certain frequencies (displays) remain.
  • Figure 6 shows a three-dimensional representation of one of the conventional filters used in this segmentation.
  • a filter can be passed through a band sensitive to orientation, that is, a filter that detects "lines" of a thickness determined by the size of the filter, in the orientation of the filter. When passing filters in several orientations, lines are detected in all orientations.
  • Figures 7A and 7B show an example of the application of segmentation algorithms based on image textures.
  • Figure 7A represents the starting image of an alarm clock and
  • Figure 7B represents the image after the application of these algorithms.
  • Figure 7B clearly distinguishes all digits and areas of interest from the display.
  • Figure 7C shows the image obtained after passing it through a segmentation algorithm using classical binarization techniques. As can be seen, the quality of the results of the treatment is significantly lower, causing the loss of some areas of interest and the not so precise differentiation of the display itself. The result of this segmentation stage is a black and white image.
  • a particle is delimited by selecting an initial pixel and adding to it the pixels that are attached to it and the pixels that form it, successively).
  • This particle filtering is carried out based on any of the following characteristics: -By size: Particles whose size in pixels is smaller than a certain threshold that are smaller are discarded. In a particular embodiment, this minimum particle size threshold is set at 38 x 43 pixels. Note that it works with a minimum image resolution of approximately 640 x 480 pixels.
  • a step of joining or dilating segments 1407 is performed. Since, depending on the nature of the display, the segments that make up each of the characters may be separated, it is necessary to perform "dilated” (in English, “dilates”). These operations consist of joining the "gaps” or jumps that appear in the image, joining the areas of interest (particles) supposedly corresponding to the same character to be identified, to facilitate that identification. You work with a threshold value to decide if that gap is "filled”. If that threshold value is not well chosen, the result may be errors when joining zones of interest corresponding to different characters, or on the contrary, remaining unbound areas being of the same character. For this, any conventional vision or dilated algorithm is used. Dilation is especially important in the vertical direction. In this way, the particles are joined, and it is easier to obtain future segments.
  • Figures 8A and 8B represent the image before (figure 8A) and after (figure 8B) of the expansion algorithm.
  • the segments are selected. For this, the minimum capable continent drawer (CCCP) is calculated, that is, the envelope rectangle of each of the particles is calculated.
  • the minimum capable continent drawer (CCCP) is a conventional vision algorithm. This segment selection algorithm scans the image to determine the coordinates of the most extreme points of each particle and, from these extreme points, calculate the CCCP.
  • the boxes (containing particles) with similar geometric characteristics such as similar height, similar width, similar spacing, position of the center of similar mass, position of the vertical axis with respect to the display, poster or signage, etc. are located. to group the boxes that may be related to each other (for example, forming words).
  • a threshold (based on tests) is defined to define whether a characteristic is similar or not. Segments grouped in boxes are thus obtained. This grouping of segments into boxes is achieved thanks to the dilated image that has been previously made.
  • Figure 9 represents the grouping of segments 901, 902, 903, 904, 905 into boxes 91, 92. Ideally, the segments represent characters, while the boxes represent words or groups of characters.
  • segment 904 comprises three elements: number 4, number 2 and an icon representing a point between both numbers. This is because, by dilating the image in the previous stage, the number 4 and the number 2 have been joined by a thick line, as can be seen in Figure 8B.
  • the step of locating frames illustrated in Figure 9 comprises the original images without dilating. This image contained in the boxes (91, 92) is then processed by the decursivization module 1408.
  • step 1407 the process of normalizing, emphasizing, dilating based on the thicknesses of the characters, finding CCCP and grouping segments is performed.
  • the images contained in the boxes (91, 92) are subjected to a process of decursivization 1408, that is, the process of correcting angles in the characters (numbers, letters, etc.) of the image.
  • This process includes the calculation of the angle of the gradient of each point of the image after smoothing to avoid noise. This provides the perpendicular orientations of the lines (it gives us the direction of the maximum variation of predominant angle).
  • Figure 10 shows the graph, the result of the process of decursivization, which indicates the most common angles of the image, which allows to obtain the angle of rotation of, for example, the letters in italics, and correct it.
  • Figures 1 1 A and 1 1 B represent an image before (figure 1 1 A) and then (figure 1 1 B) of the decursivization stage of the present invention. You can see how the italics have been corrected.
  • the angle correction is done by applying the following trigonometric operation:
  • Xnueva Xvieja + (Alto-Y) / tan (AnguloGirado).
  • each pixel slides to the left an amount that depends on the height at which it is. This is illustrated in Figure 12.
  • stage 2 After the extraction of characteristics of the image and location of elements of interest (stage 1), during which the elements of interest have been analyzed and grouped according to common characteristics of position, size, orientation and texture in various blocks that constitute "similar particles”", the decursivized image must be recognized or interpreted (stage 2). That is, once the image is separated into the various particles, it is necessary to interpret each of them (what the text says, how much the number is worth, what an icon means, etc.). In this stage 2, the classification of the particles of the display, poster or signaling, from the characteristics extracted from them, is addressed by conventional pattern recognition algorithms 1409. These algorithms allow establishing the relationship between the set of pixels of an image (with no apparent relationship between them) with the human brain's interpretation of the image.
  • each sub-image (corresponding to a possible original character) is sent to the OCR system for recognition.
  • OCR optical character recognition system
  • NIVISION National Instruments Vision
  • Figure 13 illustrates an example of character recognition by OCR.
  • NIVISION National Instruments Vision
  • Figure 13 illustrates an example of character recognition by OCR.
  • Known OCR systems are able to identify letters and numbers, thanks to their databases (standard dictionaries) of letters and numbers, but are not able to identify words or symbols.
  • corrections made through a specific dictionary are necessary.
  • the letter N is detected as two symbols, [y], so the dictionary makes a correction, so that when it finds the symbols [y] it replaces them with a letter N.
  • the system is able to identify that "4.2” of figure 9 (segment 904) is effectively a four "4", a point ".” and a two “2" because it compares that information with the unit digits stored in its dictionary, and although there is no single digit that is "4.2", it detects by pattern correspondence, which with a large probability the Image can be assimilated to two different digits, "4" and "2").
  • a database comprising not only numbers and letters, but also symbols, so that the OCR algorithm can recognize them.
  • step 3 The intelligent processing of the image from the semantic knowledge of what is being seen (step 3) is that, once the characters that appear on the display have been extracted, the word equivalent to the set is searched in a specific dictionary of identified characters, based on applying searches of recognizable grammars saved in a specific dictionary and comparing the words 1412. This stage is also performed on a remote computer, as well as the previous image processing. This search 1412 in the specific dictionary gives a result 1413, which is then evaluated 1414 to decide whether it is correct or incorrect.
  • a dictionary is used consisting of the words that most frequently appear on displays or on signs and signs with alphanumeric content, and a list of words similar to these (for example, the word “PLAY "next to their similar ones:” PLA4 ", PIAY", "BLAY” ).
  • These sets of similar words represent the results that are usually obtained from the OCR, but that contain some error in some character, since sometimes the The system confuses some similar digits and letters (5-> S, 0-> O, 1 -> l, 7) Although at first glance most results are readable (5T0P, CL05E, 7), present problems when converting these incorrect words to voice through voice synthesis software (step 4).
  • the result (text identified in the image received from the display) is sent to the user's portable device 1415 (step 4), is displayed on the screen and can be read by it with standard methods aimed at people with visual disability.
  • the remote computer on which the analysis and search procedure is carried out shows on its screen the information of the original image (recorded by the device) to a human operator who visualizes it, reads and identifies the characters (or other graphic information), and generates an equivalent or explanatory text 1416.
  • This text is sent to the user's portable device, is displayed on the screen and can be read by it with methods standards aimed at people with visual impairment.
  • the method also provides the translation of these words or characters into voice, so that the person with visual difficulty is informed of the content of the image taken by the photograph.
  • the method transcribes on the screen of the user's portable device again the text initially photographed, but legibly for a person with visual impairment.
  • FIG. 15A shows a scheme of the system formed by a portable device 150 and a remote computer 155 connected through a wireless connection 151.
  • This wireless connection is conventional and is outside the scope of the present invention, and can be established through any conventional telecommunications technology (bluetooth, wireless LAN, GSM, GPRS, UMTS, HSDPA, etc.).
  • the portable device 150 is responsible for capturing the image of the display, poster or signage. Next, the image is sent via wireless connection 151 to remote computer 155 of a processing center.
  • Computer 155 automatically processes the captured image to identify the text according to the method described above. If the automatic processing is correct, the interpreted text is returned to the portable device 150 via the wireless connection 157. If it is impossible to identify the text automatically (as detailed above), the image is shown to a human operator 156 , which identifies the text (or characters), types it into the computer and sends 157 to the portable device 150.
  • Figure 15B shows the case of successful automatic processing (without the need for human intervention): first (1) the portable device 150 captures the image; then (2) sends it 151 to remote computer 155; then (3) it automatically processes it to identify the text; then (4) 157 the interpreted text is returned to the portable device 150; Finally (5), it shows the text received on your screen.
  • Figure 15C shows the case of unsuccessful automatic processing (which requires human intervention): first (1) the portable device 150 captures the image; then (2) sends it 151 to remote computer 155; then (3) it processes it automatically to try to identify the text, but the result is not correct; then (4) the remote computer 155 shows on its screen the original image captured by the portable device 150; then (5) operator 156 types the equivalent text into the computer; then (6) 157 the interpreted text is returned to portable device 150; Finally (7), it shows the text received on your screen.
  • the portable device 150 can convert the final text into voice (audio) so that the end user (person with poor vision) can hear it, instead of have to read it.
  • the portable device 160 for capturing images and receiving results is illustrated enlarged in Figures 16A 16B.
  • the device 160 is portable, that is, of the appropriate dimensions so that a person can move it from one place to another.
  • the system comprises: means for converting the image to grayscale from a digital image; means for segmenting said grayscale image, so that a black and white image formed by a plurality of particles is obtained; means for filtering said plurality of particles, so that particles that do not contain information associated with a character of the original image are removed; means for dilating the remaining particles, so that a dilated image is obtained; means for selecting segments of said dilated image, trying to ensure that each segment corresponds to a character of the original image; means for decursivizing the content of each of said segments; means for interpreting the information of said segments by means of a character recognition algorithm.
  • these means are included in the remote computer 155.
  • the device further comprises means for taking said digital image, such as a digital camera.
  • the device has means to establish a wireless telephone connection.
  • the device has means to convert said recognized characters to voice.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

Un método de interpretación de información visual con caracteres alfanuméricos. El método comprende: a partir de una imagen digital, convertir la imagen a escala de grises; segmentar dicha imagen en escala de grises, de forma que se obtiene una imagen en blanco y negro formada por una pluralidad de partículas; filtrar dicha pluralidad de partículas, de forma que se eliminan partículas que no contienen información asociada a un carácter de la imagen original; dilatar las partículas restantes, de forma que se obtiene una imagen dilatada; seleccionar segmentos de dicha imagen dilatada, tratando de que cada segmento corresponda a un carácter de la imagen original; descursivizar el contenido de cada uno de dichos segmentos; interpretar lainformación de dichos segmentos mediante un algoritmo de reconocimiento de caracteres. Dispositivo y sistema.

Description

MÉTODO, DISPOSITIVO Y SISTEMA PARA LECTURA DE DISPLAYS
D E S C R I P C I Ó N
CAMPO DE LA INVENCIÓN
La presente invención pertenece al campo de la visión artificial, y más concretamente, a la detección e interpretación de la información visual que ofrecen diferentes tipos de displays.
ANTECEDENTES DE LA INVENCIÓN
Cada vez es más habitual la presencia de pantallas con información o displays en equipos de uso diario. Por ejemplo, en la actualidad en las viviendas es creciente el número de equipos electrónicos, electrodomésticos, etc. que incorporan displays para mostrar información al usuario. En las actividades cotidianas, tanto en el hogar como fuera del mismo, encontramos estas pantallas o displays cada vez con mayor frecuencia: microondas, equipos audiovisuales, termostatos, calderas, hornos, placas de cocina, relojes electrónicos, frigoríficos, cajas de supermercados, etc.
Los diversos dispositivos electrónicos de uso diario incorporan una gran variedad de tipos distintos de displays, que se pueden clasificar como sigue:
1 ) Atendiendo a su tecnología:
-displays de cristal líquido o LCD (en inglés, "Liquid Crystal Displa ), formados por elementos electrónicos que son transparentes u opacos en función de una carga aplicada. Los LCDs pueden ser dispositivos de fondo pasivo (reflejan la luz que incide en el dispositivo mediante un fondo superficie reflectante y los caracteres aparecen en oscuro) o dispositivos de fondo activo (iluminado). La figura 1 A muestra un ejemplo de LCD de fondo pasivo, mientras que el LCD de la figura 1 B es de fondo activo. -diodos emisores de luz o LED (en inglés, "Light Emiting Diode"), formados por elementos electrónicos que emiten luz al aplicarles una carga. La figura 1 C muestra un display de LEDs que representa un reloj que marca la hora.
-transistores de película delgada o TFT (en inglés, "Thin film transistor"): Pantalla gráfica en color cuyos elementos activos (pixeles) permiten la modificación del color de la luz activa posterior. Estos displays permiten representaciones de alta resolución.
2) Atendiendo a la representación de la información:
-displays de siete segmentos: Los elementos de representación son siete barras. Permiten representación numérica y de algunos caracteres. La figura 2A ilustra un display de siete segmentos.
-displays de dieciséis segmentos. Permiten representación alfanumérica. La figura 2B ilustra un display de dieciséis segmentos (alfanumérico).
-matriz de puntos. Filas y columnas de caracteres creados por puntos. Normalmente se utilizan matrices de 8x5 (8 filas y 5 columnas). La figura 2C ilustra un display formado por una matriz de puntos, construida con LEDs cuyas dimensiones son de 5x7, que permite representación alfanumérica. Se ilustra la letra "A" como ejemplo.
-displays gráficos. Matrices de puntos (pixeles). Permiten la configuración de caracteres y gráficos. Normalmente utilizan matrices de grandes dimensiones, por ejemplo, pero no limitativamente, 320x200. La figura 2D ilustra varios displays gráficos convencionales.
Hacer accesible esta información a las personas con discapacidad visual supone un importante beneficio de cara a la autonomía de este colectivo de personas. El acceso a la información proporcionada a través de estos medios visuales o displays resulta de gran importancia para estas personas. Se contemplan dos vías para hacer accesible esta información: Una posibilidad consiste en que los propios fabricantes de los equipos que cuentan con displays incorporen en esos productos alguna tecnología, como la síntesis de voz, que transmita de forma audible la información reflejada de forma visual en los displays. Sin embargo, la incorporación de traductores de texto a audio encarece mucho el coste del equipo o producto, que se convierte en producto de gama alta y no está, por tanto, al alcance de muchas personas.
Una segunda posibilidad consiste en proporcionar ayudas técnicas o interfaces ajenas al equipo que incorpora el display, capaces de leer dichos displays y de traducir la imagen visual a voz. Así, se han hecho algunos intentos de desarrollar sistemas móviles de reconocimiento óptico de caracteres (OCRs) (en inglés, Optical Carácter Recognition), específicamente pensados para personas con discapacidad visual, así como lectores de displays que capturan una imagen de un display.
Por ejemplo, H. Shen and J. Coughlan ("Reading LCD/LED Displays with a Camera Cell Phone", 2nd IEEE Workshop on Embedded Computer Vision (ECVW '06), en colaboración con CVPR 2006, New York, Junio 2006) proponen una aplicación informática lectora de displays de siete segmentos con la condición de que dispongan de su propia iluminación. Este sistema se basa en un simple contraste claro-oscuro, teniendo en cuenta la intensidad de nivel de gris.
Sin embargo, esta técnica no permite adaptarse a muchos de los tipos de displays actuales, como son los de pantallas LCD a color o displays con poco contraste. En displays con poco contraste es difícil discernir entre fondo y texto, especialmente cuando las condiciones de captura de la imagen no son muy buenas (pueden aparecer brillos o reflejos que empeoren la discriminación. En displays con color no hay contraste claro-oscuro, por lo que esta técnica no puede aplicarse. Esta solución se centra en analizar números y letras, pero no interpreta otro tipo de información más compleja, como los iconos o las barras indicadoras.
Una segunda propuesta es la aportada por Silvio Ferreira et al. ("A Text Detection Technique Applied in the Framework of a Mobile Camera-Based Application", Faculty of Engineering, Mons (Bélgica), June 2006), que basa el sistema en una PDA que dispone de una cámara para fotografiar el display y de una botonera en relieve para facilitar el manejo de la misma por parte del usuario. Para ayudar a las personas con discapacidad visual a tomar la fotografía, una tarjeta patrón permite realizar un entrenamiento de toma de fotos supervisado por el propio sistema. El sistema propuesto incluye preprocesado de la imagen captada, caracterización de la textura del texto basada en filtros Gabor, agrupación (en inglés, "clustering") del texto, corrección de la orientación y la perspectiva cuando es necesaria y análisis de la disposición (en inglés, "layouf) final. Además se proporciona un sistema basado en redes neuronales que trata de corregir la identificación del texto fotografiado en malas condiciones.
Sin embargo, como se muestra en el propio documento, el sistema propuesto por Ferreira está orientado a identificar líneas de texto sobre un papel estilo A4, tales como párrafos de texto en 1 ó 2 columnas y áreas con títulos. Una vez identificados los párrafos y orientados correctamente, el sistema utiliza un sistema OCR comercial. En concreto, está orientado a buscar un gran número de líneas de texto oscuro sobre fondo claro.
El sistema de este documento no es aplicable, por tanto, a textos que tienen pocos caracteres y/o iconos pero que tienen diferentes características del entorno. En definitiva, dicho sistema no es aplicable a displays ni a paneles con diferentes características del entorno. Por "diferentes características del entorno" nos referimos a que los caracteres a identificar puede tener tamaños y espaciados muy diferentes, colores (no sólo texto oscuro sobre fondo claro, como en el caso de Ferreira), y tener alrededor otras informaciones que no son de interés y que es necesario filtrar (por ejemplo, dibujos o bordes del display).
Por otra parte, se conocen los sistemas de respuesta telefónica automática, cuyo funcionamiento normal se basa en que un usuario establece una conversación telefónica con un ordenador. Algunos de esos sistemas cuentan adicionalmente con un sistema de apoyo personal: Cuando el usuario dice algo que el ordenador no es capaz de interpretar y, por tanto, el ordenador no puede aportar una respuesta coherente, la voz del usuario es dirigida a un operador humano, que interpreta las palabras del usuario y las redirige al ordenador, para que la conversación automática pueda seguir su curso. Un sistema de estas características se describe en la solicitud de patente británica GB2278755A y en la adición a la patente española ES2209604B1 .
RESUMEN DE LA INVENCIÓN
La presente invención resuelve los problemas anteriormente mencionados mediante un método, dispositivo y sistema orientados a la detección e interpretación de la información visual que ofrecen los diferentes tipos de displays, carteles o señalizaciones basados tanto en caracteres numéricos, como alfanuméricos e iconografía.
La presente invención proporciona una herramienta útil y asequible para las personas ciegas o con discapacidad visual, que les permita acceder de manera autónoma e independiente a la información que ofrecen los displays, carteles o señalizaciones, permitiéndoles mejorar su calidad de vida al integrarse de una manera más armonizada con el entorno que les rodea.
En un aspecto de la presente invención, se proporciona un método de interpretación de información visual que comprende caracteres alfanuméricos, procedente de un display, un cartel o una señalización. El método comprende las siguientes etapas: a partir de una imagen digital, convertir la imagen a escala de grises; segmentar dicha imagen en escala de grises, de forma que se obtiene una imagen en blanco y negro formada por una pluralidad de partículas; filtrar dicha pluralidad de partículas, de forma que se eliminan partículas que no contienen información asociada a un carácter de la imagen digital original; dilatar las partículas restantes, de forma que se obtiene una imagen dilatada; seleccionar segmentos de dicha imagen dilatada, tratando de que segmentos agrupados se correspondan a un carácter de la imagen original; descursivizar el contenido de cada uno de dichos segmentos; interpretar la información de dichos segmentos mediante un algoritmo de reconocimiento de caracteres.
Tras la aplicación de dicho algoritmo de reconocimiento de caracteres, se realiza la etapa de: buscar en un diccionario el término o términos equivalentes al conjunto de caracteres identificados. En este caso, preferentemente se realiza una comprobación semántica de dicho término o términos. Esta comprobación semántica se hace preferentemente mediante un análisis léxico de cada término.
Si la búsqueda en un diccionario proporciona un texto representativo de la imagen original, se realiza la etapa de mostrar dicho texto en una pantalla de un dispositivo portátil, de forma que pueda ser leído de acuerdo con métodos convencionales orientados a personas con discapacidad visual. Además, el método permite convertir a voz dichos términos.
Si la búsqueda en un diccionario no es capaz de proporcionar un texto representativo de la imagen original, se realizan las etapas de: enviar la imagen digital original a un operador humano; por parte de dicho operador humano, generar un texto representativo de dicha imagen original; enviar dicho texto representativo de la imagen original a una pantalla de un dispositivo portátil, de forma que pueda ser leído de acuerdo con métodos convencionales orientados a personas con discapacidad visual. En este caso, también se puede convertir a voz dicho texto.
En otro aspecto de la presente invención, se proporciona un dispositivo que comprende: medios para, a partir de una imagen digital, convertir la imagen a escala de grises; medios para segmentar dicha imagen en escala de grises, de forma que se obtiene una imagen en blanco y negro formada por una pluralidad de partículas; medios para filtrar dicha pluralidad de partículas, de forma que se eliminan partículas que no contienen información asociada a un carácter de la imagen original; medios para dilatar las partículas restantes, de forma que se obtiene una imagen dilatada; medios para seleccionar segmentos de dicha imagen dilatada, tratando de que segmentos agrupados se correspondan a un carácter de la imagen original; medios para descursivizar el contenido de cada uno de dichos segmentos; medios para interpretar la información de dichos segmentos mediante un algoritmo de reconocimiento de caracteres; medios para buscar en un diccionario el término o términos equivalentes al conjunto de caracteres identificados. Además, el dispositivo comprende medios para establecer una conexión telefónica inalámbrica con un dispositivo portátil.
Finalmente, la invención proporciona un sistema que comprende: un dispositivo portátil que comprende medios para establecer una conexión telefónica inalámbrica; un dispositivo como el mencionado anteriormente configurado para recibir una imagen digital procedente del dispositivo portátil a través de esa conexión telefónica inalámbrica y para enviar a dicho dispositivo portátil un texto representativo de un conjunto de caracteres comprendidos en dicha imagen digital.
Preferentemente, el sistema comprende medios para tomar dicha imagen digital.
Opcionalmente, el dispositivo portátil del sistema comprende además medios para convertir a voz dicho texto representativo.
Preferentemente, el dispositivo del sistema comprende medios para, si no es capaz de proporcionar de forma automática un texto representativo de la imagen original: enviar la imagen digital original a un operador humano; recibir de dicho operador humano un texto representativo de dicha imagen original; enviar dicho texto representativo de la imagen original a una pantalla de un dispositivo portátil, de forma que pueda ser leído de acuerdo con métodos convencionales orientados a personas con discapacidad visual. DESCRIPCIÓN DE LOS DIBUJOS
Para complementar la descripción que se está realizando y con objeto de ayudar a una mejor comprensión de las características de la invención, de acuerdo con un ejemplo preferente de realización práctica de la misma, se acompaña como parte integrante de dicha descripción, un juego de dibujos en donde con carácter ilustrativo y no limitativo, se ha representado lo siguiente:
Las figuras 1 A, 1 B y 1 C representan varios displays convencionales según distintas tecnologías. La figuras 2A, 2B, 2C y 2D muestran varios displays convencionales que se diferencian en la forma de representar la información.
Las figuras 3A, 3B y 3C se muestran tres ejemplos de imágenes captadas.
Las figuras 4A y 4B muestran un ejemplo de aplicación de un primer algoritmo para obtener en escala de grises una imagen que estaba originalmente en color.
Las figuras 5A y 5B muestran un ejemplo de aplicación de un segundo algoritmo para obtener en escala de grises una imagen que estaba originalmente en color.
La figura 6 representa una representación tridimensional de uno de los filtros utilizados en la etapa de segmentación de la presente invención.
Las figuras 7A, 7B y 7C muestran ejemplo de extracción de elementos de interés a partir de características de textura de la imagen.
Las figuras 8A y 8B representan la imagen antes y después de la etapa de dilatado según la presente invención.
La figura 9 representa la agrupación de segmentos en recuadros según la presente invención.
La figura 10 muestra una gráfica resultado del proceso descursivización según la presente invención.
Las figuras 1 1 A y 1 1 B representan una imagen antes y después de tras la etapa de descursivización de la presente invención.
La figura 12 representa un ejemplo de corrección del ángulo según la presente invención.
La figura 13 ilustra un ejemplo de reconocimiento de caracteres mediante OCR utilizado en la presente invención.
La figura 14 muestra un esquema de los pasos del método según una realización de la presente invención.
Las figuras 15A, 15B y 15C ilustran un sistema de acuerdo con una realización de la presente invención y sus alternativas de funcionamiento.
Las figuras 16A y 16B ilustran un dispositivo portátil de acuerdo con una realización de la presente invención.
La figura 17 ilustra una imagen original captada del display, con su división en celdas.
DESCRIPCIÓN DETALLADA DE LA INVENCIÓN
En el contexto de la presente invención, el término "aproximadamente" debe entenderse como indicando valores muy próximos a los que dicho término acompañe. El experto en la técnica entenderá que una pequeña desviación de los valores indicados, dentro de unos términos razonables, es inevitable debido a imprecisiones de medida, etc.
A lo largo de esta especificación, el término "comprende" y sus derivados no debe interpretarse en un sentido excluyente o limitativo, es decir, no debe interpretarse en el sentido de excluir la posibilidad de que el elemento o concepto al que se refiere incluya elementos o etapas adicionales.
Además, en el contexto de la presente invención han de tenerse en cuenta las siguientes definiciones:
Píxel: (del inglés picture element, "elemento de imagen") Es la menor unidad homogénea en color que forma parte de una imagen digital.
Textura de una imagen: Es una función de la variación espacial en los valores de los píxeles. Representa el aspecto de la superficie de un objeto: rugosidad, granularidad, direccionalidad de rasgos identificativos, etc. Se utiliza para identificar regiones homogéneas en una imagen.
Partícula: (del inglés blob) Es la cantidad mínima de píxeles, conectados entre sí, que se aisla para su tratamiento posterior.
Celda: Cada una de las divisiones cuadrangulares de igual tamaño en las que se divide una imagen original, tal y como se ilustra, por ejemplo, en la figura 17.
Región: conjunto de celdas vecinas con un interés determinado para el análisis de una imagen.
Carácter: Es la mínima imagen con significado que se pretende identificar. Un carácter puede ser, por ejemplo, una letra, un número u otro símbolo.
Segmentar una imagen: Dividir una imagen digital en varias partículas (conjunto de píxeles), con el objeto de simplificar o cambiar la imagen y facilitar su interpretación.
Dilatación: Expansión de la silueta de una imagen original, aplicando un elemento geométrico determinado.
Descursivizar: Eliminar la componente de orientación o perspectiva de una imagen digital, logrando una imagen en un plano perpendicular al eje de la cámara con la que se toma la imagen digital.
A continuación se explica una realización del método para la detección e interpretación de la información visual ofrecida por diferentes tipos de displays, de la presente invención. El método se implementa en un sistema, que se describe más adelante en relación con las figuras 15A, 15B y 15C. El dispositivo portátil orientado a la interpretación de la información visual que ofrecen los diferentes tipos de displays (basados tanto en caracteres numéricos como alfanuméricos e iconografía) también se esquematiza más adelante en relación con las figuras 16A y 16B. El dispositivo portátil es capaz de establecer una conexión inalámbrica o telefónica con un ordenador remoto.
El procesado de imagen se lleva a cabo en un ordenador remoto (ver fig. 15A), ya que el dispositivo portátil no tiene la capacidad de cálculo suficiente para el procesamiento. Por lo tanto, el dispositivo portátil (por ejemplo, teléfono móvil o PDA) captura la imagen, la envía a un ordenador remoto que realiza el procesado de la imagen y devuelve el texto interpretado en el display al dispositivo portátil (Fig. 15B). Si el ordenador remoto no es capaz de interpretar correctamente el display, se muestra a un operador la imagen del display para que éste teclee el texto equivalente y el ordenador devuelve ese texto al dispositivo portátil (Fig. 15C).
Dada la gran variedad de displays existentes, así como de tipos de información que representan, el método comprende las siguientes etapas:
0. Captación de la imagen.
1 . Extracción de características de la imagen y localización de elementos de interés.
2. Identificación de la información simbólica en esa imagen (caracteres como letras y números, iconos), es decir, la información que tiene sentido y que debe ser interpretada.
3. Procesado inteligente de la imagen a partir del conocimiento semántico de lo que se está viendo.
4. Comunicación coherente de la información recopilada.
Puesto que el desarrollo requiere una adaptación de la imagen captada e interpretación de la misma por parte del sistema, similar a la que realiza el ser humano, es necesario que el sistema sea capaz de extraer, a partir de un conjunto de datos de la imagen, no solo la identificación de las diversas partes que la componen, sino comprender el contenido de la misma, para de esta forma, ofrecer al usuario la información solicitada.
En primer lugar, se parte de una imagen digital obtenida a partir de una fotografía tomada a un display o a un cartel o señalización con contenido alfanumérico. Esta fotografía puede tomarse a partir de cualquier fuente de captura de imágenes convencional, como por ejemplo una webcam, un teléfono móvil o cualquier cámara digital de mayor o menor resolución y coste. Estos ejemplos han de considerarse meramente ilustrativos y no limitativos. La fotografía se toma preferentemente mediante el propio dispositivo portátil. El dispositivo portátil captura la imagen, la envía a un ordenador remoto para su procesado, recibe el texto como resultado del procesado y lo muestra (como texto en la pantalla o por voz). El procesado se realiza en un ordenador remoto al cual tiene también acceso el operador para los casos en que el procesamiento automático no da un resultado correcto.
Preferentemente, la captura de la imagen (etapa 0) tiene en cuenta condiciones no ideales, ya que dicha captura se realiza muy probablemente por personas con discapacidad visual. Para ello, se ha diseñado un accesorio mecánico 160 que se adosa o acopla al dispositivo portátil, que asegura que la captura de imagen se realiza a una distancia específica del display, cartel o señalización, con un ángulo específico y con unas condiciones de iluminación y luz controladas. Este accesorio mecánico 160 se ilustra en las figuras 16A y 16B.
También es aconsejable efectuar la toma de la imagen siguiendo una serie de pautas para establecer la posición de la cámara (por ejemplo, palpando el dispositivo portátil) y la iluminación ambiente (preferentemente, evitando brillos). Esto permite trabajar con variables como: diferencias de representación (tipos de LCD), diferencias de iluminación, diferencias de orientación y diferencias de captación. Las figuras 3A, 3B y 3C muestran tres ejemplos de imágenes captadas que corresponden a dos modelos de microondas. Estos ejemplos muestran iconos, números (indicación de la hora y del programa) y texto ("end" de finalización). En un ejemplo particular, no limitativo, la resolución mínima de las imágenes captadas es de 640x480 píxeles.
La imagen digital tomada por el dispositivo portátil se envía, a través de una conexión inalámbrica, a un ordenador remoto. La figura 14 muestra un diagrama de bloques del método de la invención. A partir de dicha imagen digital 1401 , en el ordenador remoto se extraen las características de la imagen y se localizan los elementos de interés (etapa 1 ). En un primer paso, es necesaria la extracción de las características de la imagen (etapa 1 ), que comprende las sub-etapas de: primero, dividir la imagen en celdas de igual tamaño 1402 1403; a continuación, pasar la imagen captada (normalmente, una imagen en colores) a escala de grises 1404 1405; después, seleccionar entre fondo oscuro (o negro) y caracteres claros (o blancos) o viceversa, dependiendo de las características de la imagen. Nótese que, a lo largo de las diferentes etapas, se utiliza la segmentación para dividir la imagen según diferentes objetivos (pasar la imagen de color a gris, determinar qué es fondo, determinar dónde está la información relevante (líneas, etc.), etc.). En la figura 14 se identifica en primer lugar la imagen en colores (bloque
1401 ).
En una realización particular de la presente invención, el algoritmo empleado para pasar las imágenes en color a escala de grises es el siguiente:
Cuando la imagen está formada por caracteres claros sobre fondo oscuro, la imagen en escala de grises resultante se obtiene de la siguiente manera:
GRIS = Inversa (max (R, G, B)), donde los colores rojo R (red), verde G (green) y azul B (blue) son componentes básicos de una imagen a color, ya que a partir de ellos se derivan el resto de los colores. La forma de representar el valor que contiene el parámetro de un color determinado se representa internamente en el ordenador por medio de un conjunto de 8 bits. La traducción de este código de 8 bits (cada uno con 2 posibles valores) a formato decimal da una escala de 0 a 255); donde max (R, G, B) indica que se elige el valor máximo de los tres valores correspondientes al rojo, verde y azul; y la función "Inversa" indica que se halla la imagen inversa, porque el algoritmo de segmentación, que se explica más adelante, busca segmentos oscuros de un determinado grosor rodeados de zona blanca.
Al calcular el máximo (R, G, B), se potencia que los displays con segmentos luminosos de colores se vuelvan blancos (por ejemplo, un segmento rojo se representa por RGB = 255, 0, 0) y al hacer la conversión con el presente algoritmo pasa a 255 = blanco.
Las figuras 4A y 4B tratan de ilustrar cómo el algoritmo anterior consigue pasar una imagen en color con caracteres claros sobre fondo oscuro (fig. 4A) a una imagen en escala de grises (fig. 4B).
En otra realización particular de la presente invención, el algoritmo empleado para pasar las imágenes en color a escala de grises es el siguiente:
Cuando la imagen está formada por caracteres oscuros sobre fondo claro, no puede emplearse el algoritmo anterior, porque en el caso de retroiluminación (iluminación del fondo del display o cartel o señalización, que aparece más claro que los caracteres), los caracteres oscuros pueden saturarse del color de la retroiluminación.
Fondo RGB = (100, 255, 255); (esta combinación de valores R, G, B es un ejemplo de un fondo de imagen claro).
Carácter RGB = (53, 105, 255); (esta combinación de valores R, G, B es un ejemplo de un carácter de color oscuro). La imagen en escala de grises resultante se obtiene de la siguiente manera:
ImagenGris = (R+G+B)/3. Es decir, se asigna un nivel de gris determinado partiendo del valor medio de los pesos de los colores R, G, B.
El procedimiento detecta automáticamente qué zonas son candidatas a ser "fondo" del display, cartel o señalización y qué zonas corresponden a caracteres del display, cartel o señalización. Esto se consigue mediante un análisis estadístico de aparición de niveles de gris en la imagen (que se realiza después del paso a escala de grises. Para ello, se ha dividido la imagen capturada en celdas, formando una matriz de celdas (bloques 1402 1403 de la figura 14). En cada una se obtienen los valores medios y variación de los valores de los píxeles. Dependiendo de estos valores estadísticos se deduce si la celda en estudio se corresponde con el fondo (un cierto nivel medio y poca varianza en el color (se hace después de pasar a escala de grises) de los píxeles que forman la celda) o es una celda conteniendo algún carácter o fragmento de él (un nivel medio diferente y una mayor variación en los colores de los píxeles que forman la celda).
La figura 5B ilustra cómo queda la figura 5A después de aplicar a dicha figura 5A el algoritmo que acaba de describirse.
Después de llevar a cabo la etapa anterior, se obtiene una imagen en tonos de gris.
A continuación, es necesario segmentar la imagen en zonas diferenciadas 1406, es decir, separar la información relevante de la que no lo es. Para ello, se utiliza un algoritmo de segmentación capaz de localizar líneas o contornos horizontales, verticales o diagonales de la imagen que corresponden a zonas oscuras rodeadas de zonas claras, o viceversa.
Para ello, se utilizan algoritmos de segmentación basados en textura, lo que permite dividir la imagen en varias sub-imágenes, de acuerdo con su textura. La imagen es sometida a unos filtros morfológicos orientados a realzar o potenciar zonas de la imagen con unas determinadas características de grosor (anchura) y contraste con el entorno. Ejemplos de estos filtros morfológicos son los filtros de Gabor. Estos filtros examinan la imagen píxel a píxel para determinar líneas horizontales, verticales o diagonales. Es decir, el algoritmo de filtrado hace un barrido de filas y columnas de la imagen para determinar los píxeles consecutivos que tienen asociadas intensidades luminosas parecidas.
En una realización particular, a cada imagen se le pueden pasar varios filtros y al menos dos orientaciones (horizontal y vertical). Opcionalmente se puede pasar una tercera orientación diagonal. En una realización más particular, se pasan nueve filtros: grande horizontal, grande vertical, grande diagonal, mediano horizontal, mediano vertical, mediano diagonal, pequeño horizontal, pequeño vertical, pequeño diagonal. Las imágenes respuesta a cada filtro se suman y se obtiene una imagen con zonas de valores altos si han tenido respuesta alta a al menos uno de los filtros (es decir, tienen la forma del filtro) y bajos en las que no. Al elegir sólo los valores altos de la imagen, se consigue segmentar las áreas de interés. Es decir, tras el filtrado, quedan solamente las zonas cuya textura responde mejor ante unas frecuencias determinadas (displays). La figura 6 muestra una representación tridimensional de uno de los filtros convencionales utilizados en esta segmentación.
A modo de ejemplo, se puede pasar un filtro paso banda sensible a orientación, es decir, un filtro que detecta "líneas" de un grosor determinado por el tamaño del filtro, en la orientación del filtro. Al pasar filtros en varias orientaciones, se detectan líneas en todas las orientaciones.
Las figuras 7A y 7B muestran un ejemplo de la aplicación de algoritmos de segmentación en función de texturas de la imagen. La figura 7A representa la imagen de partida de un reloj despertador y la figura 7B representa la imagen tras la aplicación de estos algoritmos. En la figura 7B se diferencian claramente todos los dígitos y zonas de interés del display. La figura 7C muestra la imagen que se obtiene tras hacerla pasar por un algoritmo de segmentación mediante técnicas clásicas de binarizado. Como puede apreciarse, la calidad de los resultados del tratamiento es sensiblemente inferior, provocando la pérdida de algunas zonas de interés y la no diferenciación tan precisa del display en sí. El resultado de esta etapa de segmentación es una imagen en blanco y negro.
Seguidamente, a partir de la imagen obtenida en la etapa anterior, se realiza un filtrado de partículas no deseadas. Una partícula se delimita seleccionando un píxel inicial y añadiendo a él los pixeles que están unidos a él y a los pixeles que la van formando, sucesivamente). Este filtrado de partículas se realiza en función de alguna de las siguientes características: -Por tamaño: Se descartan las partículas cuyo tamaño en pixeles sea inferior a un cierto umbral que sean más pequeñas. En una realización particular, se fija este umbral mínimo de tamaño de partículas en 38 x 43 pixeles. Nótese que se trabaja con una resolución mínima de imagen de unos 640 x 480 pixeles aproximadamente.
-Por su relación eje mayor / eje menor de la aproximación a elipse de la partícula: Es decir, se eliminan partículas atendiendo a su forma, por ejemplo, se eliminan bordes. La selección de estas partículas que se desea eliminar se realiza en función de que la relación del tamaño de la partícula (horizontal/vertical, es decir, relación ancho/alto) esté o no fuera de unos límites. Los casos extremos representan la forma totalmente vertical (por ejemplo, Ί") o, en el otro extremo, el círculo. Es decir, se eliminan las partes de la imagen adquirida que no forman parte de la información que se debe interpretar (por ejemplo, los bordes físicos del display).
Tras la etapa de filtrado de partículas no deseadas, se realiza una etapa de juntar o dilatar segmentos 1407. Dado que, dependiendo de la naturaleza del display, los segmentos que componen cada uno de los caracteres pueden estar separados, es necesario realizar unas operaciones de "dilatado" (en inglés, "dilates"). Estas operaciones consisten en unir los "gaps" o saltos que aparecen en la imagen, uniendo las zonas de interés (partículas) supuestamente correspondientes a un mismo carácter a identificar, para facilitar esa identificación. Se trabaja con un valor umbral para decidir si se "rellena" ese gap. Si ese valor umbral no está bien escogido el resultado puede ser tener errores al unirse zonas de interés correspondientes a diferentes caracteres, o al contrario, quedar zonas sin unir siendo del mismo carácter. Para ello se utiliza cualquier algoritmo de visión o dilatado convencional. El dilatado es especialmente importante en la dirección vertical. De esta forma, se unen las partículas, y resulta más fácil la obtención de futuros segmentos. Las figuras 8A y 8B representan la imagen antes (figura 8A) y después (figura 8B) del algoritmo de dilatado.
Una vez que la imagen ha sido dilatada, se procede a la selección de segmentos. Para ello, se calcula el cajón continente capaz mínimo (CCCP), es decir, se calcula el rectángulo envolvente de cada una de las partículas. El cajón continente capaz mínimo (CCCP) es un algoritmo de visión convencional. Este algoritmo de selección de segmentos hace un barrido de la imagen para determinar las coordenadas de los puntos más extremos de cada partícula y, a partir de estos puntos extremos, calcular el CCCP.
A continuación, se localizan los recuadros (que contienen partículas) con características geométricas similares, tales como altura similar, anchura similar, equiespaciado similar, posición del centro de masas similar, posición del eje vertical respecto del display, cartel o señalización, etc. para agrupar los recuadros que puedan estar relacionados entre sí (por ejemplo, formando palabras). Para ello, se define un umbral (basado en pruebas) para definir si una característica es similar o no. Se obtienen así segmentos agrupados en recuadros. Esta agrupación de segmentos en recuadros se consigue gracias al dilatado de la imagen que se ha realizado previamente. La figura 9 representa la agrupación de segmentos 901 , 902, 903, 904, 905 en recuadros 91 , 92. En condiciones ideales, los segmentos representan caracteres, mientras que los recuadros representan palabras o grupos de caracteres. Sin embargo, como puede apreciarse en la figura 9, el segmento 904 comprende tres elementos: el número 4, el número 2 y un icono que representa un punto entre ambos números. Esto se debe a que, al dilatar la imagen en la etapa anterior, el número 4 y el número 2 han quedado unidos por un trazo grueso, como puede apreciarse en la figura 8B.
La etapa de localización de recuadros ilustrada en la figura 9 comprende las imágenes originales sin dilatar. Esta imagen contenida en los recuadros (91 , 92) es procesada a continuación por el modulo de descursivizacion 1408.
Es decir, en la etapa 1407 se realiza el proceso de normalizar, enfatizar, dilatar en base a los grosores de los caracteres, hallar CCCP y agrupar segmentos.
A continuación, las imágenes contenidas en los recuadros (91 , 92) son sometidas a un proceso de descursivizacion 1408, es decir, proceso de corrección de ángulos en los caracteres (números, letras, etc.) de la imagen. Este proceso comprende el cálculo del ángulo del gradiente de cada punto de la imagen tras un suavizado para evitar ruidos. Esto proporciona las orientaciones de las perpendiculares de las rectas (nos da la dirección de la máxima variación de ángulo predominante). La figura 10 muestra la gráfica, resultado del proceso de descursivizacion, que indica cuáles son los ángulos más comunes de la imagen, lo que permite obtener el ángulo de giro de, por ejemplo, las letras en cursiva, y corregirlo. Las figuras 1 1 A y 1 1 B representan una imagen antes (figura 1 1 A) y después (figura 1 1 B) de la etapa de descursivizacion de la presente invención. Se aprecia cómo la cursiva ha sido corregida.
La corrección del ángulo se realiza mediante la aplicación de la siguiente operación trigonométrica:
Ynueva = Y vieja
Xnueva = Xvieja + (Alto-Y)/tan(AnguloGirado).
Es decir, cada píxel se desliza hacia la izquierda una cantidad que depende de la altura a la que esté. Esto se ilustra en la figura 12.
Tras la extracción de características de la imagen y localización de elementos de interés (etapa 1 ), durante las cuales los elementos de interés se han analizado y agrupado según características comunes de posición, tamaño, orientación y textura en diversos bloques que constituyen "partículas similares", la imagen descursivizada debe ser reconocida o interpretada (etapa 2). Es decir, una vez separada la imagen en las diversas partículas, es necesario interpretar cada una de ellas (qué dice el texto, cuánto vale el número, qué significa un icono, etc.). En esta etapa 2, la clasificación de las partículas del display, cartel o señalización, a partir de las características extraídas de los mismos, se aborda mediante algoritmos convencionales de reconocimiento de patrones 1409. Estos algoritmos permiten establecer la relación entre el conjunto de píxeles de una imagen (sin relación aparente entre ellos) con la interpretación que hace el cerebro humano de la imagen. Existe un conjunto de algoritmos de clasificación de patrones muy específicos para la localización de texto escrito: los OCR (en inglés, Optical Carácter Recognition) 1410. Estos sistemas resuelven el problema de que una misma letra pueda ser representada de muy diversas formas (distintos tipos de fuentes) y, sin embargo, seguir refiriéndose a la misma letra. Estos algoritmos son muy útiles para la correcta clasificación y lectura de las partes clasificadas como texto / dígitos de un display, cartel o señalización que contiene caracteres alfanuméricos.
Así, cada sub-imagen (correspondiente a un posible carácter original) es enviada al sistema OCR para su reconocimiento. Como sistema de reconocimiento óptico de caracteres (OCR) se utiliza cualquier sistema OCR convencional. En una realización particular, se utiliza un sistema OCR basado en el reconocimiento de caracteres de "National Instruments Vision" (NIVISION), que recoge una configuración y un entrenamiento previos del OCR (que se crea, por ejemplo, con el programa OCR-Training). La figura 13 ilustra un ejemplo de reconocimiento de caracteres mediante OCR. De esta manera, se identifican letras y números. Los sistemas OCR conocidos son capaces de identificar letras y números, gracias a sus bases de datos (diccionarios estándares) de letras y números, pero no son capaces de identificar palabras ni símbolos. Dadas las limitaciones del OCR, son necesarias correcciones realizadas a través de un diccionario específico. Como puede apreciarse en la figura 13, la letra N es detectada como dos símbolos, [ y ], por lo que el diccionario realiza una corrección, de tal forma que cuando encuentra los símbolos [ y ] los sustituye por una letra N.
Por ejemplo, en relación con la figura 9, el sistema es capaz de identificar que "4.2" de la figura 9 (segmento 904) es efectivamente un cuatro "4", un punto "." y un dos "2" porque compara esa información con los dígitos unitarios almacenados en su diccionario, y aunque no existe un único dígito que sea "4.2", detecta por correspondencia de patrones (en inglés pattern matching), que con una probabilidad grande la imagen se puede asimilar a dos dígitos diferentes, "4" y "2").
Sin embargo, el reconocimiento de iconos gráficos, barras de volumen, indicadores de estado, unidades, etc. conduce a errores si se utilizan los sistemas OCR convencionales.
En otra realización particular de la presente invención, se proporciona una base de datos que comprende no sólo números y letras, sino también símbolos, para que el algoritmo OCR pueda reconocerlos.
Una vez obtenidos los datos finales de reconocimiento 141 1 (identificación de los caracteres del display (etapa 2)), se realiza lo siguiente:
El procesamiento inteligente de la imagen a partir del conocimiento semántico de lo que se está viendo (etapa 3) consiste en que, una vez que se han extraído los caracteres que aparecen en el display, se busca en un diccionario específico la palabra equivalente al conjunto de caracteres identificados, basándose en aplicar búsquedas de gramáticas reconocibles guardadas en un diccionario específico y comparando las palabras 1412. Esta etapa se realiza también en un ordenador remoto, al igual que el procesado previo de la imagen. Esta búsqueda 1412 en el diccionario específico da un resultado 1413, que posteriormente se evalúa 1414 para decidir si es correcto o incorrecto.
Para dicha búsqueda y comparación 1412, se utiliza un diccionario formado por las palabras que más frecuentemente aparecen en los displays o en los carteles y señalizaciones con contenido alfanumérico, y una lista de palabras similares a éstas (por ejemplo, se guarda la palabra "PLAY" junto a sus similares: "PLA4", PIAY", "BLAY"...). Estos conjuntos de palabras similares representan los resultados que habitualmente se obtienen del OCR, pero que contienen algún error en algún carácter, ya que en ocasiones el sistema confunde algunos dígitos y letras similares (5->S,0->O,1 ->l,...). Aunque a simple vista la mayoría de resultados son legibles (5T0P, CL05E,...), presentan problemas a la hora de convertir estas palabras incorrectas a voz por medio del software de síntesis de voz (etapa 4). Por tanto, en el diccionario se almacenan las palabras similares ya corregidas y que se mostrarán como resultado final (STOP, CLOSE,...). Finalmente, se aplica un algoritmo de ponderación que define una relación porcentual entre dichas palabras, teniendo en cuenta la frecuencia de aparición de las letras, la cercanía entre ellas y la longitud de las palabras. En función del porcentaje asignado se decide si se sustituye la palabra o no, es decir, si la palabra encontrada en el diccionario como la más similar a la obtenida por el OCR (etapa 2) es realmente válida.
Si la búsqueda tiene éxito 1414, el resultado (texto identificado en la imagen recibida del display) se envía al dispositivo portátil del usuario 1415 (etapa 4), se muestra en la pantalla y puede ser leído por éste con métodos estándares orientados a personas con discapacidad visual.
En caso de que la búsqueda no dé un resultado con un texto reconocido 1414, el ordenador remoto en el que se lleva a cabo el procedimiento de análisis y búsqueda muestra en su pantalla la información de la imagen original (grabada por el dispositivo) a un operador humano que lo visualiza, lee e identifica los caracteres (u otra información gráfica), y genera un texto equivalente o explicativo 1416. Este texto se envía al dispositivo portátil del usuario, se muestra en la pantalla y puede ser leído por éste con métodos estándares orientados a personas con discapacidad visual. Opcionalmente, el método proporciona además la traducción de estas palabras o caracteres a voz, para que la persona con dificultad visual sea informada del contenido de la imagen tomada por la fotografía. Alternativamente, el método transcribe de nuevo en la pantalla del dispositivo portátil del usuario el texto inicialmente fotografiado, pero de forma legible para una persona con discapacidad visual.
La figura 15A muestra un esquema del sistema formado por un dispositivo portátil 150 y un ordenador remoto 155 conectados a través de una conexión inalámbrica 151 . Esta conexión inalámbrica es convencional y queda fuera del alcance de la presente invención, pudiendo establecerse a través de cualquier tecnología de telecomunicaciones convencionales (bluetooth, wireless LAN, GSM, GPRS, UMTS, HSDPA, etc.). El dispositivo portátil 150 se encarga de capturar la imagen del display, cartel o señalización. A continuación, la imagen se envía a través de la conexión inalámbrica 151 al ordenador remoto 155 de un centro de procesamiento. El ordenador 155 procesa automáticamente la imagen captada para identificar el texto de acuerdo con el método descrito anteriormente. Si el procesado automático es correcto, se devuelve el texto interpretado al dispositivo portátil 150 a través de la conexión inalámbrica 157. En caso de imposibilidad para identificar el texto automáticamente (como se ha detallado anteriormente), se muestra la imagen a un operador humano 156, que identifica el texto (o caracteres), lo teclea en el ordenador y se envía 157 al dispositivo portátil 150.
La figura 15B muestra el caso de procesado automático con éxito (sin necesidad de intervención humana): primero (1 ) el dispositivo portátil 150 captura la imagen; a continuación (2) la envía 151 al ordenador remoto 155; después (3) éste la procesa automáticamente para identificar el texto; seguidamente (4) se devuelve 157 el texto interpretado al dispositivo portátil 150; por último (5), éste muestra en su pantalla el texto recibido.
La figura 15C muestra el caso de procesado automático sin éxito (que requiere intervención humana): primero (1 ) el dispositivo portátil 150 captura la imagen; a continuación (2) la envía 151 al ordenador remoto 155; después (3) éste la procesa automáticamente para tratar de identificar el texto, pero el resultado no es correcto; seguidamente (4) el ordenador remoto 155 muestra en su pantalla la imagen original capturada por el dispositivo portátil 150; a continuación (5) el operador 156 teclea en el ordenador el texto equivalente; después (6) se devuelve 157 el texto interpretado al dispositivo portátil 150; por último (7), éste muestra en su pantalla el texto recibido.
Alternativamente, tanto en el caso automático como en el que requiere de intervención humana, el dispositivo portátil 150 puede convertir el texto final en voz (audio) para que el usuario final (persona con poca capacidad de visión) lo pueda oír, en vez de tener que leerlo. El dispositivo portátil 160 de captación de imágenes y de recepción de resultados se ilustra ampliado en las figuras 16A 16B. El dispositivo 160 es portátil, es decir, de las dimensiones adecuadas para que una persona pueda desplazarlo de un lugar a otro. El sistema comprende: medios para, a partir de una imagen digital, convertir la imagen a escala de grises; medios para segmentar dicha imagen en escala de grises, de forma que se obtiene una imagen en blanco y negro formada por una pluralidad de partículas; medios para filtrar dicha pluralidad de partículas, de forma que se eliminan partículas que no contienen información asociada a un carácter de la imagen original; medios para dilatar las partículas restantes, de forma que se obtiene una imagen dilatada; medios para seleccionar segmentos de dicha imagen dilatada, tratando de que cada segmento corresponda a un carácter de la imagen original; medios para descursivizar el contenido de cada uno de dichos segmentos; medios para interpretar la información de dichos segmentos mediante un algoritmo de reconocimiento de caracteres.
Preferentemente, estos medios están comprendidos en el ordenador remoto 155.
Preferentemente, el dispositivo comprende además medios para tomar dicha imagen digital, como por ejemplo, una cámara digital.
Preferentemente, el dispositivo tiene medios para establecer una conexión telefónica inalámbrica.
Preferentemente, el dispositivo tiene medios para convertir a voz dichos caracteres reconocidos.
A la vista de esta descripción y juego de figuras, el experto en la materia podrá entender que la invención ha sido descrita según algunas realizaciones preferentes de la misma, pero que múltiples variaciones pueden ser introducidas en dichas realizaciones preferentes, sin salir del objeto de la invención tal y como ha sido reivindicada.

Claims

R E I V I N D I C A C I O N E S
1 . Un método de interpretación de información visual que comprende caracteres alfanuméricos, procedente de un display, un cartel o una señalización, caracterizado por que comprende las siguientes etapas:
-a partir de una imagen digital (1401 ), convertir la imagen a escala de grises (1404); -segmentar dicha imagen en escala de grises, de forma que se obtiene una imagen en blanco y negro formada por una pluralidad de partículas (1405);
-filtrar dicha pluralidad de partículas (1406), de forma que se eliminan partículas que no contienen información asociada a un carácter de la imagen digital original;
-dilatar las partículas restantes (1407), de forma que se obtiene una imagen dilatada;
-seleccionar segmentos de dicha imagen dilatada, tratando de que segmentos agrupados se correspondan a un carácter de la imagen original;
-descursivizar el contenido de cada uno de dichos segmentos (1408);
-interpretar la información de dichos segmentos mediante un algoritmo de reconocimiento de caracteres (1410).
2. El método de la reivindicación 1 , donde tras la aplicación de dicho algoritmo de reconocimiento de caracteres, se realiza la etapa de: -buscar en un diccionario el término o términos equivalentes al conjunto de caracteres identificados.
3. El método de la reivindicación 2, que comprende la etapa de: -realizar una comprobación semántica de dicho término o términos (1412).
4. El método de la reivindicación 3, donde dicha comprobación semántica se hace mediante un análisis léxico de cada término.
5. El método de cualquiera de las reivindicaciones 2 a 4, donde si dicha búsqueda en un diccionario proporciona un texto representativo de la imagen original (1414):
-mostrar dicho texto en una pantalla de un dispositivo portátil (1415), de forma que pueda ser leído de acuerdo con métodos convencionales orientados a personas con discapacidad visual.
6. El método de cualquiera de las reivindicaciones 2 a 5, que comprende además la etapa de convertir a voz dichos términos.
7. El método de cualquiera de las reivindicaciones 2 ó 3, donde si dicha búsqueda en un diccionario no es capaz de proporcionar un texto representativo de la imagen original (1414):
-enviar la imagen digital original a un operador humano (1416);
-por parte de dicho operador humano, generar un texto representativo de dicha imagen original;
-enviar dicho texto representativo de la imagen original a una pantalla de un dispositivo portátil, de forma que pueda ser leído de acuerdo con métodos convencionales orientados a personas con discapacidad visual.
8. El método de la reivindicación 7, que comprende además la etapa de convertir a voz dicho texto.
9. Un dispositivo (155) que comprende:
-medios para, a partir de una imagen digital, convertir la imagen a escala de grises; -medios para segmentar dicha imagen en escala de grises, de forma que se obtiene una imagen en blanco y negro formada por una pluralidad de partículas;
-medios para filtrar dicha pluralidad de partículas, de forma que se eliminan partículas que no contienen información asociada a un carácter de la imagen original;
-medios para dilatar las partículas restantes, de forma que se obtiene una imagen dilatada;
-medios para seleccionar segmentos de dicha imagen dilatada, tratando de que segmentos agrupados se correspondan a un carácter de la imagen original;
-medios para descursivizar el contenido de cada uno de dichos segmentos;
-medios para interpretar la información de dichos segmentos mediante un algoritmo de reconocimiento de caracteres;
-medios para buscar en un diccionario el término o términos equivalentes al conjunto de caracteres identificados.
10. El dispositivo (155) de la reivindicación 9, que comprende medios para establecer una conexión telefónica inalámbrica con un dispositivo portátil.
1 1 . Un sistema que comprende:
-un dispositivo portátil (150, 160) que comprende medios para establecer una conexión telefónica inalámbrica (151 );
-un dispositivo (155) de acuerdo con la reivindicación 9 configurado para recibir una imagen digital procedente de dicho dispositivo portátil (150, 160) a través de dicha conexión telefónica inalámbrica (151 ) y para enviar (157) a dicho dispositivo portátil (150, 160) un texto representativo de un conjunto de caracteres comprendidos en dicha imagen digital.
12. El sistema de la reivindicación 1 1 , donde dicho dispositivo portátil (150, 160) comprende medios para tomar dicha imagen digital.
13. El sistema de cualquiera de las reivindicaciones 1 1 ó 12, donde dicho dispositivo portátil (150, 160) comprende además medios para convertir a voz dicho texto representativo.
14. El sistema de cualquiera de las reivindicaciones 1 1 a 13, donde dicho dispositivo (155) comprende medios para, si no es capaz de proporcionar de forma automática un texto representativo de la imagen original:
-enviar la imagen digital original a un operador humano;
-recibir de dicho operador humano un texto representativo de dicha imagen original;
-enviar dicho texto representativo de la imagen original a una pantalla de un dispositivo portátil, de forma que pueda ser leído de acuerdo con métodos convencionales orientados a personas con discapacidad visual.
PCT/ES2009/070644 2009-12-30 2009-12-30 Método, dispositivo y sistema para lectura de displays WO2011080361A1 (es)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/ES2009/070644 WO2011080361A1 (es) 2009-12-30 2009-12-30 Método, dispositivo y sistema para lectura de displays

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/ES2009/070644 WO2011080361A1 (es) 2009-12-30 2009-12-30 Método, dispositivo y sistema para lectura de displays

Publications (1)

Publication Number Publication Date
WO2011080361A1 true WO2011080361A1 (es) 2011-07-07

Family

ID=42288855

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/ES2009/070644 WO2011080361A1 (es) 2009-12-30 2009-12-30 Método, dispositivo y sistema para lectura de displays

Country Status (1)

Country Link
WO (1) WO2011080361A1 (es)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2278755A (en) 1993-06-04 1994-12-07 Natural Vox Sa Interactive telephone response system
US20020037104A1 (en) * 2000-09-22 2002-03-28 Myers Gregory K. Method and apparatus for portably recognizing text in an image sequence of scene imagery
US20050071167A1 (en) * 2003-09-30 2005-03-31 Levin Burton L. Text to speech conversion system
WO2005096760A2 (en) * 2004-04-02 2005-10-20 Kurzweil Technologies, Inc. Portable reading device with mode processing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2278755A (en) 1993-06-04 1994-12-07 Natural Vox Sa Interactive telephone response system
ES2209604B1 (es) 1993-06-04 2005-10-01 Natural Vox S.A. Mejoras introducidas en el objeto de la patente principal 9301230 por sistema de respuesta interactiva telefonica.
US20020037104A1 (en) * 2000-09-22 2002-03-28 Myers Gregory K. Method and apparatus for portably recognizing text in an image sequence of scene imagery
US20050071167A1 (en) * 2003-09-30 2005-03-31 Levin Burton L. Text to speech conversion system
WO2005096760A2 (en) * 2004-04-02 2005-10-20 Kurzweil Technologies, Inc. Portable reading device with mode processing

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BUNKE H ET AL: "Handbook of Character Recognition and Document Image Analysis, PASSAGE", 1 January 1997, HANDBOOK OF CHARACTER RECOGNITON AND DOCUMENT ANALYSIS, WORLD SCIENTIFIC PUBLISHING CO, US, PAGE(S) 40,41,130,131 - 424/29, ISBN: 978-981-02-2270-3, XP002581680 *
DENGEL A ET AL: "Handbook of character recognition and document image analysis, TECHNIQUES FOR IMPROVING OCR RESULTS", 1 January 1997, HANDBOOK OF CHARACTER RECOGNITON AND DOCUMENT ANALYSIS, WORLD SCIENTIFIC PUBLISHING CO, US, PAGE(S) 227 - 258, ISBN: 978-981-02-2270-3, XP002402960 *
M CHERIET, N. KHARMA, C-L. LIU, C. SUEN: "Character Recognition Systems. A Guide for Students and Practitioners", 2007, WILEY, ISBN: 978-0-471-41570-1, XP002590450 *
SILVIO FERREIRA ET AL.: "A Text Detection Technique Applied in the Framework of a Mobile Camera-Based Application", FACULTY OF ENGINEERING, June 2006 (2006-06-01)

Similar Documents

Publication Publication Date Title
CN107016387B (zh) 一种识别标签的方法及装置
US11823358B2 (en) Handwritten content removing method and device and storage medium
US10461859B2 (en) Method of outputting color code for data communication to display screen and method of transmitting data using color code
ES2754612T3 (es) Procedimiento de reconocimiento de caracteres en relieve, producto programa de ordenador y dispositivo correspondientes
EP2857956A1 (en) Reflective display and electronic pen system using same
JP2018530086A5 (es)
Finnegan et al. Automated method for detecting and reading seven-segment digits from images of blood glucose metres and blood pressure monitors
CN114092938B (zh) 图像的识别处理方法、装置、电子设备及存储介质
CN113705460A (zh) 图像中人脸睁眼闭眼检测方法、装置、设备及存储介质
CN111291797A (zh) 一种防伪识别方法、装置及电子设备
CN117113962A (zh) 一种信息处理方法、装置及设备
Joan et al. An enhanced text detection technique for the visually impaired to read text
Alagarsamy et al. Smart System for Reading the Bar Code using Bayesian Deformable Algorithm for Blind People
CN105976006A (zh) 二维码及基于该二维码的二维码识读器
KR20010103394A (ko) 신분증 인식 기술을 이용한 고객 정보 관리 시스템 및 방법
WO2011080361A1 (es) Método, dispositivo y sistema para lectura de displays
CN110244995A (zh) 基于视觉拥挤效应的个性化屏幕字间距调整方法和装置
Zaghloul et al. Braille Recognition System–With a Case Study Arabic Braille Documents
Beglov Object information based on marker recognition
CN110222613A (zh) 一种基于卷积神经网络的竖排版繁体中文识别方法
Satwashil et al. English text localization and recognition from natural scene image
Shen et al. Finding text in natural scenes by figure-ground segmentation
KR101313259B1 (ko) 학습용 지구본
Rasines et al. Real-Time display recognition system for visually impaired
CN206162593U (zh) 基于机器视觉的试卷信息采集系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09813818

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09813818

Country of ref document: EP

Kind code of ref document: A1