WO2014014175A1 - 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시시스템 및 방법 - Google Patents

시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시시스템 및 방법 Download PDF

Info

Publication number
WO2014014175A1
WO2014014175A1 PCT/KR2012/011490 KR2012011490W WO2014014175A1 WO 2014014175 A1 WO2014014175 A1 WO 2014014175A1 KR 2012011490 W KR2012011490 W KR 2012011490W WO 2014014175 A1 WO2014014175 A1 WO 2014014175A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
information
character
area
braille
Prior art date
Application number
PCT/KR2012/011490
Other languages
English (en)
French (fr)
Inventor
조진수
김혜영
정정일
김흥기
김이슬
Original Assignee
가천대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가천대학교 산학협력단 filed Critical 가천대학교 산학협력단
Publication of WO2014014175A1 publication Critical patent/WO2014014175A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/001Teaching or communicating with blind persons
    • G09B21/008Teaching or communicating with blind persons using visual presentation of the information for the partially sighted
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/001Teaching or communicating with blind persons
    • G09B21/003Teaching or communicating with blind persons using tactile presentation of the information, e.g. Braille displays

Definitions

  • the present invention relates to a haptic display-based visual information display system and method for the visually impaired. More particularly, the present invention relates to a multimedia device by converting visual information in general education materials displayed through a multimedia device into tactile information. The present invention relates to a haptic display-based tactile information conversion and expression technology for visually handicapped people to realistically accept educational materials provided through the visual aids.
  • the technical problem to be solved by the present invention by converting the educational material containing the visual material with the text to tactile information to provide a special educational material similar to the general educational material, thereby enabling the visually impaired general educational material
  • the purpose of the present invention is to provide a haptic display-based visual information display system and method for the visually impaired, which can be given a similar opportunity to use special educational materials.
  • Embodiments of the present invention for achieving the above object, the image region and the character region extraction step in the general education material to extract the text area and the image area for each information mixed in the general education material, by analyzing the extracted image area
  • the image area and the text area extracting step in the general education data are classified into text areas other than the video area, text areas in the video area, and video areas. Characterized in that.
  • the image area and the text area extraction step in the general education material for the brightness (brightness) image and label for the characteristic analysis of the text and visual material for the general education material
  • General education data input step for generating the base information
  • image area extraction step for classifying the text area and the image area based on the characteristics of the text and visual data appearing in the generated brightness image, and extracting the video area, and the classified image
  • a character extraction step in the image region for detecting the character region in the region.
  • the step of inputting general education material includes generating base information on a brightness image by performing gray scale processing on all pixels of the scanned general education material. And generating base information on the label through binarization and labeling of the base information on the brightness image.
  • the base information generation step of the label the binarization processing step of reconstructing the generated brightness image only black pixels and white pixels, the connection state between the adjacent black pixels of the binarized brightness image
  • the binarization processing step of reconstructing the generated brightness image only black pixels and white pixels
  • the connection state between the adjacent black pixels of the binarized brightness image By inspecting the pixels connected to each other as one object, it distinguishes between texts classified into objects of at least a character unit (minimum unit of characters) and visual data classified into one or more objects according to the presence or absence of a white pixel. It comprises a labeling processing step.
  • the amount of change (G) of the brightness value between a character and a neighboring pixel of the visual data in the brightness image of the input general education data is expressed by Equation 1 below. Calculating a difference, generating a difference difference (GD) image using only a change amount (G) of the brightness value between the calculated character and the neighboring pixel of the visual data, and generating an image of the expected character area within the generated GD image.
  • Equations 1 to 4 x and y are positions of columns and rows of pixels, w and h are width and height of an image, B (x, y) are brightness values of corresponding pixel positions, and G (x, y) is The amount of change for neighboring pixels, Q 1 and Q 3 are the first and third quartiles for the width of the label, LW and NL are the width of the label and the total number of labels, respectively, and T b is the boundary to perform binarization. It is characterized in that the value.
  • the character area and the image area classification step are determined as the label for the character if the label of the material calculated in the input step of the general education material is included in the character area of the candidate group, If not included, it is determined as a label for the image area, characterized in that the text and visual data in the general education materials are classified into the character area and the image area, respectively.
  • the character extraction step in the image area determines whether or not the character in the image area determined in the image area extraction step, and if there is a character to extract it into the character area, the image area
  • the search range is limited to the image area only under the same environment as the extraction step (average width for the label of the character, the filter of the morphology operation), and as a result, the character area in the image area is extracted.
  • the image information tactile step for each complexity is classified into a low complexity image and a high complexity image by analyzing a cumulative histogram of the calculated brightness of the image region. Step, judging whether or not the classified high complexity image contains the main object, and identifying and extracting the central object of the high complexity image that extracts the main object, and simplifying by reducing the complexity of the image to assist the visually impaired. It includes noise reduction and simplification of high complexity images.
  • the change rate ( D NH ) for the remaining section of the accumulated brightness value of the image before and after removing the average cumulative value of brightness is examined through Equation (5). And classifying the low complexity image and the high complexity image according to the inspection result.
  • the threshold value ( D th ) for the change rate ( D NH ) for classifying the high complexity and the low complexity images is frequently displayed in general education materials such as figures, graphs, illustrations, maps, and photographs.
  • the optimal experimental values for cnt before and cnt after are the remaining intervals of brightness before and after removing the cumulative value, and I is the image region.
  • the presence or absence of the central object of the high complexity image is determined, the color similarity of the pixels constituting the high complexity image is measured, and similar colors are represented through quantization. Determining whether the central object exists by measuring the distribution of the color corresponding to the central object area in the image converted into the representative color, and extracting the outline of the central object if the determination exists. It comprises a step.
  • the step of converting similar colors into representative colors includes determining a quantization level using a peer group filtering (PGF) technique, and representing similar colors through quantization according to the determined level. Converting to color to reduce the complexity of the color of the high complexity image.
  • PPF peer group filtering
  • the step of determining the presence or absence of the central object, in the state that assumes that the color having the highest frequency in the central region of the image defined in Equation 6 as the representative color of the central object is vertical Calculating the distribution in the image by calculating variances in the direction and the horizontal direction, and determining the presence or absence of the central object according to the calculated distribution.
  • w and h are the width and height of the high complexity image, and AreaX obj and AreaY obj , respectively, characterized in that the range of the x-axis and y-axis of the central region.
  • the presence or absence of the central object is an image without the central object in the case where the color representative of the central object is widely distributed horizontally or the distribution degree is low through the conditional expression (3). Judging from the fact that there is a central object.
  • s max max ( s verticality , s horizontality )
  • I is a non-object image
  • s verticality and s horizontality are the maximum vertical and maximum horizontal variances of the representative color of the central object in the high complexity image ( I ), and s max is the maximum variance having the larger of s verticality and s horizontality .
  • the thresholds T 1 and T 2 which are compared with the maximum variance, are constants and are the optimal experimental values calculated through repeated experiments on various high complexity images.
  • the contour extraction step of the central object extracts representative colors of the background area of four corner sections of the image defined by Equation 7 from the quantized high complexity image and then extracts the representative colors. Remove color from the entire image to leave only the information about the central object in the image, perform binarization and labeling on the high complexity image to remove color information appearing outside the center area and create labels for the representative color of the central object. And removing the noise by detecting whether the positions of the generated labels are included in the center region, and extracting the center object of the image to be converted into tactile information by detecting the contour of the center object left in the high complexity image. Including the steps,
  • Equation 7 AreaX n and AreaY n are background regions for four corners of the image, and w and h are width and height of the high complexity image, respectively.
  • noise reduction and simplification of a high complexity image may include performing binarization and labeling on a high complexity image to calculate the size of labels for contours constituting the image; When the ratio of the width and height is calculated by comparing the resolution of the image and the resolution of the haptic display, and each label is reduced to the resolution of the haptic display through Equation 8, the pixel size is less than 1 cell of the haptic display. And classifying and removing the image information of the reduced label into low-noise noise.
  • H width and H height are the width and height of the haptic display
  • I width and I height are the width and height of the image
  • T w and T h are the width and height of the image to reduce to the haptic display
  • the reduction ratios, LW , LH and n are the width, height and total number of the corresponding labels
  • S is the size of the pixel when the label is converted to the haptic display resolution.
  • the noise removing and simplifying of the high complexity image may include detecting corner points of the contour lines and generating connection lines using the corner points to reduce the complexity of the detected contour lines. If the intersection angle is greater than the critical angle by inspecting the intersection angle between the two to remove the corner point shared by the connection line and creating a new connection line with the remaining two points to further reduce the complexity of the contour of the image,
  • the critical angle is an optimal experimental value measured by performing experiments on various images having high contour complexity.
  • the character recognition and the braille converting step are performed by applying optical character recognition (OCR) to the extracted character area and converting the information into information that can be recognized by a computer. Characterized in that the conversion to the braille form that the disabled can recognize.
  • OCR optical character recognition
  • the character recognition and Braille conversion step the computer recognizes from the image information on the character area by performing the optical character recognition in the character area of the paragraph or paragraph except the visual material in the general education materials Character recognition step other than image area to generate text information that can be done, and optical character recognition is performed on characters included in visual materials in general education materials to generate computer-recognized text information from text area in video area Character recognition step in the image region, and the character information in the generated image area and the character information in the image area are braille expression steps of the recognized characters that are displayed by braille information through the braille expression algorithm. It is made to include.
  • the braille expression step of the recognized character in order to express the braille information from the character information outside the image area on the haptic display, calculate the length of the braille to the width of the haptic display resolution And performing a line break accordingly.
  • the braille expression step of the recognized character is arranged by placing the braille information occupied by the character information in the image area in the image area and then overlapping with the surrounding image information to be superimposed.
  • the method may include disposing an index corresponding to the braille information in the image area and outputting the braille information together with the corresponding index to the outside of the image area.
  • the braille expression step of the recognized character is made in accordance with the Korean Braille Regulations and the English Braille Regulations, and connected to words, abbreviations, basic arithmetic operators, and general symbols. Characterized in that it includes a point to point.
  • the present invention it is possible to provide special educational materials similar to general educational materials by converting educational materials including visual materials with text into tactile information, thereby providing opportunities for the use of various types of special educational materials for the visually impaired.
  • FIG. 1 is a block diagram schematically illustrating the overall configuration of a haptic display-based visual information display system for the blind according to the present invention.
  • FIG. 2 is a schematic operation flowchart illustrating the overall processing of the haptic display-based visual information display method for the blind according to the present invention.
  • FIG. 3 is a detailed flowchart of an image region extraction step of FIG. 2.
  • 4A and 4B are detailed flowcharts illustrating the existence and extraction of a central object and the noise removal and simplification for the high complexity image of FIG. 2.
  • FIG. 5 (a) to (d) is a reference diagram for explaining the operation of separating the image area and the text area in the general education material
  • (a) is an illustration of the general education material
  • (b) Is the brightness image for (a)
  • (c) is the result of extracting the pixel information of a specific row in the image of (b) and converting the brightness value of the pixel for each column in that row into a histogram
  • (d) Is the result of converting the difference in the amount of change of the brightness value of (c) into a histogram.
  • 6 (a) and 6 (b) are reference diagrams illustrating cumulative histograms of brightnesses of a low complexity image and a high complexity image, respectively.
  • FIG. 7 to 9 are reference diagrams for explaining the image region and the character extraction step in the general education material according to the present invention.
  • FIG. 10 is a reference diagram for explaining a tactile step of an image for each complexity according to the present invention.
  • FIG. 11 is a reference diagram for explaining a noise removal and simplification step of a high complexity image according to the present invention.
  • FIG. 12 is a reference diagram for explaining a character recognition step excluding an image area in the character recognition and extraction step according to the present invention.
  • FIG. 13 is a reference diagram illustrating a character recognition and indexing step in an image area in a character recognition and extraction step according to the present invention.
  • FIG. 14 is a reference diagram illustrating a final result of converting general educational data into tactile information through the present invention.
  • FIG. 1 is a block diagram schematically illustrating the overall configuration of a haptic display-based visual information display system for the visually impaired according to the present invention, the tactile information conversion system 100 of the present invention, each mixed in the general education material Image / text area extraction unit 110 for extracting a text area and image area for information, and a complex image tactile unit 120 for converting a low complexity image and a high complexity image into tactile information by analyzing the extracted image area. And character recognition in the extracted character area and the character information in the image area, and the character recognition and the point area unit 130 for converting into braille information that can be recognized by the visually impaired.
  • Education data input unit 10 for may be configured to further include a tactile information display unit 20 for expressing the braille.
  • FIG. 2 is a schematic operation flowchart illustrating an overall process of a haptic display-based visual information display method for the visually impaired according to the present invention
  • FIGS. 3, 4A, and 4B are image area extraction steps (a2) of FIG. And detailed descriptions of the determination and extraction of the central object for the high complexity image (b2) and the noise removal and simplification (b3).
  • the image area and the text area extraction step (a100), the complex information image tactile step (b100), and the character recognition and braille conversion step (c100) in general education materials Is done.
  • a text area and a video area of each information mixed in the general education data are extracted, respectively.
  • the image is classified into an area, a text area in the image area, and an image area, and includes general education data input step (a1), image area extraction step (a2), and character extraction step in the image area (a3).
  • base information on brightness images and labels for characterization of text and visual data on general education materials is generated.
  • the base information of the brightness image is generated by performing gray scale processing on all pixels of the scanned general education material, and the base information of the label is binarization and labeling processing of the base information of the generated brightness image.
  • Create via The generating of the base information on the label is performed through binarization and labeling processing, and reconstructs the generated brightness image with only black pixels (pixel values: 0) and white pixels (pixel values: 255) through binarization and labeling.
  • the brightness image and label generated in this step are used as input data for the image region extraction process and the character extraction process in the image.
  • the image region is extracted by classifying the character region and the image region based on the characteristics of the character and the visual data appearing in the generated brightness image.
  • the image region extraction step (a2) is performed by calculating a change amount (G) for the brightness value (a21), a change amount (GD) image generation step (a22), and a label of a character as illustrated in the operation flowchart of FIG. LW average calculation step (a23), the maximum difference difference (MGD) image reconstruction step (a24), candidate group determination of the expected character region in the MGD image (a25), the merged character region interspersed in the MGD image (a26), and classifying the character region and the image region (a27).
  • Equation 1 the change amount (G, Gradient) for the brightness value between the neighboring pixels of the text and the visual data in the brightness image of the input general education material is expressed by Equation 1 below.
  • Equation 1 x and y are positions of columns and rows of pixels, w and h are width and height of an image, B (x, y) are brightness values of corresponding pixel positions, and G (x, y) is adjacent to each other. It represents the amount of change with respect to the pixel.
  • a difference difference (GD) image is generated using only the change amount G of the brightness value between the calculated characters and the neighboring pixels of the visual data.
  • the label for the generated visual data is excluded as an outlier to determine a candidate group of the text area expected in the generated GD image.
  • the average width ( LW average ) for the label of the character is calculated through the following equation (2).
  • Equation 2 Q 1 and Q 3 represent first and third quartiles with respect to the width of the label, and LW and NL represent the width of the label and the total number of labels, respectively.
  • the maximum difference amount (MGD, Maximum Griadient) is applied to the GD image by applying the following equation (3) to the GD image based on the calculated average width ( LW average ) for the label of the character. Difference) Reconstructs the image.
  • Equation 3 The variable of Equation 3 is the same as that of Equation 1 above.
  • step (a25) of determining the candidate group of the expected character region in the MGD image binarization is performed by determining a boundary value Tb for the reconstructed MGD image using Equation 4 below, and the width of the white pixel connected to each row is determined.
  • the candidate group of the expected character region in the MGD image is determined by removing the white pixels smaller than the width of the sum of the two characters ( 2LW average ).
  • Equation 4 is the same as the variable of Equation 1 and Equation 2, and T b represents a boundary value to be binarized.
  • the labels of the data calculated in the input step of the general education material are checked whether they are included in the character area of the candidate group, and the characters and time in the general education material are checked.
  • the data is classified into text area and video area, respectively.
  • this classification step if the label of the material calculated at the input stage of the general education material is included in the character area of the candidate group, the label is determined by the character. If not, the label is determined by the label of the image area.
  • the text and visual materials in the educational materials are classified into text and video areas respectively.
  • the character extraction step (a3) in the image area it is determined whether or not there is a character in the image area determined in the image area extraction step, and when there is a character, it is extracted into the character area, but the same environment as the image area extraction step (characters).
  • the search range is limited only to the image area under the average width and morphology calculation for the label.
  • the extracted image region is analyzed to distinguish a low complexity image including a figure and a graph from a high complexity image including an illustration and a photo, and to classify each classified image into a complexity.
  • the image data is converted into tactile information, and the image classification step (b1), the determination of the presence or absence of the central object of the high complexity image (b2), and the noise reduction and simplification step (b3) of the high complexity image are performed. .
  • the cumulative histogram of the calculated brightness of the image area is analyzed to classify the image into low and low complexity images (charts and graphs) and high complexity images (illustrations, cartoons, maps, and photos) according to the complexity. .
  • the average cumulative value of the brightness of the image is calculated through the following conditional expression 1, and the average cumulative value of the calculated brightness is calculated through the following conditional equation 2.
  • NH i is the cumulative value for the corresponding brightness
  • NH average is the average cumulative value of the brightness for the image
  • Q 1 and Q 3 are the first and third quartiles, respectively.
  • the change rate ( D NH ) of the remaining section of the brightness accumulation value of the image before and after removing the average cumulative value of the brightness is examined through the following equation (5) According to the classification of low and high complexity images.
  • the threshold value ( D th ) for the change rate ( D NH ) for classifying the high complexity and the low complexity images is frequently displayed in general education materials such as figures, graphs, illustrations, maps, and photographs.
  • the optimal experimental values for cnt before and cnt after are the remaining intervals of brightness before and after the cumulative removal, and I is the image area.
  • step (b2) of determining whether or not the central object of the high complexity image is present it is determined whether the classified high complexity image includes the main object and extracted. Determining and extracting the center object of the high complexity image (b2) includes a representative color conversion step (b21) of similar colors, a step of determining whether the center object is present (b22), and the center, as illustrated in the operation flowchart of FIG. 4A. Contour extraction step (b23) for the object is made.
  • Representative color conversion step (b21) of the similar colors is a step of measuring the color similarity of the pixels constituting the high complexity image and converting similar colors to the representative color through quantization, in which the similar colors are representative colors
  • quantization level is first determined by using Peer Group Filtering (PGF).
  • PPF Peer Group Filtering
  • Determining the presence or absence of the central object is a step of determining the presence or absence of the central object by measuring the distribution of the color corresponding to the central object area in the high complexity image converted into the representative color, in this step In the center region of the image defined in Equation 6, the color with the highest frequency is assumed to be the representative color of the central object, and the distribution in the image is calculated by calculating the variance in the vertical and horizontal directions.
  • Equation 6 w and h are the width and height of the high complexity image, respectively, and AreaX obj and AreaY obj are the ranges of the x and y axes of the central region, respectively.
  • the presence or absence of the central object is determined by the following conditional expression 3, and the color representative of the central object is horizontally wide or low in distribution, such as the characteristics shown in the background images such as the forest or the sea. It is judged that there is no central object, and in other cases, it is determined that there is a central object.
  • s max max ( s verticality , s horizontality )
  • I is a non-object image
  • s verticality and s horizontality are the maximum vertical and maximum horizontal variances of the representative color of the central object in the high complexity image ( I ), and s max is the maximum variance having the larger of s verticality and s horizontality , Thresholds T 1 and T 2 compared to the maximum variance are constants and are optimal experimental values calculated through repeated experiments on various high complexity images.
  • the contour extraction step (b23) of the central object extracts the contour of the central object when the central object exists as a result of the determination of the presence or absence of the central object.
  • Equation 7 is first calculated from the quantized high complexity image. Representative colors of the background region for the four corner sections of the image defined through are extracted, and the extracted colors are removed from the entire image. As a result, the representative color of the central object remains in the high complexity image.
  • Equation 7 AreaX n and AreaY n represent background regions of four corners of the image, respectively, and w and h represent the width and height of the high complexity image.
  • the same color information may remain in an area other than the center area, and the color information appearing outside the center area may be determined as noise, not information representing an object. Therefore, in order to remove this, in this step, binarization and labeling of the high complexity image is performed to remove color information appearing outside the center area, generate labels for the representative color of the center object, and generate the respective labels.
  • the noise is removed by checking whether the position of is included in the center region, the contour of the center object left in the high complexity image is detected, and the center object of the image to be converted into tactile information is extracted.
  • noise removal and simplification step (b3) the complexity of the image is reduced to simplify the visually impaired perception.
  • This noise reduction and simplification step (b3) is carried out on the label size calculation step (b31), the noise removal step (b32), the connection line generation step (b33), and the contour line for the outlines as illustrated in the operation flowchart of FIG. 4b.
  • Complexity reduction step (b34) is carried out on the label size calculation step (b31), the noise removal step (b32), the connection line generation step (b33), and the contour line for the outlines as illustrated in the operation flowchart of FIG. 4b.
  • step (b31) of calculating the size of the contours binarization and labeling processing is performed on the high complexity image to calculate the size of the labels of the contours constituting the image.
  • the ratio of the width and the height is calculated by comparing the resolution of the image and the resolution of the haptic display, and the size of the pixel when each label is reduced to the resolution of the haptic display through Equation (8)
  • the image information of the label reduced to less than one cell of the haptic display is classified and removed as noise of low importance.
  • H width and H height are the width and height of the haptic display
  • I width and I height are the width and height of the image
  • T w and T h are the width and height of the image to reduce to the haptic display
  • the reduction ratios, LW , LH and n represent the width and height and total number of the label
  • S represents the size of the pixel when the label is converted to haptic display resolution.
  • the corner points of the contour lines are detected to reduce the complexity of the detected contour lines, and a connection line connecting the corner points is generated.
  • the intersection angle between the connection lines is examined, and if the intersection angle is greater than or equal to the critical angle (preferably 150 degrees), the corner point shared by the connection line is removed and the new connection line is used as the remaining two points.
  • the critical angle preferably 150 degrees
  • the critical angle 150 degrees is an optimal experimental value that can be measured by performing experiments on various images having a high complexity of the contour.
  • the character recognition and braille conversion step (c100) is a step of analyzing the character information in the extracted text area and the character information in the image area and converting them into braille information recognizable to the visually impaired.
  • Optical character recognition OCR, By applying Optional Character Recognition, it can be converted into information that can be recognized by the computer, and then converted into Braille that can be recognized by the visually impaired.
  • the character recognition and braille conversion step c100 includes a character recognition step c1 outside the image area, a character recognition step c2 in the image area, and a braille expression step c3 of the recognized character.
  • optical character recognition is performed on the character area of the paragraph or paragraph except the visual material in the general education material, thereby generating character information that can be recognized by the computer from the image information of the character area.
  • optical character recognition is performed on the characters included in the visual material in the general education material to generate character information that can be recognized by the computer from the character area in the image area.
  • the visually impaired people can recognize the character information outside the generated image area and the character information in the image area through a braille expression algorithm following the Korean Braille Regulation and English Braille Regulation.
  • Braille information is displayed.
  • braille expression algorithms preferably include linking words, abbreviations, basic arithmetic operations, and point domains for general symbols.
  • the braille information which is occupied by the character information outside the image area, is first calculated for the haptic display, and the braille information is calculated according to the width of the haptic display resolution.
  • the braille information is first placed in the image area, and then examined whether it overlaps with the surrounding image information. As a result of the inspection, the braille information arranged in the image area is included in the surrounding image information. When superimposed with, the index corresponding to the braille information is disposed in the image region, and the braille information is output together with the index outside the image region.
  • the image / character area extraction unit 110 converts the character information and the image area of each information to convert the text information and visual information mixed in the general education data input through the education data input unit 10 into tactile information.
  • Image and text area extraction step (a100) in the general education material to be extracted is carried out.
  • general education data input step (a1), image area extraction step ( a2) and the character extraction step (a3) in the image area are sequentially executed.
  • base information such as brightness images and labels are generated to analyze characteristics of text and visual data on general education materials.
  • a case such as a brightness image may be generated by performing a gray scale process on all pixels of the scanned general education material.
  • labels for characterizing text and visual data can be generated through labeling after binarization of brightness images.
  • the binarization process reconstructs the brightness image into only black pixels (pixel value: 0) and white pixels (pixel value: 255), and the labeling process checks the connection state between adjacent black pixels and connects the connected pixels to one object. Can be judged.
  • the text is classified into entities of at least units of characters (minimum units of the characters), and the visual material is classified into one or more entities according to the presence or absence of a white pixel.
  • the brightness image and label generated in this step are used as input data for the image region extraction process and the character extraction process in the image.
  • the characteristics of brightness between the text and the visual data are analyzed, and the input general education data is classified into the text region and the image region by using the label region calculated through the preceding process.
  • FIG. 5 (a) to (d) is a reference diagram for explaining the operation of separating the image area and the text area in the general education material
  • (a) is an illustration of the general education material
  • (b) Is the brightness image for (a)
  • (c) is the result of extracting the pixel information of a specific row in the image of (b) and converting the brightness value of the pixel for each column of that row into a histogram
  • (d) Shows the result of converting the difference in the amount of change of the brightness value of (c) into a histogram.
  • the pixels constituting the text appear to intersect with brightness values close to zero (black pixels, black with printed text) and brightness values close to 255 (white pixels, margins). In the constituent pixels, the brightness value is continuously changed.
  • the change amount G for the neighboring pixel is calculated using Equation 1 using the characteristics of the change amount of the brightness value of the character and visual data, and then the change amount GD image is reconstructed using only the change amount.
  • White pixels are clustered in the region where the characters in the GD image are generated, resulting in high brightness variation between the pixels, and close to black pixels because there is almost no change in brightness between pixels in the margins between the characters and in areas other than the print area. The result is displayed. In the case of visual data, the image appears like a grayscale image with a lowered overall brightness and a higher contrast.
  • the boundary between characters in a paragraph or paragraph is removed to determine a candidate group of expected character regions in the generated GD image.
  • the width of the average character is calculated using the label generated in the preceding step under the same condition as in Equation 2, and the maximum change amount difference image is applied by applying Equation 3 to the GD image based on the calculated width.
  • Equation 2 In general, most of the labels generated from general education materials are for letters, and labels for visual materials are relatively large in size compared to letters, while having a very low frequency. Therefore, by using Equation 2, after excluding the label for visual data as an outlier, the average width LW average of the label of the text can be calculated, and the calculated LW average is substituted into Equation 3. As a result, the MGD image can be generated.
  • the width of the sum of the two characters is obtained by calculating the width of the white pixel connected by each row. Remove white pixels smaller than ( 2LW average ). This is mainly to remove the noise of the scanning process and the image area of the data while using the characteristic that the characters do not exist alone.
  • a morphology operation of dilate and erosion is performed to merge the text areas interspersed with the phoneme and spacing in the MGD image that determines the candidate group of the expected text areas.
  • the filter size of the morphology operation is set equal to the LW average of Equation 2, and the character area can be clearly determined through the result of the morphology operation. Therefore, it is checked whether it is included in the character area determined for the labels of the data calculated in the input process of general education materials, and if it is included, it is determined as the label for the character and, if not included, the label for the image area. do. Through this, the text and visual data in general education materials can be classified into text area and video area, respectively.
  • the character extraction step (a3) in the image region it is determined whether there is a character in the image region determined in the image region extraction process, and when there is a character, the character region is extracted.
  • This process is performed by limiting the search range to the image area only under the same environment as the image area extraction process (average width of the character, filter of morphology calculation, etc.), and as a result, the character area in the image can be extracted.
  • the complex image tactile unit 120 classifies the extracted image region into a low complexity image and a high complexity image to determine whether the main object is included, and processes the image according to each complexity to convert the image into complexity information.
  • the information tactile step (b100) is performed.
  • image areas are analyzed and low complexity images (charts and graphs) and high complexity images (artwork, cartoons, maps) are analyzed according to the complexity.
  • image classification step (b1) determining whether or not the high complexity image includes a main object, and determining whether or not the central object of the high complexity image extracts the main object (b2), and to assist the visually impaired.
  • Noise reduction and simplification (b3) of the high complexity image, which lowers the complexity of the image, is performed sequentially.
  • the cumulative histogram of the brightness of the image region is analyzed to classify the low complexity image and the high complexity image.
  • FIG. 6 are reference diagrams illustrating cumulative histograms of brightness of a low complexity image and a high complexity image, respectively. It consists of brightness, so the cumulative value of that brightness appears only in certain intervals.
  • a high complexity image such as (b) is composed of various brightnesses, and the cumulative values of the brightnesses appear in successive sections. Therefore, the image is classified by calculating the frequency of the section in which the brightness value appears based on these characteristics. In this case, even in the case of a low complexity image, there are fine brightness values, so that the brightness value appears in the continuous section like the high complexity image. Can be. Therefore, the cumulative value of the average brightness is calculated through the conditional expressions 1 and 2, and the difference is calculated from each brightness value, thereby eliminating the phenomenon in which the brightness value in the low complexity image appears in the continuous section.
  • Equation 5 the rate of change for the remaining section of the brightness value is examined as shown in Equation 5 and classified into a low complexity image and a high complexity image.
  • step (b2) of determining the presence or absence of the central object of the high complexity image the color similarity of the pixels constituting the high complexity image is measured, and similar colors are converted into representative colors through quantization.
  • the distribution of the color corresponding to the central object area in the image changed to the representative color, to determine the presence or absence of the central object and to extract the contour when the central object exists.
  • a quantization level is determined by using PGF (Peer Group Filtering) to perform quantization of the high complexity image converting similar colors into representative colors.
  • PGF Pulle Group Filtering
  • the color having the highest frequency in the central region of the image defined in Equation 6 is the representative color of the central object, and the vertical direction and the horizontal direction therefor.
  • the degree of distribution in the image is calculated by calculating the variance of.
  • the color representative of the central object is widely distributed horizontally or the distribution is low, it is determined as an image without the central object. This is because it is a feature that appears in background images such as a forest or the sea. In other cases, it is determined that there is a central object, and this operation can be performed through the conditional expression 3.
  • step (b2) of determining the presence or absence of the central object of the high complexity image representative colors of the background region are extracted from the quantized high complexity image, and the extracted colors are removed from the entire image.
  • the background area of the image is defined as a section about four corners of the image as shown in Equation (7).
  • labels can be found with the representative colors of the central object, and the noise is removed by checking whether the positions of the respective labels are included in the central area.
  • the central object remains in the high complexity image, and by detecting the contour, the central object of the image to be converted into tactile information can be extracted.
  • step (b3) of the high complexity image binarization and labeling are first performed to convert the high complexity image into tactile information suitable for the resolution of the haptic display to calculate the size of the label for the contour lines constituting the image. .
  • the ratio of the width and the height by comparing the resolution of the image and the resolution of the haptic display through Equation 8, when each label is reduced to the resolution of the haptic display, the label is converted to the haptic display resolution.
  • the pixel size S i of the haptic display is reduced to 1 cell or less, it is determined that the image information of the label is of low importance and is classified as noise and removed.
  • the corner points of the contour lines are detected in order to reduce the complexity of the contour lines, and a connection line is generated using the detected corner points.
  • the setting value for the critical angle 150 degrees is the optimum experimental value measured by performing experiments on various images having a high complexity of the contour.
  • the image / text area extraction unit 110 extracts the text area and the image area for each information to convert the text information and visual information mixed in the general education data input through the education material input unit 10 into tactile information.
  • the image and text area extraction step (a) is performed in the general education material.
  • the image and text area extraction step (a) in the general education material is performed.
  • the character extraction step (a3) in the image area are sequentially executed.
  • the character recognition and dot gamut unit 130 may apply optical character recognition (OCR) to the extracted character region (character region other than the image region and the character region within the image region) to be recognized by the computer.
  • OCR optical character recognition
  • the character recognition and the braille conversion step (c100) can be performed, so that it can be expressed through the tactile information display unit 20, and the character recognition and In the braille conversion step c100, a character recognition step c1 outside the image area, a character recognition step c2 in the image area, and a braille expression step c3 of the recognized character are sequentially performed.
  • optical character recognition is performed on a character area such as a paragraph or a paragraph except for visual data in general education materials, and the computer recognizes the character information that can be recognized by the computer from the image information of the character area.
  • step (c2) in the image area optical character recognition is performed on the characters included in the visual material in the general education material as above, to generate character information that can be recognized by the computer from the character area in the image area. do.
  • the visually impaired person can use the character information generated by the optical character recognition in the character area other than the image area and the character area in the image area according to the Korean Braille Regulation and the English Braille Regulation. They convert the information into braille information that they can recognize, and link words, abbreviations, basic arithmetic symbols, and general symbols used by the blind.
  • braille expresses characters in units of characters, so that their length becomes longer than characters. Therefore, in this braille expression step (c3), in order to express the braille information from the character information outside the image area to the haptic display, the braille information is calculated by performing a line break according to the width of the haptic display resolution and outputting the braille information. do.
  • step (c3) the Braille information, which is occupied by the character information in the image area, is placed in the image area, and then it is checked whether it overlaps with the surrounding image information.
  • the index is disposed in the image area, and the braille information is output together with the index outside the image area.
  • FIGS. 7 to 9 are reference diagrams for explaining the image region and the character extraction step in the general education material, haptic display based visual information display method for the visually impaired according to the present invention by applying the tactile information to the general education material
  • the experimental results of the conversion are illustrated.
  • the performance of image and text area extraction step (a), tactile image information tactile step (b), and character recognition and braille conversion step (c) in each general education data consisted of three steps.
  • three types of general education materials including text, visual data (graphs, maps, photographs) and texts in the visual data were mixed.
  • (b) to (e) of each figure sequentially illustrate steps (see Equation 1 to Equation 4) for classifying the image area and the text area of the inputted educational material, and (f) is classified.
  • steps for classifying the image area and the text area of the inputted educational material, and (f) is classified.
  • the blue label and the green label in the image represent text regions other than the image region and the text region included in the image region, respectively, and the red label represents the image region for visual data.
  • the accuracy ( p ) and reproducibility (r) of the classification of the text area and the image area may be calculated through the following equation (9) based on the extracted text.
  • NDT Number of Detected Texts
  • TNCT Total Number of Correct Texts
  • TNT Total Number of Texts
  • FIG. 10 is a reference diagram for explaining a tactile step of an image for each complexity
  • FIG. 11 is a reference diagram for explaining a noise removal and simplification step of a high complexity image.
  • a) illustrates brightness images for graphs, maps, and photographs, respectively
  • (b) illustrates a cumulative histogram of brightness values. Histograms such as (c) can be generated by removing the average cumulative value of brightness by applying conditional expressions 1 and 2, and the rate of change for the remaining intervals of brightness value is 82.5%, 58.4%, and 0.4%, respectively. appear.
  • the graph may be classified into a low complexity image
  • the map and a photo may be classified into a high complexity image.
  • FIG. 12 is a reference diagram illustrating a character recognition step excluding an image area in a character recognition and extraction step
  • FIG. 13 is an example to explain a character recognition and indexing step in an image area in a character recognition and extraction step.
  • FIGS. 12 and 13 illustrate the results of extracting information that can be recognized by the computer by applying optical character recognition to the extracted character areas, and converting the information into braille information that can be recognized by the visually impaired. have.
  • the braille information does not overlap with the image information, the braille in the image is represented. And braille information is generated separately.
  • FIG. 14 illustrates the final result of converting general education materials including tactile information into graphs, maps, and photographs.
  • This arrangement of tactile information prioritizes visual data, and if there are characters and indexes in the visual data, related information is then output.
  • the result of the contents of the main text is outputted, and a blue line in the result image is a boundary line representing a page according to the resolution of the haptic display.
  • the main information in the general education material through the image area and the text area extraction step (a100), the complex information image tactile step (b100), and the character recognition and braille conversion step (c100) of the present invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명은 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시시스템 및 방법에 관한 것으로, 문자와 함께 시각자료가 포함된 교육자료를 촉각정보로 변환하여 제공하기 위한 것이다. 이를 위하여 본 발명은 일반 교육자료 내에 혼합되어 있는 각 정보에 대한 문자영역 및 영상영역을 추출하는 일반교육 자료 내 영상영역 및 문자영역 추출단계, 추출한 영상영역을 분석하여 저 복잡도 영상과 고 복잡도 영상을 구분하고 각 영상을 복잡도에 따라 처리하여 촉각정보로 변환하는 복잡도별 영상정보 촉각화단계, 및 촉각화한 문자영역 내의 문자정보 및 영상영역 내의 문자정보를 각각 인식하여 점자정보로 변환하는 문자인식 및 점자 변환단계를 포함하는, 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시방법 및 그 시스템을 제공하여, 시각장애인들에게 다양한 형태의 특수 교육자료 활용기회를 부여할 수 있게 하고, 촉도 생성에 요구되는 많은 자원의 절감 효과를 얻을 수 있게 한다.

Description

시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시시스템 및 방법
본 발명은 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시시스템 및 방법에 관한 것으로, 보다 상세하게는 멀티미디어장치를 통해 표시되는 일반 교육자료 내의 시각정보를 촉각정보로 변환하여 표시할 수 있도록 함으로써 멀티미디어장치를 통해 제공되는 교육자료를 시각장애인들이 현실적으로 수용할 수 있도록 하는 시각장애인을 위한 햅틱 디스플레이 기반의 촉각정보 변환 및 표현기술에 관한 것이다.
최근 컴퓨터, 이동통신 단말기, PDA, PMP 등의 각종 전자 및 휴대 장치의 보급으로 인해 디지털 멀티미디어정보의 접근이 일상화되고 있는데, 이들 통상적인 장치들은 신체적인 어려움을 수반하지 않은 비장애인을 기준으로 설계되기 때문에, 이들 멀티미디어 정보에 대한 장애인들의 접근이 어려웠다.
이에 따라, 시각 장애인들에게 촉각정보를 제공할 수 있는 다양한 점자 출력 장치 또는 햅틱 기술을 적용하여 촉각정보를 제공하는 출력장치 등이 상용화되고 있다.
한편, 현재의 일반 교육자료에는 사진, 삽화, 만화, 도표 및 그래프 등과 같이 점자로 나타낼 수 없는 시각정보들이 상당량 포함되어 있다. 일반 교과서의 내용도 시각자료의 사용을 전제로 하는 경우가 많고, 시각정보를 추가적으로 제시함으로서 본문 내용을 보다 완벽히 이해할 수 있도록 도움을 준다. 그러나 특수 교육 자료에서는 이러한 시각정보들은 점자로 변환될 수 없어 대부분이 삭제되며, 반면에 촉각정보로 변환하는데 있어서도 인력 및 시간 등의 많은 자원이 요구되고 있어, 그 양이 극히 제한적이다.
또한 최근에는 교육, 취업, 이직 또는 자격증 취득 등을 위한 사교육에 대한 사람들의 관심이 높아지게 되면서, 입시 학원, 보습 학원, 자격증 학원 및 영어 학원 등의 사설 학원에 등록하고, 진학 및 자격증 취득에 대해 사설 학원에서 어학을 학습하는 학습자들이 증가하고 있는 실정이나, 시각장애인의 경우 의사 소통 및 보행의 어려움으로 인해 자격증 및 어학 등의 교육을 받고 싶어도 받기 어려운 실정이다.
따라서, 시각 장애인에게도 촉각정보를 이용하여 멀티미디어 자료를 이용한 교육 정보를 제공할 수 있게 하는 기술의 개발이 요구되는 실정이다.
본 발명이 해결하고자 하는 기술적 과제는, 문자와 함께 시각자료가 포함된 교육자료를 촉각정보로 변환하여 일반 교육자료와 유사한 수준의 특수 교육자료로 제공할 수 있도록 함으로써, 시각장애인으로 하여금 일반 교육자료와 유사한 수준의 특수 교육자료 활용기회를 부여할 수 있는 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시시스템 및 방법을 제공하고자 하는 것이다.
상기 목적을 달성하기 위한 본 발명의 실시 형태는, 일반 교육자료 내에 혼합되어 있는 각 정보에 대한 문자영역 및 영상영역을 추출하는 일반교육 자료 내 영상영역 및 문자영역 추출단계, 추출한 영상영역을 분석하여 저 복잡도 영상과 고 복잡도 영상을 구분하고 각 영상을 복잡도에 따라 처리하여 촉각정보로 변환하는 복잡도별 영상정보 촉각화단계, 및 촉각화한 문자영역 내의 문자정보 및 영상영역 내의 문자정보를 각각 인식하여 점자정보로 변환하는 문자인식 및 점자 변환단계를 포함하는, 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시방법이다.
*상기 본 발명에 의한 시각정보 표시방법에서, 일반교육 자료 내 영상영역 및 문자영역 추출단계는, 일반 교육자료 내의 각 정보를 영상영역 이외의 문자영역, 영상영역 내의 문자영역, 및 영상영역으로 분류하는 것을 특징으로 한다.
상기 본 발명에 의한 시각정보 표시방법에서, 일반교육 자료 내 영상영역 및 문자영역 추출단계는, 일반 교육자료에 대한 문자와 시각자료의 특성 분석을 위한 밝기(brightness) 영상 및 라벨(label)에 대한 기반 정보를 생성하는 일반교육 자료 입력단계, 생성된 밝기 영상 내에서 나타나는 문자와 시각자료의 특징을 기반으로 문자영역과 영상영역을 각각 분류하여 영상영역을 추출하는 영상영역 추출단계, 및 분류한 영상영역 내에서 문자영역을 검출하는 영상영역 내 문자 추출단계를 포함하여 이루어진다.
상기 본 발명에 의한 시각정보 표시방법에서, 일반교육 자료 입력단계는, 스캔한 일반 교육자료의 모든 픽셀에 대해 그레이 스케일(gray scale) 처리를 수행하여 밝기 영상에 대한 기반정보를 생성하는 단계, 생성된 밝기 영상에 대한 기반정보의 이진화 및 라벨링 처리를 통해 라벨에 대한 기반정보를 생성하는 단계;를 포함하여 이루어진다.
상기 본 발명에 의한 시각정보 표시방법에서, 라벨에 대한 기반정보 생성단계는, 생성된 밝기 영상을 흑화소와 백화소만으로 재구성하는 이진화 처리단계, 이진화 처리된 밝기 영상의 인접한 흑화소 간의 연결 상태를 검사하여 서로 연결된 픽셀들을 하나의 개체로 판단하여 적어도 자소(문자를 구성하는 최소 단위) 단위 이상의 개체들로 분류되는 문자와, 백화소의 유무에 따라 하나 혹은 그 이상의 개체로 분류되는 시각자료를 구분하는 라벨링 처리단계를 포함하여 이루어진다.
상기 본 발명에 의한 시각정보 표시방법에서, 영상영역 추출단계는, 입력된 일반교육 자료에 대한 밝기 영상 내에서 문자와 시각자료의 이웃한 픽셀 간의 밝기 값에 대한 변화량(G)을 수학식 1을 통해 산출하는 단계, 산출된 문자와 시각자료의 이웃한 픽셀 간의 밝기 값에 대한 변화량(G)만으로 변화량 차이(GD, Gradient Difference) 영상을 생성하는 단계, 생성된 GD 영상 내에서 예상되는 문자 영역의 후보군을 결정하기 위해, 시각자료에 대한 라벨을 이상치(Outlier)로 제외시킨 상태에서 문자의 라벨에 대한 평균 너비(LW average )를 수학식 2를 통해 산출하는 단계, 산출된 문자의 라벨에 대한 평균 너비(LW average )를 기준으로 GD 영상에 대해 수학식 3을 적용하여 최대 변화량 차이(MGD, Maximum Griadient Difference) 영상을 재구성하는 단계, 재구성한 MGD 영상에 대해 수학식 4를 통해 경계값(Tb)을 결정하여 이진화를 수행하고 각 행별로 연결된 백화소의 너비를 구하여 2개의 문자를 합한 너비(2LW average )보다 작은 너비의 백화소를 제거하여 MGD 영상 내 예상되는 문자영역의 후보군을 결정하는 단계, 예상되는 문자영역의 후보군을 결정한 MGD 영상에 대해 팽창(dilate)과 침식(erode)의 모폴로지(morphology) 연산을 수행하여 MGD 영상 내에서 자소 및 띄어쓰기에 의해 산재되어 있는 문자영역을 병합하는 단계, 및 일반교육 자료의 입력단계에서 산출한 자료의 라벨들에 대해, 후보군의 문자영역 내에 포함되는지의 여부를 검사하여 일반교육 자료 내 문자와 시각자료를 각각 문자영역과 영상영역으로 분류하는 단계를 포함하여 이루어지며,
수학식 1
Figure PCTKR2012011490-appb-I000001
수학식 2
Figure PCTKR2012011490-appb-I000002
수학식 3
Figure PCTKR2012011490-appb-I000003
수학식 4
Figure PCTKR2012011490-appb-I000004
상기 수학식 1 내지 4에서, x, y는 픽셀의 열과 행의 위치, w, h는 영상의 너비와 높이, B(x, y)는 해당 픽셀 위치의 밝기 값, G(x, y)는 이웃한 픽셀에 대한 변화량, Q 1 Q 3 는 라벨의 너비에 대한 1사분위 수와 3사분위 수, LW와 NL은 각각 라벨의 너비와 라벨의 총 개수, T b 는 이진화를 수행할 경계값인 것을 특징으로 한다.
상기 본 발명에 의한 시각정보 표시방법에서, 문자영역과 영상영역 분류단계는 일반교육 자료의 입력단계에서 산출한 자료의 라벨이 후보군의 문자영역 내에 포함되어 있으면 문자에 대한 라벨로 결정하고, 후보군에 포함되어 있지 않으면 영상영역에 대한 라벨로 결정하여, 일반교육 자료 내 문자와 시각자료를 각각 문자영역과 영상영역으로 분류하는 것을 특징으로 한다.
상기 본 발명에 의한 시각정보 표시방법에서, 영상영역 내 문자 추출단계는, 영상영역 추출단계에서 결정한 영상영역 내에 문자의 유/무를 판단하여, 문자가 있을 시에는 이를 문자영역으로 추출하되, 영상영역 추출단계와 동일한 환경(문자의 라벨에 대한 평균너비, 모폴로지 연산의 필터) 하에서 그 탐색 범위를 영상영역만으로 제한하여 수행하며, 그 결과 영상영역 내 문자영역을 추출하는 것을 특징으로 한다.
상기 본 발명에 의한 시각정보 표시방법에서, 복잡도별 영상정보 촉각화단계는, 산출된 영상영역의 밝기에 대한 누적 히스토그램을 분석하여 복잡도에 따라 영상을 저 복잡도 영상과 고 복잡도 영상으로 분류하는 영상 분류단계, 분류된 고 복잡도 영상이 주요 객체를 포함하는지의 여부를 판단하여 주요객체를 추출하는 고 복잡도 영상의 중심객체 유무 판별 및 추출단계, 및 시각장애인의 인지를 돕기 위해 영상의 복잡도를 낮춰 단순화하는 고 복잡도 영상의 잡음제거 및 단순화단계를 포함하여 이루어진다.
상기 본 발명에 의한 시각정보 표시방법에서, 영상 분류단계는, 영상에 대한 밝기의 평균누적값을 조건적 연산식 1을 통해 산출하는 단계, 산출된 밝기의 평균누적값을 조건적 연산식 2를 통해 각각의 밝기 누적값에서 차분하여 저 복잡도 영상 내 밝기의 누적값이 연속된 구간에서 나타나는 현상을 제거하는 단계를 포함하여 이루어지며, 상기 조건적 연산식 1은, for(i=0, cnt=0, sum=0; i<256; i++){if((Q 1 -1.5(Q 3 -Q 1 ) <= NH i <= (Q 3 +1.5(Q 3 -Q 1 )) then cnt++, sum+= NH i ;} NH average = sum / cnt;이며, 상기 조건적 연산식 2는, for(i=0; i<256; i++) NH i -= NH average ;이고, 각 연산식에서 NH i 는 해당 밝기에 대한 누적값, NH average 는 영상에 대한 밝기의 평균 누적값, Q 1 Q 3 는 각각 밝기의 누적 값에 대한 1사분위수와 3사분위수인 것을 특징으로 한다.
상기 본 발명에 의한 시각정보 표시방법에서, 영상 분류단계는, 밝기의 평균누적값을 제거하기 이전과 제거한 후에 영상의 밝기 누적값의 잔여 구간에 대한 변화율(D NH )을 수학식 5를 통해 검사하여 그 검사 결과에 따라 저 복잡도 영상과 고 복잡도 영상을 분류하는 단계를 더 포함하여 이루어지며,
수학식 5
Figure PCTKR2012011490-appb-I000005
상기 수학식 5에서, 고 복잡도 및 저 복잡도 영상을 분류하는 변화율(D NH )에 대한 임계값(D th )은 도형, 그래프, 삽화, 지도 및 사진 등과 같이 일반교육 자료 내에서 빈번하게 나타나는 영상들에 대해 도출되는 최적 실험치, cnt before cnt after 는 누적 값을 제거하기 이전과 이후의 밝기의 잔여구간, I 는 영상영역인 것을 특징으로 한다.
*상기 본 발명에 의한 시각정보 표시방법에서, 고 복잡도 영상의 중심 객체 유무 판별 및 추출단계는, 고 복잡도 영상을 구성하는 픽셀의 색상 유사도를 측정하고, 양자화(quantization)를 통해 유사한 색상들을 대표색상으로 변환하는 단계, 대표색상으로 변환된 영상 내에서 중심객체 영역에 해당되는 색상의 분포도를 측정하여 중심객체의 유무를 판별하는 단계, 및 판별 결과 중심객체가 존재할 경우 그 중심객체에 대한 윤곽선을 추출하는 단계를 포함하여 이루어진다.
상기 본 발명에 의한 시각정보 표시방법에서, 유사한 색상들을 대표색상으로 변환하는 단계는, PGF(Peer Group Filtering)기법을 이용하여 양자화 레벨을 결정하는 단계, 결정된 레벨에 따른 양자화를 통해 유사한 색상들을 대표색상으로 변환시켜 고 복잡도 영상의 색상에 대한 복잡도를 감소시키는 단계를 포함하여 이루어진다.
상기 본 발명에 의한 시각정보 표시방법에서, 중심객체의 유무를 판별하는 단계는, 수학식 6에 정의한 영상의 중심영역에서 빈도수가 가장 많은 색상을 중심객체의 대표색상이라 가정한 상태에서 이에 대한 세로 방향 및 가로 방향에 대한 분산을 계산하여 영상 내 분포도를 산출하는 단계, 산출된 분포도에 따라 중심객체의 유무를 판별하는 단계를 포함하여 이루어지며,
수학식 6
Figure PCTKR2012011490-appb-I000006
상기 수학식 6에서, w, h는 각각 고 복잡도 영상의 너비와 높이, AreaX obj AreaY obj 는 각각 중심영역의 x축과 y축의 범위인 것을 특징으로 한다.
상기 본 발명에 의한 시각정보 표시방법에서, 중심객체 유무 판별단계는, 조건적 연산식 3을 통해 중심객체를 대표하는 색상이 수평적으로 넓게 분포되어 있거나 분포도가 낮은 경우를 중심객체가 없는 영상으로 판단하고, 그 밖의 경우에는 중심객체가 있는 것으로 판단하는 것을 특징으로 하며,
조건적 연산식 3
s max =max(s verticality , s horizontality )
if(((s max == s horizontality )&&(s max >T 1 ))||(s max <T 2 ))
then I is a non-object image
otherwise I is an object image
(T 1 = 0.06, T 2 = 0.01)
상기 조건적 연산식 3에서, s verticality s horizontality 는 고 복잡도 영상(I) 내 중심객체의 대표색상에 대한 최대 수직 및 최대 수평 분산, s max s verticality s horizontality 중 큰 값을 갖는 최대 분산, 최대 분산과 비교하는 임계값 T 1 T 2 는 상수로서 다양한 고 복잡도 영상에 대해 반복적인 실험을 통해 산출되는 최적 실험치인 것을 특징으로 한다.
상기 본 발명에 의한 시각정보 표시방법에서, 중심객체의 윤곽선 추출단계는, 양자화된 고 복잡도 영상에서 수학식 7을 통해 정의된 영상의 네 모서리 구간에 대한 배경영역의 대표색상들을 추출하고 그 추출된 색상들을 영상 전체에서 제거하여 영상 내에 중심객체에 대한 정보만을 남기는 단계, 고 복잡도 영상에 대해 이진화 및 라벨링을 수행하여 중심영역 이외에서 나타나는 색상정보들을 제거함과 아울러 중심객체의 대표색상에 대한 라벨들을 생성하는 단계, 및 생성된 각각의 라벨들에 대한 위치가 중심영역에 포함되는지를 검사하여 잡음을 제거하고 고 복잡도 영상 내에 남겨진 중심 객체의 윤곽선을 검출하여 촉각정보로 변환할 영상의 중심객체를 추출하는 단계를 포함하여 이루어지며,
수학식 7
Figure PCTKR2012011490-appb-I000007
상기 수학식 7에서, AreaX n AreaY n 은 각각 영상의 네 모서리에 대한 배경영역, wh는 고 복잡도 영상의 너비와 높이인 것을 특징으로 한다.
상기 본 발명에 의한 시각정보 표시방법에서, 고 복잡도 영상의 잡음제거 및 단순화단계는, 고 복잡도 영상에 대해 이진화 및 라벨링 처리를 수행하여 영상을 구성하는 윤곽선들에 대한 라벨의 크기를 산출하는 단계, 영상의 해상도와 햅틱디스플레이의 해상도를 비교하여 너비와 높이의 비율을 산출한 후 각각의 라벨을 수학식 8을 통해 햅틱디스플레이의 해상도에 맞춰 축소하였을 경우, 픽셀의 크기가 햅틱디스플레이의 1셀 이하로 축소되는 라벨이 가진 영상정보를 중요도가 낮은 잡음으로 분류하여 제거하는 단계를 포함하여 이루어지며,
수학식 8
Figure PCTKR2012011490-appb-I000008
상기 수학식 8에서, H width H height 는 햅틱디스플레이의 너비와 높이, I width I height 는 영상의 너비 및 높이, T w T h 는 햅틱디스플레이로 축소하기 위한 영상의 너비 및 높이에 대한 축소 비율, LW, LHn은 해당 라벨의 너비와 높이 및 총 개수, S는 라벨을 햅틱디스플레이 해상도로 변환하였을 때의 픽셀의 크기인 것을 특징으로 한다.
상기 본 발명에 의한 시각정보 표시방법에서, 고 복잡도 영상의 잡음제거 및 단순화단계는, 검출된 윤곽선들의 복잡도를 낮추기 위해 윤곽선들의 코너점을 검출하고 그 코너점을 이용하여 연결선을 생성하는 단계, 연결선들 간의 교차각을 검사하여 그 교차각이 임계각 이상일 경우 그 연결선이 공유하는 코너점을 제거하고 남은 두 점으로 새로운 연결선을 생성하여 영상의 윤곽선에 대한 복잡도를 낮추는 단계를 더 포함하여 이루어지며, 상기 임계각은 윤곽선의 복잡도가 높은 다양한 영상에 대해 실험을 수행하여 측정된 최적 실험치인 것을 특징으로 한다.
상기 본 발명에 의한 시각정보 표시방법에서, 문자인식 및 점자 변환단계는, 추출한 문자영역에 대해 광학문자인식(OCR, Optional Character Recognition)을 적용하여 컴퓨터가 인식할 수 있는 정보로 변환한 후 이를 시각장애인이 인지할 수 있는 점자형태로 변환하는 것을 특징으로 한다.
상기 본 발명에 의한 시각정보 표시방법에서, 문자인식 및 점자 변환단계는, 일반교육 자료 내 시각자료를 제외한 문단이나 단락의 문자영역에 광학문자인식을 수행하여 문자영역에 대한 영상정보로부터 컴퓨터가 인식할 수 있는 문자정보를 생성하는 영상영역 외의 문자 인식단계, 일반교육 자료 내 시각자료 내에 포함되는 문자들에 대해 광학문자인식을 수행하여 영상영역 내의 문자영역으로부터 컴퓨터가 인식할 수 있는 문자정보를 생성하는 영상영역 내의 문자 인식단계, 및 생성된 영상영역 외의 문자정보 및 영상영역 내의 문자정보를 점자 표현 알고리즘을 통해 시각장애인들이 인지할 수 있는 점자정보로 점역하여 표시하는 인식된 문자의 점자 표현단계를 포함하여 이루어진다.
상기 본 발명에 의한 시각정보 표시방법에서, 인식된 문자의 점자 표현단계는, 영상영역 외의 문자정보로부터 점역된 점자정보를 햅틱디스플레이에 표현하기 위해, 점자의 길이를 계산하여 햅틱디스플레이 해상도의 너비에 맞추어 줄 바꿈을 수행하는 단계를 포함하여 이루어질 수 있다.
상기 본 발명에 의한 시각정보 표시방법에서, 인식된 문자의 점자 표현단계는, 영상영역 내의 문자정보로부터 점역된 점자정보를 영상영역 내에 배치한 후 주변의 영상정보와 중첩되는지를 검사하여, 중첩될 경우에는 그 점자정보에 대응하는 인덱스를 영상영역 내에 배치하고 영상영역의 외부에 해당 인덱스와 함께 점자정보를 출력하는 단계를 포함하여 이루어질 수 있다.
상기 본 발명에 의한 시각정보 표시방법에서, 인식된 문자의 점자 표현단계는, 한국어점자규정’ 및 ‘영어점자규정’ 을 따라 점역이 이루어지며, 연결어, 약어, 기본적인 산술 연산기호, 및 일반기호에 대한 점역을 포함하는 것을 특징으로 한다.
본 발명에 의하면, 문자와 함께 시각자료가 포함된 교육자료를 촉각정보로 변환하여 일반 교육자료와 유사한 수준의 특수 교육자료를 제공할 수 있게 되므로, 시각장애인들에게 다양한 형태의 특수 교육자료 활용기회를 부여할 수 있는 이점이 있으며, 아울러 기존의 촉도를 생성하는데 요구되는 많은 자원을 절감함과 함께 시각장애인에게도 많은 자료를 손쉽게 생성하여 제공할 수 있게 되는 이점이 있다.
도 1은 본 발명에 따른 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시시스템의 전체적인 구성을 개략적으로 예시한 블록도이다.
도 2는 본 발명에 따른 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시방법의 전체적인 처리과정을 예시한 개략적인 동작 흐름도이다.
도 3은 도 2의 영상영역 추출단계에 대한 상세 흐름도이다.
도 4a와 도 4b는 도 2의 고 복잡도 영상에 대한 중심객체 유무 판별 및 추출단계 및 잡음 제거 및 단순화단계에 대한 상세 흐름도이다.
도 5의 (a) 내지 (d)는 일반 교육 자료 내 영상영역 및 문자영역을 분리하는 동작을 설명하기 위하여 예시한 참고도로서, (a)는 일반 교육자료의 한 예시도이고, (b)는 (a)에 대한 밝기 영상이며, (c)는 (b)의 영상 내에서 특정 행의 픽셀 정보를 추출하여 그 행의 각 열에 대한 픽셀의 밝기 값을 히스토그램으로 변환한 결과이며, (d)는 (c)의 밝기 값에 대한 변화량의 차이를 히스토그램으로 변환한 결과이다.
도 6의 (a)와 (b)는 저 복잡도 영상과 고 복잡도 영상의 밝기에 대한 누적 히스토그램을 각각 예시하는 참고도이다.
도 7 내지 도 9는 본 발명에 의한 일반 교육자료 내 영상영역 및 문자 추출단계를 설명하기 위하여 예시한 참고도이다.
도 10은 본 발명에 의한 복잡도별 영상의 촉각화 단계를 설명하기 위하여 예시한 참고도이다.
도 11은 본 발명에 의한 고 복잡도 영상의 잡음 제거 및 단순화 단계를 설명하기 위하여 예시한 참고도이다.
도 12는 본 발명에 의한 문자 인식 및 추출단계에서 영상영역을 제외한 문자 인식 단계를 설명하기 위하여 예시한 참고도이다.
도 13은 본 발명에 의한 문자 인식 및 추출단계에서 영상영역 내 문자 인식 및 인덱싱 단계를 설명하기 위하여 예시한 참고도이다.
도 14는 본 발명을 통해 일반 교육자료를 촉각정보로 변환한 최종 결과를 예시한 참고도이다.
이하, 본 발명의 실시 형태에 의한 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시시스템의 구성 및 그 방법에 대한 동작 흐름을 첨부 도면을 참조하여 상세히 설명한다.
본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정 해석되지 아니하며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서, 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
도 1은 본 발명에 따른 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시시스템의 전체적인 구성을 개략적으로 예시한 블록도로서, 본 발명의 촉각정보 변환시스템(100)은, 일반 교육자료 내에 혼합되어 있는 각 정보에 대한 문자영역 및 영상영역을 추출하는 영상/문자영역 추출부(110), 추출한 영상영역을 분석하여 저 복잡도 영상과 고 복잡도 영상을 구분하여 촉각정보로 변환하는 복잡도별 영상 촉각화부(120), 및 추출한 문자영역 내의 문자정보 및 상기 영상영역 내의 문자정보를 분석하여, 시각장애인이 인지할 수 있는 점자정보로 변환하는 문자인식 및 점역부(130)를 포함하여 구성되며, 그 외에도 자료 입력을 위한 교육자료 입력부(10), 점역된 점자를 표현하는 촉각정보 표시부(20)를 더 포함하여 구성될 수 있다.
도 2는 본 발명에 따른 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시방법의 전체적인 처리과정을 예시한 개략적인 동작 흐름도이며, 도 3 및 도 4a와 도 4b는 도 2의 영상영역 추출단계(a2) 및 고 복잡도 영상에 대한 중심객체 유무 판별 및 추출단계(b2)와 잡음제거 및 단순화단계(b3)에 대한 각각의 상세 흐름도이다.
본 발명의 방법은 도 2에 예시된 바와 같이, 크게 일반교육 자료 내 영상영역 및 문자영역 추출단계(a100), 복잡도별 영상정보 촉각화단계(b100), 및 문자인식 및 점자 변환단계(c100)로 이루어진다.
일반교육 자료 내 영상영역 및 문자영역 추출단계(a100)에서는 일반 교육자료 내에 혼합되어 있는 각 정보에 대한 문자영역 및 영상영역을 각각 추출하는 단계로서, 일반 교육자료 내의 각 정보를 영상영역 이외의 문자영역, 영상영역 내의 문자영역, 및 영상영역으로 분류하며, 일반교육 자료 입력단계(a1), 영상영역 추출단계(a2), 및 영상영역 내 문자 추출단계(a3)로 이루어진다.
일반교육 자료 입력단계(a1)에서는 일반 교육자료에 대한 문자와 시각자료의 특성 분석을 위한 밝기(brightness) 영상 및 라벨(label)에 대한 기반 정보를 생성한다. 밝기 영상에 대한 기반정보는 스캔한 일반 교육자료의 모든 픽셀에 대해 그레이 스케일(gray scale) 처리를 수행하여 생성하고, 라벨에 대한 기반정보는 상기 생성된 밝기 영상에 대한 기반정보의 이진화 및 라벨링 처리를 통해 생성한다. 상기 라벨에 대한 기반정보 생성단계는 이진화 및 라벨링 처리를 통해 이루어지며, 이진화 처리를 통해 상기 생성된 밝기 영상을 흑화소(픽셀 값:0)와 백화소(픽셀 값:255)만으로 재구성하고, 라벨링 처리를 통해 상기 이진화 처리된 밝기 영상의 인접한 흑화소 간의 연결 상태를 검사하고 서로 연결된 픽셀들을 하나의 개체로 판단하여, 적어도 자소(문자를 구성하는 최소 단위) 단위 이상의 개체들로 분류되는 문자와, 백화소의 유무에 따라 하나 혹은 그 이상의 개체로 분류되는 시각자료를 구분한다. 이 단계에서 생성된 밝기 영상과 라벨은 영상영역 추출 과정과 영상 내 문자 추출 과정의 입력데이터로 활용된다.
영상영역 추출단계(a2)에서는 상기 생성된 밝기 영상 내에서 나타나는 문자와 시각자료의 특징을 기반으로 문자영역과 영상영역을 각각 분류하여 영상영역을 추출한다. 이 영상영역 추출단계(a2)는 도 3의 동작 흐름도에 예시된 바와 같이, 밝기 값에 대한 변화량(G) 산출단계(a21), 변화량 차이(GD) 영상 생성단계(a22), 문자의 라벨에 대한 평균 너비(LW average ) 산출단계(a23), 최대 변화량 차이(MGD) 영상 재구성단계(a24), MGD 영상 내 예상되는 문자영역의 후보군 결정단계(a25), MGD 영상 내 산재된 문자영역 병합단계(a26), 및 문자영역과 영상영역 분류단계(a27)를 포함하여 이루어진다.
밝기 값에 대한 변화량(G) 산출단계(a21)에서는 입력된 일반교육 자료에 대한 밝기 영상 내에서 문자와 시각자료의 이웃한 픽셀 간의 밝기 값에 대한 변화량(G, Gradient)을 다음의 수학식 1을 통해 산출한다.
수학식 1
Figure PCTKR2012011490-appb-M000001
상기 수학식 1에서, x, y는 픽셀의 열과 행의 위치, w, h는 영상의 너비와 높이, B(x, y)는 해당 픽셀 위치의 밝기 값, G(x, y)는 이웃한 픽셀에 대한 변화량을 나타낸다.
변화량 차이(GD) 영상 생성단계(a22)에서는 상기 산출된 문자와 시각자료의 이웃한 픽셀 간의 밝기 값에 대한 변화량(G)만으로 변화량 차이(GD, Gradient Difference) 영상을 생성한다.
문자의 라벨에 대한 평균 너비(LW average ) 산출단계(a23)에서는 상기 생성된 GD 영상 내에서 예상되는 문자 영역의 후보군을 결정하기 위해, 상기 생성한 시각자료에 대한 라벨을 이상치(Outlier)로 제외시킨 상태에서, 문자의 라벨에 대한 평균 너비(LW average )를 다음의 수학식 2를 통해 산출한다.
수학식 2
Figure PCTKR2012011490-appb-M000002
상기 수학식 2에서, Q 1 Q 3 는 라벨의 너비에 대한 1사분위 수와 3사분위 수, LW와 NL은 각각 라벨의 너비와 라벨의 총 개수를 나타낸다.
최대 변화량 차이(MGD) 영상 재구성단계(a24)에서는 상기 산출된 문자의 라벨에 대한 평균 너비(LW average )를 기준으로 GD 영상에 대해 다음의 수학식 3을 적용하여 최대 변화량 차이(MGD, Maximum Griadient Difference) 영상을 재구성한다.
수학식 3
Figure PCTKR2012011490-appb-M000003
상기 수학식 3의 변수는 상기 수학식 1의 것과 동일하다.
MGD 영상 내 예상되는 문자영역의 후보군 결정단계(a25)에서는 상기 재구성한 MGD 영상에 대해 다음의 수학식 4를 통해 경계값(Tb)을 결정하여 이진화를 수행하고, 각 행별로 연결된 백화소의 너비를 구하여 2개의 문자를 합한 너비(2LW average )보다 작은 너비의 백화소를 제거하여 MGD 영상 내 예상되는 문자영역의 후보군을 결정한다.
수학식 4
Figure PCTKR2012011490-appb-M000004
상기 수학식 4의 변수는 수학식 1 및 수학식 2의 변수들과 동일하며, T b 는 이진화를 수행할 경계값을 나타낸다.
MGD 영상 내 산재된 문자영역 병합단계(a26)에서는 상기 예상되는 문자영역의 후보군을 결정한 MGD 영상에 대해 팽창(dilate)과 침식(erode)의 모폴로지(morphology) 연산을 수행하여 상기 MGD 영상 내에서 자소 및 띄어쓰기에 의해 산재되어 있는 문자영역을 병합한다.
*문자영역과 영상영역 분류단계(a27)에서는 상기 일반교육 자료의 입력단계에서 산출한 자료의 라벨들에 대해, 상기 후보군의 문자영역 내에 포함되는지의 여부를 검사하여, 일반교육 자료 내 문자와 시각자료를 각각 문자영역과 영상영역으로 분류한다. 이 분류단계에서는 일반교육 자료의 입력단계에서 산출한 자료의 라벨이 상기 후보군의 문자영역 내에 포함되어 있으면 문자에 대한 라벨로 결정하고, 후보군에 포함되어 있지 않으면 영상영역에 대한 라벨로 결정하여, 일반교육 자료 내 문자와 시각자료를 각각 문자영역과 영상영역으로 분류한다.
영상영역 내 문자 추출단계(a3)에서는 상기 영상영역 추출단계에서 결정한 영상영역 내에 문자의 유/무를 판단하여, 문자가 있을 시에는 이를 문자영역으로 추출하되, 상기 영상영역 추출단계와 동일한 환경(문자의 라벨에 대한 평균너비, 모폴로지 연산의 필터) 하에서 그 탐색 범위를 영상영역만으로 제한하여 수행하며, 그 결과 영상영역 내 문자영역을 추출한다.
복잡도별 영상정보 촉각화단계(b100)에서는 추출한 영상영역을 분석하여 도형 및 그래프 등을 포함하는 저 복잡도 영상과, 삽화 및 사진 등을 포함하는 고 복잡도 영상을 구분하고, 구분된 각 영상을 복잡도에 따라 서로 다른 처리과정을 통해 촉각정보로 변환하며, 영상 분류단계(b1), 고 복잡도 영상의 중심객체 유무 판별 및 추출단계(b2), 및 고 복잡도 영상의 잡음제거 및 단순화단계(b3)로 이루어진다.
영상 분류단계(b1)에서는 상기 산출된 영상영역의 밝기에 대한 누적 히스토그램을 분석하여 복잡도에 따라 영상을 저 복잡도 영상(도표 및 그래프)과 고 복잡도 영상(삽화, 만화, 지도 및 사진)으로 분류한다.
이를 위해 영상 분류단계(b1)에서는 먼저, 영상에 대한 밝기의 평균누적값을 다음의 조건적 연산식 1을 통해 산출하고, 그 산출된 밝기의 평균누적값을 다음의 조건적 연산식 2를 통해 각각의 밝기 누적값에서 차분하여 저 복잡도 영상 내 밝기의 누적값이 연속된 구간에서 나타나는 현상을 제거한다.
상기 조건적 연산식 1은,
for(i=0, cnt=0, sum=0; i<256; i++){if((Q 1 -1.5(Q 3 -Q 1 ) <= NH i <= (Q 3 +1.5(Q 3 -Q 1 )) then cnt++, sum+= NH i ;} NH average = sum / cnt;이며,
상기 조건적 연산식 2는,
*for(i=0; i<256; i++) NH i -= NH average ;이고,
상기 각 연산식에서 NH i 는 해당 밝기에 대한 누적값, NH average 는 영상에 대한 밝기의 평균 누적값, Q 1 Q 3 는 각각 밝기의 누적 값에 대한 1사분위수와 3사분위수이다.
다음으로 영상 분류단계(b1)에서는 상기 밝기의 평균누적값을 제거하기 이전과 제거한 후에 영상의 밝기 누적값의 잔여 구간에 대한 변화율(D NH )을 다음의 수학식 5를 통해 검사하여 그 검사 결과에 따라 저 복잡도 영상과 고 복잡도 영상을 분류한다.
수학식 5
Figure PCTKR2012011490-appb-M000005
상기 수학식 5에서, 고 복잡도 및 저 복잡도 영상을 분류하는 변화율(D NH )에 대한 임계값(D th )은 도형, 그래프, 삽화, 지도 및 사진 등과 같이 일반교육 자료 내에서 빈번하게 나타나는 영상들에 대해 도출되는 최적 실험치, cnt before cnt after 는 누적 값을 제거하기 이전과 이후의 밝기의 잔여구간, I 는 영상영역이다.
*고 복잡도 영상의 중심객체 유무 판별 및 추출단계(b2)에서는 상기 분류된 고 복잡도 영상이 주요 객체를 포함하는지의 여부를 판단하여 추출한다. 이 고 복잡도 영상의 중심 객체 유무 판별 및 추출단계(b2)는 도 4a의 동작 흐름도에 예시된 바와 같이, 유사한 색상들의 대표색상 변환단계(b21), 중심객체의 유무 판별단계(b22), 및 중심객체에 대한 윤곽선 추출단계(b23)를 포함하여 이루어진다.
유사한 색상들의 대표색상 변환단계(b21)는 고 복잡도 영상을 구성하는 픽셀의 색상 유사도를 측정하고, 양자화(quantization)를 통해 유사한 색상들을 대표색상으로 변환하는 단계로서, 이 단계에서는 유사한 색상들을 대표색상으로 변환하는 고 복잡도 영상의 양자화를 위해, 먼저 PGF(Peer Group Filtering)기법을 이용하여 양자화 레벨을 결정한다. 다음으로 상기 결정한 레벨에 따라 양자화를 수행함으로써 유사한 색상들을 대표색상으로 변환시켜 고 복잡도 영상의 색상에 대한 복잡도를 감소시킨다.
중심객체의 유무 판별단계(b22)는 상기 대표색상으로 변환된 고 복잡도 영상 내에서 중심객체 영역에 해당되는 색상의 분포도를 측정하여, 중심객체의 유무를 판별하는 단계로서, 이 단계에서는 다음의 수학식 6에 정의한 영상의 중심영역에서 빈도수가 가장 많은 색상을 중심객체의 대표색상이라 가정하고, 이에 대한 세로 방향 및 가로 방향에 대한 분산을 계산하여 영상 내 분포도를 산출하고, 이 분포도에 따라 중심객체의 유무를 판별하게 된다.
수학식 6
Figure PCTKR2012011490-appb-M000006
상기 수학식 6에서 w, h는 각각 고 복잡도 영상의 너비와 높이, AreaX obj AreaY obj 는 각각 중심영역의 x축과 y축의 범위이다.
여기서, 중심객체 유무 판별은 다음의 조건적 연산식 3을 통해 이루어지며, 숲이나 바다 등과 같은 배경영상들에서 나타나는 특징과 같이 중심객체를 대표하는 색상이 수평적으로 넓게 분포되어 있거나 분포도가 낮은 경우 중심객체가 없는 영상으로 판단하고, 그 밖의 경우에는 중심객체가 있는 것으로 판단한다.
상기 조건적 연산식 3은
s max =max(s verticality , s horizontality )
if(((s max == s horizontality )&&(s max >T 1 ))||(s max <T 2 ))
then I is a non-object image
otherwise I is an object image
(T 1 = 0.06, T 2 = 0.01)
상기 조건적 연산식 3에서 s verticality s horizontality 는 고 복잡도 영상(I) 내 중심객체의 대표색상에 대한 최대 수직 및 최대 수평 분산, s max s verticality s horizontality 중 큰 값을 갖는 최대 분산, 최대 분산과 비교하는 임계값 T 1 T 2 는 상수로서 다양한 고 복잡도 영상에 대해 반복적인 실험을 통해 산출되는 최적 실험치이다.
중심객체에 대한 윤곽선 추출단계(b23)는 상기 중심객체 유무 판별 결과 중심객체가 존재할 경우 그 중심객체에 대한 윤곽선을 추출하는 단계로서, 이 단계에서는 먼저, 상기 양자화된 고 복잡도 영상에서 수학식 7을 통해 정의되는 영상의 네 모서리 구간에 대한 배경영역의 대표색상들을 추출하고, 그 추출된 색상들을 영상 전체에서 제거한다. 이로써, 고 복잡도 영상 내에는 중심객체에 대한 대표색상 남게 된다.
수학식 7
Figure PCTKR2012011490-appb-M000007
상기 수학식 7에서 AreaX n AreaY n 은 각각 영상의 네 모서리에 대한 배경영역을 나타내며, wh는 고 복잡도 영상의 너비와 높이를 나타낸다.
그런데, 이때 중심 영역 이외의 영역에서도 동일한 색상정보들이 잔재할 수 있으며, 이렇게 중심 영역 이외에서 나타나는 색상정보들은 객체를 표현하는 정보가 아닌 잡음으로 판단할 수 있다. 따라서 이를 제거하기 위해 본 단계에서는 상기 고 복잡도 영상에 대해 이진화 및 라벨링을 수행하여, 중심영역 이외에서 나타나는 색상정보들을 제거함과 아울러 중심객체의 대표색상에 대한 라벨들을 생성하고, 생성된 각각의 라벨들에 대한 위치가 중심영역에 포함되는지를 검사하여 잡음을 제거하고, 고 복잡도 영상 내에 남겨진 중심 객체의 윤곽선을 검출하여, 촉각정보로 변환할 영상의 중심객체를 추출한다.
잡음제거 및 단순화단계(b3)에서는 시각장애인의 인지를 돕기 위해 영상의 복잡도를 낮춰 단순화한다. 이 잡음제거 및 단순화단계(b3)는 도 4b의 동작 흐름도에 예시된 바와 같이, 윤곽선들에 대한 라벨 크기 산출단계(b31), 잡음 제거단계(b32), 연결선 생성단계(b33), 및 윤곽선에 대한 복잡도 낮춤단계(b34)를 포함하여 이루어진다.
*윤곽선들에 대한 라벨 크기 산출단계(b31)에서는 고 복잡도 영상에 대해 이진화 및 라벨링 처리를 수행하여 영상을 구성하는 윤곽선들에 대한 라벨의 크기를 산출한다.
잡음 제거단계(b32)에서는 영상의 해상도와 햅틱디스플레이의 해상도를 비교하여 너비와 높이의 비율을 산출한 후, 각각의 라벨을 수학식 8을 통해 햅틱디스플레이의 해상도에 맞춰 축소하였을 경우, 픽셀의 크기가 햅틱디스플레이의 1셀 이하로 축소되는 라벨이 가진 영상정보를 중요도가 낮은 잡음으로 분류하여 제거한다.
수학식 8
Figure PCTKR2012011490-appb-M000008
상기 수학식 8에서, H width H height 는 햅틱 디스플레이의 너비와 높이, I width I height 는 영상의 너비 및 높이, T w T h 는 햅틱디스플레이로 축소하기 위한 영상의 너비 및 높이에 대한 축소 비율, LW, LHn은 해당 라벨의 너비와 높이 및 총 개수, S는 라벨을 햅틱디스플레이 해상도로 변환하였을 때의 픽셀의 크기를 나타낸다.
연결선 생성단계(b33)에서는 상기 검출된 윤곽선들의 복잡도를 낮추기 위해 윤곽선들의 코너점을 검출하고, 그 코너점들을 서로 연결하는 연결선을 생성한다.
윤곽선에 대한 복잡도 낮춤단계(b34)에서는 상기 연결선들 간의 교차각을 검사하여 그 교차각이 임계각(바람직하게는 150도) 이상일 경우 그 연결선이 공유하는 코너점을 제거하고 남은 두 점으로 새로운 연결선을 생성하여 영상의 윤곽선에 대한 복잡도를 낮추게 된다. 이때 상기 임계각(150도)은 윤곽선의 복잡도가 높은 다양한 영상에 대해 실험을 수행하여 측정될 수 있는 최적 실험치이다.
문자인식 및 점자 변환단계(c100)는 추출한 문자영역 내의 문자정보 및 영상영역 내의 문자정보를 분석하여 시각장애인이 인지가능한 점자정보로 변환하는 단계로서, 상기 추출한 문자영역에 대해 광학문자인식(OCR, Optional Character Recognition)을 적용하여 컴퓨터가 인식할 수 있는 정보로 변환한 후, 다시 이를 시각장애인이 인지할 수 있는 점자형태로 변환할 수 있게 된다. 이 문자인식 및 점자 변환단계(c100)는 영상영역 외의 문자 인식단계(c1), 영상영역 내의 문자 인식단계(c2), 및 인식된 문자의 점자 표현단계(c3)를 포함하여 이루어진다.
영상영역 외의 문자 인식단계(c1)에서는 일반교육 자료 내 시각자료를 제외한 문단이나 단락의 문자영역에 광학문자인식을 수행하여, 문자영역에 대한 영상정보로부터 컴퓨터가 인식할 수 있는 문자정보를 생성한다.
영상영역 내의 문자 인식단계(c2)에서는 일반교육 자료 내 시각자료 내에 포함되는 문자들에 대해 광학문자인식을 수행하여, 영상영역 내의 문자영역으로부터 컴퓨터가 인식할 수 있는 문자정보를 생성한다.
인식된 문자의 점자 표현단계(c3)에서는 상기 생성된 영상영역 외의 문자정보, 영상영역 내의 문자정보를 한국어점자규정’ 및 ‘영어점자규정’ 을 따르는 점자 표현 알고리즘을 통해 시각장애인들이 인지할 수 있는 점자정보로 점역하여 표시한다. 이러한 점자표현 알고리즘은 연결어, 약어, 기본적인 산술 연산기호, 및 일반기호에 대한 점역을 포함하는 것이 바람직하다. 특히 이 점자 표현단계에서는 영상영역 외의 문자정보로부터 점역된 점자정보에 대해서는 햅틱디스플레이에의 표현을 위해, 먼저 점자의 길이를 계산하고, 햅틱디스플레이 해상도의 너비에 맞추어 줄 바꿈을 수행한 후 점자정보를 출력한다. 또한 영상영역 내의 문자정보로부터 점역된 점자정보에 대해서는 먼저 해당 점자정보를 영상영역 내에 배치한 후 주변의 영상정보와 중첩되는지를 검사하고, 그 검사 결과 영상영역 내에 배치되는 점자정보가 주변의 영상정보와 중첩될 경우 그 점자정보에 대응하는 인덱스를 해당 영상영역 내에 배치하고, 상기 영상영역의 외부에 해당 인덱스와 함께 점자정보를 출력한다.
이와 같이 구성되는 본 발명의 전체적인 동작 및 그에 의한 작용 및 효과를 설명하면 다음과 같다.
먼저 영상/문자 영역 추출부(110)에서는 교육자료 입력부(10)를 통해 입력되는 일반 교육 자료 내에 혼합되어 있는 문자정보와 시각정보를 촉각정보로 변환하기 위해 각 정보에 대한 문자영역 및 영상영역을 추출하는 일반교육 자료 내 영상영역 및 문자영역 추출단계(a100)를 수행하며, 이 일반교육 자료 내 영상영역 및 문자영역 추출단계(a100)에서는 일반교육 자료 입력단계(a1), 영상영역 추출단계(a2), 및 영상영역 내 문자 추출단계(a3)가 순차적으로 실행된다.
일반교육 자료 입력단계(a1)에서는 일반교육 자료에 대한 문자와 시각자료의 특성을 분석하기 위해 밝기 영상 및 라벨 등과 같은 기반 정보를 생성한다. 먼저, 밝기 영상과 같은 경우는 스캔한 일반교육 자료의 모든 픽셀에 대해 그레이스케일(gray scale) 과정을 수행함으로써 생성할 수 있게 된다. 다음으로 문자와 시각자료에 대해 특성을 분석하기 위한 라벨은 밝기 영상에 대해 이진화를 수행한 후, 라벨링 처리를 통해서 생성할 수 있게 된다. 이 때, 이진화 처리르 통해 밝기 영상을 흑화소(픽셀 값:0)와 백화소(픽셀 값:255)만으로 재구성하며, 라벨링 처리를 통해 인접한 흑화소간의 연결 상태를 검사하여 연결된 픽셀들을 하나의 개체로 판단할 수 있게 된다. 이를 통해 문자는 적어도 자소(문자를 구성하는 최소 단위) 단위 이상의 개체들로 분류되고, 시각자료는 백화소의 유무에 따라 하나 혹은 그 이상의 개체로 분류된다. 본 단계에서 생성한 밝기 영상과 라벨은 영상영역 추출 과정과 영상 내 문자 추출 과정의 입력데이터로 활용된다.
영상영역 추출단계(a2)에서는 문자와 시각자료 간의 밝기의 특성을 분석하고, 이와 함께 선행과정을 통해 산출한 라벨의 영역을 이용하여 입력된 일반교육 자료를 문자영역과 영상영역으로 분류한다.
도 5의 (a) 내지 (d)는 일반 교육 자료 내 영상영역 및 문자영역을 분리하는 동작을 설명하기 위하여 예시한 참고도로서, (a)는 일반 교육자료의 한 예시도이고, (b)는 (a)에 대한 밝기 영상이며, (c)는 (b)의 영상 내에서 특정 행의 픽셀 정보를 추출하여 그 행의 각 열에 대한 픽셀의 밝기 값을 히스토그램으로 변환한 결과이고, (d)는 (c)의 밝기값에 대한 변화량의 차이를 히스토그램으로 변환한 결과를 예시하고 있다. 이 때, 문자를 구성하는 픽셀들에서는 0에 가까운 밝기 값(흑화소, 문자가 인쇄된 검은색)과 255에 가까운 밝기 값(백화소, 여백)들이 교차하면서 나타남을 볼 수 있고, 시각자료를 구성하는 픽셀들에서는 밝기 값이 연속적으로 변화하는 것을 볼 수 있다. 이를 보다 명확하게 판단하기 위하여 (c)의 밝기 값에 대한 변화량의 차이를 나타내는 (d)의 히스토그램을 생성하면, 그 결과에서 문자와 시각자료를 구성하는 픽셀 간의 밝기 값에 대한 변화량의 차이가 매우 상이함을 확인할 수 있다. 따라서 이러한 문자와 시각자료의 밝기 값의 변화량에 대한 특징을 이용하여 이웃한 픽셀에 대한 변화량(G)을 상기 수학식 1을 통해 산출한 후 이러한 변화량만으로 변화량 차이(GD) 영상을 재구성한다.
이를 통해 생성한 GD 영상 내 문자가 존재하는 영역에서는 픽셀 간의 밝기 변화량이 높아 백화소들이 군집되어 있으며, 문자 간의 사이를 나타내는 여백과 인쇄영역 이외의 여백에서는 픽셀 간의 밝기 변화량이 거의 없으므로 흑화소에 가까운 결과가 나타난다. 그리고 시각자료와 같은 경우는 영상의 전체 밝기를 낮추고, 대비를 높인 그레이스케일 영상과 같이 나타난다.
다음으로 생성한 GD 영상 내에서 예상되는 문자 영역의 후보군을 결정하기 위해 문단이나 단락 내 문자 간의 경계를 제거한다. 이를 위해 선행단계에서 생성한 라벨을 이용하여 평균적인 문자의 너비를 수학식 2과 같은 조건으로 산출하며, 산출한 너비를 기준으로 GD 영상에 대해 수학식 3을 적용하여 최대 변화량 차이 영상(MGD)으로 재구성한다.
일반적으로 일반교육 자료로부터 생성한 라벨은 대부분이 문자에 대한 것이며, 시각자료에 대한 라벨은 그 크기가 문자에 비해 상대적으로 큰 반면에 빈도수는 매우 적다. 따라서 수학식 2를 이용함으로써 시각자료에 대한 라벨을 이상치(Outlier)로 제외한 후, 문자의 라벨에 대한 평균 너비(LW average )를 산출할 수 있게 되며, 상기 산출한 LW average 를 수학식 3에 대입함으로써 MGD 영상을 생성할 수 있게 된다.
또한, GD 영상을 재구성한 MGD 영상에 대해 문자영역을 보다 명확하게 분류하기 위해 수학식 4의 임계값 결정을 통해 이진화를 수행한 후, 각 행별로 연결된 백화소의 너비를 구하여 2개의 문자를 합한 너비(2LW average )보다 작은 너비의 백화소를 제거한다. 이는 대체로 문자가 단독으로 존재하지 않는 특성을 이용함과 함께 자료의 스캔 과정 및 영상영역에 대한 잡음을 제거하기 위함이다.
마지막으로 예상되는 문자 영역의 후보군을 결정한 MGD 영상 내에서 자소 및 띄어쓰기에 의해 산재되어 있는 문자영역을 병합하기 위해 팽창(dilate)과 침식(erode)의 모폴로지(morphology) 연산을 수행한다. 이 때, 모폴로지 연산의 필터 크기는 수학식 2의 LW average 와 동일하게 설정하며, 이러한 모폴로지 연산의 결과를 통해 문자영역을 명확히 결정할 수 있게 된다. 따라서 일반교육 자료의 입력 과정에서 산출한 자료의 라벨들에 대해 결정한 문자영역 내에 포함되는지의 여부를 검사하고, 포함되었을 시에는 문자에 대한 라벨로, 미 포함되었을 시에는 영상영역에 대한 라벨로 결정한다. 이를 통해 최종적으로 일반교육 자료 내 문자와 시각자료를 각각 문자영역과 영상영역으로 분류할 수 있게 된다.
영상영역 내 문자 추출단계(a3)에서는 영상영역 추출 과정에서 결정한 영상영역 내에 문자의 유무를 판단하여, 문자가 있을 시에는 이를 문자영역으로 추출한다. 본 과정은 영상영역 추출 과정과 동일한 환경(문자의 평균너비, 모폴로지 연산의 필터 등) 하에 탐색 범위를 영상영역만으로 제한하여 수행하며, 그 결과 영상 내 문자영역을 추출할 수 있다.
다음으로 복잡도별 영상 촉각화부(120)에서는 상기 추출한 영상영역을 저 복잡도 영상과 고 복잡도 영상으로 구분하여 주요 객체 포함 여부를 판단하고, 이를 각각의 복잡도에 따라 처리하여 촉각정보로 변환하는 복잡도별 영상정보 촉각화단계(b100)를 수행하며, 이 복잡도별 영상정보 촉각화단계(b100)에서는, 영상영역을 분석하여 복잡도에 따라 저 복잡도 영상(도표 및 그래프)과 고 복잡도 영상(삽화, 만화, 지도 및 사진)으로 분류하는 영상 분류단계(b1), 고 복잡도 영상이 주요 객체를 포함하는지를 판단하고 이를 추출하는 고 복잡도 영상의 중심객체 유무 판별 및 추출단계(b2), 및 시각장애인의 인지를 돕기 위해 영상의 복잡도를 낮춰주는 고 복잡도 영상의 잡음제거 및 단순화단계(b3)가 순차적으로 실행된다.
영상 분류단계(b1)에서는 영상영역의 밝기에 대한 누적 히스토그램을 분석하여 저 복잡도 영상과 고 복잡도 영상을 분류한다.
먼저, 도 6의 (a)와 (b)는 저 복잡도 영상과 고 복잡도 영상의 밝기에 대한 누적 히스토그램을 각각 예시하는 참고도로서, 도면에 예시된 바와 같이 (a)와 같은 저 복잡도 영상은 단순한 밝기로 구성되어 있어, 그 밝기의 누적 값이 특정 구간들에서만 나타난다. 반면에 (b)와 같은 고 복잡도 영상은 다채로운 밝기로 구성되어 있어, 그 밝기의 누적 값이 연속된 구간에서 나타난다. 따라서 이러한 특징을 바탕으로 밝기 값이 나타나는 구간의 빈도수를 산출하여 영상을 분류하는데, 이 때, 저 복잡도 영상과 같은 경우에도 미세한 밝기 값들이 존재하여 고 복잡도 영상과 같이 밝기 값이 연속된 구간에서 나타날 수 있다. 따라서 상기 조건적 연산식 1 및 2를 통해 평균적인 밝기의 누적 값을 산출하여, 이를 각각의 밝기 값에서 차분함으로써 저 복잡도 영상 내 밝기 값이 연속된 구간에서 나타나는 현상을 제거할 수 있게 된다.
다음으로 평균적인 밝기의 누적 값을 제거하기 이전과 제거한 후에 밝기 값의 잔여 구간에 대한 변화율을 상기 수학식 5와 같이 검사하여 저 복잡도 영상과 고 복잡도 영상으로 분류한다.
고 복잡도 영상의 중심객체 유무 판별 및 추출단계(b2)에서는 고 복잡도 영상을 구성하는 픽셀의 색상 유사도를 측정하고, 양자화(quantization)를 통해 유사한 색상들을 대표색상으로 변환한다. 그리고 대표색상으로 변화된 영상 내에서 중심객체 영역에 해당되는 색상의 분포도를 측정하여, 중심객체의 유무를 판별함과 함께 중심객체가 존재할 시에는 이에 대한 윤곽선을 추출한다.
이러한 고 복잡도 영상의 중심객체 유무 판별 및 추출단계(b2)에서는 유사한 색상들을 대표색상으로 변환하는 고 복잡도 영상의 양자화를 수행하기 위해 먼저, PGF(Peer Group Filtering)기법을 이용하여 양자화 레벨을 결정하고 그 결정한 레벨에 따라 양자화를 수행함으로써, 유사한 색상들이 이를 대표하는 색상으로 변환되어 고 복잡도 영상의 색상에 대한 복잡도를 감소시킬 수 있게 된다.
다음으로 고 복잡도 영상의 중심객체 유무 판별 및 추출단계(b2)에서는 상기 수학식 6에 정의한 영상의 중심영역에서 빈도수가 가장 많은 색상을 중심객체의 대표색상이라 가정하고, 이에 대한 세로 방향 및 가로 방향에 대한 분산을 계산하여 영상 내 분포 정도를 산출한다. 이 때, 중심객체를 대표하는 색상이 수평적으로 넓게 분포되어 있거나, 분포도가 낮으면 중심객체가 없는 영상으로 판단한다. 이는 숲이나 바다 등과 같은 배경 영상들에서 나타나는 특징이기 때문이다. 그 밖의 경우에는 중심객체가 있는 것으로 판단하며, 이러한 동작은 상기 조건적 연산식 3을 통해 수행될 수 있게 된다.
마지막으로 고 복잡도 영상의 중심객체 유무 판별 및 추출단계(b2)에서는 양자화된 고 복잡도 영상에서 배경영역의 대표색상들을 추출하고, 추출한 색상들을 영상 전체에서 제거한다. 이 때, 영상의 배경영역은 수학식 7과 같이 영상의 네 모서리에 대한 구간으로 정의한다. 이를 수행함으로써, 영상 내에는 중심객체에 대한 대표색상만이 남게 되는데, 이 때, 중심영역 이외의 영역에서도 동일한 색상정보들이 잔재할 수 있다. 이렇게 중심영역 이외에서 나타나는 색상정보들은 객체를 표현하는 정보가 아닌 잡음으로 판단할 수 있으며, 이를 제거하기 위해 이진화 및 라벨링을 수행한다. 이진화 및 라벨링을 수행한 결과로부터 중심객체의 대표색상에 대한 라벨들을 생성함과 함께 그 위치를 찾을 수 있으며, 각각의 라벨들에 대한 위치가 중심영역에 포함되는지를 검사하여 잡음을 제거한다. 결과적으로 고 복잡도 영상 내에는 중심객체의 정보만이 남게 되며, 이에 윤곽선을 검출함으로써 촉각정보로 변환할 영상의 중심객체를 추출할 수 있게 된다.
고 복잡도 영상의 잡음제거 및 단순화단계(b3)에서는 고 복잡도 영상을 햅틱디스플레이의 해상도에 적합한 촉각정보로 변환하기 위하여 먼저 이진화 및 라벨링을 수행하여 영상을 구성하는 윤곽선들에 대한 라벨의 크기를 산출한다. 그리고 수학식 8을 통해 영상의 해상도와 햅틱디스플레이의 해상도를 비교하여 너비와 높이의 비율을 산출한 후, 각각의 라벨을 햅틱디스플레이의 해상도에 맞추어 축소하였을 시, 라벨을 햅틱디스플레이 해상도로 변환하였을 때의 픽셀의 크기(S i )가 햅틱디스플레이의 1셀 이하로 축소되는 경우에 해당 라벨이 가진 영상정보를 중요도가 낮다고 판단하여 이를 잡음으로 분류하여 제거한다.
또한, 고 복잡도 영상 내 복잡한 윤곽선들은 시각장애인이 정보를 인지하는데 어려움을 준다. 따라서 고 복잡도 영상의 잡음제거 및 단순화단계(b3)에서는 다음 과정으로 이러한 윤곽선들의 복잡도를 낮추기 위해 윤곽선들의 코너점을 검출하고, 검출한 코너점을 이용하여 연결선을 생성한다. 그리고 연결선들 간의 교차각을 검사하여 임계각(150도) 이상일 때에는 연결선이 공유하는 코너점을 제거하고 남은 두 점으로 새로운 연결선을 생성한다. 이 때, 임계각(150도)에 대한 설정값은 윤곽선의 복잡도가 높은 다양한 영상에 대해 실험을 수행하여 측정한 최적 실험치이다. 결과적으로 특정 수치를 기준으로 코너점을 제거하여 영상정보에 대한 새로운 윤곽선을 생성함으로써 영상의 윤곽선에 대한 복잡도를 낮춰 시각장애인의 정보 인지에 도움을 줄 수 있게 된다.
영상/문자 영역 추출부(110)에서는 교육자료 입력부(10)를 통해 입력되는 일반 교육 자료 내에 혼합되어 있는 문자정보와 시각정보를 촉각정보로 변환하기 위해 각 정보에 대한 문자영역 및 영상영역을 추출하는 일반교육 자료 내 영상영역 및 문자영역 추출단계(a)를 수행하며, 이 일반교육 자료 내 영상영역 및 문자영역 추출단계(a)에서는 일반교육 자료 입력단계(a1), 영상영역 추출단계(a2), 및 영상영역 내 문자 추출단계(a3)가 순차적으로 실행된다.
마지막으로 문자 인식 및 점역부(130)에서는 상기 추출한 문자영역(영상영역 이외의 문자영역 및 영상영역 내의 문자영역)에 대해 광학문자인식(OCR, Optional Character Recognition)을 적용하여 컴퓨터가 인지할 수 있는 정보로 변환한 후, 이를 다시 시각장애인이 인지할 수 있는 점자정보로 변환하는 문자인식 및 점자 변환단계(c100)를 수행함으로써, 촉각정보 표시부(20)를 통해 표현할 수 있게 되며, 이 문자인식 및 점자 변환단계(c100)에서는 영상영역 외의 문자 인식단계(c1), 영상영역 내의 문자 인식단계(c2), 및 인식된 문자의 점자 표현단계(c3)가 순차적으로 수행된다.
영상영역 외의 문자 인식단계(c1)에서는 일반교육 자료 내 시각자료를 제외한 문단이나 단락 등과 같은 문자영역에 대해 광학문자인식을 수행하여, 문자영역에 대한 영상정보로부터 컴퓨터가 인식할 수 있는 문자정보를 생성한다.
영상영역 내의 문자 인식단계(c2)에서는 일반교육 자료 내에서 시각자료 내 포함되는 문자들에 대해 상기와 마찬가지로 광학문자인식을 수행하여, 영상영역 내의 문자영역으로부터 컴퓨터가 인식할 수 있는 문자정보를 생성한다.
인식된 문자의 점자 표현단계(c3)에서는 영상영역 이외의 문자영역과 영상영역 내 문자영역에서 각각 광학문자인식을 통해 생성한 문자정보를 ‘한국어점자규정’ 및 ‘영어점자규정’ 에 따라 시각장애인들이 인지할 수 있는 점자정보로 각각 변환하게 되며, 현재의 시각장애인들이 사용하고 있는 연결어나 약어, 기본적인 산술연산 기호 및 일반기호 등도 함께 점역한다.
한편, 일반적으로 점자는 문자를 자소 단위로 표현함으로써 그 길이가 문자에 비해 길어지게 된다. 따라서 이 점자 표현단계(c3)에서는 상기 영상영역 외의 문자정보로부터 점역된 점자정보를 햅틱디스플레이에 표현하기 위해, 점자의 길이를 계산하여 햅틱디스플레이 해상도의 너비에 맞추어 줄 바꿈을 수행하여 점자정보를 출력한다.
또한 영상영역 내에서 점자를 표현할 때에는 점자가 영상정보와 중첩되어 시각장애인의 인지율을 떨어뜨릴 위험이 있다. 따라서 이를 해결하기 위해 이 단계(c3)에서는 상기 영상영역 내의 문자정보로부터 점역된 점자정보를 영상영역 내에 배치한 후, 주변의 영상정보와 중첩되는지를 검사하여, 중첩될 경우에는 그 점자정보에 대응하는 인덱스를 영상영역 내에 배치하고, 상기 영상영역의 외부에 해당 인덱스와 함께 점자정보를 출력한다.
도 7 내지 도 9는 일반 교육자료 내 영상영역 및 문자 추출단계를 설명하기 위하여 예시한 참고도로서, 본 발명에 따른 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시방법을 일반교육 자료에 적용하여 촉각정보로 변환한 실험결과를 예시하고 있다. 본 실험은 총 3단계로 구성된 각각의 일반교육 자료 내 영상영역 및 문자영역 추출단계(a), 복잡도별 영상정보 촉각화단계(b), 및 문자인식 및 점자 변환단계(c)에 대한 성능을 측정하기 위해 도 7부터 도 9까지의 (a)에 보인 바와 같이 문자, 시각자료(그래프, 지도, 사진) 및 시각자료 내 문자가 혼합되어 있는 세 가지 종류의 일반교육 자료들을 바탕으로 진행하였다. 먼저, 각 그림의 (b)부터 (e)까지는 입력된 교육자료의 영상영역과 문자영역을 분류하기 위한 단계(수학식 1 내지 수학식 4 참조)을 순차적으로 예시하고 있으며, (f)는 분류한 결과를 예시하고 있다. 이 때, 영상 내 파란색 라벨과 녹색 라벨은 각각 영상영역 이외의 문자영역과 영상영역에 포함된 문자영역을 나타내며, 붉은색 라벨은 시각자료에 대한 영상영역을 나타낸다. 문자영역 및 영상영역에 대한 분류의 정확도(p) 및 재현율(r)은 추출한 문자를 기준으로 다음의 수학식 9를 통해 산출할 수 있다.
수학식 9
Figure PCTKR2012011490-appb-M000009
상기 수학식 9에서 NDT(Number of Detected Texts)는 문자로 판단한 라벨의 총 수를 나타내며, TNCT(Total Number of Correct Texts)는 NDT 중 정확히 추출한 문자의 라벨 수를 나타낸다. 그리고 TNT(Total Number of Texts)는 자료 내 실제 문자개체의 총 수를 나타낸다. 본 수학식을 통해 그래프, 지도 및 사진을 포함하는 문자의 정확도는 각각 100%, 97.2%, 90.9%로 나타났으며, 재현율은 모든 문자가 라벨에 포함되어 모두 100%로 나타났다.
다음으로, 도 10은 각각 복잡도별 영상의 촉각화 단계를 설명하기 위하여 예시한 참고도이고, 도 11은 고 복잡도 영상의 잡음 제거 및 단순화 단계를 설명하기 위하여 예시한 참고도로서, 도 10의 (a)는 각각 그래프, 지도 및 사진에 대한 밝기 영상을 예시하고 있으며, (b)는 이에 대한 밝기의 누적 히스토그램을 예시하고 있다. 이에 조건적 연산식 1 및 2를 적용하여 밝기의 평균 누적값을 제거함으로써 (c)와 같은 히스토그램을 생성할 수 있으며, 밝기 값의 잔여 구간에 대한 변화율은 각각 82.5%, 58.4%, 0.4%로 나타났다. 산출한 각각의 변화율을 수학식 5에 대입함으로써 그래프는 저 복잡도 영상으로, 지도 및 사진은 고 복잡도 영상으로 분류할 수 있다. 그리고 (d)는 분류한 영상을 촉각정보로 변환한 결과를 예시하고 있는데, 이 때, 고 복잡도 영상으로 분류된 지도 및 사진과 같은 경우는 저 복잡도 영상인 그래프와는 달리 시각장애인에게 보다 명확하게 영상정보를 전달하기 위해, 도 11의 (a)부터 (d)까지에 예시한 바와 같이 잡음 및 단순화 과정(수학식 6 내지 수학식 8), 조건적 연산식 3을 추가적으로 수행한다.
마지막으로 도 12는 문자 인식 및 추출단계에서 영상영역을 제외한 문자 인식 단계를 설명하기 위하여 예시한 참고도이고, 도 13은 문자 인식 및 추출단계에서 영상영역 내 문자 인식 및 인덱싱 단계를 설명하기 위하여 예시한 참고도로서, 도 12와 도 13은 추출한 문자영역들에 대해 광학문자인식을 적용하여 컴퓨터가 인식할 수 있는 정보를 추출하고, 시각장애인이 인지할 수 있는 점자정보로 변환한 결과를 예시하고 있다. 이 때, 도 13에 예시된 바와 같이 영상 내 문자가 존재할 경우에는 점자정보가 영상정보와 중첩되지 않으면 영상 내 점자를 표현하고, 중첩될 시에는 점자의 위치에 인덱스를 표기한 후, 이에 대한 인덱스 및 점자정보를 따로 생성한다.
도 14는 그래프, 지도 및 사진을 포함하는 일반교육 자료를 촉각정보로 변환한 최종결과를 예시하고 있다. 이러한 촉각정보의 배치는 시각자료를 우선 시하며, 시각자료 내 문자 및 인덱스가 있을 경우에는 이어서 관련된 정보를 출력한다. 그리고 본문의 내용을 점역한 결과를 출력하며, 결과 영상 내 파랑색의 선은 햅틱디스플레이의 해상도에 따른 페이지를 나타내는 경계선이다. 결과적으로 본 발명의 일반교육 자료 내 영상영역 및 문자영역 추출단계(a100), 복잡도별 영상정보 촉각화단계(b100), 및 문자인식 및 점자 변환단계(c100)를 통해 일반교육 자료 내 주요정보들을 추출하여 시각장애인이 인지할 수 있는 촉각정보로 변환함으로써, 기존의 촉도를 생성하는데 요구되는 많은 자원을 절감함과 함께 시각장애인에게도 많은 자료를 손쉽게 생성하여 제공할 수 있게 된다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.

Claims (24)

  1. (a100) 일반 교육자료 내에 혼합되어 있는 각 정보에 대한 문자영역 및 영상영역을 추출하는 일반교육 자료 내 영상영역 및 문자영역 추출단계;
    (b100) 상기 추출한 영상영역을 분석하여 도형 및 그래프를 포함하는 저 복잡도 영상과, 삽화 및 사진을 포함하는 고 복잡도 영상을 구분하고, 상기 구분된 각 영상을 복잡도에 따라 서로 다른 처리과정을 통해 촉각정보로 변환하는 복잡도별 영상정보 촉각화단계; 및
    (c100) 상기 추출한 문자영역 내의 문자정보 및 상기 영상영역 내의 문자정보를 분석하여, 시각장애인이 인지할 수 있는 점자정보로 변환하는 문자인식 및 점자변환단계;를 포함하여 이루어지는 것을 특징으로 하는 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시방법.
  2. 제1항에 있어서, 상기 (a100) 일반교육 자료 내 영상영역 및 문자영역 추출단계는,
    일반 교육자료 내의 각 정보를 영상영역 이외의 문자영역, 영상영역 내의 문자영역, 및 영상영역으로 분류하는 것을 특징으로 하는 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시방법.
  3. 제1항에 있어서, 상기 (a100) 일반교육 자료 내 영상영역 및 문자영역 추출단계는,
    (a1) 일반 교육자료에 대한 문자와 시각자료의 특성 분석을 위한 밝기(brightness) 영상 및 라벨(label)에 대한 기반 정보를 생성하는 일반교육 자료 입력단계;
    (a2) 상기 생성된 밝기 영상 내에서 나타나는 문자와 시각자료의 특징을 기반으로 문자영역과 영상영역을 각각 분류하여 영상영역을 추출하는 영상영역 추출단계; 및
    (a3) 상기 분류한 영상영역 내에서 문자영역을 검출하는 영상영역 내 문자 추출단계;를 포함하여 이루어지는 것을 특징으로 하는 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시방법.
  4. 제3항에 있어서, 상기 (a1) 일반교육 자료 입력단계는,
    (a11) 스캔한 일반 교육자료의 모든 픽셀에 대해 그레이 스케일(gray scale) 처리를 수행하여 밝기 영상에 대한 기반정보를 생성하는 단계;
    (a12) 상기 생성된 밝기 영상에 대한 기반정보의 이진화 및 라벨링 처리를 통해 라벨에 대한 기반정보를 생성하는 단계;를 포함하여 이루어지는 것을 특징으로 하는 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시방법.
  5. 제4항에 있어서, 상기 (a12) 라벨에 대한 기반정보 생성단계는,
    상기 생성된 밝기 영상을 흑화소와 백화소만으로 재구성하는 이진화 처리단계;
    상기 이진화 처리된 밝기 영상의 인접한 흑화소 간의 연결 상태를 검사하여 서로 연결된 픽셀들을 하나의 개체로 판단하여, 적어도 자소(문자를 구성하는 최소 단위) 단위 이상의 개체들로 분류되는 문자와, 백화소의 유무에 따라 하나 혹은 그 이상의 개체로 분류되는 시각자료를 구분하는 라벨링 처리단계;를 포함하여 이루어지는 것을 특징으로 하는 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시방법.
  6. 제3항에 있어서, 상기 (a2) 영상영역 추출단계는,
    (a21) 상기 입력된 일반교육 자료에 대한 밝기 영상 내에서 문자와 시각자료의 이웃한 픽셀 간의 밝기 값에 대한 변화량(G)을 수학식 1을 통해 산출하는 단계;
    (a22) 상기 산출된 문자와 시각자료의 이웃한 픽셀 간의 밝기 값에 대한 변화량(G)만으로 변화량 차이(GD) 영상을 생성하는 단계;
    (a23) 상기 생성된 GD 영상 내에서 예상되는 문자 영역의 후보군을 결정하기 위해, 상기 생성한 시각자료에 대한 라벨을 이상치(Outlier)로 제외시킨 상태에서, 문자의 라벨에 대한 평균 너비(LW average )를 수학식 2를 통해 산출하는 단계;
    (a24) 상기 산출된 문자의 라벨에 대한 평균 너비(LW average )를 기준으로 GD 영상에 대해 수학식 3을 적용하여 최대 변화량 차이(MGD) 영상을 재구성하는 단계;
    (a25) 상기 재구성한 MGD 영상에 대해 수학식 4를 통해 경계값(Tb)을 결정하여 이진화를 수행하고, 각 행별로 연결된 백화소의 너비를 구하여 2개의 문자를 합한 너비(2LW average )보다 작은 너비의 백화소를 제거하여 MGD 영상 내 예상되는 문자영역의 후보군을 결정하는 단계;
    (a26) 상기 예상되는 문자영역의 후보군을 결정한 MGD 영상에 대해 팽창(dilate)과 침식(erode)의 모폴로지(morphology) 연산을 수행하여 상기 MGD 영상 내에서 자소 및 띄어쓰기에 의해 산재되어 있는 문자영역을 병합하는 단계; 및
    (a27) 상기 일반교육 자료의 입력단계에서 산출한 자료의 라벨들에 대해, 상기 후보군의 문자영역 내에 포함되는지의 여부를 검사하여, 일반교육 자료 내 문자와 시각자료를 각각 문자영역과 영상영역으로 분류하는 단계;를 포함하여 이루어지는 것을 특징으로 하며,
    수학식 1
    Figure PCTKR2012011490-appb-I000009
    수학식 2
    Figure PCTKR2012011490-appb-I000010
    수학식 3
    Figure PCTKR2012011490-appb-I000011
    수학식 4
    Figure PCTKR2012011490-appb-I000012
    상기 수학식 1 내지 수학식 4에서, x, y는 픽셀의 열과 행의 위치, w, h는 영상의 너비와 높이, B(x, y)는 해당 픽셀 위치의 밝기 값, G(x, y)는 이웃한 픽셀에 대한 변화량, Q 1 Q 3 는 라벨의 너비에 대한 1사분위 수와 3사분위 수, LW와 NL은 각각 라벨의 너비와 라벨의 총 개수, T b 는 이진화를 수행할 경계값인, 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시방법.
  7. 제6항에 있어서, 상기 (a27) 문자영역과 영상영역 분류단계는,
    상기 일반교육 자료의 입력단계에서 산출한 자료의 라벨이 상기 후보군의 문자영역 내에 포함되어 있으면 문자에 대한 라벨로 결정하고, 후보군에 포함되어 있지 않으면 영상영역에 대한 라벨로 결정하여, 일반교육 자료 내 문자와 시각자료를각각 문자영역과 영상영역으로 분류하는 것을 특징으로 하는 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시방법.
  8. 제3항에 있어서, 상기 (a3) 영상영역 내 문자 추출단계는,
    상기 영상영역 추출단계에서 결정한 영상영역 내에 문자의 유/무를 판단하여, 문자가 있을 시에는 이를 문자영역으로 추출하되, 상기 영상영역 추출단계와 동일한 환경(문자의 라벨에 대한 평균너비, 모폴로지 연산의 필터) 하에서 그 탐색 범위를 영상영역만으로 제한하여 수행하며, 그 결과 영상영역 내 문자영역을 추출하는 것을 특징으로 하는 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시방법.
  9. 제1항에 있어서, 상기 (b100) 복잡도별 영상정보 촉각화단계는,
    (b1) 상기 산출된 영상영역의 밝기에 대한 누적 히스토그램을 분석하여 복잡도에 따라 영상을 저 복잡도 영상과 고 복잡도 영상으로 분류하는 영상 분류단계;
    (b2) 상기 분류된 고 복잡도 영상이 주요 객체를 포함하는지의 여부를 판단하여 추출하는 고 복잡도 영상의 중심객체 유무 판별 및 추출단계; 및
    (b3) 시각장애인의 인지를 돕기 위해 영상의 복잡도를 낮춰 단순화하는 고 복잡도 영상의 잡음제거 및 단순화단계;를 포함하여 이루어지는 것을 특징으로 하는 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시방법.
  10. 제9항에 있어서, 상기 (b1) 영상 분류단계는,
    (b11) 영상에 대한 밝기의 평균누적값을 조건적 연산식 1을 통해 산출하는 단계;
    (b12) 상기 산출된 밝기의 평균누적값을 조건적 연산식 2를 통해 각각의 밝기 누적값에서 차분하여 저 복잡도 영상 내 밝기의 누적값이 연속된 구간에서 나타나는 현상을 제거하는 단계; 를 포함하여 이루어지는 것을 특징으로 하며,
    상기 조건적 연산식 1은,
    for(i=0, cnt=0, sum=0; i<256; i++){if((Q 1 -1.5(Q 3 -Q 1 ) <= NH i <= (Q 3 +1.5(Q 3 -Q 1 )) then cnt++, sum+= NH i ;} NH average = sum / cnt;이며,
    상기 조건적 연산식 2는,
    for(i=0; i<256; i++) NH i -= NH average ;이고,
    상기 각 연산식에서 NH i 는 해당 밝기에 대한 누적값, NH average 는 영상에 대한 밝기의 평균 누적값, Q 1 Q 3 는 각각 밝기의 누적 값에 대한 1사분위수와 3사분위수인, 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시방법.
  11. 제10항에 있어서, 상기 (b1) 영상 분류단계는,
    (b13) 상기 밝기의 평균누적값을 제거하기 이전과 제거한 후에 영상의 밝기 누적값의 잔여 구간에 대한 변화율(D NH )을 수학식 5를 통해 검사하여 그 검사 결과에 따라 저 복잡도 영상과 고 복잡도 영상을 분류하는 단계;를 더 포함하여 이루어지는 것을 특징으로 하며,
    수학식 5
    Figure PCTKR2012011490-appb-I000013
    상기 수학식 5에서 고 복잡도 및 저 복잡도 영상을 분류하는 변화율(D NH )에 대한 임계값(D th )은 도형, 그래프, 삽화, 지도 및 사진 등과 같이 일반교육 자료 내에서 빈번하게 나타나는 영상들에 대해 도출되는 최적 실험치, cnt before cnt after 는 누적 값을 제거하기 이전과 이후의 밝기의 잔여구간, I 는 영상영역인, 시각장애인을 위한 햅틱 디스플레이 기반 통합형 교육 보조시스템.
  12. 제9항에 있어서, 상기 (b2) 고 복잡도 영상의 중심 객체 유무 판별 및 추출단계는,
    (b21) 고 복잡도 영상을 구성하는 픽셀의 색상 유사도를 측정하고, 양자화(quantization)를 통해 유사한 색상들을 대표색상으로 변환하는 단계;
    (b22) 상기 대표색상으로 변환된 영상 내에서 중심객체 영역에 해당되는 색상의 분포도를 측정하여, 중심객체의 유무를 판별하는 단계; 및
    (b23) 상기 판별 결과 중심객체가 존재할 경우 그 중심객체에 대한 윤곽선을 추출하는 단계;를 포함하여 이루어지는 것을 특징으로 하는 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시방법.
  13. 제12항에 있어서, 상기 (b21) 유사한 색상들을 대표색상으로 변환하는 단계는,
    PGF(Peer Group Filtering)기법을 이용하여 양자화 레벨을 결정하는 단계;
    상기 결정된 레벨에 따른 양자화를 통해 유사한 색상들을 대표색상으로 변환시켜 고 복잡도 영상의 색상에 대한 복잡도를 감소시키는 단계;를 포함하여 이루어지는 것을 특징으로 하는 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시방법.
  14. 제12항에 있어서, 상기 (b22) 중심객체의 유무를 판별하는 단계는,
    수학식 6에 정의한 영상의 중심영역에서 빈도수가 가장 많은 색상을 중심객체의 대표색상이라 가정한 상태에서, 이에 대한 세로 방향 및 가로 방향에 대한 분산을 계산하여 영상 내 분포도를 산출하는 단계;
    상기 산출된 분포도에 따라 중심객체의 유무를 판별하는 단계;를 포함하여 이루어지는 것을 특징으로 하며,
    수학식 6
    Figure PCTKR2012011490-appb-I000014
    상기 수학식 6에서 w, h는 각각 고 복잡도 영상의 너비와 높이, AreaX obj AreaY obj 는 각각 중심영역의 x축과 y축의 범위인, 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시방법.
  15. 제14항에 있어서, 상기 중심객체 유무 판별단계는,
    조건적 연산식 3을 통해 중심객체를 대표하는 색상이 수평적으로 넓게 분포되어 있거나 분포도가 낮은 경우를 중심객체가 없는 영상으로 판단하고, 그 밖의 경우에는 중심객체가 있는 것으로 판단하는 것을 특징으로 하며,
    조건적 연산식 3
    s max =max(s verticality , s horizontality )
    if(((s max == s horizontality )&&(s max >T 1 ))||(s max <T 2 ))
    then I is a non-object image
    otherwise I is an object image
    (T 1 = 0.06, T 2 = 0.01)
    상기 조건적 연산식 3에서 s verticality s horizontality 는 고 복잡도 영상(I) 내 중심객체의 대표색상에 대한 최대 수직 및 최대 수평 분산, s max s verticality s horizontality 중 큰 값을 갖는 최대 분산, 최대 분산과 비교하는 임계값 T 1 T 2 는 상수로서 다양한 고 복잡도 영상에 대해 반복적인 실험을 통해 산출되는 최적 실험치인, 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시방법.
  16. 제12항에 있어서, 상기 (b23) 중심객체의 윤곽선 추출단계는,
    상기 양자화된 고 복잡도 영상에서 수학식 7을 통해 정의된 영상의 네 모서리 구간에 대한 배경영역의 대표색상들을 추출하고, 그 추출된 색상들을 영상 전체에서 제거하여 영상 내에 중심객체에 대한 정보만을 남기는 단계;
    상기 고 복잡도 영상에 대해 이진화 및 라벨링을 수행하여, 중심영역 이외에서 나타나는 색상정보들을 제거함과 아울러 중심객체의 대표색상에 대한 라벨들을 생성하는 단계; 및
    상기 생성된 각각의 라벨들에 대한 위치가 중심영역에 포함되는지를 검사하여 잡음을 제거하고, 고 복잡도 영상 내에 남겨진 중심 객체의 윤곽선을 검출하여, 촉각정보로 변환할 영상의 중심객체를 추출하는 단계;를 포함하여 이루어지며,
    수학식 7
    Figure PCTKR2012011490-appb-I000015
    상기 수학식 7에서 AreaX n AreaY n 은 각각 영상의 네 모서리에 대한 배경영역, wh는 고 복잡도 영상의 너비와 높이인, 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시방법.
  17. 제9항에 있어서, 상기 (b3) 고 복잡도 영상의 잡음제거 및 단순화단계는,
    (b31) 고 복잡도 영상에 대해 이진화 및 라벨링 처리를 수행하여 영상을 구성하는 윤곽선들에 대한 라벨의 크기를 산출하는 단계;
    (b32) 영상의 해상도와 햅틱디스플레이의 해상도를 비교하여 너비와 높이의 비율을 산출한 후, 각각의 라벨을 수학식 8을 통해 햅틱디스플레이의 해상도에 맞춰 축소하였을 경우, 픽셀의 크기가 햅틱디스플레이의 1셀 이하로 축소되는 라벨이 가진 영상정보를 중요도가 낮은 잡음으로 분류하여 제거하는 단계;를 포함하여 이루어지며,
    수학식 8
    Figure PCTKR2012011490-appb-I000016
    상기 수학식 8에서, H width H height 는 햅틱디스플레이의 너비와 높이, I width I height 는 영상의 너비 및 높이, T w T h 는 햅틱디스플레이로 축소하기 위한 영상의 너비 및 높이에 대한 축소 비율, LW, LHn은 해당 라벨의 너비와 높이 및 총 개수, S는 라벨을 햅틱디스플레이 해상도로 변환하였을 때의 픽셀의 크기인, 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시방법.
  18. 제17항에 있어서, 상기 (b3) 고 복잡도 영상의 잡음제거 및 단순화단계는,
    (b33) 상기 검출된 윤곽선들의 복잡도를 낮추기 위해 윤곽선들의 코너점을 검출하고, 그 코너점을 이용하여 연결선을 생성하는 단계;
    (b34) 상기 연결선들 간의 교차각을 검사하여 그 교차각이 임계각 이상일 경우 그 연결선이 공유하는 코너점을 제거하고 남은 두 점으로 새로운 연결선을 생성하여 영상의 윤곽선에 대한 복잡도를 낮추는 단계;를 더 포함하여 이루어지며,
    상기 임계각은 윤곽선의 복잡도가 높은 다양한 영상에 대해 실험을 수행하여 측정된 최적 실험치인, 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시방법.
  19. 제1항에 있어서, 상기 (c100) 문자인식 및 점자 변환단계는,
    상기 추출한 문자영역에 대해 광학문자인식(OCR, Optional Character Recognition)을 적용하여 컴퓨터가 인식할 수 있는 정보로 변환한 후 이를 시각장애인이 인지할 수 있는 점자형태로 변환하는 것을 특징으로 하는 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시방법.
  20. 제1항에 있어서, 상기 (c100) 문자인식 및 점자 변환단계는,
    (c1) 일반교육 자료 내 시각자료를 제외한 문단이나 단락의 문자영역에 광학문자인식을 수행하여, 문자영역에 대한 영상정보로부터 컴퓨터가 인식할 수 있는 문자정보를 생성하는, 영상영역 외의 문자 인식단계;
    (c2) 일반교육 자료 내 시각자료 내에 포함되는 문자들에 대해 광학문자인식을 수행하여, 영상영역 내의 문자영역으로부터 컴퓨터가 인식할 수 있는 문자정보를 생성하는, 영상영역 내의 문자 인식단계; 및
    (c3) 상기 생성된 영상영역 외의 문자정보 및 영상영역 내의 문자정보를 점자 표현 알고리즘을 통해 시각장애인들이 인지할 수 있는 점자정보로 점역하여 표시하는, 인식된 문자의 점자 표현단계;를 포함하여 이루어지는 것을 특징으로 하는 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시방법.
  21. 제20항에 있어서, 상기 (c3) 인식된 문자의 점자 표현단계는,
    (c31) 상기 영상영역 외의 문자정보로부터 점역된 점자정보를 햅틱디스플레이에 표현하기 위해, 점자의 길이를 계산하여 햅틱디스플레이 해상도의 너비에 맞추어 줄 바꿈을 수행하여 점자정보를 출력하는 단계;를 포함하여 이루어지는 것을 특징으로 하는 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시방법.
  22. 제20항에 있어서, 상기 (c3) 인식된 문자의 점자 표현단계는,
    (c32) 상기 영상영역 내의 문자정보로부터 점역된 점자정보를 영상영역 내에 배치한 후, 주변의 영상정보와 중첩되는지를 검사하여, 중첩될 경우에는 그 점자정보에 대응하는 인덱스를 영상영역 내에 배치하고, 상기 영상영역의 외부에 해당 인덱스와 함께 점자정보를 출력하는 단계;를 포함하여 이루어지는 것을 특징으로 하는 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시방법.
  23. 제20항에 있어서, 상기 (c3) 인식된 문자의 점자 표현단계는,
    한국어점자규정 및 영어점자규정을 따라 점역이 이루어지며, 연결어, 약어, 기본적인 산술 연산기호, 및 일반기호에 대한 점역을 포함하는 것을 특징으로 하는 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시방법.
  24. 자료 입력을 위한 교육자료 입력부(10), 점역된 점자를 표현하는 촉각정보 표시부(20)가 구비된 시각장애인을 위한 시각정보 표시시스템에 있어서,
    일반 교육자료 내에 혼합되어 있는 각 정보에 대한 문자영역 및 영상영역을 추출하는 영상/문자영역 추출부(110);
    추출한 영상영역을 분석하여 저 복잡도 영상과 고 복잡도 영상을 구분하여 촉각정보로 변환하는 복잡도별 영상 촉각화부(120); 및
    및 추출한 문자영역 내의 문자정보 및 상기 영상영역 내의 문자정보를 분석하여, 시각장애인이 인지할 수 있는 점자정보로 변환하는 문자인식 및 점역부(130);를 포함하여 구성되는 것을 특징으로 하는 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시시스템.
PCT/KR2012/011490 2012-07-18 2012-12-26 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시시스템 및 방법 WO2014014175A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020120078087 2012-07-18
KR10-2012-0078087 2012-07-18

Publications (1)

Publication Number Publication Date
WO2014014175A1 true WO2014014175A1 (ko) 2014-01-23

Family

ID=49948980

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2012/011490 WO2014014175A1 (ko) 2012-07-18 2012-12-26 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시시스템 및 방법

Country Status (1)

Country Link
WO (1) WO2014014175A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718450A (zh) * 2015-12-23 2016-06-29 华建宇通科技(北京)有限责任公司 英语二级盲文转换方法及转换装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100907411B1 (ko) * 2008-01-10 2009-07-10 에스케이 텔레콤주식회사 다중 접촉 입력 장치를 활용한 촉감 출력 시스템 및 방법
KR20120065779A (ko) * 2010-12-13 2012-06-21 가천대학교 산학협력단 시각 장애인에게 시각 정보를 촉각 정보로 전달하는 그래픽 햅틱전자보드 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100907411B1 (ko) * 2008-01-10 2009-07-10 에스케이 텔레콤주식회사 다중 접촉 입력 장치를 활용한 촉감 출력 시스템 및 방법
KR20120065779A (ko) * 2010-12-13 2012-06-21 가천대학교 산학협력단 시각 장애인에게 시각 정보를 촉각 정보로 전달하는 그래픽 햅틱전자보드 및 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JUNG, JEONG II ET AL., DESIGN AND IMPLEMENTATION OF REAL-TIME HAPTIC DISPLAY SYSTEM., vol. 48, no. 2, March 2011 (2011-03-01), pages 141 - 148 *
JUNG, JEONG II ET AL.: "Design and Implementation of a Real-time Education Assistive Technology System Based on Haptic Display to Improve Education Environment of Total Blindness People.", JOURNAL OF THE KOREA CONTENTS ASSOCIATION, vol. 11, no. 12, November 2011 (2011-11-01), pages 94 - 102 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718450A (zh) * 2015-12-23 2016-06-29 华建宇通科技(北京)有限责任公司 英语二级盲文转换方法及转换装置

Similar Documents

Publication Publication Date Title
WO2019132587A1 (ko) 영상 분석 장치 및 방법
WO2015183015A1 (ko) 문자 인식 방법 및 그 장치
US20060039605A1 (en) Method and apparatus for recognition of character string in scene image
CN110796018B (zh) 一种基于深度图像和彩色图像的手部运动识别方法
WO2020027519A1 (ko) 영상 처리 장치 및 그 동작방법
WO2020060019A1 (ko) 글자 검출 장치, 방법 및 시스템
WO2022019675A1 (ko) 시설 평면도에 포함된 기호 분석 장치 및 방법
US6597808B1 (en) User drawn circled region extraction from scanned documents
WO2015182904A1 (ko) 관심객체 검출을 위한 관심영역 학습장치 및 방법
WO2019132592A1 (ko) 영상 처리 장치 및 방법
WO2022039330A1 (ko) 가상 셀을 이용한 ocr 기반 문서 분석 시스템 및 방법
KR20140049525A (ko) 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시시스템 및 방법
WO2021235566A1 (ko) 다중 피부 병변 검출 시스템, 다형 피부 병변 검출 방법 및 이를 구현하기 위한 프로그램이 기록되고 컴퓨터로 읽을 수 있는 기록매체
WO2020091337A1 (ko) 영상 분석 장치 및 방법
WO2022092743A1 (ko) 차량 번호판에서 문자를 추출하는 방법 및 상기 방법을 수행하는 번호판 문자 추출 장치
WO2015076433A1 (ko) 지역 미세 패턴을 이용한 얼굴 영상 분석 방법
WO2014014175A1 (ko) 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시시스템 및 방법
WO2024014789A1 (ko) 차트축감지방법 및 장치
WO2020116988A1 (ko) 영상 분석 장치, 영상 분석 방법 및 기록 매체
WO2020032560A2 (ko) 진단 결과 생성 시스템 및 방법
WO2023113274A1 (ko) Ai 기반 제품 표면 검사 장치 및 방법
WO2012053811A9 (ko) 텐서 보팅에 기반을 둔 컬러 클러스터링 시스템 및 그 방법
Unnikrishnan et al. License Plate Localization Using Genetic Algorithm including Color Feature Extraction
Saman et al. Image Processing Algorithm for Appearance-Based Gesture Recognition
WO2024039058A1 (ko) 피부 진단 장치, 이를 포함하는 피부 진단 시스템 및 그 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12881237

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12881237

Country of ref document: EP

Kind code of ref document: A1