WO2019194566A1 - 이미지 내의 텍스트 음성 변환 장치 및 방법 - Google Patents

이미지 내의 텍스트 음성 변환 장치 및 방법 Download PDF

Info

Publication number
WO2019194566A1
WO2019194566A1 PCT/KR2019/003926 KR2019003926W WO2019194566A1 WO 2019194566 A1 WO2019194566 A1 WO 2019194566A1 KR 2019003926 W KR2019003926 W KR 2019003926W WO 2019194566 A1 WO2019194566 A1 WO 2019194566A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
unit
image
character string
detected
Prior art date
Application number
PCT/KR2019/003926
Other languages
English (en)
French (fr)
Inventor
양진호
Original Assignee
양진호
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020190022688A external-priority patent/KR20190116907A/ko
Application filed by 양진호 filed Critical 양진호
Publication of WO2019194566A1 publication Critical patent/WO2019194566A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/02Digital computers in general; Data processing equipment in general manually operated with input through keyboard and computation using a built-in program, e.g. pocket calculators
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Definitions

  • the present invention relates to an apparatus and method for text-to-speech in an image.
  • the present invention provides an apparatus and method for converting text in an image including an image captured by a user's terminal and an externally acquired text into a voice format so that the user can listen to the text recorded in an image area designated by the user. I would like to.
  • An object of the present invention is to provide an apparatus and method for text-to-speech in an image that can solve the conventional problems.
  • a text-to-speech method in an image comprising: acquiring an image of a medium in which text is recorded in an image acquisition unit; Detecting, by a text detection unit, a character string of a setting area set by a user in the image using a maximum stable external region (MSER) algorithm and an edge detection algorithm; Correcting the detected character string by the text correction unit; Processing the character string corrected by the processing unit into a text file in a predetermined phonological unit; Converting, by the conversion unit, the text file in phonological units into a voice format based on user input information; And converting and outputting the voice format according to user setting information at an output unit.
  • MSER maximum stable external region
  • the detecting of the text may include receiving setting information for setting a text detection area in the image from a user; After the text detection area corresponding to the setting information is designated, a set of pixels whose intensity is different from pixels adjacent to each other in the image corresponding to the text detection area by using the MSER algorithm. Detecting the area with a blob; Detecting edge pixels in the detected blob using an edge detection algorithm; Filtering noise of detected edge pixels; And after generating the feature points of the filtered edge pixels, connecting the feature points.
  • the correcting of the detected character string may include: first correcting the size (height, width), arrangement order, and aspect ratio of the detected character string to a preset value; After determining the identification strength of the characters in the first corrected character string, extracting the characters whose identification strength is less than the reference strength; And secondly correcting the characters that are less than the reference strength with characters that are suitable for use with adjacent characters.
  • an apparatus for text-to-speech in an image the image obtaining unit obtaining an image of a medium on which text is recorded;
  • a text detection unit for detecting a character string of a setting area set by a user in the image using a maximum stable external region (MSER) algorithm and an edge detection algorithm;
  • a text correction unit correcting the detected character string;
  • a processing unit for processing the corrected character string into a text file in a predetermined phonological unit;
  • a conversion unit converting the text file in phonological units into a voice format based on user input information;
  • an output unit for converting and outputting the voice format according to user setting information.
  • the text detector receives setting information for setting a text detection area in the image from a user, specifies a text detection area corresponding to the setting information, and then uses the MSER algorithm.
  • an aggregate area of pixels different in intensity from neighboring pixels is detected as a blob, and then edge pixels in the detected blob are detected using an edge detection algorithm.
  • a pixel detector for detecting; A filtering unit to filter noise of detected edge pixels; After generating the feature points of the filtered edge pixels, and comprises a feature point connection for connecting the feature points.
  • the text correction unit includes a first correction unit for first correcting the size (height, width), the arrangement order and the aspect ratio of the detected character string to a preset value; An extracting unit for extracting a character whose identification strength is less than a reference strength after determining an identification strength of a character in a first-corrected character string; And a second correction unit for second-correcting a character that is less than the reference strength to a character suitable for a phrase with an adjacent character.
  • Using the method and apparatus for text-to-speech in an image according to an embodiment of the present invention has the advantage of easily detecting text arranged in a regular or irregular form in an image area including text designated by a user.
  • the detected text can be converted into a voice format and output to the user.
  • FIG. 1 is a block diagram of an apparatus for text-to-speech in an image according to an embodiment of the present invention.
  • FIG. 2 is a block diagram of a text detector shown in FIG. 1.
  • FIG. 3 is a block diagram of a text corrector shown in FIG. 1.
  • FIG. 4 is a flowchart illustrating a text-to-speech method in an image according to an embodiment of the present invention.
  • FIG. 5 is a flowchart of a process S720 shown in FIG. 4.
  • FIG. 6 is a flowchart of the S730 process illustrated in FIG. 4.
  • FIG. 1 is a block diagram of an apparatus for text-to-speech in an image according to an embodiment of the present invention
  • FIG. 2 is a block diagram of the text detection unit shown in FIG. 1
  • FIG. 3 is a block diagram of the text correction unit shown in FIG. It is also.
  • the apparatus 100 for text-to-speech in an image may be an application that can be installed and linked to a user terminal.
  • the text-to-speech device 100 includes an image acquisition unit 110, a text detection unit 120, a text correction unit 130, a processing unit 140, a conversion unit 150, and an output unit 160. It includes.
  • the image acquisition unit 110 acquires an image in which text is recorded.
  • the image acquisition unit 110 may be linked with the camera of the user terminal, and may include an automatic collection function for setting to automatically collect the image photographed by the camera of the user terminal.
  • the image is obtained in digital form and includes a plurality of pixels arranged in a matrix form.
  • the pixels may preferably be configured in a square shape, but are not necessarily limited thereto.
  • the text detector 120 uses a pixel detector 121 and a filter 122 to detect a character string of a setting area set by a user in the image using a maximum stable external region (MSER) algorithm and an edge detection algorithm. And a feature point connector 123.
  • MSER maximum stable external region
  • the pixel detection unit 121 receives setting information for setting a text detection area in the image from a user, designates a text detection area corresponding to the setting information, and then uses the MSER algorithm.
  • a blob is detected as a blob of an aggregated area of pixels whose intensity is different from adjacent pixels, and then edge edges in the detected blob are detected using an edge detection algorithm. .
  • the pixel detector 121 includes a blob generator 121-1 and an edge detector 121-2, and the blob generator 121-1 uses the textually stable external region (MSER) algorithm.
  • MSER textually stable external region
  • a blob refers to a text candidate area as described above.
  • One blob preferably corresponds to one stroke in the image, but is not necessarily limited thereto.
  • the edge detector 121-2 detects edge pixels in each blob using an edge detection algorithm.
  • the edge detection algorithm measures the rate of change of the brightness in the x direction and the rate of change of the brightness in the y direction of the pixels in the blob and detects the point where the change rate is large.
  • the edge detector 121-2 may designate pixels having a high brightness and color change rate as edge pixels in the blob using an edge detection algorithm.
  • the filtering unit 122 filters the noise of the detected edge pixels.
  • the noise in the image can be removed while the structure of the texts is maintained, thus allowing subsequent steps to proceed more quickly.
  • the threshold can be set conservatively.
  • the feature point connection unit 123 generates feature points of the filtered edge pixels and then connects the feature points.
  • the text corrector 130 for correcting the detected character string may include a primary corrector 131, an extractor 132, and a secondary corrector 133.
  • the first corrector 131 first corrects a size (height, width), an arrangement order, and an aspect ratio of a string arranged with characters connected by feature points to a preset value.
  • the extractor 132 determines the identification strength of each character in the first corrected character string, and then extracts the character whose identification strength is less than the reference strength.
  • the secondary corrector 133 secondary corrects a character that is less than the reference strength to a character suitable for a phrase with an adjacent character.
  • the secondary correction unit 133 selects “more people gathered” 1 “go”, 2 “go”, 3 “han” , 4 "Sa”, 5 “Ram”, 6 “Lee”, 7 “Mo”, 8 “W”, and then grouping each character into 2-5 pieces, and then connected with the grouping characters Verbally checks the phrase between characters.
  • the range of grouping is performed in the smallest group method in the maximum group, and when the phrase between the grouped characters corresponds to the reference word, the grouping characters are excluded from the verification process.
  • the string is “community with many people,” assuming that the number of characters in the grouping is set to three, the first grouping “more”, the second grouping “person”, and the third grouping “gathering”
  • the fourth grouping is grouped into “villages”, and the phrases between the grouped characters are verified.
  • the outermost characters of each grouping may be verified by a verbal relationship with the outermost characters of adjacent groupings.
  • “poor” can be corrected to “poor” and the string can be corrected to “town of poor people”.
  • the processing unit 140 processes the corrected character string into a text file of a predetermined phonological unit.
  • the conversion unit 150 converts the text file in phonological units into a voice format based on the user's input information.
  • the output unit 160 converts the voice format according to user setting information and outputs the converted voice format.
  • the output unit 160 may be linked with the installed speaker of the user terminal.
  • the setting information may include a voice type (eg, female, male, children's voice), background music, a range of a string, and the like.
  • a voice type eg, female, male, children's voice
  • the apparatus for text-to-speech 100 in an image may include a binarization processor 101, a controller 102, and a memory 103.
  • the binarization processing unit 101 performs a binarization process on the image.
  • the binarization process means that all pixels appearing in the image are displayed only in black or white to reduce the amount of data.
  • the binarization processing unit 101 may use various methods to perform binarization processing on part or all of the image.
  • the control unit 102 performs a function of controlling the flow of data of each unit.
  • the memory 103 stores data for performing a text detection method in an image.
  • the memory stores an acquired image, a converted image, a blob detected in the image, an algorithm for detecting text, and the like.
  • Volatile memory e.g., dynamic RAM (DRAM), static RAM (SRAM), or synchronous dynamic RAM
  • non-volatile memory e.g., one time programmable ROM (OTPROM), programmable (PROM)) ROM
  • EPROM erasable and programmable ROM
  • EPEROM electrically erasable and programmable ROM
  • mask ROM e.g., flash ROM, flash memory (such as NAND flash or NOR flash), hard drive, or solid state drive (SSD)).
  • FIG. 4 is a flowchart illustrating a text-to-speech method in an image according to an embodiment of the present invention
  • FIG. 5 is a flowchart of S720 illustrated in FIG. 4
  • FIG. 6 is a flowchart of S730 illustrated in FIG. 4.
  • an image acquisition unit acquires an image of a medium on which text is recorded (S710), and then performs an MSER in a text detection unit.
  • a character string of a setting area set by the user is detected in the image by using a (Maximally Stable External Region) algorithm and an edge detection algorithm (S720).
  • setting information for setting a text detection area in the image is received from a user (S721), a text detection area corresponding to the setting information is designated, and then the MSER (Maximally Stable External Region) algorithm is used.
  • the image corresponding to the text detection region an aggregate region of pixels different in intensity from neighboring pixels is detected as a blob (S722), and edge pixels in the detected blob are detected using an edge detection algorithm.
  • the feature points After detecting (S723), after filtering the noise of the detected edge pixels (S724), after generating the feature points of the filtered edge pixels, the feature points are connected (S725) to generate a character.
  • the step S730 is a first correction (S731) of the size (height, width), the arrangement order and the aspect ratio of the string arranged with the characters connected by the feature points to a predetermined value, and each of the first within the corrected string
  • S731 a first correction
  • the character having the identification strength less than the reference strength is extracted (S732), and then the character less than the reference strength is secondly corrected to a character suitable for the phrase with the adjacent character (S733).
  • the secondary correction unit 133 may select “community gathered with” 1 “a”, 2 “da”, 3 “one”, 4 “sa”, 5 Classify as “Ram”, 6 “Lee”, 7 “Mo”, 8 “F”, perform grouping to group each character into 2 ⁇ 5, and then use the wording between connected letters and letters sequentially according to the grouping. Verify.
  • the range of grouping is performed in the smallest group method in the maximum group, and when the phrase between the grouped characters corresponds to the reference word, the grouping characters are excluded from the verification process.
  • the string is “town of many people,” assuming that the number of grouping characters is set to three, the first grouping “more”, the second grouping “people”, and the third grouping “gathering”
  • the fourth grouping is grouped into “villages”, and the phrases between the grouped characters are verified.
  • the outermost characters of each grouping may be verified by a verbal relationship with the outermost characters of adjacent groupings.
  • “poor” can be corrected to “poor” and the string can be corrected to “town of poor people”.
  • the character string corrected by the processing unit 140 is processed into a text file of a predetermined phonological unit (S740), and then the conversion unit 150 converts the text file of the phonological unit into a voice format based on user input information.
  • the output unit 160 converts the voice format according to the user's setting information and outputs it (S760).
  • the output unit 160 may be linked with the installed speaker of the user terminal.
  • the detected text can be converted into a voice format and output to the user.
  • Combinations of each block of the block diagrams and each step of the flowcharts attached herein may be performed by computer program instructions.
  • These computer program instructions may be mounted on a processor of a general purpose computer, special purpose computer, or other programmable data processing equipment such that instructions executed through the processor of the computer or other programmable data processing equipment may not be included in each block or flowchart of the block diagram. It will create means for performing the functions described in each step.
  • These computer program instructions may be stored in a computer usable or computer readable memory that can be directed to a computer or other programmable data processing equipment to implement functionality in a particular manner, and thus the computer usable or computer readable memory. Instructions stored therein may also include instruction means for performing the functions described in each block or flowchart step of the block diagram. Computer program instructions may also be mounted on a computer or other programmable data processing equipment, such that a series of operating steps may be performed on the computer or other programmable data processing equipment to create a computer-implemented process to create a computer or other programmable data. Instructions that perform processing equipment may also provide steps for performing the functions described in each block of the block diagram and in each step of the flowchart.
  • each block may represent a module, segment or portion of code that includes one or more executable instructions for executing a specified logical function (s).
  • logical function e.g., a module, segment or portion of code that includes one or more executable instructions for executing a specified logical function (s).
  • the functions noted in the blocks may occur out of order.
  • the two blocks shown in succession may in fact be executed substantially concurrently, or the blocks may sometimes be executed in the reverse order, depending on the corresponding function.
  • the steps of a method or algorithm described in connection with the embodiments disclosed herein may be implemented directly in hardware, a software module or a combination of the two executed by a processor.
  • the software module may reside in RAM memory, flash memory, ROM memory, EPROM memory, EEPROM memory, registers, hard disk, removable disk, CD-ROM or any other form of storage medium known in the art.
  • An exemplary storage medium is coupled to the processor, which can read information from and write information to the storage medium.
  • the storage medium may be integral to the processor.
  • the processor and the storage medium may reside within an application specific integrated circuit (ASIC).
  • the ASIC may reside in a user terminal.
  • the processor and the storage medium may reside as discrete components in a user terminal.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)

Abstract

본 발명의 일 실시예에 따른 이미지 내의 텍스트를 음성으로 변환하는 방법은 이미지 획득부에서 텍스트가 기록된 매체의 이미지를 획득하는 단계; 텍스트 검출부에서 MSER(Maximally Stable External Region) 알고리즘 및 에지 검출 알고리즘을 이용하여 상기 이미지 내에서 사용자가 설정한 설정영역의 텍스트를 검출하는 단계; 텍스트 보정부에서 검출된 텍스트 내의 문자열을 보정하는 단계; 가공부에서 보정된 문자열을 기 설정된 음운 단위의 텍스트 파일로 가공하는 단계; 변환부에서 사용자의 입력정보에 기초하여 상기 음운 단위의 텍스트 파일을 음성 포맷으로 변환하는 단계; 및 출력부에서 상기 음성 포맷을 사용자의 설정정보에 따라 변환하여 출력하는 단계를 포함한다.

Description

이미지 내의 텍스트 음성 변환 장치 및 방법
본 발명은 이미지 내의 텍스트 음성 변환 장치 및 방법에 관한 것이다.
이미지 내의 텍스트는 유의미한 정보를 제공하는 경우가 많으므로 장면 텍스트(Scene Text)를 검출하고 인식하는 것은 이미지 및 비디오 검색(image and video retrieval), 다국어 번역기, automotive assistance와 같은 다양한 컴퓨터 비전 애플리케이션에서 중요하게 여겨져 왔다.
이에 본 발명은 사용자의 단말에서 촬영된 이미지 및 외부에서 취득한 텍스트가 포함된 이미지 내의 텍스트를 음성포맷으로 변환하여, 사용자가 지정한 이미지 영역에 기록된 텍스트를 음성으로 청취할 수 있는 장치 및 방법을 제공하고자 한다.
본 발명이 해결하고자 하는 과제는 종래의 문제점을 해결할 수 있는 이미지 내의 텍스트 음성 변환 장치 및 방법을 제공하는 데 그 목적이 있다.
상기 과제를 해결하기 위한 본 발명의 일 실시예에 따른 이미지 내의 텍스트 음성 변환 방법은 이미지 획득부에서 텍스트가 기록된 매체의 이미지를 획득하는 단계; 텍스트 검출부에서 MSER(Maximally Stable External Region) 알고리즘 및 에지 검출 알고리즘을 이용하여 상기 이미지 내에서 사용자가 설정한 설정영역의 문자열을 검출하는 단계; 텍스트 보정부에서 검출된 문자열을 보정하는 단계; 가공부에서 보정된 문자열을 기 설정된 음운 단위의 텍스트 파일로 가공하는 단계; 변환부에서 사용자의 입력정보에 기초하여 상기 음운 단위의 텍스트 파일을 음성 포맷으로 변환하는 단계; 및 출력부에서 상기 음성 포맷을 사용자의 설정정보에 따라 변환하여 출력하는 단계를 포함한다.
일 실시예에서, 상기 텍스트를 검출하는 단계는 사용자로부터 상기 이미지 내의 텍스트 검출영역을 설정한 설정정보를 수신하는 단계; 상기 설정정보에 해당하는 텍스트 검출영역을 지정한 후, 상기 MSER(Maximally Stable External Region) 알고리즘을 이용하여 상기 텍스트 검출영역에 해당하는 이미지 내에서 강도(intensity)가 주변에 인접한 픽셀들과 상이한 픽셀들의 집합 영역을 블럽(blob)으로 검출하는 단계; 에지 검출 알고리즘을 이용하여 검출된 블럽 내의 에지 픽셀들을 검출하는 단계; 검출된 에지 픽셀들의 노이즈를 필터링하는 단계; 및 필터링된 에지 픽셀들의 특징점을 생성한 후, 특징점을 연결하는 단계를 포함한다.
일 실시예에서, 상기 검출된 문자열을 보정하는 단계는 상기 검출된 문자열의 크기(높이, 폭), 배열순 및 종횡비를 기 설정 값으로 1차 보정하는 단계; 1차 보정된 문자열 내의 문자의 식별강도를 판단한 후, 상기 식별강도가 기준 강도 미만인 문자를 추출하는 단계; 및 상기 기준 강도 미만인 문자를 인접 문자와의 어법에 적합한 문자로 2차 보정하는 단계를 포함한다.
상기 과제를 해결하기 위한 본 발명의 일 실시예에 따른 이미지 내의 텍스트 음성 변환 장치는 텍스트가 기록된 매체의 이미지를 획득하는 이미지 획득부; MSER(Maximally Stable External Region) 알고리즘 및 에지 검출 알고리즘을 이용하여 상기 이미지 내에서 사용자가 설정한 설정영역의 문자열을 검출하는 텍스트 검출부; 검출된 문자열을 보정하는 텍스트 보정부; 보정된 문자열을 기 설정된 음운 단위의 텍스트 파일로 가공하는 가공부; 사용자의 입력정보에 기초하여 상기 음운 단위의 텍스트 파일을 음성 포맷으로 변환하는 변환부; 및 상기 음성 포맷을 사용자의 설정정보에 따라 변환하여 출력하는 출력부를 포함한다.
일 실시예에서, 상기 텍스트 검출부는 사용자로부터 상기 이미지 내의 텍스트 검출영역을 설정한 설정정보를 수신하고, 상기 설정정보에 해당하는 텍스트 검출영역을 지정한 후, 상기 MSER(Maximally Stable External Region) 알고리즘을 이용하여 상기 텍스트 검출영역에 해당하는 이미지 내에서 강도(intensity)가 주변에 인접한 픽셀들과 상이한 픽셀들의 집합 영역을 블럽(blob)으로 검출한 후, 에지 검출 알고리즘을 이용하여 검출된 블럽 내의 에지 픽셀들을 검출하는 픽셀 검출부; 검출된 에지 픽셀들의 노이즈를 필터링하는 필터링부; 필터링된 에지 픽셀들의 특징점을 생성한 후, 특징점을 연결하는 특징점 연결부를 포함한다.
일 실시예에서, 상기 텍스트 보정부는 상기 검출된 문자열의 크기(높이, 폭), 배열순 및 종횡비를 기 설정 값으로 1차 보정하는 1차 보정부; 1차 보정된 문자열 내의 문자의 식별강도를 판단한 후, 상기 식별강도가 기준 강도 미만인 문자를 추출하는 추출부; 상기 기준 강도 미만인 문자를 인접 문자와의 어법에 적합한 문자로 2차 보정하는 2차 보정부를 포함한다.
본 발명의 일 실시예에 따른 이미지 내의 텍스트 음성 변환 방법 및 장치를 이용하면, 사용자가 지정한 텍스트가 포함된 이미지 영역 내에 규칙 또는 불규칙적인 형태로 배열된 텍스트를 용이하게 검출할 수 있다는 이점이 있다.
또한, 검출한 텍스트를 음성 포맷으로 변환하여 사용자에게 출력할 수 있다는 이점이 있다.
도 1은 본 발명의 일 실시예에 따른 이미지 내의 텍스트 음성 변환 장치의 블록도이다.
도 2는 도 1에 도시된 텍스트 검출부의 블록도이다.
도 3은 도 1에 도시된 텍스트 보정부의 블록도이다.
도 4는 본 발명의 일 실시예에 따른 이미지 내의 텍스트 음성 변환 방법을 설명한 흐름도이다.
도 5는 도 4에 도시된 S720 과정의 흐름도이다.
도 6은 도 4에 도시된 S730 과정의 흐름도이다.
이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다. 아래 설명하는 실시예들에는 다양한 변경이 가해질 수 있다. 아래 설명하는 실시예들은 실시 형태에 대해 한정하려는 것이 아니며, 이들에 대한 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
실시예에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 실시예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
이하, 첨부된 도면들에 기초하여 본 발명의 일 실시예에 따른 이미지 내의 텍스트 음성 변환 장치 및 방법을 보다 상세하게 설명하도록 한다.
도 1은 본 발명의 일 실시예에 따른 이미지 내의 텍스트 음성 변환 장치의 블록도이고, 도 2는 도 1에 도시된 텍스트 검출부의 블록도이고, 도 3은 도 1에 도시된 텍스트 보정부의 블록도이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 이미지 내의 텍스트 음성 변환 장치(100)는 사용자 단말에 설치 및 연동가능한 어플리케이션(application)일 수 있다.
보다 구체적으로, 상기 텍스트 음성 변환 장치(100)는 이미지 획득부(110), 텍스트 검출부(120), 텍스트 보정부(130), 가공부(140), 변환부(150) 및 출력부(160)를 포함한다.
이미지 획득부(110)는 텍스트가 기록된 이미지를 획득한다. 상기 이미지 획득부(110)는 사용자 단말의 카메라와 연동될 수 있고, 사용자 단말의 카메라에서 촬영된 이미지가 자동을 수집되도록 설정하기 자동 수집 기능을 포함할 수 있다.
이미지는 디지털 형태로 획득되며 행렬 형태로 배열된 복수의 픽셀들을 포함한다. 픽셀들은 바람직하게는 정사각형 형태로 구성될 수 있으나, 반드시 이에 한정되지는 않는다.
상기 텍스트 검출부(120)는 MSER(Maximally Stable External Region) 알고리즘 및 에지 검출 알고리즘을 이용하여 상기 이미지 내에서 사용자가 설정한 설정영역의 문자열을 검출하기 위하여, 픽셀 검출부(121), 필터링부(122) 및 특징점 연결부(123)을 포함할 수 있다.
상기 픽셀 검출부(121)는 사용자로부터 상기 이미지 내의 텍스트 검출영역을 설정한 설정정보를 수신하고, 상기 설정정보에 해당하는 텍스트 검출영역을 지정한 후, 상기 MSER(Maximally Stable External Region) 알고리즘을 이용하여 상기 텍스트 검출영역에 해당하는 이미지 내에서 강도(intensity)가 주변에 인접한 픽셀들과 상이한 픽셀들의 집합 영역을 블럽(blob)으로 검출한 후, 에지 검출 알고리즘을 이용하여 검출된 블럽 내의 에지 픽셀들을 검출한다.
상기 픽셀 검출부(121)는 블롭 생성부(121-1) 및 에지 검출부(121-2)로 구성되며, 상기 블롭 생성부(121-1)는 MSER(Maximally Stable External Region) 알고리즘을 이용하여 상기 텍스트 검출영역에 해당하는 이미지 내에서 강도(intensity)가 주변에 인접한 픽셀들과 상이한 픽셀들의 집합 영역을 블럽(blob)으로 검출한다.
여기서, 블롭(BLOB)은 상술한 바와 같이, 텍스트 후보 영역을 지칭한다. 하나의 블롭은 이미지 내의 하나의 획에 대응되는 것이 바람직하나, 반드시 이에 한정되지는 않는다.
상기 에지 검출부(121-2)는 에지 검출(edge detection) 알고리즘을 이용하여 각 블롭 내의 에지 픽셀들을 검출한다. 에지 검출(edge detection) 알고리즘은 블롭 내의 픽셀들의 x 방향 밝기 변화율, 그리고 y 방향 밝기 변화율을 측정하여 변화율이 큰 지점을 에지로 검출한다. 에지 검출부(121-2)는 에지 검출 알고리즘을 이용하여 블롭 내에서 밝기 및 색상 변화율이 큰 지점의 픽셀들을 에지 픽셀들로 지정할 수 있다.
다음으로, 필터링부(122)는 검출된 에지 픽셀들의 노이즈를 필터링한다. 양방향 필터링에 의해서 텍스트들의 구조가 유지되면서 이미지 내의 노이즈가 제거될 수 있으며, 이에 따라 이후의 단계들이 보다 빠르게 진행될 수 있다. 이미지에 대한 양방향 필터링을 수행할 때에 텍스트들의 구조를 유지하기 위해서, 임계값을 보수적으로 설정할 수 있다.
다음으로, 상기 특징점 연결부(123)는 필터링된 에지 픽셀들의 특징점을 생성한 후, 특징점을 연결하는 기능을 수행한다.
다음으로, 검출된 문자열을 보정하는 텍스트 보정부(130)는 1차 보정부(131), 추출부(132) 및 2차 보정부(133)을 포함할 수 있다.
상기 1차 보정부(131)는 특징점들로 연결된 문자들로 배열된 문자열의 크기(높이, 폭), 배열순 및 종횡비를 기 설정 값으로 1차 보정한다.
상기 추출부(132)는 1차 보정된 문자열 내의 각 문자의 식별강도를 판단한 후, 상기 식별강도가 기준 강도 미만인 문자를 추출한다.
상기 2차 보정부(133)는 상기 기준 강도 미만인 문자를 인접 문자와의 어법에 적합한 문자로 2차 보정한다.
예컨대, 추출부(132)에서 추출된 문자열이 “가다한사람이모여”일 경우, 2차 보정부(133)는 “가다한사람이모여”를 ①“가”, ②“다”, ③“한”, ④“사”, ⑤“람”, ⑥“이”, ⑦“모”, ⑧“여”로 분류한 후, 각 문자를 2 ~5 개로 묶는 그룹핑을 수행한 후, 그룹핑에 따라 연결된 문자와 문자 간의 어법을 순차적으로 검증한다.
이때, 그룹핑의 범위는 최대 그룹에서 최소 그룹 방식으로 실행되고, 그룹핑된 문자들 간의 어법이 기준어법에 해당할 경우, 해당 그룹핑 문자들은 검증과정에서 제외된다.
예를 들어, 문자열이 “가다한사람이모여있는마을”일 경우, 그룹핑의 문자개수가 3개로 설정된다고 가정하면, 제1 그룹핑 “가다한”, 제2 그룹핑 “사람이”, 제3 그룹핑 “모여있” 제4 그룹핑 “는마을”로 그룹되어 분류되고, 각 그룹핑된 문자들 간의 어법을 검증한다. 이때, 각 그룹핑의 최외각의 문자는 인접 그룹핑의 최외각 문자와의 어법관계로 검증할 수 있다. 따라서, “가다한”은 “가난한”으로 보정될 수 있고, 해당 문자열은 “가난한 사람이 모여있는 마을”로 보정될 수 있다.
다음으로, 가공부(140)는 보정된 문자열을 기 설정된 음운 단위의 텍스트 파일로 가공한다.
다음으로, 변환부(150)는 사용자의 입력정보에 기초하여 상기 음운 단위의 텍스트 파일을 음성 포맷으로 변환한다.
다음으로, 출력부(160)는 상기 음성 포맷을 사용자의 설정정보에 따라 변환하여 출력한다. 상기 출력부(160)는 사용자 단말의 설치된 스피커와 연동될 수 있다.
여기서, 설정정보는 음성형태(가령, 여성, 남성, 어린이 음성), 배경음악, 문자열의 범위 등을 포함할 수 있다.
한편, 본 발명의 일 실시예에 따른 이미지 내의 텍스트 음성 변환 장치(100)는 이진화 처리부(101), 제어부(102), 메모리(103)를 포함할 수 있다.
이진화 처리부(101)는 이미지에 대한 이진화 처리를 수행한다. 여기서 이진화 처리란 이미지 내에 나타나는 모든 픽셀들이 흑 또는 백으로만 표시되도록 처리하여 데이터 양을 감소시키는 것을 의미한다. 여기서, 이진화 처리부(101)는 이미지의 일부 또는 전부에 대한 이진화 처리를 수행하기 위해 다양한 방법을 이용할 수 있다.
제어부(102)는 각 부의 데이터의 흐름을 제어하는 기능을 수행한다.
메모리(103)는 이미지 내의 텍스트 검출 방법을 수행하기 위한 데이터들이 저장된다. 예를 들어, 메모리에는 획득된 이미지, 변환된 이미지, 이미지 내에서 검출된 블롭, 텍스트를 검출하기 위한 알고리즘 등이 저장된다. 휘발성 메모리(예: DRAM(dynamic RAM), SRAM(static RAM), 또는 SDRAM(synchronous dynamic RAM) 등), 비휘발성 메모리(non-volatile Memory)(예: OTPROM(one time programmable ROM), PROM(programmable ROM), EPROM(erasable and programmable ROM), EEPROM(electrically erasable and programmable ROM), mask ROM, flash ROM, 플래시 메모리(예: NAND flash 또는 NOR flash 등), 하드 드라이브, 또는 솔리드 스테이트 드라이브(solid state drive(SSD)) 중 적어도 하나를 포함할 수 있다.
도 4는 본 발명의 일 실시예에 따른 이미지 내의 텍스트 음성 변환 방법을 설명한 흐름도이고, 도 5는 도 4에 도시된 S720 과정의 흐름도이고, 도 6은 도 4에 도시된 S730 과정의 흐름도이다.
도 4 내지 도 6을 참조하면, 본 발명의 일 실시예에 따른 이미지 내이 텍스트 음성 변환 방법(S700)은 이미지 획득부에서 텍스트가 기록된 매체의 이미지를 획득(S710)한 후, 텍스트 검출부에서 MSER(Maximally Stable External Region) 알고리즘 및 에지 검출 알고리즘을 이용하여 상기 이미지 내에서 사용자가 설정한 설정영역의 문자열을 검출(S720)한다.
상기 S720 과정은 사용자로부터 상기 이미지 내의 텍스트 검출영역을 설정한 설정정보를 수신(S721)하고, 상기 설정정보에 해당하는 텍스트 검출영역을 지정한 후, 상기 MSER(Maximally Stable External Region) 알고리즘을 이용하여 상기 텍스트 검출영역에 해당하는 이미지 내에서 강도(intensity)가 주변에 인접한 픽셀들과 상이한 픽셀들의 집합 영역을 블럽(blob)으로 검출(S722)하고, 에지 검출 알고리즘을 이용하여 검출된 블럽 내의 에지 픽셀들을 검출(S723)한 후, 검출된 에지 픽셀들의 노이즈를 필터링(S724)한 후, 필터링된 에지 픽셀들의 특징점을 생성한 후, 특징점을 연결(S725)하여 문자를 생성한다.
다음으로, 텍스트 보정부(130)에서 검출된 문자열을 보정(S730)한다.
보다 구체적으로, 상기 S730 과정은 특징점들로 연결된 문자들로 배열된 문자열의 크기(높이, 폭), 배열순 및 종횡비를 기 설정 값으로 1차 보정(S731)하고, 1차 보정된 문자열 내의 각 문자의 식별강도를 판단한 후, 상기 식별강도가 기준 강도 미만인 문자를 추출(S732)한 후, 상기 기준 강도 미만인 문자를 인접 문자와의 어법에 적합한 문자로 2차 보정(S733)한다.
예컨대, 추출된 문자열이 “가다한사람이모여”일 경우, 2차 보정부(133)는 “가다한사람이모여”를 ①“가”, ②“다”, ③“한”, ④“사”, ⑤“람”, ⑥“이”, ⑦“모”, ⑧“여”로 분류한 후, 각 문자를 2 ~5 개로 묶는 그룹핑을 수행한 후, 그룹핑에 따라 연결된 문자와 문자 간의 어법을 순차적으로 검증한다.
이때, 그룹핑의 범위는 최대 그룹에서 최소 그룹 방식으로 실행되고, 그룹핑된 문자들 간의 어법이 기준어법에 해당할 경우, 해당 그룹핑 문자들은 검증과정에서 제외된다.
예를 들어, 문자열이 “가다한사람이모여있는마을”일 경우, 그룹핑의 문자개수가 3개로 설정된다고 가정하면, 제1 그룹핑 “가다한”, 제2 그룹핑 “사람이”, 제3 그룹핑 “모여있” 제4 그룹핑 “는마을”로 그룹되어 분류되고, 각 그룹핑된 문자들 간의 어법을 검증한다. 이때, 각 그룹핑의 최외각의 문자는 인접 그룹핑의 최외각 문자와의 어법관계로 검증할 수 있다. 따라서, “가다한”은 “가난한”으로 보정될 수 있고, 해당 문자열은 “가난한 사람이 모여있는 마을”로 보정될 수 있다.
따라서, 상술한 방식으로 복수 개의 문자열을 상술한 방식으로 보정할 수 있다.
이후, 가공부(140)에서 보정된 문자열을 기 설정된 음운 단위의 텍스트 파일로 가공(S740)한 후, 변환부(150)에서 사용자의 입력정보에 기초하여 상기 음운 단위의 텍스트 파일을 음성 포맷으로 변환(S750)한 후, 출력부(160)에서 상기 음성 포맷을 사용자의 설정정보에 따라 변환하여 출력(S760)한다. 상기 출력부(160)는 사용자 단말의 설치된 스피커와 연동될 수 있다.
따라서, 본 발명의 일 실시예에 따른 이미지 내의 텍스트 음성 변환 방법 및 장치를 이용하면, 사용자가 지정한 텍스트가 포함된 이미지 영역 내에 규칙 또는 불규칙적인 형태로 배열된 텍스트를 용이하게 검출할 수 있다는 이점이 있다.
또한, 검출한 텍스트를 음성 포맷으로 변환하여 사용자에게 출력할 수 있다는 이점이 있다.
본 명세서에 첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다.
이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
본 명세서에서, 각 블록은 특정된 논리적 기능 (들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실행 예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서에 의해 실행되는 하드웨어, 소프트웨어 모듈 또는 그 2 개의 결합으로 직접 구현될 수도 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM 또는 당 업계에 알려진 임의의 다른 형태의 저장 매체에 상주할 수도 있다. 예시적인 저장 매체는 프로세서에 커플링되며, 그 프로세서는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로 (ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.
이상으로 실시예를 들어 본 발명을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형 실시될 수 있다. 따라서 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (6)

  1. 이미지 획득부에서 텍스트가 기록된 이미지를 획득하는 단계;
    텍스트 검출부에서 MSER(Maximally Stable External Region) 알고리즘 및 에지 검출 알고리즘을 이용하여 상기 이미지 내에서 사용자가 설정한 설정영역의 문자열을 검출하는 단계;
    텍스트 보정부에서 검출된 문자열을 보정하는 단계;
    가공부에서 보정된 문자열을 기 설정된 음운 단위의 텍스트 파일로 가공하는 단계;
    변환부에서 사용자의 입력정보에 기초하여 상기 음운 단위의 텍스트 파일을 음성 포맷으로 변환하는 단계; 및
    출력부에서 상기 음성 포맷을 사용자의 설정정보에 따라 변환하여 출력하는 단계를 포함하는 이미지 내의 텍스트 음성 변환 방법.
  2. 제1항에 있어서,
    상기 텍스트를 검출하는 단계는
    사용자로부터 상기 이미지 내의 텍스트 검출영역을 설정한 설정정보를 수신하는 단계;
    상기 설정정보에 해당하는 텍스트 검출영역을 지정한 후, 상기 MSER(Maximally Stable External Region) 알고리즘을 이용하여 상기 텍스트 검출영역에 해당하는 이미지 내에서 강도(intensity)가 주변에 인접한 픽셀들과 상이한 픽셀들의 집합 영역을 블럽(blob)으로 검출하는 단계;
    에지 검출 알고리즘을 이용하여 검출된 블럽 내의 에지 픽셀들을 검출하는 단계;
    검출된 에지 픽셀들의 노이즈를 필터링하는 단계; 및
    필터링된 에지 픽셀들의 특징점을 생성한 후, 특징점을 연결하는 단계를 포함하는 이미지 내의 텍스트 음성 변환 방법.
  3. 제2항에 있어서,
    상기 검출된 문자열을 보정하는 단계는
    상기 검출된 문자열의 크기(높이, 폭), 배열순 및 종횡비를 기 설정 값으로 1차 보정하는 단계;
    1차 보정된 문자열 내의 문자의 식별강도를 판단한 후, 상기 식별강도가 기준 강도 미만인 문자를 추출하는 단계; 및
    상기 기준 강도 미만인 문자를 인접 문자와의 어법에 적합한 문자로 2차 보정하는 단계를 포함하는 이미지 내의 텍스트 음성 변환 방법.
  4. 텍스트가 기록된 매체의 이미지를 획득하는 이미지 획득부;
    MSER(Maximally Stable External Region) 알고리즘 및 에지 검출 알고리즘을 이용하여 상기 이미지 내에서 사용자가 설정한 설정영역의 문자열을 검출하는 텍스트 검출부;
    검출된 문자열을 보정하는 텍스트 보정부;
    보정된 문자열을 기 설정된 음운 단위의 텍스트 파일로 가공하는 가공부;
    사용자의 입력정보에 기초하여 상기 음운 단위의 텍스트 파일을 음성 포맷으로 변환하는 변환부; 및
    상기 음성 포맷을 사용자의 설정정보에 따라 변환하여 출력하는 출력부를 포함하는 이미지 내의 텍스트 음성 변환 장치.
  5. 제4항에 있어서,
    상기 텍스트 검출부는
    사용자로부터 상기 이미지 내의 텍스트 검출영역을 설정한 설정정보를 수신하고, 상기 설정정보에 해당하는 텍스트 검출영역을 지정한 후, 상기 MSER(Maximally Stable External Region) 알고리즘을 이용하여 상기 텍스트 검출영역에 해당하는 이미지 내에서 강도(intensity)가 주변에 인접한 픽셀들과 상이한 픽셀들의 집합 영역을 블럽(blob)으로 검출한 후, 에지 검출 알고리즘을 이용하여 검출된 블럽 내의 에지 픽셀들을 검출하는 픽셀 검출부;
    검출된 에지 픽셀들의 노이즈를 필터링하는 필터링부;
    필터링된 에지 픽셀들의 특징점을 생성한 후, 특징점을 연결하는 특징점 연결부를 포함하는 이미지 내의 텍스트 음성 변환 장치.
  6. 제4항에 있어서,
    상기 텍스트 보정부는
    상기 검출된 문자열의 크기(높이, 폭), 배열순 및 종횡비를 기 설정 값으로 1차 보정하는 1차 보정부;
    1차 보정된 문자열 내의 문자의 식별강도를 판단한 후, 상기 식별강도가 기준 강도 미만인 문자를 추출하는 추출부;
    상기 기준 강도 미만인 문자를 인접 문자와의 어법에 적합한 문자로 2차 보정하는 2차 보정부를 포함하는 이미지 내의 텍스트 음성 변환 장치.
PCT/KR2019/003926 2018-04-05 2019-04-03 이미지 내의 텍스트 음성 변환 장치 및 방법 WO2019194566A1 (ko)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
KR10-2018-0039789 2018-04-05
KR20180039789 2018-04-05
KR20180076678 2018-07-02
KR10-2018-0076678 2018-07-02
KR1020190022688A KR20190116907A (ko) 2018-04-05 2019-02-26 이미지 내의 텍스트 음성 변환 장치 및 방법
KR10-2019-0022688 2019-02-26

Publications (1)

Publication Number Publication Date
WO2019194566A1 true WO2019194566A1 (ko) 2019-10-10

Family

ID=68100952

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/003926 WO2019194566A1 (ko) 2018-04-05 2019-04-03 이미지 내의 텍스트 음성 변환 장치 및 방법

Country Status (1)

Country Link
WO (1) WO2019194566A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050071167A1 (en) * 2003-09-30 2005-03-31 Levin Burton L. Text to speech conversion system
KR20150094389A (ko) * 2014-02-11 2015-08-19 한국기술교육대학교 산학협력단 카메라를 이용한 문자 정보 서비스 방법 및 그 장치
KR20150103591A (ko) * 2014-03-03 2015-09-11 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법
KR20160146355A (ko) * 2015-06-12 2016-12-21 주식회사 셀바스에이아이 이미지 내의 텍스트를 검출하는 방법 및 장치
KR20170081350A (ko) * 2016-01-04 2017-07-12 한국전자통신연구원 이미지 텍스트에 대한 프레임 단위의 특징벡터 추출에 의한 문자인식 및 번역을 수행하는 문자통역 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050071167A1 (en) * 2003-09-30 2005-03-31 Levin Burton L. Text to speech conversion system
KR20150094389A (ko) * 2014-02-11 2015-08-19 한국기술교육대학교 산학협력단 카메라를 이용한 문자 정보 서비스 방법 및 그 장치
KR20150103591A (ko) * 2014-03-03 2015-09-11 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법
KR20160146355A (ko) * 2015-06-12 2016-12-21 주식회사 셀바스에이아이 이미지 내의 텍스트를 검출하는 방법 및 장치
KR20170081350A (ko) * 2016-01-04 2017-07-12 한국전자통신연구원 이미지 텍스트에 대한 프레임 단위의 특징벡터 추출에 의한 문자인식 및 번역을 수행하는 문자통역 장치 및 방법

Similar Documents

Publication Publication Date Title
WO2021071286A1 (ko) 생성적 적대 신경망 기반의 의료영상 학습 방법 및 장치
WO2021184847A1 (zh) 一种遮挡车牌字符识别方法、装置、存储介质和智能设备
Jiang et al. Computer vision and text recognition for assisting visually impaired people using Android smartphone
US11605210B2 (en) Method for optical character recognition in document subject to shadows, and device employing method
CN111226226A (zh) 基于运动的对象检测方法及其对象检测装置和电子设备
CN112651358A (zh) 一种目标检测方法、装置、网络摄像机及存储介质
CN110751642A (zh) 一种绝缘子裂缝检测方法和系统
CN110110788A (zh) 原件和比对件的比对方法及装置
JP2014128003A (ja) 画像認識装置、その制御方法及びプログラム
WO2019194566A1 (ko) 이미지 내의 텍스트 음성 변환 장치 및 방법
Punsara et al. IoT based sign language recognition system
CN111800294B (zh) 网关故障诊断方法、装置、网络设备及存储介质
KR101513856B1 (ko) 점자를 음성 신호로 변환하는 시스템
KR20190116907A (ko) 이미지 내의 텍스트 음성 변환 장치 및 방법
CN105956606B (zh) 一种基于不对称变换的行人再标识方法
CN116844224A (zh) 课堂行为检测模型训练方法、课堂行为检测方法及系统
WO2021071258A1 (ko) 인공지능 기반의 휴대용 보안영상 학습장치 및 방법
CN214202843U (zh) 一种基于ocr和tts的视障者阅读装置
JP2508975B2 (ja) 電子黒板
CN111985299B (zh) 一种基于改进卷积神经网络的口罩识别方法及装置
Roque et al. Assistive Technology for Braille Reading using Optical Braille Recognition and Text-to-Speech
EP2454719A1 (en) Method and apparatus for processing image
WO2023101232A1 (ko) 수치화 장치 및 방법
Wen et al. Optical Character Recognition with Word Prediction Feature using First Order Hidden Markov For The Blind
WO2022163982A1 (ko) 딥러닝을 이용한 음원 분류 장치 및 그 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19781409

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19781409

Country of ref document: EP

Kind code of ref document: A1