KR20060124495A - The scanning device which supports voice extensible markup language and the method of outputting sound using it - Google Patents

The scanning device which supports voice extensible markup language and the method of outputting sound using it Download PDF

Info

Publication number
KR20060124495A
KR20060124495A KR1020050046456A KR20050046456A KR20060124495A KR 20060124495 A KR20060124495 A KR 20060124495A KR 1020050046456 A KR1020050046456 A KR 1020050046456A KR 20050046456 A KR20050046456 A KR 20050046456A KR 20060124495 A KR20060124495 A KR 20060124495A
Authority
KR
South Korea
Prior art keywords
voice
vxml
unit
file
voice signal
Prior art date
Application number
KR1020050046456A
Other languages
Korean (ko)
Inventor
김동현
이병진
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020050046456A priority Critical patent/KR20060124495A/en
Publication of KR20060124495A publication Critical patent/KR20060124495A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K7/00Methods or arrangements for sensing record carriers, e.g. for reading patterns
    • G06K7/10Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation
    • G06K7/14Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation using light without selection of wavelength, e.g. sensing reflected white light
    • G06K7/1404Methods for optical code recognition
    • G06K7/1439Methods for optical code recognition including a method step for retrieval of the optical code
    • G06K7/1447Methods for optical code recognition including a method step for retrieval of the optical code extracting optical codes from image or text carrying said optical code
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00405Output means
    • H04N1/00488Output means providing an audible output to the user

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Electromagnetism (AREA)
  • Multimedia (AREA)
  • Toxicology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Facsimiles In General (AREA)

Abstract

A scanning device supporting VXML(Voice eXtensible Markup Language) and a voice output method using the same are provided to facilitate movement and management of scanning data by recognizing only the characters from the scanning data, converting the characters into a VXML file, and storing the VXML file. A scanning part(10) generates image data. An OCR(Optical Character Recognition) engine(20) recognizes only the characters from the generated image data and outputs the recognized characters. The first storing part(40) stores multiple voice output values respectively matched with multiple voice types as a lookup table form. A VXML encoder(30) generates the digital VXML file by encoding the characters received from the OCR engine to the specific voice type according to one preset voice output value among the voice output values. A voice signal converter(70) converts the generated VXML file into a voice signal and outputs the voice signal in case that a voice output function is set.

Description

VXML을 지원하는 스캐닝 기기 및 이를 이용한 음성출력방법{The scanning device which supports voice extensible markup language and the method of outputting sound using it}The scanning device which supports voice extensible markup language and the method of outputting sound using it}

도 1은 본 발명에 따른 VXML을 지원하는 스캐닝 기기의 구성을 도시한 블럭도, 그리고1 is a block diagram showing the configuration of a scanning device supporting VXML according to the present invention; and

도 2는 본 발명에 따른 VXML을 지원하는 스캐닝 기기를 이용한 음성출력방법의 설명에 제공되는 흐름도이다.2 is a flowchart provided to explain a voice output method using a scanning device supporting VXML according to the present invention.

* 도면의 주요 부분에 대한 간단한 설명 *Brief description of the main parts of the drawing

10: 스캐닝부 12: 입력부10: scanning unit 12: input unit

14: 표시부 16: 조작 패널14: Display portion 16: Operation panel

20: OCR 엔진부 30: VXML 인코더부20: OCR engine unit 30: VXML encoder unit

40: 제1 저장부 50: 제어부40: first storage unit 50: control unit

60: 인터페이스부 70: 음성신호 변환부60: interface unit 70: voice signal conversion unit

80: 음성출력부 90: 제2 저장부80: audio output unit 90: second storage unit

100: 스캐닝 기기 110: 외부 디바이스100: scanning device 110: external device

본 발명은 음성확장표시언어(Voice eXtesible Markup Language:이하 'VXML'이라 함)을 지원하는 스캐닝 기기 및 이를 이용한 음성출력방법에 관한 것이다.The present invention relates to a scanning device that supports a Voice eXtesible Markup Language (hereinafter referred to as 'VXML') and a voice output method using the same.

최근 사무자동화 기기의 발전과 보급률의 증가로 인하여 하나의 장치로서 여러 기능을 동시에 수행할 수 있도록 한 복합기가 제시되었다. 최근 시판되는 복합기는 팩시밀리, 복사기, 프린터, 스캐너가 일체화되어 있는 구조로서, 스캐너, 프린트 엔진, 호스트 PC 인터페이스를 구비하여 다양한 기능을 수행하며, 특히 스캐너에 의해 변환된 화상 데이터 중에서 문자만을 인식하는 문자 인식 기능도 갖추고 있다.Recently, due to the development of office automation equipment and the increase in the penetration rate, a multifunction device has been proposed that can perform multiple functions simultaneously as a single device. The recently marketed multifunction device is a structure in which a facsimile machine, a copier, a printer, and a scanner are integrated. The multifunction device includes a scanner, a print engine, and a host PC interface, and performs various functions. It also has a recognition function.

한편, 종래의 문자 인식 시스템은 문자 인식을 통하여 취득한 정보를 텍스트 파일이나 음성신호로만 변환할 수 있어서, 문자 인식을 통하여 취득한 정보를 다른 형식으로 변환하기가 쉽지 않은 문제점이 있다. 이에 따라, 문자 인식을 통하여 취득한 정보를 다양한 매체에 쉽게 적용하고자 하는 요구가 증대되고 있다.On the other hand, the conventional character recognition system can convert the information acquired through the character recognition only into a text file or a voice signal, there is a problem that it is not easy to convert the information obtained through the character recognition to another format. Accordingly, there is an increasing demand for easily applying information acquired through character recognition to various media.

따라서, 본 발명의 목적은 광학장치를 이용하여 스캐닝된 화상 데이터 중에서 문자만을 인식한 후, 인식한 문자를 국제표준포맷인 VXML 파일로 변환하여 저장함으로써 스캐닝한 데이터를 용이하게 이동 및 관리할 수 있는 VXML을 지원하는 스캐닝 기기 및 이를 이용한 음성출력방법을 제공하기 위함이다.Accordingly, an object of the present invention can easily move and manage the scanned data by recognizing only a character from the image data scanned using an optical device, and then converting and storing the recognized character into a VXML file in an international standard format. It is to provide a scanning device supporting VXML and a voice output method using the same.

상기 목적을 달성하기 위한 본 발명에 따른 VXML을 지원하는 스캐닝 기기는 외부 디바이스와 연결가능한 스캐닝 기기에 있어서, 화상 데이터를 생성하는 스캐닝부; 생성된 화상 데이터들 중에서 문자만을 인식하고, 인식된 문자들을 출력하는 OCR(Optical Character Reader) 엔진부; 복수 개의 음성 형태에 각각 대응되는 복수 개의 출력음성값을 룩업테이블의 형태로 저장하는 제1 저장부; 복수 개의 출력음성값 중에서 미리 설정된 어느 하나의 출력음성값에 따라 OCR 엔진부로부터 전송받은 문자들을 소정의 음성 형태로 인코딩하여 디지털 포맷의 VXML(Voice eXtensib le Markup Language) 파일을 생성하는 VXML 인코더부; 및 음성출력기능이 설정된 경우, VXML 인코더부에서 생성된 디지털 포맷의 VXML 파일을 음성신호로 변환하여 출력하는 음성신호 변환부;를 포함하는 것이 바람직하다.According to an aspect of the present invention, there is provided a scanning device that supports VXML, comprising: a scanning unit generating image data; An optical character reader (OCR) engine unit for recognizing only a character among the generated image data and outputting the recognized characters; A first storage unit which stores a plurality of output voice values corresponding to the plurality of voice types in the form of a lookup table; A VXML encoder for generating a digital format Voice XML Markup Language (VXML) file by encoding characters received from the OCR engine unit in a predetermined voice form according to one of predetermined output voice values among a plurality of output voice values; And a voice signal converter for converting the digital format VXML file generated by the VXML encoder to a voice signal and outputting the voice signal when the voice output function is set.

여기서, VXML 인코더부에서 생성된 디지털 포맷의 VXML 파일을 저장하는 제2 저장부;를 더 포함하는 것이 바람직하다.Here, the second storage unit for storing the VXML file of the digital format generated by the VXML encoder unit; preferably further includes.

여기서, 음성출력기능의 설정여부를 판단하여, 음성출력기능이 설정된 경우, VXML 인코더부에서 생성된 디지털 포맷의 VXML 파일을 음성신호 변환부로 전송하고, 음성출력기능이 설정되지 않은 경우, VXML 인코더부에서 생성된 디지털 포맷의 VXML 파일을 상기 제2 저장부에 저장하는 것을 특징으로 하는 제어부;를 더 포함하는 것이 바람직하다.Here, it is determined whether or not the audio output function is set, and when the audio output function is set, the VXML file of the digital format generated by the VXML encoder is transmitted to the voice signal converting unit. When the voice output function is not set, the VXML encoder unit The control unit, characterized in that for storing the VXML file of the digital format generated in the second storage unit; preferably further includes.

여기서, 제2 저장부에 저장된 VXML 파일을 외부 디바이스로 전송하기 위한 인터페이스부;를 더 포함하는 것이 바람직하다.Here, the interface unit for transmitting the VXML file stored in the second storage unit to the external device; preferably further includes.

또한, 본 발명에 따른 스캐닝 기기를 이용한 음성출력방법은 화상 데이터를 생성하는 단계; 화상 데이터들 중에서 문자만을 인식하는 단계; 인식한 문자들을 미리 설정된 소정 출력음성값에 대응되는 음성 형태로 인코딩하여 디지털 포맷의 VXML 파일을 생성하는 단계; 음성출력기능의 설정여부를 판단하는 단계; 및 음성출력기능이 설정된 경우, VXML 파일을 음성신호로 변환하여 출력하는 단계;를 포함하는 것이 바람직하다.In addition, the audio output method using a scanning device according to the present invention comprises the steps of generating image data; Recognizing only characters among the image data; Generating a VXML file in a digital format by encoding the recognized characters into a voice form corresponding to a predetermined output voice value; Determining whether the audio output function is set; And converting the VXML file into a voice signal and outputting the voice signal when the voice output function is set.

이하에서는 첨부된 예시도면을 참조하여 본 발명에 대해 설명한다.Hereinafter, with reference to the accompanying drawings illustrating the present invention.

도 1은 본 발명에 따른 VXML을 지원하는 스캐닝 기기의 구성을 도시한 블럭도이다. 도 1을 참조하면, 본 VXML을 지원하는 스캐닝 기기(100)는 스캐닝부(10), 조작 패널(16), OCR 엔진부(20), VXML 인코더부(30), 제1 저장부(40), 제어부(50), 인터페이스부(60), 음성신호 변환부(70), 음성출력부(80) 및 VXML 파일 저장부(90)를 포함한다. 상기 구성요소들 이외에 다른 구성요소들이 스캐닝 기기(100)에 포함될 수 있음은 자명하다.1 is a block diagram showing the configuration of a scanning device supporting VXML according to the present invention. Referring to FIG. 1, the scanning device 100 supporting the VXML includes a scanning unit 10, an operation panel 16, an OCR engine unit 20, a VXML encoder unit 30, and a first storage unit 40. , A control unit 50, an interface unit 60, a voice signal converter 70, a voice output unit 80, and a VXML file storage unit 90. Obviously, other components than the above components may be included in the scanning device 100.

인터페이스부(60)는 네트워크 접속 및/또는 직병렬 접속 등을 통하여 외부 디바이스(110)와 스캐닝 기기(100) 간의 인터페이스를 제공한다. 외부 디바이스(110)는 화상 데이터로의 변환을 위한 소정 데이터를 제공할 수 있는 기기인 것이 바람직하며, 대표적인 예로 호스트 컴퓨터가 있다.The interface unit 60 provides an interface between the external device 110 and the scanning device 100 through a network connection and / or a serial or parallel connection. The external device 110 is preferably a device capable of providing predetermined data for conversion into image data. A representative example is a host computer.

스캐닝부(10)는 원고의 이미지를 스캐닝하여 화상 데이터를 생성한다. 또한, 스캐닝부(10)는 외부 디바이스(110)로부터 전송받은 소정 데이터를 화상 데이터로 변환한다. 이와 같이 스캐닝부(10)에 의해 생성 또는 변환된 화상 데이터는 OCR(Optical Character Reader) 엔진부(20)로 전송된다. The scanning unit 10 scans an image of an original to generate image data. In addition, the scanning unit 10 converts predetermined data received from the external device 110 into image data. The image data generated or converted by the scanning unit 10 in this way is transmitted to the optical character reader (OCR) engine unit 20.

OCR 엔진부(20)는 광학 장치를 이용해 스캐닝부(10)로부터 전송된 화상 데이 터 중에서 문자만을 인식한 후, 인식한 문자를 VXML 인코더부(30)로 전송한다.The OCR engine unit 20 recognizes only a character from the image data transmitted from the scanning unit 10 by using the optical device, and then transmits the recognized character to the VXML encoder 30.

VXML 인코더부(30)는 제1 저장부(40)에 저장된 복수의 출력음성값 중 미리 설정된 출력음성값에 따라 OCR 엔진부(20)로부터 전송받은 문자들을 인코딩하여 디지털 포맷의 VXML 파일을 생성한다. 제1 저장부(40)는 룩업테이블의 형태로 다양한 음성 형태에 대응하는 복수 개의 출력음성값을 저장하고 있다. The VXML encoder 30 generates a VXML file in a digital format by encoding characters received from the OCR engine unit 20 according to a preset output voice value among a plurality of output voice values stored in the first storage unit 40. . The first storage unit 40 stores a plurality of output voice values corresponding to various voice types in the form of a lookup table.

조작 판넬(16)은 입력부(12)와 표시부(16)를 구비한다. 입력부(12)는 음성출력기능의 설정 및 출력음성의 형태를 선택하기 위한 메뉴를 제공해주는 메뉴 버튼 및 스캔동작개시명령을 인가하기 위한 스캔동작개시버튼 등의 각종 버튼을 구비한다. 표시부(14)는 스캐닝 기기의 현재 상태 및 각종 메뉴 화면을 디스플레이하며, 일반적으로 LCD로 구현되는 것이 바람직하다. The operation panel 16 has an input unit 12 and a display unit 16. The input unit 12 includes various buttons such as a menu button for providing a menu for setting a voice output function and selecting a form of an output voice, and a scan operation start button for applying a scan operation start command. The display unit 14 displays the current state of the scanning device and various menu screens, and is preferably implemented by LCD.

제어부(50)는 스캐닝 기기(100)의 전반적인 동작을 제어한다. 특히, 본 발명의 바람직한 실시예에서, 제어부(50)는 음성출력기능의 설정여부에 따라 VXML 인코더부(30)에서 생성된 VXML 파일을 음성신호 변환부(70) 또는 VXML 파일 저장부(90) 로 전송한다. The controller 50 controls the overall operation of the scanning device 100. In particular, in a preferred embodiment of the present invention, the control unit 50 is the voice signal conversion unit 70 or VXML file storage unit 90 to the VXML file generated by the VXML encoder unit 30 depending on whether the voice output function is set or not. To send.

음성신호 변환부(70)는 VXML 인코더부(30)에서 생성된 디지털 포맷의 VXML 파일을 아날로그 음성신호로 변환하여, 음성출력부(80)로 전송한다. 음성출력부(80)는 음성신호 변환부(70)로부터 제공받은 음성신호를 외부로 출력한다.The voice signal converter 70 converts the VXML file of the digital format generated by the VXML encoder 30 into an analog voice signal and transmits the analog voice signal to the voice output unit 80. The voice output unit 80 outputs the voice signal provided from the voice signal converter 70 to the outside.

제2 저장부(90)는 VXML 인코더부(30)에서 생성된 디지털 포맷의 VXML 파일을 저장한다. 제2 저장부(90)에 저장된 VXML 파일은 인터페이스부(60)를 통하여 외부 디바이스(110)로 전송될 수 있으며, 음성신호 변환부(70)에 의해 음성신호로 변환 된 후, 음성출력부(80)를 통해 외부로 출력될 수도 있다.The second storage unit 90 stores the VXML file in the digital format generated by the VXML encoder unit 30. The VXML file stored in the second storage unit 90 may be transmitted to the external device 110 through the interface unit 60, and after being converted into a voice signal by the voice signal conversion unit 70, the voice output unit ( 80 may be output to the outside.

도 2는 본 발명에 따른 VXML을 지원하는 스캐닝 기기를 이용한 음성출력방법의 설명에 제공되는 흐름도이다. 2 is a flowchart provided to explain a voice output method using a scanning device supporting VXML according to the present invention.

도 1 및 도 2를 참조하면, 먼저 S10 단계 이전에, 스캐닝 기기에 전원이 인가되고, 사용자에 의해 선택된 문서가 원고대(미도시) 위에 올려진 상태를 가정한다. 또한, 본 발명의 바람직한 실시예에서 사용자는 스캐닝을 수행하기 전에 조작 패널 상의 메뉴버튼을 클릭하여 스캐닝할 문서의 내용을 음성으로 출력하는 음성출력기능을 설정할 수 있으며, 출력될 음성의 형태를 설정할 수도 있다. 사용자가 음성출력기능을 설정하지 않고 스캐닝을 수행하면, 디폴트된 값에 따라 음성출력기능의 수행 여부가 결정된다. 이와 마찬가지로, 사용자가 출력될 음성의 형태를 설정하지 않으면, 디폴트 값에 따라 출력음성의 형태가 결정된다.1 and 2, first, before step S10, power is supplied to the scanning device, and it is assumed that a document selected by a user is placed on a document glass (not shown). In addition, in a preferred embodiment of the present invention, the user can set a voice output function for outputting the contents of the document to be scanned by voice by clicking a menu button on the operation panel before scanning, and can also set the type of voice to be output. have. When the user performs scanning without setting the voice output function, whether to perform the voice output function is determined according to the default value. Similarly, if the user does not set the type of voice to be output, the type of output voice is determined according to the default value.

먼저, 조작 패널(16) 상의 입력부(12)에 구비된 스캔동작개시버튼을 통해 사용자에 의해 스캔 명령이 수행되면, 스캐닝부(10)는 원고를 스캐닝하여 화상 데이터를 생성하고, 생성된 화상 데이터를 OCR 엔진부(20)에 제공한다(S210). 한편, 도 2에 도시되지 않았지만, 인터페이스부(50)를 통해 외부 디바이스(110)(ex: 호스트)로부터 스캐닝을 위한 소정 데이터가 제공되는 경우, 스캐닝부(10)는 외부 디바이스(110)로부터 수신한 데이터를 화상 데이터로 변환하여 OCR 엔진부(20)에 제공한다. First, when a scan command is performed by a user through a scan operation start button provided in the input unit 12 on the operation panel 16, the scanning unit 10 scans an original to generate image data, and generates the generated image data. It provides to the OCR engine unit 20 (S210). Although not shown in FIG. 2, when predetermined data for scanning is provided from the external device 110 (eg, a host) through the interface unit 50, the scanning unit 10 receives from the external device 110. The data is converted into image data and provided to the OCR engine unit 20.

OCR 엔진부(20)는 광학장치를 이용하여 스캐닝부(10)로부터 제공받은 화상 데이터를 중에서 문자들만을 인식하고, 인식된 문자들을 VXML 인코더부(30)로 전송 한다(S220).The OCR engine unit 20 recognizes only characters among the image data provided from the scanning unit 10 using the optical device, and transmits the recognized characters to the VXML encoder 30 (S220).

VXML 인코더부(30)는 제1 저장부(40)에 저장된 출력음성값 중 미리 설정된 소정 출력음성값에 따라 OCR 엔진부(20)로부터 전송받은 문자들을 다양한 음성 형태로 인코딩하여 디지털 포맷의 VXML 파일을 생성한다(S230). 제1 저장부(40)는 룩업테이블의 형태로 다양한 출력음성값을 저장하고 있다. 아래의 표 1은 본 발명의 바람직한 실시예에 따라 제1 저장부에 룩업테이블의 형태로 저장된 다양한 출력음성값을 나타낸다. The VXML encoder 30 encodes the characters received from the OCR engine unit 20 in various voice forms according to a predetermined output voice value among the output voice values stored in the first storage unit 40 to form a VXML file in a digital format. It generates (S230). The first storage unit 40 stores various output voice values in the form of a lookup table. Table 1 below shows various output voice values stored in the form of a lookup table in the first storage unit according to a preferred embodiment of the present invention.

출력음성값  Output voice value 음성 형태 Voice mode 00 00 남자 음성  Man voice 01 01 여자 음성  Woman voice 10 10 아이 음성  Child voice

표 1을 참조하면, 출력음성값이 '00'으로 설정되어 있는 경우, VXML 인코더부(30)는 OCR 엔진부(20)로부터 전송받은 문자들을 남자 음성의 형태로 인코딩하여 VXML 파일을 생성한다. 이와 마찬가지로, 출력음성값이 각각 '01' 및 '10'으로 설정되어 있는 경우, VXML 인코더부(30)는 OCR 엔진부(20)로부터 전송받은 문자들을 각각 여자 음성 및 아이 음성의 형태로 인코딩하여 VXML 파일을 생성한다. 표 1에서 출력음성값은 남자 음성, 여자 음성, 아이 음성의 3가지로 분류되었지만, 이 밖에 다양한 음성 형태를 출력음성값으로 추가할 수 있다. Referring to Table 1, when the output voice value is set to '00', the VXML encoder 30 generates a VXML file by encoding characters received from the OCR engine unit 20 in the form of a male voice. Similarly, when the output voice values are set to '01' and '10', respectively, the VXML encoder 30 encodes the characters received from the OCR engine unit 20 in the form of a female voice and a child voice, respectively. Create a VXML file. In Table 1, the output voice values are classified into three types: male voice, female voice, and child voice. However, various voice types may be added as output voice values.

이러한 출력음성값은 제품 제조자에 의해 디폴트 값으로 미리 설정되는 것이 일반적이며, 또한 사용자에 의해 다른 값으로 설정될 수 있다. 예를 들어, 디폴트 값이 '00'인 상태에서 사용자가 출력음성값을 '01'로 변경 설정하면, 여자 음성의 형태로 인코딩된 VXML 파일이 생성될 것이다.This output voice value is generally set in advance to a default value by the product manufacturer, and may also be set to another value by the user. For example, if the user changes the output voice value to '01' while the default value is '00', a VXML file encoded in the form of a female voice will be generated.

제어부(50)는 음성출력기능의 설정여부에 따라 VXML 인코더부(30)에서 생성된 VXML 파일을 음성신호 변환부(70) 또는 VXML 파일 저장부(90)로 전송한다.The controller 50 transmits the VXML file generated by the VXML encoder 30 to the voice signal converter 70 or the VXML file storage 90 according to whether the voice output function is set.

즉, 사용자에 의해 음성출력기능이 설정되어 있거나(S240), 디폴팅 값이 음성출력기능이 수행되도록 설정되어 있는 경우(S240), 제어부(50)는 VXML 인코더부(30)에서 생성된 디지털 포맷의 VXML 파일을 음성신호 변환부(70)로 전송한다. 이어서, 음성신호 변환부(70)는 디지털 포맷의 VXML 파일을 아날로그 음성신호로 변환한다. 변환된 아날로그 음성신호는 음성출력부(80, ex:스피커)를 통하여 외부로 출력된다(S250). That is, when the voice output function is set by the user (S240), or when the default value is set to perform the voice output function (S240), the controller 50 generates the digital format generated by the VXML encoder 30. The VXML file is transmitted to the voice signal conversion unit 70. Subsequently, the voice signal converter 70 converts the VXML file in digital format into an analog voice signal. The converted analog voice signal is output to the outside through the voice output unit 80 (ex: speaker) (S250).

한편, 사용자에 의해 음성출력기능이 수행되지 않도록 설정되어 있거나(S240), 디폴팅 값이 음성출력 기능이 수행되지 않도록 설정되어 있는 경우(S240), 제어부(50)는 VXML 인코더부(30)에서 생성된 디지털 포맷의 VXML 파일을 제2 저장부(90)에 저장시킨다(S260). 이와 같이, 제2 저장부(90)에 저장된 VXML 파일은 인터페이스부(60)를 통하여 외부 디바이스로 전송될 수 있다. 또한, 제2 저장부(90)에 저장된 VXML 파일을 음성신호로 출력하라는 사용자의 요청이 있는 경우, 제어부(50)는 제2 저장부(90)에 저장된 VXML 파일을 음성신호 변환부(70)로 전송하여 음성신호로 변환한 후, 음성출력부(80)를 통해 출력할 수도 있다.On the other hand, if the voice output function is set not to be performed by the user (S240), or if the default value is set to not perform the voice output function (S240), the control unit 50 in the VXML encoder unit 30 The generated VXML file of the digital format is stored in the second storage unit 90 (S260). As such, the VXML file stored in the second storage unit 90 may be transmitted to the external device through the interface unit 60. In addition, when a user requests to output a VXML file stored in the second storage unit 90 as a voice signal, the controller 50 converts the VXML file stored in the second storage unit 90 into the voice signal conversion unit 70. After converting into a voice signal, it may be output through the voice output unit 80.

이상에서 설명한 바와 같이, 본 발명에 의하면, 스캐닝된 화상 데이터 중에서 문자만을 인식한 후, 음성신호로 변환하여 출력할 수 있다. 따라서, 맹인들이 점자책을 사용하는 것과 같이 번거로운 작업을 거치지 않고도 책에 기재된 내용을 음성으로 들을 수 있는 장점이 있다.As described above, according to the present invention, after recognizing only a character from the scanned image data, it can be converted into an audio signal and output. Therefore, there is an advantage that the blind can hear the contents described in the book without the troublesome work such as using braille books.

또한, 본 발명에 의하면, OCR 엔진부에서 인식된 문자들을 국제표준포맷인 VXML 파일로 변환하여 저장하므로, VXML을 지원할 수 있는 다양한 종류의 장치와 호환이 용이하며, 이에 따라 스캔한 정보의 이동과 관리가 보다 쉬워지는 장점이 있다. In addition, according to the present invention, since the characters recognized by the OCR engine unit is converted into a VXML file, which is an international standard format, it is easy to be compatible with various kinds of devices capable of supporting VXML. The advantage is easier management.

이상에서는 본 발명의 바람직한 실시예에 대해서 도시하고 설명하였으나, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위에 있게 된다. Although the preferred embodiments of the present invention have been illustrated and described above, the present invention is not limited to the specific embodiments described above, and the present invention is not limited to the specific embodiments of the present invention without departing from the spirit of the present invention as claimed in the claims. Anyone skilled in the art can make various modifications, as well as such modifications that fall within the scope of the claims.

Claims (5)

외부 디바이스와 연결가능한 스캐닝 기기에 있어서,A scanning device connectable to an external device, 화상 데이터를 생성하는 스캐닝부;A scanning unit which generates image data; 생성된 상기 화상 데이터들 중에서 문자만을 인식하고, 인식된 문자들을 출력하는 OCR(Optical Character Reader) 엔진부;An OCR (Optical Character Reader) engine unit for recognizing only a character among the generated image data and outputting the recognized characters; 복수 개의 음성 형태에 각각 대응되는 복수 개의 출력음성값을 룩업테이블의 형태로 저장하는 제1 저장부;A first storage unit which stores a plurality of output voice values corresponding to the plurality of voice types in the form of a lookup table; 상기 복수 개의 출력음성값 중에서 미리 설정된 어느 하나의 출력음성값에 따라 상기 OCR 엔진부로부터 전송받은 문자들을 소정의 음성 형태로 인코딩하여 디지털 포맷의 VXML(Voice eXtensible Markup Language) 파일을 생성하는 VXML 인코더부; 및A VXML encoder that generates a VXML (Voice eXtensible Markup Language) file in digital format by encoding characters received from the OCR engine unit in a predetermined voice form according to one of the preset output voice values among the plurality of output voice values. ; And 음성출력기능이 설정된 경우, 상기 VXML 인코더부에서 생성된 디지털 포맷의 VXML 파일을 음성신호로 변환하여 출력하는 음성신호 변환부;를 포함하는 것을 특징으로 하는 VXML을 지원하는 스캐닝 기기.And a voice signal conversion unit for converting the digital format VXML file generated by the VXML encoder unit into a voice signal and outputting the voice signal when the voice output function is set. 제1항에 있어서, The method of claim 1, 상기 VXML 인코더부에서 생성된 상기 디지털 포맷의 VXML 파일을 저장하는 제2 저장부;를 더 포함하는 것을 특징으로 하는 VXML을 지원하는 스캐닝 기기.And a second storage unit for storing the VXML file of the digital format generated by the VXML encoder unit. 제2항에 있어서, The method of claim 2, 음성출력기능의 설정여부를 판단하여, Determine whether the audio output function is set, 음성출력기능이 설정된 경우, 상기 VXML 인코더부에서 생성된 디지털 포맷의 VXML 파일을 상기 음성신호 변환부로 전송하고, When the audio output function is set, transmitting the VXML file of the digital format generated by the VXML encoder to the voice signal converter, 음성출력기능이 설정되지 않은 경우, 상기 VXML 인코더부에서 생성된 상기 디지털 포맷의 VXML 파일을 상기 제2 저장부에 저장하는 것을 특징으로 하는 제어부;를 더 포함하는 것을 특징으로 하는 VXML을 지원하는 스캐닝 기기.If the audio output function is not set, the control unit, characterized in that for storing the VXML file of the digital format generated by the VXML encoder unit to the second storage unit; Scanning to support VXML further comprises a device. 제3항에 있어서, The method of claim 3, 상기 제2 저장부에 저장된 VXML 파일을 외부 디바이스로 전송하기 위한 인터페이스부;를 더 포함하는 것을 특징으로 하는 VXML을 지원하는 스캐닝 기기.And an interface unit for transmitting the VXML file stored in the second storage unit to an external device. 화상 데이터를 생성하는 단계;Generating image data; 상기 화상 데이터들 중에서 문자만을 인식하는 단계;Recognizing only a character among the image data; 인식한 상기 문자들을 미리 설정된 소정 출력음성값에 대응되는 음성 형태로 인코딩하여 디지털 포맷의 VXML 파일을 생성하는 단계; Generating a VXML file in a digital format by encoding the recognized characters into a voice form corresponding to a predetermined output voice value; 음성출력기능의 설정여부를 판단하는 단계; 및Determining whether the audio output function is set; And 음성출력기능이 설정된 경우, 상기 VXML 파일을 음성신호로 변환하여 출력하는 단계;를 포함하는 것을 특징으로 하는 VXML을 지원하는 스캐닝 기기를 이용한 음성출력방법. When the voice output function is set, converting the VXML file into a voice signal and outputting the voice signal.
KR1020050046456A 2005-05-31 2005-05-31 The scanning device which supports voice extensible markup language and the method of outputting sound using it KR20060124495A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020050046456A KR20060124495A (en) 2005-05-31 2005-05-31 The scanning device which supports voice extensible markup language and the method of outputting sound using it

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050046456A KR20060124495A (en) 2005-05-31 2005-05-31 The scanning device which supports voice extensible markup language and the method of outputting sound using it

Publications (1)

Publication Number Publication Date
KR20060124495A true KR20060124495A (en) 2006-12-05

Family

ID=37729244

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050046456A KR20060124495A (en) 2005-05-31 2005-05-31 The scanning device which supports voice extensible markup language and the method of outputting sound using it

Country Status (1)

Country Link
KR (1) KR20060124495A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101111081B1 (en) * 2009-04-15 2012-03-14 탐투스 주식회사 The apparatus for outputing to sound signal output from the scanner with chevron-shape table

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101111081B1 (en) * 2009-04-15 2012-03-14 탐투스 주식회사 The apparatus for outputing to sound signal output from the scanner with chevron-shape table

Similar Documents

Publication Publication Date Title
JP7180330B2 (en) Information processing system, information processing device, and method
US11355106B2 (en) Information processing apparatus, method of processing information and storage medium comprising dot per inch resolution for scan or copy
US9648180B2 (en) Information processing system performing operation based on tag information, information processing device, portable terminal and non-transitory computer readable recording medium
JP7188036B2 (en) Information processing device, information processing system, and method
KR20190142223A (en) Printing system, control method, and server
US20050122537A1 (en) Combination machine having an image data conversion function and image data conversion method therefor
KR20060124495A (en) The scanning device which supports voice extensible markup language and the method of outputting sound using it
KR20130110255A (en) Image forming apparatus capable of printing of braille information and qr code
US20080212145A1 (en) Image forming apparatus for visually impaired people and image forming method of the image forming apparatus
JPH11119790A (en) Optical character recognition device, and storage medium where optical character recognition program is recorded
JP2019083497A (en) Image processing apparatus and operation control method thereof
US11843730B2 (en) Information processing method that converts a telephone function code included in destination information to a fax transmission function code, and storage medium
JP7388079B2 (en) Information transmitting device, information transmitting method and program
KR100370764B1 (en) Voice document input method and apparatus
KR100408279B1 (en) Apparatus and method for printing and transmitting data
KR100366031B1 (en) Method for transmitting of cover sheet in the facsimile
KR100561350B1 (en) Multi-Function copier capable of translating into another language and a method thereof
KR100571789B1 (en) Multi-Function copier capable of trenslating into another language and transferring to image and a method thereof
JP2021144645A (en) Instruction transmitter, instruction transfer system, instruction transmission method, and program
JP2024034228A (en) Information processing system, method for controlling portable terminal and image processing apparatus, and program
JP2014053690A (en) Facsimile server and facsimile server system
JP4702378B2 (en) Image processing device
JP2005176008A (en) Facsimile machine
JP2010068197A (en) Image processor
KR19980077479A (en) Complex data transmission method and device

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination