KR20020006223A - Automatic Indexing Robot System And A Method - Google Patents

Automatic Indexing Robot System And A Method Download PDF

Info

Publication number
KR20020006223A
KR20020006223A KR1020000039749A KR20000039749A KR20020006223A KR 20020006223 A KR20020006223 A KR 20020006223A KR 1020000039749 A KR1020000039749 A KR 1020000039749A KR 20000039749 A KR20000039749 A KR 20000039749A KR 20020006223 A KR20020006223 A KR 20020006223A
Authority
KR
South Korea
Prior art keywords
server
data
index
image
character
Prior art date
Application number
KR1020000039749A
Other languages
Korean (ko)
Inventor
임무혁
Original Assignee
임무혁
주식회사엔디엘
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 임무혁, 주식회사엔디엘 filed Critical 임무혁
Priority to KR1020000039749A priority Critical patent/KR20020006223A/en
Priority to JP2001206836A priority patent/JP2002082969A/en
Publication of KR20020006223A publication Critical patent/KR20020006223A/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)

Abstract

PURPOSE: An automatic index robot system and a processing method using the system are provided to index text data or image as a text or word processor data, a representative screen of a video, and data for progressing graphic data as an image automatically. CONSTITUTION: A server(10) stores information, a keyword, or an image index as an XML document, a WPS data, an image scan, a moving picture data, and a photographing etc. A robot PC(20) searches information stored in the server(10) through a keyword search or a document recognizing device or extracts a vector image data. Processes are described as follows. A character data type is automatically indexed in accordance with data stored in the server(10). The original image scanned in accordance with data stored in the server(10) is automatically indexed. A photograph image is automatically indexed in accordance with data stored in the server(10).

Description

자동 색인 로봇 시스템 및 이를 이용한 처리 방법 { Automatic Indexing Robot System And A Method }Automatic Indexing Robot System And A Method}

본 발명은 인터넷 상에서 웹사이트 검색 시 문서의 검색이 용이한 구조 형태로 검색엔진에 의해 만들어지는 색인(Index)에 관한 것으로, 더 상세하게는 텍스트나 워드프로세서 데이터 등의 텍스트형 자료나 이미지, 비디오의 대표화면, 그래픽 데이터를 이미지로 전개한 자료들을 자동으로 색인화할 수 있도록 한, 자동 색인 로봇 시스템 및 이를 이용한 처리 방법에 관한 것이다.The present invention relates to an index created by a search engine in a structure in which a document can be easily searched when searching a website on the Internet. More specifically, the present invention relates to textual data such as text or word processor data, images, and videos. The present invention relates to an automatic indexing robot system and a method of processing using the same, which automatically index data representing a representative screen and graphic data of an image.

일반적으로, 정보 검색이라고 하면 도서관에서 도서에 대한 정보를 정리해 사용하거나 전문가 집단이 만든 색인집을 뒤적이는 작업 정도로 받아들여졌었다.In general, information retrieval has been accepted as a task of organizing information about books in a library or searching an index book created by a group of experts.

이때, 중요한 정보는 대개 문서로 작성돼 있기 때문에 구축된 정보를 이용하기 위해서는 문서 담당자에게 의뢰하는 방식을 주로 사용했다.At this time, since important information is usually written in a document, a method of requesting a person in charge of a document was mainly used to use the constructed information.

그런데, 컴퓨터의 성능이 향상되고 가격이 저렴해지면서 정보의 내용은 문서에서 컴퓨터로 옮겨졌고, 찾는 방법도 전문가에서 검색용 소프트웨어가 대신하게 됐다.However, as computers become more powerful and less expensive, the content of information has moved from documents to computers, and search methods have been replaced by specialists.

특히, 검색용 소프트웨어의 등장은 정보화 혁명을 일으키는데 있어서 주도적인 역할을 했다.In particular, the emergence of search software played a leading role in causing the information revolution.

정보의 양이 기하급수적으로 증가해도 과거보다 훨씬 신속하고 정확하게 정보를 찾을 수 있게 됐으며, 인터넷의 확산과 더불어 이젠 전문 분야뿐만 아닌 실생활에까지 파고든 상황이다.The exponential growth of information has made it possible to find information much more quickly and accurately than in the past, and with the spread of the Internet, it is now into the real world as well as the specialty.

즉, 과거에는 쉽게 접근하지 못했던 다양하고도 방대한 양의 정보를 손쉽게 접할 수 있는 시대를 맞이하게 된 것이다.In other words, we have reached the age when we can easily access various and vast amounts of information that were not easily accessible in the past.

따라서, 정보 검색 시스템의 성능은 전적으로 정확성과 신속성에 달려 있으며, 이 가운데 검색의 정확성을 높이는 데는 검색어로서 색인어의 역할이 매우 중요하다.Therefore, the performance of the information retrieval system depends entirely on the accuracy and speed, and the role of the index as a search word is very important to increase the accuracy of the search.

한국어 색인은 한국어 문서에서 나타나는 문자를 대상으로 하는데, 주요 문자는 한글이지만 이밖에도 영문자, 한자, 숫자 및 기타 여러 기호 문자가 사용되기 때문에 외국어 문자에 대해서도 색인어 작업을 하는 것이 좋다.The Korean index targets the characters that appear in Korean documents. The main characters are Hangul, but it is also recommended to work with foreign language characters because alphabets, Chinese characters, numbers, and many other symbolic characters are used.

그렇게 하기 위해서는 형태소 분석 단계에서 문자 상태를 구분해 형태소 분석을 하고, 자동 색인 시스템을 거쳐 색인어를 추출하여야 한다.In order to do this, in the morphological analysis step, the character states are separated and morphologically analyzed, and the index word is extracted through an automatic indexing system.

또한, 색인어 추출 과정에서는 불규칙 활용하는 용언에 대해서는 원형을 복원해 기본형으로 변환하기도 하며, 추출된 색인어는 등록 단계에서 불용어 검사와 복합 명사 확장 처리를 해야 한다.In addition, in the index word extraction process, irregular terms are restored and converted into a basic form, and the extracted index word must be processed for stopwords and compound noun expansion during registration.

한편, 정보 검색이란 단적으로 사용자가 원하는 정보를 찾아주는 과정이며, 이런 검색의 정확성을 높이기 위해 여러 기법이 사용된다.Meanwhile, information retrieval is simply a process of finding information desired by a user, and various techniques are used to increase the accuracy of such retrieval.

그중에서 정형화되지 않은 많은 양의 문서에 적합한 역파일 기법이 널리 이용되는데, 역파일 기법은 기본적으로 색인어에 의존하기 때문에 색인어를 구하는 방법이 전체 검색 성능을 좌우하게 된다.Among them, the reverse file technique suitable for a large number of unstructured documents is widely used. Since the reverse file technique basically depends on the index word, the index word method determines the overall search performance.

상기 색인어를 생성하는 방법은 수작업에 의한 수동 색인과 형태소 분석 원리에 의한 자동 색인 방법으로 구분하는데, 자동 색인은 컴퓨터를 이용해 형태소를 분석하고 그 결과를 이용해서 색인어를 추출한다.The index word generation method is divided into a manual manual indexing method and an automatic indexing method based on a morphological analysis principle. The automatic indexing method analyzes the morphemes using a computer and extracts the index words using the results.

한국어 자동 색인 시스템은 한국어를 바탕으로 제작된 문서로부터 색인어를 추출하는 것으로, 먼저 형태소 분석 시스템을 이용해 형태소를 분석한 후에 분석한 결과 중에서 색인어로 적합하지 않은 불용어를 제거해 최종적으로 색인어를 추출한다.The Korean automatic indexing system extracts index words from documents produced on the basis of Korean. First, after analyzing the morphemes by using the morpheme analysis system, the index words are finally extracted by removing the stopwords that are not suitable for the index words.

여기서, 한국어는 한글을 비롯해 영문자, 숫자, 한자, 일문자, 그리스 문자, 러시아 문자, 및 기타 기호 문자 등이 포함되며, 한국어는 언어 분류 관점에서 교착어의 특성을 지니고 있어서 낱말을 곧바로 색인어로 사용하기에는 어려우므로 별도의 처리 과정을 거쳐야 한다.Here, Korean includes alphabets, numerals, Chinese characters, Japanese, Greek, Russian, and other symbolic characters, as well as Korean characters, and Korean has the characteristics of deadlocks in terms of language classification. It is difficult, so it must go through a separate process.

이때, 별도의 처리 과정이란 형태소 분석을 말하는데, 한국어의 특성에 적합한 형태소 분석이 자동 색인에서 가장 중요한 역할을 한다고 할 수 있다.In this case, the separate processing refers to morphological analysis, which may be said to be the most important role in the automatic index.

한국어 형태소 분석에서 처리하는 문자는 한글 문자를 비롯해 영문자, 일문자, 러시아 문자 등과 같은 외국어 문자에 대해서도 분석을 하며, 부분적으로는 한자어에 대해서도 분석을 한다.Characters processed in Korean morphological analysis are analyzed not only for Korean characters, but also for foreign characters such as English letters, Japanese characters, and Russian characters.

여기서, 색인은 정보를 검색할 수 있도록 돕는 것으로, 특정한 원칙이나 목적에 의해 정리된 것을 말한다.Here, the index is used to help search for information, which is organized according to a specific principle or purpose.

즉, 검색자와 정보를 연결시켜 주는 매개체라고 할 수 있다.In other words, it is a medium that connects searchers and information.

따라서, 색인은 기본적으로 선별 기능(다른 것과의 구별)과 지시 기능(원 정보를 가리킴)을 갖고 있다.Therefore, the index basically has a sorting function (distinguish from others) and a pointing function (pointing to the original information).

색인은 그 종류가 다양한데, 크게 주제 색인과 비주제 색인으로 나눌 수 있는데, 주제 색인은 정보 소스로부터 주제를 가리키는 요소를 색인으로 선정하는 것이고, 비주제 색인은 주제와 관련없는 요소를 색인으로 선정하는 것이다.There are various types of indexes, which can be divided into topic indexes and non-topic indexes. The topic index is an index that selects an element that points to a topic from an information source, and a non-topic index is an index that selects elements not related to a topic. will be.

먼저, 비주제 색인에 대해서 자세히 살펴보면, 비주제 색인은 주제와 관련이 없는 날짜, 인명, 제목 등과 같이 단순한 자료를 모아놓은 것이기 때문에 색인 작업에 별다른 어려움이 없다.First, take a closer look at the non-topic index, because there is no difficulty in indexing because the non-topic index is a collection of simple data such as dates, names, and titles that are not relevant to the subject.

따라서, 컴퓨터를 이용한 데이터베이스를 활용해 쉽게 색인 정보를 축척하는 것이 가능하고, 검색도 매우 용이하다.Therefore, it is possible to easily scale index information using a computer-based database, and search is very easy.

이에 비해 주제 색인은, 정보 소스로부터 주제가 될만한 요소를 찾아내야 하기 때문에 그 작업이 지능적이고 시간도 많이 걸린다.In contrast, topic indexes are smart and time-consuming because they need to find elements that can be thematic from information sources.

이런 이유로, 전문 교육을 받은 사람이나 해당 분야에 전문 지식을 갖춘 사람이 작업을 해야 하는데, 요즘처럼 방대한 양의 문헌 자료가 쏟아지는 상황에서는 사실상 불가능한 작업이다.For this reason, people with professional training or those with expertise in the field should work, which is virtually impossible in today's world with a large amount of literature.

이러한 문제점을 보완하기 위해 사람에 의한 주제 색인 작업이 아닌, 컴퓨터를 이용해 본문에 있는 단어를 주제어로 선정하고 검색 키워드로 사용하는 본문 검색 시스템이 두각을 나타내고 있다.In order to solve this problem, a text search system using a computer as a subject and selecting a word in the text as a search keyword, rather than a subject indexing work by humans, stands out.

따라서, 검색 엔진을 구성하는 요소 중 색인기(Indexer)는 검색 시스템에서 가장 핵심적인 부분이라고 할 수 있다.Therefore, the indexer of the elements constituting the search engine can be said to be the most essential part of the search system.

형태소 분석에서 추출된 명사 리스트와 메타 정보를 어떤 파일 구조로 저장하느냐에 따라 색인 파일 작성 속도, 색인 파일 크기, 검색 속도가 좌우되기 때문이다.This is because the index file creation speed, index file size, and retrieval speed depend on the file structure of the noun list and meta information extracted from the stemming.

그러므로, 색인기 구조는 일반적으로 잘 공개되지 않는 부분이기도 하다.Therefore, the indexer structure is also a part that is not generally well known.

색인 파일 구조는 일반적으로 "역파일(Inverted File) 기법"을 많이 이용하는데, B 트리를 이용한 역파일을 이용하는 제품이 많이 있으며, 문서간의 랭킹별, 시간별 정보는 양방향으로 링크된 리스트로 구성된다.The index file structure generally uses the "inverted file technique". There are many products using the inverted file using the B tree, and the ranking and time information between documents is composed of a bidirectional linked list.

이외에도 이러한 파일 구조의 변형을 이용한 다양한 색인 파일 구조가 존재하게 된다.In addition, there are various index file structures using the modification of the file structure.

그러나, 상기와 같은 종래의 색인 방식은 스캐닝 후 일일이 문자 인식을 할 수 있는 PC로 전송하거나 이미지 패턴 분석 전용 워크스테이션을 통한 주제 추출 및 재입수를 함으로써, 공정상 많은 시간이 소요되는 문제점이 있었다.However, the conventional index method as described above has a problem in that it takes a lot of time in the process by transferring to a PC capable of character recognition after scanning or subject extraction and reentry through an image pattern analysis workstation.

이에 본 발명은 상기한 바와 같은 종래의 문제점을 해소시키기 위하여 창안된 것으로, 텍스트나 워드프로세서 데이터 등의 텍스트형 자료나 이미지, 비디오의 대표화면, 그래픽 데이터를 이미지로 전개한 자료들을 자동으로 색인화할 수 있도록 한, 자동 색인 로봇 시스템 및 이를 이용한 처리 방법을 제공하는데 그 목적이 있다.Accordingly, the present invention has been devised to solve the above-mentioned problems, and it is possible to automatically index the text-based data such as text and word processor data, images, representative screens of video, and graphic data as images. An object of the present invention is to provide an automatic indexing robot system and a processing method using the same.

상기 목적을 달성하기 위한 본 발명의 자동 색인 로봇 시스템은,The automatic index robot system of the present invention for achieving the above object,

XML 문서, WPS 자료, 이미지 스캔, 동영상 자료, 사진 촬영 등의 정보 및 색인어 혹은 이미지 색인을 저장하는 서버와 ;A server for storing information such as XML documents, WPS data, image scanning, moving picture data, photographing, etc. and index words or image indexes;

상기 서버에 저장된 정보를 색인어 검색 또는 문자 인식기를 통해 검색하거나 벡터 이미지 데이터를 추출하는 로봇 PC로 구성함을 특징으로 한다.Characterized in that it is configured as a robot PC to search the information stored in the server through an index word search or a character recognizer or extract the vector image data.

또한 상기 목적을 달성하기 위한 본 발명의 자동 색인 로봇 시스템을 이용한 처리 방법은,In addition, the processing method using the automatic index robot system of the present invention for achieving the above object,

서버에 저장된 자료에 따라 문자 자료형을 자동으로 색인하는 제 1 과정과 ;A first step of automatically indexing character data types according to data stored in the server;

서버에 저장된 자료에 따라 스캐닝한 원문 이미지를 자동으로 색인하는 제 2 과정 ; 및,A second step of automatically indexing the scanned original image according to the data stored in the server; And,

서버에 저장된 자료에 따라 사진 이미지를 자동으로 색인하는 제 3 과정으로 이루어짐을 특징으로 한다.And a third process of automatically indexing the photographic image according to the data stored in the server.

도 1 은 본 발명에 따른 자동 색인 로봇 시스템 구성도,1 is a block diagram of an automatic index robot system according to the present invention,

도 2 는 본 발명에 따른 자동 색인 로봇 시스템을 이용한 처리 방법의 동작 순서도이다.2 is an operation flowchart of a processing method using an automatic index robot system according to the present invention.

<도면의 주요부분에 대한 부호의 설명><Description of the symbols for the main parts of the drawings>

10 : 서버 20 : 로봇 PC10: server 20: robot PC

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예를 설명하면 다음과 같다.Hereinafter, exemplary embodiments of the present invention will be described with reference to the accompanying drawings.

본 발명에 따른 자동 색인 로봇 시스템은 도 1 에 도시한 바와 같이, XML 문서, WPS 자료, 이미지 스캔, 동영상 자료, 사진 촬영 등의 정보 및 색인어 혹은 이미지 색인을 저장하는 서버(10)와 ; 상기 서버(10)에 저장된 정보를 색인어 검색 또는 문자 인식기를 통해 검색하거나 벡터 이미지 데이터를 추출하는 로봇 PC(20)로 구성한다.As shown in FIG. 1, the automatic index robot system according to the present invention includes a server 10 for storing information such as XML documents, WPS data, image scanning, moving picture data, photographing, and index words or image indexes; The information stored in the server 10 is configured as a robot PC 20 for searching through an index word search or a character recognizer or extracting vector image data.

상기와 같이 구성한 본 발명의 자동 색인 로봇 시스템은, 먼저 서버(10)는 로봇 PC(20)와 상호 통신하는 기능과, 상기 로봇 PC(20)로부터 색인을 돌려 받아서 체계적으로 색인어 혹은 이미지 색인을 저장하는 기능을 갖추어야 한다.In the automatic index robot system of the present invention configured as described above, the server 10 first communicates with the robot PC 20, and receives the index from the robot PC 20 and systematically stores the index word or the image index. It must have the ability to

한편, 상기 로봇 PC(20)는 텍스트형 자료의 경우 하드웨어(Hardware)적 혹은 소프트웨어(Software)적인 색인어 검색 기능을 갖추어야 하고, 원문 이미지 자료의 경우 문자 인식 보드(Board) 혹은 문자 인식 소프트웨어를 갖추어야 하며, 사진형 이미지의 경우 벡터 데이터 추출 기능을 갖추어야 한다.On the other hand, the robot PC 20 should be equipped with a hardware or software index word search function for text-type data, and a text recognition board (Board) or text recognition software should be provided for original image data. In the case of photographic images, the vector data extraction function should be provided.

상기와 같은 기능을 갖춘 서버(10)와 로봇 PC(20)를 사용하는 자동 색인 로봇 시스템을 이용한 처리 방법은, 사용자가 색인하고자 하는 정보가 문서인 경우 상기 로봇 PC(20)는, 상기 서버(10)로부터 텍스트 데이터가 전달되면 먼저 형태소 분석 시스템을 이용해 형태소를 분석한 후에, 분석한 결과 중에서 색인어로 적합하지 않은 불용어를 필터링하여 최종적으로 색인어를 추출한다.In the processing method using the automatic indexing robot system using the server 10 and the robot PC 20 having the above functions, when the information to be indexed by the user is a document, the robot PC 20 is configured to execute the server ( When text data is transmitted from 10), the morphemes are analyzed using the morphological analysis system, and then the index words are finally extracted by filtering the stopwords that are not suitable for the index words.

여기서, 불용어(Stopword)란 분석된 색인어 중에서 색인어로 처리할 필요가 없는 불필요한 단어를 말한다.Here, stopword refers to an unnecessary word that does not need to be treated as an index word among the analyzed index words.

상기와 같이 추출한 색인어를 상기 서버(10)로 전송하여 저장시킨다.The index word extracted as described above is transmitted to the server 10 and stored.

한편, 사용자가 색인하고자 하는 정보가 스캐닝한 원문 이미지인 경우 상기 로봇 PC(20)는, 상기 서버(10)로부터 스캐닝한 이미지 자료가 전달되면 문자 인식기(도시하지 않음)를 가동시켜 문자를 인식한 후에 문자열을 추출하고, 형태소 분석 시스템을 이용해 형태소를 분석하여 분석한 결과 중에서 색인어로 적합하지 않은 불용어를 필터링하여 최종적으로 색인어를 추출한다Meanwhile, when the information to be indexed by the user is a scanned original image, the robot PC 20 recognizes a character by operating a character recognizer (not shown) when the image data scanned from the server 10 is delivered. After extracting the character string and using the morphological analysis system, the index word is finally extracted by filtering the stopwords that are not suitable for the index word among the analysis results.

상기와 같이 추출한 색인어 혹은 문자열을 상기 서버(10)로 전송하고, 상기 서버(10)는 상기 로봇 PC(20)로부터 추출한 문자열이 전송된 경우 전송된 문자열에서 색인어를 추출하여 저장시키며, 상기 문자열을 이용하여 텍스트를 보정한다.The index word or the string extracted as described above is transmitted to the server 10, and the server 10 extracts and stores the index word from the transmitted string when the string extracted from the robot PC 20 is transmitted. To correct the text.

반면에, 사용자가 색인하고자 하는 정보가 사진 이미지인 경우 상기 로봇 PC(20)는, 상기 서버(10)로부터 사진 이미지가 전달되면 먼저 사진 이미지의 벡터(Vector)를 추출하여 형태, 색상, 질감, 명도, 채도에 의한 색인을 추출한다.On the other hand, if the information that the user wants to index is a photographic image, the robot PC 20 first extracts a vector of the photographic image when the photographic image is transmitted from the server 10 to obtain a shape, color, texture, Extract indexes of brightness and saturation.

상기와 같이 추출한 사진 이미지의 색인을 상기 서버(10)로 전송하여 저장시킨다.The index of the extracted photo image is transmitted to the server 10 and stored.

상기와 같이 동작하는 본 발명의 자동 색인 로봇 시스템을 이용한 처리 방법을 정리하면, 서버에 저장된 자료에 따라 문자 자료형을 자동으로 색인하는 제 1 과정(100)과 ; 서버에 저장된 자료에 따라 스캐닝한 원문 이미지를 자동으로 색인하는 제 2 과정(200) ; 및, 서버에 저장된 자료에 따라 사진 이미지를 자동으로 색인하는 제 3 과정(300)으로 이루어진다.When the processing method using the automatic indexing robot system of the present invention operates as described above, the first process (100) for automatically indexing the character data type according to the data stored in the server; A second step (200) of automatically indexing the scanned original image according to the data stored in the server; And a third process 300 for automatically indexing the photographic image according to the material stored in the server.

상기 제 1 과정(100)을 순서도로 도시하면 도 2 에 도시한 바와 같이, 서버로부터 문자 자료형 데이터를 전달받는 제 1 단계(101)와 ; 상기 제 1 단계(101)에서 전달된 문자 자료형 데이터에서 색인어 문자열을 추출하는 제 2 단계(102) ; 및, 상기 제 2 단계(102)에서 문자열로 추출된 색인어를 상기 서버로 전송하는 제 3 단계(103)를 포함하여 이루어진다.When the first process 100 is shown in a flow chart as shown in Figure 2, the first step (101) receives the character data type data from the server; A second step (102) of extracting an index word string from the character data type data transmitted in the first step (101); And a third step 103 of transmitting the index word extracted as the character string in the second step 102 to the server.

상기 제 2 과정(200)을 순서도로 도시하면 도 3 에 도시한 바와 같이, 서버로부터 스캐닝한 원문 이미지 자료를 전달받는 제 1 단계(201)와 ; 상기 제 1 단계(201)에서 전달된 이미지 자료에서 문자열을 추출하기 위하여 문자 인식기를 가동하는 제 2 단계(202)와 ; 상기 제 2 단계(202)에서 가동한 문자 인식기에 의해 색인어 문자열을 추출하는 제 3 단계(203)와 ; 상기 제 3 단계(203)에서 추출된 색인어 혹은 문자열을 상기 서버로 전송하는 제 4 단계(204)와 ; 상기 제 4 단계(204)에서 추출한 문자열이 전송된 경우, 전송된 문자열에서 색인어를 추출하는 제 5 단계(205)와 ; 상기 제 5 단계(205)에서 추출된 색인어를 저장하는 제 6 단계(206) ; 및, 상기 제 6 단계(206)에서 저장된 색인어의 문자열을 이용하여 텍스트(Text)를 보정하는 제 7 단계(207)를 포함하여 이루어진다.As shown in FIG. 3, the second process 200 includes a first step 201 to receive original image data scanned from a server; A second step (202) of operating a character recognizer to extract a character string from the image data transmitted in the first step (201); A third step (203) of extracting an index word string by the character recognizer operated in the second step (202); A fourth step (204) of transmitting the index word or the string extracted in the third step (203) to the server; A fifth step (205) of extracting an index word from the transmitted string when the string extracted in the fourth step (204) is transmitted; A sixth step (206) of storing the index word extracted in the fifth step (205); And a seventh step 207 of correcting the text by using the character string of the index word stored in the sixth step 206.

상기 제 3 과정(300)을 순서도로 도시하면 도 4 에 도시한 바와 같이, 서버로부터 사진 이미지를 전달받는 제 1 단계(301)와 ; 상기 제 1 단계(301)에서 전달된 사진 이미지 자료에서 형태, 색상, 질감, 명도, 채도에 의한 색인을 추출하는 제 2 단계(302) ; 및, 상기 제 2 단계(302)에서 추출된 사진 이미지의 색인을 상기 서버로 전송하는 제 3 단계(303)를 포함하여 이루어진다.4, a first step 301 of receiving a photographic image from a server as shown in FIG. 4; A second step (302) of extracting an index by shape, color, texture, lightness, and saturation from the photo image data transmitted in the first step (301); And a third step 303 of transmitting the index of the photographic image extracted in the second step 302 to the server.

이상에서 상세히 설명한 바와 같이 본 발명에 따른 자동 색인 로봇 시스템및 이를 이용한 처리 방법은, 이용자에게 시각적으로 정확하고 편리한 고품질의 검색 서비스를 제공할 수 있고, 로봇에 의한 자동화로 뮤인화에 따른 공정을 단축시킬 수 있으며, 24시간 운용체계이므로 다수의 인식 시스템을 구축하지 않아도 되고, 이로 인하여 경비를 절감시킬 수 있는 효과가 있다.As described in detail above, the automatic index robot system and the processing method using the same according to the present invention can provide a user with a visually accurate and convenient high quality search service, and shorten the process due to the muinization by automation by the robot. And because it is a 24-hour operation system, there is no need to build a plurality of recognition system, thereby reducing the cost.

본 발명은 기재된 구체적인 예에 대해서만 상세히 설명되었지만 본 발명의 기술사상 범위 내에서 다양한 변형 및 수정이 가능함은 당업자에게 있어서 명백한 것이며, 이러한 변형 및 수정이 첨부된 특허청구범위에 속함은 당연한 것이다.Although the invention has been described in detail only with respect to the specific examples described, it will be apparent to those skilled in the art that various modifications and variations are possible within the spirit of the invention, and such modifications and variations belong to the appended claims.

Claims (5)

XML 문서, WPS 자료, 이미지 스캔, 동영상 자료, 사진 촬영 등의 정보 및 색인어 혹은 이미지 색인을 저장하는 서버(10)와 ;A server 10 for storing information such as XML documents, WPS data, image scanning, moving picture data, photographing, and index words or image indexes; 상기 서버(10)에 저장된 정보를 색인어 검색 또는 문자 인식기를 통해 검색하거나 벡터 이미지 데이터를 추출하는 로봇 PC(20)로 구성한 것을 특징으로 하는 자동 색인 로봇 시스템.Automatic index robot system, characterized in that configured as a robot PC (20) for retrieving the information stored in the server (10) through an index word search or a character recognizer or extract vector image data. 서버에 저장된 자료에 따라 문자 자료형을 자동으로 색인하는 제 1 과정(100)과 ;A first process (100) of automatically indexing character data types according to data stored in a server; 서버에 저장된 자료에 따라 스캐닝한 원문 이미지를 자동으로 색인하는 제 2 과정(200) ; 및,A second step (200) of automatically indexing the scanned original image according to the data stored in the server; And, 서버에 저장된 자료에 따라 사진 이미지를 자동으로 색인하는 제 3 과정(300)으로 이루어진 것을 특징으로 하는 자동 색인 로봇 시스템을 이용한 처리 방법.And a third process (300) for automatically indexing the photographic image according to the data stored in the server. 제 2 항에 있어서,The method of claim 2, 상기 제 1 과정(100)은,The first process 100, 서버로부터 문자 자료형 데이터를 전달받는 제 1 단계(101)와 ;A first step 101 of receiving character data type data from a server; 상기 제 1 단계(101)에서 전달된 문자 자료형 데이터에서 색인어 문자열을추출하는 제 2 단계(102) ; 및,A second step (102) of extracting an index word string from the character data type data transmitted in the first step (101); And, 상기 제 2 단계(102)에서 문자열로 추출된 색인어를 상기 서버로 전송하는 제 3 단계(103)를 포함하여 이루어진 것을 특징으로 하는 자동 색인 로봇 시스템을 이용한 처리 방법.And a third step (103) of transmitting the index word extracted as a character string in the second step (102) to the server. 제 2 항에 있어서,The method of claim 2, 상기 제 2 과정(200)은,The second process 200, 서버로부터 스캐닝한 원문 이미지 자료를 전달받는 제 1 단계(201)와 ;A first step 201 of receiving original image data scanned from a server; 상기 제 1 단계(201)에서 전달된 이미지 자료에서 문자열을 추출하기 위하여 문자 인식기를 가동하는 제 2 단계(202)와 ;A second step (202) of operating a character recognizer to extract a character string from the image data transmitted in the first step (201); 상기 제 2 단계(202)에서 가동한 문자 인식기에 의해 색인어 문자열을 추출하는 제 3 단계(203)와 ;A third step (203) of extracting an index word string by the character recognizer operated in the second step (202); 상기 제 3 단계(203)에서 추출된 색인어 혹은 문자열을 상기 서버로 전송하는 제 4 단계(204)와 ;A fourth step (204) of transmitting the index word or the string extracted in the third step (203) to the server; 상기 제 4 단계(204)에서 추출한 문자열이 전송된 경우, 전송된 문자열에서 색인어를 추출하는 제 5 단계(205)와 ;A fifth step (205) of extracting an index word from the transmitted string when the string extracted in the fourth step (204) is transmitted; 상기 제 5 단계(205)에서 추출된 색인어를 저장하는 제 6 단계(206) ; 및,A sixth step (206) of storing the index word extracted in the fifth step (205); And, 상기 제 6 단계(206)에서 저장된 색인어의 문자열을 이용하여 텍스트(Text)를 보정하는 제 7 단계(207)를 포함하여 이루어진 것을 특징으로 하는 자동 색인 로봇 시스템을 이용한 처리 방법.And a seventh step (207) of correcting text by using the character string of the index word stored in the sixth step (206). 제 2 항에 있어서,The method of claim 2, 상기 제 3 과정(300)은,The third process 300, 서버로부터 사진 이미지를 전달받는 제 1 단계(301)와 ;A first step 301 of receiving a photographic image from a server; 상기 제 1 단계(301)에서 전달된 사진 이미지 자료에서 형태, 색상, 질감, 명도, 채도에 의한 색인을 추출하는 제 2 단계(302) ; 및,A second step (302) of extracting an index by shape, color, texture, lightness, and saturation from the photo image data transmitted in the first step (301); And, 상기 제 2 단계(302)에서 추출된 사진 이미지의 색인을 상기 서버로 전송하는 제 3 단계(303)를 포함하여 이루어진 것을 특징으로 하는 자동 색인 로봇 시스템을 이용한 처리 방법.And a third step (303) of transmitting the index of the photographic image extracted in the second step (302) to the server.
KR1020000039749A 2000-07-11 2000-07-11 Automatic Indexing Robot System And A Method KR20020006223A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020000039749A KR20020006223A (en) 2000-07-11 2000-07-11 Automatic Indexing Robot System And A Method
JP2001206836A JP2002082969A (en) 2000-07-11 2001-07-06 Automatically indexing robot system and processing method using the system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020000039749A KR20020006223A (en) 2000-07-11 2000-07-11 Automatic Indexing Robot System And A Method

Publications (1)

Publication Number Publication Date
KR20020006223A true KR20020006223A (en) 2002-01-19

Family

ID=19677508

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000039749A KR20020006223A (en) 2000-07-11 2000-07-11 Automatic Indexing Robot System And A Method

Country Status (2)

Country Link
JP (1) JP2002082969A (en)
KR (1) KR20020006223A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100831550B1 (en) * 2002-02-01 2008-05-22 주식회사 케이티 Video Searching Apparatus and its Method using XML Hierarchy Structure
KR100933270B1 (en) * 2007-12-24 2009-12-22 엔에이치엔(주) Method, system and computer-readable recording medium for performing web search based on image information
KR101421704B1 (en) * 2006-06-29 2014-07-22 구글 인코포레이티드 Recognizing text in images
US9269013B2 (en) 2006-06-29 2016-02-23 Google Inc. Using extracted image text

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100940365B1 (en) * 2008-04-11 2010-02-04 엔에이치엔(주) Method, apparatus and computer-readable recording medium for tagging image contained in web page and providing web search service using tagged result

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100831550B1 (en) * 2002-02-01 2008-05-22 주식회사 케이티 Video Searching Apparatus and its Method using XML Hierarchy Structure
KR101421704B1 (en) * 2006-06-29 2014-07-22 구글 인코포레이티드 Recognizing text in images
US9269013B2 (en) 2006-06-29 2016-02-23 Google Inc. Using extracted image text
US9542612B2 (en) 2006-06-29 2017-01-10 Google Inc. Using extracted image text
US9760781B2 (en) 2006-06-29 2017-09-12 Google Inc. Using extracted image text
US9881231B2 (en) 2006-06-29 2018-01-30 Google Llc Using extracted image text
KR100933270B1 (en) * 2007-12-24 2009-12-22 엔에이치엔(주) Method, system and computer-readable recording medium for performing web search based on image information

Also Published As

Publication number Publication date
JP2002082969A (en) 2002-03-22

Similar Documents

Publication Publication Date Title
CN102053991B (en) Method and system for multi-language document retrieval
US6178417B1 (en) Method and means of matching documents based on text genre
US11093469B2 (en) Holistic document search
US20090112830A1 (en) System and methods for searching images in presentations
US8290270B2 (en) Method and system for converting image text documents in bit-mapped formats to searchable text and for searching the searchable text
US20020083045A1 (en) Information retrieval processing apparatus and method, and recording medium recording information retrieval processing program
Balasubramanian et al. Retrieval from document image collections
US20080162115A1 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
CN107844493B (en) File association method and system
Shin et al. Document Image Retrieval Based on Layout Structural Similarity.
US5842217A (en) Method for recognizing compound terms in a document
Fan et al. Photo-to-search: using multimodal queries to search the web from mobile devices
JP2002007413A (en) Image retrieving device
KR20020006223A (en) Automatic Indexing Robot System And A Method
CN108733687A (en) A kind of information retrieval method and system based on Text region
JP2022185874A (en) Information processing device, information processing system, information processing method, and program
JP2000231560A (en) Automatic document classification system
Springmann et al. QbS: searching for known images using user-drawn sketches
CN111241313A (en) Retrieval method and device supporting image input
Srihari et al. Finding pictures in context
Qiao et al. Large Scale Near‐Duplicate Celebrity Web Images Retrieval Using Visual and Textual Features
Smits et al. Personal semantic indexation of images using textual annotations
Toselli et al. Large-scale Systems and Applications
Tian et al. Textual ontology and visual features based search for a paleontology digital library
Banyasz Cross-lingual Semantic Search with Language Representation Pre-training

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application